大语言模型最能“说瞎话”，你信吗？

2023-09-02 08:32:12

财经新闻网消息：NJq财经新闻网

随着全球的流行，很多科技公司都推出了自己的大型语言模型。大语言模型被广泛用于为各个行业提供智能解决方案，但有时这些大模型也可以凭空编造答案，这已成为最大的担忧之一。NJq财经新闻网

机器学习监控平台AI的研究人员周四发布的一份报告显示，在顶级人工智能模型中，大语言模型最擅长“胡说八道”和“能够自信地给出错误答案”。NJq财经新闻网

NJq财经新闻网

该报告比较了 GPT-4、Meta 的 Llama 2、Meta 2 及其“幻觉”能力。NJq财经新闻网

_揭晓答案的表情包_揭示答案对吗 NJq财经新闻网

这是一家位于加拿大的初创公司。 6月份刚刚获得2.7亿美元融资，英伟达、甲骨文等公司参与投资。它是一家美国初创公司，日前刚刚获得韩国 SK 的 1 亿美元融资，谷歌也是其投资者。NJq财经新闻网

两家公司都被视为主要竞争对手。NJq财经新闻网

_揭示答案对吗_揭晓答案的表情包 NJq财经新闻网

总体而言，GPT-4 在所有测试的模型中表现最好，研究人员发现它比其前身 GPT-3.5 产生幻觉的频率更少，数学问题减少了 33% 至 50%。NJq财经新闻网

研究人员还发现，Meta 的 Llama 2 比 GPT-4 和 Llama 2 更容易产生幻觉。NJq财经新闻网

_揭示答案对吗_揭晓答案的表情包 NJq财经新闻网

在实验中，研究人员用组合学、美国总统和摩洛哥政治领导人等不同类别的问题检查了人工智能模型，“以便纳入导致大型语言模型出错的关键因素，要求它们执行多项任务”。对信息进行推理的步骤。”NJq财经新闻网

AI联合创始人兼首席执行官亚当表示，这是第一份“全面研究（AI模型）幻觉发生率”的报告。NJq财经新闻网

这份报告发布之际，随着人工智能进入快车道，人工智能系统对错误信息产生了比以往更多的担忧。NJq财经新闻网

“人工智能幻觉”（）是指大型语言模型完全捏造信息，表现得就像在讲述事实一样。NJq财经新闻网

例如，在谷歌二月份为巴德发布的宣传视频中，聊天机器人对詹姆斯·韦伯太空望远镜做出了不实陈述； 6月，纽约联邦法院文件援引“虚假”案件，涉案纽约律师可能面临制裁。NJq财经新闻网

其他能力对比NJq财经新闻网

这份报告还比较了AI模型的其他“能力”。发现GPT-4最擅长数学，Meta的Llama 2各方面都比较令人满意，2最擅长理解自身的局限性。NJq财经新闻网

在另一项实验中，研究人员还测试了人工智能模型会在多大程度上“对冲”他们用警告短语给出的答案的风险，例如“作为一个人工智能模型，我无法提供意见”。NJq财经新闻网

研究人员发现，与 GPT-3.5 相比，GPT-4 的警告相对增加了 50%。然而，AI模型并没有在任何响应中提供避免风险的警告。相比之下，-2 在“自我意识”方面最可靠，即能够准确判断自己知道什么和不知道什么，并且只回答训练数据支持的问题。NJq财经新闻网

免责声明 ① 本网所刊登文章均来自网络转载;文章观点不代表本网立场,其真实性由作者或稿源方负责 ② 如果您对稿件和图片等有版权及其他争议,请及时与我们联系,我们将核实情况后进行相关删除 ③ 联系邮箱:215858170@qq.comNJq财经新闻网

全部评论

互联网金融相关排行