OpenAI声称已经找到了导致“幻觉”的原因,即人工智能模型倾向于编造事实上不正确的答案。
这是困扰整个行业的一个主要问题,大大削弱了这项技术的实用性。更糟糕的是,专家们发现,随着人工智能模型的能力越来越强,这个问题正变得越来越严重。
因此,尽管前沿人工智能模型在部署过程中产生了天文数字的费用,但在面对不知道答案的提示时,它们仍然容易做出不准确的声明。
这个问题是否有解决方案仍然是一个热议的话题,一些专家认为,幻觉是科技本身固有的。换句话说,大型语言模型可能是我们开发对事实主张有可靠把握的人工智能的死胡同。
在上周发表的一篇论文中,OpenAI的一个研究团队试图给出一个解释。他们认为,大型语言模型之所以产生幻觉,是因为当它们被创造出来时,它们被激励去猜测,而不是承认自己根本不知道答案。
论文写道,幻觉“之所以持续存在,是因为大多数评估的评分方式——语言模型被优化为优秀的考生,而在不确定的情况下猜测可以提高考试成绩”。
通常情况下,AI的输出是以二元方式进行分级的,当它给出正确的回应时奖励它,当它给出错误的回应时惩罚它。
简单来说,换句话说,猜测是奖励——因为它可能是正确的——而不是人工智能承认它不知道答案,无论如何都会被评为不正确。
因此,在“自然统计压力”下,大型语言模型更容易产生幻觉,而不是“承认不确定性”。
OpenAI在一篇博客文章中写道:“大多数计分板都会根据准确率对模型进行优先级和排名,但错误比弃权更糟糕。”
换句话说,OpenAI表示,它——以及整个行业的所有模仿者——在训练人工智能的方式上犯了一个严重的结构性错误。
这个问题能否得到纠正将是一个很大的问题。OpenAI声称这个问题“有一个直接的解决方案”:“惩罚自信错误比惩罚不确定性更多,并对不确定性的适当表达给予部分信任。”
展望未来,评估需要确保“他们的评分不鼓励猜测,”博客文章写道。“如果主记分牌继续奖励幸运的猜测,模型就会继续学习猜测。”
该公司的研究人员在论文中总结道:“对主流评估的简单修改可以重新调整激励机制,奖励适当的不确定表达,而不是惩罚他们。”“这可以消除抑制幻觉的障碍,并为未来细致入微的语言模型的研究打开大门,例如,具有更丰富的语用能力。”
这些对评估的调整将如何在现实世界中发挥作用还有待观察。虽然该公司声称其最新的GPT-5模型产生的幻觉更少,但用户基本上没有被打动。
目前,人工智能行业将不得不继续考虑这个问题,因为它证明了数百亿美元的资本支出和飙升的排放量是合理的。
OpenAI在其博客文章中承诺:“幻觉仍然是所有大型语言模型的一个基本挑战,但我们正在努力进一步减少它们。”
更新时间:2025-09-16
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号