GPT-5变蠢背后:抑制AI的幻觉,反而让模型没用了?(下)





知危:既然幻觉问题造成了那么多困难,也需要如此多手段来缓解,那么如何理解企业大规模应用大语言模型、取代传统机器学习方法的意义所在?


甄焱鲲:理论上来说,除了文本生成领域外,大语言模型在其它领域的应用越来越多了。但在决策推理、复杂规划等任务上,传统机器学习算法还是更有优势。


结合近期大语言模型、视觉模型也在结合典型传统机器学习方法比如强化学习的趋势,表明传统机器学习算法的优势是大语言模型无法替代的。但大语言模型的优势是,它可以低成本地做到传统机器学习算法能做的六七成的水平,这才是本质。


比如做数据分析,可以用传统机器学习算法做统计分析、回归等,来找到数据背后的模式,然后根据学到的模式做预测。甚至在一些特殊领域,可以通过拟合的方式刻意提高准确率,但是这样做成本比较高,门槛也比较高,涉及数据处理、算法设计、模型训练、评估,再到软件工程的部署等。


相比之下,使用大语言模型的话,只需要把某一个时间段的数据,直接丢给大语言模型分析结果。毕竟现在大语言模型的 context 已经很长,很容易处理这类数据,如此成本就很低。虽然分析结果还有各种局限性,但对于很多日常工作的场景已经能满足。


至于成本具体能降到什么程度,还是要看最终的场景需求。比如分析短期的数据,而且这些数据可以被大语言模型的 context 覆盖,那它的成本几乎为零。


如果数据量比较大,就需要通过 MCP或 agent 开发框架,把数据接入到大语言模型里面,可能还需要对数据做预处理,比如Pandas等传统的机器学习框架和数据框架,其实已经具备一定的 AI 能力了。


目前我们去开发一个 AI Agent 来解决这些问题,跟传统的软件工程比如算法工程、数据工程、软件工程等模块对比下来,开发工作量只有原始工作量的百分之二三十左右。



知危:从技术人员的视角理解幻觉,有哪些不同的体会?


甄焱鲲:在当前这个大环境下,对程序员跨领域能力的要求比较高。所以从我作为技术人员的角度来看,在这个过渡阶段,AI 编程带来的收益更容易让程序员接受,上手的速度比较快,这也是为什么像 Cursor 这类工具会这么火。


背后最本质的原因是,程序员本身懂技术,在学习或了解 AI 并不难的情况下,知道该怎么提问题或者怎么下达指令。而其他领域的人,比如 HR、行政、财务等在使用 AI 的时候,很多时候最大的挑战是他们不具备相关知识,导致没办法提出有效的问题。提出正确的问题或写出合适的提示词,其实门槛还是比较高的。


我们现在使用的大部分大语言模型,都是指令跟随版本,只要指令优化得足够好,大语言模型犯错、也就是产生所谓幻觉的概率和可能性,其实是非常低的。


从长远来看,其实幻觉的存在是相对的。如果你不知道,或者你无法判断的情况下,你就不知道它产生的结果到底有没有幻觉,毕竟现在 AI 胡说八道的时候语气还是一本正经的。但最终到底由谁来评估 AI 生成有没有幻觉?还得是人类使用者,这时可能需要更专业的或其他领域的使用者来判断。



知危:有些研究会把幻觉做一些类型划分,探讨了事实性数据和系统性数据的区别。系统性数据比如 1 + 1 = 2,事实性数据比如 “ 小明在 2025 年出生 ”,并提出事实性数据更容易出现幻觉。您对此有什么看法?


甄焱鲲:从我的视角看,早期大语言模型或一些传统 NLP 算法确实存在这类问题,但我觉得现在比较新的大语言模型架构、训练数据处理、指令微调方式,已经在很大程度上避免了这些问题。


目前模型技术在事实性产生错误的概率相对较小。据我了解,模型并不会生硬地去记忆事实性数据。


大语言模型出错的一个典型例子是它不知道 “ 9.9>9.11 ”,本质原因是模型内部并没有进行真正的数值计算。


不管是事实性数据还是系统性数据,都是一个概率计算问题。比如训练数据里有 “ 1 + 1 = 2 ”,但大语言模型并不是直接知道 “ 1 + 1 = 2 ”,而是基于概率。


本质上,它是基于统计概率,而不是逻辑计算。


如果想真正理解幻觉本身,和产生的根本原因,必须了解模型的技术细节,比如大模型训练时在做什么( 涉及前馈网络、注意力机制、query 机制等 ),推理时在做什么,我们干预它时它又在做什么。



知危:您在前面所表述的大模型永远无法完全解决的 “ 错误 ”,有什么具体的理论依据呢?


甄焱鲲:新加坡国立大学发表的论文 “ Hallucination is Inevitable: An Innate Limitation of Large Language Models ”,通过形式化定义 “ 幻觉 ” 并借助学习论证指出,LLMs 无法学习所有可计算函数,因此 “ 幻觉 ” 是固有而不可完全消除的。


另一项研究 “ LLMs Will Always Hallucinate, and We Need to Live With This ” 以 Gödel 不完全性定理和停机问题为基础,指出幻觉是 LLM 必然会产生的结构性产物,不论模型大小、数据多么丰富,都无法根除。


早期的研究从理论上证明了 Transformer 的图灵完备性,但都基于诸如无限精度和任意强大的前馈计算能力等假设。


而对于有限精度和有限前馈网络计算能力的 Transformer 架构( 也是更符合现实情境下的设置 ),其在理论上相当于常深度阈值电路( TC0 ) 的计算能力( 参考论文“ The Parallelism Tradeoff: Limitations of Log-Precision Transformers ” )这说明它们只能处理相对简单的语言模式,面对更复杂、高组合深度的问题时力不从心。比如在多步推理组合任务中,如乘法、逻辑网格谜题或动态规划问题,Transformer 模型更多是通过 “ 线性子图匹配 ” 而非系统性推理来应对,随着任务复杂度上升表现迅速衰退。



知危:近期关于AI幻觉还出现了一些关于泛化性的研究进展,“ Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers ” 指出抑制幻觉的同时也会抑制 LLM 的泛化性。您对此有什么看法?


甄焱鲲:这些成果很有意义。


模型预测下一个词本质上是概率性的,这可能涉及概率学的本质以及概率在人类社会中的影响。必须存在概率,才能有决策的空间和可能性,进而才能具备泛化能力。


就像人一样,比如我们走路的时候,如果只有一条路,肯定不会走错,只有当有多条路的时候才可能走错,而新的路能带来新的可能。这个问题确实是无法消除的,因为 “ 对 ” 与 “ 错 ” 本身现在都很难定义。


有一种很有意义的情况,有时我们认为 AI 生成的结果是错的,只是因为我们不了解、不知道或没见过这样解决问题的方式,但它实际上是对的,这是 AI 创造性的体现。


再比如,大语言模型认为这个世界是虚拟的,我们觉得它在一本正经地胡说八道,产生了幻觉。但可能过了五十年或一百年,我们通过科学方法论证了世界是虚拟的,那么这个所谓的幻觉其实不是幻觉,而是前瞻性的观点。这有点类似于以前的很多科幻小说、科幻漫画、科幻电影,里面很多技术现在都实现了。那么它到底是不是幻觉?所以关键还是看我们怎么定义幻觉。


所以在对待幻觉这个问题时一定要小心,不能太武断地认为 AI 生成的内容没有现实依据就是幻觉。





知危:目前国内业界对 AI 幻觉风险的整体心态是否过度乐观?


甄焱鲲:恰恰相反。DeepSeek 是一个分水岭,在 DeepSeek 出现之前,无论是投资界还是业界,大家对幻觉带来的负面影响都有点过度恐慌。但在 DeepSeek 出来之后,整个行业包括大众都被 “ 教育 ” 了。大家对幻觉带来的影响,以及对幻觉的评估,变得更理性了,有时甚至觉得幻觉是良性的。


具体而言,以前更多是通过新闻报道或学术论文了解幻觉的影响,现在大家已经开始实装大语言模型来解决具体问题,所以会更客观、更清醒地判断:哪些场景下幻觉是可以接受的,哪些是不可以接受的;幻觉对不同任务的影响到底有多大,也能做出更现实、更准确的评估。


当然,相对来说在某些领域确实也存在 “ 过度乐观 ” 的情况,比较明显的是内容创作领域。现在有很多人并不真正了解幻觉是什么。有些人用 AI 辅助创作时,可能会过度乐观,直接把生成的内容公开发布,而对负面的影响和后果没有准确的理解和预估。


关于 “ 过度悲观 ”,主要是在一些比较严肃的领域,比如科研、工业制造、软件工程等场景,很多人会觉得,用大语言模型去解决一个问题,模型思考半天、花了很多钱、用了很多 token,最后也没解决好,还不如自己解决。而且,在应用大语言模型时,本质上是某种程度上对自己的替代,这时候很多人会有抵触心理,进而对模型做出过度悲观或负面的评价。



知危:AI 编程是否也是一个 “ 过度乐观 ” 的场景?特别是 Vibe Coding 火起来以后?很多智能体类产品推出得很快、更新频繁,但在实际使用中还是会有很多问题,尤其是幻觉的累积和错误溯源问题,让人头疼。即便 Claude 4 Opus 号称能连续工作 7 个小时完成编码任务,但仍有人指出其写出的代码是难以维护的。您对此怎么看?


甄焱鲲:现在很多 AI Coding 应用的做法其实还是比较简单粗暴的,属于 “ 大力出奇迹 ” 的思路,而且确实在一定程度上有效。


比如我曾试用一个开源的 AI 编程模型,让它帮我生成一个 Rust 语言的、用于监控当前网络端口访问情况的程序。它花了很长时间,大概两三个小时,才生成出来可编译的结果。


它之所以花那么长时间,是因为在不断检查编译器的报错并修正代码。但最后我运行时发现还是有问题。因为我用的是 Mac Studio,Apple Silicon 的 ARM 架构,它选用的那个库并不支持这个架构,最终导致运行出错。我又让它继续修改,它又花了大概两三个小时,才把这些错误都修正好,最后我才能正常运行和执行。


但如果是程序员来做这件事,可能很快就能解决。毕竟这就是库不兼容的问题,对于一般程序员来说并不复杂。


现在很多生成代码的方式,还是依赖枚举各种情况,用各种提示词和反复试错、反复检查。这种 “ 大力出奇迹 ” 的方式,也跟前面提到的大语言模型自身的特点有关,它不能真正思考,还是靠不断进行局部最优的生成能力来解决问题。



知危:这种 “ 大力出奇迹 ” 的方法会不会导致 token 消耗过高、成本难以承受?


甄焱鲲:这个问题非常重要。现在其实大家没怎么谈这个问题。原因是对资本家来说,他们投资了大语言

模型供应商,正希望 token 被大量消耗,只有这样供应商才能赚更多钱。所以这个问题虽然存在,但往往被有意忽略。


当然,有很多开源项目或者行业里一些比较良心的软件,比如 Roo Code,就做了很多这方面的优化,比如上下文压缩、token 压缩,在重复试错时会主动停止,不会无限制地耗费资源。


反观一些其它软件修改代码时,比如一会说多了个花括号,把它去掉了;编译不通过,又说少了个花括号,又把花括号加上,然后又反复修改,重复了十几次,实际上这些重复一直在消耗资源。如果是用免费版还好,用付费版的话,这些重复修改就会一直消耗用户的钱。


当然,这个现象存在一定程度上也是可理解的。一方面,AI 应用还处于非常早期阶段,大语言模型还在快速发展变化,比如 DeepSeek 刚出来不久,厂商们开始大量往模型里加推理能力,强化学习也才刚起步,阿里最近才把多 agent 集成到商业大语言模型里。因此,现在的 AI 使用方式比较粗糙,随着模型能力稳定下来,这些粗糙的使用方式会逐步优化和迭代,变得更加精细。


另一方面,目前 token 价格已经被压低,用户对价格的敏感度还不是特别高。从应用开发商的角度,也会更多希望用户能持续使用,而用户使用的前提是能帮他们解决问题。在技术还不够成熟的情况下,有时 “ 大力出奇迹 ” 的方法是必要的。



知危:对于未来通过底层技术变革解决或缓解幻觉上,您对哪个方向比较看好?


甄焱鲲:我更倾向于最近生成视频效果比较好的世界模型这条技术路线。


世界模型涵盖更广、更深,视频模型只是它的一种应用体现,主要用来展示模型能力。就像一滴水滴到管子上和一滴油滴到管子上,产生不同结果,这背后是模型权重参数驱动生成的。它主要是通过表象展示背后的思维能力,不是简单的 next token 预测,而是对事物真正的理解。


世界模型不是单纯通过数据生硬训练,而是让模型在训练过程中真正理解数据背后代表的概念、原理及它们之间的关系。


我更希望像训练小孩、培养人类思维成长一样,让 AI 构建起自己的思维体系。而且这种思维是动态变化的,能够适应周围世界的变化。比如这个模型可以部署在端侧,自主浏览网页、使用搜索引擎或查询数据。它还能自主决定是否把浏览到的概念或知识更新到自己的记忆里。


这是更偏向于 AGI 的发展方向。



( 对话全文完 )

展开阅读全文

更新时间:2025-08-23

标签:科技   幻觉   抑制   模型   语言   数据   事实性   概率   能力   传统   算法   领域

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top