GPT-5变蠢背后：抑制AI的幻觉，反而让模型没用了？（下）

知危：既然幻觉问题造成了那么多困难，也需要如此多手段来缓解，那么如何理解企业大规模应用大语言模型、取代传统机器学习方法的意义所在？

甄焱鲲：理论上来说，除了文本生成领域外，大语言模型在其它领域的应用越来越多了。但在决策推理、复杂规划等任务上，传统机器学习算法还是更有优势。

结合近期大语言模型、视觉模型也在结合典型传统机器学习方法比如强化学习的趋势，表明传统机器学习算法的优势是大语言模型无法替代的。但大语言模型的优势是，它可以低成本地做到传统机器学习算法能做的六七成的水平，这才是本质。

比如做数据分析，可以用传统机器学习算法做统计分析、回归等，来找到数据背后的模式，然后根据学到的模式做预测。甚至在一些特殊领域，可以通过拟合的方式刻意提高准确率，但是这样做成本比较高，门槛也比较高，涉及数据处理、算法设计、模型训练、评估，再到软件工程的部署等。

相比之下，使用大语言模型的话，只需要把某一个时间段的数据，直接丢给大语言模型分析结果。毕竟现在大语言模型的 context 已经很长，很容易处理这类数据，如此成本就很低。虽然分析结果还有各种局限性，但对于很多日常工作的场景已经能满足。

至于成本具体能降到什么程度，还是要看最终的场景需求。比如分析短期的数据，而且这些数据可以被大语言模型的 context 覆盖，那它的成本几乎为零。

如果数据量比较大，就需要通过 MCP或 agent 开发框架，把数据接入到大语言模型里面，可能还需要对数据做预处理，比如Pandas等传统的机器学习框架和数据框架，其实已经具备一定的 AI 能力了。

目前我们去开发一个 AI Agent 来解决这些问题，跟传统的软件工程比如算法工程、数据工程、软件工程等模块对比下来，开发工作量只有原始工作量的百分之二三十左右。

知危：从技术人员的视角理解幻觉，有哪些不同的体会？

甄焱鲲：在当前这个大环境下，对程序员跨领域能力的要求比较高。所以从我作为技术人员的角度来看，在这个过渡阶段，AI 编程带来的收益更容易让程序员接受，上手的速度比较快，这也是为什么像 Cursor 这类工具会这么火。

背后最本质的原因是，程序员本身懂技术，在学习或了解 AI 并不难的情况下，知道该怎么提问题或者怎么下达指令。而其他领域的人，比如 HR、行政、财务等在使用 AI 的时候，很多时候最大的挑战是他们不具备相关知识，导致没办法提出有效的问题。提出正确的问题或写出合适的提示词，其实门槛还是比较高的。

我们现在使用的大部分大语言模型，都是指令跟随版本，只要指令优化得足够好，大语言模型犯错、也就是产生所谓幻觉的概率和可能性，其实是非常低的。

从长远来看，其实幻觉的存在是相对的。如果你不知道，或者你无法判断的情况下，你就不知道它产生的结果到底有没有幻觉，毕竟现在 AI 胡说八道的时候语气还是一本正经的。但最终到底由谁来评估 AI 生成有没有幻觉？还得是人类使用者，这时可能需要更专业的或其他领域的使用者来判断。

知危：有些研究会把幻觉做一些类型划分，探讨了事实性数据和系统性数据的区别。系统性数据比如 1 + 1 = 2，事实性数据比如 “ 小明在 2025 年出生 ”，并提出事实性数据更容易出现幻觉。您对此有什么看法？

甄焱鲲：从我的视角看，早期大语言模型或一些传统 NLP 算法确实存在这类问题，但我觉得现在比较新的大语言模型架构、训练数据处理、指令微调方式，已经在很大程度上避免了这些问题。

目前模型技术在事实性产生错误的概率相对较小。据我了解，模型并不会生硬地去记忆事实性数据。

大语言模型出错的一个典型例子是它不知道 “ 9.9>9.11 ”，本质原因是模型内部并没有进行真正的数值计算。

不管是事实性数据还是系统性数据，都是一个概率计算问题。比如训练数据里有 “ 1 + 1 = 2 ”，但大语言模型并不是直接知道 “ 1 + 1 = 2 ”，而是基于概率。

本质上，它是基于统计概率，而不是逻辑计算。

如果想真正理解幻觉本身，和产生的根本原因，必须了解模型的技术细节，比如大模型训练时在做什么（涉及前馈网络、注意力机制、query 机制等），推理时在做什么，我们干预它时它又在做什么。

知危：您在前面所表述的大模型永远无法完全解决的 “ 错误 ”，有什么具体的理论依据呢？

甄焱鲲：新加坡国立大学发表的论文 “ Hallucination is Inevitable: An Innate Limitation of Large Language Models ”，通过形式化定义 “ 幻觉 ” 并借助学习论证指出，LLMs 无法学习所有可计算函数，因此 “ 幻觉 ” 是固有而不可完全消除的。

另一项研究 “ LLMs Will Always Hallucinate, and We Need to Live With This ” 以 Gödel 不完全性定理和停机问题为基础，指出幻觉是 LLM 必然会产生的结构性产物，不论模型大小、数据多么丰富，都无法根除。

早期的研究从理论上证明了 Transformer 的图灵完备性，但都基于诸如无限精度和任意强大的前馈计算能力等假设。

而对于有限精度和有限前馈网络计算能力的 Transformer 架构（也是更符合现实情境下的设置），其在理论上相当于常深度阈值电路（ TC0 ）的计算能力（参考论文“ The Parallelism Tradeoff: Limitations of Log-Precision Transformers ” ），这说明它们只能处理相对简单的语言模式，面对更复杂、高组合深度的问题时力不从心。比如在多步推理组合任务中，如乘法、逻辑网格谜题或动态规划问题，Transformer 模型更多是通过 “ 线性子图匹配 ” 而非系统性推理来应对，随着任务复杂度上升表现迅速衰退。

知危：近期关于AI幻觉还出现了一些关于泛化性的研究进展，“ Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers ” 指出抑制幻觉的同时也会抑制 LLM 的泛化性。您对此有什么看法？

甄焱鲲：这些成果很有意义。

模型预测下一个词本质上是概率性的，这可能涉及概率学的本质以及概率在人类社会中的影响。必须存在概率，才能有决策的空间和可能性，进而才能具备泛化能力。

就像人一样，比如我们走路的时候，如果只有一条路，肯定不会走错，只有当有多条路的时候才可能走错，而新的路能带来新的可能。这个问题确实是无法消除的，因为 “ 对 ” 与 “ 错 ” 本身现在都很难定义。

有一种很有意义的情况，有时我们认为 AI 生成的结果是错的，只是因为我们不了解、不知道或没见过这样解决问题的方式，但它实际上是对的，这是 AI 创造性的体现。

再比如，大语言模型认为这个世界是虚拟的，我们觉得它在一本正经地胡说八道，产生了幻觉。但可能过了五十年或一百年，我们通过科学方法论证了世界是虚拟的，那么这个所谓的幻觉其实不是幻觉，而是前瞻性的观点。这有点类似于以前的很多科幻小说、科幻漫画、科幻电影，里面很多技术现在都实现了。那么它到底是不是幻觉？所以关键还是看我们怎么定义幻觉。

所以在对待幻觉这个问题时一定要小心，不能太武断地认为 AI 生成的内容没有现实依据就是幻觉。

知危：目前国内业界对 AI 幻觉风险的整体心态是否过度乐观？

甄焱鲲：恰恰相反。DeepSeek 是一个分水岭，在 DeepSeek 出现之前，无论是投资界还是业界，大家对幻觉带来的负面影响都有点过度恐慌。但在 DeepSeek 出来之后，整个行业包括大众都被 “ 教育 ” 了。大家对幻觉带来的影响，以及对幻觉的评估，变得更理性了，有时甚至觉得幻觉是良性的。

具体而言，以前更多是通过新闻报道或学术论文了解幻觉的影响，现在大家已经开始实装大语言模型来解决具体问题，所以会更客观、更清醒地判断：哪些场景下幻觉是可以接受的，哪些是不可以接受的；幻觉对不同任务的影响到底有多大，也能做出更现实、更准确的评估。

当然，相对来说在某些领域确实也存在 “ 过度乐观 ” 的情况，比较明显的是内容创作领域。现在有很多人并不真正了解幻觉是什么。有些人用 AI 辅助创作时，可能会过度乐观，直接把生成的内容公开发布，而对负面的影响和后果没有准确的理解和预估。

关于 “ 过度悲观 ”，主要是在一些比较严肃的领域，比如科研、工业制造、软件工程等场景，很多人会觉得，用大语言模型去解决一个问题，模型思考半天、花了很多钱、用了很多 token，最后也没解决好，还不如自己解决。而且，在应用大语言模型时，本质上是某种程度上对自己的替代，这时候很多人会有抵触心理，进而对模型做出过度悲观或负面的评价。

知危：AI 编程是否也是一个 “ 过度乐观 ” 的场景？特别是 Vibe Coding 火起来以后？很多智能体类产品推出得很快、更新频繁，但在实际使用中还是会有很多问题，尤其是幻觉的累积和错误溯源问题，让人头疼。即便 Claude 4 Opus 号称能连续工作 7 个小时完成编码任务，但仍有人指出其写出的代码是难以维护的。您对此怎么看？

甄焱鲲：现在很多 AI Coding 应用的做法其实还是比较简单粗暴的，属于 “ 大力出奇迹 ” 的思路，而且确实在一定程度上有效。

比如我曾试用一个开源的 AI 编程模型，让它帮我生成一个 Rust 语言的、用于监控当前网络端口访问情况的程序。它花了很长时间，大概两三个小时，才生成出来可编译的结果。

它之所以花那么长时间，是因为在不断检查编译器的报错并修正代码。但最后我运行时发现还是有问题。因为我用的是 Mac Studio，Apple Silicon 的 ARM 架构，它选用的那个库并不支持这个架构，最终导致运行出错。我又让它继续修改，它又花了大概两三个小时，才把这些错误都修正好，最后我才能正常运行和执行。

但如果是程序员来做这件事，可能很快就能解决。毕竟这就是库不兼容的问题，对于一般程序员来说并不复杂。

现在很多生成代码的方式，还是依赖枚举各种情况，用各种提示词和反复试错、反复检查。这种 “ 大力出奇迹 ” 的方式，也跟前面提到的大语言模型自身的特点有关，它不能真正思考，还是靠不断进行局部最优的生成能力来解决问题。

知危：这种 “ 大力出奇迹 ” 的方法会不会导致 token 消耗过高、成本难以承受？

甄焱鲲：这个问题非常重要。现在其实大家没怎么谈这个问题。原因是对资本家来说，他们投资了大语言

模型供应商，正希望 token 被大量消耗，只有这样供应商才能赚更多钱。所以这个问题虽然存在，但往往被有意忽略。

当然，有很多开源项目或者行业里一些比较良心的软件，比如 Roo Code，就做了很多这方面的优化，比如上下文压缩、token 压缩，在重复试错时会主动停止，不会无限制地耗费资源。

反观一些其它软件修改代码时，比如一会说多了个花括号，把它去掉了；编译不通过，又说少了个花括号，又把花括号加上，然后又反复修改，重复了十几次，实际上这些重复一直在消耗资源。如果是用免费版还好，用付费版的话，这些重复修改就会一直消耗用户的钱。

当然，这个现象存在一定程度上也是可理解的。一方面，AI 应用还处于非常早期阶段，大语言模型还在快速发展变化，比如 DeepSeek 刚出来不久，厂商们开始大量往模型里加推理能力，强化学习也才刚起步，阿里最近才把多 agent 集成到商业大语言模型里。因此，现在的 AI 使用方式比较粗糙，随着模型能力稳定下来，这些粗糙的使用方式会逐步优化和迭代，变得更加精细。

另一方面，目前 token 价格已经被压低，用户对价格的敏感度还不是特别高。从应用开发商的角度，也会更多希望用户能持续使用，而用户使用的前提是能帮他们解决问题。在技术还不够成熟的情况下，有时 “ 大力出奇迹 ” 的方法是必要的。

知危：对于未来通过底层技术变革解决或缓解幻觉上，您对哪个方向比较看好？

甄焱鲲：我更倾向于最近生成视频效果比较好的世界模型这条技术路线。

世界模型涵盖更广、更深，视频模型只是它的一种应用体现，主要用来展示模型能力。就像一滴水滴到管子上和一滴油滴到管子上，产生不同结果，这背后是模型权重参数驱动生成的。它主要是通过表象展示背后的思维能力，不是简单的 next token 预测，而是对事物真正的理解。

世界模型不是单纯通过数据生硬训练，而是让模型在训练过程中真正理解数据背后代表的概念、原理及它们之间的关系。

我更希望像训练小孩、培养人类思维成长一样，让 AI 构建起自己的思维体系。而且这种思维是动态变化的，能够适应周围世界的变化。比如这个模型可以部署在端侧，自主浏览网页、使用搜索引擎或查询数据。它还能自主决定是否把浏览到的概念或知识更新到自己的记忆里。

这是更偏向于 AGI 的发展方向。

（对话全文完）

展开阅读全文

更新时间：2025-10-08

标签：科技幻觉抑制模型语言数据事实性概率能力传统算法领域

1 2 3 4 5

GPT-5变蠢背后：抑制AI的幻觉，反而让模型没用了？（下）

广州博览会与国际发明展同期举行汇聚30余国创新成果

笑死！韩国网民问：首尔举行反华游行，为什么中国人没有感到紧张

黄金沉寂太久要有大动作了！2025.8.22（周五）

电动自行车“新国标”9月1日起实施兰州市场迎来“换车潮”“购车热”

中兴通讯AH股午后齐拉升，A股逼近涨停，报46.68元，创2020年3月以来新高；H股大涨超13%，股价创历史新高

陕西富平汇发村镇银行被罚21.5万元：违反反洗钱管理规定

V观财报｜“地天板”吉视传媒：上半年净亏损2.32亿元

手里有存款的注意了！银行存款利率“有变”！事关普通人的钱袋子

军工股又“嗨”了？新质战力势不可挡，这个细分跑赢军工！

连平县内莞镇鸿辉木材加工厂（个体工商户）成立注册资本10万人民币

亭子码头商铺被淹！邕江出现70.51米洪峰水位

应急管理部派出工作组

白振海在华亭市调研

A股：大盘精准收涨在3797.91，下午，更大级别上涨即将到来！

特朗普决定了，阉割美国风能和太阳能，甩锅称从未见过中国的风车

2025数博会 | 98%准确率，节省30%费用！看这家全国百强企

Yardeni预计美联储9月降息概率仅40%，杰克逊霍尔年会鲍

天和防务：公司具备3D探测能力的软件定义有源相控阵雷达

TCL科技：债务融资成本更多取决于市场利率水平和公司财

因承揽合同纠纷，道恩股份起诉青岛宏昱盈科电子科技有限

追觅科技新设贸易公司，含智能机器人业务

通义App上线官方知识库，首批覆盖教育、法律、金融等五

黄渤称父母都患有阿尔兹海默症，他担心大概率会被遗传

“新天工开物——科技成就发布会”金属材料专场即将开

“国产数据库第一股”，又有高管被查