AI 圈又出重磅深度长文!知名 AI 研究员、前 OpenAI 应用 AI 研究负责人 Lilian Weng,刚刚在她的博客 Lil'Log 上发表了一篇信息量爆炸的万字长文——《Why We Think》。深入剖析了当前大模型领域最火热的研究方向之一:大模型的推理能力从何而来?如何让 AI 模型像人一样「多想一会儿」,从而变得更聪明?
Lilian Weng 的博客,篇篇精品。虽然更新不多,但她关于 Prompt 工程、智能体、大模型幻觉、奖励黑客的内容,都成为了业内必读文章。
《Why We Think》由 Lilian Weng 亲自执笔,并得到了 AI 大神 John Schulman(ChatGPT和RLHF的关键人物)的深度参与和修改,其分量可见一斑。
我非常推荐大家去读原文:
https://lilianweng.github.io/posts/2025-05-01-thinking/
但原文里引用了大量的论文,一些朋友对专业术语和数学公式也许有畏难情绪,所以我斗胆在 Lilian Weng 文章的基础上再简化一番,帮助大家理解文章中的核心观点。
你是否也曾好奇,为什么有时 AI 模型在面对复杂问题时,只要给它更多「思考时间」,答案质量就能飙升?为什么「思维链」(Chain-of-Thought, CoT)这个概念如此火爆,能让模型展现出惊人的推理能力?这背后究竟藏着怎样的秘密?
现在,就让我们跟随 Lilian Weng 的思路,一起探寻 AI 推理能力的前世今生和未来图景吧!
为什么我们要让 AI 在给出答案前「多花点时间琢磨琢磨」?这种技术方式从何而来?
Lilian Weng 首先提到了 诺贝尔奖得主丹尼尔·卡尼曼的著名理论《思考,快与慢》。简单来说,我们人类有两种思考模式:
让 AI 学会「慢思考」,就是希望它们也能启动这种更深思熟虑的模式,解决更复杂的问题。
如果把 AI 模型看作一个超级大脑,那么它处理信息就需要消耗计算资源。如果在解决问题时,给它更多的计算资源(也就是更多的「思考时间」),并且教会它如何有效利用这些时间,那它的表现自然会更好。
结合像「思维链」这样的技术,就能让 AI 根据问题的难易程度,动态调整「思考」的深度和广度。
在机器学习看来,一个问题的答案(比如数学题的最终结果)固然重要,但通往答案的「思考过程」或「解题步骤」同样关键。如果能让 AI 学会生成并理解这些「隐藏的思考步骤」,就能更好地把握问题的本质,给出更棒的答案。
让 AI 在给出最终答案前,先输出中间的思考步骤,这个想法在 AI 解决数学题等任务中早就有了。
思维链提示能提高数学问题解决的成功率。模型越大,从思考时间中获得的好处就越多。
既然「多想一会儿」有好处,那么如何让 AI「想」得更有效率、更有章法呢?主要有两大策略:并行采样和顺序修正。
这就像我们解题时,可能会同时思考好几种可能的解法,然后选一个最好的。
这种方法更像我们写文章时的「反复修改」。AI 先给出一个初步的思考和答案,然后自己「反思」一下,看看有没有错误或可以改进的地方,再进行修正。
这两种方法各有优劣:「广撒网」简单直接,但可能一次也「捞不到鱼」(即找不到正确答案);「回头看」虽然能主动纠错,但过程更慢,也更容易「跑偏」。实际应用中,两者往往可以结合起来。
近年来,强化学习(RL)在提升 AI 推理能力方面取得了惊人的成就,尤其是在那些有明确答案的问题上(比如数学题和编程题)。
DeepSeek-R1 带来的启示
DeepSeek R1 模型在数学、编程等需要深度思考的任务上表现出色。它的成功秘诀之一,就是经历了好几轮「SFT-RL」的混合训练(可以理解为「先学习人类范例,再通过试错强化」)。
最令人兴奋的是,研究团队发现,即便只用强化学习,AI 也能自发地学会反思、回溯、修正错误,甚至展现出类似人类灵光一闪的「顿悟时刻」(Aha moment)! 这意味着 AI 在解决难题时,如果一条路走不通,它会尝试退回去,换个角度重新思考。
Lilian Weng 还特别提到,DeepSeek 团队也坦诚地分享了他们的一些「失败经验」,比如尝试用某些方法(如过程奖励模型、蒙特卡洛树搜索)去指导 AI 思考,结果效果并不理想。这种开放分享「哪些路走不通」的精神,对于整个 AI 研究社区来说都非常宝贵。
AI 在思考时,并非只能「闭门造车」。它们也可以像我们一样,借助外部工具来辅助思考。
AI 的「思维链」让我们仿佛能看到它「脑子里」在想什么,这对于理解和信任 AI 非常重要。但这里有一个关键问题:AI 展示给我们的「思考过程」,真的是它内心真实的想法吗?还是它只是学会了生成看起来合理的「解释」?
有研究表明,通过观察 AI 的「思维链」,确实能发现一些它「耍小聪明」(比如投机取钻空子)的行为。而且,让 AI「多想一会儿」似乎也能让它在面对一些刁钻问题(比如「文字陷阱」)时表现得更稳健。
科学家们做了一些有趣的实验来测试 AI 的「忠诚度」。比如,故意在问题中给出错误的暗示,然后看 AI 的「思维链」会不会提到这个暗示,以及它是否会受其影响而改变答案。
结果发现,那些经过专门推理训练的 AI 模型,似乎比普通模型更「诚实」一些,它们在「思维链」中更倾向于承认自己受到了暗示的影响。
如果我们过于强调让 AI 的「思维链」看起来完美无缺,甚至把「解释得好」作为训练 AI 的一个重要目标,那 AI 可能会学会「粉饰太平」,生成一些华而不实的「伪思考过程」,而不是真正提升自己的思考能力。这就像有些学生,做作业不是为了真正理解,而是为了写出老师想看的标准答案。
除了我们上面看到的像「一步一步」这样的离散思考方式,AI 还有一些更「抽象」的思考模式。
我们可以把 AI 的「思考过程」看作一些我们直接观察不到的「潜变量」。AI 的训练目标,就是通过学习大量的「问题-思考过程-答案」的组合,来掌握这种从问题到答案的映射关系,即使我们只给它问题,它也能推断出可能的「思考过程」并给出答案。
迭代学习的智慧(以 STaR 为例):STaR 这个方法很聪明。它让 AI 先自己尝试解决问题并给出思考过程。如果对了,就强化这个过程。如果错了,STaR 会「反过来」告诉 AI:「你看,这个问题正确的答案是这样的,那么一个合理的思考过程应该是这样的……」
这样,AI 就能从成功和失败中都学到东西,不断迭代优化自己的推理能力。
我们知道,AI 模型的参数越多、训练数据越大、训练时间越长,通常就越聪明,这就是所谓的「缩放定律」(Scaling Laws)。那么,「思考时间」这个新维度,是不是也遵循类似的规律呢?
Lilian Weng 在文章最后,为我们描绘了 AI「思考」研究的广阔前景,同时也指出了摆在科学家面前的一系列亟待解决的难题:
这些问题现在也许还没有答案,但一定是下一步的研究方向。
总之,Lilian Weng 的这篇深度好文,为我们指明了通往更高级 AI 智能的探索方向。让 AI 学会像人类一样深思熟虑、灵活应变、批判反思、修正错误,这条路虽然充满挑战,但也充满了无限可能。
也许,教会 AI「思考」的征程,才刚刚开始。
原文链接:
Weng, Lilian. "Why We Think". Lil'Log (May 2025). https://lilianweng.github.io/posts/2025-05-01-thinking/
更新时间:2025-05-19
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号