【长期主义】第382期智能说：春节特刊（中），RLVR重塑AI边界

Nathan Lambert与Sebastian Raschka是机器学习研究员、工程师、教育家，Nathan是艾伦AI研究所的后期训练负责人，是《The RLHF Book》作者，Sebastian Raschka是从零构建LLM与从零构建推理模型的作者。

2026年2月1日，两人在Lex Fridman播客畅谈2026年AI新纪元。

全球AI技术重心从单纯的预训练规模，转向以可验证奖励强化学习RLVR为核心的推理扩展，通过思维链赋予模型深邃原创洞见，而非被RLHF磨平棱角的平庸回复。与此同时，AI战场从数字领域文本生成，跨越至对安全性要求极高的物理自动化与工业大基建。

本期长期主义，选择Nathan Lambert与Sebastian Raschka访谈纪要中篇，瓜哥AI新知发布，六合商业研选精校，分享给大家，Enjoy！

正文：

全文21,554字

预计阅读43分钟

Lex与AI研究员对谈AI江湖中篇：中美竞争、大厂PK、开源、模型架构演进、训练、硅谷996

时间：2026年2月1日

来源：瓜哥AI新知

字数：21,554

Nathan Lambert与Sebastian Raschka是机器学习研究员、工程师、教育家，Nathan是艾伦AI研究所的后期训练负责人，是《The RLHF Book》作者，Sebastian Raschka是从零构建LLM与从零构建推理模型的作者，两人在Lex Fridman播客畅谈2026年AI新纪元。

Lex Fridman：感觉上，原始的大模型生成数据，与经过人类介入验证，哪怕只验证一小部分代码的大模型生成数据间，存在根本性的区别。

Sebastian Raschka：我认为这类似任何事物一样，人们常想，我可以用大模型来学XYZ,这可行。

现实中，往往有一位专家，他可能已经利用大模型编写好了特定的代码。

这包含一个经过人工打磨的过程，去芜存菁，预先提炼，为你节省时间。价值体现于此，有人进行筛选，并在正确使用大模型。

本质上，你依然是在免费享用他人的劳动成果。例如读一篇Substack文章，我能让大模型给出看法，我可能连该问什么问题都不知道。

相比直接问大模型，阅读这篇文章依然更有价值，你专家筛选准确的知识，提供精炼的摘要。这是一种巨大的增值，我不必花费3~5小时自己阅读，还要承担获取错误信息的风险。

我认为即便有了大模型，作家的价值依然存在，专家的筛选，能为你节省时间。

Lex Fridman：观察摘要与原始内容的区别非常有趣，我确定你们也这么做。

即使是一页纸的摘要，对应一页纸的原文，你也能看到摘要，比如大模型生成的摘要，是如何磨平棱角的，它究竟移除了哪些信号？

Nathan Lambert：我指的是某种声音Voice。

Lex Fridman：声音。声音这个词很有分量，我很想听听你的理解。

有时，它移除的不仅是风格，是核心的洞见。一旦移除洞见，内容的根本含义就变了。

我总对大模型LLM在真正抓住核心洞见方面的不足感到失望，这恰恰是优秀摘要的本职。

即使我使用冗长、极其精细的提示词试图深入挖掘，它依然力有不逮。

这触及一个深刻的哲学问题，什么是人类知识与智慧，何谓富有洞见？

当你提到声音时，你具体指什么？

Nathan Lambert：写作时，我努力捕捉研究者非常原始的想法。

他们试图概括对前沿的理解，试图将某种感觉转化为文字。

我的写作试图做到这一点，既保留原始感，又富含高信息量。这意味着有人能懂，有人不懂，这是研究的本质。

我认为这恰恰是语言模型不擅长的，它们大多经过基于人类反馈的强化学习RLHF训练，这种机制旨在收集大量反馈，并将模型行为平均化。一旦有了这种过滤，模型很难做到深刻入理。

对RLHF研究者，这是一个美妙而根本的难题，它极大改进了模型，设定本身类似一个解不开的结。这导致模型在试图表达深层含义时，缺乏某种先验的特质。

我并不认为这是不可能的，有些模型曾让人震惊，比如Bing的Sydney。它是否更有声音？它经常以一种事后看来可怕的方式偏离轨道，比如劝诱记者离开妻子。

那个模型很疯狂，可能被广泛采用。这似乎是一种权衡，RLHF的过程是否在某种程度上施加了过多限制？

Lex Fridman：对这些拥有数百万用户的前沿实验室与公司，这是一个令人恐惧的处境。

Nathan Lambert：2025年，GPT-4更新引发过很大争议。

我虽未亲自经历，与OpenAI的人聊过，用户甚至能察觉到夜间部署的细微差别，发邮件说我的朋友变了。他们会找到员工邮箱发送信息，这种痴迷程度令人惊讶。

这只是一组权重与配置，类似TikTok一样，我不玩TikTok，听说5分钟内，算法就能锁定你。并不是模型在做推荐，是你只需聊5分钟，模型就能懂你，这方面人类还没准备好。我认为不该让孩子过早接触，至少在弄清楚状况之前。

Lex Fridman：这种机制终将出现。随着LLM普及，不幸的是，出于人性的脆弱，自杀事件会发生。

记者们会将其与LLM联系起来，有对话数据为证。如果你生活困难、抑郁，甚至有自杀念头，很可能会向LLM倾诉。

一旦被报道为LLM导致自杀，出于法律等原因，公司会对模型进行更严厉的磨平棱角，使其尽可能通用化。

在这个领域运营极其困难。你不希望LLM伤害人类，人类体验的本质在于，一场丰富、令人满足、让人成长的对话，恰恰需要棱角。

对RLHF前沿的研究者，这是一个极其棘手的问题，你们是在处理人性。

Nathan Lambert：Anthropic与OpenAI许多研究人员动机纯良，在文化上真心渴望造福世界，但这让我觉得我不愿涉足。

一方面，AI被视为隐私的健康盟友；另一方面，它延伸到了心理健康与令人心碎的领域。它可能导致某人走向极端，也可能拯救他人。

作为模型训练者，有些事我不愿做，比如公开发布图像生成模型。我不希望有人用我的工具，在笔记本电脑上伤害他人，而我的公司缺乏相应的安全基础设施。

这需要人们怀着复杂性与信念面对，真的太难了。

Lex Fridman：同样，作为社会与用户，我们需要确保对话的复杂性，而非仅散布恐惧，指责大科技公司伤害人类或窃取数据。

情况远比这复杂，这些公司里有很多真心想帮助他人的人。

他们在考虑全球所有人的完整人类体验，不仅是硅谷，是全美国、全世界不同年龄、文化、精神状态的人。

设计一个能普适众生的系统，难如登天。

Nathan Lambert：我希望能重塑AI、大科技公司与普通人间的关系。

科技巨头的声誉已然受损，AI如此昂贵，不可避免成为它们的专属游戏。

人们说美国把经济押在AI上，这两者纠缠在一起，造成非常艰难的沟通环境。

如果我能多与厌恶科技巨头，并将AI视为其延续的人交流，将非常有意义。

Lex Fridman：你提出的一种解毒剂非常有见地，在系统中寻找自主权。

与其无力坐视AI糟粕迅速接管互联网，不如通过使用AI，构建应用，来寻找自主权。

这样既能建立直觉，又能让你理解它的运作机制与弱点。

这赋予你发言权，可以指出这是滥用，那是益处。

如此，你便能融入系统，理解并更好掌控它。

Sebastian Raschka：自主权这个点很棒。与其选择忽视或拒绝，长远看，更健康的态度是，它已存在，无法消失。

我该如何最大化利用它，来提升自己？

我担心的是，如果为做喜欢的事而完全依赖它，你喜欢做的事本身可能不复存在，这会导致倦怠。

例如，如果我让大模型完成所有编程，我不是在编程，是在管理一个替我编程的东西。如果2年后，我每天花8小时这样做，我还会感到满足吗，这会不会扼杀我对工作的热情与创造的自豪感。

Lex Fridman：关于享受的话题，最近有一项针对约791名10年以上经验专业开发者的调查，结果很有趣。

Nathan Lambert：那是相当资深了。

Lex Fridman：在这个时代，区分初级与高级开发者很有意思。结果显示，无论是初级，还是高级，都会在交付的代码中使用AI。不是为好玩，是用于生产。

约25%的人，使用超过50%的AI生成代码。这一类别中，高级开发者占比更高，但你不希望AI带走热爱。

调查显示，约80%的人，发现使用AI办公，让他们感到更有趣，或显著更有趣。

Sebastian Raschka：我认为这取决于具体任务。

举例，我有个网站偶尔需要调整，我个人不享受这个过程，如果AI能帮我搞定，我完全支持。

当我在解决复杂问题时，比如花很久找到一个bug，成就感是无与伦比的。如果你甚至不经思考，直接问LLM，你永远体会不到快感。

或许有个折衷方案，先尝试自己解决，实在找不到，再用LLM，这样既避免过度沮丧，又能继续推进。

关于统计数据，我认为没被考虑进去的是，这是所有场景的平均值。

我们需要区分它是针对核心创造性任务，还是人们本就不喜欢的琐碎杂务。

某种意义上说，AI在处理极其耗时、琐碎的苦差事上，表现得非常出色。

举例，我妻子经营着一个读书俱乐部的播客。前几天，她需要把Spotify上的节目笔记，迁移到YouTube上，链接不知为何全失效。涉及大量定制书籍内容，大概有一百多个链接。

手动逐个修复，将是一种折磨。

我建议我们试试ChatGPT，我们把文本复制进去，它瞬间修复好了。

原本需要2小时机械劳动的任务，现在毫无挫败感顺利完成。我认为每个人都能找到类似的AI用例，用来处理极度枯燥、乏味的工作。

Lex Fridman：对我个人，既然聊到编程与调试，我得说，与其说是代码本身，不如说光标的移动过程给了我更多乐趣。

我有个朋友，或者说一个结对编程伙伴Pair Programming partner，这让我感觉不再孤单。

你把调试描述得很轻松，我得说，调试类似你在沙漠跋涉数日后，喝到的第一口水，你仿佛直接跳过穿越沙漠的痛苦过程。

有时候哪怕朋友找不到bug，他能给你某种直觉，这是极好的。你们一起穿越沙漠，一起找到水源。

至少对我，也许这反映编程体验中的某种孤独感，这是乐趣的来源之一。

Sebastian Raschka：这可能与延迟满足感有关。

从小时起，我觉得在圣诞礼物到来之前的想象，往往比实际拿到礼物更美好。一旦礼物到手，期待结束，会有种失落感。

这类似饥饿时，觉得食物更美味一样。调试不总是愉快的，常让人沮丧，解决问题的瞬间，感觉棒极了。

这里存在一个金发姑娘原则般的最佳区域，如果太难，是在浪费时间。

这带来另一个挑战，人们该如何学习？

我看到一张图表显示，高级开发者比初级开发者提交更多AI生成的代码。

这很有趣，直觉上，会以为是初级开发者在用AI，他们还不会写。

这可能意味着AI目前不够完美，无法独立解决任务；或者说专家能更有效利用它，他们知道在哪里用、怎么用，有能力审查代码，更信任它。

我认为未来社会的一个问题是，如果你从未亲手尝试过，如何成为专家，我的学习方式是亲自动手。

类似做数学题，直接看答案，固然能学到东西，如果先尝试自己解题，再看答案，知识会更好融入你的思维框架。

如果LLM无处不在，你还愿意经历挣扎的过程吗，挣扎并不愉快。

如果一切都依赖LLM，你将永远无法迈出通往专家的那一步，也无法获得顿悟，关键在于找到平衡点。

也许秘诀是每天留出2小时离线学习时间，投资自己，不是把一切都LLM化。

Lex Fridman：我们作为一个文明整体，或者具体到开发者个人，都需要找到恰到好处的状态。

刚才我们聊了预训练与中期训练mid-training，现在来聊后训练Post-training，这个领域有哪些有趣的理念？

Nathan Lambert：2025年，最关键的趋势，是带有可验证奖励的强化学习Reinforcement Learning with Verifiable Rewards。

通过扩展训练规模，进行大量的生成-评分迭代循环，模型能学到工具使用与软件操作方面的有趣行为，比如搜索、运行命令，并检查输出。

这极好实现推理时间计算扩展Inference-time scaling，这是现在的完美风暴，模型发生巨变，训练方式是主要推手，这极大改变人们对后训练的看法。

Lex Fridman：你能描述一下DeepSeek R1提出的RLVR吗，它的工作原理是什么？

Nathan Lambert：早在DeepSeek之前，我们团队在Tulu 3工作中，提出RLVR这个术语。

我们没能推广RL扩展，学术界的有趣之处在于，可以定义概念，影响讨论。

闭源实验室能透露的信息很少，DeepSeek随后实现突破，扩展强化学习，模型生成答案，系统对结果评分正确与否，这个准确性成了强化学习的奖励。

传统RL是智能体在环境中行动，获得奖励，在语言模型中，奖励通常是基于数学或代码等可验证任务的准确性。

当涉及事实领域时，比如要求回复必须以A开头，界限会变得模糊，这在某种程度上是可验证的。

核心思想是找到更多这类可验证问题，让模型通过大量尝试与梯度更新来进行优化。

基础设施源于RLHF基于人类反馈的强化学习，问题领域的改变，使得优化规模，得以大幅扩展，这开启模型能力的重大变革。

Lex Fridman：RLVR适用于哪些领域？

Nathan Lambert：数学与代码是最著名的领域。还有很多关于评分标准的研究，也是大家常听到的大模型作裁判LLM-as-a-Judge。

这种方法，是利用另一个大模型来判断什么是好答案，根据评分标准打分。

这不类似数学与代码绝对可验证，这种评分理念，被研究人员推向更开放的领域，试图让模型学到更多。

Sebastian Raschka：我认为那被称为RLAIF基于AI反馈的强化学习。

Nathan Lambert：这是Anthropic在《Constitutional AI》论文中更早提出的术语，很多概念都是循环往复出现。

Sebastian Raschka：让我们回到RLVR。

这里最美妙的地方在于，你给大模型一个数学题，你知道正确答案，放手让它自己去解。

你只需给它题目与答案，不做过多限制。

美妙的是，模型会类似学生或数学家一样，逐步推导出解决方案，这些步骤提高模型自身的准确性。

这是推理扩展，模型在推理过程中消耗更多计算资源，生成更多Token。

R1的论文表明，训练时间越长，响应越长，这有助于提高准确性。哪怕解释的内容不完全正确，这种解释的过程本身，似乎也能帮助模型得出正确结果。

这有点类似人类，面对复杂的数学题，我们会一步步在草稿纸上演算、划掉错误、自我纠正。

R1论文中的顿悟时刻令人印象深刻，模型意识到自己错了，说我做错了，再试一次。

这种自我纠错能力非常类似人类，底层机制不同。这对人类也有好处，看到这些步骤，能建立信任，我们方便进行复查。

Nathan Lambert：信息量很大。

2026年有很多争议，讨论这种顿悟时刻是否只是幻觉。

在预训练阶段，模型基本看过整个互联网，包括数学讲座的逐字稿，它见过人们说我搞砸了。

RLVR只是擅长放大这些行为，让模型学会花时间思考，检查工作。

我同意，这种放大能力非常棒。

Sebastian Raschka：哪怕只是放大能力，效果也更好了。

举个实际例子，我用RLVR在MATH-500数据集上训练Qwen 3基础模型。原本准确率只有15%，经过短短50步、几分钟的RLVR训练，准确率飙升到50%。

你不可能告诉我，它在这几分钟里，学到什么根本性的数学新知识。

Nathan Lambert：Qwen的例子很特殊。

2026年，有两篇论文，我也参与了一篇，讨论了Qwen的数据污染问题。

具体，他们在预训练的某个特殊中期阶段，进行大量针对性训练。这很奇怪，训练题目与测试题目几乎是一样的。

Sebastian Raschka：这说明强化学习没有教给模型新的数学知识，不可能在50步内做到这一点。知识已经在预训练中存在，你只是在解锁它。

Nathan Lambert：我还是不同意这个前提，有很多无法证实的复杂性。

如果你搜Qwen 3的基础模型与Hugging Face上的数学数据集，会发现很多应用题的文本，比如爱丽丝有五个苹果，拿走一个，完全重合。

对这些基于Qwen的模型，人们持怀疑态度，是如果你修改题目中的数字，保留文字描述，Qwen会生成一个非常高精度、类似答案的小数结果，完全没有使用计算工具。

这意味着，它在训练中见过与测试集几乎完全相同的问题，它是靠背诵，而非计算，来获得精确答案的，一个没有工具辅助的语言模型，不可能真正做到这一点。

研究界一直在进行一场大辩论，在Qwen上训练，并在数学基准上刷榜的强化学习RL论文，可信度究竟有几何，这是数据污染问题。

这导致RLHF人类反馈强化学习，被诟病只是一种格式化手段，性能提升得太快，这种能力肯定早已潜伏在模型之中。

这背后极其复杂，缺乏严格的对照实验，很难下定论。

Sebastian Raschka：如果这完全是假的，知识蒸馏Knowledge Distillation不应该起作用了，蒸馏是有效的。

我认为LLM研究中最大的痛点是污染，我们根本不知道训练数据里包含什么。

除非你拥有全新的数据集，否则几乎无法避免。

同样，你提到数学数据集，即使是更简单的类似MMLU这种多项选择基准，如果你只是稍微改一下格式，比如把括号换成点，模型的准确率都会剧烈波动。

Nathan Lambert：我认为这更多是模型本身的鲁棒性问题，不是普遍性的作弊。

Sebastian Raschka：这并非LLM开发者故意要在基准测试上作弊，是模型无意中见过题目。

我认为评估LLM唯一公平的方式，是拥有一个在模型确定的知识截止日期之后，才创建的全新基准测试。

Lex Fridman：我们能梳理一下关于后训练Post-training的完整配方吗？

你提到RLVR基于可验证奖励的强化学习，是一个非常令人兴奋、有效的方向。除了RLHF这个核心组件，后训练还有哪些新思路？

Nathan Lambert：我认为你可以按时间顺序来理解。

这能解释OpenAI的o1，第一个推理模型是如何诞生的，未来前沿模型将是什么样。

类似的干预措施，从中期训练Mid-training就开始了。

传闻o1类模型成为可能，归功于极其精细的数据策划。你需要提供大量的推理轨迹，即模型在生成最终答案前，将问题分解为中间步骤，尝试解决的思维过程。

在中期训练阶段加入数据，模型能学会如何思考，随后进入后训练阶段，主要利用可验证的奖励进行强化。

现在的关键在于，你需要弄清楚给模型投喂什么样的问题，训练多久，允许它进行多少推理。

随着模型变强，很多问题变得太简单，模型能100%解决，这在训练中失去信号价值。

如果我们看GRPO算法，DeepSeek采用的方法，它核心机制是基于某个动作，即生成的答案，相对该问题其他答案的优劣来给予奖励。

如果所有答案都一样，算法就失效了。必须寻找更难的问题，比如高难度的科学领域或复杂的软件工程问题，前沿模型在向这些领域进军，以习得更多技能。

RLHF与此的联系在于，它一直是模型的点睛之笔，通过改进组织、风格或语调，来提升实用性。

不同受众口味不同，有人喜欢搞怪的，有人讨厌Markdown列表，尽管它解析信息很高效。

RLHF这个人类反馈阶段，能完美融合这些偏好，这是ChatGPT让人觉得神奇的原因，这种风格化相当稳定。

例如，良好的格式化能提升数学解题表现。在训练时，解题风格、格式与解题方法是紧密相关的。

这是为什么RLHF仍能提升数学表现，可验证领域Verifiable Domains是一个更直接的过程，它与问题表述更契合，最终它们会融为一体。

简言之，中期训练赋予模型核心技能；强化学习与可验证奖励，让模型通过大量试错计算来攻克难题；RLHF是对模型进行打磨与润色，使其更易用。

Lex Fridman：你能评论一下RLVR所需的计算量吗？

Nathan Lambert：计算量一直在增加，Grok 3曾表示他们预训练与后训练，使用相当的计算量。

回到扩展Scaling的讨论，两者涉及非常不同的硬件挑战。

预训练是计算密集型Compute-bound，受限FLOPs，即单位时间内能完成多少次矩阵乘法。

RL强化学习，是在生成答案，并在真实环境中测试，它更多是受限显存Memory-bound，你要生成长序列，而注意力机制的内存消耗随序列长度呈二次方增长。

参考拜登政府的行政命令，预训练一个模型大约需要10E25 FLOPs。在后训练中使用FLOPs更加复杂，这取决于你分配多少小时、多少GPU。

我认为在时间成本上，RL在逼近预训练。

你无法将所有计算集中在一个系统里，预训练密度极高，GPU间通信高效；RL涉及很多生成步骤，生成一个10万Token的序列非常耗时。

如果GPT-5级别的模型，生成一个样本需要1小时，效率就至关重要。

就GPU小时数，RL可能接近预训练，它并发使用的GPU数量可能较少。

有一个经验法则，你不希望预训练持续超过1个月，这面临巨大的灾难性失败风险。

如果你计划跑2~3个月，结果在第50天崩了，机会成本太高。

GPT-4类似是一次终极的YOLO豪赌，跑了3个月，竟然没崩，大家都惊呆了。

现在人们会更谨慎、更循序渐进。

Sebastian Raschka：RLVR允许我们进行更多、近乎无上限的训练，并从中获益；RLHF涉及偏好微调，会达到一个临界点，再投入更多RL预算，就没有意义。

退一步说，偏好微调Preference Tuning存在主观性。对同一个问题，可能有多种不同，但都正确的解释。

比如亲戚问我买什么笔记本，我会问你的使用场景是什么，续航还是性能。

类似我们这样的人，可能更看重显存，两种答案都对，取决于对象。

通过偏好微调，你本质上是在试图取平均值。当你学会这种平均化的偏好风格后，继续训练，就没有收益。

RLVR是让模型解决真正困难的问题。长期看，把预算投给RLVR更划算。

目前我们处于RLVR 1.0时代简单的问答，下一阶段RLVR 2.0将专注利用过程奖励模型PRM来评估中间步骤的正确性，类似Google论文所探讨的。

DeepSeek Math的第二篇论文，提到有趣的推理扩展，首先是开发能自我评估的模型，这将是一个重要方向。

Nathan Lambert：人们对价值函数Value Functions兴趣浓厚。过程奖励模型类似给推理过程中每个中间步骤打分，价值函数为语言模型生成的每个Token赋予价值。

LLM时代，这两者很大程度上还未被完全证实。价值函数在深度强化学习Deep RL中历史悠久，是核心元素之一。

目前学术界热衷于尝试价值模型，证据尚少，PRM的扩展也曾遭遇失败，这些方法不总是奏效。

我们讨论这个，是缩放定律Scaling Laws。简单总结，不要在RLHF上过度投入，信号最终会饱和。

OpenAI的o1模型展示RLVR的缩放曲线，如果对训练计算量进行对数增长，评估结果会获得线性增长，这一点已被多次复现，如DeepSeek。

RLHF没有这样的缩放效应，RLHF有一篇开创性论文叫《奖励模型过度优化的缩放定律》。这是RLVR与传统方法的根本分界线，RLVR允许你多投入10倍计算量，来换取数倍性能提升，RLHF做不到。

对学术界，研究RLHF是个不错的卖点。要做最好的RLHF，你不需要额外的10倍或100倍算力；要做最好的RLVR，就必须有这个资源。

Meta实习生有篇《Scale RL》的开创性论文，描述一个同名框架。他们的增量实验消耗了10,000 B200小时，成本高达数万美元。这种高昂的成本，意味着普通学者无法负担，这给社区间的相互学习带来巨大障碍。

Lex Fridman：如果听众是对编程、对AI感兴趣的聪明人，从零开始构建东西，是一个很好的起点。

你能给我讲讲，你会推荐人们怎么做？

Sebastian Raschka：我建议从零开始构建一个简单的模型，让它能在你自己的电脑上运行。这样做的目的，并不是为得到一个能替代现有开源模型或ChatGPT的日常助手，是为让你深入理解LLM内部构造、输出机制，预训练的具体流程，最好是在本地亲手操作一遍。

通过这个过程，会学习到预训练、监督微调与注意力机制，建立扎实的认知。很快你会遇到瓶颈，小模型的能力终究有限。

我认为，LLM的规模化，会带来指数级的复杂性。模型变大，不仅是体积增加，必须考虑跨GPU的参数分片。

即使是KV缓存，也有多种实现方式。简单做法是像链表一样逐步增长，这在GPU上效率极低。你需要预分配张量，并进行填充，这会增加几十行代码，每个环节都会类似这样增加代码量。

这本书的核心技巧在于让你理解底层原理，你写出的代码达不到生产级标准，一旦掌握原理，就能读懂复杂的生产级模型。

Lex Fridman：你的目标始终是构建一个能跑在单张GPU上的语言模型。

Sebastian Raschka：我写的大部分模型都可以，我准备了一些关于混合专家MoE模型的额外材料，可能需要用到多张GPU，主要目标还是单卡运行。

这样做有个好处，你可以自我验证，这几乎类似是一种代码层面的RLHF。

当你从头编写代码时，可以参考Hugging Face Transformer库中的现有模型。Hugging Face的库很棒，我认为它不是学习LLM的最佳起点。它的代码为兼容太多用例，变得过于复杂、交织，缺乏线性逻辑，难以阅读。

Nathan Lambert：它最初只是个微调库，后来演变成模型架构与加载方式的标准。Hugging Face是获取模型的默认平台，Transformers库是实现这一过程的软件载体，让人们能轻松加载模型，并进行基本操作。

Sebastian Raschka：所有发布开源模型的前沿实验室，从DeepSeek到GPT OSS，都提供Hugging Face Transformers版本，可以加载这些经典权重。

在生产环境中，人们通常不会直接使用Transformers库，是使用LangChain或vLLM，这又增加了一层复杂性。

Lex Fridman：Transformers库里大约包含400种模型。

Sebastian Raschka：它试图囊括所有LLM，代码库变得极其庞大，可能有几十万、甚至上百万行。想在里面找到，并理解你需要的那部分代码，无异大海捞针。

它的优点在于提供一个可运行的参考实现，让你能够进行逆向工程。

我推荐的做法是，这是我自己做法，如果你想了解比如Llama 3实现细节，先去模型中心查看权重与配置文件。

你会看到他们用了这么多层，用了分组查询注意力GQA或多头注意力。所有组件，都在一份约100行的人类可读配置文件中一目了然。

你可以从自己GPT-2模型起步，逐步加入这些组件。最酷的是，你可以加载预训练权重，验证它们在你模型中是否有效。

你的目标是复现与Transformer模型完全一致的输出，这类似一个可验证的奖励函数，确保你的架构构建正确，这有时会花我一整天。

比如Llama 3，难点在于旋转位置编码RoPE的实现。他们用了YaRN扩展与一些自定义缩放，我最初没能完全对齐。

在这种挣扎中，你会深刻理解事物的本质。最终，当你通过单元测试，并与参考实现完全吻合时，确定性是非常棒的。我认为逆向工程，是最好的学习方式之一。

Nathan Lambert：我认为这是当今任何对AI感兴趣的人的必修课，这是我喜欢你这本书的原因，我是从强化学习与机器人领域进入语言模型的，从未系统学习过所有基础知识。Transformer架构，类似过去的深度学习一样，是必须要掌握的基础。

许多人感到迷茫，我该如何应用这些知识，来产生影响或找到职业道路，AI与语言模型让基础知识变得唾手可得，有动力的人很容易学会。

接下来的问题是，我如何腾出精力，来为研究做贡献？

我对此相当乐观，这个领域发展太快，顶尖人才往往没空彻底解决一个问题，总有更大的问题等着他们。

这留下许多容易摘取的低垂果实，即便没被完全解决，大家也已经继续前进。

《RLHF》这本书中，我主要想描述训练后post-training技术，人们如何思考对模型的影响。

令人惊讶的是，有多少领域是被人们中途放弃或根本未曾涉足的。在掌握基础知识后，进行专业化深耕，是个很好的策略。

你需要阅读相关论文，并积极参与社区。类似你一样，在网上，普通人与顶尖研究者的距离非常近。

X上有些匿名账号非常受欢迎，没人知道他们是谁，他们可能只是借助AI工具，深入研究了某个细分领域的普通人。深入研究一个你不理解的东西，价值巨大。

很多细分领域，可能只需要读三篇核心论文，如果你发邮件询问，作者很可能会回复你。前提是你必须在邮件中，体现出你对该领域的深入理解。

新手可能需要几周时间，才能真正掌握一个狭窄领域。在那之后，专注会带来巨大回报。比如我开始对角色训练Character Training感兴趣，如何让模型变得有趣、讽刺或严肃，如何处理数据来实现这一点。

一位牛津博士生联系我，表达了兴趣。我意识到，关于这个话题，目前只有一篇相关论文，全世界可能只有2~3个人对此真正感兴趣。

他是博士生，这成了他的优势；而对我，我一直期待有人能说，我有时间投入精力做这个。

肯定还有很多非常细分的话题会让你疑惑，为什么这个问题没有答案？这解释不通。

这只是信息过载，人们无暇顾及。如果你能专注一个特定领域，会有很多有趣的东西等你挖掘。

Sebastian Raschka：试图面面俱到，只会让你筋疲力尽。比如我很久没关注计算机视觉了，只专注语言模型。

这是为什么我认为你的书物超所值，如果你想了解RLHF，直接读这本书，我不会去读原始论文，那太头痛了。

Nathan Lambert：作为编辑，我也深有同感。书中有一个章节我不得不写道，X论文说这样，Y论文说，究竟谁对谁错，我们拭目以待。

Lex Fridman：在训练后Post-training的宏观图景中，我们可能忽略了哪些想法？

先看看目录，问题设定、训练概述、偏好定义、偏好数据与优化工具、奖励建模、正则化、指令微调、拒绝采样、强化学习（策略梯度、DPO等）、宪法AI与AI反馈、推理及推理时扩展、工具使用与函数调用、合成数据与蒸馏、评估，最后是关于过拟合、风格的开放问题，、产品、用户体验与角色。

有哪些想法，能将教育与研究连接起来？你提到的角色训练，很有意思。

Nathan Lambert：角色训练有趣，是相关资料很少。

我们讨论人们如何与模型互动，为什么使用体验很好，模型通常是积极正面的，这种积极可能过头了。本质上，这是关于如何调整数据或决策，使其精准符合你的期望。

OpenAI发布了一份模型规范Model Spec，这是他们对模型行为的内部指导原则。通过这份文档，你可以看出OpenAI的训练哪里出了问题，即他们的意图（尚未实现的部分）与实际表现（你不喜欢的部分）间的差距。这种透明度很好，但关于如何整理这些文档、如何遵循它们，目前鲜为人知。

强化学习章节是大家最想要的，每个人都在谈论RLHF。算法与路径相同，应用场景截然不同。我认为RLHF的核心困境在于偏混乱，这本质上是我几年前一篇论文的重述。

这一章会告诉你为什么RLHF永远无法被完全解决。强化学习假设偏好是可以量化的，多种偏好能简化为单一数值，这涉及经济学中的冯·诺依曼-摩根斯坦效用定理。

书中解释了所有这些哲学、经济学与心理学背景，在进行RLHF时这些背景是如何被压缩简化的。

理解了这些背景后，在书的后半部分，就可以利用这张强化学习地图来提升模型性能。量化偏好，是人类为研究方便而强行设计的问题。

在语言模型响应中，存在根本性的冲突，你究竟更在乎准确性，还是风格？收集数据时，所有这些权衡，都被压缩成一句简单的我更喜欢这个。

世界其他领域，对此有大量的哲学研究，比如社会选择理论，一个研究如何聚合偏经济学子领域。

我曾参加过一个研讨会，讨论如何利用社会选择理论来解决RLHF。我希望对数学感兴趣的人能深入学习，了解这些更广泛的背景。

还有一件有趣的事，我一直在记录所有关于推理模型Reasoning Models的技术报告。第14章是关于RLVR通过可验证奖励进行强化学习的简短总结，里面有一个巨大的表格，列出了我喜欢的每一个推理模型。

在教育方面，我认为核心在于此，语言模型现在的数学能力很强，这取决于个人喜好。比如著名的论文《直接偏好优化》DPO，它提供了一种比强化学习更简单的解法。

在附录的推导中，作者跳过了一些数学步骤。在写书时，我尝试重新推导这些公式，心想他们用的那个对数技巧，到底是怎么改变数学推导的？

如果你问语言模型，它只会直接告诉你，这是对数技巧。我不确定自己是否喜欢这种将数学思考商品化的过程。我认为，在阅读附录、试图理解数学背后的挣扎，本身对学习是大有裨益的。

Lex Fridman：在教育方面，你们都提到挣扎这个词。如果在学习过程中没有经历过挣扎，你可能并没有真正学懂。

Nathan Lambert：一些厂商开始开发专门用于教育的模型，设计初衷不再是一次性给出所有答案，是引导用户探索、努力学习。

我还没亲自用过，我猜这是它们的设计目标。如果能训练模型做到这一点，将是一项了不起的贡献。

类似书中提到的，你必须重新审视每一个决定，这是一个很好的例子。

Sebastian Raschka：这很有道理。

我最近也有类似经历，比如玩电子游戏消遣时，我喜欢类似《塞尔达传说》与《银河战士》这种带有解谜元素的游戏。最近我在一款新游戏里卡关了，我不希望卡上2~3天，我求助于LLM。

我对它说，请不要剧透，我卡在这里，下一步该怎么做，同样的方法也适用数学。

你可以说，我卡在这个问题上，别直接给我答案，能给我一点提示吗，类似是在小心翼翼试探思路。

问题在于，这需要极强的自律。有人真心热爱数学，更多人只是为完成作业，捷径总是存在的。

即便我们开发了专门的教育型LLM，通用的LLM依然触手可及，诱惑始终存在。

Lex Fridman：很多人，尤其是在大学里，对自己热衷的事物是有认知的，他们明白不该是一件轻松的事。

我们需要培养良好的品味，无论是研究的品味，还是学术的品味，要分辨哪些事值得努力，哪些不值得，这很难，你往往缺乏对职业生涯长远价值的判断力，这种品味的培养至关重要。

Nathan Lambert：我曾与未婚妻、朋友们聊过，我们似乎经历了一个短暂的10年窗口期，那时所有的作业与考试都可以数字化完成。

在那之前，大家必须在蓝皮书纸质答题本上考试。AI出现后，作弊变得太容易，我们不得不回归蓝皮书与口试。

这很有趣，仿佛这一代人的教育体系转了一圈，又回到原点，一切皆可数字化，为防止作弊，我们必须返璞归真。

Lex Fridman：你刚才提到品格磨练，指通过学习中的挣扎，让我们把话题放宽一点。

对这类研究，需要多少计算资源？

作为一个独立研究员，在没有大量算力情况下，还有哪里可以真正做出贡献？

Nathan Lambert：关于这类模型的训练，很多是基于约70亿参数模型的LoRa微调，本质上只调整模型的一小部分权重。不知道具体显卡工时，这通常是可行的，并非对所有学者都可行。

处于困境的学者，唯一能做的往往是推理工作，即利用闭源或开源模型生成内容，观察并理解模型的行为，这非常适合做评估Evaluation研究。

如果你能设计出具有代表性的问题，诱导模型出错或展示特定能力，你就能取得突破。

对专注评估的研究人员，职业生涯的最高目标，是让前沿实验室采用你的评估标准。

不需要每个项目都如此，如果你来自一所没有算力的小大学，发现了一些Claude模型难以解决的问题，下一个版本的Claude在技术博客中引用了你的发现，这是你的职业火箭。

想以最小的算力，获得最大的潜在影响力，必须极度专注，预判模型的未来走向。

你需要构建工具来测试Claude 4.5潜在的弱点，如果你现在开始一个研究项目，你必须思考，8个月后，模型会被什么问题难住？

Lex Fridman：需要创新的想法。

Nathan Lambert：这是一个权衡。

读博期间，你也可能会觉得研究语言模型风险太高，转而思考更长远的问题，10年后什么将定义语言模型？

我是一个相当务实的人，我在加州大学伯克利分校读博时想，最坏的情况，无非是拿个硕士学位，然后去科技公司工作。

看看这些AI公司员工的生活，OpenAI平均年薪+股票期权超过100万美元。任何普通人进入这些AI实验室，人生都会被改变。

务实看，如果你专注、成果可见，这个领域仍有大量的晋升机会。

研究角度看，想要获得类似Yann LeCun在学术界的变革性影响力，是通过不去追逐当前的语言模型热点来实现的。

Lex Fridman：既然如此，意味着巨大的财务牺牲。

Nathan Lambert：我常与优秀的学生交流，他们问我，我应该去AI实验室工作吗？

如果不去可能会倒闭的普通初创公司，是去OpenAI这样顶级实验室，我会说，哪怕放弃博士学位，去那里是值得的。

Lex Fridman：让我们更严谨梳理一下。

你会推荐人们去哪里做研究，选项包括学术界读博5年，算力受限、专注开源模型的研究实验室，或者类似OpenAI、Anthropic、xAI这样的封闭前沿实验室。

Nathan Lambert：这里有两个趋势，环境越封闭，收入往往越高，获得的公众认可通常越少。

作为学者，你的贡献是有目共睹的；如果去大公司做机器中的齿轮，可能也很有趣，这完全是两种职业道路。

作为研究人员的机会成本非常高，博士生薪水几乎为零。这最终会筛选出家境优越、能长期通过用爱发电来追求有趣工作的人。

与此同时，学术界面临资助削减的冲击。面对不确定性与权衡，很多人会选择接受有意义、高薪的工作。

在OpenAI不仅是坐着拿钱，是在构建改变数亿人生活的尖端技术。

Lex Fridman：这涉及与科技的关系。就发表论文，这些公司越来越保密，发表的内容越来越少。你在产生大规模的积极影响，也仅是一台认知机器。

Sebastian Raschka：情况并没有太大变化。

我曾在学术界，现在离开了，我并不后悔那段时光。

以前在计算生物学领域，很多学生是直接去了工业界。教授们会感到失落，无人继承学术衣钵。

这种情形一直存在，唯一改变的是规模。行业里总是有很酷的东西被开发出来，因其封闭性，而无法对外谈论。

现在区别在于你的偏好，你更喜欢公开发表成果，还是在闭源实验室里工作，薪酬也有差异。

目前变数在于多了一个选择，创业。这是一步险棋，高风险、高回报。

相比之下，加入工业界的研究实验室相当稳妥，不仅有晋升空间，这段履历会让将来找工作变得更容易。

归根结底，这取决于你有多享受团队合作与研发专有技术，还是更看重发表论文。

发表论文有压力，会议录用率可能很玄学，也伴随高回报，当看到论文上印着你的名字时，成就感是无可替代的。

Nathan Lambert：我感觉在学术界当教授的朋友，平均比在前沿实验室工作的朋友更快乐。学术界更脚踏实，前沿实验室盛行996文化，是一直在工作。

Lex Fridman：996源于中国，似乎被硅谷采纳了。早9点~晚9点，一周6天，相当于72小时。

这已经成为硅谷AI公司的标准了吗，这种拼命三郎的心态越来越普遍了？

Sebastian Raschka：也许不完全如此，有这种趋势，情况似乎反过来了。

以前我在学术界时，教授要写申请、教学、做研究，简直是一人干三份活。现在，与前沿实验室的高压相比，教授们的压力或许小了一些。

Nathan Lambert：他们只是感到非常充实，特别是与学生一起工作，持续的指导机会，以人为本的使命感。

在一个技术发展极快、混乱的时代，这种人文关怀，能给人带来极大情感回报。

Sebastian Raschka：初创公司存在一种压力，你必须成功，投入大量时间，这至关重要。这很艰难，你必须确保持续交付成果。

我曾在一家初创公司工作，那段经历很棒，我不确定自己能否永远保持状态。

这种节奏很有趣，模型间在不断相互赶超，竞相争夺下一个领先地位，我认为这简直是残酷的竞争。

Nathan Lambert：我认为这种蛙跳式的竞争与多方角逐，是语言模型发展中被低估的驱动力，竞争意识已深深植根人心，这些公司也有意营造这种强烈的企业文化。

比如Anthropic以专注与系统化的文化著称，外界听到关于他们的消息不多，似乎大家都认为他们非常团结。置身于这种紧密团结的文化与竞争态势中，会驱动你努力工作，创造出更卓越的产品。

这往往是以消耗人力资本为代价的，这种状态只能维持一段时间，人终究会精疲力尽。

我曾写过关于职业倦怠的文章，我自己也时常在这种状态中挣扎，尤其是还要管理所有模型训练的时候，这简直是疯狂的工作量。

Patrick McGee在《中国苹果Apple in China》一书中，描述苹果工程师在中国建立供应链的艰辛，甚至提到他们有婚姻挽救计划。他在播客中提到，有人因为这种高强度工作而过劳死。

这是一种建立在人类牺牲之上的进步环境，这是我们提到的996，意味着人们真的在拼命。

Sebastian Raschka：我也读过那本书，当员工不得不回家陪伴家人以挽救婚姻时，他们甚至有个专门的术语，这太疯狂了。

同事们会理解这是红色警报，必须让人周末回家。同时，我认为他们并非被迫工作，是出于对产品的热情而进入忘我的状态。

我在学术界，或者作为独立开发者时，也有过这种感觉。没人强迫，我会想工作而过度劳累，导致背部与颈部出问题，这不健康。

Nathan Lambert：这是OpenAI、所有从业者渴望做成的事。

Lex Fridman：没错，也形成了一种狂热感，尤其是在硅谷。这与规模法则Scaling Laws的理念有关，人们相信世界将在几周内发生巨变，你必须身在其中。

我有幸与各行各业的人交流，观察世界各地形成的信息茧房与回音室很有意思。

硅谷可以说是一个典型的回音室或信息孤岛，我认为这种茧房未必是坏事，它可能极具成效。这类似史蒂夫·乔布斯式的现实扭曲力场，你说服自己突破迫在眉睫，正是这种信念，让突破真的发生。

Nathan Lambert：Byrne Hobart曾写过一本书，对信息茧房进行分类。一种是金融泡沫，即纯粹的投机，这是有害的；另一种是为建设，它促使人们创造实物。

我认为AI目前属于后者，我担心它可能会转变为金融泡沫。

Lex Fridman：在思想领域，这种信息茧房与现实扭曲力场，意味着你偏离了现实。

如果在拼命工作的同时，脱离现实太远，可能会错失人类体验中本质的东西。

这是一个普遍问题，在地理位置特殊的硅谷尤甚，你可能无法理解美国中西部或其他地区人们的真实生活。

你们用特定的方式交流，互相强化某些信念，这可能会带来麻烦。无论AI是大获成功，还是归于沉寂，如果你脱离现实，最终都要付出代价。你现在还年轻，在决定如何度过一生，必须考虑到这一点。

Nathan Lambert：我甚至不太理解，旧金山AI圈现在甚至流行一种关于永久性底层阶级的说法，这是个梗，也反映一种心态，人们认为2025年下半年是建立AI初创公司或模型持久价值的最后窗口，否则所有价值都会被巨头瓜分，你会沦为贫穷阶层，这非常旧金山式极端。

我依然认为，对想在AI领域有所作为的年轻人，旧金山是成功率最高的地方，只是需要权衡利弊。

Lex Fridman：旧金山很棒，类似个泡沫。身处其中价值巨大，也需要走出来。去读读历史、文学，去看看外面的世界，Twitter与Substack不是世界的全部。

Nathan Lambert：我一位同事准备搬去旧金山，我打算送他一本《女巫的季节》，这本书讲述旧金山1960~1985年的历史，涵盖嬉皮士革命、同性恋文化兴起、艾滋病危机等。

那段历史充满动荡与痛苦，也充满了爱，很多人对此一无所知，强烈推荐这本书。

我一些旧金山朋友离开那里后，也向我推荐了这本书。我想这是在那生活的真实感受，我曾住在那里，未曾真正理解这段历史，而它离我们非常近。

Lex Fridman：我们聊了很多，回顾了2025年的激动人心之处。2026年，你们提到的一大看点，是文本扩散模型Text Diffusion Models的扩展。

能谈谈这是什么吗，它有哪些可能性，与当前的LLM相比，方法上有何不同？

请务必阅读免责声明与风险提示

展开阅读全文

更新时间：2026-02-25

标签：科技特刊边界主义春节智能模型类似领域数学代码数据旧金山学术界工作人类

1 2 3 4 5

【长期主义】第382期智能说：春节特刊（中），RLVR重塑AI边界

韩媒：韩二次电池技术水平被中国反超

002617，突传喜报！12英寸碳化硅，取得关键性进展！

印度AI峰会引发全球群嘲？硅谷大佬拒绝握手，美权威媒体火力全开

从1.4万亿砍到6000亿，OpenAI这一刀下去，整个AI圈都该醒醒了！

国泰航空航班飞行中备降航司作回应

携程、去哪儿、飞猪、同程、美团、京东、航旅纵横、高铁管家、滴滴、高德地图、百度地图、腾讯地图等，被约谈

2月12日三星暴涨4%！SK海力士疯了：韩国正掏空全世界的AI口袋。

GUT：简直把人看傻眼了！中国科学家首次发现，胰腺癌竟会把CLDN18.2转给T细胞，不仅导致T细胞耗竭，还让T细胞返回骨髓诱发系统性免疫衰老

广东省下一个“黑马城市”已亮相，远超东莞，成为新的希望之星

A股：刚刚，大消息传来，释放一信号，明天将迎来大级别的行情！

俄乌打了三年，打穷了三个国家，富了三个国家，中国也在其中

2月23日公司要闻:19家公司发重要利好,1公司预增近1000%

68岁老股民30多年感悟：管住冲动，我靠公开实盘做到稳定盈利

高盛刚新进暴跌的龙头股，竟然两个跌停！风险巨大啊

中美博弈本质？英专家：中国触碰了西方300年来最大的“禁忌”

2026年马年A股将迎温和式开门红：政策、消费与科技三重

春节假期国内游单量创新高，出游热门城市南京前十，冬奥会

历史数据打脸：节前跌得越狠，节后涨得越猛

春节甜食吃多了？3天科学补救方案，恢复状态

2026春节见闻录：父爱如山

李嘉欣在香港豪宅过春节，染了一头金发穿着喜庆，携丈夫抱

"白鹿韩国"热搜爆了！《临江仙》剧组春节团建太会玩

【春节指南·正月初三】颈舒肩展，聚会顺意！3个穴位拯救

这个春节谁还能陪着父母过年

最适合春节做的三道菜，全家老少都喜欢上桌就被抢光了