【长期主义】第382期智能说:春节特刊(中),RLVR重塑AI边界


Nathan Lambert与Sebastian Raschka是机器学习研究员、工程师、教育家,Nathan是艾伦AI研究所的后期训练负责人,是《The RLHF Book》作者,Sebastian Raschka是从零构建LLM与从零构建推理模型的作者。


2026年2月1日,两人在Lex Fridman播客畅谈2026年AI新纪元。


全球AI技术重心从单纯的预训练规模,转向以可验证奖励强化学习RLVR为核心的推理扩展,通过思维链赋予模型深邃原创洞见,而非被RLHF磨平棱角的平庸回复。与此同时,AI战场从数字领域文本生成,跨越至对安全性要求极高的物理自动化与工业大基建。


本期长期主义,选择Nathan Lambert与Sebastian Raschka访谈纪要中篇,瓜哥AI新知发布,六合商业研选精校,分享给大家,Enjoy!


正文:

全文21,554字

预计阅读43分钟


Lex与AI研究员对谈AI江湖 中篇:中美竞争、大厂PK、开源、模型架构演进、训练、硅谷996

时间:2026年2月1日

来源:瓜哥AI新知

字数:21,554


Nathan Lambert与Sebastian Raschka是机器学习研究员、工程师、教育家,Nathan是艾伦AI研究所的后期训练负责人,是《The RLHF Book》作者,Sebastian Raschka是从零构建LLM与从零构建推理模型的作者,两人在Lex Fridman播客畅谈2026年AI新纪元。


Lex Fridman:感觉上,原始的大模型生成数据,与经过人类介入验证,哪怕只验证一小部分代码的大模型生成数据间,存在根本性的区别。


Sebastian Raschka:我认为这类似任何事物一样,人们常想,我可以用大模型来学XYZ,这可行。


现实中,往往有一位专家,他可能已经利用大模型编写好了特定的代码。


这包含一个经过人工打磨的过程,去芜存菁,预先提炼,为你节省时间。价值体现于此,有人进行筛选,并在正确使用大模型。


本质上,你依然是在免费享用他人的劳动成果。例如读一篇Substack文章,我能让大模型给出看法,我可能连该问什么问题都不知道。


相比直接问大模型,阅读这篇文章依然更有价值,你专家筛选准确的知识,提供精炼的摘要。这是一种巨大的增值,我不必花费3~5小时自己阅读,还要承担获取错误信息的风险。


我认为即便有了大模型,作家的价值依然存在,专家的筛选,能为你节省时间。


Lex Fridman:观察摘要与原始内容的区别非常有趣,我确定你们也这么做。


即使是一页纸的摘要,对应一页纸的原文,你也能看到摘要,比如大模型生成的摘要,是如何磨平棱角的,它究竟移除了哪些信号?


Nathan Lambert:我指的是某种声音Voice。


Lex Fridman:声音。声音这个词很有分量,我很想听听你的理解。


有时,它移除的不仅是风格,是核心的洞见。一旦移除洞见,内容的根本含义就变了。


我总对大模型LLM在真正抓住核心洞见方面的不足感到失望,这恰恰是优秀摘要的本职。


即使我使用冗长、极其精细的提示词试图深入挖掘,它依然力有不逮。


这触及一个深刻的哲学问题,什么是人类知识与智慧,何谓富有洞见?


当你提到声音时,你具体指什么?


Nathan Lambert:写作时,我努力捕捉研究者非常原始的想法。


他们试图概括对前沿的理解,试图将某种感觉转化为文字。


我的写作试图做到这一点,既保留原始感,又富含高信息量。这意味着有人能懂,有人不懂,这是研究的本质。


我认为这恰恰是语言模型不擅长的,它们大多经过基于人类反馈的强化学习RLHF训练,这种机制旨在收集大量反馈,并将模型行为平均化。一旦有了这种过滤,模型很难做到深刻入理。


对RLHF研究者,这是一个美妙而根本的难题,它极大改进了模型,设定本身类似一个解不开的结。这导致模型在试图表达深层含义时,缺乏某种先验的特质。


我并不认为这是不可能的,有些模型曾让人震惊,比如Bing的Sydney。它是否更有声音?它经常以一种事后看来可怕的方式偏离轨道,比如劝诱记者离开妻子。


那个模型很疯狂,可能被广泛采用。这似乎是一种权衡,RLHF的过程是否在某种程度上施加了过多限制?


Lex Fridman:对这些拥有数百万用户的前沿实验室与公司,这是一个令人恐惧的处境。


Nathan Lambert:2025年,GPT-4更新引发过很大争议。


我虽未亲自经历,与OpenAI的人聊过,用户甚至能察觉到夜间部署的细微差别,发邮件说我的朋友变了。他们会找到员工邮箱发送信息,这种痴迷程度令人惊讶。


这只是一组权重与配置,类似TikTok一样,我不玩TikTok,听说5分钟内,算法就能锁定你。并不是模型在做推荐,是你只需聊5分钟,模型就能懂你,这方面人类还没准备好。我认为不该让孩子过早接触,至少在弄清楚状况之前。


Lex Fridman:这种机制终将出现。随着LLM普及,不幸的是,出于人性的脆弱,自杀事件会发生。


记者们会将其与LLM联系起来,有对话数据为证。如果你生活困难、抑郁,甚至有自杀念头,很可能会向LLM倾诉。


一旦被报道为LLM导致自杀,出于法律等原因,公司会对模型进行更严厉的磨平棱角,使其尽可能通用化。


在这个领域运营极其困难。你不希望LLM伤害人类,人类体验的本质在于,一场丰富、令人满足、让人成长的对话,恰恰需要棱角。


对RLHF前沿的研究者,这是一个极其棘手的问题,你们是在处理人性。


Nathan Lambert:Anthropic与OpenAI许多研究人员动机纯良,在文化上真心渴望造福世界,但这让我觉得我不愿涉足。


一方面,AI被视为隐私的健康盟友;另一方面,它延伸到了心理健康与令人心碎的领域。它可能导致某人走向极端,也可能拯救他人。


作为模型训练者,有些事我不愿做,比如公开发布图像生成模型。我不希望有人用我的工具,在笔记本电脑上伤害他人,而我的公司缺乏相应的安全基础设施。


这需要人们怀着复杂性与信念面对,真的太难了。


Lex Fridman:同样,作为社会与用户,我们需要确保对话的复杂性,而非仅散布恐惧,指责大科技公司伤害人类或窃取数据。


情况远比这复杂,这些公司里有很多真心想帮助他人的人。


他们在考虑全球所有人的完整人类体验,不仅是硅谷,是全美国、全世界不同年龄、文化、精神状态的人。


设计一个能普适众生的系统,难如登天。


Nathan Lambert:我希望能重塑AI、大科技公司与普通人间的关系。


科技巨头的声誉已然受损,AI如此昂贵,不可避免成为它们的专属游戏。


人们说美国把经济押在AI上,这两者纠缠在一起,造成非常艰难的沟通环境。


如果我能多与厌恶科技巨头,并将AI视为其延续的人交流,将非常有意义。


Lex Fridman:你提出的一种解毒剂非常有见地,在系统中寻找自主权。


与其无力坐视AI糟粕迅速接管互联网,不如通过使用AI,构建应用,来寻找自主权。


这样既能建立直觉,又能让你理解它的运作机制与弱点。


这赋予你发言权,可以指出这是滥用,那是益处。


如此,你便能融入系统,理解并更好掌控它。


Sebastian Raschka:自主权这个点很棒。与其选择忽视或拒绝,长远看,更健康的态度是,它已存在,无法消失。


我该如何最大化利用它,来提升自己?


我担心的是,如果为做喜欢的事而完全依赖它,你喜欢做的事本身可能不复存在,这会导致倦怠。


例如,如果我让大模型完成所有编程,我不是在编程,是在管理一个替我编程的东西。如果2年后,我每天花8小时这样做,我还会感到满足吗,这会不会扼杀我对工作的热情与创造的自豪感。


Lex Fridman:关于享受的话题,最近有一项针对约791名10年以上经验专业开发者的调查,结果很有趣。


Nathan Lambert:那是相当资深了。


Lex Fridman:在这个时代,区分初级与高级开发者很有意思。结果显示,无论是初级,还是高级,都会在交付的代码中使用AI。不是为好玩,是用于生产。


约25%的人,使用超过50%的AI生成代码。这一类别中,高级开发者占比更高,但你不希望AI带走热爱。



调查显示,约80%的人,发现使用AI办公,让他们感到更有趣,或显著更有趣。


Sebastian Raschka:我认为这取决于具体任务。


举例,我有个网站偶尔需要调整,我个人不享受这个过程,如果AI能帮我搞定,我完全支持。


当我在解决复杂问题时,比如花很久找到一个bug,成就感是无与伦比的。如果你甚至不经思考,直接问LLM,你永远体会不到快感。


或许有个折衷方案,先尝试自己解决,实在找不到,再用LLM,这样既避免过度沮丧,又能继续推进。


关于统计数据,我认为没被考虑进去的是,这是所有场景的平均值。


我们需要区分它是针对核心创造性任务,还是人们本就不喜欢的琐碎杂务。


某种意义上说,AI在处理极其耗时、琐碎的苦差事上,表现得非常出色。


举例,我妻子经营着一个读书俱乐部的播客。前几天,她需要把Spotify上的节目笔记,迁移到YouTube上,链接不知为何全失效。涉及大量定制书籍内容,大概有一百多个链接。


手动逐个修复,将是一种折磨。


我建议我们试试ChatGPT,我们把文本复制进去,它瞬间修复好了。


原本需要2小时机械劳动的任务,现在毫无挫败感顺利完成。我认为每个人都能找到类似的AI用例,用来处理极度枯燥、乏味的工作。


Lex Fridman:对我个人,既然聊到编程与调试,我得说,与其说是代码本身,不如说光标的移动过程给了我更多乐趣。


我有个朋友,或者说一个结对编程伙伴Pair Programming partner,这让我感觉不再孤单。


你把调试描述得很轻松,我得说,调试类似你在沙漠跋涉数日后,喝到的第一口水,你仿佛直接跳过穿越沙漠的痛苦过程。


有时候哪怕朋友找不到bug,他能给你某种直觉,这是极好的。你们一起穿越沙漠,一起找到水源。


至少对我,也许这反映编程体验中的某种孤独感,这是乐趣的来源之一。


Sebastian Raschka:这可能与延迟满足感有关。


从小时起,我觉得在圣诞礼物到来之前的想象,往往比实际拿到礼物更美好。一旦礼物到手,期待结束,会有种失落感。


这类似饥饿时,觉得食物更美味一样。调试不总是愉快的,常让人沮丧,解决问题的瞬间,感觉棒极了。


这里存在一个金发姑娘原则般的最佳区域,如果太难,是在浪费时间。


这带来另一个挑战,人们该如何学习?


我看到一张图表显示,高级开发者比初级开发者提交更多AI生成的代码。


这很有趣,直觉上,会以为是初级开发者在用AI,他们还不会写。


这可能意味着AI目前不够完美,无法独立解决任务;或者说专家能更有效利用它,他们知道在哪里用、怎么用,有能力审查代码,更信任它。


我认为未来社会的一个问题是,如果你从未亲手尝试过,如何成为专家,我的学习方式是亲自动手。


类似做数学题,直接看答案,固然能学到东西,如果先尝试自己解题,再看答案,知识会更好融入你的思维框架。


如果LLM无处不在,你还愿意经历挣扎的过程吗,挣扎并不愉快。


如果一切都依赖LLM,你将永远无法迈出通往专家的那一步,也无法获得顿悟,关键在于找到平衡点。


也许秘诀是每天留出2小时离线学习时间,投资自己,不是把一切都LLM化。


Lex Fridman:我们作为一个文明整体,或者具体到开发者个人,都需要找到 恰到好处的状态。


刚才我们聊了预训练与中期训练mid-training,现在来聊后训练Post-training,这个领域有哪些有趣的理念?



Nathan Lambert:2025年,最关键的趋势,是带有可验证奖励的强化学习Reinforcement Learning with Verifiable Rewards。


通过扩展训练规模,进行大量的生成-评分迭代循环,模型能学到工具使用与软件操作方面的有趣行为,比如搜索、运行命令,并检查输出。


这极好实现推理时间计算扩展Inference-time scaling,这是现在的完美风暴,模型发生巨变,训练方式是主要推手,这极大改变人们对后训练的看法。


Lex Fridman:你能描述一下DeepSeek R1提出的RLVR吗,它的工作原理是什么?


Nathan Lambert:早在DeepSeek之前,我们团队在Tulu 3工作中,提出RLVR这个术语。


我们没能推广RL扩展,学术界的有趣之处在于,可以定义概念,影响讨论。


闭源实验室能透露的信息很少,DeepSeek随后实现突破,扩展强化学习,模型生成答案,系统对结果评分正确与否,这个准确性成了强化学习的奖励。


传统RL是智能体在环境中行动,获得奖励,在语言模型中,奖励通常是基于数学或代码等可验证任务的准确性。


当涉及事实领域时,比如要求回复必须以A开头,界限会变得模糊,这在某种程度上是可验证的。


核心思想是找到更多这类可验证问题,让模型通过大量尝试与梯度更新来进行优化。


基础设施源于RLHF基于人类反馈的强化学习,问题领域的改变,使得优化规模,得以大幅扩展,这开启模型能力的重大变革。


Lex Fridman:RLVR适用于哪些领域?


Nathan Lambert:数学与代码是最著名的领域。还有很多关于评分标准的研究,也是大家常听到的大模型作裁判LLM-as-a-Judge。


这种方法,是利用另一个大模型来判断什么是好答案,根据评分标准打分。


这不类似数学与代码绝对可验证,这种评分理念,被研究人员推向更开放的领域,试图让模型学到更多。


Sebastian Raschka:我认为那被称为RLAIF基于AI反馈的强化学习。


Nathan Lambert:这是Anthropic在《Constitutional AI》论文中更早提出的术语,很多概念都是循环往复出现。


Sebastian Raschka:让我们回到RLVR。


这里最美妙的地方在于,你给大模型一个数学题,你知道正确答案,放手让它自己去解。


你只需给它题目与答案,不做过多限制。


美妙的是,模型会类似学生或数学家一样,逐步推导出解决方案,这些步骤提高模型自身的准确性。


这是推理扩展,模型在推理过程中消耗更多计算资源,生成更多Token。


R1的论文表明,训练时间越长,响应越长,这有助于提高准确性。哪怕解释的内容不完全正确,这种解释的过程本身,似乎也能帮助模型得出正确结果。


这有点类似人类,面对复杂的数学题,我们会一步步在草稿纸上演算、划掉错误、自我纠正。


R1论文中的顿悟时刻令人印象深刻,模型意识到自己错了,说我做错了,再试一次。


这种自我纠错能力非常类似人类,底层机制不同。这对人类也有好处,看到这些步骤,能建立信任,我们方便进行复查。


Nathan Lambert:信息量很大。


2026年有很多争议,讨论这种顿悟时刻是否只是幻觉。


在预训练阶段,模型基本看过整个互联网,包括数学讲座的逐字稿,它见过人们说我搞砸了。


RLVR只是擅长放大这些行为,让模型学会花时间思考,检查工作。


我同意,这种放大能力非常棒。


Sebastian Raschka:哪怕只是放大能力,效果也更好了。


举个实际例子,我用RLVR在MATH-500数据集上训练Qwen 3基础模型。原本准确率只有15%,经过短短50步、几分钟的RLVR训练,准确率飙升到50%。


你不可能告诉我,它在这几分钟里,学到什么根本性的数学新知识。


Nathan Lambert:Qwen的例子很特殊。


2026年,有两篇论文,我也参与了一篇,讨论了Qwen的数据污染问题。


具体,他们在预训练的某个特殊中期阶段,进行大量针对性训练。这很奇怪,训练题目与测试题目几乎是一样的。


Sebastian Raschka:这说明强化学习没有教给模型新的数学知识,不可能在50步内做到这一点。知识已经在预训练中存在,你只是在解锁它。


Nathan Lambert:我还是不同意这个前提,有很多无法证实的复杂性。


如果你搜Qwen 3的基础模型与Hugging Face上的数学数据集,会发现很多应用题的文本,比如爱丽丝有五个苹果,拿走一个,完全重合。


对这些基于Qwen的模型,人们持怀疑态度,是如果你修改题目中的数字,保留文字描述,Qwen会生成一个非常高精度、类似答案的小数结果,完全没有使用计算工具。


这意味着,它在训练中见过与测试集几乎完全相同的问题,它是靠背诵,而非计算,来获得精确答案的,一个没有工具辅助的语言模型,不可能真正做到这一点。


研究界一直在进行一场大辩论,在Qwen上训练,并在数学基准上刷榜的强化学习RL论文,可信度究竟有几何,这是数据污染问题。


这导致RLHF人类反馈强化学习,被诟病只是一种格式化手段,性能提升得太快,这种能力肯定早已潜伏在模型之中。


这背后极其复杂,缺乏严格的对照实验,很难下定论。


Sebastian Raschka:如果这完全是假的,知识蒸馏Knowledge Distillation不应该起作用了,蒸馏是有效的。


我认为LLM研究中最大的痛点是污染,我们根本不知道训练数据里包含什么。


除非你拥有全新的数据集,否则几乎无法避免。


同样,你提到数学数据集,即使是更简单的类似MMLU这种多项选择基准,如果你只是稍微改一下格式,比如把括号换成点,模型的准确率都会剧烈波动。


Nathan Lambert:我认为这更多是模型本身的鲁棒性问题,不是普遍性的作弊。


Sebastian Raschka:这并非LLM开发者故意要在基准测试上作弊,是模型无意中见过题目。


我认为评估LLM唯一公平的方式,是拥有一个在模型确定的知识截止日期之后,才创建的全新基准测试。


Lex Fridman:我们能梳理一下关于后训练Post-training的完整配方吗?


你提到RLVR基于可验证奖励的强化学习,是一个非常令人兴奋、有效的方向。除了RLHF这个核心组件,后训练还有哪些新思路?


Nathan Lambert:我认为你可以按时间顺序来理解。


这能解释OpenAI的o1,第一个推理模型是如何诞生的,未来前沿模型将是什么样。


类似的干预措施,从中期训练Mid-training就开始了。


传闻o1类模型成为可能,归功于极其精细的数据策划。你需要提供大量的推理轨迹,即模型在生成最终答案前,将问题分解为中间步骤,尝试解决的思维过程。


在中期训练阶段加入数据,模型能学会如何思考,随后进入后训练阶段,主要利用可验证的奖励进行强化。


现在的关键在于,你需要弄清楚给模型投喂什么样的问题,训练多久,允许它进行多少推理。


随着模型变强,很多问题变得太简单,模型能100%解决,这在训练中失去信号价值。


如果我们看GRPO算法,DeepSeek采用的方法,它核心机制是基于某个动作,即生成的答案,相对该问题其他答案的优劣来给予奖励。


如果所有答案都一样,算法就失效了。必须寻找更难的问题,比如高难度的科学领域或复杂的软件工程问题,前沿模型在向这些领域进军,以习得更多技能。


RLHF与此的联系在于,它一直是模型的点睛之笔,通过改进组织、风格或语调,来提升实用性。


不同受众口味不同,有人喜欢搞怪的,有人讨厌Markdown列表,尽管它解析信息很高效。


RLHF这个人类反馈阶段,能完美融合这些偏好,这是ChatGPT让人觉得神奇的原因,这种风格化相当稳定。


例如,良好的格式化能提升数学解题表现。在训练时,解题风格、格式与解题方法是紧密相关的。


这是为什么RLHF仍能提升数学表现,可验证领域Verifiable Domains是一个更直接的过程,它与问题表述更契合,最终它们会融为一体。


简言之,中期训练赋予模型核心技能;强化学习与可验证奖励,让模型通过大量试错计算来攻克难题;RLHF是对模型进行打磨与润色,使其更易用。


Lex Fridman:你能评论一下RLVR所需的计算量吗?


Nathan Lambert:计算量一直在增加,Grok 3曾表示他们预训练与后训练,使用相当的计算量。


回到扩展Scaling的讨论,两者涉及非常不同的硬件挑战。


预训练是计算密集型Compute-bound,受限FLOPs,即单位时间内能完成多少次矩阵乘法。


RL强化学习,是在生成答案,并在真实环境中测试,它更多是受限显存Memory-bound,你要生成长序列,而注意力机制的内存消耗随序列长度呈二次方增长。


参考拜登政府的行政命令,预训练一个模型大约需要10E25 FLOPs。在后训练中使用FLOPs更加复杂,这取决于你分配多少小时、多少GPU。


我认为在时间成本上,RL在逼近预训练。


你无法将所有计算集中在一个系统里,预训练密度极高,GPU间通信高效;RL涉及很多生成步骤,生成一个10万Token的序列非常耗时。


如果GPT-5级别的模型,生成一个样本需要1小时,效率就至关重要。


就GPU小时数,RL可能接近预训练,它并发使用的GPU数量可能较少。


有一个经验法则,你不希望预训练持续超过1个月,这面临巨大的灾难性失败风险。


如果你计划跑2~3个月,结果在第50天崩了,机会成本太高。


GPT-4类似是一次终极的YOLO豪赌,跑了3个月,竟然没崩,大家都惊呆了。


现在人们会更谨慎、更循序渐进。


Sebastian Raschka:RLVR允许我们进行更多、近乎无上限的训练,并从中获益;RLHF涉及偏好微调,会达到一个临界点,再投入更多RL预算,就没有意义。


退一步说,偏好微调Preference Tuning存在主观性。对同一个问题,可能有多种不同,但都正确的解释。


比如亲戚问我买什么笔记本,我会问你的使用场景是什么,续航还是性能。


类似我们这样的人,可能更看重显存,两种答案都对,取决于对象。


通过偏好微调,你本质上是在试图取平均值。当你学会这种平均化的偏好风格后,继续训练,就没有收益。


RLVR是让模型解决真正困难的问题。长期看,把预算投给RLVR更划算。


目前我们处于RLVR 1.0时代简单的问答,下一阶段RLVR 2.0将专注利用过程奖励模型PRM来评估中间步骤的正确性,类似Google论文所探讨的。


DeepSeek Math的第二篇论文,提到有趣的推理扩展,首先是开发能自我评估的模型,这将是一个重要方向。


Nathan Lambert:人们对价值函数Value Functions兴趣浓厚。过程奖励模型类似给推理过程中每个中间步骤打分,价值函数为语言模型生成的每个Token赋予价值。


LLM时代,这两者很大程度上还未被完全证实。价值函数在深度强化学习Deep RL中历史悠久,是核心元素之一。



目前学术界热衷于尝试价值模型,证据尚少,PRM的扩展也曾遭遇失败,这些方法不总是奏效。


我们讨论这个,是缩放定律Scaling Laws。简单总结,不要在RLHF上过度投入,信号最终会饱和。


OpenAI的o1模型展示RLVR的缩放曲线,如果对训练计算量进行对数增长,评估结果会获得线性增长,这一点已被多次复现,如DeepSeek。


RLHF没有这样的缩放效应,RLHF有一篇开创性论文叫《奖励模型过度优化的缩放定律》。这是RLVR与传统方法的根本分界线,RLVR允许你多投入10倍计算量,来换取数倍性能提升,RLHF做不到。


对学术界,研究RLHF是个不错的卖点。要做最好的RLHF,你不需要额外的10倍或100倍算力;要做最好的RLVR,就必须有这个资源。


Meta实习生有篇《Scale RL》的开创性论文,描述一个同名框架。他们的增量实验消耗了10,000 B200小时,成本高达数万美元。这种高昂的成本,意味着普通学者无法负担,这给社区间的相互学习带来巨大障碍。


Lex Fridman:如果听众是对编程、对AI感兴趣的聪明人,从零开始构建东西,是一个很好的起点。


你能给我讲讲,你会推荐人们怎么做?


Sebastian Raschka:我建议从零开始构建一个简单的模型,让它能在你自己的电脑上运行。这样做的目的,并不是为得到一个能替代现有开源模型或ChatGPT的日常助手,是为让你深入理解LLM内部构造、输出机制,预训练的具体流程,最好是在本地亲手操作一遍。


通过这个过程,会学习到预训练、监督微调与注意力机制,建立扎实的认知。很快你会遇到瓶颈,小模型的能力终究有限。


我认为,LLM的规模化,会带来指数级的复杂性。模型变大,不仅是体积增加,必须考虑跨GPU的参数分片。


即使是KV缓存,也有多种实现方式。简单做法是像链表一样逐步增长,这在GPU上效率极低。你需要预分配张量,并进行填充,这会增加几十行代码,每个环节都会类似这样增加代码量。


这本书的核心技巧在于让你理解底层原理,你写出的代码达不到生产级标准,一旦掌握原理,就能读懂复杂的生产级模型。


Lex Fridman:你的目标始终是构建一个能跑在单张GPU上的语言模型。


Sebastian Raschka:我写的大部分模型都可以,我准备了一些关于混合专家MoE模型的额外材料,可能需要用到多张GPU,主要目标还是单卡运行。


这样做有个好处,你可以自我验证,这几乎类似是一种代码层面的RLHF。


当你从头编写代码时,可以参考Hugging Face Transformer库中的现有模型。Hugging Face的库很棒,我认为它不是学习LLM的最佳起点。它的代码为兼容太多用例,变得过于复杂、交织,缺乏线性逻辑,难以阅读。


Nathan Lambert:它最初只是个微调库,后来演变成模型架构与加载方式的标准。Hugging Face是获取模型的默认平台,Transformers库是实现这一过程的软件载体,让人们能轻松加载模型,并进行基本操作。


Sebastian Raschka:所有发布开源模型的前沿实验室,从DeepSeek到GPT OSS,都提供Hugging Face Transformers版本,可以加载这些经典权重。


在生产环境中,人们通常不会直接使用Transformers库,是使用LangChain或vLLM,这又增加了一层复杂性。


Lex Fridman:Transformers库里大约包含400种模型。


Sebastian Raschka:它试图囊括所有LLM,代码库变得极其庞大,可能有几十万、甚至上百万行。想在里面找到,并理解你需要的那部分代码,无异大海捞针。


它的优点在于提供一个可运行的参考实现,让你能够进行逆向工程。


我推荐的做法是,这是我自己做法,如果你想了解比如Llama 3实现细节,先去模型中心查看权重与配置文件。


你会看到他们用了这么多层,用了分组查询注意力GQA或多头注意力。所有组件,都在一份约100行的人类可读配置文件中一目了然。


你可以从自己GPT-2模型起步,逐步加入这些组件。最酷的是,你可以加载预训练权重,验证它们在你模型中是否有效。


你的目标是复现与Transformer模型完全一致的输出,这类似一个可验证的奖励函数,确保你的架构构建正确,这有时会花我一整天。


比如Llama 3,难点在于旋转位置编码RoPE的实现。他们用了YaRN扩展与一些自定义缩放,我最初没能完全对齐。


在这种挣扎中,你会深刻理解事物的本质。最终,当你通过单元测试,并与参考实现完全吻合时,确定性是非常棒的。我认为逆向工程,是最好的学习方式之一。


Nathan Lambert:我认为这是当今任何对AI感兴趣的人的必修课,这是我喜欢你这本书的原因,我是从强化学习与机器人领域进入语言模型的,从未系统学习过所有基础知识。Transformer架构,类似过去的深度学习一样,是必须要掌握的基础。


许多人感到迷茫,我该如何应用这些知识,来产生影响或找到职业道路,AI与语言模型让基础知识变得唾手可得,有动力的人很容易学会。


接下来的问题是,我如何腾出精力,来为研究做贡献?


我对此相当乐观,这个领域发展太快,顶尖人才往往没空彻底解决一个问题,总有更大的问题等着他们。


这留下许多容易摘取的低垂果实,即便没被完全解决,大家也已经继续前进。


《RLHF》这本书中,我主要想描述训练后post-training技术,人们如何思考对模型的影响。


令人惊讶的是,有多少领域是被人们中途放弃或根本未曾涉足的。在掌握基础知识后,进行专业化深耕,是个很好的策略。


你需要阅读相关论文,并积极参与社区。类似你一样,在网上,普通人与顶尖研究者的距离非常近。


X上有些匿名账号非常受欢迎,没人知道他们是谁,他们可能只是借助AI工具,深入研究了某个细分领域的普通人。深入研究一个你不理解的东西,价值巨大。


很多细分领域,可能只需要读三篇核心论文,如果你发邮件询问,作者很可能会回复你。前提是你必须在邮件中,体现出你对该领域的深入理解。


新手可能需要几周时间,才能真正掌握一个狭窄领域。在那之后,专注会带来巨大回报。比如我开始对角色训练Character Training感兴趣,如何让模型变得有趣、讽刺或严肃,如何处理数据来实现这一点。


一位牛津博士生联系我,表达了兴趣。我意识到,关于这个话题,目前只有一篇相关论文,全世界可能只有2~3个人对此真正感兴趣。


他是博士生,这成了他的优势;而对我,我一直期待有人能说,我有时间投入精力做这个。


肯定还有很多非常细分的话题会让你疑惑,为什么这个问题没有答案?这解释不通。


这只是信息过载,人们无暇顾及。如果你能专注一个特定领域,会有很多有趣的东西等你挖掘。


Sebastian Raschka:试图面面俱到,只会让你筋疲力尽。比如我很久没关注计算机视觉了,只专注语言模型。


这是为什么我认为你的书物超所值,如果你想了解RLHF,直接读这本书,我不会去读原始论文,那太头痛了。


Nathan Lambert:作为编辑,我也深有同感。书中有一个章节我不得不写道,X论文说这样,Y论文说,究竟谁对谁错,我们拭目以待。


Lex Fridman:在训练后Post-training的宏观图景中,我们可能忽略了哪些想法?


先看看目录,问题设定、训练概述、偏好定义、偏好数据与优化工具、奖励建模、正则化、指令微调、拒绝采样、强化学习(策略梯度、DPO等)、宪法AI与AI反馈、推理及推理时扩展、工具使用与函数调用、合成数据与蒸馏、评估,最后是关于过拟合、风格的开放问题,、产品、用户体验与角色。


有哪些想法,能将教育与研究连接起来?你提到的角色训练,很有意思。


Nathan Lambert:角色训练有趣,是相关资料很少。


我们讨论人们如何与模型互动,为什么使用体验很好,模型通常是积极正面的,这种积极可能过头了。本质上,这是关于如何调整数据或决策,使其精准符合你的期望。


OpenAI发布了一份模型规范Model Spec,这是他们对模型行为的内部指导原则。通过这份文档,你可以看出OpenAI的训练哪里出了问题,即他们的意图(尚未实现的部分)与实际表现(你不喜欢的部分)间的差距。这种透明度很好,但关于如何整理这些文档、如何遵循它们,目前鲜为人知。


强化学习章节是大家最想要的,每个人都在谈论RLHF。算法与路径相同,应用场景截然不同。我认为RLHF的核心困境在于偏混乱,这本质上是我几年前一篇论文的重述。


这一章会告诉你为什么RLHF永远无法被完全解决。强化学习假设偏好是可以量化的,多种偏好能简化为单一数值,这涉及经济学中的冯·诺依曼-摩根斯坦效用定理。


书中解释了所有这些哲学、经济学与心理学背景,在进行RLHF时这些背景是如何被压缩简化的。


理解了这些背景后,在书的后半部分,就可以利用这张强化学习地图来提升模型性能。量化偏好,是人类为研究方便而强行设计的问题。


在语言模型响应中,存在根本性的冲突,你究竟更在乎准确性,还是风格?收集数据时,所有这些权衡,都被压缩成一句简单的我更喜欢这个。


世界其他领域,对此有大量的哲学研究,比如社会选择理论,一个研究如何聚合偏经济学子领域。


我曾参加过一个研讨会,讨论如何利用社会选择理论来解决RLHF。我希望对数学感兴趣的人能深入学习,了解这些更广泛的背景。


还有一件有趣的事,我一直在记录所有关于推理模型Reasoning Models的技术报告。第14章是关于RLVR通过可验证奖励进行强化学习的简短总结,里面有一个巨大的表格,列出了我喜欢的每一个推理模型。


在教育方面,我认为核心在于此,语言模型现在的数学能力很强,这取决于个人喜好。比如著名的论文《直接偏好优化》DPO,它提供了一种比强化学习更简单的解法。


在附录的推导中,作者跳过了一些数学步骤。在写书时,我尝试重新推导这些公式,心想他们用的那个对数技巧,到底是怎么改变数学推导的?


如果你问语言模型,它只会直接告诉你,这是对数技巧。我不确定自己是否喜欢这种将数学思考商品化的过程。我认为,在阅读附录、试图理解数学背后的挣扎,本身对学习是大有裨益的。


Lex Fridman:在教育方面,你们都提到挣扎这个词。如果在学习过程中没有经历过挣扎,你可能并没有真正学懂。


Nathan Lambert:一些厂商开始开发专门用于教育的模型,设计初衷不再是一次性给出所有答案,是引导用户探索、努力学习。


我还没亲自用过,我猜这是它们的设计目标。如果能训练模型做到这一点,将是一项了不起的贡献。


类似书中提到的,你必须重新审视每一个决定,这是一个很好的例子。


Sebastian Raschka:这很有道理。


我最近也有类似经历,比如玩电子游戏消遣时,我喜欢类似《塞尔达传说》与《银河战士》这种带有解谜元素的游戏。最近我在一款新游戏里卡关了,我不希望卡上2~3天,我求助于LLM。


我对它说,请不要剧透,我卡在这里,下一步该怎么做,同样的方法也适用数学。


你可以说,我卡在这个问题上,别直接给我答案,能给我一点提示吗,类似是在小心翼翼试探思路。


问题在于,这需要极强的自律。有人真心热爱数学,更多人只是为完成作业,捷径总是存在的。


即便我们开发了专门的教育型LLM,通用的LLM依然触手可及,诱惑始终存在。


Lex Fridman:很多人,尤其是在大学里,对自己热衷的事物是有认知的,他们明白不该是一件轻松的事。


我们需要培养良好的品味,无论是研究的品味,还是学术的品味,要分辨哪些事值得努力,哪些不值得,这很难,你往往缺乏对职业生涯长远价值的判断力,这种品味的培养至关重要。


Nathan Lambert:我曾与未婚妻、朋友们聊过,我们似乎经历了一个短暂的10年窗口期,那时所有的作业与考试都可以数字化完成。


在那之前,大家必须在蓝皮书纸质答题本上考试。AI出现后,作弊变得太容易,我们不得不回归蓝皮书与口试。


这很有趣,仿佛这一代人的教育体系转了一圈,又回到原点,一切皆可数字化,为防止作弊,我们必须返璞归真。


Lex Fridman:你刚才提到品格磨练,指通过学习中的挣扎,让我们把话题放宽一点。


对这类研究,需要多少计算资源?


作为一个独立研究员,在没有大量算力情况下,还有哪里可以真正做出贡献?


Nathan Lambert:关于这类模型的训练,很多是基于约70亿参数模型的LoRa微调,本质上只调整模型的一小部分权重。不知道具体显卡工时,这通常是可行的,并非对所有学者都可行。


处于困境的学者,唯一能做的往往是推理工作,即利用闭源或开源模型生成内容,观察并理解模型的行为,这非常适合做评估Evaluation研究。


如果你能设计出具有代表性的问题,诱导模型出错或展示特定能力,你就能取得突破。


对专注评估的研究人员,职业生涯的最高目标,是让前沿实验室采用你的评估标准。


不需要每个项目都如此,如果你来自一所没有算力的小大学,发现了一些Claude模型难以解决的问题,下一个版本的Claude在技术博客中引用了你的发现,这是你的职业火箭。


想以最小的算力,获得最大的潜在影响力,必须极度专注,预判模型的未来走向。


你需要构建工具来测试Claude 4.5潜在的弱点,如果你现在开始一个研究项目,你必须思考,8个月后,模型会被什么问题难住?


Lex Fridman:需要创新的想法。


Nathan Lambert:这是一个权衡。


读博期间,你也可能会觉得研究语言模型风险太高,转而思考更长远的问题,10年后什么将定义语言模型?


我是一个相当务实的人,我在加州大学伯克利分校读博时想,最坏的情况,无非是拿个硕士学位,然后去科技公司工作。


看看这些AI公司员工的生活,OpenAI平均年薪+股票期权超过100万美元。任何普通人进入这些AI实验室,人生都会被改变。


务实看,如果你专注、成果可见,这个领域仍有大量的晋升机会。


研究角度看,想要获得类似Yann LeCun在学术界的变革性影响力,是通过不去追逐当前的语言模型热点来实现的。


Lex Fridman:既然如此,意味着巨大的财务牺牲。


Nathan Lambert:我常与优秀的学生交流,他们问我,我应该去AI实验室工作吗?


如果不去可能会倒闭的普通初创公司,是去OpenAI这样顶级实验室,我会说,哪怕放弃博士学位,去那里是值得的。


Lex Fridman:让我们更严谨梳理一下。


你会推荐人们去哪里做研究,选项包括学术界读博5年,算力受限、专注开源模型的研究实验室,或者类似OpenAI、Anthropic、xAI这样的封闭前沿实验室。


Nathan Lambert:这里有两个趋势,环境越封闭,收入往往越高,获得的公众认可通常越少。


作为学者,你的贡献是有目共睹的;如果去大公司做机器中的齿轮,可能也很有趣,这完全是两种职业道路。


作为研究人员的机会成本非常高,博士生薪水几乎为零。这最终会筛选出家境优越、能长期通过用爱发电来追求有趣工作的人。


与此同时,学术界面临资助削减的冲击。面对不确定性与权衡,很多人会选择接受有意义、高薪的工作。


在OpenAI不仅是坐着拿钱,是在构建改变数亿人生活的尖端技术。


Lex Fridman:这涉及与科技的关系。就发表论文,这些公司越来越保密,发表的内容越来越少。你在产生大规模的积极影响,也仅是一台认知机器。


Sebastian Raschka:情况并没有太大变化。


我曾在学术界,现在离开了,我并不后悔那段时光。


以前在计算生物学领域,很多学生是直接去了工业界。教授们会感到失落,无人继承学术衣钵。


这种情形一直存在,唯一改变的是规模。行业里总是有很酷的东西被开发出来,因其封闭性,而无法对外谈论。


现在区别在于你的偏好,你更喜欢公开发表成果,还是在闭源实验室里工作,薪酬也有差异。


目前变数在于多了一个选择,创业。这是一步险棋,高风险、高回报。


相比之下,加入工业界的研究实验室相当稳妥,不仅有晋升空间,这段履历会让将来找工作变得更容易。


归根结底,这取决于你有多享受团队合作与研发专有技术,还是更看重发表论文。


发表论文有压力,会议录用率可能很玄学,也伴随高回报,当看到论文上印着你的名字时,成就感是无可替代的。


Nathan Lambert:我感觉在学术界当教授的朋友,平均比在前沿实验室工作的朋友更快乐。学术界更脚踏实,前沿实验室盛行996文化,是一直在工作。


Lex Fridman:996源于中国,似乎被硅谷采纳了。早9点~晚9点,一周6天,相当于72小时。


这已经成为硅谷AI公司的标准了吗,这种拼命三郎的心态越来越普遍了?


Sebastian Raschka:也许不完全如此,有这种趋势,情况似乎反过来了。


以前我在学术界时,教授要写申请、教学、做研究,简直是一人干三份活。现在,与前沿实验室的高压相比,教授们的压力或许小了一些。


Nathan Lambert:他们只是感到非常充实,特别是与学生一起工作,持续的指导机会,以人为本的使命感。


在一个技术发展极快、混乱的时代,这种人文关怀,能给人带来极大情感回报。


Sebastian Raschka:初创公司存在一种压力,你必须成功,投入大量时间,这至关重要。这很艰难,你必须确保持续交付成果。


我曾在一家初创公司工作,那段经历很棒,我不确定自己能否永远保持状态。


这种节奏很有趣,模型间在不断相互赶超,竞相争夺下一个领先地位,我认为这简直是残酷的竞争。


Nathan Lambert:我认为这种蛙跳式的竞争与多方角逐,是语言模型发展中被低估的驱动力,竞争意识已深深植根人心,这些公司也有意营造这种强烈的企业文化。


比如Anthropic以专注与系统化的文化著称,外界听到关于他们的消息不多,似乎大家都认为他们非常团结。置身于这种紧密团结的文化与竞争态势中,会驱动你努力工作,创造出更卓越的产品。


这往往是以消耗人力资本为代价的,这种状态只能维持一段时间,人终究会精疲力尽。


我曾写过关于职业倦怠的文章,我自己也时常在这种状态中挣扎,尤其是还要管理所有模型训练的时候,这简直是疯狂的工作量。


Patrick McGee在《中国苹果Apple in China》一书中,描述苹果工程师在中国建立供应链的艰辛,甚至提到他们有婚姻挽救计划。他在播客中提到,有人因为这种高强度工作而过劳死。


这是一种建立在人类牺牲之上的进步环境,这是我们提到的996,意味着人们真的在拼命。


Sebastian Raschka:我也读过那本书,当员工不得不回家陪伴家人以挽救婚姻时,他们甚至有个专门的术语,这太疯狂了。


同事们会理解这是红色警报,必须让人周末回家。同时,我认为他们并非被迫工作,是出于对产品的热情而进入忘我的状态。


我在学术界,或者作为独立开发者时,也有过这种感觉。没人强迫,我会想工作而过度劳累,导致背部与颈部出问题,这不健康。


Nathan Lambert:这是OpenAI、所有从业者渴望做成的事。


Lex Fridman:没错,也形成了一种狂热感,尤其是在硅谷。这与规模法则Scaling Laws的理念有关,人们相信世界将在几周内发生巨变,你必须身在其中。


我有幸与各行各业的人交流,观察世界各地形成的信息茧房与回音室很有意思。


硅谷可以说是一个典型的回音室或信息孤岛,我认为这种茧房未必是坏事,它可能极具成效。这类似史蒂夫·乔布斯式的现实扭曲力场,你说服自己突破迫在眉睫,正是这种信念,让突破真的发生。


Nathan Lambert:Byrne Hobart曾写过一本书,对信息茧房进行分类。一种是金融泡沫,即纯粹的投机,这是有害的;另一种是为建设,它促使人们创造实物。


我认为AI目前属于后者,我担心它可能会转变为金融泡沫。


Lex Fridman:在思想领域,这种信息茧房与现实扭曲力场,意味着你偏离了现实。


如果在拼命工作的同时,脱离现实太远,可能会错失人类体验中本质的东西。


这是一个普遍问题,在地理位置特殊的硅谷尤甚,你可能无法理解美国中西部或其他地区人们的真实生活。


你们用特定的方式交流,互相强化某些信念,这可能会带来麻烦。无论AI是大获成功,还是归于沉寂,如果你脱离现实,最终都要付出代价。你现在还年轻,在决定如何度过一生,必须考虑到这一点。


Nathan Lambert:我甚至不太理解,旧金山AI圈现在甚至流行一种关于永久性底层阶级的说法,这是个梗,也反映一种心态,人们认为2025年下半年是建立AI初创公司或模型持久价值的最后窗口,否则所有价值都会被巨头瓜分,你会沦为贫穷阶层,这非常旧金山式极端。


我依然认为,对想在AI领域有所作为的年轻人,旧金山是成功率最高的地方,只是需要权衡利弊。


Lex Fridman:旧金山很棒,类似个泡沫。身处其中价值巨大,也需要走出来。去读读历史、文学,去看看外面的世界,Twitter与Substack不是世界的全部。


Nathan Lambert:我一位同事准备搬去旧金山,我打算送他一本《女巫的季节》,这本书讲述旧金山1960~1985年的历史,涵盖嬉皮士革命、同性恋文化兴起、艾滋病危机等。


那段历史充满动荡与痛苦,也充满了爱,很多人对此一无所知,强烈推荐这本书。


我一些旧金山朋友离开那里后,也向我推荐了这本书。我想这是在那生活的真实感受,我曾住在那里,未曾真正理解这段历史,而它离我们非常近。


Lex Fridman:我们聊了很多,回顾了2025年的激动人心之处。2026年,你们提到的一大看点,是文本扩散模型Text Diffusion Models的扩展。


能谈谈这是什么吗,它有哪些可能性,与当前的LLM相比,方法上有何不同?


请务必阅读免责声明与风险提示

展开阅读全文

更新时间:2026-02-25

标签:科技   特刊   边界   主义   春节   智能   模型   类似   领域   数学   代码   数据   旧金山   学术界   工作   人类

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top