编辑:欣阅
在人工智能的赛道上,参数规模的竞赛愈演愈烈,仿佛模型的智慧只能用海量的计算资源和庞大的体积来堆砌。然而,最近的风向似乎变了,一股精细化、高效率的训练哲学正在悄然兴起。
来自清华大学、上海期智研究院、亚马逊和斯坦福大学的学者们联手推出了QuestA方法。
而另一边,快手与清华大学的团队则带来了名为Archer的解决方案。它们共同上演了一出好戏:在区区1.5B参数量级的小模型上,实现了业界顶尖的推理性能。
这可不是小打小闹的优化。QuestA训练出的小模型,在AIME这类高难度数学竞赛基准上的单次解题成功率,竟然直接超越了一款参数量高达32B的强大对手。
这记“小搏大”的重拳,彻底打破了人们对模型能力的刻板印象,也让我们不得不重新审视,在通往更高智能的路上,除了堆料,是否还有更聪明的走法。
强化学习一直是训练模型掌握复杂推理的利器,但它自身却长期深陷一个尴尬的泥潭。想象一下,你正在训练一个学生解数学题,你手上的题库只有两种:要么是“1+1=?”这种白给题,要么是高数竞赛压轴题。
用简单题训练,学生很快就学会了,甚至产生了过度自信。他会对这些简单模式形成肌肉记忆,一旦遇到稍微变化的题型就束手无策,这就是所谓的“熵坍缩”,思维僵化了,泛化能力一落千丈。
那换成难题呢?学生面对高难度题目,可能绞尽脑汁也找不到头绪,半天得不到一次正向反馈。这种奖励信号极其稀疏的学习过程,效率低得令人发指,学生很容易“学不动”,甚至直接放弃。
这还只是任务难度层面的失衡。更深层的问题出在模型输出内容的本质上。当模型生成一段解题过程时,它的输出其实包含了两种截然不同的东西:一种是事实性知识,比如圆周率的数值、某个函数的固定名称。另一种是逻辑性内容,比如“因为...所以...”的推理连接,或是循环语句的判断条件。
传统强化学习的奖励机制是“一刀切”的,它只看最终答案对不对,却分不清模型到底是在“背诵知识”还是在“组织逻辑”。
这种粗糙的反馈机制,导致了一个内在冲突:一方面,我们希望模型牢牢记住那些不容篡改的事实。另一方面,我们又希望它能天马行空地探索不同的解题路径。结果往往是顾此失彼,要么为了探索新路径而忘记了基本公式,要么死守着旧知识不敢越雷池一步。
面对这种学习障碍,QuestA和Archer就像两位高明的医师,一个主张“外部调理”,一个主张“内部修行”,分别从数据环境和模型机制两个维度,为AI搭建起了高效学习的“脚手架”。
QuestA的策略,可以理解为一位经验丰富的导师,它的核心思路是通过改造学习材料,也就是数据增强,来为模型铺平道路。它不开创新的算法,而是选择了一条更直接的路:当模型遇到一个难题时,直接在题目中给一点“解题线索”。
这种做法,本质上是降低了学习的初始门槛。研究者们首先从海量数据中,经过两轮严苛的筛选,精挑细选出一万个左右的核心难题作为训练集。然后,他们玩起了“课程学习”的策略:在训练初期,给模型的问题提示中包含高达50%的解题步骤,像一位手把手教学的老师。随着模型能力提升,再逐步将提示比例降低到25%,最终放手让模型独立思考。
这种方法的妙处在于它的“即插即用”特性。它不需要改动任何复杂的强化学习算法核心,只需要替换掉训练数据,就能无缝集成,适用性极强。它通过外部引导,让模型平滑地从“依赖”过渡到“自主”。
而Archer则走了另一条路,它像一位严谨的“思维教练”,致力于在模型内部建立一种“自我规训”的纪律。它的哲学是,既然模型输出的词元有本质不同,那就应该用不同的规则去约束它们。
那么,如何区分呢?Archer找到了一个绝佳的标尺——“熵”。在特定语境下,那些几乎没什么变化、非常确定的词元,比如数学常数、标准函数名,它们的熵值很低,代表着“知识”。而那些灵活多变、有多种可能性的词元,比如逻辑连接词、推理步骤的表述,它们的熵值就很高,代表着“推理”。为了更精准,Archer还独创了“句子级熵统计”方法,避免在具体上下文中出现误判。
找到标准后,Archer开始“立法”:对那些代表知识的低熵Token,施加更强的KL正则化约束和更低的裁剪阈值,就像给它们戴上“紧箍咒”,强制模型必须精准无误地“记住”这些事实。而对那些代表推理的高熵Token,则反其道而行之,使用更弱的约束和更高的裁剪阈值,给它们“松绑”,极大地鼓励模型去探索、去尝试不同的逻辑组合。
一个改造“学什么”,一个改造“怎么学”,QuestA的外部引导和Archer的内部规训,看似路径不同,却都精准地命中了传统RL训练信号失衡的痛点,殊途同归。
理论上的精妙,最终要靠实践来检验。QuestA和Archer交出的成绩单,足以让整个领域为之侧目,它们用实打实的数据证明,精细化的训练策略远比单纯堆砌参数更能有效提升模型的智能。
我们来看看这些成果的含金量。QuestA带来的提升,不只是让模型在单次尝试中更容易答对,更关键的是,它在多次尝试中的综合成功率也同步飙升。这说明什么?说明模型不是学会了某种“应试技巧”去碰运气,而是其底层的推理能力和逻辑多样性得到了实实在在的增强。
Archer的战果则展现了惊人的泛化能力。它不仅在数学推理上表现卓越,在主流的代码生成基准LiveCodeBench上也一举成为同量级模型的佼佼者。这种跨领域的成功,证明其训练方法触及了更底层的逻辑智能,而不仅仅是针对特定任务的优化。
数字是最有力的语言。在极具挑战性的AIME24基准测试上,Archer将基座模型的正确率硬生生拉高了18.1个百分点,QuestA也取得了10.73%的显著提升。这些进步是在1.5B这样的小模型上实现的,含金量极高。
更令人震撼的是其背后所代表的资本效率。Archer完成整个训练过程,仅耗费了1900个H800GPU小时。这是什么概念?在动辄需要上万甚至数万GPU小时才能打造一个SOTA模型的今天,这个数字低得有些不可思议。这无疑是对“推理能力必须依赖海量算力”这一传统观念发起的直接挑战。
QuestA的外部引导与Archer的内部规训,并非两条平行线。
它们的出现,更像是在为下一代高效推理模型的训练范式指明了方向——一条融合之道。
这种从“粗放式灌输”到“精细化引导”的深刻转变,不仅仅是技术层面的进步,更是我们对机器智能学习本质的一次更深层次的探索。
两套方法的代码都已在GitHub上开源,这无疑会加速这一进程。未来,最强大的AI,或许不再是体型最庞大的那一个,而是那个“最会学习”的。
更新时间:2025-10-07
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号