AI模型新方向！RL训练新解法，打破简单题过拟合、难题学不动魔咒

在阅读此文之前，辛苦您点击一下“关注”，既方便您进行讨论和分享，又能给您带来不一样的参与感，感谢您的支持！

编辑：欣阅

在人工智能的赛道上，参数规模的竞赛愈演愈烈，仿佛模型的智慧只能用海量的计算资源和庞大的体积来堆砌。然而，最近的风向似乎变了，一股精细化、高效率的训练哲学正在悄然兴起。

来自清华大学、上海期智研究院、亚马逊和斯坦福大学的学者们联手推出了QuestA方法。

而另一边，快手与清华大学的团队则带来了名为Archer的解决方案。它们共同上演了一出好戏：在区区1.5B参数量级的小模型上，实现了业界顶尖的推理性能。

这可不是小打小闹的优化。QuestA训练出的小模型，在AIME这类高难度数学竞赛基准上的单次解题成功率，竟然直接超越了一款参数量高达32B的强大对手。

这记“小搏大”的重拳，彻底打破了人们对模型能力的刻板印象，也让我们不得不重新审视，在通往更高智能的路上，除了堆料，是否还有更聪明的走法。

AI推理训练的两难困境

强化学习一直是训练模型掌握复杂推理的利器，但它自身却长期深陷一个尴尬的泥潭。想象一下，你正在训练一个学生解数学题，你手上的题库只有两种：要么是“1+1=？”这种白给题，要么是高数竞赛压轴题。

用简单题训练，学生很快就学会了，甚至产生了过度自信。他会对这些简单模式形成肌肉记忆，一旦遇到稍微变化的题型就束手无策，这就是所谓的“熵坍缩”，思维僵化了，泛化能力一落千丈。

那换成难题呢？学生面对高难度题目，可能绞尽脑汁也找不到头绪，半天得不到一次正向反馈。这种奖励信号极其稀疏的学习过程，效率低得令人发指，学生很容易“学不动”，甚至直接放弃。

这还只是任务难度层面的失衡。更深层的问题出在模型输出内容的本质上。当模型生成一段解题过程时，它的输出其实包含了两种截然不同的东西：一种是事实性知识，比如圆周率的数值、某个函数的固定名称。另一种是逻辑性内容，比如“因为...所以...”的推理连接，或是循环语句的判断条件。

传统强化学习的奖励机制是“一刀切”的，它只看最终答案对不对，却分不清模型到底是在“背诵知识”还是在“组织逻辑”。

这种粗糙的反馈机制，导致了一个内在冲突：一方面，我们希望模型牢牢记住那些不容篡改的事实。另一方面，我们又希望它能天马行空地探索不同的解题路径。结果往往是顾此失彼，要么为了探索新路径而忘记了基本公式，要么死守着旧知识不敢越雷池一步。

一内一外，两种解题新思路

面对这种学习障碍，QuestA和Archer就像两位高明的医师，一个主张“外部调理”，一个主张“内部修行”，分别从数据环境和模型机制两个维度，为AI搭建起了高效学习的“脚手架”。

QuestA的策略，可以理解为一位经验丰富的导师，它的核心思路是通过改造学习材料，也就是数据增强，来为模型铺平道路。它不开创新的算法，而是选择了一条更直接的路：当模型遇到一个难题时，直接在题目中给一点“解题线索”。

这种做法，本质上是降低了学习的初始门槛。研究者们首先从海量数据中，经过两轮严苛的筛选，精挑细选出一万个左右的核心难题作为训练集。然后，他们玩起了“课程学习”的策略：在训练初期，给模型的问题提示中包含高达50%的解题步骤，像一位手把手教学的老师。随着模型能力提升，再逐步将提示比例降低到25%，最终放手让模型独立思考。

这种方法的妙处在于它的“即插即用”特性。它不需要改动任何复杂的强化学习算法核心，只需要替换掉训练数据，就能无缝集成，适用性极强。它通过外部引导，让模型平滑地从“依赖”过渡到“自主”。

而Archer则走了另一条路，它像一位严谨的“思维教练”，致力于在模型内部建立一种“自我规训”的纪律。它的哲学是，既然模型输出的词元有本质不同，那就应该用不同的规则去约束它们。

那么，如何区分呢？Archer找到了一个绝佳的标尺——“熵”。在特定语境下，那些几乎没什么变化、非常确定的词元，比如数学常数、标准函数名，它们的熵值很低，代表着“知识”。而那些灵活多变、有多种可能性的词元，比如逻辑连接词、推理步骤的表述，它们的熵值就很高，代表着“推理”。为了更精准，Archer还独创了“句子级熵统计”方法，避免在具体上下文中出现误判。

找到标准后，Archer开始“立法”：对那些代表知识的低熵Token，施加更强的KL正则化约束和更低的裁剪阈值，就像给它们戴上“紧箍咒”，强制模型必须精准无误地“记住”这些事实。而对那些代表推理的高熵Token，则反其道而行之，使用更弱的约束和更高的裁剪阈值，给它们“松绑”，极大地鼓励模型去探索、去尝试不同的逻辑组合。

一个改造“学什么”，一个改造“怎么学”，QuestA的外部引导和Archer的内部规训，看似路径不同，却都精准地命中了传统RL训练信号失衡的痛点，殊途同归。

小模型的逆袭时刻

理论上的精妙，最终要靠实践来检验。QuestA和Archer交出的成绩单，足以让整个领域为之侧目，它们用实打实的数据证明，精细化的训练策略远比单纯堆砌参数更能有效提升模型的智能。

我们来看看这些成果的含金量。QuestA带来的提升，不只是让模型在单次尝试中更容易答对，更关键的是，它在多次尝试中的综合成功率也同步飙升。这说明什么？说明模型不是学会了某种“应试技巧”去碰运气，而是其底层的推理能力和逻辑多样性得到了实实在在的增强。

Archer的战果则展现了惊人的泛化能力。它不仅在数学推理上表现卓越，在主流的代码生成基准LiveCodeBench上也一举成为同量级模型的佼佼者。这种跨领域的成功，证明其训练方法触及了更底层的逻辑智能，而不仅仅是针对特定任务的优化。

数字是最有力的语言。在极具挑战性的AIME24基准测试上，Archer将基座模型的正确率硬生生拉高了18.1个百分点，QuestA也取得了10.73%的显著提升。这些进步是在1.5B这样的小模型上实现的，含金量极高。

更令人震撼的是其背后所代表的资本效率。Archer完成整个训练过程，仅耗费了1900个H800GPU小时。这是什么概念？在动辄需要上万甚至数万GPU小时才能打造一个SOTA模型的今天，这个数字低得有些不可思议。这无疑是对“推理能力必须依赖海量算力”这一传统观念发起的直接挑战。

结语

QuestA的外部引导与Archer的内部规训，并非两条平行线。

它们的出现，更像是在为下一代高效推理模型的训练范式指明了方向——一条融合之道。

这种从“粗放式灌输”到“精细化引导”的深刻转变，不仅仅是技术层面的进步，更是我们对机器智能学习本质的一次更深层次的探索。

两套方法的代码都已在GitHub上开源，这无疑会加速这一进程。未来，最强大的AI，或许不再是体型最庞大的那一个，而是那个“最会学习”的。

展开阅读全文

更新时间：2025-10-07

标签：科技解法难题模型方向简单能力逻辑代表数据基准精准参数海量智能

1 2 3 4 5

AI模型新方向！RL训练新解法，打破简单题过拟合、难题学不动魔咒

在阅读此文之前，辛苦您点击一下“关注”，既方便您进行讨论和分享，又能给您带来不一样的参与感，感谢您的支持！

AI推理训练的两难困境

一内一外，两种解题新思路

小模型的逆袭时刻

结语

“兔子警官”戴AI眼镜抬眸放行，2秒辨车的科技温情藏何隐忧？

发现Foxp3基因与免疫疾病关联，三位科学家获诺贝尔医学奖

比稀土狠10倍！中国攥140万吨王牌，2030年电费或降为每度0.05元

腾讯混元图像3.0登顶LMArena全球盲测第一

固态锂电池领域，我国取得突破

中秋佳节，月圆人团圆

央视中秋节目青铜神树站台上，机器人跳起舞，月光底下谁在说话？

泡泡玛特在美国对189名商家提起诉讼，被告商户分布广州、义乌等地

扎克伯格砸钱追AI，Meta内部先乱套：FAIR变牢笼，LeCun要出走？

〇〇〇〇〇〇

中国工程院院士李玉领衔，古田食用菌产业链特聘专家团来了

别等降价了！国庆机票不跳水，航司定价藏新招，想捡漏的旅客懵了

以酒ETF为例，一组数据表现很意外！老登股距离春天不远了？

全球巨头排队抢购"劣质"电池，锂电池如何重新定义中国制造价值

人均赚2.2万元的股市！背后是冰火两重天

“兔子警官”戴AI眼镜抬眸放行，2秒辨车的科技温情藏何

以酒ETF为例，一组数据表现很意外！老登股距离春天不远了？

中国9月金融数据将出炉；OpenAI举办开发者大会丨一周前

花2500元买智能猫厕所，一月坏5次！还得买会员调记录?

读论文学AI：混元3D世界生成开源模型

“三天一层楼”的深圳，竟用机器人守护生活，它藏了多少黑

国产大模型紫东太初4.0发布！

科技创新助推产业升级，小鸭精工再获两项实用新型专利

手机屏幕秒变3D窗口！前Meta工程师凭摄像头实现黑科技

天风证券：给予兴业科技增持评级