TML博客火了!38次提Qwen,小模型训练竟有这新思路

就在前不久,AI圈出了个事。

ThinkingMachinesLab更新了一篇博客,标题叫《在策略蒸馏》。

写这篇博客的人不简单,是前OpenAI的研究者KevinLu,之前还牵头搞过4o-mini,参与过GPT-5系列、GPT-oss这些热门模体的研发。

本来我以为就是篇普通技术文,翻了几页却发现个有意思的点。

这篇博客里“Qwen”这个关键词居然出现了38次,比之前小米17系列发布会里雷总提“苹果”的次数还多一次。

更直白的是,TML自己也说了,这新方法受Qwen团队研究启发,实验里还全用的Qwen3系列模体。

这波“主动认师”的操作,在AI圈还真不算常见。

要搞懂这“在策略蒸馏”到底是啥,得先说说现在模体训练的两个老大难问题。

一种是在策略训练,比如强化学习(RL),就是让学生模体自己生成解题轨迹,最后给个评分。

但这评分太“吝啬”,只说对或错,根本不知道错在哪步。

另一种是离策略训练,比如监督微调(SFT),让学生模体照着教师模体的示例学,每步都教得很细。

可问题是,教师的示例场景和学生以后实际遇到的场景不一样,学多了容易跑偏。

之前有人用下棋比喻这俩方法,我觉得特别形象。

RL就像自己下棋,下完只知道赢了还是输了,不知道哪步下得不好;离策略训练就像看特级大师下棋,学的都是高招,可自己下棋时根本遇不上大师那样的棋局。

俩方法都有点“偏科”,用起来总觉得不得劲。

而这“在策略蒸馏”就有意思了,它把俩方法的优点凑到了一起。

让学生模体自己生成解题轨迹,教师模体不只给最终评分,每一步都给打分,哪步好哪步坏说得明明白白。

技术上它借鉴了DAGGER算法和过程奖励建模,还把Qwen3团队2025年的研究给扩展了。

用的损失函数是反向KL散度,简单说就是逼着学生模体的解题风格向教师模体看齐。

如此看来,这方法算是把“偏科”的问题给治了。

数学推理实验:150步达标,成本仅RL的十分之一?

为了测这方法好不好使,TML专门搞了个数学推理实验。

选的是Qwen3-8B当学生模体,Qwen3-32B当教师模体,考的是AIME’24数学基准测试。

本来想看看它跟其他方法差多少,结果数据一出来还真有点意外。

之前用离策略训练,想让学生模体从60分涨到70分,得喂200万道题才行;用RL更费钱,花了17920GPU小时,最后也只考了67分多。

而用在策略蒸馏呢?只用了150步就冲到70分了,成本还只是RL的十分之一。

Qwen团队之前也测过,这方法甚至能考到74分多,比RL的成绩还高。

这成本降得也太实在了,中小企业怕是最有体会。

本来搞大模型就没钱,现在小模型用这方法训,成本下来了,性能还能跟大模型掰掰手腕,这不就是给它们开了扇新门嘛。

而且我觉得这方法最牛的不是快,是它能重复用一道题训练。

RL重复练几道题就开始记答案了,这方法不会,数据少的时候简直是救星。

从数学推理实验聊到内部助手训练,这里又有个常见的麻烦,灾难性遗忘。

啥是灾难性遗忘?就是模体学了新东西,就把旧本事给忘了。

比如训练内部助手,让它学公司内部文档,学完之后就忘了怎么听话、怎么遵循指令了。

之前有人试了混合聊天数据,想让模体既学文档又不丢指令能力,结果不行;后来又用LoRA约束参数更新,还是没救回来,该忘还是忘。

无奈之下,TML试了在策略蒸馏,用早期版本的Qwen3-8B当教师模体,在Tulu3提示上训练。

没想到这么一弄,模体不仅把听话的本事全找回来了,公司内部文档的知识也没丢。

很显然,这方法在持续学习上是块好料,以后模体学新东西不用怕忘旧的了。

小模型逆袭加开源协作,这波操作能火多久?

要说这在策略蒸馏的好处,可不只成本低这一点。

第一是计算效率高,每回合能教N个token的知识,RL每回合只能教1个token,算下来速度快了7到10倍,计算效率直接翻了50到100倍。

第二是数据效率高,一道题能重复练好几次,不用总找新题,对数据少的团队太友好了。

第三是能持续学习,交替着学新东西和恢复旧本事,解决了SFT性能衰退的问题。

我觉得这三点正好戳中了现在AI训练的痛点。

尤其是小模型逆袭这块,以前大家都盯着大模型,觉得只有大模型才能出好成绩。

现在看来,小模型用对了方法,一样能在垂直领域当专家,比如数学推理、企业内部助手这些场景。

还有个点不得不提,TML特别敞亮,把这方法的实现代码放在了Tinkercookbook上,谁都能看、谁都能用。

而且他们也没藏着掖着,明说借鉴了Qwen团队的研究。

如此看来,开源生态真是越来越重要了。

大家互相借鉴、互相“抄作业”,才能搞出更牛的技术。

要是都藏着掖着,怕是很难有这么快的进步。

更何况,现在很多企业都缺算力、缺数据,这种开源的好方法,能帮他们省不少事。

毫无疑问,在策略蒸馏算是给AI模体训练指了条新路子。

它融合了RL和SFT的优点,还把成本降了下来,解决了之前很多棘手的问题。

TML的使命是搞出有前沿性能、还能适配个性化需求的AI模体,这方法显然帮他们离目标更近了一步。

我还挺期待看到更多公司用这方法做实验的。

说不定以后能看到更多小模型在垂直领域发光,不用再被大模型的高成本卡住脖子。

毕竟不是每个团队都有本事搞大模型,小模型要是能靠这方法“逆袭”,AI行业说不定能更热闹、更多元。

展开阅读全文

更新时间:2025-11-01

标签:科技   模型   思路   博客   方法   策略   学生   团队   教师   数据   成本   数学   本事

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top