苹果创新“清单法”：用AI大模型当老师，教小模型执行复杂指令

IT之家 8 月 26 日消息，科技媒体 9to5Mac 昨日（8 月 25 日）发布博文，报道称苹果研究人员在最新论文中提出“基于清单反馈的强化学习”（RLCF）方法，用任务清单替代传统人类点赞 / 点踩评分，显著提升大语言模型（LLMs）执行复杂指令能力。

IT之家注：RLCF 的全称为 Reinforcement Learning from Checklist Feedback，不同于传统的“人类反馈强化学习”（RLHF）依赖人工点赞 / 点踩，RLCF 为每条用户指令生成具体的检查清单，并按 0-100 分逐项评分，用以指导模型优化。

研究团队在强指令跟随模型 Qwen2.5-7B-Instruct 上测试该方法，涵盖五个常用评测基准。结果显示，RLCF 是唯一在全部测试中均取得提升的方案：

FollowBench 硬性满意率提升 4 个百分点
InFoBench 提高 6 点
Arena-Hard 胜率增加 3 点
某些任务最高提升达 8.2%。

这表明清单反馈在复杂、多步骤需求的执行中效果显著。

清单的生成过程也颇具特色。团队利用更大规模的 Qwen2.5-72B-Instruct 模型，结合既有研究方法，为 13 万条指令生成了“WildChecklists”数据集。清单内容为明确的二元判断项，例如“是否翻译成西班牙语？”。随后，大模型对候选回答逐项打分，综合加权后作为小模型的训练奖励信号。

苹果研究者也坦言该方法存在局限。首先，它依赖更强模型作为评判者，这在资源受限场景下未必可行。其次，RLCF 专注于提升复杂指令执行能力，并非设计用于安全对齐，因此不能替代安全性评估与调优。对于其他任务类型，该方法的适用性仍需进一步验证。

展开阅读全文

更新时间：2026-01-22

标签：科技模型指令清单苹果老师方法反馈西班牙语评分团队人类

1 2 3 4 5

苹果创新“清单法”：用AI大模型当老师，教小模型执行复杂指令

前美团高管回应加盟京东

2025数博会志愿者出征仪式举行 300名高校志愿者整装待发

三峡升船机开启第5次年度“体检”

当升科技获得发明专利授权：“正极材料及其制备方法与应用、锂离子电池”

某省联通5G招标中兴报价968万元都没中？华为报价1738万元却中了

速新闻AI播报：8月26日速速道来

永茂泰成立机器人和传感技术公司

青岛航空助力！8个地贫家庭来青开启公益研学之旅

江苏省送变电公司：滨海~鹤栖500千伏线路工程跨越塔组立

空调一开电费狂飙？三招让你省电又凉快，最后一个很多人不知道！

美国大豆堆成山，中国就是不买，特朗普报复来了，又开始对华制裁

银行落马副行长出狱后当网红银行回应：将向上级反应情况

招标公告

“我就是她取精生子的工具”清华学霸哭诉，撕开了富豪女的遮羞布

闻泰科技换帅完成工商变更杨沐任闻泰科技董事长

当升科技获得发明专利授权：“正极材料及其制备方法与应

闻泰科技换帅完成工商变更杨沐任闻泰科技董事长

不是唐欣！中国女排3-1哥伦比亚球员评分：2人满分，5人及格

苹果放大招！iOS 26将推出“来电筛选”功能，帮你自动挂断

“太空之吻”团队获上海科技特等奖！他们导演了中国空间

索尤若驱动取得电子设备和用于由组合部件制造第一和第

马斯克的AI公司xAI起诉苹果OpenAI合谋垄断，Grok凭啥叫

珂玛科技：拟发行可转债募资不超7.5亿元

《生万物》大结局，演员评分出炉：秦海璐第4，第一实至名归

纽卡2-3利物浦，赛后评分：不是萨拉赫第一，利物浦73号第一