深圳17岁少年破解AI底层难题细节披露一项关键设计让模型训练效率提升25%

陈广宇

深圳新闻网2026年3月24日讯（深圳特区报记者陈震霖）近日，中国人工智能公司“月之暗面”Kimi团队发布论文《Attention Residuals》（“注意力残差”）后，17岁高中生陈广宇因位列作者第一位而受到关注。该论文显示，37位署名作者中，陈广宇与张宇、苏剑林3人位列最前，被标注为最重要的“共同一作”。

此前，记者独家核实得知，陈广宇在深圳成长，目前在贝赛思体系学校就读高中，这也是深圳本土力量培育的教育品牌。

近日，论文共同第一作者之一苏剑林发表最新博文，让深圳少年陈广宇在“注意力残差”这项新成果中的具体作用进一步浮现。苏剑林是AI技术圈有影响力的研究者，其提出的旋转位置编码（RoPE）已成为主流大模型广泛采用的位置编码方法之一。

苏剑林在《Attention Residuals 回忆录》一文中写道：“陈广宇和张宇提出了论文中的Block AttnRes（分块注意力残差）设计。”这解决的正是“注意力残差”这个新办法所产生的额外开销问题，也是这项新架构走向应用的关键设计。

苏剑林在文章中回忆，团队最早先做出了一个相对简单的版本，初步实验结果已经明显优于传统残差连接。随后，陈广宇和张宇加入进来，在更大规模模型上继续验证。

“注意力残差”试图改写的，是2017年Transformer架构提出以来、大模型多年沿用的一项核心结构，也就是“残差连接”。但新办法使得大模型训练时，显存、通信和计算开销都会明显增加。苏剑林在博文中披露，正是在这一环节，陈广宇和张宇提出的“分块注意力残差”设计，在尽量保留“注意力残差”效果的同时，把额外成本压了下来。

也就是说，陈广宇参与提出的，不是一般性的细节修改，而是让“注意力残差”真正能够用于大规模训练的关键设计。近日，Kimi官方也发文介绍，这套方法让大模型学会了“选择性记忆”，并可将模型训练效率提升25%。

3月16日晚，即论文发布同一天，埃隆·马斯克转发论文，称这项工作“令人印象深刻”。随后，多位技术界知名人士跟进评价。前特斯拉AI负责人Andrej Karpathy专门发文高度肯定这项工作。曾任OpenAI研究负责人的Jerry Tworek则评价说，这意味着现在进入了“深度学习2.0”时代。

上周，在英伟达GTC 2026会议上，作为唯一受邀的中国人工智能公司，月之暗面创始人杨植麟在主题分享中，介绍了模型扩展过程中的底层重构路径，“注意力残差”便是其中最为瞩目的进步之一。

记者注意到，陈广宇在社交平台感慨道：“这可能是一项改变大语言模型历史的工作。”他还提到，这篇论文写得“特别好、特别美”。

“感慨完毕，回归正事。”他说。

展开阅读全文

更新时间：2026-03-25

标签：科技深圳底层难题模型效率细节关键少年注意力论文人工智能近日记者发文开销作者

1 2 3 4 5

深圳17岁少年破解AI底层难题细节披露一项关键设计让模型训练效率提升25%

国际首个！华大牵头制定的治疗用噬菌体制备技术规范正式发布

TikTok和Tubi推出创作者计划，将社交明星引入流媒体

内蒙古阿拉善盟硝化车间爆炸事故中2名失联人员已确认遇难

航空总人口超五亿见证高质量发展

4999元起，雅迪冠能白鲨II 90S/150L正式发布

北交所IPO审核增速提质上会企业“含金量”受认可

46条航线全砍！高市早苗一句话，日本旅游业损失或超70亿美元

吉林女富豪套现百亿离场，紫金矿业子公司“肥私人，损公众”？

华创证券：优质食饮企业正积极寻找转型新路 2026年白酒预期筑底企稳

巨亏！含泪发车抄底了~2026年3月23日市场温度

港股康师傅控股绩后涨超4%

拔出萝卜带出泥！释永信“开光”内幕曝光，这3位女星被流言害惨

80岁秦祥林现身台湾近况曝光，满头白发风采不减，常年居住在美国

美21岁啦啦队女神出租屋生娃，扔垃圾袋藏衣柜致死！男友们不知情

曾是香港三级片女星，如今下嫁山东农村，42岁张暖雅怀孕满眼幸福

TikTok和Tubi推出创作者计划，将社交明星引入流媒体

夫妻生活与你都很甜（全网爆款浪漫小说·作者阴阳飞歌）

微软发布TypeScript 6.0，为7.0底层Go语言重写铺路

昨日“吸金”超4700万元，港股科技ETF银华（513160）高开盘

湘江岸，春风正少年｜黄若灵

第三十四届“科技之春”宣传月——科普大篷车进社区活

工信部：面向人工智能赋能制造业，期望到今年底实现“六个

CBA疯狂一夜！江苏惨败、深圳大胜、榜首易主，浙江闷声干

刘强东的“龙虾天团”来了！首次开源通用基础大模型

世界睡眠日|中医四大“黑科技” 让睡个好觉不再难！

深圳17岁少年破解AI底层难题细节披露 一项关键设计让模型训练效率提升25%

深圳17岁少年破解AI底层难题细节披露一项关键设计让模型训练效率提升25%