
陈广宇
深圳新闻网2026年3月24日讯(深圳特区报记者 陈震霖)近日,中国人工智能公司“月之暗面”Kimi团队发布论文《Attention Residuals》(“注意力残差”)后,17岁高中生陈广宇因位列作者第一位而受到关注。该论文显示,37位署名作者中,陈广宇与张宇、苏剑林3人位列最前,被标注为最重要的“共同一作”。
此前,记者独家核实得知,陈广宇在深圳成长,目前在贝赛思体系学校就读高中,这也是深圳本土力量培育的教育品牌。
近日,论文共同第一作者之一苏剑林发表最新博文,让深圳少年陈广宇在“注意力残差”这项新成果中的具体作用进一步浮现。苏剑林是AI技术圈有影响力的研究者,其提出的旋转位置编码(RoPE)已成为主流大模型广泛采用的位置编码方法之一。
苏剑林在《Attention Residuals 回忆录》一文中写道:“陈广宇和张宇提出了论文中的Block AttnRes(分块注意力残差)设计。”这解决的正是“注意力残差”这个新办法所产生的额外开销问题,也是这项新架构走向应用的关键设计。
苏剑林在文章中回忆,团队最早先做出了一个相对简单的版本,初步实验结果已经明显优于传统残差连接。随后,陈广宇和张宇加入进来,在更大规模模型上继续验证。
“注意力残差”试图改写的,是2017年Transformer架构提出以来、大模型多年沿用的一项核心结构,也就是“残差连接”。但新办法使得大模型训练时,显存、通信和计算开销都会明显增加。苏剑林在博文中披露,正是在这一环节,陈广宇和张宇提出的“分块注意力残差”设计,在尽量保留“注意力残差”效果的同时,把额外成本压了下来。
也就是说,陈广宇参与提出的,不是一般性的细节修改,而是让“注意力残差”真正能够用于大规模训练的关键设计。近日,Kimi官方也发文介绍,这套方法让大模型学会了“选择性记忆”,并可将模型训练效率提升25%。
3月16日晚,即论文发布同一天,埃隆·马斯克转发论文,称这项工作“令人印象深刻”。随后,多位技术界知名人士跟进评价。前特斯拉AI负责人Andrej Karpathy专门发文高度肯定这项工作。曾任OpenAI研究负责人的Jerry Tworek则评价说,这意味着现在进入了“深度学习2.0”时代。
上周,在英伟达GTC 2026会议上,作为唯一受邀的中国人工智能公司,月之暗面创始人杨植麟在主题分享中,介绍了模型扩展过程中的底层重构路径,“注意力残差”便是其中最为瞩目的进步之一。
记者注意到,陈广宇在社交平台感慨道:“这可能是一项改变大语言模型历史的工作。”他还提到,这篇论文写得“特别好、特别美”。
“感慨完毕,回归正事。”他说。
更新时间:2026-03-25
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号