【原创】arm 在下一盘大棋,不过现在刚走了几步

就在本周,arm 官宣了最新的移动处理器 IP C1,移动 GPU IP G1,和他背后的 Lumex 计算子系统(CSS),据 arm 所说 Lumex 为 AI 而生。C1 家族分别是:中杯 C1-nano 对应 A5xx,大杯 C1-pro 对应 A7xx,超大杯 C1-premium 和超大桶 C1-ultra 对应 X9xx。

再次重申一遍:arm 不生产小杯(

我知道大家都有个共识,厂商 PPT 就和 cltc 一样,你永远跑不到,但不妨碍我们看合订本嘛。把 arm 往年的资料翻出来一对比,可以看出今年超大核的提升幅度较往年差不多,中核能效在 PPT 上有更为显著的进步。盲猜发哥 9500 今年低功耗的能效,或许会有惊喜。

简单总结 C1 家族最突出的特点:C1ultra 对比 X925 单核性能 +25%,C1premium 对比 C1ultra 面积减少 35%,C1pro 打游戏能效提升 16%(可能跟 A725 比),C1nano 功耗减少 26%(可能跟 A520 比)。

同时一个有趣的信息是:所有 Lumex CSS 的 IP 都已经在 3nm 完成验证,但 arm 并不打算告诉我们参与验证的代工厂有谁。

同样在 Lumex 家族里的 GPU Mali,今年继续大吹特吹光追,也就是 RT cores。

G1 更新了光追单元 RTUv2,光线追踪性能提升两倍。最牛逼的是,引入了个非常友好的特性,在 idle 时光追单元一点电都不消耗……

到了激动人心的光追演示,光追组件占总渲染管线的比例从 23 年 15% 增加到 25 年 50%,哇哦!光追的必要性和普及度这不就有了吗,一看参考对象,是 3Dmark solarbay……

在演示的时候有个非常有意思的数据,原神从 21~23 年,GPU 硬件要求增加了 28.5%,绝区零比 23 年原神又增加了 10%。看来得扭转一下绝区零吃 CPU 的刻板印象了,他还吃显卡。

Mali G1 ultra 的具体能效和更多细节会上并没有透露更多,只有一张对标 G925 的 PPT,最高性能提升 20%,AI 推理速度提升 20%,每帧能耗降低 9%,光追提升 2 倍。

G1 家族其他成员分别是 6 核以下的 G1pro,6-9 核的 G1premium,10+ 核心就是 ultra 了。PPT 里核心多的宣传性能,核心少的宣传能效,两头都赢哈哈哈。

顺便说一嘴 Lumex CSS 的参考平台用的是 12cu 的 Mali C1-ultra,应该就是 9500 即将官宣的 GPU 单元名字。那么问题来了,去年玄戒的 G925 堆了 16cu,对应的 C1 16cu 应该叫个啥合适 ?

看得出 arm 要给手机 IP 来个大改名。就这,也想下大棋,当野心家?

这就得谈到背后那个为 AI 而生的 Lumex 了。Lumex 引入了一个新工具 SME2。这是一个集成在 CPU 核心里的,加速矩阵计算的指令集模块,也是本次 arm unlock 大会的重中之重。

这里和大家说一下,大多数涉及 AI 的计算,都是矩阵运算。最牛逼的 AI 模型 Transformer 架构,核心算子 Q*K^T 和 softmax(QK^T)V,就是超大型稀疏矩阵乘法。但矩阵乘法这东西是出了名的高并行度计算。刚好 CPU 不太擅长并行计算,而 GPU 生来就是干并行计算的。

为什么 arm 放着 GPU 不用,要给 CPU 引入一个模块专门加速 AI 计算呢?

这就要说到计算机计算矩阵乘法,那个臭名昭著的特性,就是计算效率和可扩展性不可得兼。

矩阵运算拆到最细,是一堆数乘一堆数的结果相加,你大可让 CPU 对每个数挨个相乘相加,慢腾腾算出结果,也可以让 GPU 一排乘完一排加在一起高效计算。但 GPU 的问题来了,矩阵运算单元是光刻机焊死的,底层是厂商架空的,如果矩阵尺寸溢出,或者硬件看不懂掩码不支持稀疏矩阵,总之有一大堆问题,出一个问题 GPU 就得琢磨半天,越偏离 GPU 单元设计好的计算尺度,GPU 效率越低。(除非你能有个所有计算都有对应接口的 GPU 编程语言 )

而 CPU 可以对每一个指令编程,没有 CPU 算不了的东西,一个 CPU 能算过去,其他绝大部分能称之为 CPU 的东西也能算,一次开发多端部署,所有都是时间问题。因此超算都是一大堆 CPU 冒烟跑,为的就是花大钱了兼容性必须好。直到可编程 GPU 里的高级语言 cuda,默默建立了 15 年生态,然后抬脚便踩碎了纯 CPU 的超算梦,但这都是后话了。

总之,芯片上越追求矩阵算得快,单元就越固化,能算的矩阵就越聚焦,越需要专门开发,兼容性就越差。反之,兼容性越好,算的矩阵就越多,单元越灵活,算得就越慢。

arm 显然知道其中的利弊,也知道自己在 AI 开发生态里,和树莓派是一桌吃饭的(往前几年那一桌应该在啃苞米)。因此仗着自己有极为庞大的装机量和一堆合作伙伴(卖 IP 的都这么说),一直在 CPU 里塞各种矩阵加速指令集,试图用无缝兼容说服开发者。

但是 arm 设备大多功耗敏感,要说服开发者往上移植 AI,能不能赚到钱不说,CPU 那点效率跑得起来都是个问题。

加速压缩数据的计算在移动平台尤为重要。因此这次新增的 SME2 增加了更多指令集,扩展了矩阵运算能力。并引入 FP8 等低精度路径,以更高效地处理压缩或量化的数据。

顺便提醒一下,指令集运行在 CPU 里。这看着是句废话,实际上是在说,所有 CPU 运行的优点 SME2 都适用。比如延迟非常低(llm 里就叫首字延迟),一次开发多设备部署,支持所有带 sme2 加速单元的 soc。

来看下 arm 祖传 PPT 跑分:FPGA 上的 Lumex 平台,跑 GB 对象识别项目,用 SME 比不用能耗-28%,性能 +12%。

这是我认为最有价值的一个 SME 加速 AI 计算的参考结果,虽然大概率是所有实验室条件测得结果里,最高的那个。

另一些 arm 放出来的数据是:

· SME2 能给谷歌的安全模型提速 20%。

· 搭载 SME2 的 C1ultra 运行 AI 的性能可提升达五倍,效率可提升三倍。

对比对象是同样有 SME2 指令集的 C1pro,这就是大核欺小核,除了数字唬人啥也说明不了……

但是!SME2 的缺点 arm 一句未提。

给 SME2 定制的框架,特别是 fp8 fp4 这样的短数据类型,之前的所有 CPU 都不能加速!

因为每种指令集都只加速特定的数据类型、矩阵宽度,SME2 相当于囊括了之前所有加速指令集后,又新支持了更多数据类型。只要一组数据落在 SME2 独有的加速范围内,其他 arm CPU 就因为缺少指令集,没法提供矩阵加速计算,在移动设备上就等于不兼容,不支持,跑不了!

SME SME2 这些指令集,好比老黄的显卡升级,20 系之后的显卡多了 tensor core,就能开 dlss。但 50 系的 tensor core 更牛逼,所以支持满血的 transformer DLSS4,虽然 20 系也能强开,但效果不如不开。

有张 PPT 是一个模型量化成 fp16 fp8 fp4 三种数据结构,让有 SME2 和没有的 CPU 做 encoding,记录每秒 encode token 数。虽然我非常想吐槽,谁 tm 用 CPU 跑 encoding。但最绝望的消息是,有 SME2 的 CPU,fp16 提升 5 倍,到了专有格式 fp8,只提升了 3 倍。

我们上文说到过一句废话,SME2 是个集成在 CPU 的指令集,适合高吞吐,混合数据结构。它的隐含代价就是:数据结构越简单,SME2 这类 CPU 指令集加速矩阵运算的提升越小(前提是算子强度不变)。

所有在 CPU 上用指令集加速矩阵运算的,都遵循这条规律!越适合移动设备的量化数据结构,在 CPU 上加速越慢。很遗憾 arm 想看到的,移动设备利用 CPU 随意运行 AI,应该无望了。

别慌,有办法。只有绝大部分人,我说的不是开发者,是买终端的消费者,他们压根不知道有这回事,只知道我买的新设备 AI 性能是老设备的 2-5 倍。这个脆弱的共识,可能让一些开发者,和不明就里的开发者们先开始做兼容。

然后 arm 的下一步棋马上赶到:Arm NSS。

arm 8 月份发布了个 Arm 神经技术 (Arm Neural Technology),该神经加速器将于 2026 年正式引入 Arm GPU,为移动端 GPU 带来前所未有的 AI 计算能力,在某些工作负载可以降低 50% 的运行消耗。这是少有的提前一年放出如此重大 GPU 新特性消息,照例备好了开发文档,ue5 和 vulkan 的 NSS 效果模拟,关键是还有基座模型提供给游戏工作室提前训练。Arm 说之所以选择在引入这项技术的 GPU 正式上市前进行发布,是因为若要真正释放这类技术的潜力,需要开发者基于它们进行创新。

前天的会议透露了未来 GPU 上的加速单元 Arm NSS,现在他们说这东西负责明年 NSS 拼好帧的计算,反正我不全信,我选择相信可能。

还记得 tensor core 一开始是负责什么的吗?DLSS。当时英伟达的游戏板块如日中天。现在 tensor core 在负责什么,Transformer。游戏板块呢,不重要了。

我觉得 arm 明年会说,我们为什么要把 AI 计算,跑在本就应该给 GPU NPU 云计算做铺垫,做补充,做兼容的移动平台 CPU 上呢?

只要 arm NSS 单元兼容今天的什么 SME2 SME SVE,或者能运行,至少在 kliedi 平台,他们说的,能够极低成本一键编译到 GPU 的 NSS 上,之前 AI 开发者在 arm CPU 上吃的脏东西,都不白吃。

希望 arm 成功。

撰文 / 蓝白

编辑 / 恺伦

责任编辑 / 恺伦

文中部分图片来源于网络

© 爱否科技原创内容 转载请联系后台

展开阅读全文

更新时间:2025-09-15

标签:科技   矩阵   单元   开发者   性能   数据结构   设备   大杯   核心   东西   乘法

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top