在当前全球AI算力竞争格局中,国产单颗AI芯片在制程工艺和峰值性能上仍与英伟达H100、GB200等先进芯片存在客观差距。
然而这个方面,我们主要是单芯片性能对比。
但在真实的AI算力战场,谁的GPU峰值算力更高虽然重要,但谁能以更低的成本、更高的效率、更稳定的供给,完成大规模模型的训练与推理,这方面也是重点
换句话说,AI算力的竞争,正在从“芯片竞赛”转向“系统工程竞赛”。
而国内正在这条新赛道上,走出一条典型的“非对称路径”。
我们先面对现实:在工艺迭代趋缓的背景下,国产AI芯片在单点性能上短期内难以追平H100或GB200。
这是事实,无需回避。
但问题在于:AI大模型训练是否必须依赖单颗超强芯片?答案是否定的。
hw在今年推出的昇腾384超节点(Ascend SuperPod) 给出了另一种解法,用384颗昇腾NPU + 192颗鲲鹏CPU,通过高速互联,构建一个等效于“巨型GPU”的算力实体。
这个系统通过12个计算柜和4个通信柜组成,采用hw自研的MatrixLink互联架构,实现384颗芯片之间的全互联通信,总算力达300PFLOPs。
根据第三方实测算力对比,其在典型大模型训练场景下的有效算力输出,约为英伟达GB200系统的1.7倍。
注意,是“有效算力”,不是“峰值算力”。
这意味着,在真实任务中,这套系统的资源利用率、通信效率和调度能力,反而更优。
这背后,是以hw为代表的行业内部提出的提过的用数学补物理,非摩尔补摩尔,用群计算补单芯片。
数学补物理:通过CANN架构优化、算子融合、通信压缩算法,降低数据传输开销;
非摩尔补摩尔:不依赖制程微缩,而是靠架构创新提升单位能效;
群计算补单芯片:以大规模并行+高效互联,弥补单点性能差距。
很多人只盯着GPU,却忽略了AI集群真正的瓶颈,互联带宽与通信延迟。
在超节点架构中,一旦芯片数量上到数百级,交换网络就成了算力的“神经系统”。
如果连接效率低,再多的芯片也只是“一盘散沙”。
这两天hw的会议,特别是以昇腾384为例,其内部部署了6912个400G光模块,通过3168根光纤构建起低延迟、高吞吐的通信网络。
整个系统的通信带宽高达PB级,端到端延迟控制在微秒级。
这带来一个关键变化,交换机从“配角”变成了“主角”。
而在交换机的核心,交换芯片,过去传统依赖海外高端交换芯片的格局正在变化。
但这一局面正在被打破。
国内厂商已推出支持2.4Tbps交换容量的高端芯片,进入小批量验证阶段。
虽然性能仍略逊于博通最新款,但在国产AI集群的封闭生态内,已能满足需求。
更重要的是,它实现了从设计到制造的关键环节具备国内供应能力。
除了性能(基本上可跟上gb200),还有两个维度常被忽视:能耗与供应链安全。
先看能耗。
昇腾384超节点采用浸没式液冷方案,可将数据中心PUE(能源使用效率)降至1.12,相比传统风冷降低40%功耗。
在电费占TCO(总拥有成本)40%以上的AI数据中心,这是实打实的成本优势。
再看供应链。
根据产业链调研,昇腾384的国产化率已突破70%,涵盖交换芯片、光模块、电源、散热、结构件等关键环节。
这意味着,在AI超节点的“连接层”,国内已经建立起从芯片到模块的自主能力。
国内在设备供应链存在不确定性的情况下,但我们有全球最大规模的AI应用场景、最迫切的自主需求、最完整的硬件产业链。
这三者结合,催生出一条独特的技术路径——不追求单点极致,但追求系统最优。
这条路不会一蹴而就,也会面临软件生态薄弱、能效比待提升等挑战。但它或许提供了一个现实选择。
特别声明:以上内容绝不构成任何投资建议、引导或承诺,仅供学术研讨。
如果觉得资料有用,希望各位能够多多支持,您一次点赞、一次转发、随手分享,都是小猎豹坚持的动力~
更新时间:2025-09-20
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号