假期看了一圈北美AI,在AI模型参数突破万亿后,一个事实越来越清晰:算力的增长,或许越来越明显。
还有,过去几年,大家比的是谁采购的GPU多,谁建的集群大。
但当集群规模从几百卡扩展到上大规模GPU集群,一个反直觉的现象出现了:算力投入翻倍,训练时间却没减半。
这其实不是芯片算力的的问题,是系统导致的。。
于是,“超节点”(Superpod)开始从技术术语变成基础设施重要节点。
它不是简单的服务器堆叠,而是一种为解决大规模AI计算效率衰减而生的系统架构。
阿里云在云栖大会上发布的“磐久128”,hw持续推进的CloudMatrix与Atlas SuperPoD路线图,们是在回答同一个问题:当AI算力走向大规模GPU集群级,瓶颈在哪里,解法是什么?
笔者通过阅读最近关于AI的相关研报,有一个观点提到,AI训练中,90%以上的时间其实在“等”——等梯度同步,等参数更新,等下一批数据加载。
尤其是在大模型分布式训练中,AllReduce这类通信操作会频繁发生,一旦网络带宽不足或延迟过高,GPU就会陷入“空转”。
传统集群用InfiniBand或以太网连接服务器,跨节点延迟动辄几十微秒,带宽受限于物理接口。
超节点的解法是:把通信层级往下沉。不是服务器之间连,而是GPU之间直连;不是电互联,而是光互联;
不是通用交换机,而是专用互联架构。
这个变化的意义,可以比喻成专为AI计算设计的“内网5G”。
很多人把光互联、液冷、交换设备列为“三大独立赛道”,这或许是误解。
它们其实是同一个问题的不同表现形式。
1. 光互联:“传得快”
当芯片间通信频率达到每秒数百GB,传统电接口无法承受,或许就要用光。
CPO(共封装光学)、LPO、硅光技术,目的都是把光模块尽可能靠近芯片,减少电信号走线长度,降低延迟和功耗。
据公开资料介绍,阿里磐久128的EIC/MOC网卡 + CIPU 2.0,本质是构建一张芯片级光网络,实现Pb/s级带宽和百纳秒级延迟。这不是“加个高速网卡”,而是重构了数据通路。
2. 液冷:“传得稳”
高密度集成意味着高热密度。单柜100kW+的功耗下,风冷无法有效散热,芯片会因过热降频,通信延迟上升,甚至触发保护机制中断训练。
液冷(冷板式或浸没式)的出现,不是为了省电,而是为了维持通信链路的稳定性。
只有温度可控,信号完整性才有保障,高速互联才能持续运行。
3. 交换架构与自研芯片:“管得住”
当万卡互联,通信路径呈指数级增长。通用交换机无法应对如此复杂的流量调度,容易拥塞、重传、死锁。
解法是:专用架构 + 自研控制芯片。
阿里CIPU 2.0、hw星河AI交换机,本质是超节点的“通信调度中心”。它知道每个芯片的状态、每条通路的负载,能动态优化数据流向,避免“堵车”。
随着2025-2028年国内超节点渗透率预计将从5%跃升至72%(浙商证券预测)
未来竞争不再局限于单点性能,而是谁能在光互联、液冷、交换三大环节实现垂直整合与协同优化,构建出更高能效比、更低TCO(总拥有成本)的完整解决方案。
更重要的是,超节点的普及将重塑AI产业链格局:上游芯片企业需适配新型互联标准,中游系统厂商掌握集成话语权,下游云服务商则通过自研超节点建立长期竞争力壁垒。
这不仅是一次技术升级,更是一场关乎AI的基础设施重构。
超节点或许是一种新的计算范式。
它的核心指标不是“多少卡”,或许是“多少有效算力”。
它的技术主线不是“堆硬件”,或许是“降损耗”。
它的想要目标,或许是让大规模GPU集群的协同效率。
这方面来看,这或许值得我们去关注。
特别声明:以上内容绝不构成任何投资建议、引导或承诺,仅供学术研讨。
如果觉得资料有用,希望各位能够多多支持,您一次点赞、一次转发、随手分享,都是小猎豹坚持的动力~
更新时间:2025-10-07
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号