微软将其Azure云平台升级为搭载英伟达Blackwell Ultra的平台,部署了其所说的全球首个大规模GB300 NVL72超级计算集群。该集群包括多个机架,每个机架配备4608个GB300 GPU,这些GPU通过NVLink 5交换架构连接,然后通过英伟达的Quantum - X800 InfiniBand网络架构在整个集群中相互连接。这使得单个NVL72机架的总内存带宽达到130TB/s,每个机架的每个GPU提供800Gb/s的互连带宽。
英伟达所指定的4608这个数字,意味着这里共有64套GB300 NVL72系统在运行,考虑到每个机架有72个Blackwell GPU和36个Grace CPU(总计2592个Arm内核)。从技术上讲,这与完整的超大规模扩展相比仍有差距,但这仍然是英伟达Grace Blackwell GB300的一个重要里程碑,该产品最近在推理性能方面创下了新的基准记录。微软表示,这个集群将专门用于OpenAI的工作负载,使高级推理模型能够运行得更快,并且能够在“几周而不是几个月”内完成模型训练。
在机架级别,每个NVL72系统据说能够提供1440Petaflops的FP4 Tensor性能,由37TB的统一“快速内存”驱动,这包括20TB的GPU HBM3E和17TB的Grace CPU LPDDR5X。这些内存通过NVLink 5汇集在一起,使每个机架作为一个单一的、统一的加速器工作,能够提供130TB/s的直接带宽。
Quantum-X800 InfiniBand平台使得4608个互联的GPU在机架到机架级别上每个都能达到800 Gb/s的带宽。最终,每个单独的GPU都实现了跨机架以及在机架内的连接。
GB300 NVL72集群采用液体冷却,使用独立的热交换器和设施循环,旨在在高强度工作负载下尽量减少用水量。英伟达表示,微软为了此次部署,不得不重新构想其数据中心的每一层,而微软也乐于指出,这只是众多将要部署的集群中的第一个,这些集群将把GB300推向全球,使其达到完全的超大规模潜力。OpenAI和微软已经在使用GB200集群来训练模型,因此这可以看作是他们独家合作关系的自然延伸。
英伟达与OpenAI最近达成了一项重大战略合作伙伴关系,将向OpenAI逐步投入1000亿美元。另一方面,OpenAI将使用英伟达的GPU来构建其下一代AI基础设施,部署至少10吉瓦的加速器,从明年开始使用Vera Rubin。因此,这个GB300 NVL72超级集群可以被视为一个先驱,几乎实现了这项投资,因为微软是使用英伟达硬件为OpenAI部署该集群的公司。
更新时间:2025-10-14
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号