微软部署全球首个“超级计算机规模”的GB300 NVL72 Azure集群

微软将其Azure云平台升级为搭载英伟达Blackwell Ultra的平台，部署了其所说的全球首个大规模GB300 NVL72超级计算集群。该集群包括多个机架，每个机架配备4608个GB300 GPU，这些GPU通过NVLink 5交换架构连接，然后通过英伟达的Quantum - X800 InfiniBand网络架构在整个集群中相互连接。这使得单个NVL72机架的总内存带宽达到130TB/s，每个机架的每个GPU提供800Gb/s的互连带宽。

英伟达所指定的4608这个数字，意味着这里共有64套GB300 NVL72系统在运行，考虑到每个机架有72个Blackwell GPU和36个Grace CPU（总计2592个Arm内核）。从技术上讲，这与完整的超大规模扩展相比仍有差距，但这仍然是英伟达Grace Blackwell GB300的一个重要里程碑，该产品最近在推理性能方面创下了新的基准记录。微软表示，这个集群将专门用于OpenAI的工作负载，使高级推理模型能够运行得更快，并且能够在“几周而不是几个月”内完成模型训练。

在机架级别，每个NVL72系统据说能够提供1440Petaflops的FP4 Tensor性能，由37TB的统一“快速内存”驱动，这包括20TB的GPU HBM3E和17TB的Grace CPU LPDDR5X。这些内存通过NVLink 5汇集在一起，使每个机架作为一个单一的、统一的加速器工作，能够提供130TB/s的直接带宽。

Quantum-X800 InfiniBand平台使得4608个互联的GPU在机架到机架级别上每个都能达到800 Gb/s的带宽。最终，每个单独的GPU都实现了跨机架以及在机架内的连接。

GB300 NVL72集群采用液体冷却，使用独立的热交换器和设施循环，旨在在高强度工作负载下尽量减少用水量。英伟达表示，微软为了此次部署，不得不重新构想其数据中心的每一层，而微软也乐于指出，这只是众多将要部署的集群中的第一个，这些集群将把GB300推向全球，使其达到完全的超大规模潜力。OpenAI和微软已经在使用GB200集群来训练模型，因此这可以看作是他们独家合作关系的自然延伸。

英伟达与OpenAI最近达成了一项重大战略合作伙伴关系，将向OpenAI逐步投入1000亿美元。另一方面，OpenAI将使用英伟达的GPU来构建其下一代AI基础设施，部署至少10吉瓦的加速器，从明年开始使用Vera Rubin。因此，这个GB300 NVL72超级集群可以被视为一个先驱，几乎实现了这项投资，因为微软是使用英伟达硬件为OpenAI部署该集群的公司。

展开阅读全文

更新时间：2025-10-14

标签：数码微软集群规模计算机全球机架英伟带宽模型内存热交换器加速器负载

1 2 3 4 5

微软部署全球首个“超级计算机规模”的GB300 NVL72 Azure集群

热搜第一！突然崩了！很多人以为手机坏了……

Panther Lake继续砍掉超线程：P核与E核性能足够给力

坚果N5系列全球发售：首发笛卡儿无损镜头，树立家用投影画质新标杆

梵玢FBCY染发剂：2025年度盖白首选，多项指标表现优异

独一无二的魏德曼纹！这枚腕表，让宇宙浪漫戴在腕间

Angelababy超美造型赏析

2025 防脱权威测评：六款洗发水成分深挖，去屑、防脱、生发全方位剖析

精彩剧透丨民企传承与发展的挑战与策略探索

祛痘用什么产品好？2025 年 10 款有效好用的祛痘产品推荐，对症全类型痘

2025 权威染发剂实测：5 大染发剂高盖白率敏感肌友好款深度解析，盖白率持色 45 天不补染

认真打扮的女人最美！年过七旬的她虽纤瘦，但时髦穿搭利落又吸睛

染发剂哪款好？染发剂盖白发什么牌子好？2025 权威测评：5款植萃款高效遮白

一程相遇，一生惦记

舒服的两性关：

2025年10月13日周一愉快早上好图片最新今天温馨淡雅早安精美图片

坚果N5系列全球发售：首发笛卡儿无损镜头，树立家用投影画

我把红叶寄给你！四川光雾山开启全球推广

美国微软公司：10月14日起Windows 10将“停服”

微软关键时刻掉链子！Win10停服在即官方升级工具却突然

荷兰对中企下达全球封杀令，冻结资产并接管，中方的回应暗

微软终于听劝了！Windows 11这个反人类设计被骂了3年，总

AirPods借鉴大语言模型思路参考5000万小时运动数据

Win10将于10月14日起停服：全球4亿台电脑成孤儿免费续

全球计算霸权争夺战：英伟达的真正对手为什么只能是华为

因贸易战升级，南美播种顺利，全球玉米价格总体走势低迷