刚刚,阿里云在云栖大会上进行了一系列重磅技术发布,不说废话,我带大家快速过一下↓
①算力底座:磐久128超节点。
采用开放架构,兼容多种AI芯片,不再被单一GPU架构绑定,并提供更高性价比。
【磐久超节点真机】
②网络升级:HPN8.0
带宽拉到800G,可支撑数十万张GPU卡组成的大集群,适配训推一体化场景。
【HPN 8.0 可预期网络】
③存储突破:CPFS+OSS
CPFS单客户端吞吐性能提升到40GB/s,直击大模型训练刚需;对象存储OSS的Vector Bucket 让向量存储成本下降95%。
「算力疲软、网络瓶颈、存储成本」,大模型时代,算存网的三大难题,阿里云一步到位,全部帮你搞定。
【AI Stack国产大模型一体机】
前面是算存网的独立升级,而灵骏则是组团干大活儿↓
支持10万卡规模的稳定互联,在万亿参数MoE模型的训练中,有效训练时长占比超过 99%。
阿里云用一系列手段来提升容错率和训练效率:比如通过容器服务优化将GPU故障发现与自愈效率提升 85%,模型冷启动时延降低 90%。
所以,个个能打的算存网+组团能力,最终阿里云打造出了一台“AI Cloud Computer”。
主论坛环节,阿里放出了最强模型Qwen3-Max,性能超过GPT5、Claude Opus4,跻身全球前三。
并展示了最新的通义模型家谱↓
接下来,阿里云PAI平台登场,与Qwen组起了CP。
阿里云PAI平台与通义大模型的联合优化,展现了全栈协同的放大效应↓
训练层:MoE调度机制让通义千问训练加速比提升 3倍;长序列分块优化,使通义万相单样本训练耗时降低 28.1%。
推理层:推理吞吐TPS提升71%,推理时延TPOT下降70.6%,扩容时长缩短79.6%。
这波秀肌肉的背后是底层算力、调度系统和上层大模型训推三位一体,提升效果拉满。
阿里巴巴CEO吴泳铭说
↓
“阿里云正在全力打造一台全新的AI超级计算机,它同时拥有最领先的AI基础设施和最领先的模型,两者可以在产品设计和运行架构上高度协同,从而确保在阿里云上调用和训练通义千问模型时,能达到最高效率。”
从目前云栖大会这些硬核发布看,阿里云干得不错,至少这台AI超级计算机的雏形,像模像样了。
更新时间:2025-09-25
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号