全国政协委员郭玉峰今年抛出的一组数据,狠狠戳中了国内算力行业的尴尬:不少算力中心的算力利用率不足 30%,全国平均仅在 20% 到 30% 之间波动。一边是西部枢纽的算力资源大量闲置,像无人问津的设备在晒太阳;另一边是东部地区的高端算力持续紧张,企业抢着用却抢不到。供需严重错配的背后,藏着算力圈心照不宣的行业怪圈。

算力圈的面子工程怪圈
很多算力项目从选型那一刻起就走偏了。不少企业为了面子硬上超大规模集群,觉得卡数少了拿不出手,仿佛集群越大越能彰显实力。结果呢?运维扛不住复杂的调度压力,整体成本算下来远超预期,最终算力利用率根本上不去。
有人会反驳,大模型训练不就是需要大算力吗?这话没错,但问题是,并非所有企业都在训练万亿参数的超大模型。绝大多数企业的真实需求,不过是千亿级模型的微调、日常推理或者行业应用落地。这些场景既不需要几百卡的重型方案,也绝不是八卡机能应付的。

过去两年,国内算力中心建设陷入了内卷的怪圈。大家都在拼规模、拼卡数,好像谁的集群大谁就能在行业里站稳脚跟。可最终的结果是,很多超大集群的利用率并不高,花大价钱采购的算力设备,大部分时间都在闲置晒太阳。
有人算过一笔账:从八卡扩张到超节点,卡量能扩容几十倍,纸面算力看起来爆炸增长,但通信开销同步损耗,故障概率也跟着翻番。硬件采购、运维复杂度、机房改造成本,更是前者的几百倍。很多人只算了采购的账,却没算运营的账,最终踩了大坑。
不同场景需要量身定制的算力方案
训练大模型需要高带宽、低延迟的全互联架构,几百张卡得像一台机器一样协同工作;推理业务则需要高并发、低延迟,能同时处理成千上万个请求;至于金融风控、医疗影像这类行业应用,对数据隐私和稳定性的要求又完全不一样。

想要一套方案打天下,几乎不可能。但之前的算力建设,恰恰忽略了这些差异,硬把不同场景的需求套进了统一的大集群模板里,自然会出现严重的资源浪费。
可生长的算力底座才是破局关键
在中关村论坛上,曙光发布的 Skill X40 给出了一个全新的思路。这款四十卡的全互联方案,刚好适配千亿级模型的训推一体需求,通过二级扩展可以变成百卡级超节点,支撑更大规模的训练。搭配 Skill Fabric 无损网络,又能横向扩展成万卡集群。
更重要的是,它延续了 AI 计算开放架构设计,从底层就考虑了对主流 AI 计算生态的兼容适配。它不是一个一次定型的封闭系统,而是一个可生长的开放底座。

但真正让超节点走向普惠,光有算力还不够。算存管管的全栈协同能力,才是决定方案能不能真正落地的关键。分布式存储解决 GPU 利用率低的痛点,Service AI 实现一站式运维调度,Skill Fabric 打通网络瓶颈。只有这套体系协同起来,超节点才能从参数好看的纸面方案,变成真正好用的落地产品。
不同于以往的 PPT 承诺,这个方案四月就能真实交付。这个思路的核心,不是把一个规格做到极致,而是让用户可以根据自己的业务节奏灵活选择。今天四十卡够用就先上四十卡,明天业务增长再加节点扩展,用户不用被迫 all in,更无需背上沉重的成本包袱。

算力选型不该是一场面子工程,真正有价值的从来不是卡数多的那个,而是适配业务节奏的那个。从盲目拼规模,到按需选方案,国内算力行业终于摸到了从 “大” 到 “强” 的破局关键点。
更新时间:2026-05-20
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号