华为声称:用1000颗昇腾910C芯片完成对DeepSeek进行后训练

一个号称只用了1000颗国产芯片的实验,正在让整个AI行业重新打量华为昇腾的实力边界。

2026年6月5日,深圳市政府披露,一个由华为牵头、联合深圳环路区域研究院、哈尔滨工业大学深圳校区和深圳大数据研究院组成的团队,宣称成功在约1000颗华为昇腾910C芯片组成的集群上,完成了DeepSeek-V4-Pro模型的全参数后训练,训练稳定运行超过1500步,训练算子效率提升14%。

这条消息在全球AI圈迅速发酵。DeepSeek-V4-Pro是今年4月发布的一个拥有1.6万亿参数的超大规模模型,参数量之巨,放到一年前几乎没有人会相信能在非英伟达平台上完成任何有意义的训练工作。

从"跑不起来"到"跑通了",中间发生了什么

要理解这个声明的分量,需要先了解一段并不遥远的失败历史。

早在2025年8月,就有报道指出,即便华为工程师亲赴现场支持,DeepSeek也无法在昇腾芯片上完成其R2模型的任何一次完整训练。问题出在多个层面:芯片间互连带宽不足、性能不稳定,以及华为自研的CANN软件栈,也就是其对标英伟达CUDA的编程框架,存在明显缺陷。DeepSeek最终选择将昇腾芯片留给推理任务,而把训练工作全部交还给英伟达GPU。

所谓推理和训练的差异,是理解这次突破背景的关键。推理是指已完成的模型接受用户提问并给出回答,算力需求相对确定;训练则是指模型权重在海量数据上被反复计算更新,对芯片之间的通信速度、软件栈的稳定性以及整体集群的调度能力都有更苛刻的要求。国产芯片此前在推理上已具备一定竞争力,但训练一直是公认的短板。

此次深圳团队完成的是"全参数后训练",即对模型的每一个权重参数都进行更新,而不是仅在顶层加一层轻量化的适配器,这在技术难度上明显更高。从这个角度来看,这确实是昇腾平台的一次实质性进展。

DeepSeek-V4-Pro本身也是第一个从立项之初就明确将昇腾芯片纳入开发路线的DeepSeek模型,这与此前几个版本完全依赖英伟达训练、后续再向昇腾适配的路径有本质区别。

突破是真实的,但存疑的地方同样不少

需要指出的是,这个声明目前有几个关键信息尚未得到独立验证。

深圳方面的披露中没有公开基准测试数据,没有给出完成全参数后训练所需的实际运行时间,也没有提供与英伟达硬件在相同任务上的对比指标,更没有说明这1000颗芯片集群的实际利用率。DeepSeek公司本身也没有就此事发表任何公开声明。

这种信息披露方式让外界很难对"突破"的实际规模做出客观判断。后训练是紧随预训练之后的"调优"阶段,更新的是行为偏好、指令遵循和安全校准等特性,其计算量级远小于预训练本身。DeepSeek文档显示,V4-Pro的预训练语料包含超过32万亿个词元,那才是真正考验芯片集群天花板的环节。换句话说,在昇腾上完成后训练是有意义的一步,但距离"能在国产芯片上从零预训练一个前沿大模型",还有相当长的距离。

华为昇腾910C的基础性能本身也有据可查的局限。此前的测试显示,其推理性能约为英伟达H100的60%,而在需要高速芯片间通信的大规模训练任务中,差距可能进一步拉大。华为最新发布的Atlas 350加速器已将FP4算力推进至1.56 PFLOPS,配备最高112GB的HBM内存,显示出明确的追赶意志,但产品从发布到大规模稳定量产之间仍有一段工程化的路要走。

即便如此,这项工作所传递的信号不应被低估。美国对华芯片出口管制持续收紧的背景下,中国AI产业能否在国产算力平台上实现训练级工作负载的自主可控,是一个具有高度战略意义的问题。昇腾生态从"能推理"到"能训练"的跨越,哪怕目前只是在后训练这个相对轻量的环节实现,也是整条替代路径上一个不可绕过的验证节点。

下一个真正的考验,是有没有团队愿意公开其在昇腾平台上完成大规模预训练的完整数据,那将是这场技术追赶故事里含金量更高的一章。

展开阅读全文

更新时间:2026-06-09

标签:科技   华为   芯片   英伟   模型   深圳   参数   集群   工作   此前   权重

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top