深圳科创全新突破！国产算力成功完成万亿级大模型全参数训练

南都讯记者何思敏日前，深圳河套学院Al训练平台项目团队，联合哈尔滨工业大学(深圳)、深圳市大数据研究院、华为GTS(全球技术服务)等多家单位面向国产算力大模型训练开展联合攻关。

目前，仅用1个月时间，项目已基于昇腾910C国产算力集群实现DeepSeek-V4-Pro全参数续训练/SFT稳定运行，完成长稳训练1500+步，训练MFU超30%，关键训练算子效率提升14%。

这是业界首个由第三方机构基于国产算力集群完成的DeepSeek-V4-Pro全参数后训练工程实践，标志着国产AI基础设施正在从推理部署和轻量化微调迈向超大模型全参数后训练。

据了解，DeepSeek-V4-Pro是一款1.6万亿参数级MoE开源旗舰模型，采用了CSA+HCA混合稀疏注意力、mHC连接等新机制。相比于上一DeepSeek-V3/R1，它对国产训练框架提出了全方位的“极限挑战”。

经联合攻关，项目已基于千卡级昇腾 910C 国产算力集群，成功实现DeepSeek-V4-Pro在国产算力集群上的全参数后训练稳定运行。该模型实现1500步以上稳定迭代，全程无迭代跳过、无NaN异常迭代；关键训练算子效率较初始版本提升约14%，最终MFU稳定达34.9%，单步训练稳定在27秒。团队同步打通DeepSeek‑V4‑Flash全参数续训练与SFT完整链路。

本次成果并非单次演示，而是可复现、可工程化交付的万亿MoE模型国产算力稳定训练能力。项目已完成工业级自动化运筹建模场景闭环验证，证明国产算力可短周期、低成本完成行业大模型专项增强训练。

技术层面，团队实现三大突破。项目成功构建了权重、梯度、激活、优化器状态的分布式承载方案，使得数据并行、张量并行、流水并行与专家并行四者协同工作；优化MoE路由与稀疏注意力算子、建立专家负载均衡机制，缓解通信拥堵与负载失衡；构建全指标可视化长稳监控，在多日连续训练中未出现一次Loss失控或NaN值。

在能力验证中，项目设计了一项“硬核”实验：增强大模型的数学建模能力。团队搭建了一条SFT建模数据生产workflow，产出3000条高质量数学建模任务SFT样本，覆盖4类目标任务和3种问题形态。训练结果显示，模型LM Loss收敛至0.2056、MTP‑1 Loss收敛至0.2538，梯度曲线平稳。Benchmark评测显示，模型四项核心指标全面提升，ORGEval WL提升超5个百分点，复杂推理与建模能力显著增强。

本次攻关同时落地人才培养成果，深圳河套学院依托真实万亿模型训练场景，累计培养42名在校学生，形成师生与工程团队协同攻坚模式，沉淀完整实训案例，持续输出复合型AI工程人才。

展开阅读全文

更新时间：2026-06-10

标签：科技深圳模型参数建模稳定项目集群算子团队能力

1 2 3 4 5

深圳科创全新突破！国产算力成功完成万亿级大模型全参数训练

浙大研究团队首次实验证实：氙气识别主要依赖色散力

三峡水运新通道开工

Claude Opus 4.8正式发布：支持算力调节、动态工作流与更强诚实性

情况变了，8.2级大地震横扫菲律宾！中国只报灾情不提援助

二手房抛压突然消失，房东们硬气起来了！

浙江“要大发”了，这个城市被国家选中，即将腾飞!是你家乡吗

A股:沪指精准收在4010点,收复4000关口,盘面藏着一个很关键的信号

细思极恐！出轨6年，全网拉黑13年女友？内娱渣男又曝光了一个

突传死讯！台湾知名男演员7号下午因病离世，和妻子结婚8年未生娃

何洁一家现身美国！和老公吃中餐，素颜满脸疲惫，被曝在加州买房

他被称最干净男演员，和妻子姐弟恋恩爱二十多年，一家三口太幸福

从昨晚起！央一、央八黄金档将被这4部剧抢占，会担心的何止白鹿

当 26 岁刘浩存遇上 37 岁窦骁，我才终于明白，为何说 "CP 感" 是门玄学

夏季密闭环境90天实测：家用除醛产品真实使用体验与参考

京东618苹果手机怎么买便宜？6.15日京东苹果优惠券专属红包+苹果手机电脑国补+消费券+官方降价多重福利叠加实操，抄底价入手不后悔！

浙大研究团队首次实验证实：氙气识别主要依赖色散力

阿里巴巴升级大模型组织架构，成立Token Foundry事业部

开源AI模型被改造，新型蠕虫零成本扩张，所有联网设备都危

弘扬科学家精神勇担科创使命——江苏省中国科学院植

张家界：萌娃“探秘”铁路铁轨科技，开启零距离科普之路

Cytiva与鼎康生物合作GMP-2扩建项目投产，共筑全球交付

高考从不是人生终点，真正伴你一生的，是这一种能力

科技创新，世界义乌打“明牌”

五角大楼将阿里、比亚迪等19家高科技企业新增为中国军

公司在具身智能领域的投入及目标？德马科技回应