深圳科创全新突破!国产算力成功完成万亿级大模型全参数训练

南都讯 记者何思敏 日前,深圳河套学院Al训练平台项目团队,联合哈尔滨工业大学(深圳)、深圳市大数据研究院、华为GTS(全球技术服务)等多家单位面向国产算力大模型训练开展联合攻关。

目前,仅用1个月时间,项目已基于昇腾910C国产算力集群实现DeepSeek-V4-Pro全参数续训练/SFT稳定运行,完成长稳训练1500+步,训练MFU超30%,关键训练算子效率提升14%。

这是业界首个由第三方机构基于国产算力集群完成的DeepSeek-V4-Pro全参数后训练工程实践,标志着国产AI基础设施正在从推理部署和轻量化微调迈向超大模型全参数后训练。

据了解,DeepSeek-V4-Pro是一款1.6万亿参数级MoE开源旗舰模型,采用了CSA+HCA混合稀疏注意力、mHC连接等新机制。相比于上一DeepSeek-V3/R1,它对国产训练框架提出了全方位的“极限挑战”。

经联合攻关,项目已基于千卡级昇腾 910C 国产算力集群,成功实现DeepSeek-V4-Pro在国产算力集群上的全参数后训练稳定运行。该模型实现1500步以上稳定迭代,全程无迭代跳过、无NaN异常迭代;关键训练算子效率较初始版本提升约14%,最终MFU稳定达34.9%,单步训练稳定在27秒。团队同步打通DeepSeek‑V4‑Flash全参数续训练与SFT完整链路。

本次成果并非单次演示,而是可复现、可工程化交付的万亿MoE模型国产算力稳定训练能力。项目已完成工业级自动化运筹建模场景闭环验证,证明国产算力可短周期、低成本完成行业大模型专项增强训练。

技术层面,团队实现三大突破。项目成功构建了权重、梯度、激活、优化器状态的分布式承载方案,使得数据并行、张量并行、流水并行与专家并行四者协同工作;优化MoE路由与稀疏注意力算子、建立专家负载均衡机制,缓解通信拥堵与负载失衡;构建全指标可视化长稳监控,在多日连续训练中未出现一次Loss失控或NaN值。

在能力验证中,项目设计了一项“硬核”实验:增强大模型的数学建模能力。团队搭建了一条SFT建模数据生产workflow,产出3000条高质量数学建模任务SFT样本,覆盖4类目标任务和3种问题形态。训练结果显示,模型LM Loss收敛至0.2056、MTP‑1 Loss收敛至0.2538,梯度曲线平稳。Benchmark评测显示,模型四项核心指标全面提升,ORGEval WL提升超5个百分点,复杂推理与建模能力显著增强。

本次攻关同时落地人才培养成果,深圳河套学院依托真实万亿模型训练场景,累计培养42名在校学生,形成师生与工程团队协同攻坚模式,沉淀完整实训案例,持续输出复合型AI工程人才。

展开阅读全文

更新时间:2026-06-10

标签:科技   深圳   模型   参数   建模   稳定   项目   集群   算子   团队   能力

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top