#我要上精选-全民写作大赛#
The Information今天报道了一件重磅消息:DeepSeek专门推迟了V4的发布时间,花了几个月和华为、寒武纪合作,重写了模型底层代码的部分模块,确保V4能在华为最新的昇腾芯片上流畅运行。
更关键的是,在整个过程中,英伟达和AMD没有得到V4的任何早期访问权限——这个机会被DeepSeek独家给了国内厂商。
按照AI行业惯例,大模型发布前,都要提前把模型交给英伟达做性能优化。这是不成文的规矩,就像五星酒店开业前要让消防局先验收一样理所当然——你的产品要跑在人家的硬件上,不打招呼是不专业的。
但DeepSeek这次把英伟达晾在一边了,这个动作,比V4本身发布更值得关注。

很多人搞混了一件事,说到"国产芯片替代英伟达",大多数人脑子里的画面是:以前用英伟达,现在改用华为,就这么简单。
但实际上,AI对芯片的需求分成完全不同的两段:训练和推理。
训练,是把一个大模型从零到一做出来的过程。这个阶段需要数以万计的芯片协同工作,对精度、稳定性、芯片之间的通信速度要求极高——出一点差错,整个训练跑就崩了。
DeepSeek训练R1,据报道用了一个包含5万张英伟达Hopper系列显卡的集群,其中包括H100、H800和H20,这些资源来自背后的投资机构幻方量化。
推理,是模型训练完成之后,每天向用户提供服务的过程。你在手机上问DeepSeek一个问题,背后就是一次推理请求。这个阶段对每张芯片的要求没有训练那么极端,更看重的是稳定性、显存大小和服务并发能力。
这两件事,是完全不同的战场。
用盖楼来打比方:训练是浇地基、立钢筋、打混凝土,只干一次,但容不得半点马虎;推理是之后每天让住户进来住,要稳定运转几十年。
两件事需要的技能根本不同。去年,DeepSeek曾经尝试用华为昇腾910C芯片训练推理模型R2,结果反复失败。
即便华为派驻工程师现场支援,团队也没能完成一次完整的训练跑,最终只能退回英伟达硬件做训练,华为芯片只用于推理。
问题出在三个层面:稳定性,通信效率和软件生态。其中最根本的,是软件生态的系统性差距。
英伟达的CUDA软件栈经过超过15年的持续迭代,有超过400万名开发者贡献积累,而华为的CANN才发展了几年,算子库覆盖度和调试工具成熟度都落后了整整一代。
DeepSeek做了一个务实的决定:训练继续用英伟达,华为芯片只负责推理。
说回这里的主角——华为昇腾950PR。
这是华为今年3月刚发布的最新芯片,单卡算力是英伟达H20的2.87倍,配备112GB显存。
听起来很猛,对吧?别急,先搞清楚它对标的是谁。
H20是英伟达专门为中国市场设计的"合规版"芯片,说白了就是"阉割版"。为了满足美国出口管制的要求,英伟达把H100的互联带宽和算力大幅砍了一刀再卖给中国客户。
H20的整体性能大概只有H100的四分之一到三分之一。所以950PR对标的,是英伟达的一个残血版对手。能打赢残血版,不代表能打赢满血版。这一点要诚实。
但这里有一个关键信息,很多报道一笔带过了,值得单拎出来讲——FP4。华为这颗芯片是目前中国唯一支持FP4低精度推理的AI芯片。
FP4是什么?你可以这样理解:同一张照片,RAW格式保留了最完整的色彩信息,文件可能有30MB;压缩成JPEG之后,肉眼几乎看不出区别,文件可能只有3MB。
AI模型在推理时处理数据的精度格式,有类似的道理。FP16是高精度版本,对显存的需求极大;FP4是低精度版本,显存占用大幅下降,而对绝大多数推理任务来说,精度损失在可接受范围内。
实际效果有多显著?原新闻里已经给了个数字:一个700亿参数的模型,用FP16跑需要140GB显存,用FP4只需要35GB——同样的硬件,能同时处理的请求量可以增加好几倍。
再结合V4本身的架构。V4采用了MoE(混合专家)设计,虽然总参数量约达1万亿,但每次推理只激活其中约370亿个参数,在保持低延迟和低算力成本的同时,实现了媲美更大密集模型的性能。
这意味着,国产芯片在推理这件事上,第一次有了能真正算得过来的经济账。
当然,代价也要说清楚:昇腾950PR的功耗是600W,大约是H20的两倍。数据中心的电费和散热成本会随之上涨,这是实际部署时绕不过去的现实。不能只看进攻,不看成本。
现在DeepSeek V4尚未正式发布,但中国最大的几家互联网公司——阿里巴巴、字节跳动、腾讯,已经批量采购了数十万片华为最新芯片。
华为昇腾950PR的价格在消息传出后应声上涨了20%。
这三家公司,是中国AI应用最大的三个基础设施平台。它们每天处理的AI推理请求体量远超任何一家垂直AI公司。
集体大手笔下单,背后是两条硬的商业算盘。
第一条,供应链安全。
H20是目前美国对华出口合规版本中算力最强的芯片,但这个"合规"本身就是不稳定的——过去几年,美国对华芯片出口管制收紧了一轮又一轮。
就在几天前,美国国会提出了MATCH法案,试图进一步封堵对华出口DUV光刻机的路径,其中点名了ASML和东京电子在中国的设备维护服务是现有管制体系的漏洞。
DUV是中国芯片厂商目前实现较先进制程的关键设备,一旦连维护也被切断,影响是根本性的。把公司的AI服务命脉押在进口芯片的出口配额上,是一件越来越危险的事。
如果V4真能在华为芯片上流畅推理,阿里、字节、腾讯就获得了一条不依赖英伟达出口配额的服务路径。
第二条,成本压力。
AI推理服务的成本,每天都要算。如果昇腾950PR在FP4下的实际推理效率真的能对标H20,企业就有了真实的替代选项,而不是被动接受英伟达的定价。
供应链出现了第二个选项,议价能力就回来了。
到这里,很多人可能已经兴奋起来了:国产芯片要翻盘了?
先冷静一下。
改变的是:推理环节,第一次出现了真实可用的国产替代路径。不是PPT上的规划,不是发布会上的宣传,而是DeepSeek花了几个月时间重写底层代码、实际跑通了的路径。
这是从"理论上可以替代"到"工程上已经实现"的一步。
更重要的是生态飞轮开始转了。DeepSeek为华为芯片专门优化底层代码,这些优化本身就是资产。
每一次为昇腾写成的软件优化,都降低了其他公司从英伟达迁移的成本,随着每一代新模型的推出,国产算力的供应优势在持续积累。软件生态的积累,靠的是真实项目一点一点堆出来,这次合作是实质性的开端。
没改变的是:训练,依然是最大的短板。
R2的失败案例说明,华为的CANN和CUDA之间的差距是系统性的,不只是某个算子没优化好,而是分布式训练通信效率、调试工具链、长时间稳定性,整体落后了一代。
这个差距不会因为推理跑通了就消失。
另外,华为自己的产能上限,也是现实约束。华为昇腾芯片2025年全年产量约80万片,主要瓶颈是高带宽内存的供应短缺和偏低的芯片良率。
相比之下,英伟达2025年B300等效芯片的产量超过300万片。体量差距,仍然悬殊。
结论只有一个:这是"推理独立"的第一步,不是"全面独立"。说这是决定性胜利,过度乐观;说这只是政治表态、没有实质意义,同样是没看清这件事的真正重量。
有一个规律,在过去几十年的科技史上反复出现:技术封锁的长期效果,往往是倒逼被封锁方加速。
华为被列入出口管制实体名单之后,5G设备并没有崩溃;Mate60 Pro带着麒麟芯片在2023年悄悄回来了。
中国被禁止购买先进光刻机之后,SMIC开始量产7nm芯片,良率虽然不高,但工艺在往前走。就在最近,SMIC还宣布开始测试中国首台国产浸没式DUV光刻机。如果成功量产,将是在先进制程路上迈出的重要一步。
DeepSeek这次和华为的合作,有一个很重要的背景——不是它心甘情愿,而是外部压力推着它往这个方向走。
没有出口管制的层层收紧,中国AI公司大概率还会继续舒服地用英伟达,根本没有动力去啃"重写底层代码适配国产芯片"这块硬骨头。
但现在,DeepSeek不光自己做了,还给整个行业发出了一个信号:这件事可以做,值得做,而且我已经做成了一部分。
接下来的问题只剩一个:如果V4在昇腾上真的跑得好,软件生态的飞轮就开始转了。昇腾积累的真实工程经验越来越多,迁移成本越来越低,越来越多的开发者愿意为它写代码优化,反过来又让它对下一个模型的适配变得更容易。
而训练,才是真正的终局。
推理独立是第一刀,但如果有一天DeepSeek能宣布,新模型从头到尾用华为芯片完成训练——那才是真正改变格局的时刻。
那一天还没到。但昨天还是"完全不可能",今天已经是"推理跑通了"。这条路,正在越走越宽。
很多人讨论中美芯片博弈的时候,老是聚焦在"这颗芯片行不行"、"制程差几纳米"这些硬件参数上。
但如果你站到更高的视角看,美国对华芯片封锁的核心逻辑,从来就不只是怕中国造出一颗好芯片。
它真正怕的是中国形成一个自洽的AI计算生态闭环。什么意思?就是从底层芯片,到芯片上面的算子库,到编译器,到AI框架,到大模型,到终端应用——这一整条链条全部实现国产化,各环节能互相咬合、互相迭代、自我进化。
为什么这个生态闭环比单颗芯片可怕得多?因为单颗芯片可以通过限制光刻机、限制EDA软件、限制先进制程来卡你。但一旦生态闭环形成,它就会有自己的生命力——用户越多,反馈越多,迭代越快,越来越好用,越来越离不开。
现在,Deepseek打响了这场突围的第一枪。
#deepseek#
更新时间:2026-04-06
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号