从2亿到90亿投资！DeepSeek算力扩张，GPU从1100块飙升至5万张！

DeepSeek在乌兰察布招数据中心工程师。岗位职责是高级运维+高级交付经理，工作地点内蒙古。

这件事挺有意思的。

在乌兰察布建数据中心其实并不是一件稀奇的事情，因为很多大型公司（比如阿里、苹果、快手）在当地都有布局。这主要归功于乌兰察布得天独厚的地理环境，为建立这种大型数据中心创造了天然优势。

但有趣的地方在于，阿里、苹果和快手都是体量巨大的公司。而 DeepSeek 说白了，虽然它的出现堪称“精彩绝艳”，但实际上它还只是一个量化公司（幻方量化）旗下的 AI 实验室，规模并不算大。

对于这种规模较小的 AI 实验室来说，自建数据中心其实挺反常的。因为一般来说，小实验室通常只需要租用通用云算力就足够支撑工作了。DeepSeek 决定自建数据中心，说明它已经有了往大规模、大方向去走的概念。

再加上 DeepSeek 是一个不一样的公司，因为它从出道以来到现在的表现太精彩绝艳了。虽然说最近沉寂了一段时间，但是它依旧是国家作为 AI 自主创新的标杆公司。

特别DeepSeek是靠"不烧钱"出名的。MoE架构、推理效率、每百万Token 0.028美元—它的故事一直是"用更少的算力做更好的模型"。

现在它要自建算力工厂，跟以往的DeepSeek表现有点反差

经济学里的 Jevons 悖论特别适合用来阐释这个问题。它可以解释为什么 DeepSeek 会从一个“效率至上”的阶段，突然决定转向走“规模主义”路线。

什么是Jevons悖论

1865年，英国经济学家William Stanley Jevons发现一个反直觉的现象：蒸汽机的效率提高了，按理说每生产一单位产品需要的煤更少了，总耗煤量应该下降。

但实际上，恰恰因为效率提高了，使用蒸汽机变得更划算，更多工厂开始用蒸汽机，结果总耗煤量反而大幅增加。

效率提升 → 单位成本下降 → 需求扩大 → 总消耗反而增加。

这个悖论后来在计算领域被反复验证。CPU性能每18个月翻倍（摩尔定律），但全球计算能耗并没有因此减少，反而指数级增长。因为更便宜的计算催生了更多的应用场景。

甚至在 AI 领域，摩尔定律其实已经不太有效了，因为AI模型训练算力增长速度太快。

但是可以清楚地看到，DeepSeek 现在的发展趋势与这个 Jevons 悖论是非常相符的。

效率提升的真实后果

最近可以看到 DeepSeek-V4 已经悄悄推出了灰度测试版本。据传它的推理成本仅为 GPT-5 的 1/20，特别是在现在的 Agent 前提下，这样的推理成本会让 DeepSeek-V4 以及众多的中国模型产生巨大的成本优势。

特别是在 OpenRouter 上面的中国模型调用量，最近几周连续超过美国，最新的差距已经达到了 2.5 倍。这相当于全球的开发者“用脚投票”选择了中国模型。

当然，这里面的一部分中国模型是免费提供，或者是价格非常低廉，所以我们也不能武断地说中国的模型已经超过了美国。更多只能说，在现在的应用环境之下，便宜模型的优势是比较大的。

但更便宜的推理不意味着更少的算力需求。恰恰相反。

当Token单价从几美元降到0.3美元，开发者的使用方式发生了根本变化。Agent工作流每次调用消耗的Token是传统问答的几十到上百倍。

编程任务在OpenRouter上的占比从11%涨到50%+。国家数据局的数据显示，中国日均Token调用量从2024年初的1000亿涨到2026年3月的140万亿—两年1000倍。

S&P Global的分析直接点明了这个逻辑："DeepSeek的效率提升不会减少基建投资——省下来的钱会被重新投入更多算力。"

说白了就是：效率不是终点，效率创造了更大的需求，更大的需求需要更多的基建。

DeepSeek的算力扩张路径

把时间线拉出来看：

2019年：萤火一号。投资2亿元。1100块GPU。这是量化交易起步阶段。

2021年：萤火二号。投资10亿元。约1万张A100。算力是萤火一号的18倍。这是幻方量化转向AI研究的节点。

2024-2025年：硅谷分析师Dylan Patel和Alex Wang估计DeepSeek持有约5万张H100。总服务器CapEx约13亿美元（90亿元），其中集群运营成本7.15亿美元。

2026年4月：在乌兰察布招聘数据中心建设和运维岗位。

从2亿到10亿到90亿。从1100块GPU到1万到5万。从租机房到自建数据中心。规模每两三年翻一个量级。

而团队只有150人。人均算力密度可能是全球AI公司里最高的之一。

为什么是乌兰察布

乌兰察布在算力界不是新面孔。"南贵北乌"—北方算力看这里。

几个硬指标：

电价：比京津冀低约50%。位于蒙西电网，背靠煤炭坑口电站+大规模风光电。对于大模型训练这种吃电大户来说，电费占运营成本的六七成。50%的电价差直接砍掉了25-35%的运营成本。

温度：年均4.3℃。自然冷却期接近10个月。设备节能20-30%。GPU集群的散热是数据中心最大的工程挑战之一——冷的地方天然省钱。

交通：距北京高铁不到两小时。DeepSeek的研发团队在北京和杭州，算力在乌兰察布——训练任务远程提交，不需要人蹲在机房旁边。

已有生态：截至2024年，乌兰察布已落地36个数据中心项目，33个是智算中心，总投资1406亿元，签约机架超110万架。阿里巴巴、苹果、快手、优刻得都在。基础设施成熟，不用从零开始。

绿电：装机容量1940万千瓦，占比65.9%。对于一家以"效率"和"低成本"为品牌标签的公司，用绿电还能拿到政策补贴，一举两得。

这件事的真正意义

DeepSeek建数据中心不是一条孤立的新闻。它是几个信号的汇合点。

第一，AGI需要的算力不是效率能省出来的。业内传言DeepSeek下一步重点是AGI。如果这是真的，单靠MoE架构优化已经不够了——AGI训练需要的不只是"巧"，还需要"量"。自建数据中心是为下一代模型做准备。

第二，DeepSeek从"轻资产"走向"重资产"。以前的故事是"150人+5万GPU+开源模型=用效率碾压大厂"。现在加上了"自建数据中心在内蒙"。这意味着更长的投资周期、更大的沉没成本、更强的基建承诺。

第三，中国AI的"算电协同"在从政策走向现实。"东数西算"提了好几年，但真正把大模型训练搬到西部的头部AI公司不多。DeepSeek如果真的把训练集群放在乌兰察布，它可能成为"算电协同"最有说服力的商业案例。

回到Jevons悖论。DeepSeek用效率降低了单位Token的成本，让全球开发者用了更多Token，Token需求的爆炸式增长反过来要求更多算力基建。

效率的尽头不是"省下来了"，而是"省出来的空间被更大的需求填满了"。

建数据中心就是填这个空间。

梁文锋以量化基金起家，本质上是一个"用数学优化回报"的人。他选择在4.3℃均温、电价低50%的地方建算力工厂，不是情怀，是精算。

展开阅读全文

更新时间：2026-06-27

标签：科技乌兰察布数据中心效率模型中国悖论更多公司成本需求

1 2 3 4 5

从2亿到90亿投资！DeepSeek算力扩张，GPU从1100块飙升至5万张！

什么是Jevons悖论

效率提升的真实后果

DeepSeek的算力扩张路径

为什么是乌兰察布

转化经费2000万元！贵大科研团队兑现了与黎平的“十年之约”

GPT-6发布！Java工程师用它写代码，效率实测吓到我了

雷神黑武士·猎刃Pro品牌台式机正式上架，两种配置享国补

印度主权AI战略将如何提升亚洲科技生态系统

BeingBeyond智在无界发布通用具身世界模型Being-H0.7

早知道：多家龙头公司辟谣，多晶硅控产挺价传闻不实；美股三大指数集体收涨

人民币大涨6000点！特朗普2大战场受挫？中国收获巨大意外利好

2026年4月14日，星期二，农历二月廿七，关注每日简讯（早安）

报复性消费还没来？：我们访谈了200个年轻人，发现消费真的变了

西南证券与摩根士丹利研报：隆基绿能业绩目标价及行业竞争力解析

西南证券与摩根士丹利研报：生益电子业绩目标价及行业竞争力解析

从曾小贤到隐形富豪，陈赫靠什么坐拥娱乐圈半壁人脉？

天津又官宣一批演唱会！

陪玩陪睡算啥！继注射不明物体后，内娱又曝猛料众多明星联手发声

臭名昭著的三位相声演员：不着寸缕入室猥亵、虚假代言、羞辱交警

GPT-6发布！Java工程师用它写代码，效率实测吓到我了

印度主权AI战略将如何提升亚洲科技生态系统

BeingBeyond智在无界发布通用具身世界模型Being-H0.7

早知道：多家龙头公司辟谣，多晶硅控产挺价传闻不实；美股三

人民币大涨6000点！特朗普2大战场受挫？中国收获巨大意外

伊朗战争扰乱亚洲科技产业，从芯片制造到人工智能数据中

全军覆没？马斯克称6G重大突破，中国露出底牌，外媒：彻底没戏

54岁俞飞鸿科技美后大回春，穿肚兜裙明艳四方，脸蛋紧致不

最高降285元！老凤祥、中国黄金“一口价”产品集体降价，

这片叫中国的土地，正惊艳着整个世界