外国人也用不起GpT,跑来薅中国大模型的羊毛


中国模型调用量全球第一,却不算最聪明,背后是算力成本的暗战

最近有个数据挺有意思,OpenRouter上周统计显示全球AI模型调用总量里前十名加起来用了8.7万亿个token,中国模型占了5.3万亿超过六成,前三全是国产模型包括MiniMax的M2.5、Kimi的K2.5和GLM-5,但它们在标准测试比如写代码或解数学题时还是比不上GPT-4o和Claude 3.5 Opus,这就像快递员每天送一万单考试却总考不过只送五十单的学霸。

问题在于AI的使用方式变了,以前大家问个问题,模型回答一句就结束,现在AI被当成数字员工来用,自己查资料、尝试错误、修改代码、阅读文件,一套流程走下来,token消耗量翻了好几倍,有人用Claude Pro个人账号运行自动化任务,结果被谷歌和Anthropic一起封号,这不是技术问题,而是商业模式承受不住,包月订阅根本支撑不了这么高频的调用,每百万token收费10到15美元,谁都用不起。

国产模型价格低很多,一般用两三美元就能买到一百万个token,有些还一直免费开放,这种优势不是靠政府补贴硬推出来的,而是工程师们一点一点优化省出来的,比如MoE架构,模型有上千亿参数,但每次只用激活几十亿,就像工厂流水线只开必要的工位一样,KV Cache也压到最小,就算显存紧张,也能处理上百万字的上下文,更重要的是硬件适配能力,买不到A100、H100这些芯片,就用昇腾芯片加自研框架硬调出来,效果差得不多,再看北美那边,电网老旧,变压器缺货,电费又贵,建数据中心还得通过环境评估,物理条件限制特别大。


其实大部分实际需求根本不需要那种顶尖的人工智能,比如翻译整本小说、从一堆PDF里提取数据、生成简单的前端代码、或者陪用户聊很多轮天,这些工作更看重稳定输出和大吞吐量,对逻辑深度的要求并不高,国内模型在做这些事情时差距确实不大,开发者早就学会了用智能路由的办法,把简单任务交给国产模型处理,遇到复杂情况再切换到GPT或Claude,这种两层架构运行起来又稳当又节省资源。

这背后其实是两种思路的不同,硅谷把模型当作艺术品,追求参数、锁定源码、卖出高价,中国却把模型当成工业品来做,讲究量产、稳定、压低成本,结果就是全球很多AI应用不知不觉搭在了中国模型的底座上,就像手机的零件离不开深圳的供应链一样,现在做AI的人也开始依赖国产模型提供的低价算力。

还有个细节很多人没注意,Transformer架构的比拼已经从“谁参数多”变成“谁推理省电”,高压变压器、液冷系统、电网扩容能力,这些基础设施正卡住AI扩张的脖子,马斯克两年前说“两年内电力会不够”,现在看真不是危言耸听,北美新建数据中心的速度,已经明显慢下来了。

国产模型的调用量大幅增加,表面上数据显得亮眼,实际上反映了算力成本竞争中的阶段性成功,这不是因为谁突然变得更聪明,而是大家意识到,完成工作不一定需要最顶尖的方案,但必须确保方案能够负担得起。


小杜热评:看完这个新闻,发现其观察很深刻,它点明了一个朴实却关键的道理:很多时候,生存和普及不靠登峰造极的“聪明”,而靠稳定可靠的“可用”。


硅谷在打造精密的“艺术品”,追求极限性能;而我们更像在打磨耐用的“工业品”,解决大规模应用的现实成本。

这让我想起生活中的许多选择——未必是最好、最贵的,但必须是负担得起、可持续的。

这种务实的路径,恰恰是技术融入普通人生活的基石。在算力成为新电力的时代,谁能让让更多人用得上、用得起,这本身就是一种深厚价值。


图片源自网络,如有侵权联系删除

展开阅读全文

更新时间:2026-03-02

标签:科技   羊毛   外国人   模型   中国   成本   硅谷   北美   架构   工业品   参数   稳定   代码

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top