今年上半年,算力圈相当魔幻。
好用的GPU被疯抢,好用的服务器卖断货,连公有云上的高端GPU云主机都供不应求。
背后的原因简单粗暴——都是大模型闹的。
训练、后训练、微调,尤其是今年大火的推理,哪哪儿都离不开GPU。
可是你知道吗?为了把模型伺候好,我们狂抢GPU、囤算力的操作,可能花了很多冤枉钱!
因为,刚刚有人爆料说↓
他们公司,这个月累计少买1000张卡,模型跑得竟然比以前还溜。
还有这种便宜事儿??
看到爆料,算力圈吃瓜群众的反应是这样的——
然鹅,这真不是开玩笑,一种榨干GPU算力的新玩法,诞生了。
就在上周,字节跳动旗下的云与AI服务平台火山引擎,发布了一个全新的算力弹性调度方案,效果就像上面说的那样——
少用GPU、少花钱,模型的推理效果依然有保障。
这个新方案叫做→企业自有模型托管方案,具备两大特色↓
01、全托管
简单讲,就是当用户部署自有模型的时候,可以完全交给火山引擎的MaaS平台「火山方舟」,模型部署、推理优化、弹性调度全帮你搞定。
02、极致弹性
这种部署方案,能够以「模型单元」为颗粒度弹性伸缩。
依据大模型推理业务的“潮汐效应”,系统能够自动增加或者缩减算力消耗,从而大幅降低用户的算力开支,让每分钱都花到刀刃上。
先讨论一个问题,云上各种通用大模型API不香吗,为啥企业还要费劲吧啦的部署自有模型?
对于中小型企业或者个人开发者来说,通用大模型的能力已经足够用了,而且还是基于Tokens消耗按需付费。
但是,通用模型虽强,却可能缺少垂直行业的专业领域知识。
对于很多专业大客户、专业场景来说,并不能完全满足需求。
所以,越来越多的企业,开始利用自己的专属数据,对基础模型进行强化学习训练、微调对齐,从而得到更“懂行”的专属模型。
这样的模型,既有通用知识,又有专业知识,能更好地在专业场景上岗干活。
以懂车帝为例,AI选车场景涉及大量汽车垂类知识和专业评价数据,通用模型不具备这些知识,懂车帝基于豆包大模型进行二次训练,构建了专属的AI选车模型和智能体。
可是专属模型训练出来,问题也随之而来。
这种BYOM(Bring your own model)模型需要企业自己先完成部署,才能提供推理应用。
以前,大概有这么几种部署路径↓
①企业自己买设备,自己组集群,全部自己干。
2、从算力黄牛那里临时租算力资源,用多少租多少。
3、从公有云租GPU云主机,包月或者按时长付费。
三种方案相比较,用云平台来部署推理服务的模式,看起来最灵活、最省钱。
但即便如此,也可能会花“冤枉钱”。
因为,绝大多数线上AI服务,都是具有「潮汐效应」的,白天很繁忙,晚上可能很闲。
一个事实是,目前市面上用于企业专属大模型推理的云端GPU算力,都是以卖卡、整租的模式交付。
无论包月还是计时,都不提供自动伸缩能力。
即便晚上没啥负载,只要你还占用着GPU不释放(即便GPU在摸鱼),你仍然要按照整个资源池的规模来付费。
看下面这张图→
横轴代表一天中不同时间段,红色曲线代表一天中AI业务量的变化趋势,蓝色方块代表算力资源单位(服务器数或GPU数)。
用户需要按照峰值业务量来购买算力,虽然低谷很多GPU是空闲的,但这个钱却省不下来。
除非企业自己的运维团队特别牛掰,能够根据算力需求的波动自己搞一套调度系统来自动伸缩(闲时释放算力,忙时补充算力)。
但几乎没人这么干,因为这类客户都搞模型定制了,对性能体验要求极高,万一调度策略没整好(该伸的时候没伸,该缩的时候没缩),影响终端客户体验,得不偿失。
现在,这个问题终于有了解法↓
火山引擎在这套刚刚发布的「企业自有模型托管方案」里,推出了一种新型算力形态:全托管弹性模型单元。
企业可以选择不同规格的模型单元:单机型、多机PD分离型的等等。
然后,根据自己的业务特点,设置推理性能指标(TPOT、TTFT),并且根据应用的潮汐波动特点,设置弹性伸缩系数,系数越大,弹性越强。
注:TFTT为首Token时长,TPOT为单位时间生成的Token数,这两个是衡量大模型推理体验的关键指标。
这就意味着,客户的实际付费算力,会根据自己业务量的大小,以模型单元为单位动态增加或者减少。
从此,客户再也不需要为摸鱼的GPU买单了,对于那些波动性较大的AI业务,省掉一半GPU都不止!
还有一点特别重要,这是一种“全托管”模式的服务。
企业只需要把自己的模型交给火山方舟,剩下那一系列的调度、优化、推理加速的事儿,都不用操心,“火山”全包。
尤其模型推理优化,企业重新精调过的模型,针对通用模型的标准优化手段可能不再适用,需要重新优化。
没关系,火山方舟会帮客户一站式搞定。
经过一番优化操作,你可能会发现,峰值需要的算力规模,都比以前变少了,又狂省了一笔。
当然,这种模型单元,不只适用于企业定制模型,如果企业使用通用模型时,对延迟和吞吐要求特别高,也同样可以采用这种模式。
因为此时算力资源是独享的,相比API调用共享算力,这种模式可以提供更确定的性能保障(没人跟你抢)。
你能想象吗?一个云厂商,这么费劲扒拉一顿操作猛如虎,竟然是为了帮用户省钱。
当别人还在云上卖卡,火山引擎已经开始为用户提供按需可得的AI算力。
为啥各大云厂商,只有火山引擎率先做到这一点?
首先明确一点,这种高并发高弹性算力保障,是充沛算力×推理层优化×系统调度能力的乘积,这种能力积累来自于字节内部业务驱动。
比如,2024年的时候,字节系的AI产品(抖音AI应用、豆包、即梦等)就迎来了高速发展,AI推理需求量急剧增长,比业界更早的看到了风向。
这种领先于业界半年左右的生产级AI需求,倒逼字节AI Infra产研团队不断提升推理效率、降低推理成本。
正是基于这样的需求驱动,火山引擎团队早在2024年下半年就开始研发“模型单元”方案。
彼时,DeepSeek还没有大爆发,业界的推理需求还没有爆炸式增长,但字节基于内部领先的AI需求驱动,就已经预判到趋势。
机会果然是留给了有准备的人——
2025年初,这个高弹性的“模型单元”方案就已经悄悄上线,并在字节内部抖音等业务推广应用,持续用最极端的实战场景淬炼、打磨。
后来的故事大家都知道了,DeepSeek走红,整个业界开始寻求更优的推理方案。
而火山引擎的“先发优势”得到充分体现,在那一波全民狂炫DeepSeek的大潮中,火山引擎(火山方舟)成为性能最优的那个第三方DeepSeek API服务平台。
而过去一年来,火上引擎持续击穿Token计费的地板价,敢降价的底气,同样来自于这份需求前瞻性和长期技术积累的乘积。
同时,根据IDC的最新报告,火山引擎以46.4%的份额,高居中国公有云大模型调用量榜首。
最近两个月,业界需求沿着字节去年踩过的足迹如期而至——
智能体、Agentic AI掀起热潮,越来越多的企业开始用定制模型提供更个性化、更精准的推理服务和智能体应用。
火山引擎再次跑赢了趋势,打磨已久的模型单元进一步升级,为这类客户提供效率更高、成本更低的自有模型托管服务,帮客户轻松省下每一分钱,榨干每一分算力。
一切的毫不费力,都是因为曾经的竭尽全力!
更新时间:2025-08-05
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号