AI流量激增,Backblaze被迫重构数据中心网络架构

云存储服务商Backblaze正在将数据中心内部的100G链路全面替换为400G链路,原因是AI工作负载从根本上改变了数据中心内部的流量模式。在CoreWeave和Lambda等新兴云服务商(Neocloud)上运行的AI任务,产生了极具突发性和不可预测性的流量,彻底打破了为传统稳态云流量设计的容量规划模型。

Backblaze网络工程负责人Brent Nowak表示:"当我们遭遇大规模数据流时,流量在穿越网络的过程中会出现饱和点。我们有API、负载均衡器、数据库服务器和存储阵列,各个环节都可能受到冲击。"

更棘手的是,数据在网络中的传输方式会使流量成倍放大——400G的外部流量进入数据中心后,由于文件分布式存储、各基础设施组件之间需要频繁通信,实际内部流量可能膨胀至数Tbps级别。

"我们观察到的情况非常难以预测,"Nowak补充道,"同样是一周之内,周二和周四的网络容量与负载可能截然不同。"

为应对这种高强度的突发流量,Backblaze对整个技术栈进行了全面优化。目前,公司在数据中心内已部署了多条400G链路。"我们同时提升了Arista交换机的密度,"Nowak说,"原来是32个100G端口的交换机,现在全部换成400G端口,这让我们能够实现更高密度、更大吞吐量,并连接更多设备。"

Backblaze也在积极布局未来。"我目前正在做一个项目,模拟如果流量翻倍甚至翻四倍,我们的网络会是什么状态,"Nowak说,"这种突发流量可能以出人意料的方式冲击网络,我们必须时刻保持警惕。从工程角度来看,这其实相当令人兴奋。"

根据Backblaze今日发布的报告,过去一年间,来自内容分发网络及托管和互联网服务提供商的流量基本维持在历史正常水平。但来自超大规模云服务商和新兴云服务商的流量则出现剧烈波动,在9月、10月大幅攀升,3月又出现新一轮上涨。

AI带来的另一个网络变化体现在地理维度。Nowak指出:"传统上,云基础设施部署在哪里并不重要。但对于AI工作负载来说,存储与计算的物理距离越近,企业能获得的延迟越低、吞吐量越高。"

目前,弗吉尼亚州和加利福尼亚州已高度集中了大量AI计算服务商,这反过来又吸引更多存储公司在当地布局。"今年7月,我们决定将美国东部的部署规模扩大一倍,以缩短与超大规模云服务商和新兴云服务商之间的距离,"Nowak说。这又进一步刺激了计算需求的增长,推动资源持续向这些地区集中。"这是一种滚雪球效应,"Nowak总结道。

企业或许会认为,只要使用超大规模云服务商处理AI工作负载,数据和计算都在云内流转,就无需关心网络流量细节。但将第三方存储服务商与专注GPU算力的新兴云服务商组合使用,实际上具备明显的成本优势。

据Synergy Research Group今年4月初发布的报告,2025年第四季度新兴云服务商营收达90亿美元,同比增长223%;全年营收突破250亿美元,预计到2031年将达到4000亿美元。

麦肯锡去年底发布的报告指出,新兴云服务商提供更灵活的合同条款、更快的资源交付速度,以及专业化的基础设施配置,GPU价格最高可比超大规模云服务商低85%。

"你会发现,就连超大规模云服务商自己也在转向新兴云服务商,"Backblaze报告主笔Stephanie Doyle表示。

根据3月Silicon Data的报告,超大规模云服务商提供的H100价格大约是新兴云服务商的三倍。此外,尽管超大规模云服务商不对内部数据流动收费,但跨区域数据传输费用和数据出口费用依然不菲,存储费用同样偏高。

LeanOps今年4月发布的报告显示,AWS S3是主流对象存储服务商中定价最高的,费用约为Backblaze的四倍、Wasabi的三倍以上。LeanOps创始人Ravi Kanani在报告中写道:"加上每GB 0.09美元的出口费后,S3的月度总费用可能是其他方案的10至17倍。"

Kanani同时指出,企业仍然倾向于选择AWS S3,原因在于其与超过200项AWS服务深度集成、覆盖超过30个区域、提供自动化生命周期管理,并以"11个9"的持久性保障数据安全。

当然,新兴云服务商作为行业新入局者,自身也存在一定局限性。

存储服务商并非唯一面临AI网络基础设施挑战的群体。Omdia今年4月中旬发布的研究报告指出,新兴云服务商在AI算力扩展上已取得显著进展,但网络能力明显滞后。

该报告覆盖50家新兴云服务商,调查发现:超过三分之一的服务商在合同中刻意限制法律责任,这意味着客户需要更加关注服务承诺、安全保障和数据主权等问题;超过半数的服务商未接入互联网对等交换节点,而这恰恰是保障稳定性能的重要手段;在IP地址所有权方面,46%的新兴云服务商仅掌控较小规模的IPv4地址块;更令人担忧的是,五分之一的服务商仅依赖单一IP传输提供商,存在明显的单点故障风险。

Q&A

Q1:Backblaze为什么要将数据中心网络从100G升级到400G?

A:因为AI工作负载带来了极具突发性和不可预测性的流量,传统100G链路已无法满足需求。AI任务在数据中心内部流转时,流量会因文件分布式存储和组件间通信而成倍放大,导致网络出现饱和。为此,Backblaze将链路全面升级至400G,并更换了更高密度的Arista交换机,以提升吞吐量和连接设备数量。

Q2:新兴云服务商(Neocloud)和超大规模云服务商相比有哪些优缺点?

A:新兴云服务商的优势在于:合同更灵活、资源交付更快、基础设施配置更专业,GPU价格最高可比超大规模云服务商低85%,H100价格约为超大规模云服务商的三分之一。但新兴云服务商也存在明显不足:超过三分之一限制合同责任,超过半数未接入互联网对等交换节点,部分服务商存在单点故障风险,整体网络能力也落后于计算能力的扩展速度。

Q3:AWS S3存储费用贵,为什么企业还是选择它?

A:尽管AWS S3的费用远高于其他方案,但企业仍倾向于选择它,主要原因是:S3与超过200项AWS服务深度集成,覆盖超过30个全球区域,提供自动化数据生命周期管理,并以"11个9"的持久性保障数据安全,整体生态系统的完整性和可靠性是其他服务商目前难以替代的。

展开阅读全文

更新时间:2026-04-30

标签:科技   数据中心   架构   流量   网络   服务商   负载   数据   费用   基础设施   报告   单点

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top