IBM将llm-d分布式推理框架捐赠给CNCF

大语言模型推理在生产环境中的部署和运维一直是一项巨大挑战，尤其是在需要处理先进模型和复杂基础设施的情况下。新的AI工作负载变化多端，而传统API往往无法满足推理编排的需求。云原生世界正在努力跟上现代AI的发展步伐，大语言模型推理正是压力最为集中的领域之一。

当组织试图将模型投入生产时，他们发现大规模服务大语言模型带来了全新的分布式系统挑战。这正是llm-d诞生的原因。llm-d通过提供Kubernetes原生的分布式推理框架，解决了传统路由和自动扩展的局限性。

在今年的欧洲KubeCon大会上，IBM Research、红帽和谷歌云宣布将llm-d作为沙盒项目贡献给CNCF（云原生计算基金会）。该项目由NVIDIA和CoreWeave作为创始贡献者共同发起，随后得到了AMD、思科、Hugging Face、英特尔、Lambda和Mistral AI等行业领导者的加入，同时还获得了加州大学伯克利分校和芝加哥大学的学术支持，迅速发展为最先进的AI基础设施。这一举措标志着IBM实现高性能、供应商中立、Kubernetes原生大语言模型推理普及化使命的重要里程碑。通过与CNCF合作，我们进一步强化了对开放治理、社区驱动开发的承诺，以及可扩展生成式AI应该成为云原生生态系统核心特性的信念。

IBM Research专门从事AI混合云平台的杰出工程师Carlos Costa表示："llm-d在传统分布式系统和新兴AI推理堆栈之间架起了桥梁，使大规模模型服务成为一流的云原生工作负载。这次捐赠有助于将CNCF建设为AI推理基础设施的家园，催生更广泛的可组合系统和项目生态系统。"

llm-d的架构与特性

llm-d从一开始就致力于构建供应商中立的推理服务堆栈，可以与任何硬件和软件组合配合使用。llm-d于2025年推出，是一个Kubernetes原生的高性能分布式推理框架，旨在使大规模大语言模型服务既可预测又高效。为了支持现代生成式AI工作负载，它提供了模块化架构，将vLLM等推理引擎转化为生产就绪的分布式云原生推理系统，能够在真实世界的流量下维持低延迟和高吞吐量。

IBM Research AI平台副总裁Priya Nagpurkar说："从最根本的意义上说，我们正在将推理从简单地搭建模型和试验，转向在生产环境中大规模运行多用户和多模型。你需要Kubernetes为上一个时代提供的规模、分布和可靠性，同时也要认识到这是一个非常不同的工作负载。"

llm-d的核心在于解决大语言模型推理的最具挑战性的方面，包括KV缓存局部性管理、平衡预填充和解码阶段、协调多节点部署、维持低延迟以及高效利用异构加速器硬件。IBM Research专门从事分布式AI推理的IBM研究员Vita Bortnikov表示："为了提供高效推理，llm-d引入了智能推理调度和前缀缓存感知路由。这确保每个请求都被路由到基于缓存状态、流量模式和硬件拓扑的最优副本。"

"llm-d的另一个关键能力是跨GPU、CPU和存储层的分层KV缓存卸载，"她补充道。"这显著提高了性能，特别是对于长上下文工作负载和高并发级别。"

通过预填充/解码分解，llm-d允许这两个根本不同的推理阶段独立扩展，显著提高了变量工作负载的效率。自动扩展是流量和硬件感知的，能够适应实时工作负载特性，而不是依赖通用的CPU和GPU指标。llm-d与新兴的Kubernetes标准深度集成，包括Kubernetes Gateway API推理扩展（GAIE）和LeaderWorkerSet（LWS），使分布式推理成为一流的Kubernetes工作负载。

llm-d的核心承诺是将AI基础设施从黑盒转变为可管理的云原生微服务的可复制蓝图。Costa说："这是一条明确的路径。我们为你测试了这个。我们进行了基准测试。我们经历了痛苦，这是我们为社区提供从实验到生产的清晰路径。"通过可重现的基准测试、经过验证的部署模式和供应商中立设计，llm-d为寻求跨NVIDIA、AMD、英特尔和谷歌TPU加速器的生产级生成式AI基础设施的组织提供了明确路径。

为何选择CNCF

CNCF是应对这一多样化环境的自然场所。llm-d作为沙盒项目贡献给CNCF，以加速云原生生态系统中分布式大语言模型推理的标准化、开放性和互操作性。当组织竞相实施生成式AI时，他们发现大语言模型推理带来了挑战——有状态调度、KV缓存局部性、多阶段执行、异构加速器——这些暴露了Kubernetes原本设计围绕的工作负载模型的局限性。这些挑战太根本、太共享，无法在单个公司的产品路线图内解决。它们需要中立的、社区驱动的方法。

通过将llm-d贡献给CNCF，项目维护者旨在建立一个供应商无关的、Kubernetes原生的高性能推理蓝图，任何组织都可以采用。CNCF提供了治理模型、知识产权清晰度和社区信任，这些都是llm-d从有前途的框架演变为广泛接受的标准所必需的。虽然IBM、红帽和谷歌正在推动核心贡献和早期采用，但越来越多的合作者生态系统正在积极探索与该堆栈的集成。CNCF管理确保没有单一供应商控制项目方向，并且它与上游Kubernetes API（如GAIE和LWS）保持一致。

加入CNCF还强化了llm-d为生产级AI基础设施创造明确路径的使命。基金会的生态系统为构建可互操作的、标准驱动的组件提供了理想环境。最终，将llm-d贡献给CNCF是为了确保可扩展、高效和可移植的大语言模型推理成为云原生堆栈的核心能力，而不是锁定在封闭平台后的专有特性。

未来发展规划

随着llm-d贡献给CNCF的宣布，该项目的下一阶段将专注于深化采用、扩展技术能力，并加强其作为AI生态系统中立开放治理推理堆栈的地位。Costa表示，此次捐赠将llm-d正式确立为一个随着更多合作者加入而增长的社区项目。

一个关键的下一步是合作支持下一代AI架构。例如，Mistral AI目前正在为llm-d生态系统贡献功能，以帮助推进围绕分解服务的开放标准。Costa说："创建通用基础堆栈已经证明了其价值。它允许整个生态系统专注于推动AI平台的边界，而不是重建基本构建块。"

与此同时，IBM Research将继续推动创新，特别是在行业缺乏成熟解决方案的领域。这包括推理和训练交叉点的工作——强化学习——以及推进跨缓存、扩展和配置的自管理、AI引导优化。大规模推理和模型适应作业之间的界限正在变得模糊，推理平台需要适应这一现实。

随着项目的成熟，更广泛的社区正在积极解决下一代AI基础设施挑战。技术路线图引入了对多模态工作负载的标准化支持，扩展了与其他推理引擎的集成，并优化了多LoRA环境的调度以及先进的多层KV缓存卸载，确保llm-d满足生态系统不断发展的基本期望，同时推向新的前沿。这些步骤共同使llm-d能够在CNCF治理下快速发展，并加速其作为分布式推理操作层的作用。

Q&A

Q1：llm-d是什么？它解决了什么问题？

A：llm-d是一个Kubernetes原生的高性能分布式推理框架，专门用于大规模服务大语言模型。它解决了传统路由和自动扩展的局限性，包括KV缓存局部性管理、平衡预填充和解码阶段、协调多节点部署、维持低延迟以及高效利用异构加速器硬件等挑战。

Q2：为什么要将llm-d捐赠给CNCF？

A：因为大语言模型推理带来的挑战太根本、太共享，无法在单个公司内解决，需要中立的社区驱动方法。通过贡献给CNCF，项目可以建立供应商无关的标准，确保没有单一供应商控制项目方向，使可扩展的大语言模型推理成为云原生堆栈的核心能力。

Q3：llm-d有哪些关键技术特性？

A：llm-d的关键特性包括智能推理调度和前缀缓存感知路由、跨GPU/CPU/存储层的分层KV缓存卸载、预填充/解码分解技术、流量和硬件感知的自动扩展，以及与Kubernetes Gateway API推理扩展和LeaderWorkerSet等新兴标准的深度集成。

展开阅读全文

更新时间：2026-03-26

标签：科技分布式框架模型负载缓存堆栈语言生态系统工作项目基础设施

1 2 3 4 5

IBM将llm-d分布式推理框架捐赠给CNCF

抖音公告：封禁、下架！

新赛股份：棉花现货价格走势受宏环境、供需关系、行业政策等多重因素综合影响

今天A股：三个字！

2月深圳春节前后最贵的地段和小区

厦门3宗宅地收金39.59亿元，建发、中海、国贸各有所获

今年中国创新药出海BD总包超570亿美元！同标的最大的生物医药ETF（159859）近十日净流入累超2亿元

2月上海春节前后最贵的地段和小区

止语，是成年人顶级的养生

猝死的人越来越多？医生再次强调：宁可打打牌，也别做这6事

60岁以上的老人锻炼，是慢跑好，还是散步好？有以下几点……

睡眠不足，极容易导致心源性猝死

收藏：黄石市民间好口碑的医生

抬走，下一个！CBA夺冠大热门32分狂胜，上海队11连胜、重返榜首

2-2战平泰国！U23国足全队评价：上半场低迷，后程复苏，两将优异

93-51！广东一节流大胜垫底队，陈家政打爆胡明轩，杜锋要换人了

沃顿科技：2025年度计提信用及资产减值准备合计2,471.90

石狮市第十届运动会首个项目开赛 300余名青少年选手挥

为什么崇左市这2个公路项目可以入选全国2025年度“美

广州新机场项目正式开工大湾区机场群“上新”

日均工作14小时、睡眠不足4小时：张雪峰的猝死给无数人

光纤：长飞光纤、亨通光电、中天科技、烽火通信和中际旭

广泰真空IPO：硬科技铸就竞争壁垒，新质生产力驱动高质量

电商平台速效救心丸搜索量同比增30倍，品牌方工作人员：的

邹红英：齐心协力抓落实全力做好2026年广西文化旅游发

捷报再传！盐池县四股泉煤层气项目惠参2井成功见气点火