IBM将llm-d分布式推理框架捐赠给CNCF

大语言模型推理在生产环境中的部署和运维一直是一项巨大挑战,尤其是在需要处理先进模型和复杂基础设施的情况下。新的AI工作负载变化多端,而传统API往往无法满足推理编排的需求。云原生世界正在努力跟上现代AI的发展步伐,大语言模型推理正是压力最为集中的领域之一。

当组织试图将模型投入生产时,他们发现大规模服务大语言模型带来了全新的分布式系统挑战。这正是llm-d诞生的原因。llm-d通过提供Kubernetes原生的分布式推理框架,解决了传统路由和自动扩展的局限性。

在今年的欧洲KubeCon大会上,IBM Research、红帽和谷歌云宣布将llm-d作为沙盒项目贡献给CNCF(云原生计算基金会)。该项目由NVIDIA和CoreWeave作为创始贡献者共同发起,随后得到了AMD、思科、Hugging Face、英特尔、Lambda和Mistral AI等行业领导者的加入,同时还获得了加州大学伯克利分校和芝加哥大学的学术支持,迅速发展为最先进的AI基础设施。这一举措标志着IBM实现高性能、供应商中立、Kubernetes原生大语言模型推理普及化使命的重要里程碑。通过与CNCF合作,我们进一步强化了对开放治理、社区驱动开发的承诺,以及可扩展生成式AI应该成为云原生生态系统核心特性的信念。

IBM Research专门从事AI混合云平台的杰出工程师Carlos Costa表示:"llm-d在传统分布式系统和新兴AI推理堆栈之间架起了桥梁,使大规模模型服务成为一流的云原生工作负载。这次捐赠有助于将CNCF建设为AI推理基础设施的家园,催生更广泛的可组合系统和项目生态系统。"

llm-d的架构与特性

llm-d从一开始就致力于构建供应商中立的推理服务堆栈,可以与任何硬件和软件组合配合使用。llm-d于2025年推出,是一个Kubernetes原生的高性能分布式推理框架,旨在使大规模大语言模型服务既可预测又高效。为了支持现代生成式AI工作负载,它提供了模块化架构,将vLLM等推理引擎转化为生产就绪的分布式云原生推理系统,能够在真实世界的流量下维持低延迟和高吞吐量。

IBM Research AI平台副总裁Priya Nagpurkar说:"从最根本的意义上说,我们正在将推理从简单地搭建模型和试验,转向在生产环境中大规模运行多用户和多模型。你需要Kubernetes为上一个时代提供的规模、分布和可靠性,同时也要认识到这是一个非常不同的工作负载。"

llm-d的核心在于解决大语言模型推理的最具挑战性的方面,包括KV缓存局部性管理、平衡预填充和解码阶段、协调多节点部署、维持低延迟以及高效利用异构加速器硬件。IBM Research专门从事分布式AI推理的IBM研究员Vita Bortnikov表示:"为了提供高效推理,llm-d引入了智能推理调度和前缀缓存感知路由。这确保每个请求都被路由到基于缓存状态、流量模式和硬件拓扑的最优副本。"

"llm-d的另一个关键能力是跨GPU、CPU和存储层的分层KV缓存卸载,"她补充道。"这显著提高了性能,特别是对于长上下文工作负载和高并发级别。"

通过预填充/解码分解,llm-d允许这两个根本不同的推理阶段独立扩展,显著提高了变量工作负载的效率。自动扩展是流量和硬件感知的,能够适应实时工作负载特性,而不是依赖通用的CPU和GPU指标。llm-d与新兴的Kubernetes标准深度集成,包括Kubernetes Gateway API推理扩展(GAIE)和LeaderWorkerSet(LWS),使分布式推理成为一流的Kubernetes工作负载。

llm-d的核心承诺是将AI基础设施从黑盒转变为可管理的云原生微服务的可复制蓝图。Costa说:"这是一条明确的路径。我们为你测试了这个。我们进行了基准测试。我们经历了痛苦,这是我们为社区提供从实验到生产的清晰路径。"通过可重现的基准测试、经过验证的部署模式和供应商中立设计,llm-d为寻求跨NVIDIA、AMD、英特尔和谷歌TPU加速器的生产级生成式AI基础设施的组织提供了明确路径。

为何选择CNCF

CNCF是应对这一多样化环境的自然场所。llm-d作为沙盒项目贡献给CNCF,以加速云原生生态系统中分布式大语言模型推理的标准化、开放性和互操作性。当组织竞相实施生成式AI时,他们发现大语言模型推理带来了挑战——有状态调度、KV缓存局部性、多阶段执行、异构加速器——这些暴露了Kubernetes原本设计围绕的工作负载模型的局限性。这些挑战太根本、太共享,无法在单个公司的产品路线图内解决。它们需要中立的、社区驱动的方法。

通过将llm-d贡献给CNCF,项目维护者旨在建立一个供应商无关的、Kubernetes原生的高性能推理蓝图,任何组织都可以采用。CNCF提供了治理模型、知识产权清晰度和社区信任,这些都是llm-d从有前途的框架演变为广泛接受的标准所必需的。虽然IBM、红帽和谷歌正在推动核心贡献和早期采用,但越来越多的合作者生态系统正在积极探索与该堆栈的集成。CNCF管理确保没有单一供应商控制项目方向,并且它与上游Kubernetes API(如GAIE和LWS)保持一致。

加入CNCF还强化了llm-d为生产级AI基础设施创造明确路径的使命。基金会的生态系统为构建可互操作的、标准驱动的组件提供了理想环境。最终,将llm-d贡献给CNCF是为了确保可扩展、高效和可移植的大语言模型推理成为云原生堆栈的核心能力,而不是锁定在封闭平台后的专有特性。

未来发展规划

随着llm-d贡献给CNCF的宣布,该项目的下一阶段将专注于深化采用、扩展技术能力,并加强其作为AI生态系统中立开放治理推理堆栈的地位。Costa表示,此次捐赠将llm-d正式确立为一个随着更多合作者加入而增长的社区项目。

一个关键的下一步是合作支持下一代AI架构。例如,Mistral AI目前正在为llm-d生态系统贡献功能,以帮助推进围绕分解服务的开放标准。Costa说:"创建通用基础堆栈已经证明了其价值。它允许整个生态系统专注于推动AI平台的边界,而不是重建基本构建块。"

与此同时,IBM Research将继续推动创新,特别是在行业缺乏成熟解决方案的领域。这包括推理和训练交叉点的工作——强化学习——以及推进跨缓存、扩展和配置的自管理、AI引导优化。大规模推理和模型适应作业之间的界限正在变得模糊,推理平台需要适应这一现实。

随着项目的成熟,更广泛的社区正在积极解决下一代AI基础设施挑战。技术路线图引入了对多模态工作负载的标准化支持,扩展了与其他推理引擎的集成,并优化了多LoRA环境的调度以及先进的多层KV缓存卸载,确保llm-d满足生态系统不断发展的基本期望,同时推向新的前沿。这些步骤共同使llm-d能够在CNCF治理下快速发展,并加速其作为分布式推理操作层的作用。

Q&A

Q1:llm-d是什么?它解决了什么问题?

A:llm-d是一个Kubernetes原生的高性能分布式推理框架,专门用于大规模服务大语言模型。它解决了传统路由和自动扩展的局限性,包括KV缓存局部性管理、平衡预填充和解码阶段、协调多节点部署、维持低延迟以及高效利用异构加速器硬件等挑战。

Q2:为什么要将llm-d捐赠给CNCF?

A:因为大语言模型推理带来的挑战太根本、太共享,无法在单个公司内解决,需要中立的社区驱动方法。通过贡献给CNCF,项目可以建立供应商无关的标准,确保没有单一供应商控制项目方向,使可扩展的大语言模型推理成为云原生堆栈的核心能力。

Q3:llm-d有哪些关键技术特性?

A:llm-d的关键特性包括智能推理调度和前缀缓存感知路由、跨GPU/CPU/存储层的分层KV缓存卸载、预填充/解码分解技术、流量和硬件感知的自动扩展,以及与Kubernetes Gateway API推理扩展和LeaderWorkerSet等新兴标准的深度集成。

展开阅读全文

更新时间:2026-03-26

标签:科技   分布式   框架   模型   负载   缓存   堆栈   语言   生态系统   工作   项目   基础设施

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top