Inception发布Mercury 2，快速突破大语言模型延迟瓶颈

Inception公司推出了Mercury 2，声称这是世界上最快的推理型大语言模型。该模型专为生产级AI应用设计，采用并行优化而非传统的顺序解码技术。

Mercury 2于2月24日正式发布，开发者可通过Inception官网申请访问权限，也可以通过Inception聊天界面体验这款模型。

Inception表示，Mercury 2旨在解决大语言模型常见的瓶颈问题，即自回归顺序解码的限制。该模型通过并行优化生成响应，这一过程能够同时产生多个Token，并在少数几个步骤内实现收敛。根据公告，并行优化不仅大幅提升了生成速度，还改变了推理权衡机制。

通常情况下，更高的智能水平意味着测试时需要更多计算资源，包括更长的链条、更多样本和更多重试，这些都会导致更高的延迟和成本。Mercury 2采用基于扩散的推理技术，在实时延迟预算范围内提供推理级别的质量。

该公司表示，Mercury 2与OpenAI API兼容，特别适用于对延迟敏感且用户体验要求极高的应用场景。主要用例包括代码编写和编辑、智能体循环、实时语音和交互，以及搜索和RAG操作管道。

Q&A

Q1：Mercury 2是什么？有什么特别之处？

A：Mercury 2是Inception公司开发的大语言模型，被称为世界上最快的推理型大语言模型。它的特别之处在于采用并行优化技术而非传统的顺序解码，能够同时产生多个Token，大幅提升生成速度并降低延迟。

Q2：Mercury 2适合哪些应用场景？

A：Mercury 2特别适用于对延迟敏感且用户体验要求极高的应用场景，包括代码编写和编辑、智能体循环、实时语音和交互，以及搜索和RAG操作管道等生产级AI应用。

Q3：如何使用Mercury 2？

A：开发者可以通过Inception公司官网申请访问权限，也可以通过Inception聊天界面体验该模型。Mercury 2与OpenAI API兼容，便于开发者集成到现有系统中。

更新时间：2026-03-05

全国政协委员郭御风：国产芯片如何跑出“加速度”？