Mistral发布开源语音合成AI模型Voxtral TTS

总部位于巴黎的Mistral AI公司今日宣布发布其首款文本转语音人工智能模型Voxtral TTS，旨在挑战市场上最知名和最强大的语音模型。

这款新模型非常轻量化，仅有40亿参数，可以在大多数消费级硬件上运行，包括现代笔记本电脑、中端台式机图形处理器，甚至一些高端移动设备在高压缩状态下也能使用。该公司以开放权重的形式发布这款模型，这意味着它是一个开源模型。

Mistral表示，该模型的亮点是对新声音具有很强的适应性，并且新音频的延迟时间极低，能够快速响应。

尽管模型规模较小，但仍能创造出强大的语音效果。该公司表示，它不仅能朗读文本，还能准确解释文本内容，这是任何文本转语音生成的必备条件。它能够产生适合演讲的情感和语调，例如中性、快乐、讽刺等。目标是捕捉人们自然说话的方式。

即使在英语方面，语音功能也包括美式、英式和法式口音。

在与专有大语言模型语音模型的激烈竞争中，Mistral将其与市场领导者ElevenLabs公司进行了比较。对于语音智能体，该公司表示人工评估显示，Voxtral TTS在自然度方面可与ElevenLabs Flash v2.5相比较，并且在更加逼真的交互中与更大的v3模型表现相当。

虽然英语市场相当庞大，但Mistral是一家法国公司，因此Voxtral TTS是一个多语言模型。该公司表示，它在大型语音数据集上进行训练，专为全球应用而构建。它在九种语言中支持最先进的性能：英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。

该模型可以通过仅仅三秒钟的参考音频进行训练，以适应和克隆语音。它不仅能捕捉声音，还能捕捉细微差别，如微妙的口音、语调变化、音调起伏，甚至是说话者节奏和韵律中自然的口语填充词，如"嗯"、"啊"以及其他中断、停顿和重复。

这种高保真度，加上小巧的体积和开放权重，意味着Mistral认为企业公司希望拥有自己的语音模型并在本地系统上运行。它还为未来更强大的文本转语音AI模型奠定了基础，这些模型将提供更多的质感、定制化和功能，Mistral可以为企业环境提供支持。

用户今天就可以在Mistral Studio或Le Chat中开始使用该模型。开放模型可供开发者使用，提供多个参考语音，可以在Creative Commons许可下从Hugging Face下载。

Q&A

Q1：Voxtral TTS有什么特别之处？

A：Voxtral TTS是Mistral公司首款文本转语音AI模型，仅有40亿参数却能产生高质量语音。它支持9种语言，能够准确解释文本并产生适合的情感语调，仅需3秒参考音频就能进行语音克隆，还能捕捉口音、语调和自然的口语习惯。

Q2：这个模型能在什么设备上运行？

A：由于Voxtral TTS只有40亿参数，非常轻量化，可以在大多数消费级硬件上运行，包括现代笔记本电脑、中端台式机显卡，甚至一些高端移动设备在高压缩状态下也能使用。

Q3：Voxtral TTS支持哪些语言？

A：Voxtral TTS支持9种语言的最先进性能，包括英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。在英语方面还包括美式、英式和法式口音。

更新时间：2026-03-28

昆仑万维正式推出Matrix-Game 3.0、SkyReels V4及Mureka V9三大核心模型