
总部位于巴黎的Mistral AI公司今日宣布发布其首款文本转语音人工智能模型Voxtral TTS,旨在挑战市场上最知名和最强大的语音模型。
这款新模型非常轻量化,仅有40亿参数,可以在大多数消费级硬件上运行,包括现代笔记本电脑、中端台式机图形处理器,甚至一些高端移动设备在高压缩状态下也能使用。该公司以开放权重的形式发布这款模型,这意味着它是一个开源模型。
Mistral表示,该模型的亮点是对新声音具有很强的适应性,并且新音频的延迟时间极低,能够快速响应。
尽管模型规模较小,但仍能创造出强大的语音效果。该公司表示,它不仅能朗读文本,还能准确解释文本内容,这是任何文本转语音生成的必备条件。它能够产生适合演讲的情感和语调,例如中性、快乐、讽刺等。目标是捕捉人们自然说话的方式。
即使在英语方面,语音功能也包括美式、英式和法式口音。
在与专有大语言模型语音模型的激烈竞争中,Mistral将其与市场领导者ElevenLabs公司进行了比较。对于语音智能体,该公司表示人工评估显示,Voxtral TTS在自然度方面可与ElevenLabs Flash v2.5相比较,并且在更加逼真的交互中与更大的v3模型表现相当。
虽然英语市场相当庞大,但Mistral是一家法国公司,因此Voxtral TTS是一个多语言模型。该公司表示,它在大型语音数据集上进行训练,专为全球应用而构建。它在九种语言中支持最先进的性能:英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。
该模型可以通过仅仅三秒钟的参考音频进行训练,以适应和克隆语音。它不仅能捕捉声音,还能捕捉细微差别,如微妙的口音、语调变化、音调起伏,甚至是说话者节奏和韵律中自然的口语填充词,如"嗯"、"啊"以及其他中断、停顿和重复。
这种高保真度,加上小巧的体积和开放权重,意味着Mistral认为企业公司希望拥有自己的语音模型并在本地系统上运行。它还为未来更强大的文本转语音AI模型奠定了基础,这些模型将提供更多的质感、定制化和功能,Mistral可以为企业环境提供支持。
用户今天就可以在Mistral Studio或Le Chat中开始使用该模型。开放模型可供开发者使用,提供多个参考语音,可以在Creative Commons许可下从Hugging Face下载。
Q&A
Q1:Voxtral TTS有什么特别之处?
A:Voxtral TTS是Mistral公司首款文本转语音AI模型,仅有40亿参数却能产生高质量语音。它支持9种语言,能够准确解释文本并产生适合的情感语调,仅需3秒参考音频就能进行语音克隆,还能捕捉口音、语调和自然的口语习惯。
Q2:这个模型能在什么设备上运行?
A:由于Voxtral TTS只有40亿参数,非常轻量化,可以在大多数消费级硬件上运行,包括现代笔记本电脑、中端台式机显卡,甚至一些高端移动设备在高压缩状态下也能使用。
Q3:Voxtral TTS支持哪些语言?
A:Voxtral TTS支持9种语言的最先进性能,包括英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。在英语方面还包括美式、英式和法式口音。
更新时间:2026-03-28
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号