阿里通义Qwen3-TTS模型家族上新:声音不仅能复制,还可以定制

IT之家 12 月 24 日消息,阿里通义今日官宣,Qwen3-TTS 家族新推出两款模型,音色创造模型 Qwen3-TTS-VD-Flash和音色克隆模型Qwen3-TTS-VC-Flash。IT之家附模型主要特点如下:

Qwen3-TTS-VD-Flash

Qwen3-TTS 支持通过自然语言描述生成定制化的音色形象。用户可以随意输入声学属性、人设描述、背景信息等自由描述,轻松创造出自己期望的声音形象。

可控生成:在 InstructTTS-Eval 中,Qwen3-TTS 综合表现显著优于 GPT-4o-mini-tts、Mimo-audio-7b-instruct,在角色扮演测试中也超越
Gemini-2.5-pro-preview-tts。

Qwen3-TTS-VC-Flash

Qwen3-TTS 支持通过自然 3s 级别音色克隆,并且可以基于克隆的音色生成多语种音频,同时对复杂文本和野生音频都有较高的鲁棒性。

多语种音色克隆:在 MiniMax TTS Multilingual Test Set 上,Qwen3-TTS 在中、英、法、意大利等语项的内容稳定性优于 MiniMax、ElevenLabs 及 GPT-4o-Audio-Preview;其平均词错误率(WER)位居第一。

Qwen3-TTS-Voice-Design API 文档:

展开阅读全文

更新时间:2025-12-25

标签:科技   阿里   模型   声音   家族   音色   文本   错误率   自然语言   表现力   能力   角色扮演   葡萄牙语   语种

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top