阿里深夜炸场:首个端到端全模态AI模型Qwen3-Omni发布开源

IT之家 9 月 23 日消息,又是熟悉的深夜,阿里云今日发布并开源了全新的 Qwen3-Omni、Qwen3-TTS,以及对标谷歌 Nano Banana 图像编辑工具的 Qwen-Image-Edit-2509。

Qwen3-Omni 是业界首个原生端到端全模态 AI 模型,能够处理文本、图像、音频和视频多种类型的输入,并可通过文本与自然语音实时流式输出结果,解决了长期以来多模态模型需要在不同能力之间进行权衡取舍的难题。

Qwen3-Omni 是原生端到端的多语言全模态基础模型,其核心特性主要包括:

IT之家附官方地址:

TTS 即文本转语音,阿里云此次发布的 TTS 支持 17 种音色选择,每一种音色均支持 10 种语言。其中不仅包含多国语言,有:普通话、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语;还支持了更多中国方言:闽南语、吴语、粤语、四川话、北京话、南京话、天津话和陕西话。

此外,Qwen3-TTS-Flash 在多项评估基准上均取得了 SoTA 的表现,超越 SeedTTS、MiniMax、GPT-4o-Audio-Preview、Elevenlabs,特别是在语音稳定性和音色相似度。

延迟对比Qwen3-TTS-FlashQwen-TTS
并发数双卡 12 并发双卡 6 并发
首包延迟(单并发)97ms200ms
首包延迟(满并发)420ms733ms
首包大小(满并发且越大越好)320ms190ms
RTF(单并发)0.300.43
RTF(满并发)0.510.72

官方地址:

Qwen-Image-Edit-2509 是 Qwen-Image 月度迭代升级版本,和字节前几天发布的即梦 4.0 图像模型一样主要是一致性上巨大提升。

与 8 月份发布的 Qwen-Image-Edit 相比,Qwen-Image-Edit-2509 的主要改进包括:

官方地址:

另外,
Qwen3-Next-80B-A3B-Instruct-FP8

Qwen3-Next-80B-A3B-Thinking-FP8
也已经开源:

展开阅读全文

更新时间:2025-09-24

标签:科技   阿里   模型   深夜   语音   葡萄牙语   图像   编辑   文本   音频   西班牙语   俄语   德语

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top