3月2日,阿里云正式发布两款全新语音AI模型,覆盖“声音克隆”与“无中生有音色设计”两大核心场景,实测性能超过GPT-4o-mini-TTS与Gemini2.5-Pro。这标志着AI语音正式进入“全可控定制化”时代,内容生产效率将迎来量级提升。

过去用户使用AI语音工具,常遇到三大尴尬:声音克隆只能照搬原音色,没法调整情绪;无参考音色设计精度差,描述“温柔的女教师”生成的却是“生硬的客服音”;场景适配全靠后期,没法一键生成“雨天咖啡馆的读书声”。
Fun-CosyVoice3.5直接解决了声音克隆的“僵化”问题,用户不仅能克隆亲友声音,还能通过指令让克隆的声音带哭腔、放慢语速,甚至模拟在会议室的说话效果。而Fun-AudioGen-VD则实现了“从文字到场景化声音”的直接生成,无需任何参考音频。
这两款模型的核心突破,是把AI语音的“使用权”从技术人员手里转移到普通用户手里,以前需要专业音频知识才能实现的效果,现在输入一句话指令就能完成。

在Instruct-TTS基准测试中,Fun-AudioGen-VD的表现超过了GPT-4o-mini-TTS与Gemini2.5-Pro,这背后的核心是对“指令遵循能力”的深度优化。
不同于传统AI语音模型只关注“发音准确”,这两款模型用DiffRO和GRPO强化学习算法,增加了时长、韵律多通道奖励机制,让AI能同时理解“音色要求”“情绪指令”和“场景需求”三个维度的信息。
比如用户输入“生成一个东北口音的出租车司机,在雪天里热情地打招呼”,AI不仅能生成东北口音,还能模拟雪天的背景音和司机的热情语气,这是海外巨头模型目前很难做到的“一体化生成”。
另外,Fun-CosyVoice3.5还优化了tokenizer帧率,把训练效率提升了一倍,首包延迟降低35%,这对于实时交互场景比如直播AI助手来说,体验提升非常明显。在中文困难案例测试中,它还把生僻字错误率从15.2%降到了5.3%,解决了中文语音的长期痛点。

这两款模型的商用价值,最先会在有声书、游戏、教育三个领域爆发。以前一家中小有声书工作室要生产一本多角色有声书,需要至少5个配音演员、2个后期制作,周期长达1个月,成本至少5万元。
现在用这两款模型,用户只需要输入角色设定和文本内容,就能一键生成带场景音的多角色有声书,周期缩短到3天,成本不到原来的10%。这意味着中小工作室可以快速批量生产内容,在竞争中获得优势。
对于教育行业来说,老师可以定制专属的AI助教声音,让AI用自己的语气给学生讲题,提升学生的接受度;客服行业则可以为每个品牌定制专属的客服音色,增强用户的品牌认知。
此前国内AI语音赛道的玩家主要是百度、腾讯和科大讯飞,百度的文心一言语音、腾讯的智聆语音都有不错的表现,但阿里这次发布的两款模型,直接在“定制化+场景化”领域建立了优势。
海外巨头比如OpenAI和Google,虽然在通用AI领域领先,但在中文语音的场景化定制上,显然不如国内厂商了解用户需求。这次阿里的模型针对中文生僻字、方言场景的优化,就是精准击中了海外产品的短板。
我判断,接下来国内AI语音的竞争会从“谁的声音更像人”转向“谁的声音更能满足用户定制需求”,而阿里这次的发布,已经提前卡位了这个赛道的核心节点。
对于普通用户来说,可以先在阿里云百炼平台体验Fun-CosyVoice3.5的声音克隆功能,定制自己的专属播客声音,或者给亲友制作个性化的语音祝福。
对于企业用户来说,建议优先在客服、教育、有声书三个场景测试:客服场景可以定制专属品牌音色,提升用户体验;教育场景可以用AI生成多角色课件语音;有声书场景可以快速批量生产内容。
需要注意的是,目前AI语音的版权问题还需要规范,企业在使用克隆声音时,要确保获得原声音主体的授权,避免版权纠纷。
#人工智能##前沿技术#
更新时间:2026-03-04
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号