编者按:AI 自动生成播客早已不是新鲜事,但常见的 AI 播客只局限于几分钟的双人对话,这是因为传统语音生成模型大多基于离散化方法,更擅长生成短句、单一音色、结构规整的语音内容。近日,微软亚洲研究院提出了一种全新的语音生成模型 VibeVoice。该模型采用 next-token diffusion 机制,实现了长达90分钟、支持最多4人自然对话的高质量语音生成。更重要的是,VibeVoice 生成的语音中,还能听到说话人自然的呼吸、恰到好处的停顿,甚至偶尔的唇齿音,仿佛真的有人在你耳边交谈。
播客如今已成为知识传播和文化交流的重要载体之一,但对大多数普通创作者来说,制作一档高质量的播客依然是一件充满挑战的事情。无论是撰写脚本后为角色匹配配音(如故事类播客),还是邀请嘉宾录制访谈后进行后期剪辑(如对话类播客),整个流程都需要一定的专业门槛。
人工智能技术虽然为播客的语音制作带来了自动化生成的可能,但受限于算力瓶颈、算法局限及数据资源不足等因素,现有的自动播客生成方案仍存在明显短板。例如,大多数系统只能生成几分钟内的双人对话,难以满足创作者对更长时长、更多角色互动的实际需求。
为此,微软亚洲研究院的研究员们研发了一款专为多人播客打造的语音合成模型 VibeVoice。它能够将文字脚本直接转化为流畅、自然的长对话音频。创作者无需再为音色匹配、语速调整、对话间隔等细节问题耗费精力,只需提供一份带角色标注的脚本,例如“主持人:今天我们聊…… 嘉宾 1:我认为…… 嘉宾 2:你看,……”,VibeVoice 就能自动生成最长90分钟、支持最多4人对话的高质量播客音频。
VibeVoice 基于本篇文章生成的对话音频-教育-高清完整正版视频在线观看-优酷
Demo 1:VibeVoice 基于本篇文章生成的对话音频
VibeVoice 生成的、带背景音乐的、外国人讲中文来教英语的音频及对应文字脚本-教育-高清完整正版视频在线观看-优酷
Demo 2:VibeVoice 生成的、带背景音乐的、外国人讲中文来教英语的音频及对应文字脚本
VibeVoice 的核心能力体现在三个方面:
超长时长:支持生成最长90分钟的连续高质量音频,突破了传统语音生成模型的时间限制。
多角色自然互动:最多可支持4位不同说话人,每位角色拥有独立的音色与说话风格,且在整段对话中保持一致。
细节拟真与氛围生成:能够自然呈现呼吸声、顿挫感和对话间的停顿等细节,还能在适当场景中加入背景音乐、清唱等,增强氛围感,使生成语音更贴合不同播客内容的需求。
VibeVoice 生成的、长时长(42分钟)、4人对话音频及对应文字脚本-教育-高清完整正版视频在线观看-优酷
Demo 3:VibeVoice 生成的、长时长(42分钟)、4人对话音频及对应文字脚本
更多 Demo 请查看项目页面:
https://microsoft.github.io/VibeVoice/
目前的语音生成模型大多基于离散化技术:将语音表示为梅尔频谱图等离散声学特征,再分阶段预测基频、时长、频谱等参数,一次性合成整段音频。这类方案不仅限制了语音生成的灵活性与可扩展性,还高度依赖特定说话人音色的训练数据(如单一音色的语音库),难以泛化至新角色或多音色场景。这正是大多数自动生成播客仍停留在“几分钟、两人对话”阶段的原因。
微软亚洲研究院的研究员们另辟蹊径,将连续化的 LatentLM 模型算法引入语音生成任务,通过对音频数据进行离散化编码(tokenization),训练出支持长时间、多角色自然对话的 VibeVoice 模型。
VibeVoice 的核心在于其底层采用 LatentLM next-token diffusion 的生成框架。研究员们首先使用变分自编码器(VAE)将语音波形编码为连续的潜在向量序列。这些向量可以理解为语音的“语义表示”,保留了音色、语调、节奏等关键信息。
接着,模型通过一个因果 Transformer 架构,以对话脚本(包括说话人标签)和已生成的潜在向量为输入,逐步预测下一个语音片段。每一步都基于上下文进行扩散建模,从而实现自回归式的连续语音生成.
这种“一句接一句”的生成方式,与传统TTS一次性输出整段音频的方式截然不同。它让 VibeVoice 能更好地理解上下文逻辑,避免了“前言不搭后语”的问题,也让生成的语音听起来更加自然、连贯。
图1:VibeVoice 采用了 LatentLM 自回归扩散模型框架,用于合成长时长、多说话人的音频,并使用语音提示与文本脚本作为初始输入。
在处理长音频生成时,传统语音模型通常采用每秒50到100帧(fps)的频率来表示语音内容。这种高帧率虽然能保留更多细节,但也带来了极高的计算负担。例如,生成90分钟的音频,就需要处理数十万个语音片段(类似文字的 token),远超当前大模型的处理能力。
为了解决这个问题,VibeVoice 引入了一种高效的低帧率压缩机制——将帧率压缩至 7.5fps。这意味着,生成一段90分钟的对话音频,VibeVoice 只需处理约6.4万个 token,计算量大幅降低。
更重要的是,这种压缩方式并未牺牲音质表现,反而让模型能够“记住”更长时间的对话内容,从而在长时间对话中保持角色的一致性与语义连贯性。
在多人语音生成中,说话人身份的一致性与区分能力是关键的技术挑战。研究员们通过在输入文本中加入角色标签(如[说话人_1]、[说话人_2]),使 VibeVoice 模型能够根据角色标签自然地进行音色切换,从而在整段对话中保持清晰的人物区分,实现多角色对话。
同时,VibeVoice 还通过训练数据学习了人类对话中角色切换的转场规律,在切换语者时自动加入如呼吸声、停顿、口音变化等非语言提示,显著减少了角色转换的突兀感,让整段对话听起来更流畅、自然。
相比传统 TTS 工具,VibeVoice 在角色一致性、对话连贯性等方面展现出显著优势。实验评估结果显示,它在自然度、自发性和逻辑性等维度的主观听感评分远超现有系统,甚至接近真实人类对话的表现。
“这项技术的核心在于模型对上下文的深度理解能力。”微软亚洲研究院研究员彭智亮表示,“正是这种能力,使 VibeVoice 在语调控制和自发性语言生成方面展现出接近人类表现的自然度。而 next-token diffusion 框架与超低帧率连续语音标识的独特组合,则为基于连续空间建模的语音生成提供了新方向,这不仅提升了语音生成的质量与效率,也显著降低了对计算资源的需求。”
随着技术的演进和应用场景的持续拓展,VibeVoice 展现出巨大的发展潜力。下一步,研究员们计划在未来的版本中引入情感控制等功能,使生成内容更多元、生动,同时满足多文化背景下的播客创作需求。此外,VibeVoice 也有望进一步提升生成时长与角色数量,并支持自动插入特定音效,拓展其在复杂音频场景中的应用潜力。
研究员们还在推动连续特征在音频生成领域的深入应用,并希望更多开发者能一起探索“语音+音乐+音效”一体化的音频生成模型。这意味着,未来创作者只需输入一段文字脚本,人工智能就能自动生成包含对话、配乐和场景音效的完整音频作品。
这一技术将有望彻底改变传统音频制作中语音录制、配乐剪辑、音效叠加等割裂的工作流程,让音频创作变得更加高效、智能。从播客制作、视频配音,到在线教育、娱乐节目、广告等有声内容的生产,VibeVoice 将为音频内容创作开辟更多新的可能性。
VibeVoice 相关链接:
技术报告链接:
https://arxiv.org/abs/2508.19205
GitHub 链接:
https://github.com/microsoft/VibeVoice
Hugging Face 链接:
https://huggingface.co/collections/microsoft/vibevoice-68a2ef24a875c44be47b034f
项目页面:
https://microsoft.github.io/VibeVoice/
注:VibeVoice 是一项基础研究项目。VibeVoice 可以生成长时间、多角色的对话音频,但其输出质量仍受输入文本的长度、角色设定、对话逻辑等因素影响。与所有的生成式模型一样,该模型可能存在潜在的非法使用风险,例如伪造特定人物的语音、生成误导性的内容等。在语音合成技术的研究与应用中,如需使用真人且具有辨识度的声音,建议事先获得相关方的明确授权,并结合音频内容真实性检测机制,以降低非法使用风险。如果您发现 VibeVoice 被非法使用或侵犯了您或他人的权利,请通过微软的报告门户网站
https://msrc.microsoft.com/report/ 进行举报。
随着人工智能技术的快速发展,确保相关技术能被人们信赖是一个亟需解决的问题。微软主动采取了一系列措施来预判和降低人工智能技术所带来的风险。微软致力于依照以人为本的伦理原则推动人工智能的发展,早在2018年就发布了“公平、包容、可靠与安全、透明、隐私与保障、负责”六个负责任的人工智能原则(Responsible AI Principles),随后又发布了负责任的人工智能标准(Responsible AI Standards)将各项原则实施落地,并设置了治理架构确保各团队把各项原则和标准落实到日常工作中。微软也持续与全球的研究人员和学术机构合作,不断推进负责任的人工智能的实践和技术。
更新时间:2025-08-28
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号