我们今天要学习的论文是来自腾讯的混元3D世界生成开源模型,该论文想要解决可探索的虚拟世界。
想象这样的场景:
传统做法:全靠人工建模,耗时、昂贵、需要专业技能
理想目标:输入一张图或一句话,AI自动生成可以自由探索的3D世界
技术的演进历史如下:
第一代:3D生成模型(2023-2024)
比喻:像是拼图游戏,需要很多碎片才能拼出完整图案
第二代:视频生成模型(2024)
问题示例:
帧1: 看到一个门在左边
帧30: 门突然消失了
帧60: 门又出现在右边
→ 因为模型没有真正的"3D理解"
第三代:相机可控的视频生成(2024末-2025初)
仍存在的问题:
腾讯混元团队2025年初发布了HunyuanWorld 1.0,能生成可探索的3D世界,但有两个局限: 遮挡区域处理不好,探索范围有限。Voyager就是为了解决这些问题而生的1.5/2.0版本
想象一下,你有一张房间的照片,希望能够"走进"这个房间,四处看看后面、侧面是什么样子。传统方法有几个痛点:
这篇论文提出的Voyager框架可以:
Voyager的核心是一个视频扩散模型(Video Diffusion Model),整体流程是:
输入图片 + 相机轨迹
↓
深度估计 + 构建初始点云
↓
将点云投影到目标视角(得到部分RGB-D)
↓
视频扩散模型补全缺失区域
↓
更新世界缓存(点云)
↓
循环:继续生成下一段视频
通俗理解:把已有的3D信息"投影"到新视角作为提示
技术细节:
为什么深度图更好?
具体做法:
# 伪代码示意
输入图片 I0 → 估计深度图 D0
用D0构建点云 p0
对于新视角k:
渲染mask Mk = render(p0, camera_k) # 哪些区域可见
部分RGB: Î_k = I_k * Mk # 保留可见区域
部分深度: D̂_k = D_k * Mk
这是模型的核心,有两个关键设计:
通俗理解:不是先生成RGB再估计深度,而是同时生成RGB和深度
技术实现:
原始做法:只在通道维度concat → 空间信息交互弱
Voyager: 在空间维度concat → 像素级交互,几何更一致
通俗理解:在每个Transformer层都注入条件信息,而不只是在输入时注入一次
技术细节:
视频模型一次只能生成几十帧,如何实现无限探索?Voyager用了两个技巧:
问题:不断生成视频,点云会越来越多(数百万个点),内存爆炸!
解决方案:智能剔除冗余点
python
# 算法思路
对于新生成的每一帧:
if 该区域在缓存中不可见:
添加所有新点
elif 该区域可见 but 观察角度与现有点的法线夹角>90°:
更新这些点(因为从当前视角看不到原来的点)
else:
跳过(已有足够信息)
效果:减少约40%的存储,同时保持质量
问题:自回归生成的视频片段之间可能有颜色不一致
解决方案:
片段1: [帧0-48]
片段2: [帧24-72] ← 24-48是重叠区域
↓
平均后再去噪,过渡更平滑
挑战:训练需要大量带有相机参数和深度的视频,但现有数据集没有这些标注
解决方案:自动化数据处理流程
输入:任意视频
↓
VGGT估计相机参数和初始深度
↓
MoGE精细化深度估计
↓
用最小二乘法对齐两者
↓
Metric3D统一深度尺度(转换为米制)
↓
输出:带标注的训练数据
数据规模:
在RealEstate10K测试集上的对比(数字越高越好):Voyager在所有指标上都是最优!
直接用生成的RGB-D重建3D场景,Voyager生成的深度比后处理重建更准确!
这是一个综合评估世界生成质量的基准,Voyager达到最高分! 特别是风格一致性(84.89)和主观质量(71.09)都是第一
虽然论文没有专门讨论,但可以推测的潜在局限:
简单总结就是:
Voyager = 视频扩散模型 + 深度融合 + 世界缓存,实现了从单图到可无限探索3D世界的端到端生成
更新时间:2025-10-07
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号