读论文学AI：混元3D世界生成开源模型

我们今天要学习的论文是来自腾讯的混元3D世界生成开源模型，该论文想要解决可探索的虚拟世界。

https://3d-models.hunyuan.tencent.com/world/
https://huggingface.co/tencent/HunyuanWorld-Voyager
https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager

想象这样的场景：

游戏开发：美术师要花几个月建模一个游戏场景
电影制作：需要大量3D资产来渲染虚拟场景
机器人训练：需要各种虚拟环境来训练算法
VR看房：从一张照片生成整个房子的虚拟游览

传统做法：全靠人工建模，耗时、昂贵、需要专业技能

理想目标：输入一张图或一句话，AI自动生成可以自由探索的3D世界

技术的演进历史如下：

第一代：3D生成模型（2023-2024）

代表：NeRF、Gaussian Splatting、Point-E、Shap-E
能力：从多张图片重建3D物体
✅ 生成的3D模型质量高
❌ 需要很多视角的输入图片
❌ 难以扩展到大型场景
❌ 训练数据稀缺（高质量3D数据很少）

比喻：像是拼图游戏，需要很多碎片才能拼出完整图案

第二代：视频生成模型（2024）

代表：Sora、Runway Gen-3、Pika
突破：可以生成看起来很真实的视频
✅ 视觉效果惊艳
✅ 训练数据丰富（网上大量视频）
❌ 空间不一致：不同帧的几何对不上
❌ 只有2D视频：无法提取3D信息

问题示例：

帧1: 看到一个门在左边
帧30: 门突然消失了
帧60: 门又出现在右边

→ 因为模型没有真正的"3D理解"

第三代：相机可控的视频生成（2024末-2025初）

代表：ViewCrafter、SEVA、See3D、FlexWorld
创新：可以指定相机路径来生成视频
输入：一张图 + "往左转30度"
输出：相应视角的视频

仍存在的问题：

视觉幻觉：投影的RGB图在遮挡处会出错
长距离不一致：生成长视频时前后矛盾
需要后处理：要用SfM、MVS等复杂算法重建3D

腾讯混元团队2025年初发布了HunyuanWorld 1.0，能生成可探索的3D世界，但有两个局限： 遮挡区域处理不好，探索范围有限。Voyager就是为了解决这些问题而生的1.5/2.0版本

一、核心问题和创新点

要解决的问题

想象一下,你有一张房间的照片,希望能够"走进"这个房间,四处看看后面、侧面是什么样子。传统方法有几个痛点:

空间一致性差 - 生成的不同视角画面对不上,看起来像是不同的房间
视觉幻觉 - 在被遮挡的区域容易产生错误的内容
需要后处理重建3D - 生成视频后还需要复杂的步骤才能得到3D模型

Voyager的创新

这篇论文提出的Voyager框架可以:

同时生成RGB彩色图和深度图(RGB-D),而不只是彩色视频
保持全局一致性 - 通过"世界缓存"机制记住已经生成的内容
支持长距离探索 - 可以无限扩展世界
端到端生成3D - 不需要额外的重建步骤

️ 二、整体架构

Voyager的核心是一个视频扩散模型(Video Diffusion Model),整体流程是:

输入图片 + 相机轨迹 
    ↓
深度估计 + 构建初始点云
    ↓
将点云投影到目标视角(得到部分RGB-D)
    ↓
视频扩散模型补全缺失区域
    ↓
更新世界缓存(点云)
    ↓
循环:继续生成下一段视频

三、核心技术详解

1.几何注入的帧条件 (Geometry-Injected Frame Condition)

通俗理解:把已有的3D信息"投影"到新视角作为提示

技术细节:

传统方法只用部分RGB图作为条件,但这在复杂遮挡场景会产生视觉伪影(见论文图2)
Voyager额外使用部分深度图作为几何条件

为什么深度图更好?

RGB图在遮挡处会"猜错"颜色
深度图准确表示物体的前后关系,不会产生错误的视觉信息

具体做法:

# 伪代码示意
输入图片 I0 → 估计深度图 D0
用D0构建点云 p0
对于新视角k:
    渲染mask Mk = render(p0, camera_k)  # 哪些区域可见
    部分RGB: Î_k = I_k * Mk  # 保留可见区域
    部分深度: D̂_k = D_k * Mk

2.世界一致性视频扩散 (World-Consistent Video Diffusion)

这是模型的核心,有两个关键设计:

(1)深度融合生成 (Depth-Fused Generation)

通俗理解:不是先生成RGB再估计深度,而是同时生成RGB和深度

技术实现:

将RGB图和深度图在高度维度拼接: [RGB, 占位符, Depth]
这样RGB和深度可以在像素级互相"交流"信息
占位符(Φ)帮助模型区分这两种内容

原始做法:只在通道维度concat → 空间信息交互弱
Voyager: 在空间维度concat → 像素级交互,几何更一致

(2)基于上下文的控制增强 (Context-Based Control)

通俗理解:在每个Transformer层都注入条件信息,而不只是在输入时注入一次

技术细节:

复制DiT(Diffusion Transformer)的第一个block作为"控制块"
控制块处理条件信息,输出通过零初始化的线性层加到每个DiT层
这样每层都能"看到"几何条件,控制更精准

3.长距离世界探索 (Long-Range World Exploration)

视频模型一次只能生成几十帧,如何实现无限探索?Voyager用了两个技巧:

(1)世界缓存与点云剔除 (World Caching with Point Culling)

问题:不断生成视频,点云会越来越多(数百万个点),内存爆炸!

解决方案:智能剔除冗余点

python

# 算法思路
对于新生成的每一帧:
    if 该区域在缓存中不可见:
        添加所有新点
    elif 该区域可见 but 观察角度与现有点的法线夹角>90°:
        更新这些点(因为从当前视角看不到原来的点)
    else:
        跳过(已有足够信息)

效果:减少约40%的存储,同时保持质量

(2)平滑视频采样 (Smooth Video Sampling)

问题:自回归生成的视频片段之间可能有颜色不一致

解决方案:

重叠采样:相邻片段有一半重叠
初始化对齐:新片段的重叠区域用上一片段的结果初始化
平均+微调:重叠区域取平均,再做几步去噪

片段1: [帧0-48]
片段2:      [帧24-72]  ← 24-48是重叠区域
          ↓
      平均后再去噪,过渡更平滑

4.可扩展的数据引擎 (Scalable Data Engine)

挑战:训练需要大量带有相机参数和深度的视频,但现有数据集没有这些标注

解决方案:自动化数据处理流程

输入:任意视频
  ↓
VGGT估计相机参数和初始深度
  ↓
MoGE精细化深度估计
  ↓
用最小二乘法对齐两者
  ↓
Metric3D统一深度尺度(转换为米制)
  ↓
输出:带标注的训练数据

数据规模:

RealEstate10K: 74,766个视频(室内外房地产)
DL3DV: 3,000高质量视频(18,000片段)
Unreal Engine渲染: 10,000+合成视频
总计: 超过100,000个训练样本

四、实验结果

1.视频生成质量

在RealEstate10K测试集上的对比(数字越高越好):Voyager在所有指标上都是最优!

2.3D重建质量

直接用生成的RGB-D重建3D场景，Voyager生成的深度比后处理重建更准确!

3.WorldScore基准测试

这是一个综合评估世界生成质量的基准，Voyager达到最高分! 特别是风格一致性(84.89)和主观质量(71.09)都是第一

五、应用场景

1.图片生成3D

输入一张物体图片,生成360°可旋转的3D模型
对比Trellis、Rodin等3D生成模型,Voyager纹理更细腻、多物体场景更准确

2.视频风格迁移

保持原视频的空间结构(深度),替换成不同风格
例如:白天场景→夜晚场景,保持建筑物位置不变

3.单目深度估计

自然副产品:可以估计视频的深度图
用户调研显示,特别是室外场景,Voyager的深度比VGGT更合理(68% vs 32%)

4.长距离世界探索

可以生成超长视频(多个clip拼接)
即使物体移出视野再返回,仍能保持一致性

六、技术亮点总结

首个联合生成RGB-D的可控视频模型 别人只生成RGB,需要后处理重建深度 Voyager直接输出对齐的深度,更准确
空间维度融合 > 通道维度融合 创新的拼接方式,让RGB和深度在像素级交互
世界缓存 = 无限探索的关键 点云作为全局记忆,支持任意长度生成智能剔除策略平衡质量和效率
可扩展的数据流水线 自动标注任意视频,无需手工3D标注统一深度尺度,训练更稳定

七、局限性和思考

虽然论文没有专门讨论,但可以推测的潜在局限:

计算成本:单卡推理60GB显存,4卡并行4分钟/段,对硬件要求高
动态场景:论文聚焦静态场景,对移动的物体(行人、车辆)支持不明确
复杂光照:光照变化剧烈的场景(如日出日落)可能难以保持一致性

简单总结就是:

Voyager = 视频扩散模型 + 深度融合 + 世界缓存,实现了从单图到可无限探索3D世界的端到端生成

展开阅读全文

更新时间：2025-10-07

标签：科技模型论文世界深度视频场景区域维度片段缓存物体

1 2 3 4 5

事关癌症，科学家有重要发现！

据西班牙《国家报》网站9月25日报道，癌症的阴影正在蔓延：它是全球第一大死亡原因，其发病率呈激增态势。根据9月24日发表在英国《柳叶刀》周刊上的一项研究，2023年约有1850万人被

大唐石城子100万千瓦“光热+光伏”一体化项目补给水系统正式投运

太阳能光热产业技术创新战略联盟2025-10-05 16:34:19来源：中国大唐集团科学技术研究总院国庆中秋假期期间，在戈壁深处的大唐石城子100万千瓦“光热+光伏”一体化清洁能源示范

“三天一层楼”的深圳，竟用机器人守护生活，它藏了多少黑科技？

深圳以"三天一层楼"的建设速度闻名，拥有2.5万家高新技术企业和持续增长的经济数据。但在快速发展之外，这座城市同样注重将科技创新与人文关怀相结合。深圳正将它的科技硬实力，

用微信收付款的要当心！这个功能一定要开启

昨天晚上，微博热搜突然冒出一条#微信里的钱包一定要上锁#，很多人看了都愣住了，原来微信早就藏着个安全锁功能，能挡住所有支付入口，这个提醒不是什么专家说的，也不是技术大牛发的，就

微软CTO称将启动自研芯片，降低对英伟达、AMD依赖

微软首席技术官凯文・斯科特的一席表态，预示着科技巨头们正在芯片领域掀起一场摆脱依赖的静默革命! 失业君小编 | 文Nothing Ahead | 图“我们对芯片的选择并不拘泥于特定品

微信更新：这些功能进行优化

最近有网友反馈称，iOS 版微信撤回消息有了新变化，比如长按两分钟内发送的信息点击「撤回」后，现在可以选择「撤回该条消息」和「撤回本次发送的全部消息」。其中「撤回该条消息

国产大模型紫东太初4.0发布！

近日，由中国科学院自动化研究所联合武汉人工智能研究院研发的紫东太初4.0多模态推理大模型发布。自2021年首次推出以来，紫东太初已完成4次迭代，实现了从“纯文本思考”“简单操

中国嫦娥六号带回的月球背面岩石揭示惊人秘密

中国嫦娥六号任务带回的月球背面岩石样本正在重新定义人类对这颗卫星内部结构的认知。伦敦大学学院和北京大学联合研究团队在《自然地球科学》杂志发表的最新研究表明，月球背

中秋丨月引潮汐千万载，智启新程向未来

明月出天山，苍茫云海间潮汐随月起，光影逐浪生月引潮汐千万载智启新程向未来祝大家中秋快乐花好月圆人团圆

科技创新助推产业升级，小鸭精工再获两项实用新型专利

近日，小鸭精工在技术研发领域再传捷报，《一种旋转式滚型侧导机》和《一种滚型机》获实用新型专利，为轮毂制造提质增效带来新方案。今年以来，小鸭精工已累计获得7项发明专利、12

“客服”主动退款？当心是陷阱！

国庆中秋黄金周，各大电商平台“满减”“折扣”“秒杀”活动轮番上阵，许多消费者开启“网购血拼模式”。然而，在这场消费狂欢背后，不法分子也盯上了“商机”，以 “国庆促销退款”

年入558亿，中国便利店之王，竟然是它

提起便利店大家脑海中出现的第一个名字是什么？罗森、7-11还是全家，可能每个人的答案都不一样。但如果是广东的朋友，那么答案一定是#美宜佳。 ● 美宜佳便利店。最华人摄

中美卫星面临碰撞风险，我航天局联系美国宇航局：你别动，我机动

太空中的卫星数量正越来越多，相撞的几率也变得越来越大，而卫星数量最多的两个国家正是美国和中国，所以这两个国家的卫星也最有可能相撞，这不，一个较大的撞击风险已经出现了，如何解

我们是否应该担心AI会制造致命的生物武器？

人工智能正在重新定义生命科学的边界，从蛋白质设计到病毒改造，AI工具的强大能力为医学进步带来前所未有的机遇，但同时也引发了关于生物武器制造的深层担忧。当OpenAI承认其最新

手机屏幕秒变3D窗口！前Meta工程师凭摄像头实现黑科技

当你倾斜手机，屏幕里的《汽船威利号》动画仿佛“跳出屏幕”，锚定在现实房间里——这不是科幻电影的场景，而是前Meta工程师丹尼尔·哈比卜（Daniel Habib）的最新发明。他创办的Tr

上滑加载更多 ↓