无需编解码器，NEO-unify如何打造原生视觉语言理解与生成原创

今天，商汤科技发布一篇最新技术博客 NEO-unify: 原生架构打造端到端多模态理解与生成统一模型（NEO-unify: Building Native Multimodal Unified Models End to End）

这篇博客深入解读NEO-unify：一项旨在从底层统一多模态理解与生成的端到端原生架构。

当前，多模态模型普遍采用“视觉编码器（VE）用于理解，变分自编码器（VAE）用于生成”的组合式设计。这套范式虽行之有效，却也内在割裂了感知与创造，常面临模块协同与效率权衡的挑战。

我们能否更进一步，让AI像人一样，直接从最原始的像素和文字中，统一地进行学习、理解与生成？这正是NEO-unify尝试回答的根本问题。它摒弃了传统的VE与VAE，首次构建了一个真正的端到端原生统一模型，在同一个架构内直接处理像素与文本，并在此基础上协同完成理解与生成任务。初步研究成果令人振奋，该设计在保持强大语义理解与细节恢复能力的同时，显著提升了训练与计算效率。

这项技术将如何为生成式AI打开新的想象？让我们一同展开探讨。

《NEO-unify：原生架构打造端到端多模态理解与生成统一模型》

英文博客地址：

https://huggingface.co/blog/sensenova/neo-unify

中文博客地址：

https://www.sensetime.com/cn/news-detail/51170543?categoryId=72

当前多模态智能架构困境

长期以来，多模态研究已形成一种默认范式：视觉编码器（Vision Encoder, VE）负责感知与理解，而变分自编码器（Variational Autoencoder, VAE）则用于内容生成。近期的一些工作尝试构建共享编码器，但这种折衷往往引入新的结构性设计权衡。

由此回到第一性原理：构建一体化模型直接处理原生输入，即像素本身与文字本身。商汤科技联合南洋理工大学，提出一种全新的架构范式：NEO-unify（preview），一个原生、统一、端到端的多模态模型架构。它不仅越过了当前视觉表征的争论，也摆脱了预训练先验和规模定律瓶颈的限制。最关键的是：不需要 VE，也不需要 VAE。

我们正扩大规模、持续迭代。更多模型与开源成果，将很快与大家见面。

NEO-unify原生一体化架构新范式

NEO-unify 第一次迈向真正的端到端统一框架，能够直接从近乎无损的信息输入中学习，并由模型自身塑造内部表征空间。首先，引入近似无损的视觉接口，用于统一图像的输入与输出表示；其次，采用原生混合Transformer（Mixture-of-Transformer，MoT）架构，使理解与生成能够在同一体系中协同进行；最终，通过统一学习框架实现跨模态训练：文本采用自回归交叉熵目标，视觉通过像素流匹配进行优化。

模型效果

1. 定量结果分析

2. 生图效果展示

技术发现

1. 无编码器设计能够同时保留抽象语义与细粒度表征

[图像重建任务]

我们先前的工作 NEO（Diao et al., ICLR 2026）表明，原生端到端模型同样能够学习到丰富的语义表征。在此基础上，我们进一步观察到一个有趣的现象：即使在冻结理解分支的情况下，独立的生成分支仍然能够从表示中抽取并恢复细粒度的视觉细节。

基于这一发现，我们训练了 NEO-unify（2B）。在初步 9 万步预训练后，模型在 MS COCO 2017 上取得 31.56 PSNR 和 0.85 SSIM，而 Flux VAE 的对应指标为 32.65 和 0.91。这一结果表明，即使不依赖预训练 VE 或 VAE，近似无损的原生输入仍能够同时支持高质量的语义理解与像素级细节保真。

域外图像重建（2B NEO-unify，理解分支冻结）

[图像编辑任务]

据此，我们进一步开展探索：NEO-unify 将所有全模态条件信息统一输入到理解分支，而生成分支仅负责生成新的图像。

即使在冻结理解分支的情况下，NEO-unify（2B） 仍展现出强大的图像编辑能力，同时显著减少了输入图像令牌的数量。在使用开源生成与图像编辑数据集并进行初步 6 万步混合训练后，模型在 ImgEdit 基准上取得 3.32 的成绩，且理解分支在整个训练过程中保持冻结。

小规模数据验证（2B NEO-unify，理解分支冻结）

ImgEdit提示词编辑（2B NEO-unify，理解分支冻结）

2. 无编码器架构与 MoT 主干高度协同大幅降低内在冲突

借助预训练的理解分支与生成分支，NEO-unify 使用相同的中期训练（MT）与监督微调（SFT）数据进行联合训练。即使在较低的数据比例和损失权重下，理解能力依然保持稳定，而生成能力则收敛很快。二者在 MoT 主干中协同提升，整体冲突极小。

3. 无编码器架构，展现更高数据训练效率

此外，我们首先进行 web-scale 预训练，随后在多样且高质量的数据语料上依次进行中期训练（MT）和监督微调（SFT）。与 Bagel 模型相比，NEO-unify 展现出更高的数据训练效率，在使用更少训练 token 的情况下取得了更优的性能。

未来展望

这不仅仅是一种模型架构探索，更是迈向下一代智能形态的一步：

• 感知与生成交织的闭环

• 全模态推理

• 视觉推理

• 空间智能

• 世界模型

• …

一条新的路线图正在展开：模型不再在模态之间进行转换，而是能够原生地跨模态思考。多模态 AI 不再只是连接不同系统，而是构建一个从未割裂的统一智能体，并让所需能力从其内部自然涌现。

展开阅读全文

更新时间：2026-03-07

标签：科技视觉语言编解码器模型架构分支编码器范式表征语义数据像素

1 2 3 4 5

无需编解码器，NEO-unify如何打造原生视觉语言理解与生成原创

8.37亿AI大单，百度拿下

美客多政策新规，收费方式变成232种

巾帼绽芳华书香润初心——鄂尔多斯市交通运输综合行政执法支队乌审旗大队举办“三八”妇女节主题活动

挂中国旗畅行？伊朗突然改口！一箭三雕，就是要让美以面子搁不住

一艘也不能过，伊朗关闭霍尔木兹海峡，中国3亿吨海湾原油遭断供?

5年消失6000个家！化妆品专柜“集体逃离”商场一楼

老房子又要吃香了？明确定调：从2026年起业主要发财了

万万没想到！两会最火提案不是医疗和就业，而是霍启刚的这一举动

头发是气血的 “晴雨表”，越掉越虚！6 个防脱方法，坚持就有用

【健康科普】科学防急性上呼吸道感染

长寿的女性，下半身大多有5个表现！建议看看，哪怕占一个，说明身体都不错

谷爱凌太自律！谷爱凌从巴黎飞回美国洛杉矶，凌晨5点半开始晨跑

湖人不敌掘金!与三巨头无关,里夫斯牺牲不小,老詹破尘封37年纪录

还是出事了？全红婵老家活动仅1天，全家走上大衣哥那条路

5-0！女足亚洲杯诞生最大惨案，8强定3席，中国队升头名条件曝光

新款极氪009二季度上市升级900V架构与Thor-U芯片

遭准绝杀！火箭113-115勇士！谁是本场输球罪人？数据不会说

又被当肉鸡了？教你关掉Chrome上的轻量大模型！

赴AWE厨电美食节之约，东菱以科技点亮烟火日常

不止是科技革命！马斯克预言：2026人类大洗牌，这类人或先被

登哥来骑士这波太香了！8 胜 1 负背后，老炮价值真不是数

2026男士防脱洗发水实测：宁山堂草本突围，儒漫凭科技封神

小米手机版“龙虾”开启推送，新增基于 MiMo 大模型构建

WBG 3-1 力克AL，JieJie黑科技制胜，狼人LPL首登场

火箭爆冷不敌勇士,乌度卡被两人拿捏,看数据谁是最大败