商汤联合南洋理工发布NEO-unify：重构多模态，砍掉所有中间编码器

AI创作导航 1 个月前

AI快讯

2026年3月7日，商汤科技联合南洋理工大学发布全新多模态模型架构NEO-unify，这一成果彻底摒弃行业长期依赖的视觉编码器（VE）与变分自编码器（VAE），通过混合变换器（MoT）架构实现原生端到端的视觉语言融合，在2B参数规模下性能远超传统多模态范式，为多模态大模型研发带来颠覆性重构方向。

长期以来，多模态大模型的研发始终被“组件拼凑”的范式束缚——视觉编码器（VE）负责将像素转换为标准化特征，变分自编码器（VAE）处理生成任务的中间表征，这些中间环节不仅不可避免地损耗原始信息，更让模型陷入预训练先验固化、参数规模边际效益递减的双重瓶颈。直到NEO-unify的出现，这一延续多年的研发逻辑被彻底推翻。

在商汤科技与南洋理工大学的联合研发中，NEO-unify最具颠覆性的设计，就是彻底砍掉了所有中间编码器——包括行业依赖已久的VE和VAE。不同于传统多模态模型通过“视觉表征转换-语言对齐-生成解码”的多链路流程，NEO-unify直接以近乎无损的像素和文字作为原生输入，回归AI建模的第一性原理，彻底绕过了视觉表征标准之争带来的技术桎梏。

支撑这一设计的核心是混合变换器（MoT）架构。通过在同一个模型体系内融合视觉与语言的处理逻辑，MoT不仅实现了对视觉内容的深度理解，还打通了“理解-生成”的双向能力：既可以精准完成图文检索、视觉问答等感知任务，也能直接生成高保真的图文内容，真正实现了多模态能力的原生统一。

研发团队透露，NEO-unify在仅2B参数规模下，性能就远超传统多模态范式。这一结果打破了“性能依赖参数规模扩张”的行业惯性——传统多模态模型往往需要更大参数体量才能弥补中间编码器带来的信息损耗，而NEO-unify凭借无编码器设计，在保留高保真细节恢复能力的同时，还显著提升了数据与算力的利用效率。

多模态大模型人工智能 NEO-unify 商汤科技 MoT架构

本文内容来源于公开互联网信息，并包含平台新增内容及用户发布内容，旨在进行知识整理与分享。文中所有信息与观点均仅供参考，不代表任何官方或特定立场，亦不构成任何操作或决策建议，请读者谨慎甄别，详情请见完整免责声明

文心大模型

百度官方推出的产业级知识增强大模型体系

Trellis 2

AI驱动2D图像转3D模型工具

Wan 2.7 AI视频生成器

零门槛AI视频图像生成工具

DisVideoAI

AI视频图像智能创作工具

Musiv AI

AI生成音乐视频与原创配乐

PaprDeck

一键将笔记转为学习闪卡的工具

ClipMake

AI智能剪辑长视频转短视频工具

Lyria 3

AI生成免版税原创歌曲