2026年3月7日,商汤科技联合南洋理工大学发布全新多模态模型架构NEO-unify,这一成果彻底摒弃行业长期依赖的视觉编码器(VE)与变分自编码器(VAE),通过混合变换器(MoT)架构实现原生端到端的视觉语言融合,在2B参数规模下性能远超传统多模态范式,为多模态大模型研发带来颠覆性重构方向。
长期以来,多模态大模型的研发始终被“组件拼凑”的范式束缚——视觉编码器(VE)负责将像素转换为标准化特征,变分自编码器(VAE)处理生成任务的中间表征,这些中间环节不仅不可避免地损耗原始信息,更让模型陷入预训练先验固化、参数规模边际效益递减的双重瓶颈。直到NEO-unify的出现,这一延续多年的研发逻辑被彻底推翻。
在商汤科技与南洋理工大学的联合研发中,NEO-unify最具颠覆性的设计,就是彻底砍掉了所有中间编码器——包括行业依赖已久的VE和VAE。不同于传统多模态模型通过“视觉表征转换-语言对齐-生成解码”的多链路流程,NEO-unify直接以近乎无损的像素和文字作为原生输入,回归AI建模的第一性原理,彻底绕过了视觉表征标准之争带来的技术桎梏。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录