登录体验完整功能(收藏、点赞、评论等) —

让AI触手可及,让应用激发潜能

商汤开源日日新SenseNova U1 原生多模态架构实现范式跨越

2026年4月28日,商汤科技正式发布并开源日日新SenseNova U1系列原生多模态模型,该产品基于商汤2026年3月自主研发的NEO-unify架构,摒弃主流拼接式设计,去除视觉编码器与变分自编码器,首次在单一框架下实现多模态理解、推理与生成的深度统一,标志着多模态AI从“集成式”向“原生统一”的核心技术跨越。

过去几年,多模态大模型的商业化落地始终卡在“兼容性”瓶颈上:绝大多数产品采用视觉模块与大语言模型拼接的设计,两种模态的信息转换过程中往往出现15%-20%的语义损耗,既容易出现文生图细节失真、图文理解答非所问等问题,也无法支撑需要实时空间感知、低延迟决策的具身智能场景。

行业调研显示,当前超过80%的多模态应用研发团队都需要为不同场景单独适配视觉、语言模块的接口,额外增加了30%以上的开发成本与推理延迟,行业迫切需要更底层的架构创新打破天花板。

此前主流多模态模型普遍采用“独立模块拼接”的设计思路:视觉信息先通过视觉编码器(VE)转换为特征向量,再输入大语言模型完成语义理解,生成类任务还要额外接入变分自编码器(VAE)完成像素转换。

这种架构虽然研发门槛低,但模态转换过程中的信息损耗难以避免,同时多模块串联也会推高推理延迟,根本无法满足具身智能、自动驾驶等需要毫秒级响应、厘米级空间识别的场景需求,已经成为制约多模态AI能力上限的核心短板。

此次商汤推出的日日新SenseNova U1,核心突破就在于底层采用了NEO-unify架构,彻底摒弃了主流模型普遍使用的拼接式设计,直接去除了视觉编码器(VE)与变分自编码器(VAE)两个独立模块,重构了统一的多模态表征空间。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯
AI小创