2026年4月28日,商汤科技正式发布并开源日日新SenseNova U1系列原生多模态模型,该产品基于商汤2026年3月自主研发的NEO-unify架构,摒弃主流拼接式设计,去除视觉编码器与变分自编码器,首次在单一框架下实现多模态理解、推理与生成的深度统一,标志着多模态AI从“集成式”向“原生统一”的核心技术跨越。
过去几年,多模态大模型的商业化落地始终卡在“兼容性”瓶颈上:绝大多数产品采用视觉模块与大语言模型拼接的设计,两种模态的信息转换过程中往往出现15%-20%的语义损耗,既容易出现文生图细节失真、图文理解答非所问等问题,也无法支撑需要实时空间感知、低延迟决策的具身智能场景。
行业调研显示,当前超过80%的多模态应用研发团队都需要为不同场景单独适配视觉、语言模块的接口,额外增加了30%以上的开发成本与推理延迟,行业迫切需要更底层的架构创新打破天花板。
此前主流多模态模型普遍采用“独立模块拼接”的设计思路:视觉信息先通过视觉编码器(VE)转换为特征向量,再输入大语言模型完成语义理解,生成类任务还要额外接入变分自编码器(VAE)完成像素转换。
这种架构虽然研发门槛低,但模态转换过程中的信息损耗难以避免,同时多模块串联也会推高推理延迟,根本无法满足具身智能、自动驾驶等需要毫秒级响应、厘米级空间识别的场景需求,已经成为制约多模态AI能力上限的核心短板。
此次商汤推出的日日新SenseNova U1,核心突破就在于底层采用了NEO-unify架构,彻底摒弃了主流模型普遍使用的拼接式设计,直接去除了视觉编码器(VE)与变分自编码器(VAE)两个独立模块,重构了统一的多模态表征空间。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
9 分钟前
2026年4月29日,英伟达正式发布开放式多模态大模型Nemotron 3 Nano Omni,采用30B-A3B混合专家架构,原生集成音视觉编码器无需额外感知模型,推理效率较传统方案提升9倍,在复杂文档解析、音视频理解等领域表现优异,跻身六大权威评测榜单前列,H Company首席执行官Gautier Cloix称其为智能体技术的重要突破。

1 小时前
2026年4月28日,商汤科技正式开源旗下“日日新SenseNova U1”原生理解生成统一多模态大模型。该产品基于商汤2026年3月自主研发的NEO-unify架构打造,突破传统多模态模型视觉、语言模块拼接导致的信息损耗瓶颈,实现单框架内理解、推理、生成能力深度融合,标志着国产多模态AI技术路径实现重要创新。

2 小时前
2026年4月29日公开的SuperCLUE-VLM最新中文多模态视觉语言模型测评结果显示,字节跳动旗下Doubao-Seed-2.0-Pro-260215以90.66分的总得分位列17款参测国内外模型榜首,超越谷歌Gemini-3.1-Pro-Preview的89.35分。本次测评覆盖基础认知、视...

2 小时前
当地时间2026年4月28日,英伟达正式推出开放式多模态大模型Nemotron3Nano Omni,该产品采用30B-A3B混合专家架构,内置视觉与音频编码器,可同步处理视频、音频、图像、文本四类内容。官方数据显示其吞吐量为同类开放式全向模型的9倍,在六大权威多模态能力排行榜中均位列第一,可大幅降低开发者部署AI应用的成本。

3 小时前
2026年4月SuperCLUE-VLM视觉语言大模型评测报告正式发布,在对全球17款主流多模态产品的深度横评中,字节跳动旗下Doubao-Seed-2.0-Pro-260215以90.66分力压谷歌Gemini-3.1-Pro-Preview登顶总榜,阿里Qwen3.5、商汤SenseNova、智谱GLM等多款国产模型跻身第一梯队,国产阵营综合得分整体反超海外顶尖产品。

19 小时前
2026年4月28日,美图公司旗下AI智能体产品RoboNeo正式接入阿里巴巴ATH创新事业部研发的多模态视频生成模型HappyHorse,结合自身Seedance 2.0技术完成视频创作能力的全面迭代。瑞银发布的行业报告显示,RoboNeo自2025年7月上线后增长迅猛,2026年3月全球环比增长近4倍,曾多次登顶多国应用商店下载榜单。

1 天前
2026年4月,腾讯 Robotics X 实验室与混元团队联合发布并开源了专为机器人具身任务优化的多模态大模型HY-Embodied-0.5-X。该模型推出MoT-2B端侧版与MoE-32B大参数两个版本,基于自研架构优化,强化机器人“感知-决策-执行”能力,在精细操作、空间推理等核心任务上表现突出,旨在推进具身智能机器人在真实场景的落地。

2 天前
2026年4月,小米正式开源旗下视觉-语言-动作(VLA)大模型Xiaomi-Robotics-0的真机后训练全流程,推动全球具身智能技术研发与落地。该模型依托预训练基座,仅用约20小时的任务数据训练,就能让机器人完成耳机精准收纳等高难度操作,实现亚毫米级对位精度。本次开源开放了模型权重、源代码与技术报告,大幅降低了具身智能领域的研发门槛。