2026年4月29日,英伟达正式发布开放式多模态大模型Nemotron 3 Nano Omni,采用30B-A3B混合专家架构,原生集成音视觉编码器无需额外感知模型,推理效率较传统方案提升9倍,在复杂文档解析、音视频理解等领域表现优异,跻身六大权威评测榜单前列,H Company首席执行官Gautier Cloix称其为智能体技术的重要突破。
过去两年AI智能体的商业化落地始终卡在多模态感知的效率瓶颈——大多数行业方案需要将大语言模型与独立的图像、音频、视频识别模型串联调用,不仅部署成本高,推理延迟更是难以满足实时交互需求,直接限制了智能体在办公、工业检测等场景的规模化应用。
随着AI应用从单一场景向复杂交互场景延伸,行业对多模态模型的要求已经从“能识别”转向“快响应、低成本”。此前多数厂商推出的多模态方案普遍采用“大模型+外挂感知模块”的拼接架构,用户调用时需要完成多次模型间的信号传输与格式转换,单次推理的算力消耗是纯文本模型的3-5倍,且精度往往受限于感知模块的适配效果。
本次英伟达推出的Nemotron 3 Nano Omni最大的革新,就是将视频、音频、图像、文本的推理能力完全整合到同一模型框架中,采用30B-A3B混合专家架构原生集成视觉与音频编码器,完全不需要依赖额外的感知模型支持。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
2 小时前
2026年4月28日,商汤科技正式开源旗下“日日新SenseNova U1”原生理解生成统一多模态大模型。该产品基于商汤2026年3月自主研发的NEO-unify架构打造,突破传统多模态模型视觉、语言模块拼接导致的信息损耗瓶颈,实现单框架内理解、推理、生成能力深度融合,标志着国产多模态AI技术路径实现重要创新。

2 小时前
2026年4月28日,商汤科技正式发布并开源日日新SenseNova U1系列原生多模态模型,该产品基于商汤2026年3月自主研发的NEO-unify架构,摒弃主流拼接式设计,去除视觉编码器与变分自编码器,首次在单一框架下实现多模态理解、推理与生成的深度统一,标志着多模态AI从“集成式”向“原生统一”的核心技术跨越。

3 小时前
2026年4月29日公开的SuperCLUE-VLM最新中文多模态视觉语言模型测评结果显示,字节跳动旗下Doubao-Seed-2.0-Pro-260215以90.66分的总得分位列17款参测国内外模型榜首,超越谷歌Gemini-3.1-Pro-Preview的89.35分。本次测评覆盖基础认知、视...

3 小时前
当地时间2026年4月28日,英伟达正式推出开放式多模态大模型Nemotron3Nano Omni,该产品采用30B-A3B混合专家架构,内置视觉与音频编码器,可同步处理视频、音频、图像、文本四类内容。官方数据显示其吞吐量为同类开放式全向模型的9倍,在六大权威多模态能力排行榜中均位列第一,可大幅降低开发者部署AI应用的成本。

4 小时前
2026年4月SuperCLUE-VLM视觉语言大模型评测报告正式发布,在对全球17款主流多模态产品的深度横评中,字节跳动旗下Doubao-Seed-2.0-Pro-260215以90.66分力压谷歌Gemini-3.1-Pro-Preview登顶总榜,阿里Qwen3.5、商汤SenseNova、智谱GLM等多款国产模型跻身第一梯队,国产阵营综合得分整体反超海外顶尖产品。

9 小时前
近日,芯片厂商英伟达在官方驱动更新博客中低调披露新版GeForce RTX 5070 GPU,该产品针对生成式AI本地运行需求强化Tensor Core性能,较上一代同级别产品AI推理算力提升约35%,可支持7B参数大语言模型本地流畅运行,面向消费级PC用户补齐AI应用硬件短板。

17 小时前
中国科技公司小米近日面向开发者社区开放了MiMo-V2.5系列大模型,该模型采用MIT宽松开源许可协议发布,主打长周期运行AI智能体开发场景,配备100万token的上下文窗口,采用稀疏混合专家(MoE)架构设计,主要服务开发自主编码、工作流智能体的开发者群体,填补了开源领域长运行智能体基座模型的细分空白,引发全球AI开发社区广泛讨论。

20 小时前
2026年4月28日,美图公司旗下AI智能体产品RoboNeo正式接入阿里巴巴ATH创新事业部研发的多模态视频生成模型HappyHorse,结合自身Seedance 2.0技术完成视频创作能力的全面迭代。瑞银发布的行业报告显示,RoboNeo自2025年7月上线后增长迅猛,2026年3月全球环比增长近4倍,曾多次登顶多国应用商店下载榜单。