登录体验完整功能(收藏、点赞、评论等) — 已累计有 9370 人加入

让AI触手可及,让应用激发潜能

谷歌发布Gemini Omni多模态模型 重构全场景AI交互体验

北京时间2026年5月19日,谷歌正式推出Gemini家族最新旗舰多模态模型Gemini Omni,该模型首次实现文本、音频、图像、视频四类信息的并行统一理解处理,跨模态交互流畅度较前代Gemini 2 Pro提升超60%,有望打破当前多模态AI的场景适配瓶颈,为消费级产品和行业解决方案提供全新技术底座。

在今年Google I/O开发者大会的AI专场压轴环节,谷歌技术团队现场放出的实测画面让全场开发者发出了不小的惊叹:测试人员同步播放一段城市街景实拍短视频、说出随机口语提问、上传一张随手拍摄的街景截图,三重不同模态的输入同时送达模型之后,Gemini Omni仅用0.8秒就输出了完全匹配三类信息需求的结构化回答,没有出现任何传统多模态模型常见的延迟卡顿、信息错配问题。

过去两年全球大模型赛道的多模态迭代始终停留在“拼接优化”阶段,绝大多数主流方案的底层逻辑是先通过不同的独立编码器把音频、图像、视频内容全部转换为文本特征,再交给大模型处理。

这种模式的天然缺陷十分明显:只要同时处理的模态数量超过两种,模型的识别准确率就会出现断崖式下跌,跨模态信息脱节的问题更是屡见不鲜——不少用户都遇到过“上传视频问物体,AI只识别到音频里的杂音”的离谱情况,跨模态交互始终没有达到用户期待的流畅度,行业一直在等待原生全模态架构的突破性产品出现。

Gemini Omni是全球首款在预训练阶段就完成四类模态特征统一对齐的大模型产品,完全摒弃了传统的分模块编码拼接逻辑。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯