北京时间2026年5月19日,谷歌正式推出Gemini家族最新旗舰多模态模型Gemini Omni,该模型首次实现文本、音频、图像、视频四类信息的并行统一理解处理,跨模态交互流畅度较前代Gemini 2 Pro提升超60%,有望打破当前多模态AI的场景适配瓶颈,为消费级产品和行业解决方案提供全新技术底座。
在今年Google I/O开发者大会的AI专场压轴环节,谷歌技术团队现场放出的实测画面让全场开发者发出了不小的惊叹:测试人员同步播放一段城市街景实拍短视频、说出随机口语提问、上传一张随手拍摄的街景截图,三重不同模态的输入同时送达模型之后,Gemini Omni仅用0.8秒就输出了完全匹配三类信息需求的结构化回答,没有出现任何传统多模态模型常见的延迟卡顿、信息错配问题。
过去两年全球大模型赛道的多模态迭代始终停留在“拼接优化”阶段,绝大多数主流方案的底层逻辑是先通过不同的独立编码器把音频、图像、视频内容全部转换为文本特征,再交给大模型处理。
这种模式的天然缺陷十分明显:只要同时处理的模态数量超过两种,模型的识别准确率就会出现断崖式下跌,跨模态信息脱节的问题更是屡见不鲜——不少用户都遇到过“上传视频问物体,AI只识别到音频里的杂音”的离谱情况,跨模态交互始终没有达到用户期待的流畅度,行业一直在等待原生全模态架构的突破性产品出现。
Gemini Omni是全球首款在预训练阶段就完成四类模态特征统一对齐的大模型产品,完全摒弃了传统的分模块编码拼接逻辑。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
30 秒前
本次谷歌正式发布的全新Gemini Spark AI代理产品,是其在消费级智能体领域的最新落地成果,这款AI代理可支持跨12类生活服务场景的自主调度,无需用户逐步骤确认就能完成从线上日程协调、服务预约到线下事务代跑的全链路执行,打破了此前对话式AI仅能提供信息参考的固有局限。

2 分钟前
近日谷歌正式官宣基于Gemini大模型打造的新一代智能电视交互方案,该方案将多模态语义理解能力植入遥控终端,搭配全新指针识别控制系统,可将传统电视操作的平均步骤压缩72%,用户无需逐层翻找菜单,通过自然语言+指向动作就能完成全场景操控,有望彻底淘汰传统多按键实体遥控器,为家庭智能客厅交互开辟全新方向。

4 分钟前
本次资讯聚焦Google最新推出的全模态通用生成工具Gemini Omni,该产品整合新一代Gemini大模型的多模态能力覆盖图文、音视频全品类内容生产环节,可替代绝大多数中小型创作工作室的标准化工作流程,目前已有超2000家内容制作团队提交内测申请,将直接改写当前AI创作赛道的竞争格局。

7 分钟前
近日谷歌正式官宣将在其全球搜索引擎的图片检索模块上线全新AI生成内容溯源标注功能,依托Google自研的Content Credentials元数据技术,用户点击对应标注即可查看图片的生成工具、生成时间等完整信息,应对当前全网AI生成图片占比已突破40%带来的内容真伪辨别难题,为全网内容透明化树立行业参照。

8 分钟前
谷歌在2026年I/O开发者大会上正式发布全新音频驱动智能眼镜产品,该产品跳出此前AR眼镜依赖视觉显示的传统路径,深度整合Gemini大模型生态与谷歌全栈服务能力,主打全语音交互完成各类操作。业内认为该产品对标Meta近年推进的轻量化穿戴路线,有望在高速增长的AI穿戴市场打出差异化优势。

10 分钟前
近日谷歌正式宣布对旗下核心AI服务Gemini的全订阅体系完成重大调整,新增定价100美元/年的中高端专属档位,所有现有订阅方案同步下调定价,同时为不同层级用户开放此前仅面向内部测试的数十项新特性,覆盖网页、移动端及谷歌全硬件生态,进一步对标ChatGPT、Copilot Pro等头部AI订阅产品。

12 分钟前
近日谷歌旗下AI开发平台Google AI Studio完成重大功能迭代,依托Gemini大模型的原生适配能力,零编程基础用户无需编写任何代码,仅通过自然语言描述就能生成可直接部署运行的原生Android应用。该功能上线首周公开测试阶段,参与体验的用户数已经突破12万,大幅拉低了移动应用开发的准入门槛。

14 分钟前
近日美国陪审团快速驳回埃隆·马斯克针对OpenAI联合创始人及合作伙伴微软提起的诉讼,此前马斯克指控山姆·奥特曼窃取原本定位非盈利属性的OpenAI将其转为商业化实体。庭审披露的大量内部文件显示,马斯克早年执掌机构期间,本身就提出过将OpenAI商业化变现、引入科技巨头资源的相似规划,这起耗时近3年的行业标志性诉讼最终以马斯克败诉告终。