谷歌发布原生多模态嵌入模型Gemini Embedding 2 突破跨媒体理解壁垒

AI创作导航 27 天前

AI快讯

2026年3月11日谷歌正式推出旗下首个原生多模态嵌入模型Gemini Embedding 2，不同于专注内容生成的Gemini 3系列，该模型可将文本、图像、视频、音频、文档五类数据统一映射至同一向量空间，支持100种语言语义识别，跨模态匹配精度较行业现有方案提升47%，为搜索、内容管理等场景带来全新技术解决方案。

在AI应用体系中，嵌入模型一直是低调的“幕后功臣”——不同于频繁出现在公众视野里的生成式大模型，它负责将各类非结构化数据转化为机器可识别的向量，是搜索、推荐、内容管理等功能的核心底座。过去数年，行业内的嵌入模型始终受困于单模态局限，跨媒体内容理解的误差率长期居高不下，直到谷歌本次的新品发布，才给这一痛点带来了彻底的解决方案。

此前主流嵌入模型大多只适配单一数据类型，文本嵌入模型无法识别图像内容，视频嵌入模型也无法匹配语义相关的文档，若要实现跨模态检索，只能通过多个模型拼接的方案实现，不仅计算成本高，多次转换带来的误差还会让最终匹配精度下降30%以上。这一短板也直接限制了多个场景的体验升级：比如通用搜索引擎无法直接用一张图片搜索语义相关的视频片段，企业内部知识库检索时也难以关联不同格式的同类内容。

本次发布的Gemini Embedding 2是谷歌首个原生训练的多模态嵌入模型，核心突破在于实现了五类异构数据的统一向量空间映射——无需拆分调用多个单模态模型，就可以直接处理文本、PNG/JPEG格式图像、最长120秒的MP4/MOV视频、原生音频文件以及最多6页的PDF文档，将所有内容的语义特征转化为同一坐标系下的向量。

人工智能 Gemini 2 谷歌 Embedding 多模态嵌入模型跨模态内容理解

本文内容来源于公开互联网信息，并包含平台新增内容及用户发布内容，旨在进行知识整理与分享。文中所有信息与观点均仅供参考，不代表任何官方或特定立场，亦不构成任何操作或决策建议，请读者谨慎甄别，详情请见完整免责声明