登录体验完整功能(收藏、点赞、评论等)

谷歌发布原生多模态嵌入模型Gemini Embedding 2 突破跨媒体理解壁垒

2026年3月11日谷歌正式推出旗下首个原生多模态嵌入模型Gemini Embedding 2,不同于专注内容生成的Gemini 3系列,该模型可将文本、图像、视频、音频、文档五类数据统一映射至同一向量空间,支持100种语言语义识别,跨模态匹配精度较行业现有方案提升47%,为搜索、内容管理等场景带来全新技术解决方案。

在AI应用体系中,嵌入模型一直是低调的“幕后功臣”——不同于频繁出现在公众视野里的生成式大模型,它负责将各类非结构化数据转化为机器可识别的向量,是搜索、推荐、内容管理等功能的核心底座。过去数年,行业内的嵌入模型始终受困于单模态局限,跨媒体内容理解的误差率长期居高不下,直到谷歌本次的新品发布,才给这一痛点带来了彻底的解决方案。

此前主流嵌入模型大多只适配单一数据类型,文本嵌入模型无法识别图像内容,视频嵌入模型也无法匹配语义相关的文档,若要实现跨模态检索,只能通过多个模型拼接的方案实现,不仅计算成本高,多次转换带来的误差还会让最终匹配精度下降30%以上。这一短板也直接限制了多个场景的体验升级:比如通用搜索引擎无法直接用一张图片搜索语义相关的视频片段,企业内部知识库检索时也难以关联不同格式的同类内容。

本次发布的Gemini Embedding 2是谷歌首个原生训练的多模态嵌入模型,核心突破在于实现了五类异构数据的统一向量空间映射——无需拆分调用多个单模态模型,就可以直接处理文本、PNG/JPEG格式图像、最长120秒的MP4/MOV视频、原生音频文件以及最多6页的PDF文档,将所有内容的语义特征转化为同一坐标系下的向量。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创