2026年3月11日谷歌正式推出旗下首个原生多模态嵌入模型Gemini Embedding 2,不同于专注内容生成的Gemini 3系列,该模型可将文本、图像、视频、音频、文档五类数据统一映射至同一向量空间,支持100种语言语义识别,跨模态匹配精度较行业现有方案提升47%,为搜索、内容管理等场景带来全新技术解决方案。
在AI应用体系中,嵌入模型一直是低调的“幕后功臣”——不同于频繁出现在公众视野里的生成式大模型,它负责将各类非结构化数据转化为机器可识别的向量,是搜索、推荐、内容管理等功能的核心底座。过去数年,行业内的嵌入模型始终受困于单模态局限,跨媒体内容理解的误差率长期居高不下,直到谷歌本次的新品发布,才给这一痛点带来了彻底的解决方案。
此前主流嵌入模型大多只适配单一数据类型,文本嵌入模型无法识别图像内容,视频嵌入模型也无法匹配语义相关的文档,若要实现跨模态检索,只能通过多个模型拼接的方案实现,不仅计算成本高,多次转换带来的误差还会让最终匹配精度下降30%以上。这一短板也直接限制了多个场景的体验升级:比如通用搜索引擎无法直接用一张图片搜索语义相关的视频片段,企业内部知识库检索时也难以关联不同格式的同类内容。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录