登录体验完整功能(收藏、点赞、评论等) — 已累计有 12555 人加入

微软Bing开源Harrier多语言嵌入模型 支持超百种语言

详情页推荐

2026年4月,微软Bing团队正式开源多语言嵌入模型Harrier,该模型基于超20亿真实训练示例及GPT-5合成数据训练,搭载32000词元上下文窗口,27亿参数版本在MTEB v2基准测试中表现优异,支持超100种语言。目前三款不同参数规格的模型已在Hugging Face以MIT许可发布,可适配不同硬件环境的开发需求。

嵌入模型作为大语言模型应用的核心基础设施之一,其语义匹配精度、语言覆盖范围直接决定了RAG系统、智能搜索、内容分类等下游任务的表现。但长期以来,开源领域的高性能多语言嵌入模型始终存在供给缺口:要么仅支持主流语种,小语种效果落差明显;要么参数规模过大,难以在普通硬件上部署落地。

嵌入模型的核心作用是将自然语言转化为机器可识别的向量表示,是智能搜索、RAG知识库、内容分类、跨语言信息匹配等场景的核心组件。随着跨境AI应用需求爆发,开发者对多语言嵌入模型的精度、语言覆盖范围、部署灵活性的要求持续提升,但此前开源市场的主流方案普遍存在小语种效果差、上下文窗口短、硬件适配性弱等痛点。

此次开源的Harrier模型针对性解决了上述痛点,其训练数据集包含**超20亿条真实语料示例**,同时引入GPT-5生成的多语言合成数据补全小语种语料缺口,大幅提升了低资源语言的语义匹配精度。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。