2026年4月,微软Bing团队正式开源多语言嵌入模型Harrier,该模型基于超20亿真实训练示例及GPT-5合成数据训练,搭载32000词元上下文窗口,27亿参数版本在MTEB v2基准测试中表现优异,支持超100种语言。目前三款不同参数规格的模型已在Hugging Face以MIT许可发布,可适配不同硬件环境的开发需求。
嵌入模型作为大语言模型应用的核心基础设施之一,其语义匹配精度、语言覆盖范围直接决定了RAG系统、智能搜索、内容分类等下游任务的表现。但长期以来,开源领域的高性能多语言嵌入模型始终存在供给缺口:要么仅支持主流语种,小语种效果落差明显;要么参数规模过大,难以在普通硬件上部署落地。
嵌入模型的核心作用是将自然语言转化为机器可识别的向量表示,是智能搜索、RAG知识库、内容分类、跨语言信息匹配等场景的核心组件。随着跨境AI应用需求爆发,开发者对多语言嵌入模型的精度、语言覆盖范围、部署灵活性的要求持续提升,但此前开源市场的主流方案普遍存在小语种效果差、上下文窗口短、硬件适配性弱等痛点。
此次开源的Harrier模型针对性解决了上述痛点,其训练数据集包含**超20亿条真实语料示例**,同时引入GPT-5生成的多语言合成数据补全小语种语料缺口,大幅提升了低资源语言的语义匹配精度。
模型搭载**32000词元的上下文窗口**,支持长文档的整体向量嵌入,相比行业常见的8k、16k窗口方案,更适合长文本检索、多文档语义匹配等复杂任务。在覆盖检索、分类、聚类等10余类任务的**MTEB v2基准测试**中,Harrier的多语言任务平均得分领先同参数级别开源模型,表现亮眼。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
6 分钟前
近期,科技巨头微软针对旗下Copilot AI助手的用户使用现状对外发声,纠正市场对该产品的定位偏差。微软最新内部数据显示,目前超62%的普通用户仅使用Copilot完成聊天休闲、创意整活等娱乐类需求,对其生产力属性认知不足。微软计划在接下来三个月推出一系列面向办公、创作场景的功能更新,强化Copilot的生产工具定位,覆盖全生态近2亿月活用户。

9 分钟前
2026年4月,Meta发布由前Scale AI负责人Alexandr Wang团队打造的全新生成式AI模型Muse Spark,该模型推出后迅速拉动旗下Meta AI应用在美国App Store的排名,从发布前的第57位飙升至总榜第5位。据市场机构Appfigures统计,发布首日Meta AI在美国iOS平台下载量达4.6万次,较前一日涨幅达到87%,引发AI消费端市场的广泛关注。

35 分钟前
近日,微软启动针对Windows 11系统的大规模功能清理行动,计划逐步移除各预装原生应用中内嵌的Copilot独立入口,将AI助手功能统一整合至系统级Copilot面板。截至2024年第三季度,Windows 11全球市场渗透率已达42%,Copilot月活用户突破1.5亿,此次调整被视为微软优化AI交互路径、降低用户使用门槛的核心动作。

39 分钟前
2026年4月10日,小米官方宣布旗下自研MiMo-V2系列大模型正式接入全球顶级开源Agent框架Hermes Agent,开发者更新框架至最新版本后,即可通过Nous Portal直接调用该系列Pro、Omni、Flash三款核心模型。小米同步开启为期14天的开发者限免活动,覆盖全系列模型调用额度,降低Agent应用开发门槛。

41 分钟前
2026年4月,腾讯Robotics X实验室联合腾讯混元团队正式推出专为具身智能打造的HY-Embodied-0.5基础模型,在22项行业通用具身评测中拿下16项最优成绩刷新纪录。该系列模型从架构到训练范式全链路重构,同步推出MoT-2B、MoE-32B两款主力模型,可填补通用视觉语言模型三维空间感知与物理交互能力短板,推动大模型向机器人控制领域延伸。

1 小时前
2026年4月披露的行业消息显示,字节跳动2023年成立的AI核心研发部门Seed团队近一年流失近70名技术人才,人员流向腾讯、阿里等头部大厂及AI初创企业,其中近30人入职腾讯负责AI Infra与数据基建,顶级实习生葛浩转投阿里通义千问团队参与强化学习基建研发。该团队研发的豆包大模型此前已支撑50余个应用场景,人员变动凸显国内大模型赛道人才竞争已进入白热化阶段。

2 小时前
2026年4月,谷歌正式为旗下Gemini AI聊天机器人上线交互式3D模型与模拟功能,目前仅面向Gemini Pro用户开放。用户通过指定指令即可生成可操作三维内容、支持参数调整的动态模拟,替代传统文本与静态图示,覆盖物理推演、分子观测、天文模拟等多类科学学习场景,大幅降低复杂概念的理解门槛。

5 小时前
2026年4月,DeepSeek创始人梁文锋确认,新一代旗舰大模型DeepSeek V4将于当月下旬正式发布。此前DeepSeek已上线分层模式设计,快速模式主打即时响应支持多模态识别,专家模式专注复杂逻辑任务。近期平台出现连续服务异常、最长12小时崩溃,业内普遍认为是新旧模型迭代的正常阵痛。