少找工具,多做创作

微软发布MAI-Transcribe-1 登顶全球语音转写模型精度榜首

2026年4月3日,微软正式发布自研MAI系列第三款AI模型MAI-Transcribe-1,该语音转写模型在FLEURS基准测试中实现25种语言平均词错误率仅3.9%,11种核心语言转写精度登顶,性能优于OpenAI Whisper-large-v3、Google Gemini 3.1 Flash等同类产品,是目前全球精度最高的通用多语种语音转写模型。

对经常处理会议记录、海外内容译制的从业者而言,语音转写的准确率直接决定了工作效率——过去行业主流模型动辄7%以上的平均词错误率,意味着每100个字就需要手动修改7个以上,多语种场景下误差更是动辄翻倍。

词错误率是衡量语音转写模型性能的核心指标,数值越低代表转写准确率越高,3.9%的平均词错误率已经接近人工转写的误差范围。根据微软公开的FLEURS基准测试结果,MAI-Transcribe-1在覆盖全球80%以上使用人口的25种语言中,平均词错误率较此前行业最优水平降低了近40%;其中英语、法语、德语等11种核心语言的转写精度更是全部位列第一,远高于OpenAI Whisper-large-v3、Google Gemini 3.1 Flash等同类产品。

作为微软MAI系列的第三款自研模型,该产品此前已经有语音合成模型MAI-Voice-1、图像生成模型MAI-Image-2两款落地,也标志着微软自研模型的技术边界正在不断拓展。

据微软披露,MAI-Transcribe-1已经完成了多场景适配,针对口音容错、专业术语识别、背景噪音过滤等行业痛点做了专项优化,即便在参会者带口音、现场有背景杂音的线下会议场景中,转写准确率也能保持在95%以上。目前该模型可覆盖会议记录、媒体内容转写、多语种客服质检、在线教育字幕生成等多个商用场景,不少跨境企业、媒体机构已经开始测试该模型的商用接口,预计最快2026年第二季度就会正式对外开放商用服务。

业内人士预测,该模型后续大概率会接入微软Teams、Office 365等自有生态产品,进一步提升办公套件的核心竞争力。

此前微软的AI服务多绑定OpenAI的GPT系列模型展开,而MAI系列自研模型矩阵的接连推出,意味着微软正在搭建完全自主可控的多模态AI能力体系,覆盖图像、语音的生成与识别全链路,未来或将进一步降低对外部技术的依赖,巩固自己在To B AI服务市场的优势地位。

与此同时,此前语音转写赛道的头部位置长期被OpenAI Whisper系列占据,微软此次推出的新产品直接打破了这一格局,也意味着大模型赛道的细分领域竞争正在进入白热化阶段,技术迭代速度还在不断加快。

AI生成配图

(图像由AI生成)

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创