微软发布MAI-Transcribe-1 登顶全球语音转写模型精度榜首

AI创作导航 1 个月前

风向

111

2026年4月3日，微软正式发布自研MAI系列第三款AI模型MAI-Transcribe-1，该语音转写模型在FLEURS基准测试中实现25种语言平均词错误率仅3.9%，11种核心语言转写精度登顶，性能优于OpenAI Whisper-large-v3、Google Gemini 3.1 Flash等同类产品，是目前全球精度最高的通用多语种语音转写模型。

对经常处理会议记录、海外内容译制的从业者而言，语音转写的准确率直接决定了工作效率——过去行业主流模型动辄7%以上的平均词错误率，意味着每100个字就需要手动修改7个以上，多语种场景下误差更是动辄翻倍。

词错误率是衡量语音转写模型性能的核心指标，数值越低代表转写准确率越高，3.9%的平均词错误率已经接近人工转写的误差范围。根据微软公开的FLEURS基准测试结果，MAI-Transcribe-1在覆盖全球80%以上使用人口的25种语言中，平均词错误率较此前行业最优水平降低了近40%；其中英语、法语、德语等11种核心语言的转写精度更是全部位列第一，远高于OpenAI Whisper-large-v3、Google Gemini 3.1 Flash等同类产品。

作为微软MAI系列的第三款自研模型，该产品此前已经有语音合成模型MAI-Voice-1、图像生成模型MAI-Image-2两款落地，也标志着微软自研模型的技术边界正在不断拓展。

据微软披露，MAI-Transcribe-1已经完成了多场景适配，针对口音容错、专业术语识别、背景噪音过滤等行业痛点做了专项优化，即便在参会者带口音、现场有背景杂音的线下会议场景中，转写准确率也能保持在95%以上。目前该模型可覆盖会议记录、媒体内容转写、多语种客服质检、在线教育字幕生成等多个商用场景，不少跨境企业、媒体机构已经开始测试该模型的商用接口，预计最快2026年第二季度就会正式对外开放商用服务。

业内人士预测，该模型后续大概率会接入微软Teams、Office 365等自有生态产品，进一步提升办公套件的核心竞争力。

语音转写 AI模型多模态人工智能微软 MAI-Transcribe-1

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

点赞收藏分享

AudioPen

将杂乱语音转清晰结构化文本

Scribewave

AI音视频转文字字幕生成工具

HelloScribe

语音优先AI智能写作辅助工具

SayStory

AI转语音为社媒内容打造个人

Rekam AI

一站式AI语音创作平台

WhisperUI

高性价比AI语音转写工具

tulz.AI

AI高效音频转文字转录工具

Transcriptal

AI多语言免费转录工具