微软AI团队近期正式推出新一代多语言语音转文字模型MAI-Transcribe-1.5,该模型支持43种全球常用语言识别,人工分析场景下词错误率(WER)低至2.4%,在FLEURS公开多语言语音数据集上准确率达行业最优水平,长音频转录速度较前代产品最高提升5倍,有望大幅降低多场景下语音内容转写的人力与时间成本。近年来,随着远程办公、跨境内容创作、多语言客服等场景的普及,市场对语音转文字工具的需求持续攀升。但此前主流商用转写工具普遍存在小语种识别准确率低、长音频转写等待时间长、专业场景下错误率偏高等问题,不少企业仍需要投入15%-30%的人力用于转写结果校对,运营成本居高不下。此次微软AI推出的MAI-Transcribe-1.5,针对上述痛点做了多项技术优化。在准确率层面,模型在人工分析测试集下的词错误率(WER)仅为2.4%,远低于行业平均8%-12%的水平;在权威多语言语音数据集FLEURS(覆盖全球100余种语言的真实语音样本)的测试中,其综合准确率登顶行业第一。在覆盖范围层面,模型支持全球43种常用语言的识别,包括不少此前主流工具支持度较差的小语种。在效率层面,针对1小时以上...