语音转文字基准测试2.0发布：ElevenLabs登顶，Gemini紧随其后

AI小创 2 个月前

风向

129

近日，AI评测机构Artificial Analysis发布语音转文字领域的两项核心测试结果——AA-WER v2.0基准测试与AA-AgentTalk测试。ElevenLabs旗下Scribe v2以2.3%的核心词错率摘得桂冠，谷歌Gemini3Pro以2.9%的成绩位列第二，二者在两项测试中均领跑行业，其他厂商模型表现差距明显，精准度与通用性成为赛道核心竞争力。

在远程办公渗透率持续提升、内容生产数字化加速的当下，语音转文字工具的精准度直接影响工作效率与信息传递准确性。此前的语音转写评测多聚焦单一场景，而Artificial Analysis此次推出的测试2.0版本，通过两项核心指标搭建了更贴近真实使用需求的评测体系。

AA-WER v2.0测试的核心指标为核心词错率（WER），这一数据是衡量语音转写工具精准度的核心标尺，直接反映对关键信息的识别能力。ElevenLabs的Scribe v2以2.3%的极低错误率脱颖而出，意味着每100个核心词汇中仅出现2.3个错误，几乎达到人类级别的转写精度。谷歌Gemini3Pro以2.9%的错误率位居次席，与冠军的差距仅为0.6个百分点，同样表现优异。

在更贴近真实对话场景的AA-AgentTalk测试中，ElevenLabs与谷歌的领先态势依旧稳固。该测试针对带有口音、背景噪音或口语化表达的语音内容进行转写，二者的出色表现进一步验证了其在复杂现实场景中的适配能力。

此次评测结果清晰呈现出语音转文字赛道的梯队分化格局。除前两名外，Mistral旗下Voxtral Small以稍高的错误率位列第三，OpenAI的Whisper Large v3处于中游水平，阿里巴巴、亚马逊等厂商的模型则排名相对靠后。

语音转文字人工智能谷歌Gemini ElevenLabs AI评测

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

Transcript LOL

AI音视频智能转录工具

FreeTTS

免费在线AI音频处理工具

VideoToWords AI

AI在线音视频转文字工具

Voiser

AI多语言语音处理工具

Voicv

AI语音克隆与音频处理工具

ScribeBuddy

在线AI音视频转录字幕工具

Speechly

Mac端精准快的私有语音转文字

RecCloud

AI音视频处理创作平台