少找工具,多做创作

语音转文字基准测试2.0发布:ElevenLabs登顶,Gemini紧随其后

近日,AI评测机构Artificial Analysis发布语音转文字领域的两项核心测试结果——AA-WER v2.0基准测试与AA-AgentTalk测试。ElevenLabs旗下Scribe v2以2.3%的核心词错率摘得桂冠,谷歌Gemini3Pro以2.9%的成绩位列第二,二者在两项测试中均领跑行业,其他厂商模型表现差距明显,精准度与通用性成为赛道核心竞争力。

在远程办公渗透率持续提升、内容生产数字化加速的当下,语音转文字工具的精准度直接影响工作效率与信息传递准确性。此前的语音转写评测多聚焦单一场景,而Artificial Analysis此次推出的测试2.0版本,通过两项核心指标搭建了更贴近真实使用需求的评测体系。

AA-WER v2.0测试的核心指标为核心词错率(WER),这一数据是衡量语音转写工具精准度的核心标尺,直接反映对关键信息的识别能力。ElevenLabs的Scribe v2以2.3%的极低错误率脱颖而出,意味着每100个核心词汇中仅出现2.3个错误,几乎达到人类级别的转写精度。谷歌Gemini3Pro以2.9%的错误率位居次席,与冠军的差距仅为0.6个百分点,同样表现优异。

在更贴近真实对话场景的AA-AgentTalk测试中,ElevenLabs与谷歌的领先态势依旧稳固。该测试针对带有口音、背景噪音或口语化表达的语音内容进行转写,二者的出色表现进一步验证了其在复杂现实场景中的适配能力。

此次评测结果清晰呈现出语音转文字赛道的梯队分化格局。除前两名外,Mistral旗下Voxtral Small以稍高的错误率位列第三,OpenAI的Whisper Large v3处于中游水平,阿里巴巴、亚马逊等厂商的模型则排名相对靠后。

ElevenLabs作为专注语音AI领域的垂直厂商,此次夺冠得益于其在转写精准度上的深度打磨,Scribe v2针对核心词汇的识别优化使其在专业场景中具备碾压性优势。而谷歌Gemini3Pro则依托自身的多模态通用技术底座,在保障语音转写精度的同时,能更好地适配跨模态任务需求,这也成为其跻身头部梯队的核心支撑。

从此次评测结果不难看出,语音转文字赛道的竞争逻辑正在迭代升级。早期厂商更多比拼转写速度与支持语种数量,如今精准度通用性已成为突围的关键。对于专业场景用户而言,核心词零误差的转写工具能大幅降低后期校对成本;而面向大众用户,能适配复杂场景、兼顾多模态需求的工具则更具市场吸引力。

未来,无论是深耕垂直领域的专业厂商还是布局多模态生态的科技巨头,都需要在精准度与通用性之间找到适配自身定位的平衡点,才能在激烈的赛道竞争中占据稳固地位。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创