少找工具,多做创作

语音转文字基准测试2.0出炉:ElevenLabs夺冠,Gemini紧随其后

近日,AI测评机构Artificial Analysis发布语音转文字基准测试2.0(AA-WER v2.0)结果,在核心词错率(WER)指标中,ElevenLabs的Scribe v2以2.3%的错误率夺冠,谷歌Gemini 3Pro以2.9%位列第二;二者在AA-AgentTalk场景测试中同样表现领先,Mistral、OpenAI等厂商模型分列后续梯队,精准度与通用性成行业竞争核心。

2.3%——这是当前语音转文字技术能达到的近乎极致的精度水准。在AI测评机构Artificial Analysis最新发布的测试中,专注语音技术的ElevenLabs凭借旗下Scribe v2模型,以这一超低词错率击败谷歌等巨头,拿下语音转文字赛道的头把交椅。

Artificial Analysis推出的AA-WER v2.0是升级后的语音转文字基准测试体系,核心评估指标为词错率(WER)——这一数值越低,代表模型对语音内容的还原精准度越高。本次测试覆盖了多样化的语音场景,包括不同口音、背景噪音、专业领域术语等,结果更贴近实际应用需求。

测试数据显示,ElevenLabs的Scribe v2以2.3%的词错率夺冠,比第二名谷歌Gemini 3Pro的2.9%低了0.6个百分点。在高精度赛道,这一差距意味着Scribe v2在识别专业术语、弱口音语音等细分场景中,具备更稳定的表现。

除了核心的AA-WER测试,在针对真实对话场景设计的AA-AgentTalk测试中,ElevenLabs Scribe v2与谷歌Gemini 3Pro依然保持领先优势。该测试模拟了日常沟通中的复杂环境,比如多人对话重叠、街头噪音干扰、口语化快速表达等场景,考验模型的动态适配能力。

对比其他厂商,Mistral Voxtral Small位列第三,OpenAI Whisper Large v3处于中游梯队,阿里巴巴、亚马逊等厂商的相关模型排名则相对靠后。这一结果清晰呈现出当前语音转文字赛道的梯队格局:头部模型在精度与场景适配性上拉开了明显差距。

ElevenLabs与谷歌的领先,实则代表了语音转文字赛道的两种核心发展路径。ElevenLabs作为专注语音技术的垂直厂商,Scribe v2的优势源于对转录场景的深度优化,针对不同语言的发音细节、行业术语库做了专项训练,实现了垂直领域的精度极致化。

而谷歌Gemini 3Pro则依托多模态大模型的底层能力,将语音识别与文本理解、视觉分析等能力打通,在跨场景的通用性上更具潜力——比如在识别包含视觉语境的语音内容时,能借助多模态能力提升精准度。未来,行业的竞争将围绕“更高精度”与“更广场景适配”双向展开,既要满足专业领域的零误差需求,也要覆盖日常沟通的复杂环境。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
所属分类
相关资讯