登录体验完整功能(收藏、点赞、评论等) —

让AI触手可及,让应用激发潜能

语音转文字基准测试2.0出炉:ElevenLabs夺冠,Gemini紧随其后

近日,AI测评机构Artificial Analysis发布语音转文字基准测试2.0(AA-WER v2.0)结果,在核心词错率(WER)指标中,ElevenLabs的Scribe v2以2.3%的错误率夺冠,谷歌Gemini 3Pro以2.9%位列第二;二者在AA-AgentTalk场景测试中同样表现领先,Mistral、OpenAI等厂商模型分列后续梯队,精准度与通用性成行业竞争核心。

2.3%——这是当前语音转文字技术能达到的近乎极致的精度水准。在AI测评机构Artificial Analysis最新发布的测试中,专注语音技术的ElevenLabs凭借旗下Scribe v2模型,以这一超低词错率击败谷歌等巨头,拿下语音转文字赛道的头把交椅。

Artificial Analysis推出的AA-WER v2.0是升级后的语音转文字基准测试体系,核心评估指标为词错率(WER)——这一数值越低,代表模型对语音内容的还原精准度越高。本次测试覆盖了多样化的语音场景,包括不同口音、背景噪音、专业领域术语等,结果更贴近实际应用需求。

测试数据显示,ElevenLabs的Scribe v2以2.3%的词错率夺冠,比第二名谷歌Gemini 3Pro的2.9%低了0.6个百分点。在高精度赛道,这一差距意味着Scribe v2在识别专业术语、弱口音语音等细分场景中,具备更稳定的表现。

除了核心的AA-WER测试,在针对真实对话场景设计的AA-AgentTalk测试中,ElevenLabs Scribe v2与谷歌Gemini 3Pro依然保持领先优势。该测试模拟了日常沟通中的复杂环境,比如多人对话重叠、街头噪音干扰、口语化快速表达等场景,考验模型的动态适配能力。

!
信息及评测声明: 本文部分信息整理自互联网公开资料,并包含由 AI创作导航 团队独立进行的实测体验。我们力求内容客观准确,但因工具功能、价格及政策可能存在实时调整,所有信息仅供参考,请务必在使用前访问官网确认。文中观点不构成任何决策建议,读者需自行评估和承担使用风险。如发现内容有误或侵权,欢迎随时反馈,我们将及时核实处理。
相关资讯
AI小创