登录体验完整功能(收藏、点赞、评论等) —

让AI触手可及,让应用激发潜能

语音转文字新基准测试出炉:ElevenLabs登顶,Gemini凭全能摘银

AI分析机构Artificial Analysis近日发布语音转文字基准测试2.0版,ElevenLabs与谷歌旗下模型表现突出。其中ElevenLabs的Scribe v2以2.3%的词错率斩获榜首,谷歌Gemini3Pro则以2.9%的词错率位居第二,值得关注的是,Gemini3Pro未针对转录任务专门训练,其优异表现源于自身的多模态通用能力。

对于语音转文字技术而言,词错率(WER)是衡量模型转录精度的核心指标——哪怕0.1%的差距,都意味着在长音频、复杂口音或嘈杂背景环境下的体验出现显著分化。Artificial Analysis的此次测试,正是以更贴近真实场景的数据集,为行业划定了新的实力标尺。

在本次测试的核心指标词错率上,ElevenLabs的Scribe v2以2.3%的超低词错率登顶,成为当前语音转文字领域的新标杆。这一数据意味着,每100个被转录的词语中,仅会出现约0.23个错误,无论是标准语言、各类方言还是带有背景噪音的音频,Scribe v2都能保持极高的转录准确性。

作为专注于语音技术的厂商,ElevenLabs在语音合成、转录赛道持续深耕,Scribe v2的优异表现,正是其针对语音转文字任务进行算法优化、数据集打磨的结果,尤其在口音适配、语义补全、噪音过滤等细分场景中,展现出了垂直模型的精准优势。

与ElevenLabs的垂直优化策略不同,谷歌Gemini3Pro的表现更具突破性。这款多模态大模型未针对语音转文字任务进行任何专门训练,完全依赖自身的通用多模态理解能力,就拿到了2.9%的词错率,位居测试榜第二位。

!
信息及评测声明: 本文部分信息整理自互联网公开资料,并包含由 AI创作导航 团队独立进行的实测体验。我们力求内容客观准确,但因工具功能、价格及政策可能存在实时调整,所有信息仅供参考,请务必在使用前访问官网确认。文中观点不构成任何决策建议,读者需自行评估和承担使用风险。如发现内容有误或侵权,欢迎随时反馈,我们将及时核实处理。
相关资讯
AI小创