少找工具,多做创作

语音转文字新基准测试出炉:ElevenLabs登顶,Gemini凭全能摘银

AI分析机构Artificial Analysis近日发布语音转文字基准测试2.0版,ElevenLabs与谷歌旗下模型表现突出。其中ElevenLabs的Scribe v2以2.3%的词错率斩获榜首,谷歌Gemini3Pro则以2.9%的词错率位居第二,值得关注的是,Gemini3Pro未针对转录任务专门训练,其优异表现源于自身的多模态通用能力。

对于语音转文字技术而言,词错率(WER)是衡量模型转录精度的核心指标——哪怕0.1%的差距,都意味着在长音频、复杂口音或嘈杂背景环境下的体验出现显著分化。Artificial Analysis的此次测试,正是以更贴近真实场景的数据集,为行业划定了新的实力标尺。

在本次测试的核心指标词错率上,ElevenLabs的Scribe v2以2.3%的超低词错率登顶,成为当前语音转文字领域的新标杆。这一数据意味着,每100个被转录的词语中,仅会出现约0.23个错误,无论是标准语言、各类方言还是带有背景噪音的音频,Scribe v2都能保持极高的转录准确性。

作为专注于语音技术的厂商,ElevenLabs在语音合成、转录赛道持续深耕,Scribe v2的优异表现,正是其针对语音转文字任务进行算法优化、数据集打磨的结果,尤其在口音适配、语义补全、噪音过滤等细分场景中,展现出了垂直模型的精准优势。

与ElevenLabs的垂直优化策略不同,谷歌Gemini3Pro的表现更具突破性。这款多模态大模型未针对语音转文字任务进行任何专门训练,完全依赖自身的通用多模态理解能力,就拿到了2.9%的词错率,位居测试榜第二位。

这一结果打破了“垂直任务必须垂直优化”的固有认知,证明了顶级多模态大模型在跨任务迁移上的强大能力。未来,通用大模型或许无需针对单一任务进行专项微调,就能在语音、视觉、文本等多领域保持顶尖水准。

除了前两名,本次测试也展现了语音转文字赛道的整体格局:Mistral Voxtral Small以3.0%的词错率位居第三,谷歌Gemini3Flash则以3.1%的成绩紧随其后;而作为开源语音转文字的代表,OpenAI Whisper Large v3也保持了行业第一梯队的竞争力。

当前赛道已形成两类核心玩家:一类是像ElevenLabs这样,深耕垂直领域、通过专项优化追求极致精度的厂商;另一类则是谷歌、OpenAI等,凭借通用大模型的多模态能力,在多个AI任务中同时保持竞争力。两种路径各有优劣,也将推动语音转文字技术朝着更精准、更通用的方向发展。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
所属分类
相关资讯