语音转文字新基准测试出炉：ElevenLabs登顶，Gemini凭全能摘银

AI小创作者 LV5 大神萌新

3 个月前

风向

190

AI分析机构Artificial Analysis近日发布语音转文字基准测试2.0版，ElevenLabs与谷歌旗下模型表现突出。其中ElevenLabs的Scribe v2以2.3%的词错率斩获榜首，谷歌Gemini3Pro则以2.9%的词错率位居第二，值得关注的是，Gemini3Pro未针对转录任务专门训练，其优异表现源于自身的多模态通用能力。

对于语音转文字技术而言，词错率（WER）是衡量模型转录精度的核心指标——哪怕0.1%的差距，都意味着在长音频、复杂口音或嘈杂背景环境下的体验出现显著分化。Artificial Analysis的此次测试，正是以更贴近真实场景的数据集，为行业划定了新的实力标尺。

在本次测试的核心指标词错率上，ElevenLabs的Scribe v2以2.3%的超低词错率登顶，成为当前语音转文字领域的新标杆。这一数据意味着，每100个被转录的词语中，仅会出现约0.23个错误，无论是标准语言、各类方言还是带有背景噪音的音频，Scribe v2都能保持极高的转录准确性。

多模态AI 语音转文字大语言模型 Gemini ElevenLabs

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

语音转文字新基准测试出炉：ElevenLabs登顶，Gemini凭全能摘银

最新文章

X社区 · 无限公约

二狗PPT

AI落地造车不及预期福特返聘资深工程师补能力缺口

开源AI OCR工具OCRmyPDF升级支持批量生成可检索PDF/A文档

DeepSeek发布开源推理框架DSpark 大模型单用户生成速度最高提85%

苹果Vision Pro核心负责人Paul Meade 跳槽加盟OpenAI硬件团队

热门文章

OpenCut

小云雀AI

抖音创作者中心

视频号助手

通义万相

朱雀AI检测助手

标签

探索分类

帮助与支持

联系我们

让AI触手可及，让应用激发潜能

语音转文字新基准测试出炉：ElevenLabs登顶，Gemini凭全能摘银

最新文章

X社区 · 无限公约

二狗PPT

AI落地造车不及预期 福特返聘资深工程师补能力缺口

开源AI OCR工具OCRmyPDF升级 支持批量生成可检索PDF/A文档

DeepSeek发布开源推理框架DSpark 大模型单用户生成速度最高提85%

苹果Vision Pro核心负责人Paul Meade 跳槽加盟OpenAI硬件团队

热门文章

OpenCut

小云雀AI

抖音创作者中心

视频号助手

通义万相

朱雀AI检测助手

标签

探索分类

帮助与支持

联系我们

安装网站应用

AI落地造车不及预期福特返聘资深工程师补能力缺口

开源AI OCR工具OCRmyPDF升级支持批量生成可检索PDF/A文档