语音转文字基准测试2.0出炉：ElevenLabs夺冠，Gemini紧随其后

AI小创 1 个月前

AI快讯

近日，AI测评机构Artificial Analysis发布语音转文字基准测试2.0（AA-WER v2.0）结果，在核心词错率（WER）指标中，ElevenLabs的Scribe v2以2.3%的错误率夺冠，谷歌Gemini 3Pro以2.9%位列第二；二者在AA-AgentTalk场景测试中同样表现领先，Mistral、OpenAI等厂商模型分列后续梯队，精准度与通用性成行业竞争核心。

2.3%——这是当前语音转文字技术能达到的近乎极致的精度水准。在AI测评机构Artificial Analysis最新发布的测试中，专注语音技术的ElevenLabs凭借旗下Scribe v2模型，以这一超低词错率击败谷歌等巨头，拿下语音转文字赛道的头把交椅。

Artificial Analysis推出的AA-WER v2.0是升级后的语音转文字基准测试体系，核心评估指标为词错率（WER）——这一数值越低，代表模型对语音内容的还原精准度越高。本次测试覆盖了多样化的语音场景，包括不同口音、背景噪音、专业领域术语等，结果更贴近实际应用需求。

测试数据显示，ElevenLabs的Scribe v2以2.3%的词错率夺冠，比第二名谷歌Gemini 3Pro的2.9%低了0.6个百分点。在高精度赛道，这一差距意味着Scribe v2在识别专业术语、弱口音语音等细分场景中，具备更稳定的表现。

除了核心的AA-WER测试，在针对真实对话场景设计的AA-AgentTalk测试中，ElevenLabs Scribe v2与谷歌Gemini 3Pro依然保持领先优势。该测试模拟了日常沟通中的复杂环境，比如多人对话重叠、街头噪音干扰、口语化快速表达等场景，考验模型的动态适配能力。

语音转文字多模态模型人工智能 Gemini ElevenLabs

信息及评测声明：本文部分信息整理自互联网公开资料，并包含由 AI创作导航团队独立进行的实测体验。我们力求内容客观准确，但因工具功能、价格及政策可能存在实时调整，所有信息仅供参考，请务必在使用前访问官网确认。文中观点不构成任何决策建议，读者需自行评估和承担使用风险。如发现内容有误或侵权，欢迎随时反馈，我们将及时核实处理。

VideoToWords AI

AI在线音视频转文字工具

Voiser

AI多语言语音处理工具

Voicv

AI语音克隆与音频处理工具

ScribeBuddy

在线AI音视频转录字幕工具

Speechly

Mac端精准快的私有语音转文字

RecCloud

AI音视频处理创作平台

讯飞文书

AI办公写作提效助手

OpenAI

OpenAI 是全球领先的人工智能研究机构与模型提供商