AI分析机构Artificial Analysis近日发布语音转文字基准测试2.0版,ElevenLabs与谷歌旗下模型表现突出。其中ElevenLabs的Scribe v2以2.3%的词错率斩获榜首,谷歌Gemini3Pro则以2.9%的词错率位居第二,值得关注的是,Gemini3Pro未针对转录任务专门训练,其优异表现源于自身的多模态通用能力。
对于语音转文字技术而言,词错率(WER)是衡量模型转录精度的核心指标——哪怕0.1%的差距,都意味着在长音频、复杂口音或嘈杂背景环境下的体验出现显著分化。Artificial Analysis的此次测试,正是以更贴近真实场景的数据集,为行业划定了新的实力标尺。
在本次测试的核心指标词错率上,ElevenLabs的Scribe v2以2.3%的超低词错率登顶,成为当前语音转文字领域的新标杆。这一数据意味着,每100个被转录的词语中,仅会出现约0.23个错误,无论是标准语言、各类方言还是带有背景噪音的音频,Scribe v2都能保持极高的转录准确性。
作为专注于语音技术的厂商,ElevenLabs在语音合成、转录赛道持续深耕,Scribe v2的优异表现,正是其针对语音转文字任务进行算法优化、数据集打磨的结果,尤其在口音适配、语义补全、噪音过滤等细分场景中,展现出了垂直模型的精准优势。
与ElevenLabs的垂直优化策略不同,谷歌Gemini3Pro的表现更具突破性。这款多模态大模型未针对语音转文字任务进行任何专门训练,完全依赖自身的通用多模态理解能力,就拿到了2.9%的词错率,位居测试榜第二位。
这一结果打破了“垂直任务必须垂直优化”的固有认知,证明了顶级多模态大模型在跨任务迁移上的强大能力。未来,通用大模型或许无需针对单一任务进行专项微调,就能在语音、视觉、文本等多领域保持顶尖水准。
除了前两名,本次测试也展现了语音转文字赛道的整体格局:Mistral Voxtral Small以3.0%的词错率位居第三,谷歌Gemini3Flash则以3.1%的成绩紧随其后;而作为开源语音转文字的代表,OpenAI Whisper Large v3也保持了行业第一梯队的竞争力。
当前赛道已形成两类核心玩家:一类是像ElevenLabs这样,深耕垂直领域、通过专项优化追求极致精度的厂商;另一类则是谷歌、OpenAI等,凭借通用大模型的多模态能力,在多个AI任务中同时保持竞争力。两种路径各有优劣,也将推动语音转文字技术朝着更精准、更通用的方向发展。

10 小时前
中国独立大模型厂商MiniMax于2026年3月披露2025年度全年业绩,作为港股市场的AI“香饽饽”,其股价曾在两个月内暴涨4.5倍,但此次披露的四季度数据却显露收入增速放缓的迹象。成立于2021年11月的MiniMax,曾入选WISE2024年度人工智能企业榜单,在大模型赛道普遍高亏损的行业背景下,仍持续获得资本的高度关注。

10 小时前
近日,OpenAI CEO山姆·奥特曼官宣公司已与美国五角大楼达成合作,合同金额数百万美元,同时披露OpenAI年度营收已突破200亿美元。消息一出引发全网争议,不仅掀起ChatGPT卸载潮,一位19岁前OpenAI员工还愤然离职并曝出国防合作内幕,称AI技术恐被用于无人机蜂群试验等军事场景,将AI推向战争伦理的风口浪尖。

10 小时前
近期AI编程赛道涌现两类差异化模式:面向专业开发者的AI Coding凭借效率提升等优势展现出广阔应用潜力,而主打“零门槛”面向非专业群体的Vibe Coding虽频传“低成本完成开发”的“奇迹”案例,但行业观察者指出需理性审视其真实能力边界,避免过度追捧。本文将深入解析两类模式的核心差异与发展前景。

12 小时前
在2026波士顿创始人峰会背景下,OpenAI正从现象级消费AI初创企业转型为美国国家安全基础设施的核心组成部分,但包括OpenAI、Anthropic在内的AI巨头,与美国国防部等政府部门的协作仍缺乏成熟方案。国防部官员Hegseth指出,当前各方均未做好应对这一转型的准备,行业责任与国家安全的平衡仍存空白。

16 小时前
据TechCrunch报道,OpenAI旗下ChatGPT因深陷数据隐私、内容审核等系列争议导致大量用户流失,竞争对手Anthropic的Claude成为用户替代首选。该报道不仅剖析了用户迁移的核心动因,还为计划切换的用户提供了详细操作指南,帮助用户实现从ChatGPT到Claude的平滑过渡。

17 小时前
近日,多名美国科技领域从业者联合签署公开信,敦促美国国防部(DOD)及国会撤销将AI初创公司Anthropic列为“供应链风险”的官方认定。信中呼吁相关监管方放弃公开定性的强硬方式,转而通过私下沟通渠道解决分歧。Anthropic因开发Claude系列大语言模型,在全球AI安全与通用AI领域具备较高行业影响力。

18 小时前
Analytics Vidhya近期盘点出11个适合学习生成式AI的优质YouTube频道,这些频道覆盖大语言模型、LangChain、RAG、AI Agents等核心技术,兼顾理论讲解与实战项目,从零基础入门到进阶应用场景全覆盖,能帮助AI爱好者、从业者快速构建系统的生成式AI知识体系,适配不同阶段的学习需求。

21 小时前
北京时间3月2日19:49,AI初创公司Anthropic正式确认旗下大语言模型助手Claude出现全球范围服务中断。无论是网页端、移动端用户,还是通过API调用Claude的开发者,均可能遭遇请求失败、响应超时或结果不稳定等问题。截至目前,Anthropic仍在排查故障原因,尚未公布服务恢复的具体时间。