AI分析机构Artificial Analysis近日发布语音转文字基准测试2.0版,ElevenLabs与谷歌旗下模型表现突出。其中ElevenLabs的Scribe v2以2.3%的词错率斩获榜首,谷歌Gemini3Pro则以2.9%的词错率位居第二,值得关注的是,Gemini3Pro未针对转录任务专门训练,其优异表现源于自身的多模态通用能力。
对于语音转文字技术而言,词错率(WER)是衡量模型转录精度的核心指标——哪怕0.1%的差距,都意味着在长音频、复杂口音或嘈杂背景环境下的体验出现显著分化。Artificial Analysis的此次测试,正是以更贴近真实场景的数据集,为行业划定了新的实力标尺。
在本次测试的核心指标词错率上,ElevenLabs的Scribe v2以2.3%的超低词错率登顶,成为当前语音转文字领域的新标杆。这一数据意味着,每100个被转录的词语中,仅会出现约0.23个错误,无论是标准语言、各类方言还是带有背景噪音的音频,Scribe v2都能保持极高的转录准确性。
作为专注于语音技术的厂商,ElevenLabs在语音合成、转录赛道持续深耕,Scribe v2的优异表现,正是其针对语音转文字任务进行算法优化、数据集打磨的结果,尤其在口音适配、语义补全、噪音过滤等细分场景中,展现出了垂直模型的精准优势。
与ElevenLabs的垂直优化策略不同,谷歌Gemini3Pro的表现更具突破性。这款多模态大模型未针对语音转文字任务进行任何专门训练,完全依赖自身的通用多模态理解能力,就拿到了2.9%的词错率,位居测试榜第二位。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
1 小时前
2026年4月中旬,OpenAI核心高管Kevin Weil、Bill Peebles正式确认离职,同期公司宣布关停视频生成产品Sora、解散前沿科学团队,全面砍掉非核心消费级探索项目,业务重心从面向C端的前沿技术“登月计划”,转向ToB企业级AI服务,这一转向引发全球AI行业对大模型商业化路径的广泛讨论。

10 小时前
4月17日OpenAI正式推出Codex大版本更新,本次升级新增Mac端光标级后台交互、内置应用内浏览器、集成gpt-image-1.5图像生成模型,同步上线90余款生态插件。升级后Codex支持断点续跑、自主排期执行长期任务,可直接操作Mac本地应用,大幅降低了用户搭建跨应用自动化工作流的门槛。

11 小时前
美国AI公司Anthropic于2026年4月16日正式推出新一代大语言模型Claude Opus 4.7,Claude Code之父、核心研发人员Boris Cherny于次日公开其内部测试后总结的高效使用技巧。据其披露,Opus 4.7相比前代4.6版本在智能性、主动性、精准度上均有明显提升,普通用户需调整原有使用习惯才能充分释放模型的全部性能。

12 小时前
2026年4月17日,联想开天正式发布新一代政企办公智能体天禧AI Pro,定位“可信AI搭档”,同步宣布旗下全线PC产品升级为信创AI PC。该产品与麒麟操作系统深度整合推出双生界面,兼容DeepSeek、千问、火山等多参数级大模型,将操作逻辑从“以工具为核心”转向“以任务为中心”,标志着国内信创办公赛道正式迈入AI落地阶段。

13 小时前
OpenAI最新披露的运营数据显示,旗下对话式大语言模型产品ChatGPT全球周活跃用户即将突破10亿大关,用户结构出现标志性变化:女性用户占比从2022年上线初期的20%提升至50%以上,首次超过男性用户,对应约5亿女性用户定期使用。同时OpenAI算力规模持续扩张,2025年预计达1.9吉瓦,2030年目标锁定30吉瓦。

13 小时前
2026年4月15日,科大讯飞举办AstronClaw升级发布会,集中推出9项创新产品,首次完整公开软硬一体AI Agent架构体系,推动AI智能体从传统“对话助手”向“物理执行中枢”演进,打破屏幕限制让大模型能力深度介入真实物理世界与复杂业务流,同时发布配套40克轻量化AI眼镜GlassClaw,覆盖办公、移动交互等多场景落地。

14 小时前
2026年4月16日,OpenAI正式推出专为生命科学领域打造的生成式AI模型GPT-Rosalind,该模型以DNA结构发现者Rosalind Franklin命名,经基因组学、化学领域深度微调,可支持科研人员完成证据合成、实验规划等工作,目前已作为研究预览向安进、莫德纳、赛默飞世尔、艾伦研究所等首批合作方开放,旨在大幅提升药物研发效率。

14 小时前
近日谷歌推出Gemini大模型的全新个性化生图功能,该功能可在获得用户主动授权后访问谷歌相册中的历史照片,分析用户的构图、色彩、风格等审美偏好,生成符合用户个人品味的定制化图片。内部测试数据显示,该功能生成图片符合用户预期的比例较通用生图模式提升62%,目前已向所有Gemini高级订阅用户开放使用。