少找工具,多做创作

Cohere发布20亿参数开源语音模型Transcribe 剑指边缘AI赛道

2026年3月26日,AI企业Cohere正式推出20亿参数开源语音识别模型Cohere Transcribe。该模型采用Apache 2.0协议开源,专为边缘设备设计,支持14种语言,据Hugging Face开放ASR排行榜最新数据,其性能已超越ElevenLabs Scribe、阿里Qwen3等主流竞品,有望破解边缘侧语音识别高延迟痛点。

不少用户都有过类似的体验:离线状态下用手机做语音转写,要么识别准确率惨不忍睹,要么等待数秒才能出结果——背后的核心矛盾就是,此前主流语音识别模型要么参数过大无法本地部署,要么精简后性能大幅下滑,而Cohere本次发布的新品恰好瞄准了这一长期存在的市场空白。

近年来全球AI语音识别市场保持30%以上的年增速,车载交互、智能家居、移动办公等场景对离线语音功能的需求持续攀升,但此前行业一直缺乏兼顾性能和轻量化的成熟方案:云端语音服务存在网络延迟、数据泄露风险,而现有的端侧语音模型普遍识别准确率低、支持语种少,无法满足中高端场景需求。

作为北美头部生成式AI企业,Cohere此前一直深耕企业级大语言模型服务,本次切入语音识别赛道,也是其完善全栈AI产品布局的重要动作。本次发布的Transcribe采用Apache 2.0完全开源协议,正是效仿Meta的Llama系列开源路径,希望借助全球开发者社区的力量快速迭代产品、落地场景,最终通过定制化微调、技术支持等服务实现商业化反哺。

Cohere Transcribe的参数量控制在20亿,这个规模恰好适配当前主流消费级硬件的算力上限,不需要依赖高端GPU即可在手机、PC、智能手表甚至IoT设备上本地运行,识别延迟控制在300毫秒以内,几乎做到“话音落、文字出”的即时效果。

为了保障小参数规模下的识别精度,Cohere在训练阶段覆盖了包括中文、日语、法语、希伯来语在内的14种语言的海量语料,其中不乏大量低资源语种的方言数据。根据Hugging Face开放ASR(自动语音识别)排行榜的最新测试结果,该模型的识别准确率、抗噪能力等核心指标均已超越ElevenLabs Scribe、阿里Qwen3等同类主流竞品。

更值得关注的是,由于所有运算都在本地完成,Transcribe不需要将用户语音数据上传至云端,大幅降低了敏感场景的数据泄露风险,尤其适合医疗问诊、金融服务、企业内部会议等对数据隐私要求较高的使用场景。

在不少行业分析师看来,Transcribe的推出不仅会填补高性能端侧语音模型的市场空白,更会推动整个AI产业的算力分布变革。过去几年,AI应用的训练和推理高度依赖云端高性能GPU,英伟达凭借GPU产品的垄断地位掌握了产业话语权,而随着越来越多类似Transcribe的轻量化高性能模型落地边缘侧,AI推理需求将逐步向端侧分流,一定程度上会缓解当前云端GPU供应紧张的局面,也会削弱英伟达在AI算力市场的统治力。

对于Cohere而言,Transcribe的开源只是第一步,后续其还将推出配套的微调工具、多模态语音交互方案,围绕语音场景打造完整的开发者生态,进一步和OpenAI、Anthropic等竞品形成差异化竞争。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创