Cohere发布20亿参数开源语音模型Transcribe 剑指边缘AI赛道

AI创作导航 1 个月前

风向

109

2026年3月26日，AI企业Cohere正式推出20亿参数开源语音识别模型Cohere Transcribe。该模型采用Apache 2.0协议开源，专为边缘设备设计，支持14种语言，据Hugging Face开放ASR排行榜最新数据，其性能已超越ElevenLabs Scribe、阿里Qwen3等主流竞品，有望破解边缘侧语音识别高延迟痛点。

不少用户都有过类似的体验：离线状态下用手机做语音转写，要么识别准确率惨不忍睹，要么等待数秒才能出结果——背后的核心矛盾就是，此前主流语音识别模型要么参数过大无法本地部署，要么精简后性能大幅下滑，而Cohere本次发布的新品恰好瞄准了这一长期存在的市场空白。

近年来全球AI语音识别市场保持30%以上的年增速，车载交互、智能家居、移动办公等场景对离线语音功能的需求持续攀升，但此前行业一直缺乏兼顾性能和轻量化的成熟方案：云端语音服务存在网络延迟、数据泄露风险，而现有的端侧语音模型普遍识别准确率低、支持语种少，无法满足中高端场景需求。

作为北美头部生成式AI企业，Cohere此前一直深耕企业级大语言模型服务，本次切入语音识别赛道，也是其完善全栈AI产品布局的重要动作。本次发布的Transcribe采用Apache 2.0完全开源协议，正是效仿Meta的Llama系列开源路径，希望借助全球开发者社区的力量快速迭代产品、落地场景，最终通过定制化微调、技术支持等服务实现商业化反哺。

Cohere Transcribe的参数量控制在20亿，这个规模恰好适配当前主流消费级硬件的算力上限，不需要依赖高端GPU即可在手机、PC、智能手表甚至IoT设备上本地运行，识别延迟控制在300毫秒以内，几乎做到“话音落、文字出”的即时效果。

语音识别开源AI 边缘计算 Cohere Transcribe

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

千音漫语

一站式智能声音创作服务平台

Animate Anything AI

AI在线图片转视频工具

AI Music Gen

免费AI文生带人声音乐工具

C Dance AI

多模态AI动作视频生成工具

AI Baby Dance

免费AI宝宝舞蹈视频生成工具

veo 4 AI

AI生成4K电影级视频工具

Fxroom AI

面向创作者的AI图像视频创意工

MojoMake

一站式AI视频图像创作平台，零

Cohere发布20亿参数开源语音模型Transcribe 剑指边缘AI赛道