登录体验完整功能(收藏、点赞、评论等) — 已累计有 12656 人加入

Interfaze推出首个开源多语言Diffusion ASR模型 支持6种语言转写

详情页推荐

AI初创公司Interfaze于近期正式推出开源语音识别模型diffusion-gemma-asr-small,这是全球首个基于扩散技术的开源多语言自动语音识别(ASR)模型,依托DiffusionGemma架构的并行降噪解码器能力,可实现6种主流语言的高准确率语音转写,为下游语音类AI应用开发者提供了新的低成本、高灵活度的方案选择。

对于多语言语音应用开发者而言,长期以来都面临两难选择:调用谷歌、亚马逊等大厂的闭源ASR接口,成本随调用量飙升的同时数据安全存在隐患;使用现有开源ASR方案,又往往面临多语言支持不全、转写准确率不足、推理速度慢等问题。而Interfaze本次推出的新模型,恰好填补了这一市场空白。

据近期AI开发工具调研机构的统计数据显示,在涉及跨境业务的AI应用开发者中,有68%的受访者表示需要用到多语言语音转写能力,但其中仅32%的开发者选择使用开源ASR方案,剩下的开发者不得不支付高昂的闭源接口费用。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。