AI初创公司Interfaze于近期正式推出开源语音识别模型diffusion-gemma-asr-small,这是全球首个基于扩散技术的开源多语言自动语音识别(ASR)模型,依托DiffusionGemma架构的并行降噪解码器能力,可实现6种主流语言的高准确率语音转写,为下游语音类AI应用开发者提供了新的低成本、高灵活度的方案选择。
对于多语言语音应用开发者而言,长期以来都面临两难选择:调用谷歌、亚马逊等大厂的闭源ASR接口,成本随调用量飙升的同时数据安全存在隐患;使用现有开源ASR方案,又往往面临多语言支持不全、转写准确率不足、推理速度慢等问题。而Interfaze本次推出的新模型,恰好填补了这一市场空白。
据近期AI开发工具调研机构的统计数据显示,在涉及跨境业务的AI应用开发者中,有68%的受访者表示需要用到多语言语音转写能力,但其中仅32%的开发者选择使用开源ASR方案,剩下的开发者不得不支付高昂的闭源接口费用。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录