2026年4月20日,阿里巴巴正式推出新一代端到端语音识别大模型Fun-ASR1.5,该模型基于阿里千问大模型体系迭代研发,公开测试数据显示其语音转写准确率超过字节跳动、腾讯等业内头部厂商的同类产品。Fun-ASR1.5可识别30种语言,覆盖中文七大方言与20余种地方口音,优化了标点预测等核心能力,可广泛应用于会议纪要整理等多个生产力场景。
对于经常需要整理会议录音、采访素材的办公人群与内容从业者来说,语音转写后的人工校对往往要花费数倍于录音本身的时间,方言口音、标点错乱、专有名词错漏都是行业长期存在的痛点,阿里新一代语音识别大模型直指这些用户痛点。
近年来,远程办公普及、内容行业发展、司法数字化推进,带动全行业对自动化语音转写的需求持续攀升,市场规模逐年增长。但此前绝大多数产品在方言识别、复杂场景准确率上始终存在明显瓶颈,不少带口音的语音转写错误率超过15%,严重影响使用效率,行业呼唤精度更高、适配场景更广的技术方案。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录