登录体验完整功能(收藏、点赞、评论等)

小米开源OmniVoice多语言TTS模型 覆盖600+语种性能达行业顶尖

2026年4月,小米下一代Kaldi团队(k2-fsa)正式开源超大规模多语言零样本文本转语音(TTS)模型OmniVoice,支持超600种语言语音合成。该模型多项指标达行业最优(SOTA),中文测试集词错误率(WER)低至0.84%,多语言表现超越ElevenLabs v2、MiniMax等主流商用模型,推理速度较实时快40倍,为小语种语音留存、跨境内容生产等场景提供全新技术支撑。

在全球文化数字化、跨境服务需求爆发的当下,多语言语音合成技术的覆盖广度、性能表现一直是制约行业落地的核心瓶颈。此前主流商用TTS模型最多支持百余种语言,大量使用人口少、语料储备不足的小语种,始终缺乏低成本的语音数字化路径。小米本次开源的OmniVoice,恰恰填补了这一市场空白。

---

此次发布的OmniVoice由小米深耕语音技术多年的k2-fsa团队研发,该团队此前主导的Kaldi开源语音框架,是全球语音领域应用最广的基础工具之一,拥有深厚的技术积累。

在官方披露的测试数据中,OmniVoice在Seed-TTS中文测试集上的**词错误率(WER)仅为0.84%**,相当于每合成100个汉字仅出现不到1个识别错误,语音辨识度接近真人发音水平。在多语言基准测试中,其语音相似度、词错误率两项核心指标均超越ElevenLabs v2、MiniMax等全球主流商用TTS模型,自然度表现跻身第一梯队。

推理效率方面,OmniVoice的实时因子(RTF)低至0.025,**合成速度较实时快40倍**,也就是说生成1分钟的语音内容仅需1.5秒,完全满足实时交互、批量内容生产等场景的效率要求。

---

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创