小米开源OmniVoice多语言TTS模型覆盖600+语种性能达行业顶尖

AI创作导航管理员 LV4 资深连续登录7天萌新

2 个月前

风向

159

2026年4月，小米下一代Kaldi团队（k2-fsa）正式开源超大规模多语言零样本文本转语音（TTS）模型OmniVoice，支持超600种语言语音合成。该模型多项指标达行业最优（SOTA），中文测试集词错误率（WER）低至0.84%，多语言表现超越ElevenLabs v2、MiniMax等主流商用模型，推理速度较实时快40倍，为小语种语音留存、跨境内容生产等场景提供全新技术支撑。

在全球文化数字化、跨境服务需求爆发的当下，多语言语音合成技术的覆盖广度、性能表现一直是制约行业落地的核心瓶颈。此前主流商用TTS模型最多支持百余种语言，大量使用人口少、语料储备不足的小语种，始终缺乏低成本的语音数字化路径。小米本次开源的OmniVoice，恰恰填补了这一市场空白。

---

此次发布的OmniVoice由小米深耕语音技术多年的k2-fsa团队研发，该团队此前主导的Kaldi开源语音框架，是全球语音领域应用最广的基础工具之一，拥有深厚的技术积累。

在官方披露的测试数据中，OmniVoice在Seed-TTS中文测试集上的**词错误率（WER）仅为0.84%**，相当于每合成100个汉字仅出现不到1个识别错误，语音辨识度接近真人发音水平。在多语言基准测试中，其语音相似度、词错误率两项核心指标均超越ElevenLabs v2、MiniMax等全球主流商用TTS模型，自然度表现跻身第一梯队。

多语言TTS 开源AI 小米 OmniVoice 零样本语音克隆

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

小米开源OmniVoice多语言TTS模型覆盖600+语种性能达行业顶尖

最新文章

X社区 · 无限公约

二狗PPT

特朗普政府宣布解除Anthropic两款旗舰AI模型出口管制

OceanBase发布湖库一体AI数据库为AI Agent筑牢核心数据底座

新浪开源VibeThinker-3B，小参数模型比肩百倍规模大模型

AI落地缺标准化训练体系超六成开发团队陷“盲飞”困境

热门文章

OpenCut

抖音创作者中心

小云雀AI

视频号助手

通义万相

朱雀AI检测助手

标签

探索分类

帮助与支持

联系我们

让AI触手可及，让应用激发潜能

小米开源OmniVoice多语言TTS模型 覆盖600+语种性能达行业顶尖

最新文章

X社区 · 无限公约

二狗PPT

特朗普政府宣布解除Anthropic两款旗舰AI模型出口管制

OceanBase发布湖库一体AI数据库 为AI Agent筑牢核心数据底座

新浪开源VibeThinker-3B，小参数模型比肩百倍规模大模型

AI落地缺标准化训练体系 超六成开发团队陷“盲飞”困境

热门文章

OpenCut

抖音创作者中心

小云雀AI

视频号助手

通义万相

朱雀AI检测助手

标签

探索分类

帮助与支持

联系我们

安装网站应用

小米开源OmniVoice多语言TTS模型覆盖600+语种性能达行业顶尖

OceanBase发布湖库一体AI数据库为AI Agent筑牢核心数据底座

AI落地缺标准化训练体系超六成开发团队陷“盲飞”困境