2026年4月,小米下一代Kaldi团队(k2-fsa)正式开源超大规模多语言零样本文本转语音(TTS)模型OmniVoice,支持超600种语言语音合成。该模型多项指标达行业最优(SOTA),中文测试集词错误率(WER)低至0.84%,多语言表现超越ElevenLabs v2、MiniMax等主流商用模型,推理速度较实时快40倍,为小语种语音留存、跨境内容生产等场景提供全新技术支撑。
在全球文化数字化、跨境服务需求爆发的当下,多语言语音合成技术的覆盖广度、性能表现一直是制约行业落地的核心瓶颈。此前主流商用TTS模型最多支持百余种语言,大量使用人口少、语料储备不足的小语种,始终缺乏低成本的语音数字化路径。小米本次开源的OmniVoice,恰恰填补了这一市场空白。
---
此次发布的OmniVoice由小米深耕语音技术多年的k2-fsa团队研发,该团队此前主导的Kaldi开源语音框架,是全球语音领域应用最广的基础工具之一,拥有深厚的技术积累。
在官方披露的测试数据中,OmniVoice在Seed-TTS中文测试集上的**词错误率(WER)仅为0.84%**,相当于每合成100个汉字仅出现不到1个识别错误,语音辨识度接近真人发音水平。在多语言基准测试中,其语音相似度、词错误率两项核心指标均超越ElevenLabs v2、MiniMax等全球主流商用TTS模型,自然度表现跻身第一梯队。
推理效率方面,OmniVoice的实时因子(RTF)低至0.025,**合成速度较实时快40倍**,也就是说生成1分钟的语音内容仅需1.5秒,完全满足实时交互、批量内容生产等场景的效率要求。
---
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
1 天前
2026年4月,被Claude官方封禁接口的AI开发框架OpenClaw正式上线4.5版本,由创始人Peter(业内称“龙虾之父”)带队研发,本次更新移除新用户默认后端中的Claude CLI,重构梦境记忆系统,新增内置视频、图像、音乐生成功能,Claude Code之父Boris Cherny也现身该版本发布相关讨论,事件引发AI开发者圈广泛关注。

1 天前
英伟达近期完成对开源集群调度工具Slurm的开发主体SchedMD的收购,引发全球AI计算领域对开源工具商业独立性的广泛讨论。据行业调研数据,当前全球超70%的AI训练GPU集群采用Slurm作为调度核心,其中近六成集群搭载多品牌异构GPU,此次收购后Slurm的开源属性与路线适配性成为企业用户核心关切。

5 天前
2026年4月3日,小米正式官宣为旗下MiMo大模型推出首个Token订阅套餐,共设Lite、Standard、Pro、Max四档,定价从39元/月到659元/月不等,面向开发者及AI深度兴趣群体提供服务,任意档位订阅均可解锁MiMo家族三大核心模型的调用权限,此举标志着小米AI生态正式进入商业化付费阶段。

5 天前
2026年3月底小米正式面向全球开发者推出自研MiMo大模型首个Token Plan订阅套餐,共设四档月费39元至659元,通过统一Credit点数实现多模型多模态调用透明计费。旗下MiMo-V2-Pro模型以万亿参数、百万上下文窗口位列全球大模型评测第五,目前MiMo系列周调用量已突破4万亿Token,此举标志小米AI商业化进入规模化交付阶段。

6 天前
2026年4月2日,基于Java开发的国产开源LLMOps平台Maxkb4j正式发布v2.6.0版本。本次更新在技能扩展、安全鉴权、系统稳定性三大维度完成升级,新增Shell工具集成、Webhook Token鉴权等核心功能,同步升级langchain4j版本,为开发者搭建LLM工作流、开发RAG相关应用提供更强底层支撑。

7 天前
2026年4月2日,美团LongCat团队正式发布并开源端到端音频生成模型LongCat-AudioDiT,提供1B、3.5B两个参数版本。该模型首创波形潜空间直接建模架构,摒弃传统TTS系统的梅尔频谱中间表征,搭载全卷积设计的Wav-VAE可将24kHz波形压缩2000倍至11.7Hz帧率,大幅降低信息损耗与误差累积,成功刷新零样本音色克隆性能SOTA。

7 天前
2026年4月1日,高德正式全量开源全球首个统一架构机器人具身操作基座模型ABot-M0,该模型旨在以“一个通用大脑适配多形态机器人”,打破异构硬件壁垒。其在Libero-Plus基准测试中任务成功率达80.5%,较此前行业标杆Pi0提升近30%,同时开源覆盖数据、算法、预训练模型三大维度,推动具身智能落地提速。

8 天前
2026年3月31日,小米正式发布搭载HyperOS 4设计语言的原生智能键盘,将深度AI能力直接植入输入法核心,新增AI聊天、多语种自动检测实时翻译两大核心AI功能,同时在按键设计、自定义权限、交互反馈等维度完成全面升级,打破传统输入法单一输入属性,重构移动端指尖交互体验。