登录体验完整功能(收藏、点赞、评论等)

少找工具,多做创作

小米发布自研MiMo-V2-TTS大模型 语音合成迈入全能声优时代

2026年3月19日,小米正式发布自研语音合成大模型MiMo-V2-TTS,该模型依托小米自研音频分词器与多码本语音-文本联合建模架构,经上亿小时语音数据预训练,具备情感精细化调节、多类方言生成、高质量歌声合成等能力,实现了语音合成技术从机械复读到情感共鸣的质的跨越。

如果你曾吐槽过智能设备的语音播报像“机械念稿”、导航语音情绪永远平得像白开水,小米这次的新模型或许能彻底改变这种固有印象。3月19日小米相关活动现场放出的演示视频里,MiMo-V2-TTS生成的语音既能模仿长辈唠家常的松弛感,也能一秒切换成播音腔念新闻,甚至能模仿喜剧演员的语气耍宝,表现效果几度超出现场观众预期。

和上一代语音合成模型普遍依赖单一文本-语音映射逻辑不同,MiMo-V2-TTS采用了小米自研的Audio Tokenizer音频分词器与多码本语音-文本联合建模架构,这一设计让模型不再是简单的“拼字发音”,而是能捕捉到人类语音里的韵律、停顿、情绪起伏等隐性细节。
上亿小时多来源语音数据的预训练,更是让模型积累了覆盖不同年龄、地域、场景的人类语音样本库,为多风格、高精度的语音生成打下了坚实基础。

目前公开的测试结果显示,MiMo-V2-TTS的能力已经覆盖“演、说、唱”三大核心场景,实用性远超行业现有同类型产品。

在日常对话场景中,它支持从整体定调到局部情绪的精准调节,甚至能实现同一句话内的语气自然转折,比如带着笑意说一句吐槽的话,委屈感里带点不服气的回应,这些过去AI语音很难实现的细腻表达,现在都能稳定输出。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创