少找工具,多做创作

小米发布自研MiMo-V2-TTS大模型 语音合成实现情感级精准控制

2026年3月19日,小米正式发布自研语音合成大模型Xiaomi MiMo-V2-TTS。该模型基于自研Audio Tokenizer及多码本语音-文本联合建模架构,经上亿小时语音数据大规模预训练,可实现从宏观风格到微观情绪的全维度精准调节,支持单句内情感转折、5种以上方言及高准度歌声合成,标志着小米在高表现力语音生成领域取得关键性突破。

你有没有过被智能助手生硬的朗读语气劝退的经历?不少用户吐槽,当前主流TTS(语音合成)产品要么风格僵化,要么情绪表达断层,甚至连方言适配都频频出错,根本无法满足拟人化交互的需求。小米此次推出的新模型,恰好瞄准了这一长期存在的行业痛点。

随着AI交互的普及,语音合成技术已经渗透到智能助手、车载导航、有声内容生产、无障碍读屏等多个场景,但现有技术的短板也愈发凸显。传统TTS模型大多只能实现固定风格的语音输出,无法适配复杂文本的情绪变化,方言适配往往需要单独采集数据训练,成本高且效果参差不齐,难以满足用户对自然语音交互的期待。

MiMo-V2-TTS的核心优势,在于实现了从宏观风格定调到微观情绪颗粒度的全链路可控。依托自研Audio Tokenizer及多码本语音-文本联合建模架构,模型在上亿小时多类型语音数据的预训练中完成了对人类语音规律的深度拟合。

不同于传统模型只能实现整段内容的单一风格输出,MiMo-V2-TTS具备单句内语气转折与情感递变的能力,能高度还原人类说话的自然韵律,甚至可以生成音高、节奏均符合专业标准的歌声。

小米还为模型引入了多维度强化学习机制,平衡生成稳定性与表现力:模型可智能识别文本中的标点、语气词、强调标记等信号,无需额外人工标注即可转化为适配的语音表达。在跨地域适配层面,该模型已经支持东北话、四川话、河南话、粤语、台湾腔等多种方言,还可完成不同年龄、性格的角色化语音演绎。

作为小米语音技术路线图的关键里程碑,MiMo-V2-TTS的落地空间十分广阔。首先有望率先搭载到小米全品类智能设备中,为小爱同学带来更自然的交互体验,车载语音、无障碍读屏、有声书生成等场景的使用体验也将随之升级。此外,该模型的低标注成本特性,也为后续快速迭代多语种、更多小众方言支持提供了可能,未来甚至可能面向第三方开放相关能力,拓展更多语音生成的应用场景。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创