登录体验完整功能(收藏、点赞、评论等) — 已累计有 8667 人加入

让AI触手可及,让应用激发潜能

小米发布自研MiMo-V2-TTS大模型 语音合成实现情感级精准控制

2026年3月19日,小米正式发布自研语音合成大模型Xiaomi MiMo-V2-TTS。该模型基于自研Audio Tokenizer及多码本语音-文本联合建模架构,经上亿小时语音数据大规模预训练,可实现从宏观风格到微观情绪的全维度精准调节,支持单句内情感转折、5种以上方言及高准度歌声合成,标志着小米在高表现力语音生成领域取得关键性突破。

你有没有过被智能助手生硬的朗读语气劝退的经历?不少用户吐槽,当前主流TTS(语音合成)产品要么风格僵化,要么情绪表达断层,甚至连方言适配都频频出错,根本无法满足拟人化交互的需求。小米此次推出的新模型,恰好瞄准了这一长期存在的行业痛点。

随着AI交互的普及,语音合成技术已经渗透到智能助手、车载导航、有声内容生产、无障碍读屏等多个场景,但现有技术的短板也愈发凸显。传统TTS模型大多只能实现固定风格的语音输出,无法适配复杂文本的情绪变化,方言适配往往需要单独采集数据训练,成本高且效果参差不齐,难以满足用户对自然语音交互的期待。

MiMo-V2-TTS的核心优势,在于实现了从宏观风格定调到微观情绪颗粒度的全链路可控。依托自研Audio Tokenizer及多码本语音-文本联合建模架构,模型在上亿小时多类型语音数据的预训练中完成了对人类语音规律的深度拟合。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯
AI小创