2026年3月19日,小米正式发布自研语音合成大模型Xiaomi MiMo-V2-TTS。该模型基于自研Audio Tokenizer及多码本语音-文本联合建模架构,经上亿小时语音数据大规模预训练,可实现从宏观风格到微观情绪的全维度精准调节,支持单句内情感转折、5种以上方言及高准度歌声合成,标志着小米在高表现力语音生成领域取得关键性突破。
你有没有过被智能助手生硬的朗读语气劝退的经历?不少用户吐槽,当前主流TTS(语音合成)产品要么风格僵化,要么情绪表达断层,甚至连方言适配都频频出错,根本无法满足拟人化交互的需求。小米此次推出的新模型,恰好瞄准了这一长期存在的行业痛点。
随着AI交互的普及,语音合成技术已经渗透到智能助手、车载导航、有声内容生产、无障碍读屏等多个场景,但现有技术的短板也愈发凸显。传统TTS模型大多只能实现固定风格的语音输出,无法适配复杂文本的情绪变化,方言适配往往需要单独采集数据训练,成本高且效果参差不齐,难以满足用户对自然语音交互的期待。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录