2026年3月19日,小米正式发布自研语音合成大模型Xiaomi MiMo-V2-TTS。该模型基于自研Audio Tokenizer及多码本语音-文本联合建模架构,经上亿小时语音数据大规模预训练,可实现从宏观风格到微观情绪的全维度精准调节,支持单句内情感转折、5种以上方言及高准度歌声合成,标志着小米在高表现力语音生成领域取得关键性突破。
你有没有过被智能助手生硬的朗读语气劝退的经历?不少用户吐槽,当前主流TTS(语音合成)产品要么风格僵化,要么情绪表达断层,甚至连方言适配都频频出错,根本无法满足拟人化交互的需求。小米此次推出的新模型,恰好瞄准了这一长期存在的行业痛点。
随着AI交互的普及,语音合成技术已经渗透到智能助手、车载导航、有声内容生产、无障碍读屏等多个场景,但现有技术的短板也愈发凸显。传统TTS模型大多只能实现固定风格的语音输出,无法适配复杂文本的情绪变化,方言适配往往需要单独采集数据训练,成本高且效果参差不齐,难以满足用户对自然语音交互的期待。
MiMo-V2-TTS的核心优势,在于实现了从宏观风格定调到微观情绪颗粒度的全链路可控。依托自研Audio Tokenizer及多码本语音-文本联合建模架构,模型在上亿小时多类型语音数据的预训练中完成了对人类语音规律的深度拟合。
不同于传统模型只能实现整段内容的单一风格输出,MiMo-V2-TTS具备单句内语气转折与情感递变的能力,能高度还原人类说话的自然韵律,甚至可以生成音高、节奏均符合专业标准的歌声。
小米还为模型引入了多维度强化学习机制,平衡生成稳定性与表现力:模型可智能识别文本中的标点、语气词、强调标记等信号,无需额外人工标注即可转化为适配的语音表达。在跨地域适配层面,该模型已经支持东北话、四川话、河南话、粤语、台湾腔等多种方言,还可完成不同年龄、性格的角色化语音演绎。
作为小米语音技术路线图的关键里程碑,MiMo-V2-TTS的落地空间十分广阔。首先有望率先搭载到小米全品类智能设备中,为小爱同学带来更自然的交互体验,车载语音、无障碍读屏、有声书生成等场景的使用体验也将随之升级。此外,该模型的低标注成本特性,也为后续快速迭代多语种、更多小众方言支持提供了可能,未来甚至可能面向第三方开放相关能力,拓展更多语音生成的应用场景。

5 分钟前
2026年3月31日,小米创办人、董事长兼CEO雷军公开披露,旗下自研大模型MiMo-V2-Pro在权威大模型评测平台Text Arena的Model Rank维度跻身全球前五,位列Anthropic、OpenAI、Google之后。该评测采用双盲测试机制,由全球真实用户匿名投票排名,彻底杜绝传统评测常见的刷榜行为,排名含金量远高于常规专项数据集评测结果。

9 分钟前
2026年3月市场监测数据显示,此前因AI厂商算力需求暴涨持续走高的DRAM内存价格即将迎来回落。核心诱因是OpenAI调整战略缩减开支,此前其曾向三星、SK海力士采购合计90万片DRAM晶圆推高市场缺口,如今其砍单数据中心基建、重估与甲骨文的合作协议,叠加迪士尼等企业放弃AI相关大额投资,直接缓解了内存供给紧张状况。

15 分钟前
2026年3月31日,国内头部大模型厂商智谱发布2025年度业绩报告,全年实现营收7.24亿元,同比增长132%,综合毛利率达41%远超行业平均水平。核心增长引擎MaaS API平台年度经常性收入达17亿元,同比暴增60倍。2026年一季度公司将API价格上调83%后未出现客户流失,调用量逆势上行,商业化路径跑通领跑国内AGI赛道。

1 小时前
2026年3月,比利时布鲁塞尔自由大学发布研究成果显示,OpenAI旗下ChatGPT-5.2(Thinking)成功破解数学家Ran与Teng2024年提出的悬而未决数学猜想,成为首个可独立生成原创数学证明的商用大模型。该突破标志大语言模型能力边界拓展至高逻辑要求的理论数学领域,全新科研模式“氛围证明”也随之进入公众视野。

2 小时前
2026年3月31日,DeepMind创始人、“DeepMind之父”德米斯·哈萨比斯公开发声,警告当前在研的超级人工智能存在导致人类灭绝的潜在风险,全球范围内的AI研发竞赛已进入不可逆的失控状态,传统外部治理手段难以实现有效管控,这一表态引发科技界对AI安全窗口期快速收窄的普遍担忧。

2 小时前
2026年3月,由开源框架OpenClaw引发的AI智能体“龙虾大战”已进入白热化阶段,当前市场已涌现超20款相关产品,月费覆盖19元至899元区间,腾讯、字节跳动、华为、小米等多领域厂商均已入局。这类产品可直接获取系统权限执行任务,覆盖文档处理、办公生态集成等场景,标志着AI正式从“建议者”转向“执行者”。

3 小时前
2026年3月31日,微软正式为Microsoft 365 Copilot的研究员工具模块上线全新Critique功能,首次实现OpenAI GPT与Anthropic Claude两大主流大模型跨生态协同工作,搭配独创的“理事会”多智能体校验机制,经DRACO测试验证,其复杂学术任务处理效果显著优于任意单一模型,可大幅降低AI生成内容的幻觉发生率。

3 小时前
2026年3月31日,小米正式发布搭载HyperOS 4设计语言的原生智能键盘,将深度AI能力直接植入输入法核心,新增AI聊天、多语种自动检测实时翻译两大核心AI功能,同时在按键设计、自定义权限、交互反馈等维度完成全面升级,打破传统输入法单一输入属性,重构移动端指尖交互体验。