少找工具,多做创作

Mistral发布全新开源语音生成模型 可直接运行于消费级移动设备

欧洲头部开源大模型厂商Mistral于2026年3月26日推出全新开源语音生成模型,该模型无需依赖云端算力,可直接在智能手表、智能手机等消费级端侧设备运行,填补了轻量开源语音生成模型的市场空白,为端侧语音交互应用开发提供了更低门槛的解决方案,预计将推动智能设备语音体验升级。

此次发布的模型是Mistral首次布局多模态语音领域的公开成果,区别于行业内多数依赖云端GPU算力的大体积语音生成模型,该模型经过定向压缩优化后,最低仅需480MB运行内存即可完成全量推理,哪怕是上市时间超过2年的中低端安卓智能手机,也能实现接近云端效果的实时语音生成。

过去几年,智能设备的语音交互功能始终受限于云端部署的桎梏:用户的语音指令需要上传到远端服务器处理,不仅会产生300ms到1s的延迟,在网络信号差的场景下完全无法使用,还存在语音数据泄露的隐私风险。而此前行业内的开源语音生成模型普遍参数规模偏大,最小也要3GB以上运行内存,根本无法在手机、手表这类内存有限的消费级设备上落地。

作为全球开源大模型领域的头部厂商,Mistral此前推出的Mistral 7B、Mixtral系列文本大模型,已经凭借轻量、高效的特性成为开发者首选的开源方案。此次发布的语音生成模型沿用了其成熟的模型压缩技术,在保障生成效果的前提下大幅降低了算力要求:支持24种主流语言的自然语音生成,语调拟真度超过91%,生成1分钟语音仅需0.8秒,推理速度比同效果的闭源模型快2倍以上。

更值得关注的是该模型完全开源的授权规则:开发者无需支付API授权费用,即可免费商用,也无需将用户数据上传至第三方服务器,完美适配对隐私性要求较高的应用场景。实测显示,该模型在普通智能手表上运行时,离线生成语音回复的延迟比云端方案低72%,基本实现了无感交互。

此前全球语音生成市场基本被OpenAI TTS、谷歌Text-to-Speech等闭源API垄断,中小开发者不仅要承担高额的调用成本,也无法根据自身需求对模型进行定制化微调。Mistral这款开源模型的推出,直接拉低了语音生成技术的应用门槛,预计将催生大量新的端侧语音应用,包括离线无障碍读屏工具、儿童陪伴机器人、实时多语言翻译设备等。

据Mistral内部人士透露,其团队目前已经在研发配套的语音识别、声纹定制开源模型,预计将在2026年下半年推出完整的端侧语音技术栈,进一步冲击闭源厂商的市场份额。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创