欧洲头部开源大模型厂商Mistral于2026年3月26日推出全新开源语音生成模型,该模型无需依赖云端算力,可直接在智能手表、智能手机等消费级端侧设备运行,填补了轻量开源语音生成模型的市场空白,为端侧语音交互应用开发提供了更低门槛的解决方案,预计将推动智能设备语音体验升级。
此次发布的模型是Mistral首次布局多模态语音领域的公开成果,区别于行业内多数依赖云端GPU算力的大体积语音生成模型,该模型经过定向压缩优化后,最低仅需480MB运行内存即可完成全量推理,哪怕是上市时间超过2年的中低端安卓智能手机,也能实现接近云端效果的实时语音生成。
过去几年,智能设备的语音交互功能始终受限于云端部署的桎梏:用户的语音指令需要上传到远端服务器处理,不仅会产生300ms到1s的延迟,在网络信号差的场景下完全无法使用,还存在语音数据泄露的隐私风险。而此前行业内的开源语音生成模型普遍参数规模偏大,最小也要3GB以上运行内存,根本无法在手机、手表这类内存有限的消费级设备上落地。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录