少找工具,多做创作

Speechify推出原生Windows语音助手 算力本地化挑战系统级听写

2026年4月,语音AI领军企业Speechify正式发布原生Windows客户端,从单一文本转语音工具升级为全栈语音助手。该产品集成三类本地AI模型,支持跨应用实时听写与文档转录,对标竞品Superwhisper,在Copilot+ PC等高性能设备上可依托本地NPU/GPU驱动的Whisper模型实现完全本地化运行,兼顾响应速度与数据隐私。

不少办公群体都有过类似困扰:会议录音转写要上传云端等待数分钟,敏感内容担心泄露,系统自带的听写功能识别准确率低、无法适配专业术语,第三方语音工具又经常出现跨应用调用卡顿的问题。Speechify此次推出的原生Windows客户端,恰恰瞄准了这些长期存在的用户痛点。

长期以来,消费级语音交互工具分为两大路线:一类依托云端算力运行,识别精度高但存在明显延迟,且用户音频数据上传至服务商服务器,很容易引发隐私泄露风险,尤其不适用于企业会议、法务访谈等敏感场景;另一类本地运行的工具往往受限于设备算力,识别精度低、功能单一,仅能满足简单的输入需求。

此前Speechify的核心产品是文本转语音工具,主打自然拟人化的朗读效果,全球累计用户突破数千万,在阅读辅助、通勤听书等场景拥有极高的市场占有率。而此次切入语音输入赛道,直接对标的是主打本地听写的Superwhisper,以及Windows系统自带的听写功能,有望填补高准确率、高隐私性语音工具的市场空白。

此次发布的Windows客户端最大的亮点,是完全本地化运行的技术架构:用户无需上传任何音频数据至云端,所有计算都在设备本地完成,从根源上杜绝了数据泄露的可能。在搭载高通骁龙X系列芯片的Copilot+ PC设备上,应用可直接调用本地NPU算力运行核心模型,响应速度远快于云端方案,即使是离线状态也能正常使用。

为了覆盖全场景语音需求,Speechify采用了三位一体的本地模型组合:第一套是经过优化的神经网络文本转语音模型,延续了其此前的核心优势,可将转录后的文本、本地文档内容转换为自然流畅的语音输出;第二套是语音活动检测(VAD)模型,可精准识别用户说话的起止时间,自动过滤背景噪音和空白片段,大幅提升输入效率;第三套是经过微调的Whisper大模型,支持多语种、带口音的语音识别,转录准确率可达98%以上,还能自动对会议录音进行分段、提取核心要点生成总结。

基于这套架构,该应用实现了全系统的跨场景适配:用户不管是在Word中编辑文档、在浏览器中填写表单,还是在线上会议中记录内容,都可以随时调用听写功能,无需在不同应用之间切换。

随着Copilot+ PC的快速普及,消费级设备的NPU算力已经达到了运行中大型AI模型的水平,算力本地化正在成为AI应用的重要发展趋势。和云端方案相比,端侧运行的AI应用不仅隐私性更强、响应速度更快,还能大幅降低服务商的带宽和算力成本,最终让利于用户。

Speechify相关负责人表示,接下来团队还将进一步优化模型体积,让更低配置的Windows设备也能运行全功能的本地语音助手,同时还将上线自定义术语库、多角色识别等面向办公场景的功能,抢夺Windows端语音交互的入口级地位。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创