2026年3月16日,IBM正式发布专为边缘计算与企业级部署打造的紧凑型多模态语音大模型Granite 4.0 1B Speech。该模型参数量仅为前代产品的50%,性能实现显著跃升,新增日语自动语音识别、关键词偏置功能,英文转录准确率大幅提升,目前已支持6种主流语言的语音识别与双向互译。
对于大量布局线下语音交互场景的企业而言,语音大模型的落地长期面临两难选择:云端部署存在传输延迟高、敏感数据泄露风险等问题,端侧部署则受限于终端算力,往往要在模型准确率和运行效率之间做取舍。IBM此次推出的新语音模型,恰好击中了这一长期存在的市场痛点。
近年来,零售门店智能客服、工业设备语音操控、线下网点实时翻译等场景的需求持续增长,这类场景普遍要求语音交互能力在本地运行,既不能有过高的延迟,也不能将用户语音数据上传至云端处理。过往行业内的同级别语音模型要么参数过大无法在普通边缘终端运行,要么为了压缩体积牺牲了识别准确率,无法满足企业级场景的可靠性要求。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录