近日阿里巴巴通义千问团队正式推出多模态实时翻译模型Qwen3.5-LiveTranslate-Flash,该模型实现了覆盖60种语言的同步口译能力,端到端延迟仅2.8秒,同时支持实时语音克隆还原发言人音色,是开源实时多模态口译领域的重要突破,可广泛适配跨境商务会议、涉外文旅服务等多个落地场景。
刚结束的2026年全球数字贸易博览会上,不少使用传统实时口译设备的参展观众都吐槽,翻译语音往往要等对方说完两三秒才蹦出来,遇上带有口音的小语种发言更是错漏百出,体验远达不到流畅交流的标准。
随着近年跨境商务往来、国际会展活动、跨境直播电商的快速复苏,市场对低门槛、高体验的实时多语种翻译需求迎来爆发式增长。但过去很长一段时间里,商用级实时口译产品始终难以兼顾响应速度和语种覆盖度:主流产品的平均端到端延迟基本在3-7秒区间,语种覆盖数量大多卡在20到30种,大量中亚、东南亚、非洲的小众语言根本找不到成熟的实时翻译方案,很难满足细分场景的使用需求。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录