2026年6月22日,京东正式开源全球首个全栈实时视频视觉语言交互模型JoyAI-VL-Interaction,该模型获得vLLM-Omni深度支持,突破传统AI视觉助手被动问答的响应逻辑,可实现持续观察视频流、智能判断交互时机的“边看边说”能力,可广泛应用于安防监控、直播解说、工业操作指导等对实时性要求较高的场景。
过去使用AI视频分析工具的用户大多有过类似体验:想要获取画面中的信息,必须先输入明确的提问指令,等待系统完成全段视频解析后才能得到反馈,不仅交互生硬,更无法适配对响应速度要求极高的场景。而京东最新开源的技术成果,正在彻底改变这一现状。
---
传统视频理解技术始终受限于“先上传、后分析”的固定流程,交互逻辑更是停留在“用户提问-AI响应”的单向模式。这种滞后性在不少场景中都暴露了明显短板:安防监控场景下,值守人员无法时刻紧盯屏幕,异常事件往往错过最佳处置时机;工业操作指导场景中,工人错误操作无法被及时预警,极易引发安全事故;直播解说场景下,AI无法跟上实时画面变化,只能提供提前预设的固定内容。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录