登录体验完整功能(收藏、点赞、评论等) — 已累计有 12155 人加入

京东开源全球首个全栈实时视频交互模型 告别被动问答模式

详情页推荐

2026年6月22日,京东正式开源全球首个全栈实时视频视觉语言交互模型JoyAI-VL-Interaction,该模型获得vLLM-Omni深度支持,突破传统AI视觉助手被动问答的响应逻辑,可实现持续观察视频流、智能判断交互时机的“边看边说”能力,可广泛应用于安防监控、直播解说、工业操作指导等对实时性要求较高的场景。

过去使用AI视频分析工具的用户大多有过类似体验:想要获取画面中的信息,必须先输入明确的提问指令,等待系统完成全段视频解析后才能得到反馈,不仅交互生硬,更无法适配对响应速度要求极高的场景。而京东最新开源的技术成果,正在彻底改变这一现状。

---

传统视频理解技术始终受限于“先上传、后分析”的固定流程,交互逻辑更是停留在“用户提问-AI响应”的单向模式。这种滞后性在不少场景中都暴露了明显短板:安防监控场景下,值守人员无法时刻紧盯屏幕,异常事件往往错过最佳处置时机;工业操作指导场景中,工人错误操作无法被及时预警,极易引发安全事故;直播解说场景下,AI无法跟上实时画面变化,只能提供提前预设的固定内容。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。