登录体验完整功能(收藏、点赞、评论等) —

智谱发布GLM-5V-Turbo多模态模型 拓展AI Agent视觉感知边界

2026年4月2日,智谱正式发布专为视觉编程打造的原生多模态Coding基座模型GLM-5V-Turbo。该模型融合视觉理解与代码生成能力,上下文窗口达200k,可将设计稿、网页界面等视觉信息转化为可运行代码,在多模态编程、GUI Agent等核心基准测试中实现同尺寸模型性能领先,填补了AI Agent从纯字符感知到视觉感知的技术空白。

做过前端开发的从业者大多有过类似痛点:拿到设计师输出的高保真设计稿后,往往要花数小时甚至数天还原页面样式,哪怕是修改营销页的局部需求,也要反复核对视觉细节、调整交互逻辑,大量精力消耗在低价值的对齐工作上。而智谱最新推出的这款模型,正在把这种低效的人力工作变成过去式。

作为国内首个专为视觉编程场景打造的原生多模态Coding基座,GLM-5V-Turbo最大的特点是实现了视觉-编程能力原生融合,而非传统多模态模型常见的“视觉模块+文本代码模块”拼接架构,大幅降低了视觉信息转译代码的误差率。

具体参数上,该模型将上下文窗口大幅扩展至200k,可以一次性载入一整个中大型项目的全部设计稿、需求文档和历史代码,生成的代码一致性更高,无需开发者反复拆分输入调整。同时,其视觉感知能力覆盖图片、视频、设计稿、复杂文档版面等多种形态,支持画框选区域、截图识别、网页内容读取等多种交互方式,适配不同开发场景的需求。

性能层面,在多模态Coding、GUI Agent等核心行业基准测试中,GLM-5V-Turbo以更小的参数量拿到了领先成绩,同时确保纯文本场景下的逻辑推理、代码生成能力没有出现退化,无需开发者为不同场景切换不同模型。

此前市场上的AI Agent大多仅具备纯字符感知能力,只能处理文本、代码等字符类输入,无法识别视觉信息,极大限制了其应用场景。而GLM-5V-Turbo的出现,相当于给AI Agent安上了“火眼金睛”,让其感知链路从单一的字符世界延伸到了丰富的视觉场景。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创