登录体验完整功能(收藏、点赞、评论等)

智谱发布GLM-5V-Turbo 多模态编程大模型打通视觉到代码链路

2026年4月2日,国内大模型厂商智谱正式推出专为视觉编程场景打造的多模态Coding基座模型GLM-5V-Turbo。该模型实现视觉与编程能力深度融合,支持图片、视频、设计稿、复杂文档版面识别,上下文窗口达200k,在多模态编程、GUI Agent核心基准测试中性能领先于同类产品,可大幅拓展AI Agent的感知边界。

敲代码前还要对着设计稿手动标注尺寸、对照数十页需求文档梳理交互逻辑的开发者,即将迎来大幅解放生产力的新工具。4月2日智谱面向开发者群体上线的GLM-5V-Turbo,直接砍掉了从视觉需求到可运行代码之间的大量冗余中间环节。

此前行业内的主流编程大模型大多以文本为核心输入载体,仅能处理文字化的需求指令,面对设计稿、界面截图、手绘原型这类视觉类需求,还需要开发者手动将视觉信息转化为文字描述,不仅效率低下,还很容易出现信息传递的偏差。而面向GUI交互的AI Agent,也长期受限于视觉感知能力不足,无法适配复杂的界面操作场景。

作为国内首个原生多模态Coding基座模型,GLM-5V-Turbo没有走通用多模态模型叠加代码能力、或是纯代码模型叠加视觉能力的拼接路线,而是从训练阶段就实现了视觉理解与代码生成能力的深度对齐。

该模型核心参数亮点突出:上下文窗口扩展至200k,可一次性载入完整的工程项目代码、数十页需求文档和全套设计规范;原生支持图片、视频、设计稿、复杂文档版面的识别理解,还支持画框选区域、截图输入、网页读取等多种视觉工具调用,实现对需求的精准感知。

据官方披露的测试数据,GLM-5V-Turbo在多模态编程、GUI Agent等核心基准测试中,以更小的参数规模取得了超越同类产品的表现,推理成本也远低于参数规模更大的同类产品。

GLM-5V-Turbo的上线,直接打通了从“视觉需求”到“可运行代码”的全链路,有望重构多个场景的工作流程。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创