2026年4月2日,国内大模型厂商智谱正式推出专为视觉编程场景打造的多模态Coding基座模型GLM-5V-Turbo。该模型实现视觉与编程能力深度融合,支持图片、视频、设计稿、复杂文档版面识别,上下文窗口达200k,在多模态编程、GUI Agent核心基准测试中性能领先于同类产品,可大幅拓展AI Agent的感知边界。
敲代码前还要对着设计稿手动标注尺寸、对照数十页需求文档梳理交互逻辑的开发者,即将迎来大幅解放生产力的新工具。4月2日智谱面向开发者群体上线的GLM-5V-Turbo,直接砍掉了从视觉需求到可运行代码之间的大量冗余中间环节。
此前行业内的主流编程大模型大多以文本为核心输入载体,仅能处理文字化的需求指令,面对设计稿、界面截图、手绘原型这类视觉类需求,还需要开发者手动将视觉信息转化为文字描述,不仅效率低下,还很容易出现信息传递的偏差。而面向GUI交互的AI Agent,也长期受限于视觉感知能力不足,无法适配复杂的界面操作场景。
作为国内首个原生多模态Coding基座模型,GLM-5V-Turbo没有走通用多模态模型叠加代码能力、或是纯代码模型叠加视觉能力的拼接路线,而是从训练阶段就实现了视觉理解与代码生成能力的深度对齐。
该模型核心参数亮点突出:上下文窗口扩展至200k,可一次性载入完整的工程项目代码、数十页需求文档和全套设计规范;原生支持图片、视频、设计稿、复杂文档版面的识别理解,还支持画框选区域、截图输入、网页读取等多种视觉工具调用,实现对需求的精准感知。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录