少找工具,多做创作

智谱发布GLM-5V-Turbo多模态编程模型 性能超Claude Opus4.6%

2026年4月2日,国产大模型厂商智谱正式发布旗下首个多模态Coding基座模型GLM-5V-Turbo,该模型具备“视觉+代码”跨模态生成能力,可基于草图、UI设计稿直接生成可运行前端工程,实测视觉编程性能较Claude Opus高出4.6%,是智谱在GLM-5-Turbo之后推出的又一编程类大模型迭代产品。

记者从实测案例中看到,用户仅上传一张潦草的手绘网页草稿照片,未附加任何尺寸标注、交互逻辑说明,GLM-5V-Turbo就能在10秒内输出包含HTML、CSS、JavaScript的完整前端代码,部署后即可还原草稿中的页面布局、按钮跳转等核心功能,元素位置匹配度超过92%。

此前主流的AI编程工具均以纯文本输入为核心交互逻辑,开发者需要将可视化的设计需求转化为文字描述prompt,不仅沟通成本高,还经常出现大模型对需求理解偏差的问题。随着前端开发、小程序开发等场景的需求爆发,“视觉输入直接生成代码”成为各大厂商攻坚的核心方向,此前Anthropic旗下的Claude Opus、OpenAI的GPT-4V均已上线相关能力,其中Claude Opus长期占据视觉编程赛道的性能榜首。

GLM-5V-Turbo是智谱在今年初发布的纯文本编程模型GLM-5-Turbo基础上迭代而来,新增了专门针对设计稿、手绘草图优化的视觉编码器,不需要额外OCR步骤就能直接识别页面元素的位置、属性、潜在交互逻辑。对比行业通用的“OCR识别+文本生成”两段式方案,其推理速度提升37%,元素识别错误率下降28%。在行业通用的视觉编程基准测试集上,GLM-5V-Turbo的综合得分较Claude Opus高出4.6%,登顶当前公开模型的视觉编程性能榜。

据智谱相关负责人透露,GLM-5V-Turbo的能力未来将覆盖前端网页、移动端应用、小程序等多场景的代码生成,中小开发团队仅靠设计师输出的原型图,就能快速生成可迭代的初版代码,整体开发周期可压缩60%以上。后续智谱还会将该模型能力接入公开开发者平台,开放API接口,同时和国内主流设计工具、低代码平台达成合作,打通从设计到上线的全流程工具链。

AI生成配图

(图像由AI生成)

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创