2026年4月2日,智谱AI正式发布专为视觉编程场景打造的多模态大模型GLM-5V-Turbo。该模型突破纯文本AI编程的固有局限,可直接识别设计稿、网页截图输出可运行前端代码,搭载200k超长上下文窗口,接入后智谱旗下AutoClaw(龙虾)智能体获得原生视觉感知能力,将大幅降低前端开发门槛。
对前端开发者而言,设计稿还原向来是耗时最长、沟通成本最高的环节之一:设计师产出的Figma稿、手绘草图往往需要人工拆解布局、配色、交互逻辑,哪怕是3页以内的简单页面,完整还原往往也要花费数小时的时间,此前主流的AI编程工具只能处理文本输入,需要用户把视觉需求转成精准的文字描述,不仅精度难以保障,效率提升也十分有限。
随着企业数字化转型加速,中小商家、创业团队的页面开发需求持续上涨,但专业前端开发者的人力成本逐年走高,行业对AI编程工具的能力要求也从“能写代码”向“能懂需求”升级。此前GPT-4o等通用多模态模型虽然具备基础的图像识别能力,但并非针对编程场景优化,在组件层级识别、交互逻辑还原等细分任务上的准确率不足60%,难以满足商用需求。
此次发布的GLM-5V-Turbo采用原生多模态融合架构,完全跳出了纯文本AI编程的能力边界。不同于通用大模型“图文拆分识别后拼接”的处理逻辑,该模型可以直接“读懂”设计稿、手绘草图、网页截图等视觉输入,不仅能识别基础页面布局,还能精准捕捉配色规则、组件嵌套层级、甚至hover动效等细微的交互逻辑。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录