2026年4月2日,智谱AI正式发布专为视觉编程场景打造的多模态大模型GLM-5V-Turbo。该模型突破纯文本AI编程的固有局限,可直接识别设计稿、网页截图输出可运行前端代码,搭载200k超长上下文窗口,接入后智谱旗下AutoClaw(龙虾)智能体获得原生视觉感知能力,将大幅降低前端开发门槛。
对前端开发者而言,设计稿还原向来是耗时最长、沟通成本最高的环节之一:设计师产出的Figma稿、手绘草图往往需要人工拆解布局、配色、交互逻辑,哪怕是3页以内的简单页面,完整还原往往也要花费数小时的时间,此前主流的AI编程工具只能处理文本输入,需要用户把视觉需求转成精准的文字描述,不仅精度难以保障,效率提升也十分有限。
随着企业数字化转型加速,中小商家、创业团队的页面开发需求持续上涨,但专业前端开发者的人力成本逐年走高,行业对AI编程工具的能力要求也从“能写代码”向“能懂需求”升级。此前GPT-4o等通用多模态模型虽然具备基础的图像识别能力,但并非针对编程场景优化,在组件层级识别、交互逻辑还原等细分任务上的准确率不足60%,难以满足商用需求。
此次发布的GLM-5V-Turbo采用原生多模态融合架构,完全跳出了纯文本AI编程的能力边界。不同于通用大模型“图文拆分识别后拼接”的处理逻辑,该模型可以直接“读懂”设计稿、手绘草图、网页截图等视觉输入,不仅能识别基础页面布局,还能精准捕捉配色规则、组件嵌套层级、甚至hover动效等细微的交互逻辑。
同时,该模型搭载200k超长上下文窗口,可以一次性载入完整的项目代码库,生成的代码无需额外调整就能融入现有项目,避免了过往AI生成代码“拆东墙补西墙”的问题。据智谱公布的测试数据,GLM-5V-Turbo在设计稿还原、视觉代码生成任务上的准确率超过92%,简单营销页面从上传设计稿到生成可运行代码仅需40秒,效率是传统开发模式的数十倍。
GLM-5V-Turbo的能力已经率先落地到智谱的智能体生态中。旗下AutoClaw(龙虾)智能体此前主打自动化代码编写、漏洞排查等文本类开发任务,接入GLM-5V-Turbo之后,首次具备了类人的视觉感知能力,可以像真实开发者一样直接浏览网页界面,无需人工转译需求就能识别页面bug、完成风格迭代,甚至可以自主参考同类产品的界面设计,生成符合用户预期的新页面。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
1 天前
2026年4月3日,美团技术团队正式发布原生多模态大模型LongCat-Next,该产品依托自主研发的DiNA(离散原生自回归)架构,突破传统“语言基座+插件”的拼凑式架构局限,实现图像、语音、文本的同源离散Token转化,视觉分词器压缩比达28倍,可原生实现对物理世界的“看”“听”能力,为多模态大模型发展提供了新的技术路径。

1 天前
2026年4月3日,Cursor团队正式推出代码编辑器Cursor 3版本,核心搭载智能体统一工作区,支持多智能体协同、本地与云端多代码仓库无缝切换,开发者可通过多终端启动智能体,将软件开发模式从传统人机协作升级为智能体自主工作阶段,可大幅降低跨环境开发的沟通与操作成本。

1 天前
2026年4月2日,国产大模型厂商智谱正式发布旗下首个多模态Coding基座模型GLM-5V-Turbo,该模型具备“视觉+代码”跨模态生成能力,可基于草图、UI设计稿直接生成可运行前端工程,实测视觉编程性能较Claude Opus高出4.6%,是智谱在GLM-5-Turbo之后推出的又一编程类大模型迭代产品。

1 天前
北京时间2026年4月3日,谷歌正式推出全新开源大模型Gemma4,该系列基于Gemini3技术栈打造,共包含2.3B、4.5B高效版及26B MoE、31B稠密版四种规格,全系支持多模态输入,高效版原生支持端侧实时语音理解,31B稠密版本在Arena AI文本榜单中位列全球开源模型第三,大幅降低前沿AI能力的本地部署门槛。

2 天前
2026年4月2日,阿里通义实验室正式推出大语言模型Qwen3.6-Plus,聚焦解决AI智能体编程任务执行不稳定的核心痛点。该模型现已通过阿里云百炼API开放调用,默认支持100万字符上下文窗口,模型尺寸不足K2.5、GLM-5的一半,在前端生成、代码修复等场景编码能力领先国内同尺寸模型。

2 天前
2026年4月2日,智谱正式发布专为视觉编程打造的原生多模态Coding基座模型GLM-5V-Turbo。该模型融合视觉理解与代码生成能力,上下文窗口达200k,可将设计稿、网页界面等视觉信息转化为可运行代码,在多模态编程、GUI Agent等核心基准测试中实现同尺寸模型性能领先,填补了AI Agent从纯字符感知到视觉感知的技术空白。

2 天前
2026年4月2日,字节跳动旗下云服务品牌火山引擎正式开启多模态视频生成模型Seedance 2.0的普通API客户申请通道,标志着该模型从限量邀测阶段转向广泛开放。Seedance 2.0支持文、图、音、视频四种输入模态,具备角色一致性保持、导演级镜头控制等能力,可覆盖短剧、电商营销、影视制作等多场景生产级需求。

2 天前
2026年4月2日,国内大模型厂商智谱正式推出专为视觉编程场景打造的多模态Coding基座模型GLM-5V-Turbo。该模型实现视觉与编程能力深度融合,支持图片、视频、设计稿、复杂文档版面识别,上下文窗口达200k,在多模态编程、GUI Agent核心基准测试中性能领先于同类产品,可大幅拓展AI Agent的感知边界。