2026年4月2日,国产大模型厂商智谱正式发布旗下首个多模态Coding基座模型GLM-5V-Turbo,该模型具备“视觉+代码”跨模态生成能力,可基于草图、UI设计稿直接生成可运行前端工程,实测视觉编程性能较Claude Opus高出4.6%,是智谱在GLM-5-Turbo之后推出的又一编程类大模型迭代产品。
记者从实测案例中看到,用户仅上传一张潦草的手绘网页草稿照片,未附加任何尺寸标注、交互逻辑说明,GLM-5V-Turbo就能在10秒内输出包含HTML、CSS、JavaScript的完整前端代码,部署后即可还原草稿中的页面布局、按钮跳转等核心功能,元素位置匹配度超过92%。
此前主流的AI编程工具均以纯文本输入为核心交互逻辑,开发者需要将可视化的设计需求转化为文字描述prompt,不仅沟通成本高,还经常出现大模型对需求理解偏差的问题。随着前端开发、小程序开发等场景的需求爆发,“视觉输入直接生成代码”成为各大厂商攻坚的核心方向,此前Anthropic旗下的Claude Opus、OpenAI的GPT-4V均已上线相关能力,其中Claude Opus长期占据视觉编程赛道的性能榜首。
GLM-5V-Turbo是智谱在今年初发布的纯文本编程模型GLM-5-Turbo基础上迭代而来,新增了专门针对设计稿、手绘草图优化的视觉编码器,不需要额外OCR步骤就能直接识别页面元素的位置、属性、潜在交互逻辑。对比行业通用的“OCR识别+文本生成”两段式方案,其推理速度提升37%,元素识别错误率下降28%。在行业通用的视觉编程基准测试集上,GLM-5V-Turbo的综合得分较Claude Opus高出4.6%,登顶当前公开模型的视觉编程性能榜。
据智谱相关负责人透露,GLM-5V-Turbo的能力未来将覆盖前端网页、移动端应用、小程序等多场景的代码生成,中小开发团队仅靠设计师输出的原型图,就能快速生成可迭代的初版代码,整体开发周期可压缩60%以上。后续智谱还会将该模型能力接入公开开发者平台,开放API接口,同时和国内主流设计工具、低代码平台达成合作,打通从设计到上线的全流程工具链。

(图像由AI生成)

3 小时前
北京时间2026年4月3日,谷歌正式推出全新开源大模型Gemma4,该系列基于Gemini3技术栈打造,共包含2.3B、4.5B高效版及26B MoE、31B稠密版四种规格,全系支持多模态输入,高效版原生支持端侧实时语音理解,31B稠密版本在Arena AI文本榜单中位列全球开源模型第三,大幅降低前沿AI能力的本地部署门槛。

3 小时前
2026年4月,Anthropic因人为操作失误引发的Claude Code源码泄露事件持续发酵。安全厂商Zscaler监测发现,黑客借该热点在GitHub搭建多个虚假仓库,以“解锁企业功能”的泄露版源码为诱饵传播Vidar信息窃取恶意软件,且恶意仓库经SEO优化位居相关关键词搜索结果前列,大量开发者面临窃密风险。

3 小时前
2026年4月,Anthropic旗下AI终端编码工具Claude Code因人为操作失误泄露51.3万行前端源码,引发严重次生安全危机。黑客在GitHub搭建大量虚假代码仓库,以“解锁版”“完整泄露版”源码为诱饵诱导开发者下载,活跃攻击者idbzoomh传播的恶意程序内嵌Vidar木马,可窃取账号密码、加密货币钱包等核心隐私,目前安全机构已介入监测。

19 小时前
2026年4月2日,阿里巴巴正式发布新一代大语言模型千问3.6-Plus。该模型配备100万token长上下文窗口,在多项权威编程评测中位居国产模型首位,整体编程能力接近全球标杆Claude系列,可自主完成前端开发、复杂仓库任务、设计稿转网页等需求,被业内称为当前最强国产编程大模型。

19 小时前
2026年4月2日,阿里通义实验室正式推出大语言模型Qwen3.6-Plus,聚焦解决AI智能体编程任务执行不稳定的核心痛点。该模型现已通过阿里云百炼API开放调用,默认支持100万字符上下文窗口,模型尺寸不足K2.5、GLM-5的一半,在前端生成、代码修复等场景编码能力领先国内同尺寸模型。

19 小时前
2026年4月2日,智谱正式发布专为视觉编程打造的原生多模态Coding基座模型GLM-5V-Turbo。该模型融合视觉理解与代码生成能力,上下文窗口达200k,可将设计稿、网页界面等视觉信息转化为可运行代码,在多模态编程、GUI Agent等核心基准测试中实现同尺寸模型性能领先,填补了AI Agent从纯字符感知到视觉感知的技术空白。

21 小时前
2026年4月2日,AI大模型厂商Anthropic被曝正为旗下核心产品Claude开发代号为“龙虾”的常驻智能代理Conway。该产品支持独立工作UI、Webhook事件唤醒、浏览器直接操作与代码执行能力,还将推出CNW ZIP自定义扩展标准,开放开发者生态,打破传统AI聊天框的交互局限。

1 天前
2026年4月2日,字节跳动旗下云服务品牌火山引擎正式开启多模态视频生成模型Seedance 2.0的普通API客户申请通道,标志着该模型从限量邀测阶段转向广泛开放。Seedance 2.0支持文、图、音、视频四种输入模态,具备角色一致性保持、导演级镜头控制等能力,可覆盖短剧、电商营销、影视制作等多场景生产级需求。