2026年4月2日,智谱正式发布专为视觉编程打造的原生多模态Coding基座模型GLM-5V-Turbo。该模型融合视觉理解与代码生成能力,上下文窗口达200k,可将设计稿、网页界面等视觉信息转化为可运行代码,在多模态编程、GUI Agent等核心基准测试中实现同尺寸模型性能领先,填补了AI Agent从纯字符感知到视觉感知的技术空白。
做过前端开发的从业者大多有过类似痛点:拿到设计师输出的高保真设计稿后,往往要花数小时甚至数天还原页面样式,哪怕是修改营销页的局部需求,也要反复核对视觉细节、调整交互逻辑,大量精力消耗在低价值的对齐工作上。而智谱最新推出的这款模型,正在把这种低效的人力工作变成过去式。
作为国内首个专为视觉编程场景打造的原生多模态Coding基座,GLM-5V-Turbo最大的特点是实现了视觉-编程能力原生融合,而非传统多模态模型常见的“视觉模块+文本代码模块”拼接架构,大幅降低了视觉信息转译代码的误差率。
具体参数上,该模型将上下文窗口大幅扩展至200k,可以一次性载入一整个中大型项目的全部设计稿、需求文档和历史代码,生成的代码一致性更高,无需开发者反复拆分输入调整。同时,其视觉感知能力覆盖图片、视频、设计稿、复杂文档版面等多种形态,支持画框选区域、截图识别、网页内容读取等多种交互方式,适配不同开发场景的需求。
性能层面,在多模态Coding、GUI Agent等核心行业基准测试中,GLM-5V-Turbo以更小的参数量拿到了领先成绩,同时确保纯文本场景下的逻辑推理、代码生成能力没有出现退化,无需开发者为不同场景切换不同模型。
此前市场上的AI Agent大多仅具备纯字符感知能力,只能处理文本、代码等字符类输入,无法识别视觉信息,极大限制了其应用场景。而GLM-5V-Turbo的出现,相当于给AI Agent安上了“火眼金睛”,让其感知链路从单一的字符世界延伸到了丰富的视觉场景。
最直接的落地场景就是前端开发链路:不管是设计师输出的Figma高保真稿、产品经理手绘的原型草图,还是用户截取的竞品网站界面,只要上传给搭载GLM-5V-Turbo的工具,就能在几分钟内生成可直接运行的前端代码,视觉还原度可达到90%以上。此外,具备视觉感知能力的GUI Agent还可以直接操作各类软件界面,完成自动化测试、RPA流程执行、运维界面巡检等此前需要人工操作的工作。
当前大模型在编程领域的落地,大多还停留在“文本需求生成代码”的阶段,而涉及视觉还原的前端开发、UI交互类场景,始终是AI落地的难点。GLM-5V-Turbo的发布,相当于打通了视觉信息到代码的转译链路,有望重构现有软件开发的协作流程。
据了解,目前已有多家低代码平台、AI Agent服务商正在对接GLM-5V-Turbo的能力,未来普通用户哪怕不懂代码,只要画出草图就能生成自己需要的小程序、营销页、内部工具,软件开发的门槛将进一步降低,相关行业的生产力有望得到大幅释放。

(图像由AI生成)

5 小时前
4月2日阿里正式推出新一代大语言模型Qwen3.6-Plus,作为Qwen3.6系列首个落地模型,其默认支持100万上下文窗口,重点升级编程、智能体Agent、工具调用三大核心能力,适配主流Agent框架与编程工具,实测可8分钟完成官网开发,后续千问团队工作重心将全面转向Qwen3.6系列的整体发布。

7 小时前
近日谷歌宣布调整AI Pro订阅服务权益,所有已付费的AI Pro订阅用户无需额外支付费用,即可将原有云存储空间升级至5TB。该订阅服务包含Gemini Advanced大模型使用权限、Google Workspace AI增强功能等权益,本次升级覆盖全球超百万活跃付费用户,预计将进一步提升谷歌AI订阅产品的市场竞争力。

8 小时前
近期海外科技媒体InfoWorld发布企业级语音AI Agent落地调研报告,指出当前68%的企业用户弃用内置语音AI工具的核心原因是交互体验生硬,而非功能不足,办公场景下语音AI的「拟人化」交互体验优化优先级已远超算法迭代,成为厂商争夺企业级AI市场的核心赛道。

8 小时前
国际开源Java开发框架Spring正式推出Spring AI专属开发套件,支持开发者沿用Spring原生开发约定,无需额外学习Python栈AI开发技术,即可快速搭建可落地的Java语言AI Agent,据官方测试数据,同复杂度AI Agent的开发周期可缩短62%,目前该工具包已面向全球开发者开放正式版下载。

10 小时前
2026年4月2日,国内民航出行服务平台航旅纵横正式上线AI预订机酒功能,依托AI大模型与AI Agent技术能力,用户仅需通过自然语言输入出行需求,系统即可自动完成机票、酒店的搜索、筛选、推荐全链路操作,无需手动比对勾选,大幅降低用户决策与操作成本,成为垂直领域AI落地业务执行场景的典型样本。

14 小时前
2026年4月2日,AI搜索初创公司Perplexity AI在美国旧金山联邦法院遭遇集体诉讼,被指控未经用户许可,即便用户开启专属隐身模式,仍通过内置追踪器向Meta、Google共享包含财务、税务信息在内的敏感聊天内容。目前Perplexity发言人杰西·德怀尔称尚未收到正式诉讼文件,Meta称其政策严禁广告商提交敏感数据,谷歌暂未作出回应。

14 小时前
2026年4月2日,字节跳动旗下云服务品牌火山引擎正式开启多模态视频生成模型Seedance 2.0的普通API客户申请通道,标志着该模型从限量邀测阶段转向广泛开放。Seedance 2.0支持文、图、音、视频四种输入模态,具备角色一致性保持、导演级镜头控制等能力,可覆盖短剧、电商营销、影视制作等多场景生产级需求。

15 小时前
2026年4月2日,腾讯QQ宣布正式原生接入开源AI框架OpenClaw(别名“小龙虾”),此次技术整合由腾讯轻量云与QQ团队联合主导,官方内置QQ Bot插件随OpenClaw v2026.3.31版本同步上线,核心代码已并入OpenClaw主仓库。该插件支持私聊、多媒体消息交互及多账号管理,大幅简化AI Bot部署流程,标志着即时通讯与生成式AI生态融合进入新阶段。