2026年4月2日,智谱正式发布专为视觉编程打造的原生多模态Coding基座模型GLM-5V-Turbo。该模型融合视觉理解与代码生成能力,上下文窗口达200k,可将设计稿、网页界面等视觉信息转化为可运行代码,在多模态编程、GUI Agent等核心基准测试中实现同尺寸模型性能领先,填补了AI Agent从纯字符感知到视觉感知的技术空白。
做过前端开发的从业者大多有过类似痛点:拿到设计师输出的高保真设计稿后,往往要花数小时甚至数天还原页面样式,哪怕是修改营销页的局部需求,也要反复核对视觉细节、调整交互逻辑,大量精力消耗在低价值的对齐工作上。而智谱最新推出的这款模型,正在把这种低效的人力工作变成过去式。
作为国内首个专为视觉编程场景打造的原生多模态Coding基座,GLM-5V-Turbo最大的特点是实现了视觉-编程能力原生融合,而非传统多模态模型常见的“视觉模块+文本代码模块”拼接架构,大幅降低了视觉信息转译代码的误差率。
具体参数上,该模型将上下文窗口大幅扩展至200k,可以一次性载入一整个中大型项目的全部设计稿、需求文档和历史代码,生成的代码一致性更高,无需开发者反复拆分输入调整。同时,其视觉感知能力覆盖图片、视频、设计稿、复杂文档版面等多种形态,支持画框选区域、截图识别、网页内容读取等多种交互方式,适配不同开发场景的需求。
性能层面,在多模态Coding、GUI Agent等核心行业基准测试中,GLM-5V-Turbo以更小的参数量拿到了领先成绩,同时确保纯文本场景下的逻辑推理、代码生成能力没有出现退化,无需开发者为不同场景切换不同模型。
此前市场上的AI Agent大多仅具备纯字符感知能力,只能处理文本、代码等字符类输入,无法识别视觉信息,极大限制了其应用场景。而GLM-5V-Turbo的出现,相当于给AI Agent安上了“火眼金睛”,让其感知链路从单一的字符世界延伸到了丰富的视觉场景。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
12 小时前
北京时间2026年5月19日,大模型独角兽Anthropic正式宣布对旗下两款核心AI产品Claude Design、Claude Code完成重磅功能升级。本次调整覆盖Pro、Max、Team、Enterprise全量订阅套餐,将所有付费用户的Token使用上限直接翻倍,同时将Claude Code快速模式的底层模型默认切换为最新Opus 4.7,不加价的前提下大幅降低创作者与开发者的使用门槛。

12 小时前
北京时间2026年5月19日,谷歌正式宣布由Gemini大模型驱动的Google AI Studio独立移动应用登陆Google Play商店,面向全球用户开放预注册,将原有桌面端AI开发平台的能力完整迁移至移动设备,零编程门槛的普通用户仅需自然语言描述创意,即可快速生成可直接运行的小程序原型,大幅降低轻量化AI应用的创作门槛。

17 小时前
2026年5月,英伟达正式发布首款专为Agentic AI设计的定制CPU Vera,目前产品已进入量产阶段,首批硬件由英伟达副总裁伊恩·巴克交付给OpenAI、Anthropic、甲骨文等核心客户。该CPU搭载88个自研奥林巴斯核心,内存带宽达1.2TB/s,性能较前代Grace提升50%,将为大规模智能体AI工作负载提供核心算力支撑。

17 小时前
2026年5月中旬,腾讯旗下数字阅读平台微信读书正式上线AI Skill功能,用户授权账号后即可通过自然语言交互完成查阅书架、分析阅读习惯、整理笔记、精准荐书等六大核心操作,将分散的个人阅读数据转化为可对话、可分析、可复用的智能资产,功能上线次日相关话题便登上国内社交平台热搜。

1 天前
开源LLM管理工具服务商LiteLLM近期发布面向企业生产场景的LiteLLM Agent Platform,该平台基于Kubernetes构建,主打两大核心能力:为AI Agent提供独立沙盒隔离机制,以及生产级持久会话管理功能。这一自托管基础设施层填补了开源领域针对AI Agent部署的专业生产级基础设施空白,解决企业在部署AI Agent时面临的环境隔离、会话数据安全与一致性痛点。

4 天前
2026年5月15日,人工智能公司xAI正式推出Agentic命令行工具Grok Build早期测试版,该产品定位智能开发助手,可实现项目结构分析、代码编写、错误调试、开发任务自动化等功能,目前仅向SuperGrok Heavy订阅用户开放,用户可通过x.ai/cli申请体验,后续将根据用户反馈快速迭代优化。

4 天前
2026年5月15日,阿里云正式发布智能开发产品Qoder1.0,完成从传统AI集成开发环境(IDE)到“智能体自主开发工作台”的战略升级。产品核心采用Agent-first工作范式,新增Quest独立视窗,重构Agent Harness底层技术,搭载首创的团队级知识引擎,实测可将代码保留率提升11%,大幅降低开发者处理工程细节的负担。

4 天前
2026年5月15日,QQ浏览器与腾讯元宝联合发布高考场景专属AI技能,首批上线地区分数线查询、一分一段查询核心功能,同时计划推出行业首个高考咨询师Agent“元宝高考通”。产品整合教育在线·掌上高考官方权威招考数据,旨在解决全国超1300万高考考生志愿填报普遍存在的信息差与数据可信度痛点。