登录体验完整功能(收藏、点赞、评论等) —

让AI触手可及,让应用激发潜能

谷歌DeepMind发布TIPSv2 破解AI视觉模型局部识别痛点

2026年4月16日,谷歌DeepMind公布最新AI视觉领域研究成果TIPSv2,瞄准当前视觉-语言大模型“全局理解强、局部定位弱”的行业通病。该技术基于研究发现的“小参数量学生模型精细分割表现反超大教师模型”结论改进训练方案,可帮助AI精准定位图像局部细节,解决了领域内长期悬而未决的精细分割难题。

如果你问AI“这张图片里有什么”,大多数主流视觉大模型都能答得头头是道,但如果追问一句“图里那只熊猫的左后腿在哪个位置”,多半会得到含糊不清的回答。这个看似简单的问题,已经困扰视觉-语言大模型领域多年。

当前主流视觉-语言大模型在全局语义理解任务上已经逼近甚至超越人类水平,无论是概括图片内容还是完成通用图文问答,表现都可圈可点。但只要涉及需要精准定位的细粒度任务,现有模型的短板就会立刻暴露——这种“全局强、局部弱”的特征,并非某款模型的个别问题,而是整个领域的共性痛点

谷歌DeepMind研究团队在调研中发现了一个反直觉的现象:在精细分割任务上,参数量更少的“学生模型”,表现居然经常碾压体量更大的“教师模型”。深挖原因后团队找到问题核心:知识蒸馏过程移除了传统预训练的遮盖机制,迫使模型学习整张图像的所有细节,形成了有效的“全区域监督”,而传统大模型的训练机制天生缺少对未遮盖区域局部细节的监督。

基于这一核心发现,谷歌DeepMind团队推出了专门解决局部识别难题的TIPSv2方案,围绕全区域监督做出了多项关键改进。其中最核心的调整就是全新的iBOT++预训练框架,改变了传统预训练仅对遮盖区域计算损失的规则,将监督覆盖到了图像的每一个区域,迫使模型在训练阶段就关注所有局部细节的语义信息。

!
信息及评测声明: 本文部分信息整理自互联网公开资料,并包含由 AI创作导航 团队独立进行的实测体验。我们力求内容客观准确,但因工具功能、价格及政策可能存在实时调整,所有信息仅供参考,请务必在使用前访问官网确认。文中观点不构成任何决策建议,读者需自行评估和承担使用风险。如发现内容有误或侵权,欢迎随时反馈,我们将及时核实处理。
相关资讯
AI小创