谷歌DeepMind发布TIPSv2 破解AI视觉模型局部识别痛点

AI创作导航 3 小时前

AI快讯

2026年4月16日，谷歌DeepMind公布最新AI视觉领域研究成果TIPSv2，瞄准当前视觉-语言大模型“全局理解强、局部定位弱”的行业通病。该技术基于研究发现的“小参数量学生模型精细分割表现反超大教师模型”结论改进训练方案，可帮助AI精准定位图像局部细节，解决了领域内长期悬而未决的精细分割难题。

如果你问AI“这张图片里有什么”，大多数主流视觉大模型都能答得头头是道，但如果追问一句“图里那只熊猫的左后腿在哪个位置”，多半会得到含糊不清的回答。这个看似简单的问题，已经困扰视觉-语言大模型领域多年。

当前主流视觉-语言大模型在全局语义理解任务上已经逼近甚至超越人类水平，无论是概括图片内容还是完成通用图文问答，表现都可圈可点。但只要涉及需要精准定位的细粒度任务，现有模型的短板就会立刻暴露——这种“全局强、局部弱”的特征，并非某款模型的个别问题，而是整个领域的共性痛点。

谷歌DeepMind研究团队在调研中发现了一个反直觉的现象：在精细分割任务上，参数量更少的“学生模型”，表现居然经常碾压体量更大的“教师模型”。深挖原因后团队找到问题核心：知识蒸馏过程移除了传统预训练的遮盖机制，迫使模型学习整张图像的所有细节，形成了有效的“全区域监督”，而传统大模型的训练机制天生缺少对未遮盖区域局部细节的监督。

基于这一核心发现，谷歌DeepMind团队推出了专门解决局部识别难题的TIPSv2方案，围绕全区域监督做出了多项关键改进。其中最核心的调整就是全新的iBOT++预训练框架，改变了传统预训练仅对遮盖区域计算损失的规则，将监督覆盖到了图像的每一个区域，迫使模型在训练阶段就关注所有局部细节的语义信息。

人工智能谷歌DeepMind TIPSv2 视觉大模型

信息及评测声明：本文部分信息整理自互联网公开资料，并包含由 AI创作导航团队独立进行的实测体验。我们力求内容客观准确，但因工具功能、价格及政策可能存在实时调整，所有信息仅供参考，请务必在使用前访问官网确认。文中观点不构成任何决策建议，读者需自行评估和承担使用风险。如发现内容有误或侵权，欢迎随时反馈，我们将及时核实处理。

SliceTube

剪辑下载YouTube视频工具

FocuSee

AI自动剪辑录屏工具

PlayPlay

企业级AI在线视频制作工具

Videoleap

AI驱动的多端视频剪辑创作工具

Clipchamp

AI在线视频编辑工具

Record Once

AI快速创作剪辑视频教程

Visla AI

多输入转专业AI视频

Flawless AI

影视行业专业辅助AI创作工具