登录体验完整功能(收藏、点赞、评论等) — 已累计有 12580 人加入

谷歌DeepMind发布TIPSv2 破解AI视觉模型局部识别痛点

详情页推荐

2026年4月16日,谷歌DeepMind公布最新AI视觉领域研究成果TIPSv2,瞄准当前视觉-语言大模型“全局理解强、局部定位弱”的行业通病。该技术基于研究发现的“小参数量学生模型精细分割表现反超大教师模型”结论改进训练方案,可帮助AI精准定位图像局部细节,解决了领域内长期悬而未决的精细分割难题。

如果你问AI“这张图片里有什么”,大多数主流视觉大模型都能答得头头是道,但如果追问一句“图里那只熊猫的左后腿在哪个位置”,多半会得到含糊不清的回答。这个看似简单的问题,已经困扰视觉-语言大模型领域多年。

当前主流视觉-语言大模型在全局语义理解任务上已经逼近甚至超越人类水平,无论是概括图片内容还是完成通用图文问答,表现都可圈可点。但只要涉及需要精准定位的细粒度任务,现有模型的短板就会立刻暴露——这种“全局强、局部弱”的特征,并非某款模型的个别问题,而是整个领域的共性痛点

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。