2026年4月16日,谷歌DeepMind公布最新AI视觉领域研究成果TIPSv2,瞄准当前视觉-语言大模型“全局理解强、局部定位弱”的行业通病。该技术基于研究发现的“小参数量学生模型精细分割表现反超大教师模型”结论改进训练方案,可帮助AI精准定位图像局部细节,解决了领域内长期悬而未决的精细分割难题。
如果你问AI“这张图片里有什么”,大多数主流视觉大模型都能答得头头是道,但如果追问一句“图里那只熊猫的左后腿在哪个位置”,多半会得到含糊不清的回答。这个看似简单的问题,已经困扰视觉-语言大模型领域多年。
当前主流视觉-语言大模型在全局语义理解任务上已经逼近甚至超越人类水平,无论是概括图片内容还是完成通用图文问答,表现都可圈可点。但只要涉及需要精准定位的细粒度任务,现有模型的短板就会立刻暴露——这种“全局强、局部弱”的特征,并非某款模型的个别问题,而是整个领域的共性痛点。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录