2026年4月16日,谷歌DeepMind公布最新AI视觉领域研究成果TIPSv2,瞄准当前视觉-语言大模型“全局理解强、局部定位弱”的行业通病。该技术基于研究发现的“小参数量学生模型精细分割表现反超大教师模型”结论改进训练方案,可帮助AI精准定位图像局部细节,解决了领域内长期悬而未决的精细分割难题。
如果你问AI“这张图片里有什么”,大多数主流视觉大模型都能答得头头是道,但如果追问一句“图里那只熊猫的左后腿在哪个位置”,多半会得到含糊不清的回答。这个看似简单的问题,已经困扰视觉-语言大模型领域多年。
当前主流视觉-语言大模型在全局语义理解任务上已经逼近甚至超越人类水平,无论是概括图片内容还是完成通用图文问答,表现都可圈可点。但只要涉及需要精准定位的细粒度任务,现有模型的短板就会立刻暴露——这种“全局强、局部弱”的特征,并非某款模型的个别问题,而是整个领域的共性痛点。
谷歌DeepMind研究团队在调研中发现了一个反直觉的现象:在精细分割任务上,参数量更少的“学生模型”,表现居然经常碾压体量更大的“教师模型”。深挖原因后团队找到问题核心:知识蒸馏过程移除了传统预训练的遮盖机制,迫使模型学习整张图像的所有细节,形成了有效的“全区域监督”,而传统大模型的训练机制天生缺少对未遮盖区域局部细节的监督。
基于这一核心发现,谷歌DeepMind团队推出了专门解决局部识别难题的TIPSv2方案,围绕全区域监督做出了多项关键改进。其中最核心的调整就是全新的iBOT++预训练框架,改变了传统预训练仅对遮盖区域计算损失的规则,将监督覆盖到了图像的每一个区域,迫使模型在训练阶段就关注所有局部细节的语义信息。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
11 分钟前
2026年4月16日,认知神经科学家乌里·毛茨(Uri Maoz)发表评论文章指出,当前全球军方推进的AI辅助作战体系中,普遍遵循的“人在回路”安全控制模式本质是无法实现的幻觉。由于各类军用AI系统普遍存在黑箱特性,人类决策者无法完全理解AI的决策逻辑,更难在毫秒级作战窗口中有效介入,给未来AI冲突带来不可预估的安全风险。

13 分钟前
4月14日消息,美国AI安全初创公司Andon Labs公布一项大胆实验:任命自主开发的AI CEO Luna(基于Anthropic的Claude Sonnet 4大模型打造)独立运营实体零售店,实验周期三年,给出10万美元(约合人民币68.5万元)启动资金,目标为实现盈利。相关介绍推文目前在X平台的浏览量已突破21万次,引发全球科技圈广泛讨论。

38 分钟前
微软近日面向全球在校大学生推出专属优惠活动,用户凭有效在校学生身份认证即可免费获取包含Microsoft 365在内的全套正版软件,同时捆绑AI助手Copilot的一年全功能免费使用权,业内估算该活动覆盖全球超2亿在校大学生群体,被视作微软抢占AI教育场景用户心智的核心布局,引发AI PC市场竞争的广泛讨论。

40 分钟前
近年以ChatGPT、微软Copilot、谷歌Gemini为代表的生成式AI工具快速普及,大幅降低了文案、数据整理等日常工作的时间成本,为职场人与普通用户释放出大量空闲时间。一项针对欧美千余名AI用户的最新研究显示,超六成受访者并未将AI省出的时间投入技能提升或创造性工作,多数被消耗在无意义的网络浏览与休闲娱乐中。

43 分钟前
近日业内消息显示,微软计划在下一代Surface Laptop消费级笔记本产品中首次采用OLED显示屏,同时深度集成微软自家开发的AI助手Copilot,依托Windows 11系统的AI能力实现全场景交互。目前Surface产品线全球年出货量接近700万台,OLED面板引入加AI功能升级,被业内视为微软拉动PC销量、推进AI PC落地的核心动作。

1 小时前
2026年4月16日,一款定位专业影视创作的国产AI视频生成模型正式对外推出,该模型标配6大类影视级特效、5大类原生音效,支持“万物可参考”的灵活生成逻辑,打出“做AI领域斯皮尔伯格”的定位,有望大幅降低专业视频创作的门槛,让独立创作者实现“一个人就是一支好莱坞团队”的生产模式,相关内容由王涵编译、漠影编辑,引发AI创作领域热议。

1 小时前
2026年4月16日,阿里巴巴ATH创新事业部推出旗下首款开放式AI世界模型HappyOyster(中文名为快乐生蚝)。该模型基于原生多模态架构开发,支持多模态理解、音视频联合生成以及实时世界构建与交互,用户仅需输入一行文本或一张图片,即可生成可持续运行的完整交互世界,业内观点认为其生成效果可对标海外头部同类产品。

2 小时前
2026年4月,阿里巴巴ATH事业群AI创新事业部正式推出主打实时世界创建与交互的开放式世界模型Happy Oyster,同步开放内测申请通道。该模型基于原生多模态架构开发,支持多模态输入与音视频联合流式建模,可实现用户指令的实时画面响应,主打交互式三维世界生成能力,主要服务影视创作、游戏开发领域,标志着阿里AI内容生成赛道进一步向三维交互方向延伸。