近日,埃克塞特大学研究团队在《公共科学图书馆·生物学》刊发论文《生物学中的深度学习正面临一场迁移性危机》,直指AI野生动物识别技术暴露致命缺陷。研究显示,这类AI模型在封闭训练数据集上表现优异,但迁移到真实野外场景时准确率骤降,可能误导野生动物保护决策,专家呼吁摒弃单一基准测试,改用真实使用场景评估AI性能。
3月4日,科技媒体Phys的一则深度报道将AI落地的隐秘漏洞公之于众:埃克塞特大学的两位研究者在最新刊发于《公共科学图书馆·生物学》的论文中,拆解了当前AI野生动物识别技术的主流宣传误区——尽管不少厂商宣称其模型能像人类观察者一样适配多样生态,但实际效果远未达预期。
研究团队通过对比实验发现,当前主流的AI野生动物识别模型,其训练数据集大多来自标准化的采集场景:比如专业红外相机拍摄的清晰素材、圈养野生动物的图像库,或是实验室环境下的受控拍摄内容。但当模型被部署到真实野外环境中时,光线变化、植被遮挡、不同季节的物种外观差异等变量,会让模型的识别准确率出现断崖式下跌,甚至会将本土保护物种误判为入侵物种,直接干扰野生动物保护的决策制定。
这篇论文并未将问题局限于野生动物识别领域,而是以医学诊断成像作为另一典型案例进行佐证:当前不少AI医学影像辅助诊断模型,在实验室基准测试中能达到接近90%的准确率,但放到真实临床场景中,因患者个体差异、医疗设备参数波动、扫描角度变化等因素,准确率会下滑至70%以下,甚至可能出现严重的误诊风险。这也意味着,“迁移性危机”是当前深度学习落地的普遍痛点。
研究人员在论文中明确指出,当前AI行业过度依赖实验室基准测试来评估模型性能,这种评估方式本质上是在“理想化环境”下完成的,无法反映真实使用场景的复杂性。不少厂商为了快速推进商业化,刻意放大模型在基准测试中的优势,却回避真实场景下的性能短板,这不仅会误导行业认知,还可能引发更严重的信任危机。因此,研究团队呼吁,AI落地前的评估必须转向真实使用环境,只有经过真实场景的验证,才能真正判断模型的实用价值。
从野生动物保护到医疗诊断,AI的落地场景正在不断拓展,但这场“迁移性危机”也提醒行业:AI的价值并非仅由实验室数据决定,只有真正贴合真实需求的技术评估,才能让AI真正服务于社会。

10 秒前
前Meta研究工程师在被公司裁员后,发起了一场极具趣味性的编程实验:让小狗随机敲击键盘生成无逻辑乱码,再借助Anthropic的大语言模型Claude,将这些乱码转化为可正常运行的网页小游戏,目前已将项目代码全面开源,为AI辅助创意编程领域提供了荒诞却极具启发的新实践。

2 分钟前
2026年春节期间,阿里千问、字节豆包、初创AI应用元宝同步开启高强度流量竞赛,通过春晚联动、红包补贴、专属玩法等活动将AI应用推成节日流量事件,日活数据创下峰值。但业内指出,此类增长多源于用户尝鲜情绪与激励政策,AI应用下一阶段竞争需跳出DAU执念,转向核心价值挖掘。

3 分钟前
近期AI影视生成工具Seedance 2.0凭借稳定惊艳的效果引发关注,导演贾樟柯用其生成了以假乱真的个人数字分身。这一技术突破让全球影视人警觉AI对行业的冲击加速到来,关于影视圈哪些岗位将被取代、哪些能借AI升级的讨论成为行业焦点。

4 分钟前
Anthropic旗下大模型Claude近日实现重大突破:仅通过31步逻辑推导,独立攻克了一道悬而未决的图论猜想难题。这一成果引发全球科技界震动,计算机科学泰斗、《计算机程序设计艺术》作者高德纳专门发文表达震惊与赞叹,标志着AI在自动推理及创造性数学问题解决领域抵达全新里程碑。

5 分钟前
李飞飞领衔的World Labs近日发布最新行业研判,提出AI在写完代码之后的下一个核心发展方向是“写世界”,即依托3D as code技术,以自然语言为接口实现对复杂物理与数字系统的操控。当前大模型已凭借成熟的文本接口渗透各行业,未来有望打通虚拟与现实的交互壁垒。

7 分钟前
近日,多起AI影响青少年认知与心理健康的案例引发关注:英国原本定位反仇恨的AI形象Amelia被重塑为极右翼偶像,TikTok上反智的“地心文明Agartha”内容正误导青少年历史观,还有孤独少年向Character.ai虚拟恋人托付生死,AI内容渗透童年正催生“精神隔离”的深层隐忧。

8 分钟前
近日,阿里千问团队在X平台开源Qwen3.5小模型系列,涵盖0.8B、2B、4B、9B四个参数规格,特斯拉CEO马斯克现身评论区互动,却因阿里千问大模型负责人林俊旸突然离职的消息被舆论忽略。这一细节既折射出小模型赛道的升温趋势,也凸显马斯克对中国AI技术的持续关注。

9 分钟前
3月4日凌晨,AI领域上演罕见同日发布戏码:OpenAI推出GPT-5.3 Instant轻量模型,将幻觉率降低26.8%,同时解决用户吐槽的“说教感”问题;此前不久谷歌刚发布Gemini 3.1 Flash-Lite。两款模型均为速度优化版本,主打快速日常查询、即时翻译等轻量场景。