少找工具,多做创作

李飞飞等学者提出Theory of Space 刷新具身大模型评估标准

由李曼玲、李飞飞、吴佳俊等学者联合提出的具身大模型空间能力评估范式Theory of Space,已被国际顶级学术会议ICLR 2026正式接收。该范式打破了传统静态图文问答的评估局限,能够系统性考察基础模型在部分可观测的动态环境中,通过自主探索构建、修正和利用空间信念的类人能力,为具身人工智能的性能评估提供了全新参考框架。

在具身人工智能快速落地的当下,传统的模型评估方式却存在明显短板:多数评估仅依托静态图文问答,只能验证模型对已知场景的语义理解,无法还原真实物理环境中自主探索、动态修正空间认知的核心需求。无论是人形机器人的导航避障,还是自动驾驶的空间感知,都需要模型具备动态构建空间信念的能力,而传统评估体系难以覆盖这类真实场景下的性能校验。

此次推出的Theory of Space评估范式,正是针对这一痛点做出的突破。它不再局限于静态的图文输入,而是为模型搭建部分可观测的虚拟空间场景,要求模型通过自主探索获取环境信息,逐步构建并修正自身的空间认知框架,最终完成导航、物体定位等具身任务。与传统静态评估相比,该范式更贴近人类在真实世界中感知空间的过程,能够更精准地衡量模型的类人空间智能水平。

该研究成果已被ICLR 2026收录,作为国际顶级机器学习学术会议,其认可的评估范式有望成为具身AI领域的通用参考标准。参与研究的李曼玲、李飞飞、吴佳俊均为AI领域的顶尖研究者,其中李飞飞在计算机视觉、具身智能领域拥有深厚积累,曾主导多项推动行业发展的核心研究。从产业端看,该范式可以帮助企业快速验证具身机器人、自动驾驶等场景下的模型性能,大幅缩短产品研发周期。

目前Theory of Space仅完成了虚拟环境下的原型验证,后续研究团队计划将其拓展至真实物理机器人场景,进一步优化评估的复杂度与真实性。此外,该范式还可与多模态大模型、强化学习算法结合,为通用人工智能的空间智能评估提供更完整的框架,为AI技术的落地应用打下更坚实的基础。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
所属分类
相关资讯