王晓刚:人形机器人的ChatGPT时刻,需扎根真实物理世界
2025年具身智能赛道热度飙升至顶点,前9个月全球人形机器人领域投资交易额达70亿美元,同比暴涨250%,资本集体押注“机器人的星辰大海”。但热闹背后,行业却陷入“数据喂养无法理解物理世界”的技术困境。在钛媒体T-EDGE全球对话中,王晓刚与赵何娟的深度对谈,直指人形机器人迈向ChatGPT时刻的核心障碍与破局之路。
2025年的具身智能行业,用“烈火烹油”来形容毫不为过。在中国市场的强劲驱动下,全球人形机器人领域投资热情空前高涨:前9个月交易额逼近70亿美元,较去年同期翻了2.5倍,大量资本、人才涌入赛道,创业者们描绘着人形机器人走进工厂、家庭的未来图景,投资人则将其视为下一个AI时代的核心赛道。
然而,喧嚣的资本热潮下,是技术落地的尴尬现实。目前市面上绝大多数人形机器人,仍停留在“表演向”阶段——要么在舞台上跳舞、演示标准化拳击动作,要么在封闭测试场中反复练习直线行走,甚至偶尔还会出现踩空摔跤的状况。这些产品距离真正走进真实场景、承担搬运、照料等实用任务,还有着难以逾越的鸿沟。
这种“资本热、应用冷”的错位,恰恰暴露出行业当前的核心痛点:不少研发团队仍在沿用大模型的成功路径,试图通过投喂海量文章、图片、视频数据,让机器人“理解”世界。但在王晓刚看来,这条路径从一开始就走偏了。“靠读文章、看图片,机器人永远不可能理解真实的物理世界。”在对话中,他的这句话宛如一盆冷水,浇醒了行业对数据喂养的迷信。
王晓刚的观点直击具身智能的本质:大模型擅长的是抽象文本与图像的理解,而人形机器人需要的是对物理世界的具象认知。比如,大模型可以精准描述“玻璃杯掉在瓷砖地上会碎裂”,但只有当机器人真正拿起玻璃杯、感受其重量、经历一次掉落的全过程,才能真正理解“易碎”的含义——而不是停留在文字层面的概念。这种认知差异,是数据训练无法填补的,因为物理世界充满了不确定性:地面的轻微凸起、物品的不规则形状、不同材质的摩擦力差异……这些变量是任何训练数据集都无法完全覆盖的。
当人形机器人走进真实场景,它需要的不是“知道”知识,而是“掌握”能力——就像人类在成长过程中,通过触摸、行走、操作等亲身实践,逐渐建立对世界的认知。而当前的技术路径,恰恰缺失了这一关键的“具身实践”环节。这也解释了为什么人形机器人的“ChatGPT时刻”迟迟未现:ChatGPT的成功,是基于海量通用文本数据的涌现式突破,但具身智能的突破,不能依赖“数据堆出来的智能”,而需要机器人在真实物理世界中完成“感知-决策-行动-反馈”的闭环学习。
从这个角度看,行业的未来方向已经逐渐清晰:单纯的数据喂养无法催生真正的具身智能,只有让机器人扎根真实物理世界,通过大量的实景交互、试错与学习,才能积累起对物理规则的深刻理解,进而实现像人类一样的自主行动能力。对于资本而言,这也意味着投资逻辑的转变——从追逐“大模型+人形外壳”的概念,转向那些真正在物理交互技术、实景测试场景上深耕的项目。
王晓刚的这番深度剖析,为火热的具身智能赛道注入了理性的声音。人形机器人的ChatGPT时刻,不会是某个宏大的产品发布会瞬间,而会是当它能像人类一样,在真实的厨房中稳稳拿起水杯,在工厂流水线上精准抓取零件,在家庭场景中自主完成照料任务的那一刻。这一天的到来,或许还需要技术攻关、场景适配与资本耐心的多方协同,但至少,行业已经找到了破局的核心方向——让智能从“云端”落地,扎根到真实的物理世界里。

6 小时前
2026年4月1日消息,高德正式全量开源全球首个基于统一架构的具身操作基座模型ABot-M0。该模型可作为“通用大脑”适配多种形态的具身机器人,在Libero、Libero-Plus等多个权威基准测试中达到SOTA表现,其中在Libero-Plus基准上任务成功率达80.5%,较此前业界标杆方案Pi0提升近30%。

14 小时前
据MIT科技评论2026年4月报道,当前全球人形机器人产业训练数据缺口持续扩大,尼日利亚、印度等地大量零工通过头戴iPhone记录日常家务、手工操作等动作数据,为人形机器人运动模型提供训练素材,这种低成本灵活的供给模式,正在填补通用动作数据集不足的短板,也为全球零工经济开辟了新的细分领域。

17 小时前
2026年4月1日,高德正式全量开源全球首个统一架构机器人具身操作基座模型ABot-M0,该模型旨在以“一个通用大脑适配多形态机器人”,打破异构硬件壁垒。其在Libero-Plus基准测试中任务成功率达80.5%,较此前行业标杆Pi0提升近30%,同时开源覆盖数据、算法、预训练模型三大维度,推动具身智能落地提速。

1 天前
2026年3月31日,蚂蚁灵波科技正式开源大规模RGB-D深度数据集LingBot-Depth-Dataset,总规模达2.71TB,包含300万对高质量样本,其中200万对为真实场景采集、100万对为渲染生成,覆盖6款主流深度相机,是当前开源社区规模最大的真实场景RGB-D数据集,将为具身智能、三维视觉、空间感知等领域研发提供核心数据支撑。

2 天前
2026年3月28日举办的全球开发者先锋大会上,上海市委常委、副市长陈杰披露,上海目前已上线150余款备案大模型,人形机器人出货量位居全球前列,当地智算供给能力占全国10%,运营有全国首个语料公共服务平台,集聚AI相关人才超30万,已成为国内大模型与具身智能产业核心创新策源地。

2 天前
在2026中国网络媒体论坛上,宇树科技创始人兼CEO王兴兴发表《当机器人刷屏》主题演讲,明确定义具身智能行业临界点为机器人仅凭语音指令即可在陌生场景完成80%-90%的任务,其预判这一被称为具身智能“ChatGPT时刻”的里程碑将在两到三年内落地,部分硅谷专家则给出18个月的更乐观预期。

2 天前
在2026中国网络媒体论坛上,宇树科技创始人兼CEO王兴兴发表《当机器人刷屏》主题演讲,明确了具身智能GPT时刻的量化标准:陌生场景下可通过语音指令完成80%-90%的通用任务,该里程碑预计2到3年内落地。王兴兴同时提出“运动和干活并行推动”的技术路线,为具身智能行业发展提供了可参照的判断框架。

2 天前
2026年3月29日,由中国人工智能学会发起、被誉为“中国人工智能最高奖”的第十五届吴文俊人工智能科学技术奖正式揭晓,共产生116个获奖项目及个人。本届奖项重点覆盖生成式AI、大模型、具身智能、通用人工智能等前沿领域,清华大学孙富春教授、重庆大学宋永端院士摘得人工智能科技贡献奖,蔚来汽车助理副总裁任少卿入选科技进步奖名单。