王晓刚:人形机器人的ChatGPT时刻,需扎根真实物理世界

15 小时前 AI快讯 3

王晓刚:人形机器人的ChatGPT时刻,需扎根真实物理世界

2025年具身智能赛道热度飙升至顶点,前9个月全球人形机器人领域投资交易额达70亿美元,同比暴涨250%,资本集体押注“机器人的星辰大海”。但热闹背后,行业却陷入“数据喂养无法理解物理世界”的技术困境。在钛媒体T-EDGE全球对话中,王晓刚与赵何娟的深度对谈,直指人形机器人迈向ChatGPT时刻的核心障碍与破局之路。

2025年的具身智能行业,用“烈火烹油”来形容毫不为过。在中国市场的强劲驱动下,全球人形机器人领域投资热情空前高涨:前9个月交易额逼近70亿美元,较去年同期翻了2.5倍,大量资本、人才涌入赛道,创业者们描绘着人形机器人走进工厂、家庭的未来图景,投资人则将其视为下一个AI时代的核心赛道。

然而,喧嚣的资本热潮下,是技术落地的尴尬现实。目前市面上绝大多数人形机器人,仍停留在“表演向”阶段——要么在舞台上跳舞、演示标准化拳击动作,要么在封闭测试场中反复练习直线行走,甚至偶尔还会出现踩空摔跤的状况。这些产品距离真正走进真实场景、承担搬运、照料等实用任务,还有着难以逾越的鸿沟。

这种“资本热、应用冷”的错位,恰恰暴露出行业当前的核心痛点:不少研发团队仍在沿用大模型的成功路径,试图通过投喂海量文章、图片、视频数据,让机器人“理解”世界。但在王晓刚看来,这条路径从一开始就走偏了。“靠读文章、看图片,机器人永远不可能理解真实的物理世界。”在对话中,他的这句话宛如一盆冷水,浇醒了行业对数据喂养的迷信。

王晓刚的观点直击具身智能的本质:大模型擅长的是抽象文本与图像的理解,而人形机器人需要的是对物理世界的具象认知。比如,大模型可以精准描述“玻璃杯掉在瓷砖地上会碎裂”,但只有当机器人真正拿起玻璃杯、感受其重量、经历一次掉落的全过程,才能真正理解“易碎”的含义——而不是停留在文字层面的概念。这种认知差异,是数据训练无法填补的,因为物理世界充满了不确定性:地面的轻微凸起、物品的不规则形状、不同材质的摩擦力差异……这些变量是任何训练数据集都无法完全覆盖的。

当人形机器人走进真实场景,它需要的不是“知道”知识,而是“掌握”能力——就像人类在成长过程中,通过触摸、行走、操作等亲身实践,逐渐建立对世界的认知。而当前的技术路径,恰恰缺失了这一关键的“具身实践”环节。这也解释了为什么人形机器人的“ChatGPT时刻”迟迟未现:ChatGPT的成功,是基于海量通用文本数据的涌现式突破,但具身智能的突破,不能依赖“数据堆出来的智能”,而需要机器人在真实物理世界中完成“感知-决策-行动-反馈”的闭环学习。

从这个角度看,行业的未来方向已经逐渐清晰:单纯的数据喂养无法催生真正的具身智能,只有让机器人扎根真实物理世界,通过大量的实景交互、试错与学习,才能积累起对物理规则的深刻理解,进而实现像人类一样的自主行动能力。对于资本而言,这也意味着投资逻辑的转变——从追逐“大模型+人形外壳”的概念,转向那些真正在物理交互技术、实景测试场景上深耕的项目。

王晓刚的这番深度剖析,为火热的具身智能赛道注入了理性的声音。人形机器人的ChatGPT时刻,不会是某个宏大的产品发布会瞬间,而会是当它能像人类一样,在真实的厨房中稳稳拿起水杯,在工厂流水线上精准抓取零件,在家庭场景中自主完成照料任务的那一刻。这一天的到来,或许还需要技术攻关、场景适配与资本耐心的多方协同,但至少,行业已经找到了破局的核心方向——让智能从“云端”落地,扎根到真实的物理世界里。

所属分类
×

微信二维码

请选择您要添加的方式

AI小创