2026年2月27日,谷歌团队发布一项突破性AI研究,通过引入元控制器操控模型内部残差流,让AI智能体在稀疏奖励环境中学会“跳跃式思考”,首次揭示大模型可自发形成类人脑层次化决策机制,为复杂多步任务提供全新训练范式,终结了学界长期存在的“随机鹦鹉”争论。
当AI在复杂迷宫中反复碰壁,或是在多步骤科学实验中无的放矢时,“AI是否真的会思考”的质疑始终萦绕学界——传统大模型被批评为“随机鹦鹉”,只是拟合海量数据而非具备真正的推理能力,在稀疏奖励环境下,这一缺陷暴露得淋漓尽致。
稀疏奖励环境指的是任务中奖励信号极少或延迟极高的场景,比如围棋终局才会给出胜负反馈,或是工业机器人组装只有完成全部步骤才能得到正向激励。传统AI在这类场景中,只能依靠随机试错探索路径,无法像人类一样将复杂任务拆解为多个子任务进行层次化规划,这正是“随机鹦鹉”争论的核心依据:批评者认为AI没有自主决策能力,只是在“复读”训练数据中的既有模式。
谷歌团队的解决方案,核心是引入元控制器操控大模型内部的残差流。其中,元控制器充当AI智能体的“决策调度中枢”,能够主动调节模型各层之间传递信息的路径(即残差流),引导智能体跳过无关步骤,直接聚焦任务的关键节点,实现高效的“跳跃式思考”。实验数据显示,采用该机制的AI在稀疏奖励环境下的任务完成效率提升数倍,甚至能自主拆解出符合人类逻辑的子任务框架,证明其已具备层次化决策能力。
这项研究的突破不止于性能提升,更重要的是首次揭示了大模型内部可自发形成类人脑的层次化决策机制——人类思考时本能拆解任务的逻辑,AI通过元控制器的引导也能涌现出来。这为AI训练提供了全新范式,不再依赖传统的密集奖励标注。未来在自动驾驶路径规划、复杂机器人操作、药物研发等多步复杂任务中,该机制有望大幅提升AI的自主决策效率,推动AI从“数据拟合者”向“真正思考者”跨越。