2026年4月8日,阿里通义实验室智能计算团队正式发布大模型后训练领域新型算法FIPO,依托独创的Future-KL机制破解纯强化学习普遍存在的长文本推理“长度停滞”瓶颈,32B规模模型在纯强化学习设定下性能超越DeepSeek-Zero-MATH及OpenAI o1-mini,标志国产大模型在逻辑推理与数学计算领域取得实质性进展。
过去两年,全球大模型的竞赛重心已经悄然转移:从比拼预训练参数规模,转向推理端的性能跃升,尤其是逻辑推理、数学计算等硬能力的比拼,直接决定了大模型在工业、科研等高价值场景的落地上限。而强化学习作为提升模型推理能力的核心技术路径,长期受困于纯RL训练模式下的固有缺陷。
此前,行业普遍采用纯强化学习方案对大模型进行后训练,以此提升思维链生成质量、优化复杂任务的对齐效果,但该模式始终存在“推理长度停滞”的技术痛点:模型为了获取短期奖励,往往会主动缩短推理步骤,无法支撑长序列逻辑推导,在数学解题、多轮逻辑论证等场景的表现始终难达预期。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录