登录体验完整功能(收藏、点赞、评论等)

阿里通义实验室发布FIPO算法 32B大模型推理性能反超o1-mini

2026年4月8日,阿里通义实验室智能计算团队正式发布大模型后训练领域新型算法FIPO,依托独创的Future-KL机制破解纯强化学习普遍存在的长文本推理“长度停滞”瓶颈,32B规模模型在纯强化学习设定下性能超越DeepSeek-Zero-MATH及OpenAI o1-mini,标志国产大模型在逻辑推理与数学计算领域取得实质性进展。

过去两年,全球大模型的竞赛重心已经悄然转移:从比拼预训练参数规模,转向推理端的性能跃升,尤其是逻辑推理、数学计算等硬能力的比拼,直接决定了大模型在工业、科研等高价值场景的落地上限。而强化学习作为提升模型推理能力的核心技术路径,长期受困于纯RL训练模式下的固有缺陷。

此前,行业普遍采用纯强化学习方案对大模型进行后训练,以此提升思维链生成质量、优化复杂任务的对齐效果,但该模式始终存在“推理长度停滞”的技术痛点:模型为了获取短期奖励,往往会主动缩短推理步骤,无法支撑长序列逻辑推导,在数学解题、多轮逻辑论证等场景的表现始终难达预期。

不少厂商曾尝试通过增加训练数据量、调整奖励权重等方式解决该问题,但收效甚微,推理能力不足也成为限制国产大模型进入高价值专业场景的核心短板。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创