登录体验完整功能(收藏、点赞、评论等)

阿里通义发布FIPO推理算法 32B参数模型性能反超o1-mini

2026年4月8日,阿里通义实验室Qwen Pilot团队正式推出全新推理优化算法FIPO,该算法突破传统强化学习在复杂逻辑推理场景的瓶颈,可将零基础训练模型的平均推理长度提升至10000Token以上,搭载该算法的32B参数大模型实测推理性能反超OpenAI o1-mini,为大模型复杂推理场景的低成本落地提供了新路径。

过去两年,大模型在常识问答、内容生成等场景的表现已经趋于成熟,但涉及多步数学推导、复杂逻辑判断、长链路代码调试等场景时,性能始终难以突破——核心瓶颈在于传统强化学习框架无法有效识别关键推理节点,常常出现推理中途终止、无效步骤循环等问题,既拉低了准确率也浪费了算力。

当前企业对大模型的需求已经从“能交互”转向“能解决实际复杂问题”:科研机构需要用大模型做基础定理推导,工业企业需要用大模型做多链路产线故障排查,金融机构需要用大模型做嵌套式风险评估,这些场景都对模型的推理深度、逻辑连贯性有极高要求。

而此前主流的强化学习优化方案,往往只以最终结果的正确性为奖励标准,无法引导模型关注推理过程的合理性,最终导致模型只会“蒙答案”,无法支撑真正的长链路深度思考,也成为限制大模型进入专业生产力场景的核心障碍。

FIPO算法针对传统强化学习的短板做了针对性重构,核心依托两套创新机制解决推理痛点:
其一是**Future-KL机制**,区别于传统方案只奖励最终正确结果的逻辑,这套机制会动态评估每个生成Token对后续推理步骤的正向贡献,只有能推动推理走向正确方向的Token才会获得高权重奖励,相当于让模型学会“走一步看三步”,避免无意义的内容生成。
其二是**符号对数概率差机制**,能够精准定位推理过程中的优化方向,大幅减少无效循环、逻辑跳步等问题的出现概率。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创