阿里通义发布FIPO推理算法 32B参数模型性能反超o1-mini

AI创作导航 1 小时前

AI快讯

2026年4月8日，阿里通义实验室Qwen Pilot团队正式推出全新推理优化算法FIPO，该算法突破传统强化学习在复杂逻辑推理场景的瓶颈，可将零基础训练模型的平均推理长度提升至10000Token以上，搭载该算法的32B参数大模型实测推理性能反超OpenAI o1-mini，为大模型复杂推理场景的低成本落地提供了新路径。

过去两年，大模型在常识问答、内容生成等场景的表现已经趋于成熟，但涉及多步数学推导、复杂逻辑判断、长链路代码调试等场景时，性能始终难以突破——核心瓶颈在于传统强化学习框架无法有效识别关键推理节点，常常出现推理中途终止、无效步骤循环等问题，既拉低了准确率也浪费了算力。

当前企业对大模型的需求已经从“能交互”转向“能解决实际复杂问题”：科研机构需要用大模型做基础定理推导，工业企业需要用大模型做多链路产线故障排查，金融机构需要用大模型做嵌套式风险评估，这些场景都对模型的推理深度、逻辑连贯性有极高要求。

而此前主流的强化学习优化方案，往往只以最终结果的正确性为奖励标准，无法引导模型关注推理过程的合理性，最终导致模型只会“蒙答案”，无法支撑真正的长链路深度思考，也成为限制大模型进入专业生产力场景的核心障碍。

FIPO算法针对传统强化学习的短板做了针对性重构，核心依托两套创新机制解决推理痛点：
其一是**Future-KL机制**，区别于传统方案只奖励最终正确结果的逻辑，这套机制会动态评估每个生成Token对后续推理步骤的正向贡献，只有能推动推理走向正确方向的Token才会获得高权重奖励，相当于让模型学会“走一步看三步”，避免无意义的内容生成。
其二是**符号对数概率差机制**，能够精准定位推理过程中的优化方向，大幅减少无效循环、逻辑跳步等问题的出现概率。

大语言模型阿里通义 FIPO算法 o1-mini 推理优化

本文内容来源于公开互联网信息，并包含平台新增内容及用户发布内容，旨在进行知识整理与分享。文中所有信息与观点均仅供参考，不代表任何官方或特定立场，亦不构成任何操作或决策建议，请读者谨慎甄别，详情请见完整免责声明

提示工程指南

提示工程领域专业学习平台

Claude

Claude 是由 Anthropic 研发的 AI 助手与大语言模型

OpenAI

OpenAI 是全球领先的人工智能研究机构与模型提供商

ProMind AI

专业AI代理，内容代码生成提效

SourceNext（ソースネクスト）

综合软硬件与AI服务平台

OpenResume

免费开源简历制作与检测工具

Templated

图像视频PDF自动化生成工具

Tab Story

AI文本转漫画生成工具