2026年4月8日,阿里通义实验室Qwen Pilot团队正式推出全新推理优化算法FIPO,该算法突破传统强化学习在复杂逻辑推理场景的瓶颈,可将零基础训练模型的平均推理长度提升至10000Token以上,搭载该算法的32B参数大模型实测推理性能反超OpenAI o1-mini,为大模型复杂推理场景的低成本落地提供了新路径。
过去两年,大模型在常识问答、内容生成等场景的表现已经趋于成熟,但涉及多步数学推导、复杂逻辑判断、长链路代码调试等场景时,性能始终难以突破——核心瓶颈在于传统强化学习框架无法有效识别关键推理节点,常常出现推理中途终止、无效步骤循环等问题,既拉低了准确率也浪费了算力。
当前企业对大模型的需求已经从“能交互”转向“能解决实际复杂问题”:科研机构需要用大模型做基础定理推导,工业企业需要用大模型做多链路产线故障排查,金融机构需要用大模型做嵌套式风险评估,这些场景都对模型的推理深度、逻辑连贯性有极高要求。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录