2026年4月8日,阿里通义实验室智能计算团队正式发布大模型后训练领域新型算法FIPO,依托独创的Future-KL机制破解纯强化学习普遍存在的长文本推理“长度停滞”瓶颈,32B规模模型在纯强化学习设定下性能超越DeepSeek-Zero-MATH及OpenAI o1-mini,标志国产大模型在逻辑推理与数学计算领域取得实质性进展。
过去两年,全球大模型的竞赛重心已经悄然转移:从比拼预训练参数规模,转向推理端的性能跃升,尤其是逻辑推理、数学计算等硬能力的比拼,直接决定了大模型在工业、科研等高价值场景的落地上限。而强化学习作为提升模型推理能力的核心技术路径,长期受困于纯RL训练模式下的固有缺陷。
此前,行业普遍采用纯强化学习方案对大模型进行后训练,以此提升思维链生成质量、优化复杂任务的对齐效果,但该模式始终存在“推理长度停滞”的技术痛点:模型为了获取短期奖励,往往会主动缩短推理步骤,无法支撑长序列逻辑推导,在数学解题、多轮逻辑论证等场景的表现始终难达预期。
不少厂商曾尝试通过增加训练数据量、调整奖励权重等方式解决该问题,但收效甚微,推理能力不足也成为限制国产大模型进入高价值专业场景的核心短板。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
43 秒前
2026年4月8日智谱正式发布新一代大模型GLM-5.1,据模型聚合平台OpenRouter监测,GLM系列模型单价同步上调10%,调价后编程场景价格对标Anthropic旗下Claude3.5 Sonnet。该模型在SWE-bench Pro基准测试中超越Claude4.6 Opus登顶,支持单次8小时长时自主作业,此次调价也是国产大模型首次在主流场景与全球头部厂商价格对齐。

4 分钟前
2026年4月,被业内称为“GPT-4o之母”的OpenAI核心高管Joanne Jang正式宣布离职,结束四年半任职生涯。作为主导ChatGPT交互感、情绪表达能力优化的核心负责人,Joanne Jang是GPT-4o模型落地的关键推手,其无理由静默离职已引发业内对OpenAI管理层稳定性、后续IPO推进节奏的广泛讨论。

28 分钟前
2026年4月8日,国内大模型厂商DeepSeek正式推送网页端与App端全新对话界面,新增快速模式与专家模式双选项,替代原有单一默认对话模式。其中快速模式支持识别图片、文件文字,最多可同时处理50个文件,但暂不具备原生视觉理解能力,本次专家模式的优异实测表现也引发市场对其V4版本即将发布的猜测。

36 分钟前
2026年4月,AI初创公司Anthropic正式发起跨行业网络安全协作项目“玻璃翼计划”,联合苹果、谷歌、微软、英伟达、思科等20余家科技、网络安全、金融领域头部机构,依托尚未正式发布的Claude Mythos Preview大模型的漏洞挖掘能力,共同应对AI技术普及带来的新型网络攻击风险,摩根大通、Linux基金会已作为首批成员加入。

1 小时前
近日AI大模型研发商Anthropic宣布切断OpenClaw等多个第三方框架的Claude订阅服务调用通道,官方披露部分重度用户仅支付200美元订阅费却消耗了价值5000美元的算力资源,给企业带来严重财务压力。小米MiMo大模型负责人罗福莉公开指出第三方框架上下文管理效率低下的核心问题,同时警示行业盲目开展Token价格战将面临极高财务风险。

1 小时前
2026年4月8日,阿里通义实验室Qwen Pilot团队正式推出全新推理优化算法FIPO,该算法突破传统强化学习在复杂逻辑推理场景的瓶颈,可将零基础训练模型的平均推理长度提升至10000Token以上,搭载该算法的32B参数大模型实测推理性能反超OpenAI o1-mini,为大模型复杂推理场景的低成本落地提供了新路径。

1 小时前
2026年4月,上汽通用联合火山引擎宣布,字节跳动旗下豆包大模型将首发搭载于即将上市的别克至境E7车型。新智能座舱系统支持20余种情绪识别、跨场景连续上下文对话,覆盖5大类用车场景,实现从指令式交互到语义理解式交互的跨越,推动车机从执行工具向“数字家人”的身份转型。

1 小时前
2026年4月8日,人工智能企业Anthropic正式发布新一代旗舰大模型Mythos预览版,作为Claude系列迄今最强通用大模型,其具备突出的编程与复杂推理能力。Anthropic通过Project Glasswing安全项目向少量合作方定向开放,首期聚焦网络安全场景,测试中已发现数千个高危害零日漏洞,最远可追溯至20年前的遗留代码,其能力边界与潜在风险同步引发行业关注。