2026年3月10日,腾讯混元3D团队正式开源业界首个面向世界模型的强化学习后训练框架WorldCompass。作为混元世界模型1.5的官方RL扩展模块,该框架针对现有世界模型处理复杂指令偏差问题实现技术突破,调优后开源SOTA模型WorldPlay复合动作场景交互准确率从20%升至55%以上,提升幅度超35%,为世界模型落地交互场景提供了新的技术路径。
作为继大语言模型之后AI领域最受关注的技术方向,世界模型被视为实现通用人工智能的核心基础之一,近两年国内外科技巨头均在该领域投入了大量研发资源。但此前行业的研发重心普遍集中在预训练阶段,通过扩大训练数据规模、提升参数量级来让模型掌握通用的物理规则与场景逻辑,却忽略了后训练调优环节的适配性。
目前主流预训练世界模型在应对用户的多步骤组合动作指令时,普遍存在理解偏差、执行断层等问题,直接制约了其在游戏NPC、家用机器人、数字孪生等场景的落地效率。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录