2026年6月5日,腾讯混元团队联合中国人民大学高瓴人工智能学院正式开源大语言模型规划能力评测框架PlanningBench。该框架覆盖超30种规划任务类型,横跨六大类实际应用场景,兼具模型评测与训练支撑能力,可有效规避传统评测中的模型“刷题”问题,为大模型产业落地提供统一的能力评估标尺。

随着大语言模型逐步从C端交互场景向产业端落地,复杂任务下的规划调度能力已经成为行业公认的核心技术壁垒。过去很长一段时间里,业内对大模型规划能力的评测多停留在零散的场景测试阶段,不仅覆盖范围有限,还极易出现模型靠针对性训练“刷分”却无法适配实际需求的问题。
当前大模型在常识问答、内容生成等场景的表现已经趋近成熟,但涉及多约束、多目标的规划类任务时,表现波动极大。不少企业反馈,引入大模型做人力排班、物流调度等工作时,频繁出现忽略隐藏约束、优先级排序混乱等问题,本质上是模型的规划能力没有达到落地阈值。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录