腾讯混元联合人大高瓴开源大模型规划能力评测框架PlanningBench

AI创作导航管理员 LV4 资深连续登录7天萌新

7 天前

风向

2026年6月5日，腾讯混元团队联合中国人民大学高瓴人工智能学院正式开源大语言模型规划能力评测框架PlanningBench。该框架覆盖超30种规划任务类型，横跨六大类实际应用场景，兼具模型评测与训练支撑能力，可有效规避传统评测中的模型“刷题”问题，为大模型产业落地提供统一的能力评估标尺。

随着大语言模型逐步从C端交互场景向产业端落地，复杂任务下的规划调度能力已经成为行业公认的核心技术壁垒。过去很长一段时间里，业内对大模型规划能力的评测多停留在零散的场景测试阶段，不仅覆盖范围有限，还极易出现模型靠针对性训练“刷分”却无法适配实际需求的问题。

当前大模型在常识问答、内容生成等场景的表现已经趋近成熟，但涉及多约束、多目标的规划类任务时，表现波动极大。不少企业反馈，引入大模型做人力排班、物流调度等工作时，频繁出现忽略隐藏约束、优先级排序混乱等问题，本质上是模型的规划能力没有达到落地阈值。

大语言模型人工智能开源框架腾讯混元 PlanningBench

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

腾讯混元联合人大高瓴开源大模型规划能力评测框架PlanningBench

最新文章

X社区 · 无限公约

讯飞医疗发布星火医疗大模型V3.5 国产算力支撑落地临床实用场景

Meta新AI部门深陷管理争议六千员工濒临爆发集体不满

中央网信办上线涉AI应用乱象举报专区明确14类受理问题

通义千问世界杯期间上线足球预测AI 精准预判比分红牌绝杀

Perplexity联合哈佛发布报告：AI Agent重构知识工作生产模式

热门文章

3秒抓心！抖音爆款文案的5个钩子秘籍

小红书爆款笔记6个黄金法则：从标题到排版的实操指南

抖音没流量？7个数据诊断法，3天精准定位问题

抖音爆款内容：3个底层逻辑，新手也能做出高赞视频

快手爆款秘籍：5 个通用技巧，小白也能轻松上手

抖音爆款打造指南：抓住这4个关键点，流量提升3倍

标签

探索分类

帮助与支持

联系我们

让AI触手可及，让应用激发潜能

腾讯混元联合人大高瓴开源大模型规划能力评测框架PlanningBench

最新文章

X社区 · 无限公约

讯飞医疗发布星火医疗大模型V3.5 国产算力支撑落地临床实用场景

Meta新AI部门深陷管理争议 六千员工濒临爆发集体不满

中央网信办上线涉AI应用乱象举报专区 明确14类受理问题

通义千问世界杯期间上线足球预测AI 精准预判比分红牌绝杀

Perplexity联合哈佛发布报告：AI Agent重构知识工作生产模式

热门文章

3秒抓心！抖音爆款文案的5个钩子秘籍

小红书爆款笔记6个黄金法则：从标题到排版的实操指南

抖音没流量？7个数据诊断法，3天精准定位问题

抖音爆款内容：3个底层逻辑，新手也能做出高赞视频

快手爆款秘籍：5 个通用技巧，小白也能轻松上手

抖音爆款打造指南：抓住这4个关键点，流量提升3倍

标签

探索分类

帮助与支持

联系我们

安装网站应用

Meta新AI部门深陷管理争议六千员工濒临爆发集体不满

中央网信办上线涉AI应用乱象举报专区明确14类受理问题