登录体验完整功能(收藏、点赞、评论等) — 已累计有 12480 人加入

最新研究:AI大模型跨多轮对话性能显著下滑,最高降39%

详情页推荐

菲利普·拉班及其研究团队最新测试显示,即便GPT-5及后续版本的AI大语言模型,在跨多轮对话完成任务时仍存在显著性能短板:当任务信息拆分至多条消息中,模型性能降幅可达33%-39%。团队在代码、数学计算等六大任务中测试发现Python任务优化空间最大,同时建议用户遇到异常时可开启新对话并先让模型总结请求。

不少AI大模型用户或许都有过类似经历:把一个复杂需求拆分到多条消息里逐次发送,得到的结果反而远不如一次性输入完整提示词精准。这种看似偶然的体验,如今被菲利普·拉班团队的系统测试证实为大模型的共性问题。

研究团队选取了代码生成、数据库操作、指令执行、数据转文本、数学计算、文本摘要六大核心任务,对新旧两代大语言模型展开对比测试。测试设置了两种场景:一种是将所有任务信息集中在单次提示词中(拼接式输入),另一种是拆分至多条消息分轮发送(分片式输入)。

结果显示,当采用分片式输入时,早期大模型的性能出现最高39%的大幅下滑;即便是GPT-5及后续更新的模型,性能降幅依然维持在33%左右,这意味着跨轮对话的信息整合难题并未随模型迭代得到根本性解决。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。