菲利普·拉班及其研究团队最新测试显示,即便GPT-5及后续版本的AI大语言模型,在跨多轮对话完成任务时仍存在显著性能短板:当任务信息拆分至多条消息中,模型性能降幅可达33%-39%。团队在代码、数学计算等六大任务中测试发现Python任务优化空间最大,同时建议用户遇到异常时可开启新对话并先让模型总结请求。
不少AI大模型用户或许都有过类似经历:把一个复杂需求拆分到多条消息里逐次发送,得到的结果反而远不如一次性输入完整提示词精准。这种看似偶然的体验,如今被菲利普·拉班团队的系统测试证实为大模型的共性问题。
研究团队选取了代码生成、数据库操作、指令执行、数据转文本、数学计算、文本摘要六大核心任务,对新旧两代大语言模型展开对比测试。测试设置了两种场景:一种是将所有任务信息集中在单次提示词中(拼接式输入),另一种是拆分至多条消息分轮发送(分片式输入)。
结果显示,当采用分片式输入时,早期大模型的性能出现最高39%的大幅下滑;即便是GPT-5及后续更新的模型,性能降幅依然维持在33%左右,这意味着跨轮对话的信息整合难题并未随模型迭代得到根本性解决。
在六大测试任务中,模型的性能下滑表现呈现出明显差异化。其中,数学计算、文本摘要等任务在跨轮对话中的性能衰减相对稳定,而Python代码生成任务成为优化空间最大的领域——研究人员发现,针对该任务调整跨轮输入的策略后,模型性能提升最为明显。
这种差异化背后,或许与不同任务对上下文信息的依赖程度有关:Python代码任务往往需要清晰的逻辑链条,当信息分轮传递时,模型更易通过针对性优化捕捉关键逻辑,而数学计算等任务对零散信息的整合要求更高,因此更难突破瓶颈。
针对大模型跨轮对话的性能短板,研究团队给出了务实的用户侧解决方案:当遇到模型输出异常、结果精度下降的情况时,可尝试开启新的对话窗口,并首先让模型总结之前的所有任务请求,再提交具体需求。
这一策略本质上是通过人为干预,将分片式的跨轮信息重新整合为类似拼接式的完整提示,帮助模型更高效地抓取核心任务逻辑,从而在现有模型框架下尽量降低性能衰减。
本次研究也给大模型研发者提出了新的命题:随着AI对话场景从单次交互转向多轮协作,模型的跨轮上下文记忆与整合能力将成为核心竞争力之一。当前GPT-5等模型虽在精度、推理能力上持续升级,但在处理分散式信息时的短板,说明大语言模型的“长程记忆”仍需针对性优化。
未来,或许需要从模型架构、训练数据逻辑、上下文窗口机制等多个维度入手,才能真正解决跨多轮对话的性能衰减问题,让AI更适配复杂的多轮协作场景。