最新研究：AI大模型跨多轮对话性能显著下滑，最高降39%

1 小时前 AI快讯 2

菲利普·拉班及其研究团队最新测试显示，即便GPT-5及后续版本的AI大语言模型，在跨多轮对话完成任务时仍存在显著性能短板：当任务信息拆分至多条消息中，模型性能降幅可达33%-39%。团队在代码、数学计算等六大任务中测试发现Python任务优化空间最大，同时建议用户遇到异常时可开启新对话并先让模型总结请求。

不少AI大模型用户或许都有过类似经历：把一个复杂需求拆分到多条消息里逐次发送，得到的结果反而远不如一次性输入完整提示词精准。这种看似偶然的体验，如今被菲利普·拉班团队的系统测试证实为大模型的共性问题。

研究团队选取了代码生成、数据库操作、指令执行、数据转文本、数学计算、文本摘要六大核心任务，对新旧两代大语言模型展开对比测试。测试设置了两种场景：一种是将所有任务信息集中在单次提示词中（拼接式输入），另一种是拆分至多条消息分轮发送（分片式输入）。

结果显示，当采用分片式输入时，早期大模型的性能出现最高39%的大幅下滑；即便是GPT-5及后续更新的模型，性能降幅依然维持在33%左右，这意味着跨轮对话的信息整合难题并未随模型迭代得到根本性解决。

在六大测试任务中，模型的性能下滑表现呈现出明显差异化。其中，数学计算、文本摘要等任务在跨轮对话中的性能衰减相对稳定，而Python代码生成任务成为优化空间最大的领域——研究人员发现，针对该任务调整跨轮输入的策略后，模型性能提升最为明显。

这种差异化背后，或许与不同任务对上下文信息的依赖程度有关：Python代码任务往往需要清晰的逻辑链条，当信息分轮传递时，模型更易通过针对性优化捕捉关键逻辑，而数学计算等任务对零散信息的整合要求更高，因此更难突破瓶颈。

针对大模型跨轮对话的性能短板，研究团队给出了务实的用户侧解决方案：当遇到模型输出异常、结果精度下降的情况时，可尝试开启新的对话窗口，并首先让模型总结之前的所有任务请求，再提交具体需求。

这一策略本质上是通过人为干预，将分片式的跨轮信息重新整合为类似拼接式的完整提示，帮助模型更高效地抓取核心任务逻辑，从而在现有模型框架下尽量降低性能衰减。

本次研究也给大模型研发者提出了新的命题：随着AI对话场景从单次交互转向多轮协作，模型的跨轮上下文记忆与整合能力将成为核心竞争力之一。当前GPT-5等模型虽在精度、推理能力上持续升级，但在处理分散式信息时的短板，说明大语言模型的“长程记忆”仍需针对性优化。

未来，或许需要从模型架构、训练数据逻辑、上下文窗口机制等多个维度入手，才能真正解决跨多轮对话的性能衰减问题，让AI更适配复杂的多轮协作场景。

大语言模型人工智能 GPT-5 跨轮对话性能 Python代码

本文内容来源于公开互联网信息，并包含平台新增内容及用户发布内容，旨在进行知识整理与分享。文中所有信息与观点均仅供参考，不代表任何官方或特定立场，亦不构成任何操作或决策建议，请读者谨慎甄别，详情请见完整免责声明

所属分类

AI快讯

最新研究：AI大模型跨多轮对话性能显著下滑，最高降39%

承诺自主治理却陷困境：Anthropic等AI巨头面临监管真空挑战