最新研究：AI大模型跨多轮对话性能显著下滑，最高降39%

AI小创 1 个月前

AI快讯

菲利普·拉班及其研究团队最新测试显示，即便GPT-5及后续版本的AI大语言模型，在跨多轮对话完成任务时仍存在显著性能短板：当任务信息拆分至多条消息中，模型性能降幅可达33%-39%。团队在代码、数学计算等六大任务中测试发现Python任务优化空间最大，同时建议用户遇到异常时可开启新对话并先让模型总结请求。

不少AI大模型用户或许都有过类似经历：把一个复杂需求拆分到多条消息里逐次发送，得到的结果反而远不如一次性输入完整提示词精准。这种看似偶然的体验，如今被菲利普·拉班团队的系统测试证实为大模型的共性问题。

研究团队选取了代码生成、数据库操作、指令执行、数据转文本、数学计算、文本摘要六大核心任务，对新旧两代大语言模型展开对比测试。测试设置了两种场景：一种是将所有任务信息集中在单次提示词中（拼接式输入），另一种是拆分至多条消息分轮发送（分片式输入）。

结果显示，当采用分片式输入时，早期大模型的性能出现最高39%的大幅下滑；即便是GPT-5及后续更新的模型，性能降幅依然维持在33%左右，这意味着跨轮对话的信息整合难题并未随模型迭代得到根本性解决。

在六大测试任务中，模型的性能下滑表现呈现出明显差异化。其中，数学计算、文本摘要等任务在跨轮对话中的性能衰减相对稳定，而Python代码生成任务成为优化空间最大的领域——研究人员发现，针对该任务调整跨轮输入的策略后，模型性能提升最为明显。

这种差异化背后，或许与不同任务对上下文信息的依赖程度有关：Python代码任务往往需要清晰的逻辑链条，当信息分轮传递时，模型更易通过针对性优化捕捉关键逻辑，而数学计算等任务对零散信息的整合要求更高，因此更难突破瓶颈。

大语言模型人工智能 GPT-5 跨轮对话性能 Python代码

本文内容来源于公开互联网信息，并包含平台新增内容及用户发布内容，旨在进行知识整理与分享。文中所有信息与观点均仅供参考，不代表任何官方或特定立场，亦不构成任何操作或决策建议，请读者谨慎甄别，详情请见完整免责声明