登录体验完整功能(收藏、点赞、评论等)

最新研究:AI大模型跨多轮对话性能显著下滑,最高降39%

菲利普·拉班及其研究团队最新测试显示,即便GPT-5及后续版本的AI大语言模型,在跨多轮对话完成任务时仍存在显著性能短板:当任务信息拆分至多条消息中,模型性能降幅可达33%-39%。团队在代码、数学计算等六大任务中测试发现Python任务优化空间最大,同时建议用户遇到异常时可开启新对话并先让模型总结请求。

不少AI大模型用户或许都有过类似经历:把一个复杂需求拆分到多条消息里逐次发送,得到的结果反而远不如一次性输入完整提示词精准。这种看似偶然的体验,如今被菲利普·拉班团队的系统测试证实为大模型的共性问题。

研究团队选取了代码生成、数据库操作、指令执行、数据转文本、数学计算、文本摘要六大核心任务,对新旧两代大语言模型展开对比测试。测试设置了两种场景:一种是将所有任务信息集中在单次提示词中(拼接式输入),另一种是拆分至多条消息分轮发送(分片式输入)。

结果显示,当采用分片式输入时,早期大模型的性能出现最高39%的大幅下滑;即便是GPT-5及后续更新的模型,性能降幅依然维持在33%左右,这意味着跨轮对话的信息整合难题并未随模型迭代得到根本性解决。

在六大测试任务中,模型的性能下滑表现呈现出明显差异化。其中,数学计算、文本摘要等任务在跨轮对话中的性能衰减相对稳定,而Python代码生成任务成为优化空间最大的领域——研究人员发现,针对该任务调整跨轮输入的策略后,模型性能提升最为明显。

这种差异化背后,或许与不同任务对上下文信息的依赖程度有关:Python代码任务往往需要清晰的逻辑链条,当信息分轮传递时,模型更易通过针对性优化捕捉关键逻辑,而数学计算等任务对零散信息的整合要求更高,因此更难突破瓶颈。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创