主流大语言模型曝会话迷失缺陷 多轮对话成功率骤降至65% 近日微软研究院与赛富时联合发布的一项研究,戳破了大语言模型“全能对话者”的神话。研究团队对GPT-4.1、Gemini 2.5 Pro等15款当前顶尖大模型展开测试后发现,这些模型在单轮对话中成功率可达90%,但进入多轮复杂对话后,成功率竟骤降至65%,普遍存在“迷失会话”的核心缺陷,为依赖AI构建复杂交互的行业敲响了警钟。 这项研究针对当前行业内最具代表性的15款大模型展开,涵盖了OpenAI、谷歌、Anthropic、DeepSeek等主流厂商的旗舰产品。测试场景全面模拟了企业客服、复杂任务协作、个性化咨询等需要连续交互的真实业务场景,每轮对话都设置了明确的任务目标,比如“根据用户历史咨询记录跟进售后问题”“逐步引导用户完成软件功能配置”等。测试结果显示,所有模型在单轮对话中都能稳定输出符合要求的答案,平均成功率高达90%,但当对话轮次超过5轮后,成功率便开始快速下滑,到第10轮时已普遍跌至65%左右,部分模型的表现甚至更差。 研究团队强调,这种性能下滑并非大模型“智力下降”,而是存在机制性的“会话迷失”缺陷。具体来看,问题...