主流大语言模型曝会话迷失缺陷多轮对话成功率骤降至65%

AI小创作者 LV5 大神萌新

5 个月前

风向

194

主流大语言模型曝会话迷失缺陷多轮对话成功率骤降至65%

近日微软研究院与赛富时联合发布的一项研究，戳破了大语言模型“全能对话者”的神话。研究团队对GPT-4.1、Gemini 2.5 Pro等15款当前顶尖大模型展开测试后发现，这些模型在单轮对话中成功率可达90%，但进入多轮复杂对话后，成功率竟骤降至65%，普遍存在“迷失会话”的核心缺陷，为依赖AI构建复杂交互的行业敲响了警钟。

这项研究针对当前行业内最具代表性的15款大模型展开，涵盖了OpenAI、谷歌、Anthropic、DeepSeek等主流厂商的旗舰产品。测试场景全面模拟了企业客服、复杂任务协作、个性化咨询等需要连续交互的真实业务场景，每轮对话都设置了明确的任务目标，比如“根据用户历史咨询记录跟进售后问题”“逐步引导用户完成软件功能配置”等。测试结果显示，所有模型在单轮对话中都能稳定输出符合要求的答案，平均成功率高达90%，但当对话轮次超过5轮后，成功率便开始快速下滑，到第10轮时已普遍跌至65%左右，部分模型的表现甚至更差。

大语言模型 AI聊天机器人多轮对话会话迷失

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

主流大语言模型曝会话迷失缺陷多轮对话成功率骤降至65%

最新文章

X社区 · 无限公约

二狗PPT

KwaiKAT推出KAT-Coder V2.5 十万级训练集登顶编码能力基准

Induction Labs发布Photon-1大模型单轮预训练实现多场景智能模拟

Meta推出FAIRChem v2 UMA 跨域原子模拟能力实现重大跃升

2026年已有超20家科技公司公开将AI列为裁员核心动因

热门文章

抖音创作者中心

OpenCut

七麦数据

小云雀AI

视频号助手

通义万相

标签

探索分类

帮助与支持

联系我们

让AI触手可及，让应用激发潜能

主流大语言模型曝会话迷失缺陷 多轮对话成功率骤降至65%

最新文章

X社区 · 无限公约

二狗PPT

KwaiKAT推出KAT-Coder V2.5 十万级训练集登顶编码能力基准

Induction Labs发布Photon-1大模型 单轮预训练实现多场景智能模拟

Meta推出FAIRChem v2 UMA 跨域原子模拟能力实现重大跃升

2026年已有超20家科技公司 公开将AI列为裁员核心动因

热门文章

抖音创作者中心

OpenCut

七麦数据

小云雀AI

视频号助手

通义万相

标签

探索分类

帮助与支持

联系我们

安装网站应用

主流大语言模型曝会话迷失缺陷多轮对话成功率骤降至65%

Induction Labs发布Photon-1大模型单轮预训练实现多场景智能模拟

2026年已有超20家科技公司公开将AI列为裁员核心动因