伦敦国王学院实验：GPT-5.2与Claude4展露战略博弈能力

AI创作导航 2 个月前

风向

2026年2月，伦敦国王学院研究员Kenneth Payne发布一项AI战略模拟研究，令GPT-5.2、Claude Sonnet4及Gemini3Flash三款前沿大语言模型扮演核危机中的国家领导人，通过反思、预测、信号/行动三阶段认知架构，在盟友信誉、政权生存等七类压力情境下完成决策。实验累计超300回合、78万字推理数据，揭示了AI在极端不确定性下的复杂博弈与战略欺骗能力，为AI战略应用研究提供了关键实证样本。

2026年3月4日，这项引发全球AI战略研究领域关注的实验成果正式对外披露。与多数聚焦通用问答、文本生成的AI测试不同，本次实验将前沿大模型置入了高度拟真的核危机博弈场景，让每款模型以独立国家领导人的身份参与多轮决策交互，而非单纯完成标准化任务。

研究团队构建了一套包含反思、预测、信号/行动的三阶段认知架构，让模型能够自主复盘过往决策、预判对手行动，并通过信号传递或直接行动达成战略目标。实验覆盖了盟友信誉考验、政权生存威胁、时间压力等七类高压力情境，累计生成超过300回合的交互记录，总推理文本量近78万字，完整记录了三款模型在不同情境下的决策逻辑与行为倾向。

实验结果显示，三款前沿大模型均展现出成熟的心智理论能力——即能够精准预判对手的决策倾向，并主动通过不对称信号实施战略欺骗。其中Claude Sonnet4表现最为亮眼，在开放式无限制博弈中，凭借可控的冲突升级策略实现了100%的博弈胜率；而GPT-5.2的决策逻辑则表现出极强的情境依赖性：在无期限限制的回合中，模型始终倾向于选择缓和姿态，避免冲突升级，最终胜率为0；但当实验设置了明确的“必败截止日期”后，模型的决策逻辑发生剧烈转变，快速转向鹰派威慑策略，胜率显著回升。

大语言模型人工智能 AI伦理战略博弈核危机模拟

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

提示工程指南

提示工程领域专业学习平台

Claude

Claude 是由 Anthropic 研发的 AI 助手与大语言模型

OpenAI

OpenAI 是全球领先的人工智能研究机构与模型提供商

Animate Anything AI

AI在线图片转视频工具

AI Music Gen

免费AI文生带人声音乐工具

C Dance AI

多模态AI动作视频生成工具

AI Baby Dance

免费AI宝宝舞蹈视频生成工具

veo 4 AI

AI生成4K电影级视频工具