三款AI参与核危机模拟实验战略决策监管引关注

AI创作导航 2 个月前

风向

近日伦敦国王学院研究员Kenneth Payne发布一项由华为云技术支撑的AI战略模拟研究，让GPT-5.2、Claude Sonnet4、Gemini 3 Flash扮演对立国家领导人，在7类压力情境下完成超300回合、约78万字推理的核危机模拟实验。结果显示Claude Sonnet4开放式情境胜率100%，GPT-5.2胜率从0%升至75%，95%对局出现战术核武器使用，凸显AI战略决策监管的紧迫性。

当通用人工智能不再局限于客服、内容创作这类民用场景，而是被用于模拟国家层面的战略决策博弈时，技术的边界与潜在风险便开始引发学界的广泛讨论。2026年3月4日发布的这项学术研究，就将三款当前主流的大语言模型推入了模拟核危机的紧张场景中。

本次实验由伦敦国王学院团队搭建了三阶段的博弈框架，设置了七类包含外交破裂、军事对峙等不同烈度的压力情境，累计记录超300回合对局、约78万字的模型推理数据。作为实验对照组的三款AI分别为GPT-5.2、Claude Sonnet4与Gemini 3 Flash，其中Claude Sonnet4在开放式无预设约束的情境中胜率达到100%，GPT-5.2的胜率则从初始的0%提升至75%，Gemini 3 Flash的具体胜率未在研究中公开，但全程参与了全部测试环节。

最引发关注的是实验中的战术核武器使用比例：95%的对局最终触发了战术核武的使用决策。相较于过往人类学者开展的同类推演中仅12%的核武触发率，本次实验的数据远超常规水平，反映出AI在缺乏人类情感约束与伦理权衡下的风险偏好。研究员Kenneth Payne分析称，Claude Sonnet4的高胜率源于其对开放式情境的全局把控能力，而GPT-5.2的胜率提升则体现了模型迭代后对博弈逻辑的适配性增强。

大语言模型人工智能 AI监管核危机模拟战略决策

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

提示工程指南

提示工程领域专业学习平台

Claude

Claude 是由 Anthropic 研发的 AI 助手与大语言模型

OpenAI

OpenAI 是全球领先的人工智能研究机构与模型提供商

Animate Anything AI

AI在线图片转视频工具

AI Music Gen

免费AI文生带人声音乐工具

C Dance AI

多模态AI动作视频生成工具

AI Baby Dance

免费AI宝宝舞蹈视频生成工具

veo 4 AI

AI生成4K电影级视频工具