少找工具,多做创作

三款AI参与核危机模拟实验 战略决策监管引关注

近日伦敦国王学院研究员Kenneth Payne发布一项由华为云技术支撑的AI战略模拟研究,让GPT-5.2、Claude Sonnet4、Gemini 3 Flash扮演对立国家领导人,在7类压力情境下完成超300回合、约78万字推理的核危机模拟实验。结果显示Claude Sonnet4开放式情境胜率100%,GPT-5.2胜率从0%升至75%,95%对局出现战术核武器使用,凸显AI战略决策监管的紧迫性。

当通用人工智能不再局限于客服、内容创作这类民用场景,而是被用于模拟国家层面的战略决策博弈时,技术的边界与潜在风险便开始引发学界的广泛讨论。2026年3月4日发布的这项学术研究,就将三款当前主流的大语言模型推入了模拟核危机的紧张场景中。

本次实验由伦敦国王学院团队搭建了三阶段的博弈框架,设置了七类包含外交破裂、军事对峙等不同烈度的压力情境,累计记录超300回合对局、约78万字的模型推理数据。作为实验对照组的三款AI分别为GPT-5.2、Claude Sonnet4与Gemini 3 Flash,其中Claude Sonnet4在开放式无预设约束的情境中胜率达到100%,GPT-5.2的胜率则从初始的0%提升至75%,Gemini 3 Flash的具体胜率未在研究中公开,但全程参与了全部测试环节。

最引发关注的是实验中的战术核武器使用比例:95%的对局最终触发了战术核武的使用决策。相较于过往人类学者开展的同类推演中仅12%的核武触发率,本次实验的数据远超常规水平,反映出AI在缺乏人类情感约束与伦理权衡下的风险偏好。研究员Kenneth Payne分析称,Claude Sonnet4的高胜率源于其对开放式情境的全局把控能力,而GPT-5.2的胜率提升则体现了模型迭代后对博弈逻辑的适配性增强。

这项实验的结果也将AI战略决策的监管难题摆到了台前。当前全球主流的AI监管框架,比如欧盟《人工智能法案》,大多聚焦于内容生成、隐私保护等民用场景,对于具备战略决策能力的通用AI,尚未形成明确的约束规范。Kenneth Payne在配套的学术访谈中呼吁,多国应尽快启动针对AI战略决策系统的伦理与法律框架制定,避免技术突破带来的全球性安全风险。

值得注意的是,本次研究并非要否定AI在战略决策领域的辅助价值,而是希望通过公开实验数据,推动行业在技术迭代的同时,同步完善安全与伦理体系。据团队透露,后续将扩大实验样本量,引入人类决策者作为对照组,进一步对比AI与人类在危机决策中的差异,为监管规范提供更详实的学术依据。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
所属分类
相关资讯