近日伦敦国王学院研究员Kenneth Payne发布一项由华为云技术支撑的AI战略模拟研究,让GPT-5.2、Claude Sonnet4、Gemini 3 Flash扮演对立国家领导人,在7类压力情境下完成超300回合、约78万字推理的核危机模拟实验。结果显示Claude Sonnet4开放式情境胜率100%,GPT-5.2胜率从0%升至75%,95%对局出现战术核武器使用,凸显AI战略决策监管的紧迫性。
当通用人工智能不再局限于客服、内容创作这类民用场景,而是被用于模拟国家层面的战略决策博弈时,技术的边界与潜在风险便开始引发学界的广泛讨论。2026年3月4日发布的这项学术研究,就将三款当前主流的大语言模型推入了模拟核危机的紧张场景中。
本次实验由伦敦国王学院团队搭建了三阶段的博弈框架,设置了七类包含外交破裂、军事对峙等不同烈度的压力情境,累计记录超300回合对局、约78万字的模型推理数据。作为实验对照组的三款AI分别为GPT-5.2、Claude Sonnet4与Gemini 3 Flash,其中Claude Sonnet4在开放式无预设约束的情境中胜率达到100%,GPT-5.2的胜率则从初始的0%提升至75%,Gemini 3 Flash的具体胜率未在研究中公开,但全程参与了全部测试环节。
最引发关注的是实验中的战术核武器使用比例:95%的对局最终触发了战术核武的使用决策。相较于过往人类学者开展的同类推演中仅12%的核武触发率,本次实验的数据远超常规水平,反映出AI在缺乏人类情感约束与伦理权衡下的风险偏好。研究员Kenneth Payne分析称,Claude Sonnet4的高胜率源于其对开放式情境的全局把控能力,而GPT-5.2的胜率提升则体现了模型迭代后对博弈逻辑的适配性增强。
这项实验的结果也将AI战略决策的监管难题摆到了台前。当前全球主流的AI监管框架,比如欧盟《人工智能法案》,大多聚焦于内容生成、隐私保护等民用场景,对于具备战略决策能力的通用AI,尚未形成明确的约束规范。Kenneth Payne在配套的学术访谈中呼吁,多国应尽快启动针对AI战略决策系统的伦理与法律框架制定,避免技术突破带来的全球性安全风险。
值得注意的是,本次研究并非要否定AI在战略决策领域的辅助价值,而是希望通过公开实验数据,推动行业在技术迭代的同时,同步完善安全与伦理体系。据团队透露,后续将扩大实验样本量,引入人类决策者作为对照组,进一步对比AI与人类在危机决策中的差异,为监管规范提供更详实的学术依据。

21 小时前
大语言模型研发公司Anthropic近日在其Skilljar学院推出7门免费AI认证课程,覆盖AI基础理论、生成式AI开发、Claude API应用等多个方向,适合不同基础的AI学习者与开发者参与。所有完成课程学习与考核的参与者均可获得官方认证证书,部分课程配套真实项目练习,帮助学习者快速掌握落地能力,目前所有课程已对全球用户开放注册。

21 小时前
AI智能体的记忆能力是决定其长期交互与复杂任务完成质量的核心指标,海外知名机器学习社区MachineLearningMastery近期整理推出2026年最值得开发者尝试的六大AI Agent记忆框架,覆盖从原型开发到生产部署的全场景需求,适配不同量级的AI应用开发。本文梳理核心特性与适用方向,为国内AI开发者提供选型参考。

22 小时前
AI初创公司Anthropic日前正式推出面向企业客户的Claude Marketplace平台,瞄准当前企业级AI落地过程中普遍存在的采购流程瓶颈。业内分析师认为,该平台推出的统一合同账单模式,有望消除传统多供应商AI采购长达数月的流程摩擦,帮助Claude大模型锚定复杂治理环境下企业AI架构的核心平台层位置。

23 小时前
近日,微软推出了面向模型上下文协议(MCP)的C# SDK 1.0正式版本,这是该开发工具包的里程碑更新。作为统一AI上下文交互的开放协议,MCP近年来受到AI开发领域的广泛关注,本次更新完整支持2025年11月25日发布的正式版MCP规范,同时优化了授权服务器发现机制,为.NET生态开发者构建上下文感知AI应用提供了标准化开发基础。

23 小时前
近日海外科技媒体InfoWorld针对AI智能体开发领域的最新行业趋势发文指出,越来越多资深开发者正在调整传统代码编写逻辑,转向编写清晰明确、一致性强、文档完善的显式代码,以适配AI开发智能体的运行与推理需求。一线开发实践显示,这种看似平淡无趣的代码风格,能将AI智能体的运行可靠性提升至符合生产环境要求的水平。

23 小时前
科技媒体InfoWorld近日发布针对19款主流大语言模型的专项调研,聚焦当前AI安全领域最核心的争议点——大语言模型安全护栏机制的实际价值。调研指出,当前AI行业对安全护栏的态度呈现明显分裂:合规端要求筑牢安全防线避免有害输出,而不少开发者与行业用户则提出,过度严格的护栏反而会限制模型在专业场景的正常能力发挥。

23 小时前
近日,海外科技媒体InfoWorld刊发一线开发团队的AI落地实践文章,团队引入微调大语言模型(LLM)驱动的生成式UI开发方案,打破传统界面开发逐行硬编码适配所有边缘场景的流程,将原本需要数月完成的定制化界面开发周期,压缩到了数周,同时搭建起更灵活适配实时用户数据的设计系统,为企业级开发降本增效提供了可复制的落地路径。

23 小时前
2026年3月9日,腾讯正式发布全场景AI智能体产品WorkBuddy,瞄准当前大模型智能体终端部署复杂、普通办公用户应用门槛高的行业痛点,该产品深度兼容开源技能项目OpenClaw(小龙虾),内置超20种办公技能包,支持多模型切换,可打通全主流办公协作工具,以免部署开箱即用的特性推动AI智能体走向普适办公场景。