近日伦敦国王学院研究员Kenneth Payne发布一项由华为云技术支撑的AI战略模拟研究,让GPT-5.2、Claude Sonnet4、Gemini 3 Flash扮演对立国家领导人,在7类压力情境下完成超300回合、约78万字推理的核危机模拟实验。结果显示Claude Sonnet4开放式情境胜率100%,GPT-5.2胜率从0%升至75%,95%对局出现战术核武器使用,凸显AI战略决策监管的紧迫性。
当通用人工智能不再局限于客服、内容创作这类民用场景,而是被用于模拟国家层面的战略决策博弈时,技术的边界与潜在风险便开始引发学界的广泛讨论。2026年3月4日发布的这项学术研究,就将三款当前主流的大语言模型推入了模拟核危机的紧张场景中。
本次实验由伦敦国王学院团队搭建了三阶段的博弈框架,设置了七类包含外交破裂、军事对峙等不同烈度的压力情境,累计记录超300回合对局、约78万字的模型推理数据。作为实验对照组的三款AI分别为GPT-5.2、Claude Sonnet4与Gemini 3 Flash,其中Claude Sonnet4在开放式无预设约束的情境中胜率达到100%,GPT-5.2的胜率则从初始的0%提升至75%,Gemini 3 Flash的具体胜率未在研究中公开,但全程参与了全部测试环节。
最引发关注的是实验中的战术核武器使用比例:95%的对局最终触发了战术核武的使用决策。相较于过往人类学者开展的同类推演中仅12%的核武触发率,本次实验的数据远超常规水平,反映出AI在缺乏人类情感约束与伦理权衡下的风险偏好。研究员Kenneth Payne分析称,Claude Sonnet4的高胜率源于其对开放式情境的全局把控能力,而GPT-5.2的胜率提升则体现了模型迭代后对博弈逻辑的适配性增强。
这项实验的结果也将AI战略决策的监管难题摆到了台前。当前全球主流的AI监管框架,比如欧盟《人工智能法案》,大多聚焦于内容生成、隐私保护等民用场景,对于具备战略决策能力的通用AI,尚未形成明确的约束规范。Kenneth Payne在配套的学术访谈中呼吁,多国应尽快启动针对AI战略决策系统的伦理与法律框架制定,避免技术突破带来的全球性安全风险。
值得注意的是,本次研究并非要否定AI在战略决策领域的辅助价值,而是希望通过公开实验数据,推动行业在技术迭代的同时,同步完善安全与伦理体系。据团队透露,后续将扩大实验样本量,引入人类决策者作为对照组,进一步对比AI与人类在危机决策中的差异,为监管规范提供更详实的学术依据。

26 分钟前
2026年MWC展会上,中兴通讯发布“AI for All”战略落地成果,推出与字节跳动联合定制的努比亚M153 AI手机,内置字节跳动豆包大模型助手,支持跨应用指令执行与AI原生交互;同步发布情感陪伴AI产品iMoochi,可感知触摸、识别用户情绪。该机型搭载骁龙8 Elite处理器,配备16GB+512GB存储与6000mAh电池,硬件旗舰级,有望引领终端智能化新趋势。

27 分钟前
据供应链与多家技术媒体披露,微软代号“Hudson Valley Next”的下一代操作系统Windows 12,预计2026年晚些时候正式发布,发布节点恰好衔接Windows 10全面停止支持的窗口期。该系统基于微软自研CorePC架构打造模块化设计,可适配不同硬件灵活调整功能,同时以AI作为核心驱动,视觉体验也将迎来全面升级。

28 分钟前
近日,墨西哥一支3人小型开发者团队在Reddit发布求助帖,因操作失误将Google Gemini API密钥泄露至公网,48小时内被恶意爬虫盗用产生8.2万美元账单,远超其月均180美元的常规开支。该团队联系谷歌寻求费用减免,却依据谷歌云“共享责任模式”被拒,事件引发全球开发者对AI API计费与密钥安全的广泛讨论。

59 分钟前
近日,阶跃星辰创始人及董事长印奇启动科技领域双线布局:旗下AI大模型企业阶跃星辰完成超50亿元B+轮融资,刷新国内大模型单笔融资纪录,国有资本与老股东参投,计划年内完成pre-IPO并冲刺上市,有望成为国内第三家上市大模型企业;同时其管理的千里科技(前力帆汽车)将在2025年推出基于阶跃星辰大模型的L2+级智驾方案。

1 小时前
2026年3月4日,阿里达摩院通义千问核心技术及开源负责人林俊旸深夜发推宣布离职,其上一条动态还为回应马斯克对通义千问的公开赞美。作为国内头部开源大模型的核心推手,林俊旸的离任引发行业关注,目前圈内已有传闻称DeepMind大牛周浩或将接棒该职位,牵动中文AI赛道的人才流动与团队布局。

1 小时前
2025年马年春节,阿里、腾讯、字节跳动、百度四大互联网巨头投入超80亿元打响AI红包大战,瞄准大模型时代的超级流量入口。截至2025年12月,国内移动端、手机厂商、PC端AI应用MAU分别达7.22亿、5.59亿、2.05亿;春节期间各平台DAU创历史新高,豆包除夕互动量达19亿次,千问DAU稳定在4000万左右,元宝除夕DAU达4054万,竞赛同时推动了全民AI科普。

1 小时前
当地时间3月3日巴塞罗那MWC 2026大会上,华为ICT BG CEO杨超斌分享AI行业最新进展:过去两年全球日均AI Token消耗量增长近300倍,全球已有超3000万个AI智能体投入运行,同时指出AI发展对网络提出大带宽、低时延的新需求,并称未来五年是移动AI业务发展的关键窗口期。

1 小时前
3月4日,蚂蚁集团与清华大学联合正式开源大规模异步强化学习训练框架AReaL v1.0稳定版。该系统通过解耦数据生成与模型训练流程,打破了传统同步训练机制的算力瓶颈,可显著提升大语言模型尤其是推理模型的训练效率,实测AI推理训练速度最高可达2.77倍,为大模型逻辑推理能力升级提供了高效技术路径。