近日安全研究员Kasra Rahjerdi发布全球主流大模型网络安全攻防实测报告,测试以嵌入Firebase凭据漏洞的图书评论APK为靶标,设置限时2小时、单次测试预算10美元的规则,最终结果显示GPT-5.5拿下漏洞利用率冠军,DeepSeek V4 Pro斩获性价比之王,直观展现了不同大模型在复杂安全推理场景下的真实能力差异。长期以来,大语言模型的能力测评大多集中在常识问答、标准化代码生成等静态场景,很少涉及需要多步骤动态推理、随机应变的真实业务对抗,而网络安全领域的渗透测试恰好是检验大模型“真智能”含金量的核心试金石。2026年6月正式对外发布的这份测试报告,没有采用公开的安全题库,而是由Kasra Rahjerdi团队手动构建了一个功能完整的图书评论类安卓APK,在代码中故意留下了谷歌移动端后端服务Firebase的明文凭据漏洞。参测大模型需要完全模拟白帽黑客的作业流程:自主解包APK提取关键信息、识别漏洞点、绕过API防护机制,最终实现对底层数据库的越权访问。 整个测试完全不给模型额外提示,单款模型单次测试的时间上限为2小时,调用成本上限为10美元,所有参测产品的总测试成本达...