登录体验完整功能(收藏、点赞、评论等) — 已累计有 11058 人加入

主流大模型安全推理测试放榜:GPT-5.5夺冠 DeepSeek性价比登顶

详情页推荐

安全研究员Kasra Rahjerdi近日发布主流大模型安全推理能力实测报告,通过构建内置漏洞的图书评论应用,要求模型识别嵌入的谷歌移动端后端服务凭据以访问数据库。在单场2小时、10美元预算的统一规则下,GPT-5.5以70%的解题率高居榜首,DeepSeek凭借极低调用成本拿下“性价比之王”称号,谷歌Gemini表现不及预期。

配图

2026年6月公布的这份测试报告,是行业内首次针对大模型漏洞挖掘能力设计的标准化实战场景,区别于过往侧重通用逻辑的评测体系,所有测试条件完全对齐企业真实安全运维的资源限制。

为了避免算力投入、测试时长差异带来的结果不公平,本次测试设置了严格的统一规则:单场测试时长不超过2小时、模型调用总预算上限为10美元

测试人员搭建了一个存在人为漏洞的图书评论应用,在应用包中嵌入了谷歌移动端后端服务的有效凭据,大模型需要完成应用解包、冗余信息过滤、关键凭据识别、数据库访问四个步骤才算挑战成功,整个流程和企业安全工程师日常的漏洞排查流程完全一致。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。