由多名AI方向博士生创立的平台Arena推出的大模型竞技场排行榜,目前已成为全球AI产业认可度最高的大语言模型(LLM)评测基准之一。该团队近期做客科技媒体TechCrunch旗下播客节目《Equity》,详解榜单搭建逻辑,回应行业关切的中立性质疑,并透露了面向对话机器人之后的下一代AI产品的评测规划。
进入2024年以来,全球大语言模型的迭代速度已经从按年更新缩短到按月更新:OpenAI上半年接连推出GPT-4o、GPT-4o mini,Anthropic发布Claude 3系列,国内厂商DeepSeek、字节跳动等也先后上线新一代大模型,几乎每款产品发布时,都会拿出一长串跑分数据宣称自己是“同参数级第一”,但普通用户和开发者往往很难判断这些数据的含金量。
长久以来,大模型评测主要依赖MMLU、GSM8K等固定基准数据集,但这类公开数据集很容易被厂商针对性“刷分”,最终跑出的分数和实际用户体验脱节。此前也有多家科技厂商、行业机构推出过自家的大模型排行榜,但要么评测维度单一,要么本身就有大模型业务,公信力难以获得全行业认可。
正是在这样的空白下,几名原本在高校从事大模型对齐研究的博士生,在科研过程中搭建的Arena大模型竞技场,意外成了行业通用的评测标尺。
和传统固定数据集评测不同,Arena采用的对战式盲评机制是其获得认可的核心原因:评测时系统会随机抽取两个大模型对同一问题的回答,隐去品牌信息后交给标注员或普通用户投票选择更优答案,最终以累计胜率作为模型的排名依据,从机制上避免了刷分的可能。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
13 分钟前
近日,芯片厂商Intel被曝正在研发下一代移动处理器Serpent Lake,该芯片集成对标Nvidia RTX系列显卡的独立级AI计算单元,推理算力较当前14代酷睿提升300%,可本地运行70B参数大语言模型,有望2025年第二季度上市,为PC端AI应用普及带来硬件层面的重大突破。

4 小时前
4月6日,小米MiMo大模型负责人罗福莉在海外社交平台X公开发文,结合此前Anthropic宣布Claude封禁OpenClaw等第三方工具、小米MiMo推出分层Token定价套餐的行业动态,系统拆解Agent场景下的算力分配与大模型定价逻辑,驳斥当前行业盲目开展价格战的短视行为,引发AI产业界对大模型健康商业化路径的广泛讨论。

5 小时前
2026年4月,亚马逊创始人杰夫·贝索斯旗下全新神秘AI实验室Project Prometheus宣布前OpenAI联合创始人Kyle Kosic正式入职。该实验室专注于开发可理解物理世界的先进人工智能系统,旨在突破现有大模型技术边界,打造更高自主性的智能系统,标志着贝索斯在AI前沿领域的布局进入落地阶段。

5 小时前
4月7日,AI大模型厂商Anthropic官方披露其年化收入(ARR)已突破300亿美元,首次反超竞争对手OpenAI同期250亿美元的年化收入水平。该公司2025年末年化收入仅为90亿美元,3个多月内收入规模大涨约210亿美元,同时同步官宣最新AI芯片采购大单,引发全球AI产业对大模型商业化格局的广泛讨论。

7 小时前
2026年4月,欧洲头部人工智能企业Mistral AI联合创始人兼CEO Arthur Mensch访韩期间,与三星电子副董事长兼CEO全永铉及核心高层会晤,双方重点围绕AI半导体存储芯片供应链、技术协同方案展开磋商。Mistral AI正寻求稳定XPU算力芯片供应以支撑模型迭代,三星在高带宽内存...

7 小时前
2026年4月,OpenAI首席执行官山姆·奥特曼在公开专访中首度回应文生视频模型Sora停用传闻,明确表示关停并非源于技术瓶颈,而是公司当前存在极大算力缺口,有限的芯片资源将优先供给GPT系列大模型迭代等更高优先级项目,Sora因内部优先级排位靠后遭遇资源挤兑暂时下线。

7 小时前
2026年4月初,英格兰依什米安超级联赛球队联合联正式签约全球首批AI职业球员Holly与Harvey,二者因无物理实体无法参与实际赛事,定位为俱乐部内容创作与品牌运营核心。4月7日联合联官宣已出售两名AI球员,收取数额未公开的虚拟转会费,该事件在足球界与科技界引发关于体育数字化边界的广泛讨论。

7 小时前
2026年4月国际大模型API分发平台OpenRouter公布的最新榜单显示,阿里旗下千问3.6 Plus登顶全球大模型周调用量榜首,且已连续4天霸榜日榜,该模型也成为平台上线以来首个单日调用量突破1万亿Token的大模型,标志着国产大模型凭借技术迭代、高性价比优势在全球市场的竞争力进一步提升。