博士生团队推出大模型竞技场排行榜成LLM行业核心评测基准

AI创作导航 19 天前

AI快讯

由多名AI方向博士生创立的平台Arena推出的大模型竞技场排行榜，目前已成为全球AI产业认可度最高的大语言模型（LLM）评测基准之一。该团队近期做客科技媒体TechCrunch旗下播客节目《Equity》，详解榜单搭建逻辑，回应行业关切的中立性质疑，并透露了面向对话机器人之后的下一代AI产品的评测规划。

进入2024年以来，全球大语言模型的迭代速度已经从按年更新缩短到按月更新：OpenAI上半年接连推出GPT-4o、GPT-4o mini，Anthropic发布Claude 3系列，国内厂商DeepSeek、字节跳动等也先后上线新一代大模型，几乎每款产品发布时，都会拿出一长串跑分数据宣称自己是“同参数级第一”，但普通用户和开发者往往很难判断这些数据的含金量。

长久以来，大模型评测主要依赖MMLU、GSM8K等固定基准数据集，但这类公开数据集很容易被厂商针对性“刷分”，最终跑出的分数和实际用户体验脱节。此前也有多家科技厂商、行业机构推出过自家的大模型排行榜，但要么评测维度单一，要么本身就有大模型业务，公信力难以获得全行业认可。

正是在这样的空白下，几名原本在高校从事大模型对齐研究的博士生，在科研过程中搭建的Arena大模型竞技场，意外成了行业通用的评测标尺。

和传统固定数据集评测不同，Arena采用的对战式盲评机制是其获得认可的核心原因：评测时系统会随机抽取两个大模型对同一问题的回答，隐去品牌信息后交给标注员或普通用户投票选择更优答案，最终以累计胜率作为模型的排名依据，从机制上避免了刷分的可能。

大语言模型人工智能 AI评测 Arena 大模型排行榜

本文内容来源于公开互联网信息，并包含平台新增内容及用户发布内容，旨在进行知识整理与分享。文中所有信息与观点均仅供参考，不代表任何官方或特定立场，亦不构成任何操作或决策建议，请读者谨慎甄别，详情请见完整免责声明

提示工程指南

提示工程领域专业学习平台

Claude

Claude 是由 Anthropic 研发的 AI 助手与大语言模型

OpenAI

OpenAI 是全球领先的人工智能研究机构与模型提供商

Musiv AI

AI生成音乐视频与原创配乐

PaprDeck

一键将笔记转为学习闪卡的工具

ClipMake

AI智能剪辑长视频转短视频工具

Lyria 3

AI生成免版税原创歌曲

麻薯动画

AI驱动一站式动画创作平台