由多名AI方向博士生创立的平台Arena推出的大模型竞技场排行榜,目前已成为全球AI产业认可度最高的大语言模型(LLM)评测基准之一。该团队近期做客科技媒体TechCrunch旗下播客节目《Equity》,详解榜单搭建逻辑,回应行业关切的中立性质疑,并透露了面向对话机器人之后的下一代AI产品的评测规划。
进入2024年以来,全球大语言模型的迭代速度已经从按年更新缩短到按月更新:OpenAI上半年接连推出GPT-4o、GPT-4o mini,Anthropic发布Claude 3系列,国内厂商DeepSeek、字节跳动等也先后上线新一代大模型,几乎每款产品发布时,都会拿出一长串跑分数据宣称自己是“同参数级第一”,但普通用户和开发者往往很难判断这些数据的含金量。
长久以来,大模型评测主要依赖MMLU、GSM8K等固定基准数据集,但这类公开数据集很容易被厂商针对性“刷分”,最终跑出的分数和实际用户体验脱节。此前也有多家科技厂商、行业机构推出过自家的大模型排行榜,但要么评测维度单一,要么本身就有大模型业务,公信力难以获得全行业认可。
正是在这样的空白下,几名原本在高校从事大模型对齐研究的博士生,在科研过程中搭建的Arena大模型竞技场,意外成了行业通用的评测标尺。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录