登录体验完整功能(收藏、点赞、评论等)

博士生团队推出大模型竞技场排行榜 成LLM行业核心评测基准

由多名AI方向博士生创立的平台Arena推出的大模型竞技场排行榜,目前已成为全球AI产业认可度最高的大语言模型(LLM)评测基准之一。该团队近期做客科技媒体TechCrunch旗下播客节目《Equity》,详解榜单搭建逻辑,回应行业关切的中立性质疑,并透露了面向对话机器人之后的下一代AI产品的评测规划。

进入2024年以来,全球大语言模型的迭代速度已经从按年更新缩短到按月更新:OpenAI上半年接连推出GPT-4o、GPT-4o mini,Anthropic发布Claude 3系列,国内厂商DeepSeek、字节跳动等也先后上线新一代大模型,几乎每款产品发布时,都会拿出一长串跑分数据宣称自己是“同参数级第一”,但普通用户和开发者往往很难判断这些数据的含金量。

长久以来,大模型评测主要依赖MMLU、GSM8K等固定基准数据集,但这类公开数据集很容易被厂商针对性“刷分”,最终跑出的分数和实际用户体验脱节。此前也有多家科技厂商、行业机构推出过自家的大模型排行榜,但要么评测维度单一,要么本身就有大模型业务,公信力难以获得全行业认可。

正是在这样的空白下,几名原本在高校从事大模型对齐研究的博士生,在科研过程中搭建的Arena大模型竞技场,意外成了行业通用的评测标尺。

和传统固定数据集评测不同,Arena采用的对战式盲评机制是其获得认可的核心原因:评测时系统会随机抽取两个大模型对同一问题的回答,隐去品牌信息后交给标注员或普通用户投票选择更优答案,最终以累计胜率作为模型的排名依据,从机制上避免了刷分的可能。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创