工具档案
Chatbot Arena (LMSYS)
百万用户盲测投票,大模型评测金标准
免费
访问官网 →
学术界公认的金标准,顶会论文级别
百万级真实用户投票,数据量最大
覆盖100+模型,更新频率快
众包投票存在采样偏差(英语用户为主)
有被厂商刷票的风险,反作弊机制不完全透明
侧重对话能力,不覆盖速度/价格等实用维度
8.5
编辑评分
产品简介
Chatbot Arena由UC Berkeley LMSYS团队运营,是目前学术界和产业界最受认可的大模型评测平台。采用ELO评分系统,通过百万级用户匿名盲测投票对100+模型进行排名。被AAAI等顶会引用,各大AI公司发布新模型时都以Arena排名作为核心宣传点。免费开放,任何人都可以参与投票。
用户反馈摘要
免费盲测方便,深度体验偏少
用户认可
- 免费且通常无需注册,就能横向试多个模型
- 盲测榜单被认为更接近真实偏好
用户顾虑
- 现有讨论多是入门介绍,长期体验反馈少
- 不少内容停留在使用入口和操作教程
优点
- 学术界公认的金标准,顶会论文级别
- 百万级真实用户投票,数据量最大
- 覆盖100+模型,更新频率快
- 完全免费开放,透明度高
不足
- 众包投票存在采样偏差(英语用户为主)
- 有被厂商刷票的风险,反作弊机制不完全透明
- 侧重对话能力,不覆盖速度/价格等实用维度
核心功能
ELO评分排名 匿名盲测投票 分类榜单(代码/数学/视觉等) 100+模型覆盖 开放数据集