LMSYS Chatbot Arena大模型排行榜解读:全球AI模型谁更强?
发布时间: 2026年3月20日
来源: AI资讯综合
标签: AI大模型、LMSYS、Chatbot Arena、大模型排名、人工智能
—
什么是LMSYS Chatbot Arena?
LMSYS Chatbot Arena(后更名为LMArena)是由加州大学伯克利分校、加州大学圣地亚哥分校和卡耐基梅隆大学的研究人员合作创立的众包AI模型评估平台。这个平台采用匿名对战机制和人类偏好投票,基于Bradley-Terry模型实现Elo式评分,生成动态排行榜来评估模型在对话、编程、数学等多维度的能力。
简单来说,就是让两个AI模型匿名PK,用户投票选出更好的回答,最后根据胜负关系生成排名。这种盲测方式被认为是大模型评测的”金标准”,连OpenAI CEO奥特曼都非常看重这个排名。
—
平台发展历程
– 2023年5月:平台推出初始版本,评测9个开源模型
– 2023年6月:首创匿名对战机制
– 2023年12月:前特斯拉AI总监Andrej Karpathy在X平台推荐,称其为”信任的少数LLM评测方式之一”
– 2024年1月:累计收集超114万次用户投票,评测模型突破100个
– 2024年5月:发布英语/中文/法文专项榜单
– 2025年1月:正式更名为LMArena(Large Model Arena)
– 2025年5月:团队注册公司”Arena Intelligence Inc.”,完成1亿美元种子轮融资
– 2026年初:完成新一轮1.5亿美元融资,估值达17亿美元,累计评估模型超400个
—
重要排名事件回顾
根据百度百科和相关报道,以下是LMSYS Chatbot Arena历史上几次重要的排名更迭:
2024年3月:Claude 3 Opus首次超越GPT-4
Anthropic的Claude 3 Opus首次在排行榜上超越长期占据榜首的GPT-4,后因比分过于接近,两者并列第一。这标志着Claude系列模型在对话能力上的重大突破。
2024年5月:中文榜单发布,国产模型崛起
平台新增中文分榜,零一万物的Yi-Large模型在该分榜上与GPT-4o并列第一。这是国产大模型首次在国际权威评测中与OpenAI并驾齐驱。
2024年11月:GPT-4o重回榜首
OpenAI的GPT-4o在升级至版本1120后,以1361分的高分重新夺回总榜榜首位置。这次升级显著提升了模型的综合表现。
2025年2月:阿里Qwen2.5-Max进入前十
阿里巴巴的Qwen2.5-Max模型首次进入总榜全球前十,并在数学、编程等专项榜单中表现突出。这标志着中国AI模型正在快速缩小与国际顶尖水平的差距。
2025年5月:腾讯混元进入前八
腾讯混元模型首次进入总榜前八,显示出国内大厂在大模型领域的持续投入正在取得成效。
2026年:Gemini 3达到全球榜首
谷歌的Gemini 3模型在LMSYS Chatbot Arena排行榜上达到全球榜首位置,并在国际数学奥林匹克(IMO)和国际大学生程序设计竞赛(ICPC)等竞赛中表现优异。
—
评测机制解析
LMSYS Chatbot Arena的核心机制是”匿名对战”+”人类偏好投票”:
- **匿名对战**:用户输入问题后,系统随机分配两个匿名模型生成回答
- **盲测投票**:用户在不知道模型身份的情况下投票选择更优答案
- **Elo评分**:基于Bradley-Terry模型实现Elo式评分,分数根据胜负实时变化
- **动态排名**:形成动态排行榜,反映模型的真实能力
这种机制的优势在于消除了品牌偏见,让用户基于回答质量而非品牌认知进行评判。
—
国内大模型在LMSYS的表现
已上榜的国产模型
根据公开报道,以下国产模型曾在LMSYS Chatbot Arena取得不错成绩:
– 零一万物Yi-Large:2024年5月与GPT-4o并列中文榜第一
– 阿里Qwen2.5-Max:2025年2月进入总榜全球前十
– 腾讯混元:2025年5月进入总榜前八
– DeepSeek-V3:在多个专项榜单中表现突出
国产模型的进步
从LMSYS的排名变化可以看出:
- **技术差距缩小**:国产模型从最初的前十之外,逐步进入前八、前五
- **中文优势明显**:在中文专项榜单中,国产模型已经能与GPT-4o并驾齐驱
- **细分领域突破**:在数学、编程等专项榜单中,国产模型表现尤为突出
—
如何查看最新排名?
由于LMSYS Chatbot Arena官网在国内访问可能存在困难,用户可以通过以下方式了解最新排名:
- **官方渠道**:访问 lmarena.ai 或 chat.lmsys.org
- **国内科技媒体**:关注36氪、机器之心、量子位等媒体的报道
- **社交媒体**:关注相关领域的KOL和技术博主
—
排名的意义与局限
排名的价值
– 客观性:匿名盲测机制减少了品牌偏见
– 实时性:排名根据用户投票实时更新
– 全面性:涵盖对话、编程、数学等多个维度
排名的局限
– 场景局限:评测场景与用户实际使用场景可能存在差异
– 语言偏向:英文评测数据占比较大,对中文模型可能不够友好
– 刷榜风险:2025年4月曾发生Meta Llama 4 Maverick”专供版”刷榜事件
—
结语
LMSYS Chatbot Arena作为全球最权威的大模型评测平台之一,其排名变化反映了AI大模型领域的激烈竞争。从Claude 3 Opus超越GPT-4,到国产模型Yi-Large、Qwen2.5-Max的崛起,再到Gemini 3登顶,每一次排名更迭都代表着技术的进步。
对于普通用户来说,排名可以作为选型的参考,但最终还是要根据自己的实际使用场景来选择合适的模型。毕竟,适合自己的才是最好的。
—
参考资料
– 百度百科:LMSYS Chatbot Arena
– 爱范儿:LMSYS盲测竞技场成全球大模型评测金标准
– 澎湃新闻:大模型盲测竞技场放榜
– 站长之家:GPT-4o升级到版本1120,重回榜首
– 投中网:29个人,估值120亿
—
*本文基于公开资料整理,排名数据仅供参考,具体以LMSYS官方发布为准。*
