AI大模型太多不会选?我们为大家整理了70多个AI评测榜单,竟然发现这才是最好的...

多客科技 · 发表于 2025-4-26 14:43

作者：微信文章

最近我发现一件事：现在AI大模型越多，越牛逼，大家越不知道该怎么选。

在众多科技文章中，我们经常看到这样的语式：

.....在LM Arena 上遥遥领先！......刷榜 MMLU！......空降GLUE，断层第一 !......在 GitHub 上拿到了 1.7k Star，涨脸啦！......在LiveCodeBench杀疯了！！

你就说这一堆英文缩写到底是啥，懂的人知道这是AI评测榜单，不懂的话，真的是看不懂啊！

现在AI 大模型的发布，总是伴随着一连串“跑分”和“登顶”的新闻。换句话说，这就是目前科技圈的常态。

技术飞速进步是好，但作为用户真的是困惑了：这么多榜单，这么多“第一名”，这么多”杀疯了“，到底该信谁？“不明觉厉”之后，我们很容易陷入一种选择焦虑。
<img />

<img />

<img />

<img />

<img />

<img />

<img />

<img />

<img />

所以我们今天不聊AI大模型，反而聊聊这些榜单，看看它们到底在评什么？我们这些用户，该怎么看待榜单数据，以及，最重要的，我们能怎么利用榜单，找到适合我们自己AI大模型。

为啥榜单满天飞？

首先我们可以先想想，为啥汽车有碰撞测试、油耗排名？为啥餐厅有米其林、黑珍珠？说白了，就是东西复杂了，得找个法子比一比，分个三六九等。

就像我们评价一个人，不能只看他的考试总分，还要看他的体育成绩、艺术才华、沟通能力等等。（当然，不排除有些人就是可以成为六边形战士）

AI也是如此。作为开发者想全面了解模型，作为用户想找到满足特定需求的工具，大家想了解的内容各不相同。

所以评测AI不同能力的榜单就出现了。

有的模型，号称“通才”，琴棋书画样样精通，那就得拉到MMLU、HELM这种“高考”考场上溜溜；有的模型，是“偏科生”，比如写代码贼溜，或者数学题做得飞快，那就得去HumanEval、MATH这种“单科竞赛”里证明自己。

除此之外，还有榜单测AI“情商”高不高，能不能好好说话、写东西有没有“人味儿”，或者能不能看懂图片听懂话（多模态），甚至还要看看它会不会“学坏”（安全性）......榜单五花八门，形成了今天的AI评测江湖。

但AI的复杂性决定了AI大模型之间的比拼没有所谓的“绝对第一”。很难指望一个榜单来定乾坤。

<img />

<img />

<img />

<img />

<img />

<img />

<img />

<img />

<img />

所以我们需要明确一点：没有“最好”的榜单，只有“最适合自己需求”的榜单。

“看榜”的正确姿势

那么，面对五花八门的榜单，正确的“打开方式”是什么呢？关键就四个字：需求导向。

在被各种“第一名”晃花眼之前，先静下心来问问自己：“我到底想用 AI 来做什么？或者我想了解它的哪方面能力？”

如果你一下子茫然了，不慌，让我们先简单推理下：

如果你是程序员，想找个得力的编程助手？那像HumanEval、MBPP、CodeXGLUE这样专注于代码生成、理解和修复能力的榜单，就更值得你关注。

如果你是文字工作者，需要AI帮你写作、润色或者处理长文档？那么像 MMLU (涉及人文社科知识)、一些评估长文本理解能力的测试，或者像Chatbot Arena 这样能反映真实对话和写作感受的“用户口碑榜”，可能更有参考价值。

如果你主要使用中文交流，关心模型“接地气”的程度？那C-Eval 这类专门为中文环境设计的榜单，就比很多以英文为主的国际榜单更能反映问题。可以看看国内的哪些大模型在这些榜单上表现更出色。

我们需要明白：大家觉得“好用”或者“强大”的模型，很可能不同。我们需要根据自己的关注点，去寻找适配的榜单。

为了帮助大家找到那个命定AI大模型，我们精心整理了一份涵盖众多主流 AI 评测榜单的详细表格——你可以把它看作一张帮你 Navigating AI 世界的“寻宝图”。
（关注公众号，后台私信回复“榜单”，可以获得完整Excel表格）

这张表格怎么用呢？抓住这几个关键信息：

1. 先按照“维度”和“评估重点”找关心的领域。

比如关心数学，就找“数学”、“推理”；关心代码，就找“编程”、“代码生成”。“评估重点”是“维度”的进一步的细分。

2. 找到倾向的榜单后，看“数据源” 和 “评判方式”，了解榜单的评测依据。

是用标准化的考试题库？还是让成千上万的真人用户来“盲投”打分？或是用自动化脚本跑代码让AI裁判看结果？了解这些，可以帮助我们判断这个榜单测试的“含金量”、侧重点以及可能的局限性。比如，纯客观题库可能无法反映真实对话能力，而真人打分又可能带有主观性。

3. 再看看“发起机构”，了解榜单的“江湖地位”。

是学术机构、大厂还是社区？亦或是某些热心网友自己打磨的试金石。

4. “模型排名 ”快速了解当前大致的“头部玩家”，建立一个初步的印象。当然精准实时的信息还是需要大家自己去榜单里看。

榜单虽好，合适自己的才是宝。

榜单背后的“秘密”

在整理这份“寻宝图”的过程中，我们也发现了一些有趣的现象，或许能让你对当前的 AI 格局有更深的理解。

一、不平衡的维度
一个很直观的现象就是，不同维度对应的榜单数量很不平衡。除了考察AI大模型基本能力的“通用能力”测试外，垂类领域中“数学”和”编程”是评测的"宠儿"。

<img />
不得不说，一个程序要么能运行，要么不能；一道数学题要么正确，要么错误。这种二元对立的评测结果更易于量化和比较。毕竟夸自己小孩优秀，不如直接说小孩考了双百，这样更容易得到大家的赞美。此外，大多数评测平台来自学术机构或技术社区，他们自然更关注技术指标而非用户体验。毕竟自家老师都在SCI上卷生卷死，小小AI怎么就能轻易放过。

<img />

<img />

<img />

<img />

<img />

<img />

<img />

<img />

但这种失衡可能导致AI发展的偏向性——擅长编程和数据处理，却在理解人类价值观和文化差异方面表现平平。

换句话说：我们正在用工程师的标准来评判给普通人使用的工具。

这也是为什么很多人在使用AI时，会感觉AI非常理性。如果没有特别的提示或者要求，它能把一个感情问题按照数学题一样分析，从字里行间中寻找线索，再大标题叠加小标题地给出建议。

二、从智商到情商

幸好，这个问题也越来越多的被大家发现。随着AI走向大众，一些新兴评测平台如LMSys Chatbot Arena和EQBench开始从"AI能做什么"转向测试"AI能为用户做什么"。换句话说，不只是测评AI的智商，也要考察它们的会不会说人话情商。

LMSys Arena，就像是AI评测界的“蒙面歌王”，管你什么来头，直接用实力征服用户。

比如，里面的经典模式就是——用户向两个匿名AI大模型提问，谁回答的好，票投给谁。

EQBench，则像是让AI参加文字版的“演员的诞生”——内置了很多对话场景，让AI解决其中的情感问题。换句话说，给定一个剧本开头和演员，让AI接戏。

<img />

<img />

<img />

<img />

<img />

<img />

<img />

<img />

<img />

<img />

<img />

<img />

那裁判是谁呢？竟然也是AI。比如Bench-3的测试组，裁判便是Sonnet-3.7和gpt-4o-2024-11-20。他们会根据被测模型在情景中的对话表现进行“AI情商”打分。

<img />

可以说，这些榜单评测方式的转变源于一个认识：普通用户与AI的互动方式与工程师截然不同。我们想用超强的AI，但如果是个“会说话”的强AI，高效办事的同时还能情绪价值拉满，谁又能拒绝呢？
三、语言和文化
虽然智商和情商是评测AI的基本盘，但对于目前的AI大模型，语言和文化也是影响用户使用的重要因素。

大多数主流评测平台由美国学术机构创建，评测内容也以英语为主，这导致了系统性的文化偏见。观察CMMLU和C-Eval这类专为中文设计的评测，我们常能看到与英语榜单完全不同的排名结果。一个在英文世界表现平平的模型，在中文环境中可能脱颖而出。

<img />

<img />

<img />

<img />

<img />

<img />

<img />

<img />

这不仅是语言问题，更是文化理解的差异。理解中国古诗、成语或网络文化需要特定的文化背景，这些在西方主导的评测中几乎被完全忽略。某些国际榜单上不起眼的模型可能表现突出，因为它们更了解中文网文的叙事风格和文化脉络。

所以，如果有小伙伴想要用AI搞创意写作，不妨多去看看不同的写作榜单，多去试用不同的AI产品。

Fiction.LiveBench就很让我们意想不到。因为它的发起机构Fiction.Live是一个在线互动小说网，小说走向由作者和读者共同决定，就很可能出现“相爱相杀，复活了，又相爱相杀，结果又穿越 "这样的离奇剧情。过程中就很需要AI帮忙续写。这也成了该榜单的考察重点。

四、开源与闭源

AI评测领域还呈现出开源与闭源的明显分化。从我们的分析来看，Claude、GPT-4和Gemini等商业闭源模型在多数榜单上占据前列，它们的综合能力确实强大，但使用成本也高。更值得注意的是，这些模型的训练方法和数据来源往往不完全透明，用户只能看到最终产品。

相比之下，HuggingFace展示的众多开源模型虽然在某些顶级榜单上尚不敌商业模型，但它们完全透明，可定制性强。令人欣喜的是，开源模型与闭源模型的差距正在缩小。

这里不得不夸夸阿里的千问模型。huggingFace前十乍一看认识的不多，但仔细溯源，就会发现它们的底模都是千问。强啊！

回到最初的问题：面对 AI 榜单，我们该信谁？

答案或许是：谁都别全信，也别都不信......没办法，这不就是这个世界的真相吗？

AI 榜单是衡量模型能力的重要参考，它们提供了相对客观的量化指标，帮助我们了解模型的长处和短板。但它们绝不是唯一的标准，更不能简单地将“榜单第一”等同于“最好”。

真正重要的是，我们要成为一个聪明的“看榜人”。利用我们提供的这份“寻宝图”和“需求导向”的方法论，结合我们自己的使用场景和判断标准，去独立思考，去探索发现。

毕竟林子大了，什么AI都有。以后不光要会看人，会看AI也很重要啊~

账号		自动登录	找回密码
密码			注册

萍聚头条

AI大模型太多不会选?我们为大家整理了70多个AI评测榜单,竟然发现这才是最好的...

本帖子中包含更多资源

浏览过的版块