萍聚社区-德国热线-德国实用信息网

 找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 197|回复: 0

AI大模型太多不会选?我们为大家整理了70多个AI评测榜单,竟然发现这才是最好的...

[复制链接]
发表于 2025-4-26 14:43 | 显示全部楼层 |阅读模式
作者:微信文章




最近我发现一件事:现在AI大模型越多,越牛逼,大家越不知道该怎么选。

在众多科技文章中,我们经常看到这样的语式:

.....在LM Arena 上遥遥领先!......刷榜 MMLU!......空降GLUE,断层第一 !......在 GitHub 上拿到了 1.7k Star,涨脸啦!......在LiveCodeBench杀疯了!!

你就说这一堆英文缩写到底是啥,懂的人知道这是AI评测榜单,不懂的话,真的是看不懂啊!



现在AI 大模型的发布,总是伴随着一连串跑分登顶的新闻。换句话说,这就是目前科技圈的常态。

技术飞速进步是好,但作为用户真的是困惑了:这么多榜单,这么多第一名,这么多”杀疯了“,到底该信谁?“不明觉厉之后,我们很容易陷入一种选择焦虑。
<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />


所以我们今天不聊AI大模型,反而聊聊这些榜单,看看它们到底在评什么?我们这些用户,该怎么看待榜单数据,以及,最重要的,我们能怎么利用榜单,找到适合我们自己AI大模型。



为啥榜单满天飞?

首先我们可以先想想,为啥汽车有碰撞测试、油耗排名?为啥餐厅有米其林、黑珍珠?说白了,就是东西复杂了,得找个法子比一比,分个三六九等。

就像我们评价一个人,不能只看他的考试总分,还要看他的体育成绩、艺术才华、沟通能力等等。(当然,不排除有些人就是可以成为六边形战士)




AI也是如此。作为开发者想全面了解模型,作为用户想找到满足特定需求的工具,大家想了解的内容各不相同。

所以评测AI不同能力的榜单就出现了。

有的模型,号称通才,琴棋书画样样精通,那就得拉到MMLUHELM这种高考考场上溜溜;有的模型,是偏科生,比如写代码贼溜,或者数学题做得飞快,那就得去HumanEvalMATH这种单科竞赛里证明自己。



除此之外,还有榜单测AI情商高不高,能不能好好说话、写东西有没有人味儿,或者能不能看懂图片听懂话(多模态),甚至还要看看它会不会学坏(安全性)......榜单五花八门,形成了今天的AI评测江湖。


但AI的复杂性决定了AI大模型之间的比拼没有所谓的“绝对第一”。很难指望一个榜单来定乾坤。




<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />


所以我们需要明确一点:没有最好的榜单,只有最适合自己需求的榜单。






看榜的正确姿势

那么,面对五花八门的榜单,正确的打开方式是什么呢?关键就四个字:需求导向

在被各种第一名晃花眼之前,先静下心来问问自己:我到底想用 AI 来做什么?或者我想了解它的哪方面能力?




如果你一下子茫然了,不慌,让我们先简单推理下:

如果你是程序员,想找个得力的编程助手?那像HumanEval、MBPP、CodeXGLUE这样专注于代码生成、理解和修复能力的榜单,就更值得你关注。

如果你是文字工作者,需要AI帮你写作、润色或者处理长文档? 那么像 MMLU (涉及人文社科知识)、一些评估长文本理解能力的测试,或者像Chatbot Arena 这样能反映真实对话和写作感受的“用户口碑榜”,可能更有参考价值。

如果你主要使用中文交流,关心模型“接地气”的程度?那C-Eval 这类专门为中文环境设计的榜单,就比很多以英文为主的国际榜单更能反映问题。可以看看国内的哪些大模型在这些榜单上表现更出色。

我们需要明白:大家觉得好用或者强大的模型,很可能不同。我们需要根据自己的关注点,去寻找适配的榜单



为了帮助大家找到那个命定AI大模型,我们精心整理了一份涵盖众多主流 AI 评测榜单的详细表格——你可以把它看作一张帮你 Navigating AI 世界的寻宝图
(关注公众号,后台私信回复“榜单”,可以获得完整Excel表格)


这张表格怎么用呢?抓住这几个关键信息:

1. 先按照“维度”和评估重点”找关心的领域。

比如关心数学,就找数学推理;关心代码,就找编程代码生成。“评估重点”是“维度”的进一步的细分。



2. 找到倾向的榜单后,看“数据源” 和 评判方式”,了解榜单的评测依据。

是用标准化的考试题库?还是让成千上万的真人用户来盲投打分?或是用自动化脚本跑代码让AI裁判看结果?了解这些,可以帮助我们判断这个榜单测试的“含金量”、侧重点以及可能的局限性。比如,纯客观题库可能无法反映真实对话能力,而真人打分又可能带有主观性。



3. 再看看“发起机构”,了解榜单的“江湖地位”。

学术机构、大厂还是社区?亦或是某些热心网友自己打磨的试金石。



4. 模型排名 ”快速了解当前大致的头部玩家,建立一个初步的印象。当然精准实时的信息还是需要大家自己去榜单里看。



榜单虽好,合适自己的才是宝。






榜单背后的“秘密”

在整理这份寻宝图的过程中,我们也发现了一些有趣的现象,或许能让你对当前的 AI 格局有更深的理解。

一、不平衡的维度
一个很直观的现象就是,不同维度对应的榜单数量很不平衡。除了考察AI大模型基本能力的“通用能力”测试外,垂类领域中“数学”和”编程”是评测的"宠儿"。


<img   />
不得不说,一个程序要么能运行,要么不能;一道数学题要么正确,要么错误。这种二元对立的评测结果更易于量化和比较。毕竟夸自己小孩优秀,不如直接说小孩考了双百,这样更容易得到大家的赞美。此外,大多数评测平台来自学术机构或技术社区,他们自然更关注技术指标而非用户体验。毕竟自家老师都在SCI上卷生卷死,小小AI怎么就能轻易放过。


<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

但这种失衡可能导致AI发展的偏向性——擅长编程和数据处理,却在理解人类价值观和文化差异方面表现平平。

换句话说:我们正在用工程师的标准来评判给普通人使用的工具。

这也是为什么很多人在使用AI时,会感觉AI非常理性。如果没有特别的提示或者要求,它能把一个感情问题按照数学题一样分析,从字里行间中寻找线索,再大标题叠加小标题地给出建议。





二、从智商到情商

幸好,这个问题也越来越多的被大家发现。随着AI走向大众,一些新兴评测平台如LMSys Chatbot ArenaEQBench开始从"AI能做什么"转向测试"AI能为用户做什么"。换句话说,不只是测评AI的智商,也要考察它们的会不会说人话情商。


LMSys Arena,就像是AI评测界的“蒙面歌王”,管你什么来头,直接用实力征服用户。



比如,里面的经典模式就是——用户向两个匿名AI大模型提问,谁回答的好,票投给谁。





EQBench,则像是让AI参加文字版的“演员的诞生”——内置了很多对话场景,让AI解决其中的情感问题。换句话说,给定一个剧本开头和演员,让AI接戏。




<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />




那裁判是谁呢?竟然也是AI。比如Bench-3的测试组,裁判便是Sonnet-3.7和gpt-4o-2024-11-20。他们会根据被测模型在情景中的对话表现进行“AI情商”打分。



<img   />



可以说,这些榜单评测方式的转变源于一个认识:普通用户与AI的互动方式与工程师截然不同。我们想用超强的AI,但如果是个“会说话”的强AI,高效办事的同时还能情绪价值拉满,谁又能拒绝呢?
三、语言和文化
虽然智商和情商是评测AI的基本盘,但对于目前的AI大模型,语言和文化也是影响用户使用的重要因素。

大多数主流评测平台由美国学术机构创建,评测内容也以英语为主,这导致了系统性的文化偏见。观察CMMLUC-Eval这类专为中文设计的评测,我们常能看到与英语榜单完全不同的排名结果。一个在英文世界表现平平的模型,在中文环境中可能脱颖而出。




<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />


这不仅是语言问题,更是文化理解的差异。理解中国古诗、成语或网络文化需要特定的文化背景,这些在西方主导的评测中几乎被完全忽略。某些国际榜单上不起眼的模型可能表现突出,因为它们更了解中文网文的叙事风格和文化脉络。

所以,如果有小伙伴想要用AI搞创意写作,不妨多去看看不同的写作榜单,多去试用不同的AI产品。




Fiction.LiveBench就很让我们意想不到。因为它的发起机构Fiction.Live是一个在线互动小说网,小说走向由作者和读者共同决定,就很可能出现“相爱相杀,复活了,又相爱相杀,结果又穿越 "这样的离奇剧情。过程中就很需要AI帮忙续写。这也成了该榜单的考察重点。





四、开源与闭源

AI评测领域还呈现出开源与闭源的明显分化。从我们的分析来看,ClaudeGPT-4Gemini等商业闭源模型在多数榜单上占据前列,它们的综合能力确实强大,但使用成本也高。更值得注意的是,这些模型的训练方法和数据来源往往不完全透明,用户只能看到最终产品。

相比之下,HuggingFace展示的众多开源模型虽然在某些顶级榜单上尚不敌商业模型,但它们完全透明,可定制性强。令人欣喜的是,开源模型与闭源模型的差距正在缩小。

这里不得不夸夸阿里的千问模型。huggingFace前十乍一看认识的不多,但仔细溯源,就会发现它们的底模都是千问。强啊!



回到最初的问题:面对 AI 榜单,我们该信谁?

答案或许是:谁都别全信,也别都不信......没办法,这不就是这个世界的真相吗?



AI 榜单是衡量模型能力的重要参考,它们提供了相对客观的量化指标,帮助我们了解模型的长处和短板。但它们绝不是唯一的标准,更不能简单地将榜单第一等同于最好

真正重要的是,我们要成为一个聪明的看榜人。利用我们提供的这份寻宝图需求导向的方法论,结合我们自己的使用场景和判断标准,去独立思考,去探索发现。

毕竟林子大了,什么AI都有。以后不光要会看人,会看AI也很重要啊~

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

手机版|Archiver|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-4-28 09:19 , Processed in 0.056286 second(s), 15 queries , Redis On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表