【AI终极对决|2025大模型高考榜单揭晓,百度95.8分碾压国际巨头,GPT-4o理科溃败!】萍聚社区-德国热线-德国实用信息网人工智能

多客科技 发表于 2025-6-7 12:29

AI终极对决|2025大模型高考榜单揭晓,百度95.8分碾压国际巨头,GPT-4o理科溃败!

作者：微信文章
AI大模型「高考专题」评测榜单说明
【评测目标】以评促优、以评促用、以评促享

【评测模型】国内外主流大模型，累计119个（文末附大模型高考成绩单）

【评测集】高考历年真题、2025最新模拟题等最新题集，低污染度，大模型“闭卷”考试实评；

【评测方式】官方API

【更多评测资讯】https://nonelinear.com

以下是评测关键发现

一、国内外模型对决：国产总分碾压，海外理科险胜

1. 总分与文理科对比（TOP5代表模型）

关键结论：

✅ 国产文科统治力：文心4.5文科均分97.3（历史96/政治100），超Gemini 14分！

⚠️ 海外理科壁垒：Gemini理科96.7分（生物/化学双满分），唯一压制国产的领域。

💥 GPT全线崩盘：GPT-4o理科最高仅物理69分（未进前50），总分比文心低31.3分。

二、开源vs商用对决：商用仍占优，开源黑马崛起

1. 开源与商用模型能力对比

2. 典型案例：
开源之光DeepSeek-R1总分88.8（开源第1，总榜第5），文科超GPT-4o 27分！商用壁垒文心4.5理科94.3分，比最强开源模型（Qwen3-235B）高7.8分。

3. 结论：

商用模型在理科精度和高分段统治上优势显著，但开源模型（如DeepSeek、Qwen）正快速逼近头部商用水平。

三、参数量生死线：千亿级霸榜，小模型理科崩盘

1. 参数量与得分关系（按模型规模分组）

残酷真相：
理科算力霸权千亿模型物理均分82.6，70亿级仅38.3分（相差54%）小模型死刑区参数量<10亿的模型，物理及格率不足5%（仅2款超60分）开源小模型灾难Qwen3-0.6B（0.6B）物理仅23.3分，比千亿模型低71分！

四、评测小结

国产模型赢麻了
文科TOP5国产占4席，理科仅化学失守——中文场景已成国产护城河。
开源逼近临界点
DeepSeek-R1总分超GPT-4o 24分，开源模型首次威胁商用头部阵营。
参数量的铁律
当物理题需要空间推理时，70亿参数=不及格（行业部署需谨慎！）。
大模型还存在着诸多缺陷，但整体能力是越来越强的，这可能会引发“被替代”等各个层面的焦虑，但创造力是人类的独特优势。我们不必跑赢AI，只需抵达机器永远到不了的远方。今天高考，小编祝所有考生，都能超常发挥，金榜题名。

如需要看更多关于本次高考评测的更多数据内容，请后台私信：① 后台私信“高考”获取1119个大模型成绩单；② 后台私信/评论获取教育最新评测集、badcase；

关于大模型评测NoneLinear：https://nonelinear.com

最全——全球最全大模型评测平台，已囊括200+大模型、300+评测维度最新——每周更新大模型排行榜最方便——无需注册/梯子，国内外各个大模型可一键评测结果可见——所有大模型评测的方法、题集、过程、得分结果，可见可追溯错题本——百万级大模型缺陷库免费——为您的私有模型提供免费的全方位评测服务，欢迎私信

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI终极对决|2025大模型高考榜单揭晓,百度95.8分碾压国际巨头,GPT-4o理科溃败!