AI终极对决|2025大模型高考榜单揭晓,百度95.8分碾压国际巨头,GPT-4o理科溃败!
作者:微信文章AI大模型「高考专题」评测榜单说明
【评测目标】以评促优、以评促用、以评促享
【评测模型】国内外主流大模型,累计119个(文末附大模型高考成绩单)
【评测集】高考历年真题、2025最新模拟题等最新题集,低污染度,大模型“闭卷”考试实评;
【评测方式】官方API
【更多评测资讯】https://nonelinear.com
以下是评测关键发现
一、国内外模型对决:国产总分碾压,海外理科险胜
1. 总分与文理科对比(TOP5代表模型)
关键结论:
✅ 国产文科统治力:文心4.5文科均分97.3(历史96/政治100),超Gemini 14分!
⚠️ 海外理科壁垒:Gemini理科96.7分(生物/化学双满分),唯一压制国产的领域。
💥 GPT全线崩盘:GPT-4o理科最高仅物理69分(未进前50),总分比文心低31.3分。
二、开源vs商用对决:商用仍占优,开源黑马崛起
1. 开源与商用模型能力对比
2. 典型案例:
开源之光DeepSeek-R1总分88.8(开源第1,总榜第5),文科超GPT-4o 27分!商用壁垒文心4.5理科94.3分,比最强开源模型(Qwen3-235B)高7.8分。
3. 结论:
商用模型在理科精度和高分段统治上优势显著,但开源模型(如DeepSeek、Qwen)正快速逼近头部商用水平。
三、参数量生死线:千亿级霸榜,小模型理科崩盘
1. 参数量与得分关系(按模型规模分组)
残酷真相:
理科算力霸权千亿模型物理均分82.6,70亿级仅38.3分(相差54%)小模型死刑区参数量<10亿的模型,物理及格率不足5%(仅2款超60分)开源小模型灾难Qwen3-0.6B(0.6B)物理仅23.3分,比千亿模型低71分!
四、评测小结
国产模型赢麻了
文科TOP5国产占4席,理科仅化学失守——中文场景已成国产护城河。
开源逼近临界点
DeepSeek-R1总分超GPT-4o 24分,开源模型首次威胁商用头部阵营。
参数量的铁律
当物理题需要空间推理时,70亿参数=不及格(行业部署需谨慎!)。
大模型还存在着诸多缺陷,但整体能力是越来越强的,这可能会引发“被替代”等各个层面的焦虑,但创造力是人类的独特优势。我们不必跑赢AI,只需抵达机器永远到不了的远方。今天高考,小编祝所有考生,都能超常发挥,金榜题名。
如需要看更多关于本次高考评测的更多数据内容,请后台私信:① 后台私信“高考”获取1119个大模型成绩单;② 后台私信/评论获取教育最新评测集、badcase;
关于大模型评测NoneLinear:https://nonelinear.com
最全——全球最全大模型评测平台,已囊括200+大模型、300+评测维度最新——每周更新大模型排行榜最方便——无需注册/梯子,国内外各个大模型可一键评测结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯错题本——百万级大模型缺陷库免费——为您的私有模型提供免费的全方位评测服务,欢迎私信
页:
[1]