AI算法迎来“瓦特时刻”
作者:微信文章就在前不久,Meta AI 与 UCSD 联合发布一篇论文《Deep Think with Confidence》,这篇仅 12 页的论文对现有大语言模型算法提出一个极简却致命的改进,既算得准,又省算力:
之前的算法:堆量;推理套路叫 Self-Consistency(自一致性)
流程:拿到一道难题 → 让模型一次性写 100~500 份完整答案 → 全部保留 → 返给模型投票挑最佳。
代价:GPU 时间、网络带宽、显存随轨迹数量线性暴涨;一条 8 K token 的数学题,500 条轨迹就是 4 M token,算力和电力的大量消耗。
结果:准确率确实能涨,但成本曲线像蒸汽机的早期——煤烧了很多很多,马力才大一点点,商用门槛死死卡在那里。
改进的算法:DeepConf 改变的就是这种“暴力美学”; “边想边打分,把没信心的思路当场淘汰”
在线阶段——在生成过程中实时计算“局部置信度”,把低置信度思维链立即终止,节省 60 %–85 % token;
离线阶段——对幸存轨迹做置信度加权投票,保证甚至提升准确率。
实验结果:在同样需要 500 条推理轨迹的任务中,单卡 A100 的耗时从 2.5 小时压缩到18 分钟;一张 A100 过去只能跑 50 条推理轨迹,现在能跑 400 条,token 利用率提升 8×。在 AIME 2025 数学竞赛上,120 B 开源模型首次逼近满分。
作者方开源了 50 行核心代码,指标公开,给了 4 种局部置信度公式,任何框架(vLLM、TGI、Transformers)都能即插即用:不改权重、不训模型。
DeepConf像是给模型装了一个“自我质检员”:写一步、看一眼,没把握就撕掉重写,结果写得更好,还省了一大半纸。更有意义的是:让AI“知道自己不知道”
蒸汽机的启示:
1769 年,瓦特在纽科门机上加了一个“分离冷凝器”,把热能损耗降低 75%,蒸汽机由此成为通用动力。“可移动、可复制、可扩张”的动力,工厂可以靠近煤矿、靠近市场,催生了铁路、纺织、金融。
今天,DeepConf作为 “大模型的分离冷凝器”用“在线置信度剪枝 + 离线加权投票”把推理能耗降低 75%,把大模型从 “专用装置”推向“通用引擎”。
历史会重演吗:效率陡升、成本陡降、场景爆发。蒸汽机的汽笛声,正在 GPU 的风扇里再次响起,AI 算法终于迎来自己的“瓦特时刻”。
另:当每个人都能一键“深度思考”,社会需要新的“交通规则”吗?
页:
[1]