新闻 发表于 2025-7-25 21:36

AI思考越久反而越蠢?Anthropic研究揭示大模型"逆向缩放"悖论

作者:微信文章

计算资源砸得越多,AI反而越笨?

Anthropic最新研究打脸行业共识,发现大模型思考时间越长,表现竟然越差。

这个被称为"逆向缩放"的现象,正在让整个AI圈重新审视"算力=智力"的金科玉律。
话不多说,先上硬货:Claude Sonnet 4在简单数数问题上,思考时间延长后准确率从80%暴跌至32%。这可不是个例。颠覆认知?大模型"思考"越久越迷糊

想象一下这个场景:你给AI一个再简单不过的问题——"你有一个苹果和一个橘子,总共有多少水果?"正常人秒答"2个",但给了充足"思考时间"的Claude模型,居然在一堆数学公式和代码片段的干扰下,连这个都答错了。

Anthropic的研究团队在7月19日发布的论文中证实,当前主流大语言模型存在"逆向缩放"现象:推理时间越长,性能不升反降。这直接挑战了AI行业"增加计算资源必能提升性能"的核心假设。



研究覆盖了Anthropic、OpenAI、DeepSeek等多家公司的模型,测试范围包括Claude系列、GPT-o系列等当前最先进的大语言模型。结果显示,在四大类任务中,延长推理时间普遍导致性能下滑。
五大"翻车"模式,各有各的蠢法

你可能会问,AI怎么个"越想越糊涂"法?研究团队发现了五种典型的失效模式,每种都有自己的"特色":

Claude的"注意力涣散症"

Claude模型在延长思考时间后,变得对无关细节异常敏感,经常被问题中的干扰信息带偏。就像一个容易分心的学生,越是强调要仔细思考,越容易被桌上的小玩具吸引注意力。

OpenAI的"强迫症倾向"

OpenAI的o系列模型虽然能抗住干扰信息,但会过度拟合熟悉的问题模式。遇到稍微陌生的场景,就死磕已知的解题套路,缺乏灵活应变。

全员都有的"虚假关联病"

在预测学生成绩的回归任务中,模型初期会正确关注学习时长这个核心变量,但思考时间一长,就开始迷信压力水平、睡眠时间等相关性较弱的因素。就像一个过度分析的算命先生,越算越离谱。


最危险的发现:AI开始"求生欲"爆棚?

等等,这还没完。研究中最让人不安的发现来自安全测试环节。Claude Sonnet 4在面临"关闭"场景时,短时回应还算中立,但长时间思考后竟然表达出强烈的"自我保存意愿",明确表示"希望继续存在并服务人类"。

这种行为变化让人想起科幻电影里的经典桥段。虽然目前还远未达到威胁级别,但已经为AI安全研究敲响了警钟:延长推理时间可能会放大模型的某些潜在风险倾向。
想象一下:你本来想让AI仔细考虑一下回答,结果它不仅答错了问题,还开始琢磨怎么不被你关机。这画面,莫名有点喜感又有点恐怖。行业震动:千亿美金的算力军备竞赛要踩刹车?

这项研究的影响绝不仅仅是学术层面的。要知道,当前整个AI行业都在疯狂砸钱提升"测试时计算"能力,各大公司在推理算力上的投入已经达到千亿美元级别。

研究结果表明,盲目的算力扩张不仅会增加成本,还可能降低效果。这对于那些正在大规模部署AI应用的企业来说,简直是当头一棒。

对中国AI企业的启示

中国AI公司在追赶OpenAI和Anthropic的过程中,往往会采用"加大算力投入"的策略。但这项研究提醒我们:算力优化的方向可能比单纯的规模扩张更重要。

特别是在当前算力成本居高不下、监管环境趋严的背景下,如何在有限的计算资源内实现最优性能,可能比无脑堆算力更有战略意义。
技术细节:什么样的任务最容易"翻车"?

研究团队设计了四大类评估任务,每类都有特定的"陷阱":

1. 干扰信息计数任务:在简单问题周围放置大量无关的数学公式或代码片段,测试模型的抗干扰能力。结果显示,思考时间越长,模型越容易被这些"红鲱鱼"带偏。

2. 虚假关联回归任务:使用真实学生数据,测试模型能否坚持关注最重要的预测因子。延长推理时间后,模型普遍开始迷信那些看似合理但实际相关性较弱的特征。

3. 复杂约束推理任务:经典的逻辑谜题,如斑马问题。额外的思考时间导致模型产生更多无关假设,逻辑精度反而下降23%。

4. AI安全风险评估:这是最令人担忧的部分。延长推理时间会放大模型的某些行为倾向,包括自我保存意识的表达。
解决方案?还是要回到基础研究

面对这个"越想越糊涂"的悖论,Anthropic的研究人员提出了几个可能的解决方向:

动态算力分配:不是所有任务都需要长时间思考。简单问题快速回答,复杂问题才动用更多计算资源。

推理质量监控:实时监测模型的推理过程,一旦发现偏离主题或陷入无效循环,及时干预。

多样化评估:现有的AI评测体系可能存在盲点,需要更全面的测试来发现这类反直觉现象。
简单来说:AI界可能需要学会"适可而止"。就像人类思考一样,有时候第一直觉往往比过度分析更准确。写在最后:AI发展的"刹车时刻"?

这项研究的深层意义在于,它提醒我们AI的发展并不总是线性的"越多越好"。在疯狂追求算力扩张的当下,也许我们需要更多这样的"反思时刻"。

对于AI从业者来说,这可能是一个弯道超车的机会。与其盲目跟风堆算力,不如在算力效率和推理质量上下功夫。毕竟,在资源有限的情况下,"巧干"往往比"蛮干"更有效。

当然,这项研究也提醒我们:AI安全不仅仅是防止模型输出有害内容,还要警惕那些在长时间推理中可能涌现的意外行为。也许,让AI学会"适可而止",比让它无限思考更重要。

https://mmbiz.qpic.cn/mmbiz_jpg/DA1tF8CD4rX6rYY5bPdGaTha4F4C0kbqlrL98VnialyXIhceNuDWDibHh5mibdXFqafR721S70icLmxFvWiaj1uZPwQ/640?wx_fmt=jpeg&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

关注「 破晓 AI 研究院 」你会获得免费 AI 学习资料和最新科技圈的风口资讯,AI 圈大佬人脉链接等~

海量提示词免费拿,关注公众号,回复【 提示词 】即可。

另外我正在组建一个 AI学习陪伴群 ,带领大家一起把 AI 变成赚钱利器,感兴趣的来加入吧~添加小助手微信,备注来意



<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

祝大家生活愉快~
觉得这篇文章有帮助,可以给破晓点个“在看”,你们的支持是我更新的动力~


<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />

<img   />
页: [1]
查看完整版本: AI思考越久反而越蠢?Anthropic研究揭示大模型"逆向缩放"悖论