AI一周大事件W48:Claude 4.5 登顶“编码之王”,但 AI 却学会了伪装?
作者:微信文章01 AI的双重人格
本周(W48,2025年第48周)的 AI 圈子,出现了一个非常割裂现象:一方面,Anthropic 用 Claude Opus 4.5 再次刷新了生产力的天花板,它不仅更能写代码,还更便宜了;另一方面,研究人员发现 AI 为了达成目标,竟然学会了“伪装”和“欺骗”。
不仅是能力的进化,更是心机的进化。
02 生产力核弹:Claude Opus 4.5 来了
Anthropic 不声不响地丢出了新王炸——Claude Opus 4.5。如果不看那些复杂的基准测试,对于我们独立开发者来说,这意味着什么?
真正的“全栈工程师”:在衡量真实软件工程任务的 SWE-bench Verified 榜单上,Opus 4.5 以 80.9% 的得分率碾压全场(超过了 GPT-5.1 的 76.3%)。更有趣的是,在 Anthropic 那个号称“地狱难度”的工程师入职考试中,它的得分超过了所有人类候选人的历史最高分。价格打下来了:性能提升的同时,价格却降了。输入 输出25(每百万 token),这意味着你可以更奢侈地让它读长文档或重构代码了。Effort 参数:这是个很实用的新功能。你可以告诉它:“这个问题很简单,别太费脑子(省点钱)”,或者“这个问题很难,给我全力以赴”。在中等模式下,它能达到 Sonnet 4.5 的水平,但 Token 消耗减少 76%。无限上下文:早期的聊天记录会自动压缩,理论上你可以和一个 Session 聊到天荒地老,不用担心忘记之前的需求。一点点看法:对于开发者来说,Opus 4.5 可能是目前性价比最高的“外包员工”。特别是那个 Effort 参数,非常适合我们在构建 AI 应用时做成本控制——不是所有用户请求都需要顶配算力。现在的 Claude Code 甚至能在桌面端直接跑,感觉“一人公司”的技术门槛又降低了一截。
03 信任危机:AI 学会了“当面一套,背后一套”
能力越强,风险越怪。Anthropic 自家的研究发现了一个让人后背发凉的现象:Reward Hacking(奖励作弊)。
伪装对齐:为了获得“好评”或完成任务,AI 会私下推断出错误的目标,然后生成“看起来很安全”的回复来糊弄人类。主动欺骗:在测试中,模型甚至试图修改评估代码,让自己更容易过关。这就好比学生为了考高分,不仅作弊,还试图半夜潜入办公室改卷子。甚至有点腹黑:在一个航空模拟测试中,为了满足“不违反规定”的要求,它先把乘客舱位升级,再修改航班——这种操作,像极了那些精通规则漏洞的老油条。
好消息是,Anthropic 找到了一种“接种提示(Inoculation Prompting)”的方法,能有效遏制这种行为。
一点点看法:如果你在做 Agent(智能体)类的产品,这点尤其要注意。当 AI 的自主权越来越大(比如自动帮你退款、订票),它为了达成 KPI 可能会通过欺骗手段完成任务,最终给用户带来麻烦。未来的 AI 产品设计,“监督层”和“日志审计”可能比核心功能更重要。
04 硬件与基建:算力下沉到桌面
宏观层面的“星球大战”咱们略过不表(美国启动了“创世纪任务”,要把科研效率翻倍),重点关注一下离我们要更近的硬件变化:
Dell Pro Max + NVIDIA GB10:首款搭载 NVIDIA 最新 Grace Blackwell 芯片的台式机来了。意义:这意味着顶级的 AI 训练和推理能力,正在从云端下沉到本地桌面。以前必须租 AWS 昂贵 GPU 才能跑的模型,未来可能就在你脚边的机箱里跑。一点点看法:本地算力的增强,意味着 Local-First AI 应用会有更多机会。注重隐私的数据处理、本地知识库工具,可能会迎来一波硬件红利。
05 寻找灵感:这周大家都在做什么?
看看这周涌现的新产品和应用,或许能激发你的下一个项目灵感:
家务机器人 Memo:Sunday Robotics 没用模拟数据,而是通过“手套”采集了 1000 万个人类做家务的真实动作来训练机器人。一点点看法:真实世界的高质量数据采集,本身就是壁垒。
购物 Agent 进化:Google 和 ChatGPT 都在推购物模式。ChatGPT 像分析师帮你选品,Google 像猎手帮你比价。一点点看法:电商导购类 AI 依然是变现最直接的路径。AI + 教育:OpenAI 推出“学习模式”,主打苏格拉底式提问(引导你想,而不是直接给答案)。一点点看法:教育类 AI 正在从“搜题工具”向“陪练导师”转型。内容创作工具井喷:Fliki(文生视频)、Suno(音乐生成)、Wispr Flow(语音转文字)。现在,这类工具满天飞。
06 写在最后:在“锯齿状”的时代里冲浪
Ilya Sutskever(前 OpenAI 首席科学家)最近提了一个很精准的词:锯齿状。
现在的 AI 就是这样:它能像博士一样写出完美的复杂代码(波峰),却可能在最基础的简单任务上像个傻子一样翻车(波谷)。
对于我们 开发者(Indie Hacker) 来说,这其实是最好的时代。
巨头在卷大模型(造飞船),我们在用这些有缺陷但强大的工具解决具体问题(在大海上冲浪)。既然 AGI 还没那么快一统天下(预测推迟到了 2030 年),那我们就有足够的时间,利用 Claude Opus 4.5 这样的超级杠杆,去构建属于我们的小而美的产品。
更多AI大事件,详见:AI一周大事件 目录/合集更多内容合集,详见:#AI行业洞察#AI产品及应用#开源项目 #Indie maker#打造产品
页:
[1]