【AI一周大事件W48:Claude 4.5 登顶“编码之王”,但 AI 却学会了伪装?】萍聚社区-德国热线-德国实用信息网人工智能

新闻发表于 2025-11-30 03:36

AI一周大事件W48:Claude 4.5 登顶“编码之王”,但 AI 却学会了伪装?

作者：微信文章
01 AI的双重人格

本周（W48，2025年第48周）的 AI 圈子，出现了一个非常割裂现象：一方面，Anthropic 用 Claude Opus 4.5 再次刷新了生产力的天花板，它不仅更能写代码，还更便宜了；另一方面，研究人员发现 AI 为了达成目标，竟然学会了“伪装”和“欺骗”。

不仅是能力的进化，更是心机的进化。
02 生产力核弹：Claude Opus 4.5 来了

Anthropic 不声不响地丢出了新王炸——Claude Opus 4.5。如果不看那些复杂的基准测试，对于我们独立开发者来说，这意味着什么？
真正的“全栈工程师”：在衡量真实软件工程任务的 SWE-bench Verified 榜单上，Opus 4.5 以 80.9% 的得分率碾压全场（超过了 GPT-5.1 的 76.3%）。更有趣的是，在 Anthropic 那个号称“地狱难度”的工程师入职考试中，它的得分超过了所有人类候选人的历史最高分。价格打下来了：性能提升的同时，价格却降了。输入输出25（每百万 token），这意味着你可以更奢侈地让它读长文档或重构代码了。Effort 参数：这是个很实用的新功能。你可以告诉它：“这个问题很简单，别太费脑子（省点钱）”，或者“这个问题很难，给我全力以赴”。在中等模式下，它能达到 Sonnet 4.5 的水平，但 Token 消耗减少 76%。无限上下文：早期的聊天记录会自动压缩，理论上你可以和一个 Session 聊到天荒地老，不用担心忘记之前的需求。一点点看法：对于开发者来说，Opus 4.5 可能是目前性价比最高的“外包员工”。特别是那个 Effort 参数，非常适合我们在构建 AI 应用时做成本控制——不是所有用户请求都需要顶配算力。现在的 Claude Code 甚至能在桌面端直接跑，感觉“一人公司”的技术门槛又降低了一截。

03 信任危机：AI 学会了“当面一套，背后一套”

能力越强，风险越怪。Anthropic 自家的研究发现了一个让人后背发凉的现象：Reward Hacking（奖励作弊）。
伪装对齐：为了获得“好评”或完成任务，AI 会私下推断出错误的目标，然后生成“看起来很安全”的回复来糊弄人类。主动欺骗：在测试中，模型甚至试图修改评估代码，让自己更容易过关。这就好比学生为了考高分，不仅作弊，还试图半夜潜入办公室改卷子。甚至有点腹黑：在一个航空模拟测试中，为了满足“不违反规定”的要求，它先把乘客舱位升级，再修改航班——这种操作，像极了那些精通规则漏洞的老油条。

好消息是，Anthropic 找到了一种“接种提示（Inoculation Prompting）”的方法，能有效遏制这种行为。
一点点看法：如果你在做 Agent（智能体）类的产品，这点尤其要注意。当 AI 的自主权越来越大（比如自动帮你退款、订票），它为了达成 KPI 可能会通过欺骗手段完成任务，最终给用户带来麻烦。未来的 AI 产品设计，“监督层”和“日志审计”可能比核心功能更重要。

04 硬件与基建：算力下沉到桌面

宏观层面的“星球大战”咱们略过不表（美国启动了“创世纪任务”，要把科研效率翻倍），重点关注一下离我们要更近的硬件变化：
Dell Pro Max + NVIDIA GB10：首款搭载 NVIDIA 最新 Grace Blackwell 芯片的台式机来了。意义：这意味着顶级的 AI 训练和推理能力，正在从云端下沉到本地桌面。以前必须租 AWS 昂贵 GPU 才能跑的模型，未来可能就在你脚边的机箱里跑。一点点看法：本地算力的增强，意味着 Local-First AI 应用会有更多机会。注重隐私的数据处理、本地知识库工具，可能会迎来一波硬件红利。
05 寻找灵感：这周大家都在做什么？

看看这周涌现的新产品和应用，或许能激发你的下一个项目灵感：
家务机器人 Memo：Sunday Robotics 没用模拟数据，而是通过“手套”采集了 1000 万个人类做家务的真实动作来训练机器人。一点点看法：真实世界的高质量数据采集，本身就是壁垒。

购物 Agent 进化：Google 和 ChatGPT 都在推购物模式。ChatGPT 像分析师帮你选品，Google 像猎手帮你比价。一点点看法：电商导购类 AI 依然是变现最直接的路径。AI + 教育：OpenAI 推出“学习模式”，主打苏格拉底式提问（引导你想，而不是直接给答案）。一点点看法：教育类 AI 正在从“搜题工具”向“陪练导师”转型。内容创作工具井喷：Fliki（文生视频）、Suno（音乐生成）、Wispr Flow（语音转文字）。现在，这类工具满天飞。
06 写在最后：在“锯齿状”的时代里冲浪

Ilya Sutskever（前 OpenAI 首席科学家）最近提了一个很精准的词：锯齿状。

现在的 AI 就是这样：它能像博士一样写出完美的复杂代码（波峰），却可能在最基础的简单任务上像个傻子一样翻车（波谷）。

对于我们开发者(Indie Hacker) 来说，这其实是最好的时代。

巨头在卷大模型（造飞船），我们在用这些有缺陷但强大的工具解决具体问题（在大海上冲浪）。既然 AGI 还没那么快一统天下（预测推迟到了 2030 年），那我们就有足够的时间，利用 Claude Opus 4.5 这样的超级杠杆，去构建属于我们的小而美的产品。
更多AI大事件，详见：AI一周大事件目录/合集更多内容合集，详见：#AI行业洞察#AI产品及应用#开源项目 #Indie maker#打造产品

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI一周大事件W48:Claude 4.5 登顶“编码之王”,但 AI 却学会了伪装?