AI大神Karpathy 力挺「强化学习环境」,但千万别去创业!
作者:微信文章今天来聊一下——强化学习。
因为在 AI 领域,很少有技术能像强化学习(Reinforcement Learning, RL)这样引发如此矛盾的情绪。
强化学习,第一次进入大众视野,是因为 AlphaGo 击败李世石,但真正让强化学习走向主流,是因为 ChatGPT。
ChatGPT 采用的人类反馈强化学习(RLHF,Reinforcement Learning from Human Feedback),可以让 AI 学会产生人类想要的回答,能更好地让 AI 和人类的价值观、偏好对齐,这就是为什么 ChatGPT 比早期的 GPT-3 更像一个有用的助手的原因。
所以强化学习,一下子从一门小众的技术,摇身一变成了各家做模型公司追捧的技术。
其实在 RLHF 流行之前,大模型基本走的是——自监督预训练(MLE)→ 监督微调(SFT/多任务/指令微调)→ 推理时约束与安全过滤 的路线,几乎不使用强化学习。
强化学习强化学习本质上是让 AI 通过"试错"来学习的方法。想象一个孩子学习骑自行车:摔倒了就知道这样不对,保持平衡就知道这样是对的。AI 不需要被告知每一步该怎么做,而是通过不断尝试和接收反馈来改进自己的策略。
在技术层面,强化学习包含四个核心要素:
智能体(Agent):做决策的 AI 系统环境(Environment):智能体操作的世界动作(Actions):智能体可以执行的操作奖励(Rewards):环境对智能体行为的反馈信号
RLHF 为了让 AI 懂得人类的"口味",采用了三个步骤:
1、收集人类偏好数据:人类评估员对比不同的 AI 回答,选择更好的那个
2、训练奖励模型:用这些偏好数据训练一个"评分系统"
3、优化语言模型:让 AI 学会产生高分回答
就是我先用人类偏好训练一个“打分器”(奖励模型),再用强化学习把语言模型调到更符合这个打分器/人类偏好的方向上去。
OpenAI 的 o1 和 DeepSeek 的 R1,更是把这种模式推向了新高度。
大家发现模型好像人类一样思考,可以拆解复杂的问题,可以自我反思纠错和改进。模型展示的这种能力被称为“涌现”,因为人类标注员永远无法预先设计出这样的思维模式。
但是,RLHF 还是要靠人类打分的,依旧有三个老的问题:
贵(标注成本高)、慢(迭代周期长)、主观(不同标注者偏好不一)
所以为了让模型持续变强,就得把评估变成可自主判定的一套系统,最直接的办法,就是把任务装进一个可交互、可复现、可计分的「环境」里。这些环境可以为 AI 提供了一个可以安全试错的空间,就像飞行员在模拟器中练习飞行一样。
环境可以是:
游戏世界:Atari 游戏、围棋棋盘模拟环境:自动驾驶的虚拟道路数字平台:软件界面、网页环境物理系统:机器人操作台
比如,你可以造一个假的浏览器界面,里面有个假 Amazon 网页,模型的任务是“买一条蓝色牛仔裤”。它得自己决定怎么点菜单、怎么选分类、怎么填地址。如果它买对了,就得高分。买错了,就再来一次。
这样玩几千次之后,模型就学会了如何逛网页、如何遵循任务目标,甚至会总结一些高效策略。这些经验比单纯读一堆网页要有用得多。
强化学习环境的本质,是把模型扔进一个有反馈的空间里,不断试错,直到它进化出更聪明的行为。
所以,各家大模型厂商开始疯狂采购强化学习环境,来训练自己的策略、产品。
比如说,苹果研发团队在今年 2 月也放出一个叫 AppWorld 的 RL 训练框架,在一个“多应用、多操作”的环境中,用 RL 方式去训练模型完成真实事务流,比如:打开应用 → 输入关键词 → 完成任务。
他们把 OpenAI 的 o1 baseline 拿来对比,结果自己的 agent 在效率和成功率上 高出 9 个百分点。
Karpathy 非常看好强化学习「环境」。
他指出,AI 发展的不同阶段,关键资源不同:
在预训练时代,重要的是互联网文本;
在监督微调时代,关键是高质量问答对话;
而在今天的时代,我们需要的,是「环境」。
所以 Karpathy 站出来直接摆出自己的观点,环境是下一个关键。
强化学习之父理查德·萨顿(Richard Sutton)也曾说:
体验就是指当你与世界互动时获得的数据——这是人类和动物学习的方式。
而环境,就是为 AI 提供这种关键互动体验的必备部分。
而一旦你把它理解为必备&稀缺的资源,就很容易出现一个念头:“那我是不是也能搞个 RL 环境创业公司,卖给 OpenAI 赚大钱?”
不好意思。
这就是今天这篇文章真正想说的事:别创业。千万别。
为什么?因为你根本不是在搞什么创新产品,而是在给 AI 打工,在做一份廉价的“建筑工地脚手架”。
这不是我说的,是 Benjamin Anderson 写的一篇博客。他的原话是:“Don't sell blood to vampires.”
别把血卖给吸血鬼。
他讲了一个很重要的故事背景。
你可能不知道,现在全球几乎所有头部 AI 实验室,都在到处买 RL 环境。他们出手阔绰,动辄几十万美元甚至百万美元,买一些你听都没听过的小程序。
比如仿 Doordash 的点餐模拟器、仿 Salesforce 的 CRM 交互器、仿 Bass Pro Shops 的钓鱼商城……这些东西看起来无聊至极,但对 AI 来说是宝藏。
于是就出现了一种奇怪的“钱景”:只要你能用 Next.js 搞出一个带 UI 和交互逻辑的「环境」,基本就能把它卖出去。甚至都不需要是真正的产品,只要它能构成“模拟”即可。
听上去是不是像极了 2012 年的 App 创业热潮?
但 Benjamin 提醒了一个关键风险。
今天你做 RL 环境,明天你就可能被模型本身淘汰。
你开发的点外卖模拟器,用不了三个月,Claude 或 GPT 就能自己写出一个更精致的版本,还能自我评估、自我评分。你这个人类开发者的价值就没了。
就像 2023 年的那波“人类微调众包工人”,曾经靠标注数据、排序模型输出、帮模型选最优回复而吃饭。但到了 2024 年,模型自己就能评估自己,众包平台一夜关闭。
你看不见的,是一种职业被悄悄地灭种了。RL 环境开发者,也正在重复这条路。
因为你能做出的任何环境,终将都能模型替代。
很多人会说:我可以一直做新的环境啊。
模型学会了购物,我再做一个让它玩扫雷的。扫雷学会了,我再搞一个让它开航天飞机的。
问题是,这不是你一个人的主意。
全世界上万个没工作的小码农和闲着的 AI 写代码模型,都在和你做一样的事。你出一个环境,人家 10 分钟复刻一个,甚至质量更高、还能开源。
而且注意,模型是不会累的,它没有情绪,也没有专利,更没有什么收入焦虑。
当你还在调试一个按钮点击逻辑时,Claude 已经并发训练了十万次环境互动策略优化算法。
你再努力,也是一个凡人对抗超人。
而且,现在还有越来越多机构在做「RL 环境开源平台」。
比如 Prime Intellect 这个新项目,就专门做环境合集的开源集散地。他们提供了大量免费的 RL 环境,还把 GitHub 上所有靠谱的 Verifiers 也都整理了进去。
你想靠卖环境赚钱,结果别人开始免费发货,还顺带做了个网盘。
这一幕像不像几年前的 AI 开源模型大战?刚开始大家还能卖点模型 API,后来 Mistral 一开源,大家都得做白嫖策略了。
环境这事,也正在走向白嫖时代。
所以回到开头的问题:很多 AI 大佬们看好环境,但是为什么不鼓励你去创业?
因为他们看好的是「环境」,不是「你做环境的生意」。就像一个人看好婚礼市场,并不代表他建议你去开婚车租赁公司。
AI 模型确实需要大量互动场景练习,但这些练习题并不是越做越值钱的内容,它们是一次性消耗品。模型一旦掌握了某项任务,对应环境的商业价值就变成了 0。
所以如果你只是想抓住这波风口,靠做环境来发家。那只能说,你是在给别人的通用智能打工,而且是临时工。
真正有价值的,是那个能创造出“能让模型学会做手术”的环境的人。
也就是说,不是前文提到的做小游戏仿真器,是做出真正能让模型实现质变能力的闭环。
这类人,不应该是环境工人。
Karpathy 最后也说了,他其实并不看好 RL 本身。也就是说,他并不认为通过“奖励函数”来训练模型是未来最强的路线。
他说人类的学习,远不止是“做对了就加分”这种简单规则。人类有抽象能力、有隐喻、有反思、有自我对话。而 AI 也应该有更像人类的学习方式,比如通过“系统提示词”的引导,甚至模拟“做梦”一样的离线学习。
深度学习三巨头之一的 Yann LeCun 也是持反对的观点。
他曾在 Twitter 上直言:
"强化学习的影响正如我预测的那样小。自监督学习的影响比我预测的还要大。"
而且 LeCun 貌似对强化学习异常严厉:
"因为它需要大量数据来训练模型做甚至简单的任务。我认为这完全没有成功的机会。"
你怎么看待?
强化学习环境之所以值得讨论,不仅因为它们是技术实现的载体,也因为它们代表了 AI 学习模式的根本转变——
之前 AI 学习的是静态数据,现在和以后是和环境动态交互。
本质是强化学习已经具备了价值,而且这些不同的声音都在推动技术进步。
页:
[1]