AI不是动物,是幽灵|前特斯拉AI负责人卡帕西的冷思考
作者:微信文章Andrej Karpathy安德烈·卡帕西,曾是OpenAI的创始成员,特斯拉自动驾驶AI负责人,也是"vibe coding"概念的提出者,如今正通过自己创办的Eureka Labs重新思考教育的未来。在与知名科技播客Dwarkesh Patel的深度访谈中,Andrej侃侃而谈,访谈视频下方好多评论,一度怀疑视频是不是开了倍速,长达两个半小时的对话中,Andrej深度剖析了当前AI发展的现状与未来,提出了许多颠覆性的观点,包括为什么我们构建的不是"动物"而是"幽灵",强化学习很糟糕,以及AGI为何还需要十年时间等。
(访谈链接:Andrej Karpathy — “We’re summoning ghosts, not building animals”, https://www.youtube.com/watch?v=lXUZvyajciY&t=609s)
Andrej Karpathy 简介:
• 斯坦福大学计算机科学博士,师从李飞飞
• OpenAI创始成员之一
• 特斯拉AI负责人(2017-2022),领导Autopilot团队
• YouTube深度学习教学视频播放量超百万
• 现任Eureka Labs创始人,致力于AI时代的教育变革
核心观点速览
1. AGI需要十年而非一年:当前的模型缺乏多模态能力、持续学习和计算机使用能力,存在严重的认知缺陷。这不是一年的事,这是十年的事。
2. "幽灵vs动物"的本质区别:我们通过模仿互联网数据训练AI,创造的是数字化的幽灵实体,而非经进化优化数百万年的动物。这是完全不同的智能路径。
3. 强化学习,通过吸管吸取监督信号:你做了一分钟复杂的推理,最后只得到一个对错信号,然后用这个信号去调整整个过程。这就像通过吸管喝水——信息量太少,噪声太大。
4. 预训练是"糟糕的进化":预训练就像是我们能实现的、廉价版的进化。它能让模型获得知识和智能,但远不如真正的生物进化那么精妙。
5. LLM记忆太好反而是问题:LLM能完整背诵训练数据,但这种超强记忆力可能在分散它们的注意力。理想的AI应该记住'如何思考',而不是'记住什么'。
6. AGI将融入2%增长曲线:我们已经在智能爆炸中了,而且持续了几十年。AI不会突然改变一切,它会像计算机、互联网一样,平滑地融入经济增长。
7. 从演示到产品的"九个九"法则:Demo做到90%不难,但从90%到99%,从99%到99.9%,每提升一个数量级都需要同样巨大的工程投入。自动驾驶用了十年还没完成。
8. 代码是AI的完美应用场景:编程工作基于文本、有成熟工具链、可以自动验证,这让它成为AI最容易发挥作用的领域,远超其他知识工作。
9. 教育是人类的健身房:就像我们在机械时代仍然去健身房锻炼身体,AI时代我们也需要通过教育来锻炼心智。教育将从'有用'变成'有趣'。
1
AGI:十年征程,而非一年冲刺
当业界普遍宣称"这是agent之年"时,Karpathy却坚持认为这应该是"agent的十年"。他的理由简单而深刻:当前的AI模型根本无法胜任一个实习生的工作。
"我们确实有一些非常早期、令人印象深刻的智能体,我每天都在使用Claude和Cursor,但我仍然觉得还有太多工作要做。因为它们就是不工作。"
Karpathy基于15年的AI研究经验,见证了多次技术浪潮的起伏。他观察到,从AlexNet引发的深度学习革命,到强化学习在Atari游戏上的突破,再到大语言模型的崛起,每一次看似即将到来的突破都需要比预期更长的时间才能真正落地。
Karpathy的判断基于他对当前AI系统局限性的深刻认识。他指出,现在的模型在多个关键方面存在不足:
-智能水平不够:无法胜任复杂的知识工作
-多模态能力有限:难以处理复杂的视觉和交互任务
-缺乏持续学习:无法记忆和积累经验
-认知缺陷明显:在推理和规划方面存在根本性问题
2
LLMs的认知缺陷:记忆过多,智慧不足
作为深度参与AI研发的专家,Karpathy认为当前的大语言模型(LLMs)存在一个根本性问题:它们太善于记忆,反而阻碍了真正的智能发展。
人类学习 vs AI学习的本质差异
"人类实际上不太擅长记忆,这实际上是一个特征,而不是缺陷。正因为我们记忆力不好,所以被迫去寻找更一般性的模式。而LLMs极其擅长记忆——它们能够背诵训练数据中的大段文字,这种能力可能实际上在分散它们的注意力。"
他举例说明了这种差异的重要性:一个人无法在读一遍随机数字序列后就完整复述出来,但LLM可以轻松做到。这种"超强记忆力"看似优势,实际上可能阻碍了模型学习更抽象、更具普遍性的认知规律。
理想中的"认知内核"
Karpathy提出了一个重要概念——"认知内核"(Cognitive Core)。他认为,我们需要构建的是stripped down版本的AI系统,保留问题解决和推理的算法能力,但减少对具体知识的依赖。
认知内核的特征:
• 保留智能算法和推理能力
• 减少对训练数据的记忆依赖
• 需要时主动查找信息,而非依赖内存
• 专注于"如何思考"而非"记住什么"
• 预计规模:约10亿参数就足够
3
强化学习的根本问题:通过吸管吸取监督信号
谈到强化学习(RL),Karpathy用了一个极其生动的比喻,揭示了当前方法的本质问题。
"强化学习很糟糕。只是碰巧之前其他方法都更糟糕。想象你在解数学题,尝试了数百种方法,只有3%得到正确答案。RL会将所有导致正确答案的步骤都标记为'做更多这样的事'——即使其中包含错误的推理路径。你通过一个吸管吸取最终奖励信号的监督信息,并将其广播到整个轨迹中。这太疯狂了。"
RL的核心问题
Karpathy详细解释了强化学习的基本流程及其问题:
-并行尝试:系统同时尝试数百种不同的解决方案
-二元判断:最后只根据正确答案进行简单的对错判断
-粗暴归因:将最终结果的权重分配给整个解决过程
-噪声问题:正确答案的推理过程中可能包含错误步骤
这种方法的问题在于,它假设达到正确答案的每一步都是正确的,但实际上,即使最终答案正确,中间过程也可能包含大量错误。这就像是"通过吸管吸取监督信号"——信息量极其有限,却要指导整个复杂的学习过程。
人类不使用强化学习
Karpathy大胆提出了一个观点:人类实际上并不使用强化学习进行智力任务的学习。人类学习更多依赖于深刻反思和经验整合。
"人类永远不会这样做。首先,人类永远不会进行数百次推理尝试。其次,当人类找到解决方案时,会有一个非常复杂的回顾反思过程——'我认为这些部分做得好,这些部分做得不好,我应该这样或那样做。'他们会思考这些事情。目前的LLM中没有这样的等价物。"
当前LLM完全缺乏这种反思机制。虽然有些实验室尝试用LLM作为判断器来提供过程监督,但这面临"对手样本"问题——模型会找到愚弄判断器的方法。
4
"我们在召唤幽灵,而非打造动物"
这是整个访谈中最具哲学意味的观点。Karpathy用这个深刻的比喻阐述了当前AI发展道路的本质特征,我们通过AI技术创造的不是类似动物的智能体,而是数字化的"幽灵"实体。
动物 vs 幽灵:两种不同的智能路径
这个比喻揭示了两种截然不同的智能发展路径:
动物智能是经过数百万年进化优化,具有强大的先天能力。
"动物是通过进化这一完全不同的优化过程产生的。一只斑马出生几分钟后就能跑动并跟随母亲——这是极其复杂的能力,但这不是强化学习,而是内置的。进化以某种方式将神经网络的权重编码在DNA中。"
相比之下,我们的AI系统通过模仿互联网上的人类数据来学习,这产生了本质上不同的智能形式。AI"幽灵"是完全数字化,通过模仿人类创造,缺乏进化赋予的稳健性。
动物路径(进化):
• 通过数百万年进化优化
• 硬件大脑结构内置大量先验知识
• 基于物理世界的直接交互
• 具有本能和情感系统
幽灵路径(模仿):
• 通过模仿互联网数据训练
• 完全数字化,缺乏物理约束
• 基于人类知识的二手学习
• 缺乏真实的生存压力和情感驱动
为什么选择"幽灵路径"?
Karpathy解释说,我们选择"幽灵路径"并非因为它更优,而是因为它更现实:
"我们不会进行进化,因为我不知道如何做到这一点。但事实证明,我们可以通过模仿互联网文档来构建这些类似幽灵的实体。这是有效的,实际上是一种将你带到某种具有大量内置知识和某种智能的东西的方法。"
Karpathy将预训练过程比作"糟糕的进化"——这是我们在现有技术条件下能实现的最接近进化的过程。预训练实际上完成了两个任务:
-知识获取:从互联网数据中提取信息
-智能涌现:通过观察算法模式,在神经网络中形成推理电路
但问题在于,我们实际上不需要、也不想要那些知识,因为它们让模型过度依赖记忆而非纯粹的思维能力。
5
AGI将融入2%增长,而非引发经济爆炸
与许多预测AI将带来经济爆炸式增长的观点不同,Karpathy认为AGI的影响将更加渐进和平滑。
历史的连续性
"这是一切照旧,因为我们已经在智能爆炸中,并且已经持续了几十年。一切都在逐渐被自动化,这种情况已经持续了数百年。工业革命就是自动化的物理组件。"
Karpathy的观点基于对历史数据的深入分析:
-GDP增长的稳定性:过去200-300年,尽管技术不断突破,GDP增长率始终保持在约2%
-技术的渐进扩散:即使是革命性技术如计算机、互联网,也是逐步渗透到经济各个环节
-自动化的连续性:从工业革命到计算机革命,本质上都是不同形式的自动化
为什么找不到技术在GDP中的突然跃升?
Karpathy提到了一个有趣的观察:"我曾经试图在GDP中寻找AI的影响,我以为GDP应该会上升,但当我查看其他我认为具有变革性的技术,比如计算机或手机等,你在GDP中也找不到它们。GDP保持相同的指数增长,因为一切都会平滑地扩散并融入同一条指数曲线。"
这种现象的原因在于:
-渐进扩散:技术采用是一个缓慢的过程
-适应期:社会需要时间学习如何有效利用新技术
-互补性:新技术往往需要配套的制度和基础设施变革
-替代效应:新技术在创造价值的同时也替代了旧的价值创造方式
他预测AI也将遵循同样的模式:不是突然的能力解锁,而是渐进的扩散和集成过程。
6
自动驾驶的教训:从演示到产品的鸿沟
作为特斯拉自动驾驶项目的前负责人,Karpathy对从demo到产品的巨大鸿沟有深刻理解。
CMU在1986年就展示了自动驾驶卡车,2014年Waymo已经很令人深刻,但距离真正部署还有很大差距,为什么自动驾驶用了这么长时间?
"九个九"的铁律
"从demo到产品存在巨大差距,特别是在失败成本很高的领域。这是一场'九的征程'——每提升一个数量级的可靠性都需要恒定的工作量。90%到99%,99%到99.9%,每一步都同样困难。"
从几次成功演示到百万次可靠运行,复杂度呈指数级增长,演示和真正产品之间有着巨大鸿沟,演示通常在受控环境中进行,而真实世界充满不可预测的边缘案例,真实部署还需要考虑保险、法律责任、公众接受度等。
对AI Agent的启示
Karpathy认为软件工程领域也存在类似的安全要求:
"如果你在编写生产级代码,任何错误都可能导致安全漏洞,数百万人的社会保险号码可能泄露。在某种意义上,软件错误造成的潜在损害甚至可能是无限的。"
这解释了为什么AI在编程领域的应用仍然主要局限于辅助工具而非完全自动化,与自动驾驶类似,需要经过长期的验证和优化过程,而不是简单的演示就能商业化。
7
教育:人类保持相关性的关键
离开特斯拉后,Karpathy选择了一个令人意外的方向——教育。他创办的Eureka Labs旨在构建"星际舰队学院",为AI时代培养人才。
为什么选择教育而非AI研究?
"我最大的恐惧是,很多这些事情会发生在人类之外,人类会因此而失去力量。我不只关心我们将要建造的所有戴森球,以及AI将要以完全自主的方式建造的东西。我关心人类会发生什么。我希望人类在这个未来中过得很好。"
Karpathy的选择基于一个深刻的担忧:在AI快速发展的过程中,人类可能会逐渐失去理解和控制技术的能力,最终导致类似《机器人总动员》或《白痴》电影中描绘的场景——人类在技术的呵护下变得愚钝和依赖。
完美AI导师的标准
通过自己学习韩语时与人类导师的对比,Karpathy描绘了理想AI导师应该具备的能力:
"她能够立即理解我的水平,准确探测我的知识边界,总是给我恰到好处的挑战——不会太难也不会太简单。我感觉自己是学习的唯一瓶颈,而不是缺乏合适的材料或解释。"
这就是他想要通过AI实现的教育愿景:让每个人都能获得完美匹配其能力和需求的个性化教育体验。
完美AI导师的特征:
• 精准评估:能够快速理解学生的知识水平和认知模式
• 个性化服务:提供恰好适合当前能力的挑战性内容
• 动态调整:根据学习进展实时调整教学策略
• 激励维持:确保学生始终处于最佳学习状态
• 深度理解:不仅传授知识,更培养思维方式
Pre-AGI vs Post-AGI教育
Karpathy对教育的未来有着独特的两阶段设想:
-AGI之前(实用教育):教育的价值在于实用性——人们需要学习技能来谋生。重点教授AI、编程等热门技能,教育直接与经济回报挂钩。
-AGI之后(乐趣教育):教育将变成"有趣"的事情,人们学习是为了自我提升和乐趣,探索人类智力的真正极限,保持人类保持人类的认知能力和文化特性。
"我觉得今天的天才们还只是刚刚触及人类大脑能力的表面。如果你有一个完美的AI导师,也许你可以走得非常远。"
nano chat:知识坡道的艺术
作为Eureka Labs的第一个产品,nano chat体现了Karpathy对"构建知识坡道"的理解。这个8000行代码的完整ChatGPT实现,展现了他的教育哲学:
· 完整性:覆盖从数据处理到模型部署的完整流程
· 简洁性:去除不必要的复杂性,聚焦核心概念
· 可理解性:每一部分都可以被理解和修改
· 实践性:学习者可以实际运行和实验
"在我看来,nano chat是一个知识坡道,因为它是一个非常简单的、超简化的全栈东西。如果你给某人这个工件,他们查看它,他们会学到很多东西。这给了你大量的'顿悟每秒'——理解每秒。这就是我想要的。大量的顿悟每秒。"
8
未来展望:在不确定性中保持乐观
尽管对当前AI发展的某些趋势表达了担忧,Karpathy始终保持着技术乐观主义的基调。
技术发展的连续性
Karpathy强调,我们需要将AI发展视为计算革命的自然延续,而不是完全独立的现象:
-历史连续性:从编译器到搜索引擎,再到AI助手
-渐进改进:每一代技术都让人类在抽象层次上提升一层
-自动化滑块:更多低级任务被自动化,人类专注于更高层次的工作
渐进控制与理解的丧失
谈到最可能的未来场景,Karpathy描绘了一个复杂的图景:
"最可能的结果是逐渐失去理解,我们会逐渐在各个地方部署所有这些东西,会有越来越少的人理解它,会有某种逐渐失去控制和理解正在发生的事情的情况。"
他设想的场景不是单一AI实体接管世界,而是多个竞争性自主实体的复杂生态系统,其中一些可能会"叛逆",而其他的则试图阻止它们。这种"完全自主活动的热锅"是人类委托给AI的结果。
人类的未来角色
在Karpathy的愿景中,即使在高度自动化的未来,人类仍将保持重要价值。在AI完全接管之前的过渡期,理解技术的人类将发挥关键作用,某些人类特质将始终被珍视和追求。
"我押注于人性的永恒性。我认为成为超人在某种意义上将是令人向往的,这种情况已经持续了数千年,我认为这将继续为真。"
对炒作的理性回应
Karpathy特别澄清了自己"悲观"表态的原因:
"我实际上很乐观。我认为这会成功。我认为这是可行的。我听起来悲观只是因为当我浏览Twitter时,我看到所有这些对我来说毫无意义的东西。很多我认为坦率地说只是筹款。"
他的"悲观"更多是对当前行业过度炒作的反应,而非对技术本身的质疑。作为一个经历了AI领域15年发展的资深从业者,他见证了太多不切实际的预测,因此更倾向于保守和务实的评估。
"我们在召唤幽灵,而非打造动物"这个深刻的比喻,揭示了当前AI发展路径的本质:我们正在创造一种前所未有的智能形式,它既不同于生物进化产生的自然智能,也不同于传统的机械自动化。这些"数字幽灵"具有强大的能力,但也带来了前所未有的挑战。
从技术角度看,Karpathy的观察:当前AI系统仍有重要的认知缺陷需要解决,从演示到产品的路径比想象中更加漫长,强化学习等基础方法需要根本性的改进。真正的AGI可能还需要一个十年的时间。在这个"幽灵"与人类共存的时代,无论我们召唤出怎样的"幽灵",最终塑造未来的,仍然是我们人类自己的选择。
Education is building ramps to knowledge.
#AGI #安德列卡帕西 #AndrejKarpathy #OpenAI #特斯拉
相关阅读
从GitHub到ChatGPT:Vibe Coding之父Karpathy解读软件开发的三次革命
页:
[1]