AI教育界顶流教你玩转ChatGPT
作者:微信文章Andrej Karpathy是斯坦福博士,曾任特斯拉 AI 总监、OpenAI 创始成员,现创办“AI原生学校” Eureka Labs AI(世界首个 AI 原生学校开办:Eureka Labs AI),在他的个人账号上经常用浅显语言普及前沿 AI 话题,发明了诸如“上下文工程(Context Engineering)”,“氛围编程(Vibe Coding)”等网络热词,可谓AI/兼AI教育界顶流。
最近他在一篇推文里分享了自己的"router"——个人使用路径,即在哪些任务中选用哪些AI模型。虽然他说自己除了切换模型以外,也会在不同任务中切换不同模型,但目前这篇推文仅限于 ChatGPT 模型领域,而且他再怎么切换也不太可能采用我们的平台,因此我这篇文章会在他的基础上再讲讲对应的“国产替代”,短暂地和大神“云端合璧”一下。
在推文中,Andrej Karpathy提出:
很多人仍然不知道如何切换合适的模型。
其实我也发现了,前些天有个朋友说:
ChatGPT会员也不好用呀,感觉跟普通版没什么区别。
我说普通版o3只是试用版,限制使用次数。那个朋友问我什么是o3——他都没发现模型切换按钮,当然也不可能知道如何切换合适的模型了。
区分推理模型和普通模型
首先,我要详细拆解一下的这句话:
对于重要/困难的事情,o3 显然是最好的选择。它是一个比 4o 强大得多的推理模型,如果你在专业领域使用 ChatGPT(普通模型),而不使用 o3,那你就 ngmi。
在ChatGPT中,“o系”模型是推理模型——会花费更多的算力和时间,甚至调用一些诸如python、网络搜索、图片识别的工具(仅限o3及后续版本)来帮你解决复杂问题,并给你呈现自己的思考、搜索和工具调用过程。与之类似有国内的DeepSeek-R系模型(首创思考过程展示界面)、Kimi的「K-1.5长思考」模式、通义的「深度思考」模式、腾讯元宝的「T1深度思考」模式、智谱清言的「推理」模式,豆包的「深度思考」模式。
这些模型相比较而言都会「更聪明,更努力」,可这并非意味着一定「更好」,更聪明也有可能自作聪明,更努力会带来过度思考,最终输出的内容可能会出现「不忠实于原始材料」、「方案太高级难落地」等问题,而更麻烦的是,你可能会更相信AI的高级模型——毕竟各家都宣称这类产品是更好的模型,你更有可能误信。
因此你得“更聪明”,多长个心眼,问问自己,这个方案真的适合我吗?说得很厉害的样子但真的靠谱嘛?他说的这些都有依据吗?你也得“更努力”,把它给出索引的内容都点开看一眼,看是否和他说的一致——它有时候真的会原文「马冬梅」,输出「孙红雷」;它没有标索引的内容,不要轻信;或者让他再次搜索资料求证核实,「搜集相关资料,看看这句话是否属实」。
什么是ngmi?为什么说专业任务如果你只使用普通模型而不使用o3,你就ngmi?
ngmi是Never gonna make it(永远做不成),Andrej Karpathy在这里做了一个call back。o3刚刚推出的时候,OpenAI的CEO山姆·奥特曼曾发推说,“如果你不每天花三个小时让你的专业技能最大化发挥作用,你将永远做不成事。”
哎,为什么我们会有AI焦虑呢?因为这些企业家自己就在散布焦虑。
专业任务用o3类模型,你的确更容易获得专业资料、专业方法的支持。但如果你不够专业,不够细心,你可能看不出这类模型出现的错误,那你才真ngmi。
以上是对“o3 is the obvious best thing for important/hard things. It is a reasoning model that is much stronger than 4o and if you are using ChatGPT professionally and not using o3 you're ngmi”这句话的讲解和我的一些提醒。
四类常见AI应用场景
Andrej Karpathy这个推文的中心思想是面对不同任务时,不把所有请求都发给同一个模型,而是先判断任务特点,再匹配到最合适、性价比最高的模型。他分享了自己的四类AI协作活动和相对应的ChatGPT模型。我用4o把它做成了一个表,这就是一个所谓简单查询(Any simple query),其实叫简单任务也可以。
4o是ChatGPT的一个普通模型,对应的国产模型就是各个平台的默认模型、任何按钮都不勾选的模型。特点是快,简单任务都行(如:给定内容做表格,文章总结或者扩写)也基本准确(抱歉,没有敢保证100%准确的商用AI模型),各家的系统默认模型基本上也没什么区别,但并非所有模型都如4o一样支持多模态——识图以及生图能力。目前版本的kimi和deepseek都不能帮你画图,其他一些平台也需要专门勾选生图功能。
o3这一系列的特性刚刚已经介绍了,Andrej用此类模型解决“重要或复杂问题”,其实它也可以用来做一些信息溯源功能。比如,你可以把我在文中Andrej的推文截图发给它,告诉它“请帮我找找原文”,他就会帮你找到原推文并给出链接——我就是这么找到的。或者你想到一个好主意,想把它落地成一个实在的研究或者项目,它可以帮你参谋参谋。但一定谨记,他讲得再好也只是狗头军师,甚至讲得越好你越得多留个心眼。
4.1系列被称为写/改代码的「氛围编程者(Vibe Coder)」,用来做代码优化。我不做这类工作,因此不知道对应哪些其他平台。但4.1的另一个特点是「长文本」能力,它上下文窗口达到1M,其他号称长文本的AI模型也往往只有128k,你的「天花板只是人家的起步」。豆包的Doubao-Seed-1.6是国内首个支持256K token上下文长度的模型也只是GPT-4.1的1/4。不过这个长文本的用处也有限,你大可另开一个聊天窗口,没必要一直在这聊。让AI讲论文,128k的模型也足够了,kimi就可以。不过有时候我获得一本电子书,我会直接传给GPT-4.1让它给我讲讲个部分大致讲了什么。
深度研究是我非常喜欢的一个功能。它可以就某一功能作出深度调研,聪明而且不会自作聪明,努力往往也不思考过度。但它并不是一个通用功能——它只能帮你就某一话题生成报告。你要是告诉他帮我改改这篇文章,它可能给你讲什么叫改文章,改文章这个活动的历史,改文章在社会中的重要作用(啊呀,它当然没有这么傻,我只是强调一下,因为深度研究往往需要花费10分钟甚至更长的时间,且往往按月限制次数,你最好想好你要什么再去问)。
这个功能目前Kimi和豆包做得比较好,kimi的深度研究目前在「Humanity‘s Last Exam」中得分超过ChatGPT,但也花费时间更长,我用过好几次,都等了30分钟以上才给出结果,而且每个月只能用30次。
类似地,豆包也推出了「深入研究」功能,每天限制为5次,思考时间大约控制在5分钟,适合作为kimi或ChatGPT的补充。而且使用豆包App的深入研究生成报告后,还可以打开报告内容,选择右上角“听”按钮,一键转成播客,随时听。
无论如何,多试试不同模型在不同任务中的表现。每个人的使用习惯都不一样,比如Andrej Karpathy用GPT4.1做编程,我用它速览书籍。如果AI没能给出你想要的答案,我们不要总是反思自己的问法有没有问题,或许换个模型试试就能解决。
以上是我对AI教育顶流Andrej Karpathy的AI技巧解读,也分享了我自己的用法,希望我们的「云端合璧」对你有所帮助。
「AI时代的教育及其后续」是我们基于美国课程重构中心的书《AI时代的教育》设计的专栏,包括这本书的资源、解读、心得以及该单位后续的研究。加入「教育学人 AIED 知识社区」专栏,一站式解锁AI教学干货:
https://mmbiz.qpic.cn/sz_mmbiz_jpg/Cfhib5CicBJfZZq9k3nA0p8q6uqOicSKDX3PhysYW9EIZGZfibV081WW0j8Abt3yhEE6YMLGic3fRia0bRA9dTIgHaGA/640?wx_fmt=jpeg&from=appmsg&wxfrom=5&wx_lazy=1&randomid=qc8eeghy&tp=webp
页:
[1]