【AI 再聪明,也架不住“断粮”】萍聚社区-德国热线-德国实用信息网人工智能

多客科技 发表于 2025-5-29 02:43

AI 再聪明,也架不住“断粮”

作者：微信文章

题图来自AI

当我的一个程序员朋友问我说：“AI 会不会因为可用的预料变少，从而变笨？”

果然很程序员，会想到这样的问题。只有非常关注AI细节的人才会问出这样敏锐的问题。人类是怎么变得更聪明的呢？只有多看，多练，多想。我们把 AI 想象成一个从小读万卷书的孩子，那这个问题就变成了：如果这个孩子突然不能读书了，会不会慢慢退化？

先说结论，训练好的AI，就他的聪明程度而言，是不会变的。但是如果想再训练模型，还是有可能因为语料数据的匮乏而变笨的。

原因也很简单，训练好的模型，就像买回家的空调一样，里面吹风的“算法”是固定的。你用ChatGPT-4.0，它就是2023年3月14日发布的，大概在2022年底训练好的。所以它的知识就截止于2022年底的样子。

所以，它不会因为网络中断，某篇论文被删，小学课本题库更改而丢失记忆。也不会每天上网去更新自己的知识（也不排除未来的AI会自己更新自己）。换句话说，你的AI是9岁的智商，那它就一直是9岁的智商。

就好像你小学学会了《让我们荡起双桨》你就“真的会了”，不会失忆。而且自然而然的接着唱起了”小船儿推开波浪“。但是如果接下来你都不听其他的歌，那问题就来了。别的小朋友都进化到周杰伦的双节棍了，你还在推开波浪。

训练AI是需要海量的语料数据的，从社交媒体、门户网站、xx百科、微博、Github，甚至是知乎、豆瓣、贴吧里那些看起来像废话的讨论里，它都能学到东西，语言、逻辑、情感、幽默、结构等等。这些数据构成了AI的课本，经过大量成本的学习（模型训练），它才可能学会写字，才可能学会贴吧的幽默，豆瓣的评分，知乎的人均百万。

那如果以后数据获取越来越难，是不是意味着以后训练出来的AI，就越来越像一个正在长身体的孩子，每天只喝一点小米粥，智商和身体就会被锁定了？

这个担忧，其实现在就已经开始出现了。

现在越来越多的内容网站开始反爬虫爬取数据。News Corp、NYTimes、Reddit、Twitter（现在叫 X）都开始控制自己的数据出口。亚马逊的反爬虫技术也经过了一轮轮的进化。GitHub Copilot 引发的版权风波，也让开源世界开始反思：我们开放代码，是不是以后就没有我的饭碗了？

而且政策也在变化。欧盟的《人工智能法案》、美国的 AI 版权讨论，中国的内容数据出境审查等等。

这一切都在压缩 AI 的数据来源地。你可以把这看成是碳基人类给硅基 AI 设下的“围城”。你可以成长，但不能无限制发展，必须在人类的控制之下。

这听起来挺科幻的，但实际上，这一切都正在发生。

那语料变少，会不会让 AI 真正“变笨”？

这要看我们怎么定义“笨”了。如果说“笨”是无法准确回答问题、逻辑混乱、胡说八道，那问题的核心在于模型训练时的数据质量和结构，而不是单纯的数据量。也就是课本质量和学习方法，而不是单纯课本的多少。

换句话说，如果我们有一个质量极高、结构良好、语料丰富的数据集，也许比 10 倍混乱的互联网上的信息还要值钱。

这就像你当年考编不是靠刷一堆三无教材，而是靠几本精炼的核心资料。AI 也一样。

不过问题是在于谁来提供这份“精炼的核心资料”呢？这份资料又是怎么定义其精炼程度的呢？

目前 OpenAI、Anthropic、Google、百度、智谱、月之暗面等公司都在构建自己的数据集。但构建一个像 Wikipedia + Stack Overflow + Reddit + Medium + 知乎 + GitHub 这种量级的“授权语料库”，难度不在技术，而在于政治、法律、企业间博弈、商业利益等。

而且，你以为碳基人类会乖乖贡献出自己的思想？每一个写博客的人，都是一位潜在的“不要拿我赚钱”的作者。互联网早已不是原始森林了，它越来越像一片围起来的庄园。

于是，有个声音开始出现：让 AI 写给 AI 看。

这种骚操作究竟会出现什么样的现象呢？

我们明天再继续讨论😂

近期文章:

超级高铁Hyperloop的“折中方案”，中国的渐进创新方案可能更现实

高管下场接单: UU跑腿的温度是跑出来的

关注点赞，越来越靓

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI 再聪明,也架不住“断粮”