多客科技 发表于 2025-5-29 02:43

AI 再聪明,也架不住“断粮”

作者:微信文章


题图来自AI

当我的一个程序员朋友问我说:“AI 会不会因为可用的预料变少,从而变笨?”

果然很程序员,会想到这样的问题。只有非常关注AI细节的人才会问出这样敏锐的问题。人类是怎么变得更聪明的呢?只有多看,多练,多想。我们把 AI 想象成一个从小读万卷书的孩子,那这个问题就变成了:如果这个孩子突然不能读书了,会不会慢慢退化?

先说结论,训练好的AI,就他的聪明程度而言,是不会变的。但是如果想再训练模型,还是有可能因为语料数据的匮乏而变笨的。

原因也很简单,训练好的模型,就像买回家的空调一样,里面吹风的“算法”是固定的。你用ChatGPT-4.0,它就是2023年3月14日发布的,大概在2022年底训练好的。所以它的知识就截止于2022年底的样子。



所以,它不会因为网络中断,某篇论文被删,小学课本题库更改而丢失记忆。也不会每天上网去更新自己的知识(也不排除未来的AI会自己更新自己)。换句话说,你的AI是9岁的智商,那它就一直是9岁的智商。

就好像你小学学会了《让我们荡起双桨》你就“真的会了”,不会失忆。而且自然而然的接着唱起了”小船儿推开波浪“。但是如果接下来你都不听其他的歌,那问题就来了。别的小朋友都进化到周杰伦的双节棍了,你还在推开波浪。

训练AI是需要海量的语料数据的,从社交媒体、门户网站、xx百科、微博、Github,甚至是知乎、豆瓣、贴吧里那些看起来像废话的讨论里,它都能学到东西,语言、逻辑、情感、幽默、结构等等。这些数据构成了AI的课本,经过大量成本的学习(模型训练),它才可能学会写字,才可能学会贴吧的幽默,豆瓣的评分,知乎的人均百万。

那如果以后数据获取越来越难,是不是意味着以后训练出来的AI,就越来越像一个正在长身体的孩子,每天只喝一点小米粥,智商和身体就会被锁定了?



这个担忧,其实现在就已经开始出现了。

现在越来越多的内容网站开始反爬虫爬取数据。News Corp、NYTimes、Reddit、Twitter(现在叫 X)都开始控制自己的数据出口。亚马逊的反爬虫技术也经过了一轮轮的进化。GitHub Copilot 引发的版权风波,也让开源世界开始反思:我们开放代码,是不是以后就没有我的饭碗了?

而且政策也在变化。欧盟的《人工智能法案》、美国的 AI 版权讨论,中国的内容数据出境审查等等。

这一切都在压缩 AI 的数据来源地。你可以把这看成是碳基人类给硅基 AI 设下的“围城”。你可以成长,但不能无限制发展,必须在人类的控制之下。

这听起来挺科幻的,但实际上,这一切都正在发生。

那语料变少,会不会让 AI 真正“变笨”?

这要看我们怎么定义“笨”了。如果说“笨”是无法准确回答问题、逻辑混乱、胡说八道,那问题的核心在于模型训练时的数据质量和结构,而不是单纯的数据量。也就是课本质量和学习方法,而不是单纯课本的多少。

换句话说,如果我们有一个质量极高、结构良好、语料丰富的数据集,也许比 10 倍混乱的互联网上的信息还要值钱。

这就像你当年考编不是靠刷一堆三无教材,而是靠几本精炼的核心资料。AI 也一样。

不过问题是在于谁来提供这份“精炼的核心资料”呢?这份资料又是怎么定义其精炼程度的呢?

目前 OpenAI、Anthropic、Google、百度、智谱、月之暗面等公司都在构建自己的数据集。但构建一个像 Wikipedia + Stack Overflow + Reddit + Medium + 知乎 + GitHub 这种量级的“授权语料库”,难度不在技术,而在于政治、法律、企业间博弈、商业利益等。



而且,你以为碳基人类会乖乖贡献出自己的思想?每一个写博客的人,都是一位潜在的“不要拿我赚钱”的作者。互联网早已不是原始森林了,它越来越像一片围起来的庄园。

于是,有个声音开始出现:让 AI 写给 AI 看。

这种骚操作究竟会出现什么样的现象呢?

我们明天再继续讨论😂

近期文章:

超级高铁Hyperloop的“折中方案”,中国的渐进创新方案可能更现实

高管下场接单: UU跑腿的温度是跑出来的

关注点赞,越来越靓
页: [1]
查看完整版本: AI 再聪明,也架不住“断粮”