新闻 发表于 2025-8-5 10:56

人类数据枯竭倒计时:AI 将“饿死”在互联网废墟上.数据是否成为AI发展瓶颈?

作者:微信文章
来源:方泽文-AI思与行
我每天打开手机,铺天盖地的AI新闻标题不是“震惊”,“王炸”,就是“逆天”——似乎算力和算法每天都在突破。

AI的发展真能一路狂奔永无瓶颈吗?翻看大多数分析,焦点往往集中在算力和算法的突破上——它们确实是AI进化的关键引擎。

但除了这两者,还有一个被严重低估的“隐形基础设施”:数据,即训练大模型所需的海量语料。



数据如何影响智能?数据从哪来?

在AI时代,语料就是“石油”。没有它,再强大的引擎(算力和算法)也无用武之地。AI模型商也会巧妇难为无米之炊。

我之前在使用Google的文生图模型Imagen API时,我发现它生成的图片总与我的中文描述大相径庭。这和模型宣传的能力严重不符。后面我想会不会是海外模型对于中文语料训练不足原因,于是我切换成英文提示词输入,Imagen立刻展现出应有的强大实力。

高质量中文数据稀缺,导致它“听不懂”中文语境。

既然语料数据对AI这么重要,语料从哪来?

大模型训练的语料主要来自:互联网公开数据、学术论文报刊、以及垂直行业数据(如医疗、法律)。

不同模型需求各异,比如编程大模型AlphaCode,核心数据自然是海量代码。



数据统计来源《A Survey of Large Languege Model》

语料库建设并非这几年的事。早在1960年代,布朗大学就创建了世界上首个机读英语语料库,奠定了计算机语言学的基础。高质量语料,就是大模型厂商的“大米”。

美国有个Common Crawl项目:专注于系统爬取全球互联网文本,为大模型提供基础“燃料”。

下面是海外AI训练主流的语料库。



同时在政府+行业主导下,欧美国际也进一步完善了数据相关法规和版权保护法案。



例如,欧盟EOSC计划:早在2015年就推动科学数据开放共享。美国通过《开放政府数据法案》等建立Data.gov平台,制定元数据规范;欧盟鼓励第三方数据机构流通语料;德法企业联合打造Gaia-X推动标准统一。



警报拉响:人类数据快被“榨干”了?

2024年6月,EPOCH AI发布重磅研究《Will we run out of Data?》。研究指出:

人类公开文本总量(以Tokens计)中位数约**3100T**(区间1900T-5200T)。

按当前大模型对数据的“胃口”增速,人类生成的文本数据将在2026至2032年间被消耗殆尽!




(图示:绿色区域代表人类文本数据增长趋势,蓝色区域代表大模型数据需求,二者交集结束于2026-2032年)

OpenAI联合创始人Ilya Sutskever在NeurIPS 2024的演讲中直言担忧:算力和参数的增长已触及天花板,作为AI“石化燃料”的数据增长却严重滞后。

他强调,突破瓶颈的关键在于算法变革:让AI摆脱对海量数据的依赖,学习人类“举一反三”的泛化能力。



海外研究机构已经在这个方向采取行动,通过算法创新,模仿人类学习等方式,减少对大规模语料库的依赖。

例如,斯坦福实验室尝试用视觉信息训练模型,减少对文本存量数据的依赖。

其“KL-tracing”技术让视频AI无须专门训练就能追踪物体运动。

SpelkeNet系统通过“虚拟戳击”理解物理世界,让机器不再误判车门与车身是独立物体——这正是模仿人类婴儿学习方式的突破。






更深层危机:语料决定AI的“价值观”

语料不仅影响模型“智商”,更潜移默化塑造其“价值观”。

最近我在用Gemini 2.5 Pro做自我剖析分析时,它一直认为我的“短板”也是我的潜在“优势”,极力鼓励我在特定场景发挥它。

我认为这是典型的西式“鼓励式教育”风格,我被哄得“心花怒放”。这看似积极,却折射出深层的文化价值倾向。

虽然工程师会清洗掉明显偏见或攻击性数据,但“清洗者”本身也是文化背景的产物”人“。你以为中立的数据,在另一种文化视角下可能暗藏偏见。

同样,回到我身上的案例,一次我在用Google Imagen做“梦回大唐”主题的漫画创作时,我让它生成“古代生活场景”图片,它默认输出的是“西式城堡而非中国建筑”。它认为的古代,就是这样的场景。

ChatGPT的英文语料在ChatGPT训练数据中占主导地位,比例约为‌92.6%–92.65%,它肯定更熟悉西方那一套,并认为是价值正确的。



这带来一个尖锐问题:你想让下一代与充满西方价值观的AI共处吗?

换句话说,中文语料库建设,已刻不容缓!

它不仅关乎中文AI的智能水平(能否真正理解中文语境),更决定未来AI世界里,中文文化价值观能否拥有一席之地。

当前中文语料库建设仍面临挑战:数据分布不均、专业领域(医学/法律/天文等)语料稀缺、质量参差、行业数据壁垒森严……但可喜的是,近年来进步显著。

这不仅是一场技术竞赛,更是一场文化话语权的争夺。中文语料的丰厚度与质量,将直接影响我们子孙后代接触的AI是“懂东方”的伙伴,还是带着文化滤镜的“西式AI”?

篇幅有限,关注我,下期我将深入探讨:中文语料库建设的挑战、进展与破局之道。
我是方泽文,外界嘈杂虚幻,皆为我内心表象,向内探索,做有温度的创作,传递思考价值。欢迎大家关注我,一起思考,一起成长。
END

声明

本文仅作分享交流之用,版权归原作者,仅代表作者观点,不代表本公众号立场。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与我们联系,我们将及时更正,联系方式:claudia.cao@everlaw.com.cn
页: [1]
查看完整版本: 人类数据枯竭倒计时:AI 将“饿死”在互联网废墟上.数据是否成为AI发展瓶颈?