【人类数据枯竭倒计时:AI 将“饿死”在互联网废墟上.数据是否成为AI发展瓶颈?】萍聚社区-德国热线-德国实用信息网人工智能

新闻发表于 2025-8-5 10:56

人类数据枯竭倒计时:AI 将“饿死”在互联网废墟上.数据是否成为AI发展瓶颈?

作者：微信文章
来源：方泽文-AI思与行
我每天打开手机，铺天盖地的AI新闻标题不是“震惊”，“王炸”，就是“逆天”——似乎算力和算法每天都在突破。

AI的发展真能一路狂奔永无瓶颈吗？翻看大多数分析，焦点往往集中在算力和算法的突破上——它们确实是AI进化的关键引擎。

但除了这两者，还有一个被严重低估的“隐形基础设施”：数据，即训练大模型所需的海量语料。

数据如何影响智能？数据从哪来？

在AI时代，语料就是“石油”。没有它，再强大的引擎（算力和算法）也无用武之地。AI模型商也会巧妇难为无米之炊。

我之前在使用Google的文生图模型Imagen API时，我发现它生成的图片总与我的中文描述大相径庭。这和模型宣传的能力严重不符。后面我想会不会是海外模型对于中文语料训练不足原因，于是我切换成英文提示词输入，Imagen立刻展现出应有的强大实力。

高质量中文数据稀缺，导致它“听不懂”中文语境。

既然语料数据对AI这么重要，语料从哪来？

大模型训练的语料主要来自：互联网公开数据、学术论文报刊、以及垂直行业数据（如医疗、法律）。

不同模型需求各异，比如编程大模型AlphaCode，核心数据自然是海量代码。

数据统计来源《A Survey of Large Languege Model》

语料库建设并非这几年的事。早在1960年代，布朗大学就创建了世界上首个机读英语语料库，奠定了计算机语言学的基础。高质量语料，就是大模型厂商的“大米”。

美国有个Common Crawl项目：专注于系统爬取全球互联网文本，为大模型提供基础“燃料”。

下面是海外AI训练主流的语料库。

同时在政府+行业主导下，欧美国际也进一步完善了数据相关法规和版权保护法案。

例如，欧盟EOSC计划：早在2015年就推动科学数据开放共享。美国通过《开放政府数据法案》等建立Data.gov平台，制定元数据规范；欧盟鼓励第三方数据机构流通语料；德法企业联合打造Gaia-X推动标准统一。

警报拉响：人类数据快被“榨干”了？

2024年6月，EPOCH AI发布重磅研究《Will we run out of Data?》。研究指出：

人类公开文本总量（以Tokens计）中位数约**3100T**（区间1900T-5200T）。

按当前大模型对数据的“胃口”增速，人类生成的文本数据将在2026至2032年间被消耗殆尽！

（图示：绿色区域代表人类文本数据增长趋势，蓝色区域代表大模型数据需求，二者交集结束于2026-2032年）

OpenAI联合创始人Ilya Sutskever在NeurIPS 2024的演讲中直言担忧：算力和参数的增长已触及天花板，作为AI“石化燃料”的数据增长却严重滞后。

他强调，突破瓶颈的关键在于算法变革：让AI摆脱对海量数据的依赖，学习人类“举一反三”的泛化能力。

海外研究机构已经在这个方向采取行动，通过算法创新，模仿人类学习等方式，减少对大规模语料库的依赖。

例如，斯坦福实验室尝试用视觉信息训练模型，减少对文本存量数据的依赖。

其“KL-tracing”技术让视频AI无须专门训练就能追踪物体运动。

SpelkeNet系统通过“虚拟戳击”理解物理世界，让机器不再误判车门与车身是独立物体——这正是模仿人类婴儿学习方式的突破。

更深层危机：语料决定AI的“价值观”

语料不仅影响模型“智商”，更潜移默化塑造其“价值观”。

最近我在用Gemini 2.5 Pro做自我剖析分析时，它一直认为我的“短板”也是我的潜在“优势”，极力鼓励我在特定场景发挥它。

我认为这是典型的西式“鼓励式教育”风格，我被哄得“心花怒放”。这看似积极，却折射出深层的文化价值倾向。

虽然工程师会清洗掉明显偏见或攻击性数据，但“清洗者”本身也是文化背景的产物”人“。你以为中立的数据，在另一种文化视角下可能暗藏偏见。

同样，回到我身上的案例，一次我在用Google Imagen做“梦回大唐”主题的漫画创作时，我让它生成“古代生活场景”图片，它默认输出的是“西式城堡而非中国建筑”。它认为的古代，就是这样的场景。

ChatGPT的英文语料在ChatGPT训练数据中占主导地位，比例约为‌92.6%–92.65%，它肯定更熟悉西方那一套，并认为是价值正确的。

这带来一个尖锐问题：你想让下一代与充满西方价值观的AI共处吗？

换句话说，中文语料库建设，已刻不容缓！

它不仅关乎中文AI的智能水平（能否真正理解中文语境），更决定未来AI世界里，中文文化价值观能否拥有一席之地。

当前中文语料库建设仍面临挑战：数据分布不均、专业领域（医学/法律/天文等）语料稀缺、质量参差、行业数据壁垒森严……但可喜的是，近年来进步显著。

这不仅是一场技术竞赛，更是一场文化话语权的争夺。中文语料的丰厚度与质量，将直接影响我们子孙后代接触的AI是“懂东方”的伙伴，还是带着文化滤镜的“西式AI”？

篇幅有限，关注我，下期我将深入探讨：中文语料库建设的挑战、进展与破局之道。
我是方泽文，外界嘈杂虚幻，皆为我内心表象，向内探索，做有温度的创作，传递思考价值。欢迎大家关注我，一起思考，一起成长。
END

声明

本文仅作分享交流之用，版权归原作者，仅代表作者观点，不代表本公众号立场。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与我们联系，我们将及时更正，联系方式：claudia.cao@everlaw.com.cn

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

人类数据枯竭倒计时:AI 将“饿死”在互联网废墟上.数据是否成为AI发展瓶颈?