这项研究由美国德州大学奥斯汀分校、德州农工大学与普渡大学合作完成,题为《大型语言模型也可能患上「大脑萎缩」症》(LLMs Can Get "Brain Rot")。研究设计直接而明确,研究团队将X平台上高互动、低信息密度的热门贴文作为训练数据,观察模型在推理、长篇理解和数学运算等任务的表现。结果显示,推理准确率从74.9%骤降至57.2%,长篇理解能力从84.4%下滑至52.3%,数学与逻辑题也出现显著错误。即便后续再以高质量数据重新训练,模型仍无法恢复原有能力,凸显退化的不可逆性。
研究团队指出,仅靠监控AI输出无法保障安全,核心问题在于「训练时安全」(training-time safety)。他们建议建立「认知健康检查」(cognitive health checks),在模型部署前后,持续评估推理完整性、语义稳定性与价值偏移。这种方法类似人类神经科学对脑部健康的长期监测,强调从源头防止退化,而非事后矫正。