AI正在改变科学:来自大理AI4S战略研讨会整理
作者:微信文章人工智能如何改变科学研究?AI4S面临什么问题?未来发展趋势怎样?
8月18日至21日,由北京科学智能研究院、上海交通大学李政道研究所、北京深势科技有限公司共同主办的“AI for Science”战略研讨会在云南大理李政道科学艺术中心召开,鄂维南院士、丁洪院士、汤超院士主持会议,会议总计二十余名科学家先后分享了基因编辑、RNA、虚拟细胞、智慧育种、高端科学仪器、AI影像技术、粒子物理基础模型、先进材料等前沿领域AI4S的最新进展、关键挑战和未来展望。
我们有幸作为亲历者,将这场信息密度极高的知识盛宴观点整理成文。
导读
在您用一杯咖啡的时间开启深度阅读之前,这份导读将帮助您快速把握全文的脉络与核心洞见。全文将分为【上篇:挑战与进展】和【下篇:未来】两次发表。
今天,我们首先为您呈现【上篇】。
在这一部分,我们将首先剖析当前AI4S发展面临的三大挑战,随后您将看到科学家们如何“对症下药”以及目前的一些进展。
关于数据:您将读到,我们为何面临“没米下锅”(稀缺昂贵)、“米里有沙”(标准缺失)与“米仓林立”(数据孤岛)的困境。与此同时,我们看到以“具身智能”为代表的“自主探索实验室”被寄予希望成为“数据工厂”主动创造增量数据,而“国家重大科技基础设施”和“大科学计划”等顶层设计则致力于为数据制定标准、打破壁垒。
关于人才:您将理解,为何我们极度短缺兼具科学与AI知识的“Π型人才”以及传统科研文化的 “惯性阻力”。与此同时,我们看到如何通过降低AI使用门槛来赋能现有领域专家,以及黄三文院士的“智慧育种”、肖炳甲研究员的“AI控制人造太阳”等颠覆性成功案例正如何成为改变科研惯性的“催化剂”。
关于工具:您将了解到,我们在高端科学仪器领域的差距与困境,以及自动化验证平台的缺失如何制约科研效率的提升。与此同时,我们看到国家层面如何进行战略牵引,以及构建“领域基础模型”的努力正如何试图为AI时代的科学家提供强大的“操作系统”进而民主化AI能力。
正文
#01 数据篇
【挑战】
(1)数据的稀缺性“没米下锅”:与通用大模型动辄万亿级参数、以整个互联网为数据采集源不同,科学领域的数据是“稀疏”且“昂贵”的。稀疏性体现在以现有模型如单细胞蛋白质组、scRNA序列等为例,其存在数据稀疏(数量级在10^4 ~ 10^8)、批次效应严重(不同操作、仪器或时间导致数据偏差大)、缺少跨物种(目前仅以人类和小鼠数据为主)等显著挑战。昂贵性则体现在多个方面,如依赖“人造太阳EAST装置”、“国家生物医学成像科学中心”等重大科技基础设施投资建设、大规模跨学科乃至跨国科研计划系统性统筹、以及基础科研人员的手工实验等。
(2)数据质量与标准的缺失“米里有沙”我国虽是数据生产大国,但远未成为数据强国,具体体现在三个方面,一是缺乏统一标准,例如尽管近年由国家科研基金资助项目加强了数据上交的要求,但上传数据的质量依旧参差不齐;二是缺乏激励机制,高质量的数据库建设需要顶尖的科研与工程团队,但其成果往往难以得到充分认可;三是相比于世界数据强国存在显著的数据缺口,如美国自1982年起开始建立超2亿条核酸序列数据的GenBank,英国自2006年起开始建立采集了50万志愿者多组学数据的UK BioBank,而我国缺乏国家级高质量数据资源也较少领导国际数据图谱计划。更值得注意的是美国自2025年3月起禁止中国(含港澳)使用敏感生物医学数据库并限制使用NIH支持的受控数据训练生成式人工智能模型,科学数据自主可控迫在眉睫。
(3)数据孤岛与共享壁垒“米仓林立”:科研活动长期以来以课题组为单位的模式,导致数据被割裂在不同的机构、实验室甚至个人电脑里,形成了严重的“数据孤岛”。数据所有权、知识产权、以及潜在的科研竞争关系,都阻碍了数据的开放共享。此外,参与研讨会的多位专家还表达了构建跨学科(从生命科学到物理)、跨尺度(从原子到界面)的实验表征和计算数据是AI真正理解物理世界超越人类进行科研探索的潜在方向之一,因为大模型源于数据的规模化效应,数据的深度和广度则决定了AI智能体的高度,为此构建互联互通、类似CUDA开放生态的数据标准体系亟待建立。
【应对与进展】
(1)针对数据稀缺性:主动创造增量:厦门大学洪文晶教授的“具身科学智能”理念参照5级自动驾驶分级创新地提出要打造L5级别具备自主进化能力的智能化AI4S实验室,其核心是构建“AI大脑”与“机器人身体”深度融合的“数据工厂”,这个系统能自主进行“学习-实践”的闭环迭代,主动、低成本地探索未知世界获取增量知识。目前其团队已搭建了面向聚酰亚胺高分子材料的具身智能研发装置,筛选制备出的材料综合指标显著超越进口竞品。北京大学孙育杰教授介绍“多模态跨尺度生物医学成像国家重大科技基础设施” 及在此基础上发起的“数字生命”大科学计划,目的是系统性地生产当前极度稀缺的、能够连接分子-细胞-组织-器官的跨尺度、多模态生命数据。目前其团队的成像设施已实现7天24小时服务并对外开放运行。此外,农科院黄三文院士的“植物星球计划”旨在系统性测定未覆盖物种的全基因组,搭建地球植物基因组的框架。西湖大学郭天南教授的“虚拟酵母计划”通过对基因敲除酵母菌株进行大规模扰动蛋白质组数据生产,为构建酵母的数字虚拟细胞模型提供核心数据支撑。
(2)针对数据质量与标准缺失:顶层设计与实践样板:“国家生物医学成像科学中心”的核心使命之一就是建立一套严格的数据采集、处理和存储标准,确保从该设施产出的数据具备高质量和一致性。同时也明确对标英国Biobank等国家级数据库,强调大规模、标准化、长周期的战略价值。由国家自然科学基金牵头的“免疫力解码”重大专项的经验同样值得借鉴,其将“数据上传”作为重要的考核指标,配备专人负责数据质量与格式规范,并要求专项申请人必须将数据采集和汇交目标、计划、承诺每半年上传并附加单位盖章。
(3)针对数据孤岛与共享壁垒:理念呼吁与平台构建:“车同轨、书同文”的标准和开放生态是打造AI4S基础设施的底层共识,“数字生命”、“人体蛋白质组导航计划”等大科学计划作为跨机构、跨学科的协同攻关天然地就是让各参与方打破数据壁垒、形成合力的抓手。Path Integral公司的祁晓亮教授提出AI科学家智能体平台“Lucien”,旨在使用MCP协议为AI科学家智能体和各种科学工具间提供一个通用的接口,并通过开源的mcp.science平台让数据和工具能够被方便地链接和调用,这是技术层面打破壁垒的创新方案。
#02 人才篇
【挑战】
(1)复合型人才的极度短缺:传统的学科培养体系是分科而治,研讨会共识当前急缺既能深刻理解物理、化学、生命科学等科学问题又能熟练使用AI算法、模型训练与软件工程的复合型人才。
(2)传统科研文化的惯性阻力:传统科研在很大程度上依赖科学家的直觉与经验试错,而AI4S则要求一种更加系统化、工程化、数据驱动的思维方式。从传统科研转向新范式,不仅依赖于先进AI技术还需要科学家思想上的深刻变革,例如将AI纳入或重构自己的科研工作流并将其视为核心的研究伙伴。
【应对与进展】
(1)降低AI使用门槛,赋能领域专家:除选拔并培养跨领域交叉人才外,目前更容易实现的一种路径是利用AI赋能好现有各领域专家,例如将海量的生命科学论文与数据转换为可查询、可计算的知识库或智慧体,能帮助研究者快速理解科学问题。打造低代码、低门槛的AI科学软件(App/Notebook)能显著降低研究者使用AI的门槛,解放其生产力,更专注于科学问题本身。CERN曲慧麟研究员将高能物理中复杂的粒子碰撞事件,转化为AI模型可以处理的点云、图像或序列数据,从而让AI专家可以贡献其在计算机视觉、自然语言处理等领域的先进算法进而再赋能领域专家。
(2)用成功案例转变科研惯性:农科院黄三文院士团队利用基因组大数据分析来设计育种决策,用2倍体替代4倍体,用杂交种子替代块茎繁殖,使育种时间从过去的10-12年缩短到3-5年,播种难度从200公斤/亩的块茎运输到2克/亩的种子播种。中科院等离子体物理研究所肖炳甲研究员在“人造太阳”EAST装置上,利用AI成功实现了对极端复杂的核聚变等离子体的稳定控制。让传统科学家拥抱新范式,这些重大突破就是改变科研惯性最有力的“催化剂”。
#03 工具篇
【挑战】
(1)高端科学仪器的追赶:我国在高端科学仪器相比世界科研强国仍存差距,国产质谱仪存在分辨率与稳定不足等问题,高端质谱仪、电镜等严重依赖进口,且已受到国际出口管制的影响。海外科学仪器等已从自动化阶段到探索智能化阶段,如自动采样、分装、制备,以及能在短时间内产生海量科研数据资源后直接深度融合AI算法实现对数据的快速解析与应用等。而在极端尺度下定制以问题为导向的专用垂域AI4S工具也是拓展AI4S认知边界的基础条件。
(2)自动化验证平台的缺失:厦门大学洪文晶教授分享一个公式:智能研发支出 = 制备仪器通量 × 制备仪器数量 × 时间 × 表征维度 × 数据质量 × 决策质量,以AI模型预测新材料结果或药物分子为例,如果AI模型可高效提出100万种候选结构但验证仍需依赖传统的人工实验,那AI带来的效率提升将会被实验验证的瓶颈完全抵消。此外人工验证还存在成品一致性差、组装效率低、人员易疲劳且成本高等问题。海外正在建设自动化验证实验室,如利物浦大学Andy Cooper实验室应用移动机器人和机械臂加速先进材料的发现,谷歌DeepMind实验室也在构建以具身智能为核心的“设计-验证”闭环。
【应对与进展】
(1)国家顶层设计与战略牵引:国家层面已通过“重大科研仪器研制项目”、“国家重点研发计划”等进行系统性布局,并鼓励采用“揭榜挂帅”、“赛马制”等新型组织模式加速技术突破。中国计量科学研究院方向研究员分享涵盖成像、电镜、质谱、核磁共振等领域的58项高端科学仪器重大需求清单,其中包括10项亟待攻关的关键核心部件,这为我国集中力量办大事和金融投资提供了清晰的“导航地图” 。
(2)构建领域基础模型:多个领域科学家都在积极构建“领域基础模型”,领域基础模型融合了知识/语言模型(文献搜寻、知识问答、优化实验设计等)、符号推理/计算模型(符号推理、解析计算、工具调用等)、数据分析模型(信号识别与筛选、探测器模拟等),能够为该领域的各类下游任务提供强大的能力支撑。在粒子物理领域,CERN曲慧麟研究员展示了他们面向粒子物理的基础模型探索。通过在海量无标签的模拟数据上进行预训练,该模型在仅有少量标注样本的情况下,进行下游任务(如喷射粒子分类)的“微调”,性能显著超越传统工具。在生命科学领域,北京大学杨宁博士尝试借鉴Transformer架构构建单细胞大模型,为理解细胞发育轨迹和疾病机理提供计算框架,未来可应用于药物筛选、细胞疗法、科学发现等场景。
结尾
面对挑战,科学家们给出了应对与努力。那么,这些应对又将把我们引向一个怎样的未来?科学的认知、范式与人才,又将发生怎样更为深刻的、甚至是颠覆性的变革?
在下一篇文章【下篇:未来篇】中,我们将深度探讨这场变革对未来认知、未来范式和未来人才,究竟意味着什么。
页:
[1]