AI能为科学研究做什么( 二 )


虽然在未来的一段时期内,人们还需要继续对AlphaFold给出的预测数据进行验证,但可以说,困扰了人们半个多世纪的“蛋白质折叠问题”基本上已经得到了解决 。
AI在科学研究中的应用
毫无疑问,AlphaFold破解“蛋白质折叠问题”的成功为生物学的发展作出了巨大的贡献 。但这个事件还有一个更为重要的意义,即证明了AI可以在科学研究领域起到至关重要,甚至是决定性的作用 。由此,“人工智能驱动的科学研究”(AIforscience,有时也简称AI4S)成为了AI研究中的显学 。
科学的发展是一个不断猜想、不断检验的过程 。在科学研究当中,研究者需要先提出假设,然后根据这个假设去构造实验、搜集数据,并通过实验来对假设进行检验 。在这个过程中,研究者需要进行大量的计算、模拟和证明 。而在几乎每一个步骤当中,AI都有很大的用武之地 。
(1)研究问题的提出
提出一个好的问题是做出一个好研究的第一步,只有提出的研究问题是重要的,后续的研究才可能有意义 。传统上,科学问题主要有两个来源:一种是对现象以及数据的观察来提出某些猜想,比如,天文学上著名的开普勒三定律,就是由开普勒在整理天文学家第谷留下的大量数据之后提出,然后再通过理论研究加以确立的 。第二种则是对既有文献的梳理,即通过阅读既有的研究成果,看看前人的研究还有哪些地方留有不足,然后以此为突破点提出自己的问题 。在使用了AI这个工具后,用以上述两种方式寻找问题的研究者都可以大幅改善自己的效率 。
先看通过观察提问 。在过去,通过观察来提问对研究者的直觉要求是非常高的 。以开普勒三定律为例,其中的第一定律(椭圆定律),即“行星绕太阳运行的轨道是椭圆,并且太阳在这个椭圆的一个焦点上”是相对直观的,通过对记录数据的观察基本就可以提出这个假设 。但第二定律(面积定律),即“行星和太阳的连线在相等的时间间隔内扫过相等的面积”就不那么直观了,即使是十分仔细的人也需要在灵感的启发之下才可能发现这个规律 。至于第三定律(调和定律),即“行星绕太阳一周的恒星时间(T)的平方与它们轨道长半轴(a)的立方成正比”则更是一个非常不直观的现象,只有非常天才的研究者才有可能提出这样的假说 。
而应用了AI之后,人们在占有了充分的观测数据之后,就可以相对容易地提出相关的研究问题 。比如,如果人们有了行星运行的大量数据,并且猜想行星绕太阳一周的时间可能和其轨道椭圆的某条轴的长度存在着某种关系,那么他就可以让AI去尝试建立这些变量之间的函数关系 。通过这样的方法,开普勒第三定律就可能比较容易地被提出来 。
再看通过阅读文献来提问 。过去,从事科学研究的人相对较少,研究的数量也相对较少,因此一个研究者只要肯下功夫,就至少可以把自己所从事的领域的相关文献都予以掌握 。然而,随着科学的发展,从事科研的人数不断增加,各种科研成果也不断地涌现,一个科研人员要想完整地了解自己所在研究领域的进展已变得越来越困难,更遑论去了解其他领域的动态来给自己的研究提供启发了 。
在应用了AI工具后,以上的问题可以在很大程度上得到缓解 。比如,现在的研究者可以让ChatGPT等AI大模型来为自己整理已有的文献,并写成摘要 。这样,他们就可以大幅减少搜索和阅读文献所花费的精力,可以以更小的成本了解现有研究的进展,并在此基础上提出新的研究问题 。
(2)数据的搜集
在提出了相关的研究问题之后,研究人员就需要设计实验,并搜集相关的数据,为进一步的研究做准备 。在这个过程中,AI的应用潜力也是十分广阔的 。
这种作用首先体现在数据的选择上 。在实验当中,并不是所有的数据都是可用的 。很多数据可能是受到干扰后产生的,如果不剔除这些数据,后续的研究结果就可能受到严重的干扰 。现在在很多实验中,深度学习已经成为了这项工作的主要承担者 。
在搜集了数据之后,对数据进行标注也是一项艰巨的工作 。例如,在生物学当中,为新分子进行功能和结构标注对于后续的研究来说是非常重要的,但要进行这一工作则并不容易 。虽然新一代测序技术不断涌现,但只有不到1%的已测序蛋白质得到了生物学功能的标注 。目前,为了能够提高数据标注的效率,研究者们正在尝试让AI学习手动标注的结果,从而训练出代理模型(surrogatemodels)来帮助自己对新的数据进行标签 。从现有的结果看,这种方式确实可以比较有效地改进标注效率 。


推荐阅读