「我没有想到在有生之年我们能够走到这一步。」

这是结构生物学领域的一位专家对发表在《Nature》杂志上的研究做出的回应。

7 月 22 日,DeepMind 与欧洲生物信息研究所(EMBL-EBI)合作发布了 AlphaFold DB,并公开了数据集(参见https://alphafold.ebi.ac.uk)。该团队利用 AlphaFold 确定了 98.5% 的人类蛋白质的结构,以及包括大肠杆菌、果蝇、大豆在内 20 种模式生物产生的几乎所有已知蛋白质的结构。

再上一周,一天之内,两大 AI 预测蛋白质结构算法开源,分别登上《Nature》《Science》。DeepMind 公布了 AlphaFold2 的源代码并详细说明了它是如何构建的;来自西雅图华盛顿大学的研究人员公布了受其启发的另一个蛋白质结构预测程序 RoseTTAFold 的细节。

如果只公开预测结构的数据库而不公开数据和方法,那就不能算是一个好消息。但现在,结构生物学家和其他研究人员可以并且已经开始使用 AlphaFold 和 RoseTTAFold 为那些通过实验的方法难以表征的蛋白质获得更准确的结构模型。

一、加速结构预测

自 1953 年发现 DNA 结构以来,预测蛋白质折叠的 3D 形状一直是生物学未解决的「重大挑战」之一。在引入人工智能之前,通过序列预测结构是一个非常耗时的过程,而且几乎不能保证获得准确的结果,仍需要实验验证。

过去,确定一种蛋白质的结构需要几个月或几年的时间。但相比之下,人工智能可以在几分钟到几小时内准确预测蛋白质结构。这开辟了应用的可能性,例如,在分解微塑料等环境污染物的酶工程中。

上周的突破不仅取决于开放数据的共享,还取决于基础科学和技术的进步。

自 1960 年代以来,结构生物学家一直致力于研究理解蛋白质折叠的方法。一种是通过理解可能的力来拼凑蛋白质的结构;另一种尝试使用生物的进化史,通过与密切相关的蛋白质进行比较来预测形状。再有就是从 X 射线晶体衍射到现在的低温电子显微镜这些成像技术的重要作用。

但是,还有一些关键问题有待解决。尽管人工智能擅长产生准确的结果,但目前为止它还没有解释这些结果是如何产生的。要解开关于蛋白质折叠方式的原因,还有很多工作要做。

二、私有还是公开

就重要性而言,一些人正在将最新进展与 20 年前的人类基因组序列初稿进行比较。的确,人类基因组计划和人类蛋白质结构预测目录都为各自的领域配备了一种旨在显著加速发现的工具。

今天的研究团队需要开放数据访问。在向所有人公开数据和方法方面,DeepMind 现在设定了一个基准,这将使该领域的其他公司(例如 Facebook 和微软)更难继续主张专有数据。

那么,未来呢?过去一周,《Nature》杂志采访了该领域的近十几名研究人员。他们的共识是,现在准确预测人工智能应用在生命科学中会产生什么影响还为时过早,但任何的影响都将是变革性的。

尽管结构生物学中的大量新数据使 AI 能够准确预测出结果,但准确预测人工智能将如何改变生物学所需的训练数据我们还没有。对于今天和未来的研究人员来说,还有很多工作要做。

———— END ————

Dots社区现已入驻:

今日头条/扑克财经/见闻见识/雪球/36氪/富途牛牛/老虎社区/大风号/新浪微博/腾讯自选股/财富号/百家号……

追加内容

本文作者可以追加内容哦 !