广告
广告
  • 12:00 AM
  • POV

科学家如何向著名的AI传授化学反应

一位化学家解释了他如何获得Alphafold计划来解决蛋白质折叠问题。

科学家如何向著名的AI传授化学反应
[图片:Christoph Burgstedt/Science图书馆/Getty Images;马修·施瓦茨(Mathew Schwartz)/Unsplash]

人工智能通过允许研究人员分析大量现代科学仪器生成的数据来改变科学的方式。它可以在一百万个黑屋的信息中找到一根针头,并使用深度学习,它可以从数据本身中学习。AI正在加速进步狩猎基因,,,,药品,,,,药物设计有机化合物的创造

广告
广告

深度学习使用算法,通常是对大量数据培训的神经网络,以从新数据中提取信息。它与传统计算及其分步说明大不相同。相反,它从数据中学习。深度学习远不及传统的计算机编程,留下重要问题 - 系统学到了什么,它知道什么?

作为一个化学教授我喜欢设计至少有一个难题的测试,该测试可以扩展学生的知识,以确定他们是否可以结合不同的想法并综合新的想法和概念。我们已经为AI倡导者Alphafold的海报孩子设计了一个问题,该问题已解决了蛋白质折叠问题

蛋白质折叠

蛋白质存在于所有生物体中。它们为细胞提供结构,催化反应,运输小分子,消化食物,做更多的作用。它们由氨基酸的长链组成,例如弦上的珠子。但是,要使蛋白质在细胞中完成作业,它必须扭曲并弯曲成一个复杂的三维结构,这是一种称为蛋白质折叠的过程。错误折叠的蛋白质会导致疾病。

广告
广告

在1972年的化学诺贝尔接受演讲中,克里斯蒂安·安芬森假设应该有可能根据其构建块的序列计算蛋白质的三维结构,氨基酸。

正如本文中字母的顺序和间距赋予其感官和信息一样,氨基酸的顺序决定了蛋白质的身份和形状,从而导致其功能。

由于氨基酸构建块的固有灵活性,典型蛋白质可以采用估计的10到300种不同形式的功率。这是一个巨大的数字,比宇宙中的原子数。然而,在一个毫秒内,生物体中的每种蛋白质都会折叠成自己的特异性形状,这是构成蛋白质的所有化学键的能量最低的排列。在通常在蛋白质中发现的数百种氨基酸中,只会改变一个氨基酸,它可能折叠且不再起作用。

广告

Alphafold

50年来,计算机科学家一直试图解决蛋白质折叠问题,几乎没有成功。然后在2016年深态,Google父母字母的AI子公司,启动了其Alphafold程序。它使用了蛋白质数据库作为其训练集,其中包含超过150,000种蛋白质的实验确定的结构。

在不到五年的时间内Alphafold有蛋白质折叠问题节拍- 至少是其中最有用的部分,即从其氨基酸序列确定蛋白质结构。Alphafold不能解释蛋白质如何如此准确,准确地折叠。这是AI的重大胜利,因为它不仅具有巨大的科学声望,而且还是一项重大的科学进步,可能会影响每个人的生活。

今天,感谢类似的程序Alphafold2Rosettafold,像我这样的研究人员可以从一两个小时内构成蛋白质(无需成本)的氨基酸序列来确定蛋白质的三维结构。在AlphaFold2之前,我们必须结晶蛋白质并使用X射线晶体学这一过程花费了几个月,每个结构花费了数万美元。

广告

我们现在也可以访问Alphafold蛋白质结构数据库,在人类,小鼠和其他20多种物种中发现的几乎所有蛋白质的3D结构都沉积了3D结构。迄今为止,他们已经解决了超过一百万个结构,并计划仅在今年仅增加1亿个结构。蛋白质的知识飙升。所有已知蛋白质的一半的结构可能会在2022年底之前记录,其中许多与新有用功能相关的新独特结构。

像化学家一样思考

Alphafold2并非旨在预测蛋白质如何相互作用,但它已经能够建模单个蛋白质如何结合到形成由多种蛋白质组成的大型复合单元。对于Alphafold,我们有一个具有挑战性的问题 - 它的结构训练集教会了一些化学反应吗?是否可以判断氨基酸是否会彼此反应 - 罕见而重要的发生?

我是一名对此感兴趣的计算化学家荧光蛋白。这些是在水母和珊瑚等数百种海洋生物中发现的蛋白质。他们的光芒可以使用照亮研究疾病

广告

有578个荧光蛋白蛋白质数据库,其中10个被“破碎”,不荧光。蛋白质很少攻击自己,这是一个称为自催化后翻译后修饰的过程,很难预测哪种蛋白质会与自己反应,哪些蛋白质不会反应。

只有具有大量荧光蛋白知识的化学家才能使用氨基酸序列找到具有正确的氨基酸序列的荧光蛋白,以经历使其荧光的化学转化。当我们呈现Alphafold2时,没有44种荧光蛋白的序列,这些蛋白质不在蛋白质数据库中时,它折叠了固定荧光蛋白与破碎的蛋白质不同

结果使我们震惊:AlphaFold2学会了一些化学反应。它已经弄清楚荧光蛋白中哪些氨基酸会产生使它们发光的化学作用。我们怀疑蛋白质数据库培训集和多个序列比对使Alphafold2能够像化学家一样“思考”,并寻找相互反应的氨基酸以使蛋白质荧光。

从训练组中学习一些化学的折叠程序也具有更广泛的影响。通过提出正确的问题,还可以从其他深度学习算法中获得什么?面部识别算法可以找到疾病的隐藏标记吗?旨在预测消费者支出模式的算法是否还可以发现轻微盗窃或欺骗的倾向?最重要的是,这种能力和类似的能力飞跃在其他AI系统中 - 不可避免?

马克·齐默(Marc Zimmer)是康涅狄格学院化学教授。

本文从对话在创意共享许可下。阅读来源文章

广告
广告
广告