Survey | 基于图卷积网络的药物发现方法

本期介绍2019年6月发表在Briefings in Bioinformatics的综述,该综述由康奈尔大学等机构的研究人员撰写,系统总结了GCN及其在药物发现方面的最新进展,重点是与药物相关的应用;在图形卷积原理部分提供图卷积的理论支持和GCN的详细架构及其在药物发现中的应用并讨论了当前方法之外的挑战和可能性。

简介



药物开发是一个昂贵且耗时的过程,其需要测试数千种化合物以找出安全有效的药物。现代药物开发旨在利用药物开发的机器学习工具来加速中间步骤并因此降低成本。化合物分子通过一系列渐进的试验进行过滤,这些试验确定了它们在后期阶段的性质、有效性和毒性。机器学习倾向于越来越多地用于更好地预测早期阶段的分子特性,可以显著减少后期过程失败的负荷,节省大量资源和时间。

目前广泛采用QSAR / QSPR模型,机器学习在药物开发中的应用包括但不限于以下:生物活性或物理化学预测、预测药物-蛋白质和药物-药物对的相互作用、从头分子设计产生具有理想药理特性的分子结构、合成可及性预测、预测合成反应的产物。由于传统机器学习方法只能处理固定大小的输入,大多数早期药物发现都使用了特征工程,即生成和使用特定问题的分子描述符。通常,一组特定问题的分子描述符用作任务中的特征。常用的描述符包括:

(1)分子指纹,通过一系列代表特定子结构存在的二进制数字编码分子结构;(2)源自量子化学、物理化学和微分拓扑的描述符,由统计学家和化学家处理;

(3)SMILES字符串,独特地表征分子的结构并将其表示为线符号。给定预定义的预测变量,然后通过机器学习算法构建和学习分类或预测模型。

近年来,越来越多的大型化学数据库可用于药物研发。因此,在使用深度神经网络应用于药物开发方面已经出现了新的尝试。深度学习的优势在于它能够学习输入特征与大规模数据输出决策之间的复杂关系。它在药物发现和分子信息学中的应用仍处于起步阶段,但已经显示出巨大的潜力。与传统的机器学习方法相比,几种常用的深层架构已经用于与药物相关的工作中并且取得了实质性的改进。然而,由于以下原因,深度模型仍然存在局限性。首先,大多数当前的深度模型仍然基于人工制作的特征或预定义的描述符,从而防止结构信息直接从原始输入中学习。其次,现有架构不太适合像分子这样的结构化数据。在这些体系结构的特征提取过程中,既未考虑也未充分使用内部结构信息。因此,更适合的体系结构对于进一步提高药物发现中深度学习的潜力至关重要。

结构化数据,例如图像已被卷积神经网络(CNN)成功地处理,这是一种深度神经网络的特殊结构。CNN揭示了图像相关任务中的最新性能,因为它可以通过卷积运算符自动从绘图图像中提取任务相关的特征。对于由原子和化学键组成的药物和小分子有不同的类型结构,即图形,对于它们其中每个原子是节点,每个化学键是边缘。一个简单的尝试是对分子图类似地适应卷积过程。然而,与图像不同,图形具有不规则的形状和大小;节点上没有空间顺序,其邻居也与位置有关。因此,常规网格状结构上的传统卷积不能直接应用于图形。实际上,现实世界中的各种结构数据通常形成为图形而不是图像,这意味着开发处理不规则结构的方法非常重要且迫切需要。

报道中已经努力对非欧几里德结构化数据上的卷积算子进行推广,从而产生所谓的图卷积网络(GCN)。GCN已被确立为与药物相关任务的最先进方法,其方式是:

(1)通过考虑数据结构提取特征;

(2)能够从原始输入而不是从手工制作的特征中自动提取特征这可能会导致由专家的偏见引起的重要信息。目前正在出现的GCN遵循两个主流,可以概括为空间GCN,其通过对图中所有相邻节点的所有特征向量求和来直接在空间域中形成卷积;另一种被称为光谱GCN,根据谱图理论,它定义了图谱域中的卷积。最近的工作还表明,谱卷积可以表征为空间卷积的特殊情况。但是,由于理论基础不同,仍然将它们视为以下各节中的单独卷积运算。在两个域中都定义了卷积,生成GCN利用卷积过程来编码隐藏的表示和生成分子图。

图卷积的原理

处理图形或网络的数据形式存在许多重要的实际问题,如社交网络、知识图形、蛋白质相互作用网络和分子图形等。然而,将深度学习应用于这些图形数据是非常重要的,因为它具有独特地图特征。人们非常关注神经网络模型对这种结构化图形数据的概括。过去的几年中,许多论文重新讨论推广神经网络以处理任意结构化图形的问题。下面的小节中给出了图的表示和图卷的两种方式,即空间卷积和谱卷积。空间卷积GCN是可区分的消息传递模式,其在局部图形邻域上操作到任意图形。对于社交网络,知识图和分子图等图形,它比谱卷积更受欢迎。谱卷积GCN的思想是利用光谱理论在拓扑图上实现卷积运算,通常用于处理数据,如图像和视频。

图定义

图(graph)是一种数据格式,它可以用于表示社交网络、通信网络、蛋白分子网络等,图中的节点表示网络中的个体,连边表示个体之间的连接关系。许多机器学习任务例如社团发现、链路预测等都需要用到图结构数据,因此图卷积神经网络的出现为这些问题的解决提供了新的思路。



空间卷积
早期尝试推广结构化数据的判别嵌入中,Dai等人提出了structure2vec,一种用于嵌入图结构化数据的潜变量模型,在图形模型中使用近似推理算法。推理算法的解决方案意味着一个传播方程,其中节点的表示是邻域边缘和来自邻居消息的函数。后来大部分GCN都建立在这个概念之上,并进行了广泛的修改,称为空间卷积。

空间卷积旨在直接在顶点域中构造卷积。关键思想是通过聚合来自其相邻节点的信息来更新某个节点的表示。空间卷积与Weisfeiler-Lehman算法一致,通常用于测试两个图是否是同构,其中节点标签由相邻节点的有序标签集重复地增强。这种传播的基本机制是首先将邻域信息视为图子结构,然后通过将不同的子结构递归地投影到不同的特征空间中,通过可微函数对这种子结构进行建模。邻居和中心节点之间的信息也称为消息。消息传递到中心节点的方式产生表征网络体系结构的不同传播规则。

 谱卷积


GCN在药物发现中的


GCN在计算药物开发和发现中不同项目的开源代码:

3.1 定量构效关系(QSAR)/ 定量结构-性质关系(QSPR);

3.2 相互作用预测:药物-靶标相互作用、蛋白-蛋白相互作用和药物-药物相互作用;

3.3 合成预测

3.4 全新分子设计

药物发现和分子生物信息学数据库

分子特性和活性

PubChem

MUV (Maximum Unbiased Validation)

ChEMBL

ZINC

NCI

Tox21、ToxCast and ClinTox

FreeSolv

相互作用数据库

SIDER (Side Effect Resource)

OFFSIDES (Off-label Side Effect)

STITCH (Search Tool for Interacting Chemicals)

DrugBank

TTD (Therapeutic Target Database)

DBD5 (Docking Benchmark Database)

综合数据库

USPTO:包含化学品反应物反应信息的数据库。

综合基准数据库

MoleculeNet

Decagon

结果展望

GCN被描述为对结构化数据建模施加关系归纳偏差。GCN的出现及其在分子生物信息学等领域的成功应用描绘了结合深度学习和结构化方法的强大功能,这些方法对输入和模型施加了严格的约束。从更广泛的意义上讲,GCN适用于任何可以表示为图形的数据结构,因此在各种实际应用中具有重要意义。

药物发现领域中深度学习能够在相对短的时间内大规模预测化学性质和活性,自动化并加速药物发现过程。与传统方法相比,图卷积网络的引入通过考虑内在分子结构提供了更准确的预测。此外,当与其他机制组合时,图形卷积网络产生生物可解释的结果。尽管图形卷积网络最近取得了成功,但仍然存在挑战,以便充分释放图形卷积网络在药物发现方面的潜力。

数据库挑战和机遇

深度模型需要大量数据才能学习输入和目标之间的复杂关系。虽然大型数据库正在变得可用,但由于以下原因仍然存在不足。首先,对于某些分子特性可用数据被限制或扩展为不同的小数据集。除了收集更多数据外,更好地集成不同数据源的统一平台对于交叉引用和获取更多数据也是必不可少的。其次,现有的数据库主要是阳性的样本。当前的计算方法要么设计新的目标,要么手动生成负样本以面对限制,而识别负样本实际上是困难的。因此,官方策划的阴性样本对于使用机器学习方法进行更准确的预测非常重要。第三,可以将更多详细信息添加到数据库中。当药物与另一种药物相互作用时,效果可以是协同或拮抗,而实际上只记录拮抗作用。事实上,药物协同相互作用效应是有益的,因此它可以为患者护理中的药物组合提供重要指导。

方法论的挑战和机遇

化合物分子,尤其是蛋白质是3D形状的实体,其中3D空间中的折叠结构极大地影响它们的功能。当前图卷积主要在平面2D图形上操作,其忽略第三维空间中的结构信息。已经有一些尝试在3D结构上开发卷积算法并且将图形卷积网络扩展到3D结构肯定是值得探索的方向。另一方面,高阶结构在二维图形上的聚焦和探索较少,而实际上可能提供额外的信息。例如,在疾病-蛋白质网络分析中,作者发现疾病途径不对应于单个连接良好的组分,而更高阶的网络结构为疾病途径发现提供了额外的信息。

现有图卷积对规则图形进行操作,而对于某些关系可以形成超图形。例如,不同的药物可以共享相同的ADR、靶标或指示,其可以转换成超图。如何在超图上定义适当的卷积以提取有用信息尚未在文献中进行研究。

网络设计的挑战和机遇

能做出的一个改进是结合两个场景并构建端到端框架,利用低级结构信息和全局网络结构信息。对于第二种情况,通常在交互网络中最多呈现两个实体,而实际上,药物发现涉及两个以上的实体,并且另外的实体有助于提供附加信息。例如,在更大的网络中实体可能是药物,靶标、疾病甚至是ADR。然而,文献中没有充分考虑具有两种以上模态的图形卷积形式多模网络。一个可能的原因是尽管图卷积网络适用于可以表示为图形的任何数据,但是图形表示对于现有数据并不总是明确的。用于药物发现的多模型网络的情况下,具有三种或更多种类型的实体通常更复杂,因此设计适当的图以便应用卷积框架是至关重要的。

可解释性挑战和机遇

由于深度神经网络的复杂性,它总是受到缺乏可解释性的批评。然而,生物信息学和健康相关领域中,在评估计算模型和更好地理解潜在机制时,可解释性非常重要。因此,设计允许解释或可视化复杂关系的微妙架构既是GCN应用在药物发现中的挑战,也是机遇。以前的研究使用注意机制或节点对评分成功地显示了药物和蛋白质实体(DTI和PPI)之间的相互作用复合物。需要其他机制来进一步提高学习模型的可解释性。

参考资料

Sun M, Zhao S, Gilvary C, et al. Graph convolutional networks for computational drug development and discovery[J]. Briefings in bioinformatics, 2019.

极验
极验

极验是全球顶尖的交互安全技术服务商,于2012年在武汉成立。全球首创 “行为式验证技术” ,利用生物特征与人工智能技术解决交互安全问题,为企业抵御恶意攻击防止资产损失提供一站式解决方案。

入门 图卷积网络 机器学习 量子计算 预测器
1 1