作者: Haifan Zhou, Wenjing Zhou, Junfeng Wu*
摘要
随着多药物联用的日益普及,如何准确预测药物之间的相互作用变得愈加重要。我们可以用图表示药物相互作用,图中的节点代表药物,边则代表药物之间存在的相互作用,那么我们将DDI预测的问题转换为链接预测问题,即根据已知的药物节点特征和DDI类型预测未知的DDI类型。本文尝试提出了图距离神经网络(GDNN,Graph Distance Neural Networks)模型对药物相互作用进行预测。GDNN模型首先充分考虑了图中的距离信息,采用靶点法为图中节点生成初始特征。随后,GDNN模型采用改进的消息传递框架,综合考虑图中节点和边的特征,更好地生成各个药物节点嵌入表达。最后,GDNN模型对嵌入表达进行聚合操作并经过MLP处理,生成最终的预测药物相互作用类型。GDNN模型在ogb-ddi数据集上取得了Test Hits@20=0.9037 ± 0.0193的成绩,证明了GDNN模型在预测DDI中的巨大潜力。
关键词:药物相互作用预测;GDNN;靶点法;改进的消息传递框架
1 引言
联合用药是临床常见的治疗方案,对于患有复杂疾病的患者尤为重要。但是这也增加了药物-药物相互作用(DDI)的风险。DDI是指药物之间的药理学的相互作用,其会导致药物疗效的增强或者减弱,进而导致药物的不良反应。每年DDI都导致了大量的患者死亡,同时造成了约1770亿美元的损失[1]。同时随着批准药物数量的增加,药物之间相互作用的可能性也相应增加。因此为了降低风险和成本,准确地预测DDI成为临床上的一项重要且紧急的任务。目前传统的体内和体外实验可以识别DDI,但是由于实验室的限制和高昂的成本而难以进行,因此开发计算的方法以预测DDI尤为重要。

基于ogb-ddi数据集的假设,DDI的预测可以转化为基于蛋白-蛋白相互作用和药物-蛋白相互作用形成的图网络中药物-药物相互作用的节点之间的预测问题。Marinka等人构建了一个预测DDI的GCN架构(Decagon)[2]。Feng等人将GCN和DNN模型组合从DDI网络中提取药物结构特征以预测DDI[3]。在本文中,我们基于图神经网络的框架,将图中的节点之间的距离信息作为节点的初始特征,并综合考虑图中的边信息,以提高DDI预测的准确性。
2 问题描述
给定一个DDI图G={V,E},V表示图中节点的集合,共包含N个节点,节点特征矩阵用X∈RN×D表示。E表示图中边的集合。对于一个给定的药物对xi∈RD,xj∈RD,xi和xj之间的药物相互作用可以采用ei,j来表示,即eij∈{0,1}。上面式子中D代表节点特征的维度,同时eij被用来作为边的特征Y∈{0,1}E。
我们将DDI预测转化为一个链接预测问题。我们假设图中有一些缺失的边YU,即Y={YU,YL}。我们在已知节点特征X和部分已知的DDI链接YL的情况下,目标是预测未知的DDI类型YU。
3 图距离神经网络框架
针对DDI预测问题,我们提出了GDNN框架。GDNN框架主要由三个部分组成(如图1所示),即首先通过靶点法生成节点的初始特征,再经过GDNN的消息传递框架(Encoder部分)生成节点的嵌入表达,最后通过GDNN的链接预测器(Decoder部分)生成两节点之间的关系。

由于ogb-ddi图中并没有节点特征,我们需要为图中节点生成初始化的特征。目前常见的方法是直接通过词嵌入的方法为图中节点随机生成特征,但是上述方法忽略了图中的结构信息。Boling Li等人提出了将图中节点之间的距离作为节点的初始特征可以显著提高DDI预测的准确性[4]。但是计算图中各个节点之间的距离是一个很繁琐的任务,为了简化计算过程,本文采用基于靶点的距离计算方式。我们在图中选择k个节点作为我们的靶点,然后再去计算图中所有节点到这k个节点的距离,生成的距离特征矩阵用X∈RN×k来表示,我们使用距离特征矩阵X作为图中的节点的初始特征。
靶点的选择不同将会导致节点的初始特征不同,我们采用了以下三种靶点选择方式,1)随机从图中不重复地选择k个节点作为靶点,2)从图中选择节点度最小的k个节点,3)从图中选择节点度最大的k个节点。
GDNN框架的详细介绍请参阅论文。
4 计算部分
4.1 数据集
本文使用ogb官方提供的ddi数据集[6]。Ogb-ddi数据集是一个同质,无权且无向的图。每一个节点均代表已获FDA批准或处于实验阶段的药物。每一条边均代表药物对之间的相互作用,可以解释为一种现象,即两种药物一起服用的联合效果与药物相互独立作用的预期效果有很大不同。
4.2 计算设置与评价指标
我们将GDNN模型与GNN,Graphsage,JKNet等baseline模型的效果进行了对比。同时我们设置了消融实验,建立GDNN–模型(即不加入边的特征),以验证边特征的有效性。评价指标我们使用ogb官方所提供的Hits@20指标。
具体网络设计与实现请参阅论文。
4.3 计算结果
具体的计算结果如表1所示,从表1中我们可以发现我们的GDNN模型取得了最好的效果。

5 结论
综上所述,GDNN模型使用靶点法为图中的节点生成初始特征,综合考虑了图中节点和边的特征,更好地生成了各个药物节点的embedding,并降低了算法的复杂度,有效提高了预测准确度,证明了GDNN模型在DDI预测中的巨大潜力。
Reference
[1] K. Giacomini, R. Krauss, D. Roden, M. Eichelbaum, and M. Hayden. When good drugs go bad. Nature, 446:975–977, 2007.
[2] Marinka, Z., Agrawal, M., and Jure, L. (2018). Modeling Polypharmacy Side Effects with Graph Convolutional Networks. Bioinformatics 34, i457–i466. Oxford, England. doi:10.1093/bioinformatics/bty294
[3] Feng, Y. H., Zhang, S. W., and Shi, J. Y. (2020). DPDDI: a Deep Predictor for Drug-Drug Interactions.BMC Bioinformatics 21, 419–515. doi:10.1186/s12859-020-0X
[4] Boling Li ,Yingce Xia, Shufang Xie. Distance-Enhanced Graph Neural Network for Link Prediction.2021.05
[5] Shitao Lu and Jing Yang. Link prediction with structural information.2021.08
[6] David S Wishart, Yannick D Feunang, et al. DrugBank 5.0: a major update to theDrugBank database for 2018. Nucleic Acids Research, 46(D1): D1074–D1082, 2018.
论文全文请见:
关于图机器学习
图结构数据在自然科学和社会科学中无处不在,从电信网络到量子化学。如果我们希望系统能够从这类数据中学习、推理和概括,那么在深度学习架构中构建关系归纳偏置是至关重要的。此外,图可以被视为更简单类型的结构化数据(如图像)的自然概括,因此,它们代表了机器学习下一个突破的自然途径。
近年来,对图表示学习的研究激增,包括深度图嵌入技术、卷积神经网络对图结构数据的归纳,以及受信念传播启发的神经消息传递方法。图神经网络和相关技术进步导致了许多领域的最新成果,包括化学合成、3D视觉、推荐系统、问答和社交网络分析,如今也被广泛应用于医药、医疗领域,包括药物发现与开发。
关于OGB
Open Graph Benchmark (OGB, https://ogb.stanford.edu/)于2019年由斯坦福大学发起并开源,由社区驱动不断迭代更新。这是一组具有挑战性的、真实的基准数据集,用于促进可扩展、鲁棒和可再现的图机器学习(ML)研究。OGB数据集是大规模的,包含多个重要的图机器学习任务,并涵盖了从社会和信息网络到生物网络、分子图、源代码AST和知识图谱等多种领域。OGB有标准化的评估程序和排行榜,以跟进最新结果。

OGB涵盖了三个基本的图机器学习任务类别:预测节点、链接和图的属性。圆壹智慧团队开发的图距离神经网络(GDNN)模型在ogbl-ddi 数据集中排名第四,成绩卓著(该排名榜持续更新),证明了该模型在预测DDI中的巨大潜力。
