基于深度学习的靶标预测系统及其方法
专利摘要:本发明是一种基于深度学习的靶标预测系统,其特征在于,该系统包括通过深度学习框架tensorflow进行算法的建模、通过使用RDkit、Numpy、Pandas进行数据处理的靶标预测模块,所述靶标预测模块包括靶标训练阶段和靶标预测阶段,所述靶标训练阶段通过对已知分子及其对应的靶标之间的关系的训练生成训练模型,靶标预测阶段通过将新的分子信息输入到训练模型中进行新的分子靶标概率的预测,通过对预测出的靶标概率的分析对比确定分子的靶标,其中,该系统通过原子之间的化学键作用进行拓扑相邻的卷积操作。通过将靶标预测模块采用深度学习框架tensorflow进行算法的建模、使用RDkit、Numpy、Pandas进行数据处理的方式使分子与靶标之间的关系的探索更高效准确,增加了分子靶标预测的准确率。
专利说明:基于深度学习的靶标预测系统及其方法 技术领域 本发明属于分子靶标领域,特别涉及基于深度学习的靶标预测系统及其方法。 背景技术 据估计人类基因中应该有3000-5000个可以作为药物的分子靶标,而当前比较成熟的药靶仅500个左右。因此,分子靶标药物的研究不仅是必须的,而且有很大的研究探索空间。充分利用有效的靶标发现和功能研究验证技术,寻找出重大疾病治疗药物的关键靶分子并分析其对药物疗效和毒副作用的影响,为新药研究和开发提供靶标,并为临床安全用药提供理论依据,有利于保证人们安全有效用药,并且对推动我国药学、基础医学和生物信息学等相关学科的发展,具有重要的科学意义。 分子靶标是以研究疾病发生、发展过程中细胞分子生物学上的差异(包括基因、酶、信号转导等不同特性)为基础,筛选和鉴定与疾病密切相关的蛋白质、核酸、酶、受体等生物分子作为药物作用的靶点,通过研究药物设计和构效关系得到靶向特异性生物分子的先导化合物,通过靶向给药控释系统实现有效靶向给药及个体化治疗。分子靶标新药研究的整个过程由疾病分子靶标筛选鉴定、新药设计、构效关系研究、靶向给药及个体化治疗等阶段组成。随着基因组学、蛋白质组学和结构生物学的飞速发展,疾病分子机制研究的不断深入,以及实验性药物靶标的识别和验证技术的突破,我国在分子靶标新药领域的研究有较大的发展空间。 现有的通过计算机辅助进行反向找靶主要有三种方法:反向分子对接(TargetFishing)、药效团模型搜索(Compound Profiling)及基于配体分子相似性分析(LignadSimilarity Search),但是上述靶标预测方法,运算性能不高,预测的靶标准确率较低,而靶标的准确度是靶标预测最为重要的部分,如预测和筛选错误,将给后续的实验带来巨大量级的资金耗损。 发明内容 为解决上述问题,本发明的目的在于提供一种高效探索分子与靶标之间的关系、靶标预测准确率高的基于深度学习的靶标预测系统及其方法。 本发明的另一个目的在于提供一种不依赖于分子的结构、输入的分子数据简单、成本较低、安全可靠的基于深度学习的靶标预测系统及其方法。 为实现上述目的,本发明的技术方案如下。 本发明是一种基于深度学习的靶标预测系统,其特征在于,该系统包括通过深度学习框架tensorflow进行算法的建模、通过使用RDkit、Numpy、Pandas进行数据处理的靶标预测模块,所述靶标预测模块包括靶标训练阶段和靶标预测阶段,所述靶标训练阶段通过对已知分子及其对应的靶标之间的关系的训练生成训练模型,靶标预测阶段通过将新的分子信息输入到训练模型中进行新的分子靶标概率的预测,通过对预测出的靶标概率的分析对比确定分子的靶标,其中,该系统通过原子之间的化学键作用进行拓扑相邻的卷积操作。通过靶标预测模块的靶标训练阶段实现对已知靶标的分子的分子信息的训练学习获得分子靶标预测的训练模型;靶标预测阶段通过将未知靶标的分子的信息输入该训练模型中,实现未知靶标的分子对应的靶标的预测。通过将靶标预测模块采用深度学习框架tensorflow进行算法的建模、使用RDkit、Numpy、Pandas进行数据处理的方式使分子与靶标之间的关系的探索更高效准确,增加了分子靶标预测的准确率。 进一步地,所述靶标训练阶段和靶标预测阶段均包括分子预处理单元,所述靶标训练阶段还包括靶标训练单元,所述靶标预测阶段还包括靶标预测单元;在靶标训练阶段,所述分子预处理单元执行后,执行靶标训练单元,生成训练模型;在靶标预测阶段,所述分子预处理单元执行后,执行靶标预测单元,预测出分子对应的靶标。所述靶标训练单元对分子预处理单元处理后的已知靶标的分子的分子信息进行模拟训练后,获得分子对应的靶标概率得分的预测的训练模型。所述靶标预测单元对对分子预处理单元处理后的未知靶标的分子的分子信息作为训练模型的输入,预测出该分子对应的靶标概率得分。 进一步地,所述分子预处理单元包括获得已知分子及其对应的靶标的信息,其中所述靶标分子的信息包括靶标分子的指纹、描述符、smiles信息、3D图、分子所包含的原子的基本属性和原子之间的化学键信息。其中已知分子及其对应的靶标信息的获取来源于zinc数据库、pubchem数据库等公开数据库。分子描述符可以分为定量描述符和定性描述符。前者包括基于分子图论、各种理论或实验光谱数据(如紫外光谱)、分子组成(如氢键供体数、化学键计数)、理化性质(如脂水分布系数)描述符、分子场描述符以及分子形状描述符等;定性描述符一般称为分子指纹,即将分子的结构、性质、片断或子结构信息用某种编码来表示,常用的分子指纹包括Daylight fingerprints、MACCS keys,MDl public keys等。采用smiles简化已知分子的线性输入规范,用ASCII字符串明确描述已知的分子结构的字符序列,获取该已知分子的smiles信息。通过获得已知分子及其对应的靶标之间的关系,为靶标训练单元的模拟训练提供学习训练基础。把组成分子的所有原子的基本属性和原子之间的化学键信息作为分子特征输入到改进的CNN网络中学习,充分发挥神经网络强大的自动特征抽取能力。 进一步地,所述靶标训练单元包括对已知分子及其对应的靶标信息进行训练,学习分子与其对应的靶标之间的关系,获得训练模型。通过靶标训练单元实现对已知分子及其对应的靶标信息的学习和训练,从而获得分子对应的靶标概率得分的预测,得到训练模型。 进一步地,所述靶标训练单元还包括验证单元,所述验证单元对训练模型进行验证,获得较佳的训练模型。其中,通过对多组已知靶标的分子的分子信息的学习和训练,实现对训练模型的校验,通过验证单元的设置实现对训练模型的验证,确保能够获得较佳的训练模型,其中,验证单元还包括对靶标训练单元执行过程中参数的调节,进行选择到最优,保证了分子靶标预测的准确性,其中参数包括学习率、卷积层个数和BatchNormalization 参数等。 进一步地,所述靶标训练单元包括卷积神经网络系统,该卷积神经网络系统以分子中的每个原子为中心,以化学键相连接的原子构成的基团展开。其中第一层卷积层计算的是半径为1的较小的基团,第二层是计算半径为2的基团,以此类推,在我们的建立的模型上,一共有4种半径的卷积模块,半径分别是1、2、3、4,每种半径的卷积模块都有3层卷积层。每个卷积模块输出的特征合并后,供后面的全连接层预测概率。改变了传统的CNN网络在空间邻域上进行的卷积操作,根据原子之间的化学键作用进行拓扑相邻的卷积操作。 进一步地,所述靶标预测阶段的分子预处理单元将新的药物分子信息进行处理,靶标预测单元将新的药物分子的信息作为训练模型的输入,以此预测新的药物分子在每种靶标的概率得分。通过将新的分子信息作为训练模型的输入,进而预测该分子对应的靶标的概率得分分布,实现对分子对应的靶标的预测。 进一步地,所述靶标预测阶段还包括靶标筛选单元,所述靶标筛选单元对训练模型预测出的分子对应的靶标概率得分进行排序,实现对分子靶标概率的筛选,从而确定出较准确的分子靶标并导出系统。通过靶标筛选单元实现对训练模型得出的分子靶标概率得分的排序,进而通过对分子靶标概率的筛选实现筛选出较准确的分子的靶标。 本发明是一种基于深度学习的靶标预测方法,其特征在于,该方法的具体操作步骤如下: S1:通过分子预处理单元实现获取已知靶标的分子的信息,已知靶标的分子的信息包括分子的指纹、描述符、smiles信息、3D图、分子所包含的原子的基本属性和原子之间的化学键信息; S2:通过分子预处理单元实现获取已知分子与其对应的靶标之间的关系; S3:通过靶标训练单元实现对已知分子与其对应的靶标之间的关系的训练,生成分子靶标概率预测的训练模型; S4:通过靶标训练单元的验证单元实现对训练模型的验证,用于获取较佳的训练模型; S5:通过靶标预测阶段的分子预处理单元实现将新的分子信息进行处理,靶标预测单元将新的分子信息作为训练模型的输入,以此实现新的分子靶标概率得分的预测; S6:通过靶标预测阶段的靶标筛选单元对训练模型得出的分子靶标概率得分进行排序,实现对分子靶标概率的最优筛选,从而确定出较准确的分子靶标,以此实现分子对应的靶标的预测。 该方法通过分子预处理单元实现已知分子靶标信息的获取,将分子信息及其对应的靶标信息作为靶标训练单元的输入,通过对分子靶标信息的学习和训练,预测分子靶标的概率进而实现对分子靶标的预测,通过靶标筛选单元实现对分子靶标概率的排序,进而实现对分子靶标准确的筛选。 进一步地,所述卷积神经网络系统包括cluster层,以每个原子为节点,以化学键相连作为边,在这个图上做广度优先搜索。cluster层的算法是把每个分子看作是一个无向连通图,以每个原子为节点,以化学键相连作为边,在这个图上做广度优先搜索。半径每增加1,就是以上一个半径中的所有节点为中心,再做一次广度优先搜索,这样就可以求出每个原子指定半径的基团中包含的原子。 综上所述,本发明是一种基于深度学习的靶标预测系统,其特征在于,该系统包括通过深度学习框架tensorflow进行算法的建模、通过使用RDkit、Numpy、Pandas进行数据处理的靶标预测模块,所述靶标预测模块包括靶标训练阶段和靶标预测阶段,所述靶标训练阶段通过对已知分子及其对应的靶标之间的关系的训练生成训练模型,靶标预测阶段通过将新的分子信息输入到训练模型中进行新的分子靶标概率的预测,通过对预测出的靶标概率的分析对比确定分子的靶标,其中,该系统通过原子之间的化学键作用进行拓扑相邻的卷积操作。通过靶标预测模块的靶标训练阶段实现对已知靶标的分子的分子信息的训练学习获得分子靶标预测的训练模型;靶标预测阶段通过将未知靶标的分子的信息输入该训练模型中,实现未知靶标的分子对应的靶标的预测。通过将靶标预测模块采用深度学习框架tensorflow进行算法的建模、使用RDkit、Numpy、Pandas进行数据处理的方式使分子与靶标之间的关系的探索更高效准确,增加了分子靶标预测的准确率。
附图说明 图1是本发明的一种基于深度学习的靶标预测系统的靶标训练阶段的流程图。 图2是本发明的一种基于深度学习的靶标预测系统的靶标预测阶段的流程图。
具体实施方式 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。 为实现上述目的,本发明的技术方案如下。 参照图1-2,本发明是一种基于深度学习的靶标预测系统,其特征在于,该系统包括通过深度学习框架tensorflow进行算法的建模、通过使用RDkit、Numpy、Pandas进行数据处理的靶标预测模块,所述靶标预测模块包括靶标训练阶段和靶标预测阶段,所述靶标训练阶段通过对已知分子及其对应的靶标之间的关系的训练生成训练模型,靶标预测阶段通过将新的分子信息输入到训练模型中进行新的分子靶标概率的预测,通过对预测出的靶标概率的分析对比确定分子的靶标,其中,该系统通过原子之间的化学键作用进行拓扑相邻的卷积操作。通过靶标预测模块的靶标训练阶段实现对已知靶标的分子的分子信息的训练学习获得分子靶标预测的训练模型;靶标预测阶段通过将未知靶标的分子的信息输入该训练模型中,实现未知靶标的分子对应的靶标的预测。通过将靶标预测模块采用深度学习框架tensorflow进行算法的建模、使用RDkit、Numpy、Pandas进行数据处理的方式使分子与靶标之间的关系的探索更高效准确,增加了分子靶标预测的准确率。 在本实施例中,所述靶标训练阶段和靶标预测阶段均包括分子预处理单元,所述靶标训练阶段还包括靶标训练单元,所述靶标预测阶段还包括靶标预测单元;在靶标训练阶段,所述分子预处理单元执行后,执行靶标训练单元,生成训练模型;在靶标预测阶段,所述分子预处理单元执行后,执行靶标预测单元,预测出分子对应的靶标。所述靶标训练单元对分子预处理单元处理后的已知靶标的分子的分子信息进行模拟训练后,获得分子对应的靶标概率得分的预测的训练模型。所述靶标预测单元对对分子预处理单元处理后的未知靶标的分子的分子信息作为训练模型的输入,预测出该分子对应的靶标概率得分。 在本实施例中,所述分子预处理单元包括获得已知分子及其对应的靶标的信息,其中所述靶标分子的信息包括靶标分子的指纹、描述符、smiles信息、3D图、分子所包含的原子的基本属性和原子之间的化学键信息。其中已知分子及其对应的靶标信息的获取来源于zinc数据库、pubchem数据库等公开数据库。分子描述符可以分为定量描述符和定性描述符。前者包括基于分子图论、各种理论或实验光谱数据(如紫外光谱)、分子组成(如氢键供体数、化学键计数)、理化性质(如脂水分布系数)描述符、分子场描述符以及分子形状描述符等;定性描述符一般称为分子指纹,即将分子的结构、性质、片断或子结构信息用某种编码来表示,常用的分子指纹包括Daylight fingerprints、MACCS keys,MDl public keys等。采用smiles简化已知分子的线性输入规范,用ASCII字符串明确描述已知的分子结构的字符序列,获取该已知分子的smiles信息。通过获得已知分子及其对应的靶标之间的关系,为靶标训练单元的模拟训练提供学习训练基础。把组成分子的所有原子的基本属性和原子之间的化学键信息作为分子特征输入到改进的CNN网络中学习,充分发挥神经网络强大的自动特征抽取能力。 在本实施例中,所述靶标训练单元包括对已知分子及其对应的靶标信息进行训练,学习分子与其对应的靶标之间的关系,获得训练模型。通过靶标训练单元实现对已知分子及其对应的靶标信息的学习和训练,从而获得分子对应的靶标概率得分的预测,得到训练模型。 在本实施例中,所述靶标训练单元还包括验证单元,所述验证单元对训练模型进行验证,获得较佳的训练模型。其中,通过对多组已知靶标的分子的分子信息的学习和训练,实现对训练模型的校验,通过验证单元的设置实现对训练模型的验证,确保能够获得较佳的训练模型,其中,验证单元还包括对靶标训练单元执行过程中参数的调节,进行选择到最优,保证了分子靶标预测的准确性,其中参数包括学习率、卷积层个数和BatchNormalization 参数等。 在本实施例中,所述靶标训练单元包括卷积神经网络系统,该卷积神经网络系统以分子中的每个原子为中心,以化学键相连接的原子构成的基团展开。其中第一层卷积层计算的是半径为1的较小的基团,第二层是计算半径为2的基团,以此类推,在我们的建立的模型上,一共有4种半径的卷积模块,半径分别是1、2、3、4,每种半径的卷积模块都有3层卷积层。每个卷积模块输出的特征合并后,供后面的全连接层预测概率。改变了传统的CNN网络在空间邻域上进行的卷积操作,根据原子之间的化学键作用进行拓扑相邻的卷积操作。 在本实施例中,所述靶标预测阶段的分子预处理单元将新的药物分子信息进行处理,靶标预测单元将新的药物分子的信息作为训练模型的输入,以此预测新的药物分子在每种靶标的概率得分。通过将新的分子信息作为训练模型的输入,进而预测该分子对应的靶标的概率得分分布,实现对分子对应的靶标的预测。 在本实施例中,所述靶标预测阶段还包括靶标筛选单元,所述靶标筛选单元对训练模型预测出的分子对应的靶标概率得分进行排序,实现对分子靶标概率的筛选,从而确定出较准确的分子靶标并导出系统。通过靶标筛选单元实现对训练模型得出的分子靶标概率得分的排序,进而通过对分子靶标概率的筛选实现筛选出较准确的分子的靶标。 本发明是一种基于深度学习的靶标预测方法,其特征在于,该方法的具体操作步骤如下: S1:通过分子预处理单元实现获取已知靶标的分子的信息,已知靶标的分子的信息包括分子的指纹、描述符、smiles信息、3D图、分子所包含的原子的基本属性和原子之间的化学键信息; S2:通过分子预处理单元实现获取已知分子与其对应的靶标之间的关系; S3:通过靶标训练单元实现对已知分子与其对应的靶标之间的关系的训练,生成分子靶标概率预测的训练模型; S4:通过靶标训练单元的验证单元实现对训练模型的验证,用于获取较佳的训练模型; S5:通过靶标预测阶段的分子预处理单元实现将新的分子信息进行处理,靶标预测单元将新的分子信息作为训练模型的输入,以此实现新的分子靶标概率得分的预测; S6:通过靶标预测阶段的靶标筛选单元对训练模型得出的分子靶标概率得分进行排序,实现对分子靶标概率的最优筛选,从而确定出较准确的分子靶标,以此实现分子对应的靶标的预测。 该方法通过分子预处理单元实现已知分子信息的获取,将分子信息及其对应的靶标信息作为靶标训练单元的输入,通过对分子靶标信息的学习和训练,预测分子靶标的概率进而实现对分子靶标的预测,通过靶标筛选单元实现对分子靶标概率的排序,进而实现对分子靶标准确的筛选。 在本实施例中,所述卷积神经网络系统包括cluster层,以每个原子为节点,以化学键相连作为边,在这个图上做广度优先搜索。cluster层的算法是把每个分子看作是一个无向连通图,以每个原子为节点,以化学键相连作为边,在这个图上做广度优先搜索。半径每增加1,就是以上一个半径中的所有节点为中心,再做一次广度优先搜索,这样就可以求出每个原子指定半径的基团中包含的原子。 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
权利要求:
1.一种基于深度学习的靶标预测系统,其特征在于,该系统包括通过深度学习框架tensorflow进行算法的建模、通过使用RDkit、Numpy、Pandas进行数据处理的靶标预测模块,所述靶标预测模块包括靶标训练阶段和靶标预测阶段,所述靶标训练阶段通过对已知分子及其对应的靶标之间的关系的训练生成训练模型,靶标预测阶段通过将新的分子信息输入到训练模型中进行新的分子靶标概率的预测,通过对预测出的靶标概率的分析对比确定分子的靶标,其中,该系统通过原子之间的化学键作用进行拓扑相邻的卷积操作。
2.如权利要求1所述的一种基于深度学习的靶标预测系统,其特征在于,所述靶标训练阶段和靶标预测阶段均包括分子预处理单元,所述靶标训练阶段还包括靶标训练单元,所述靶标预测阶段还包括靶标预测单元;在靶标训练阶段,所述分子预处理单元执行后,执行靶标训练单元,生成训练模型;在靶标预测阶段,所述分子预处理单元执行后,执行靶标预测单元,预测出分子对应的靶标。
3.如权利要求2所述的一种基于深度学习的靶标预测系统,其特征在于,所述分子预处理单元包括获得已知分子及其对应的靶标的信息,其中所述靶标分子的信息包括靶标分子的指纹、描述符、smiles信息、3D图、分子所包含的原子的基本属性和原子之间的化学键信息。
4.如权利要求3所述的一种基于深度学习的靶标预测系统,其特征在于,所述靶标训练单元通过对已知分子及其对应的靶标信息进行训练,学习分子与其对应的靶标之间的关系,获得训练模型。
5.如权利要求4所述的一种基于深度学习的靶标预测系统,其特征在于,所述靶标训练单元还包括验证单元,所述验证单元对训练模型进行验证,获得较佳的训练模型。
6.如权利要求1所述的一种基于深度学习的靶标预测系统,其特征在于,所述靶标训练单元包括卷积神经网络系统,该卷积神经网络系统以分子中的每个原子为中心,以化学键相连接的原子构成的基团展开。
7.如权利要求1所述的一种基于深度学习的靶标预测系统,其特征在于,所述靶标预测阶段的分子预处理单元将新的药物分子信息进行处理,靶标预测单元将新的药物分子的信息作为训练模型的输入,以此预测新的药物分子在每种靶标的概率得分。
8.如权利要求1所述的一种基于深度学习的靶标预测系统,其特征在于,所述靶标预测阶段还包括靶标筛选单元,所述靶标筛选单元对训练模型预测出的分子对应的靶标概率得分进行排序,实现对分子靶标概率的筛选,从而确定出较准确的分子靶标并导出系统。
9.一种基于深度学习的靶标预测方法,其特征在于,该方法的具体操作步骤如下:
S1:通过分子预处理单元实现获取已知靶标的分子的信息,已知靶标的分子的信息包括分子的指纹、描述符、smiles信息、3D图、分子所包含的原子的基本属性和原子之间的化学键信息;
S2:通过分子预处理单元实现获取已知分子与其对应的靶标之间的关系;
S3:通过靶标训练单元实现对已知分子与其对应的靶标之间的关系的训练,生成分子靶标概率预测的训练模型;
S4:通过靶标训练单元的验证单元实现对训练模型的验证,用于获取较佳的训练模型;
S5:通过靶标预测阶段的分子预处理单元实现将新的分子信息进行处理,靶标预测单元将新的分子信息作为训练模型的输入,以此实现新的分子靶标概率得分的预测;
S6:通过靶标预测阶段的靶标筛选单元对训练模型得出的分子靶标概率得分进行排序,实现对分子靶标概率的最优筛选,从而确定出较准确的分子靶标,以此实现分子对应的靶标的预测。
10.如权利要求6所述的一种基于深度学习的靶标预测方法,其特征在于,所述卷积神经网络系统,该卷积神经网络系统包括cluster层,以每个原子为节点,以化学键相连作为边,在这个图上做广度优先搜索。
公开号:CN110534153
申请号:CN201910818054.1A
发明人:邓代国 艾海涛 雷曾荣
拥有者:广州费米子科技有限责任公司
申请日:2019-08-30
公开日:2019-12-03
全文下载