一种对致癌性进行预测的致癌性预测模型的构建方法



1.本发明涉及一种化合物分析方法,具体涉及一种对致癌性进行预测的致癌性预测模型的构建方法。


背景技术:



2.由于技术的发展,新化合物的合成速度加快,每年诞生的化合物数以万计,传统的评价方法不可能高效地对所有化合物进行评估;且近年来患癌人数急剧上升,目前仍不清楚大多数的癌症是暴露于何种致癌化合物而导致。传统的化合物致癌性评估主要通过实验测试进行,试验周期长且成本昂贵,不确定因素过多,因此迫切需要开发替代方法和工具来评估化合物的致癌性。
3.目前现有技术提出了许多基于化学结构特性预测化合物致癌性的方法,这些方法大致可以分为:专家规则模型、构效关系(sar)模型和定量关系(qsar)模型。尽管上述方法已经达到了合理的预测能力,但它们在区分致癌物质和非致癌物质方面的能力仍然有限,仍有很大的改进空间。由于致癌物的复杂性,现有深度学习模型对致癌性的预测也仍然存在局限性。因此综合分子结构构建致癌性预测模型,提升致癌性预测模型的性能,是当下亟需解决的问题。


技术实现要素:



4.本发明的目的在于克服现有技术的不足,提供一种对致癌性进行预测的致癌性预测模型的构建方法,所述构建方法将三维分子图结构表征和质谱数据特征进行结合,构建处致癌性预测模型,实现对化合物的致癌性进行精准分析。
5.本发明解决上述技术问题的技术方案是:
6.一种对致癌性进行预测的致癌性预测模型的构建方法,包括以下步骤:
7.s1、采集多种化合物的数据,将多种化合物的数据进行筛选,分别筛选出致癌性数据和非致癌性数据,以此构建致癌性预测数据集;
8.s2、通过癌性预测数据集中的分子图结构数据来构建致癌性-图卷积神经网络模型;通过致癌性预测数据集中的质谱数据来构建自编码器模型;
9.s3、对致癌性-图卷积神经网络模型和自编码器模型最终分别输出的特征矩阵进行特征融合,将融合后的特征矩阵进行综合训练,最后输出预测结果;通过对预测结果进行分析,当满足精度要求,得到致癌性综合预测模型。
10.优选的,在步骤s1中,对致癌性数据和非致癌性数据进行筛选后,得到463种化合物数据,其中的致癌性数据有248个,非致癌性数据有215个;将致癌性数据作为正样本,非致癌性数据作为负样本;将获取的463种化合物的名称保存到txt文件中,并且以行的形式隔开每一个化合物的cid号。
11.优选的,在步骤s2中,所述的致癌性-图卷积神经网络的构建步骤为:
12.s211、提取致癌性数据集中每个化合物的cid号,并将其转成sfd文件,以此构建数
据集;
13.s212、将数据集划分为训练集,验证集和测试集,其中,训练集占比80%,验证集占比10%,测试集占比10%;
14.s213、将训练集、验证集、测试集分别输入图卷积神经网络模型中,以此构建致癌性-图卷积神经网络模型。
15.优选的,在步骤s213中,所述图卷积神经网络模型的输入为化合物中的特征矩阵、邻接矩阵和相对位置矩阵,其中,所述的特征矩阵提取了化合物中的原子的51维特征。
16.优选的,所述致癌性-图卷积神经网络包括嵌入模块、特征构造模块、聚合模块和全连接模块,其中,
17.在嵌入模块中,通过rdkit工具包从sdf文件中提取化合物分子的邻接矩阵、相对位置矩阵和特征矩阵;对邻接矩阵进行自连接的归一化处理;将特征矩阵作为标量特征v,嵌入到特征构造模块中;
18.在特征构造模块中,将标量特征v嵌入到第一个卷积层中,并将初始的矢量特征s置为零;在第一个卷积层中将每个节点上的相邻两个标量特征v进行组合,即将标量矢量v进行两两连接,生成一个中间特征,其中,所述的节点为化合物分子中的原子;在第二个卷积层中收集生成的所有中间特征并沿着邻域进行汇总,产生更高级别的特征;通过两个卷积层,并采用邻域信息更新标量特征v和矢量特征s,实现近邻信息的融合;随后采用relu函数将所有标量特征v输出,采用tanh函数将所有矢量特征s输出;
19.在聚合模块中,采用max聚合机制选择最大值的标量特征v作为分子特征;当到矢量特征s的最大值时,使用范数进行比较;采用mean聚合机制对分布在节点上的标量特征v求均值,生成新的标量特征v和矢量特征s;采用sum聚合机制对分布在节点上的标量特征v进行求和;将max聚合机制、mean聚合机制和sum聚合机制分别产生的聚合特征输入到全聚合机制中;所述全聚合机制中的全局聚合层对三种聚合特征进行权重求和,得到全局嵌入,产生的全局嵌入进入全连接模块中;
20.在全连接模块中,产生的全局嵌入穿过第一层全连接层后,得到最终的分子特征,该分子特征穿过第二层全连接层后,生成的分子特征被送到具有sigmoid激活函数的全连接神经网络用于预测;标量特征v被送入两层的全连接神经网络中,而矢量特征s则被送入分层的全连接神经网络中,以抑制线性组合过程中各轴之间的分离。
21.优选的,在步骤s2中,所述自编码器模型采用栈式自编码结构,该自编码器模型由输入层、隐藏层和输出层组成;且所述自编码器模型中采用3个隐藏层的深度自编码器。
22.优选的,在步骤s2中,所述自编码模型的构建方法为:
23.s221、将致癌性数据集中的质谱数据进行小波去噪处理,然后对其进行数据基线校正,提取相应的质谱数据集;
24.s222、对质谱数据集进行预处理;
25.s223、选择栈式自编码器,采用sigmoid函数作为激活函数进行激活;
26.s224、通过3个隐藏层进行特征提取,同时调节隐藏层的节点参数来达到预期的性能,输出特征矩阵z。
27.优选的,在步骤s222中,对质谱数据集的处理包括脏数据清洗和缺失值填补。
28.优选的,在步骤s224中,所述的通过3个隐藏层进行特征提取,包括以下步骤:
29.(1)在初始给定输入x的基础上,第一个自动编码器对第一个隐藏层v进行无监督式的训练,通过重构误差的最小化操作使得输入x与重建后的输出x'的设定值保持不变;
30.(2)将从第一个自动编码器中提取出的隐藏层v作为下一个自动编码器的输入,再以相同的步骤对下一个隐藏层进行训练;
31.(3)循环进行步骤(2),直到所有自动编码器完成初始化任务;
32.(4)将最终训练出的隐藏层的输出提取出来作为全连接层的输入。
33.优选的,在步骤s4中,将致癌性-图卷积神经网络输出的特征矩阵x和自编码器模型输出的特征矩阵z输入第一层全连接层中进行特征融合,通过采用cancate层对特征矩阵x和特征矩阵z进行融合,然后再将融合后的特征矩阵输入第二层全连接层进行综合训练,输出综合分子结构预测模型的预测结果,并通过精准率、召回率和auc-roc三个指标分析致癌性综合预测模型的性能。
34.本发明与现有技术相比具有以下的有益效果:
35.(1)、本发明的对致癌性进行预测的致癌性预测模型的构建方法用于构建致癌性综合预测模型,所述致癌性综合预测模型将三维分子图结构表征和质谱数据特征进行结合,构建处致癌性预测模型,实现对化合物的致癌性进行精准分析。
36.(2)、本发明的对致癌性进行预测的致癌性预测模型的构建方法构建的致癌性综合预测模型可以实现对化合物的致癌性进行精准分析,且精度更高。
附图说明
37.图1为本发明的对致癌性进行预测的致癌性预测模型的构建方法的流程示意图。
38.图2为本发明中的致癌性-图卷积神经网络模型的构建步骤的流程示意图。
39.图3为本发明中的自编码器模型的构建步骤的流程示意图。
具体实施方式
40.下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
41.参见图1-图3,本发明的对致癌性进行预测的致癌性预测模型的构建方法,包括以下步骤:
42.s1、采集多种化合物的数据,将多种化合物的数据进行筛选,分别筛选出致癌性数据和非致癌性数据,以此构建致癌性预测数据集;
43.s2、通过癌性预测数据集中的分子图结构数据来构建致癌性-图卷积神经网络模型;通过致癌性预测数据集中的质谱数据来构建自编码器模型;
44.s3、对致癌性-图卷积神经网络模型和自编码器模型最终分别输出的特征矩阵进行特征融合,将融合后的特征矩阵进行综合训练,最后输出预测结果;通过对预测结果进行分析,当满足精度要求,得到致癌性综合预测模型。
45.其中,在步骤s1中,从权威机构筛选出了463种致癌性和非致癌性数据;对致癌性数据和非致癌性数据进行筛选后,得到463种化合物数据,其中的致癌性数据有248个,非致癌性数据有215个;将致癌性数据作为正样本,非致癌性数据作为负样本;将获取的463种化合物的名称保存到txt文件中,并且以行的形式隔开每一个化合物的cid号。
46.参见图1-图3,在步骤s2中,所述的致癌性-图卷积神经网络的构建步骤为:
47.s211、提取致癌性数据集中每个化合物的cid号,并将其转成sfd文件,以此构建数据集;
48.s212、将数据集划分为训练集,验证集和测试集,其中,训练集占比80%,验证集占比10%,测试集占比10%;
49.s213、将训练集、验证集、测试集分别输入图卷积神经网络模型中,以此构建致癌性-图卷积神经网络模型。
50.参见图1-图3,在步骤s213中,所述图卷积神经网络模型的输入为化合物中的特征矩阵、邻接矩阵和相对位置矩阵,其中,所述的特征矩阵提取了化合物中的原子的51维特征。
51.参见图1-图3,所述致癌性-图卷积神经网络包括嵌入模块、特征构造模块、聚合模块和全连接模块,其中,
52.在嵌入模块中,通过rdkit工具包从sdf文件中提取化合物分子的邻接矩阵、相对位置矩阵和特征矩阵;对邻接矩阵进行自连接的归一化处理,如果没有进行归一化,会改变原来的特征分布;将特征矩阵作为标量特征v,嵌入到特征构造模块中;
53.在特征构造模块中,将标量特征v嵌入到第一个卷积层中,并将初始的矢量特征s置为零;在第一个卷积层中将每个节点上的相邻两个标量特征v进行组合,即将标量矢量v进行两两连接,生成一个中间特征,其中,所述的节点为化合物分子中的原子;在第二个卷积层中收集生成的所有中间特征并沿着邻域进行汇总,产生更高级别的特征;通过两个卷积层,并采用邻域信息更新标量特征v和矢量特征s,实现近邻信息的融合;随后采用relu函数将所有标量特征v输出,采用tanh函数将所有矢量特征s输出;
54.在聚合模块中,采用以下聚合机制:
55.(1)、采用max pooling(即最大池化层)选择最大值的标量特征v作为分子特征;当到矢量特征s的最大值时,使用范数进行比较,即实验中根据皮尔逊相关系数来进行特征选择;皮尔逊相关系数相当于协方差的标准化,皮尔逊相关系数的范围在-1到1之间,当值越接近-1和1时,说明两个变量有明显的线性关系,保留其中一个即可,值越接近0时,表示两变量相关性越弱;
56.(2)、采用mean pooling(即平均池化层)对分布在节点上的标量特征v求均值,生成新的标量特征v和矢量特征s;
57.(3)、采用sum pooling(求和池化层)对分布在节点上的标量特征v进行求和;为了弥补各个聚合机制聚合后产生的信息缺失,通过将上述三种聚合机制拼接起来,形成一个新的混合聚合机制,首先将max pooling、mean pooling和sum pooling产生的聚合特征输入到全聚合机制中;所述全聚合机制中的全局聚合层对三种聚合特征进行权重求和,得到全局嵌入,产生的全局嵌入进入全连接模块中;
58.在全连接模块中,产生的全局嵌入穿过第一层全连接层,并且输出最终分子特征,该分子特征穿过第二层全连接层;生成的分子特征被送到具有sigmoid激活函数的全连接神经网络用于预测;标量特征v被送入两层的全连接神经网络中,而矢量特征s则被送入分层的全连接神经网络中,以抑制线性组合过程中各轴之间的分离。
59.参见图1-图3,在步骤s2中,所述自编码器模型采用栈式自编码结构,该自编码器
模型由输入层、隐藏层和输出层组成;且所述自编码器模型中采用3个隐藏层的深度自编码器。
60.参见图1-图3,在步骤s2中,所述自编码模型的构建方法为:
61.s221、将致癌性数据集中的质谱数据进行小波去噪处理,然后对其进行数据基线校正,提取相应的质谱数据集;
62.s222、对质谱数据集进行预处理;
63.s223、根据构造的数据集及对训练结果的要求,选择栈式自编码器,采用sigmoid函数作为激活函数进行激活;对质谱数据采用栈式自编码器,可在保证可控降维的前提下单独对每一层进行训练,将复杂问题简单化,这有利于加快任务的完成,具有极好的特征提取效果;
64.s224、通过3个隐藏层进行特征提取,同时调节隐藏层的节点参数来达到预期的性能,输出特征矩阵z。
65.参见图1-图3,在步骤s222中,对质谱数据集的处理包括脏数据清洗和缺失值填补。
66.参见图1-图3,在步骤s224中,所述的通过3个隐藏层进行特征提取,包括以下步骤:
67.(1)在初始给定输入x的基础上,第一个自动编码器对第一个隐藏层v进行无监督式的训练,通过重构误差的最小化操作使得输入x与重建后的输出x'的设定值保持不变;
68.(2)将从第一个自动编码器中提取出的隐藏层v作为下一个自动编码器的输入,再以相同的步骤对下一个隐藏层进行训练;
69.(3)循环进行步骤(2),直到所有自动编码器完成初始化任务;
70.(4)将最终训练出的隐藏层的输出(即特征矩阵z)提取出来作为全连接层的输入。
71.参见图1-图3,在步骤s4中,将致癌性-图卷积神经网络输出的特征矩阵x和自编码器模型输出的特征矩阵z输入第一层全连接层中进行特征融合,通过采用cancate层对特征矩阵x和特征矩阵z进行融合,然后再将融合后的特征矩阵输入第二层全连接层进行综合训练,输出综合分子结构预测模型的预测结果,并通过精准率(precision)、召回率(recall)、auc-roc(roc曲线下的面积大小,area under curve)三个指标分析综合分子结构预测模型的性能。
72.上述为本发明较佳的实施方式,但本发明的实施方式并不受上述内容的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

技术特征:


1.一种对致癌性进行预测的致癌性预测模型的构建方法,其特征在于,包括以下步骤:s1、采集多种化合物的数据,将多种化合物的数据进行筛选,分别筛选出致癌性数据和非致癌性数据,以此构建致癌性预测数据集;s2、通过癌性预测数据集中的分子图结构数据来构建致癌性-图卷积神经网络模型;通过致癌性预测数据集中的质谱数据来构建自编码器模型;s3、对致癌性-图卷积神经网络模型和自编码器模型最终分别输出的特征矩阵进行特征融合,将融合后的特征矩阵进行综合训练,最后输出预测结果;通过对预测结果进行分析,当满足精度要求,得到致癌性综合预测模型。2.根据权利要求1所述的对致癌性进行预测的致癌性预测模型的构建方法,其特征在于,在步骤s1中,对致癌性数据和非致癌性数据进行筛选后,得到463种化合物数据,其中的致癌性数据有248个,非致癌性数据有215个;将致癌性数据作为正样本,非致癌性数据作为负样本;将获取的463种化合物的名称保存到txt文件中,并且以行的形式隔开每一个化合物的cid号。3.根据权利要求1所述的对致癌性进行预测的致癌性预测模型的构建方法,其特征在于,在步骤s2中,所述的致癌性-图卷积神经网络的构建步骤为:s211、提取致癌性数据集中每个化合物的cid号,并将其转成sfd文件,以此构建数据集;s212、将数据集划分为训练集,验证集和测试集,其中,训练集占比80%,验证集占比10%,测试集占比10%;s213、将训练集、验证集、测试集分别输入图卷积神经网络模型中,以此构建致癌性-图卷积神经网络模型。4.根据权利要求3所述的对致癌性进行预测的致癌性预测模型的构建方法,其特征在于,在步骤s213中,所述图卷积神经网络模型的输入为化合物中的特征矩阵、邻接矩阵和相对位置矩阵,其中,所述的特征矩阵提取了化合物中的原子的51维特征。5.根据权利要求4所述的对致癌性进行预测的致癌性预测模型的构建方法,其特征在于,所述致癌性-图卷积神经网络包括嵌入模块、特征构造模块、聚合模块和全连接模块,其中,在嵌入模块中,通过rdkit工具包从sdf文件中提取化合物分子的邻接矩阵、相对位置矩阵和特征矩阵;对邻接矩阵进行自连接的归一化处理;将特征矩阵作为标量特征v,嵌入到特征构造模块中;在特征构造模块中,将标量特征v嵌入到第一个卷积层中,并将初始的矢量特征s置为零;在第一个卷积层中将每个节点上的相邻两个标量特征v进行组合,即将标量矢量v进行两两连接,生成一个中间特征,其中,所述的节点为化合物分子中的原子;在第二个卷积层中收集生成的所有中间特征并沿着邻域进行汇总,产生更高级别的特征;通过两个卷积层,并采用邻域信息更新标量特征v和矢量特征s,实现近邻信息的融合;随后采用relu函数将所有标量特征v输出,采用tanh函数将所有矢量特征s输出;在聚合模块中,采用max聚合机制选择最大值的标量特征v作为分子特征;当到矢量特征s的最大值时,使用范数进行比较;采用mean聚合机制对分布在节点上的标量特征v求均值,生成新的标量特征v和矢量特征s;采用sum聚合机制对分布在节点上的标量特征v进
行求和;将max聚合机制、mean聚合机制和sum聚合机制分别产生的聚合特征输入到全聚合机制中;所述全聚合机制中的全局聚合层对三种聚合特征进行权重求和,得到全局嵌入,产生的全局嵌入进入全连接模块中;在全连接模块中,产生的全局嵌入穿过第一层全连接层后,得到最终的分子特征,该分子特征穿过第二层全连接层后,生成的分子特征被送到具有sigmoid激活函数的全连接神经网络用于预测;标量特征v被送入两层的全连接神经网络中,而矢量特征s则被送入分层的全连接神经网络中,以抑制线性组合过程中各轴之间的分离。6.根据权利要求1所述的对致癌性进行预测的致癌性预测模型的构建方法,其特征在于,在步骤s2中,所述自编码器模型采用栈式自编码结构,该自编码器模型由输入层、隐藏层和输出层组成;且所述自编码器模型中采用3个隐藏层的深度自编码器。7.根据权利要求6所述的对致癌性进行预测的致癌性预测模型的构建方法,其特征在于,在步骤s2中,所述自编码模型的构建方法为:s221、将致癌性数据集中的质谱数据进行小波去噪处理,然后对其进行数据基线校正,提取相应的质谱数据集;s222、对质谱数据集进行预处理;s223、选择栈式自编码器,采用sigmoid函数作为激活函数进行激活;s224、通过3个隐藏层进行特征提取,同时调节隐藏层的节点参数来达到预期的性能,输出特征矩阵z。8.根据权利要求7所述的对致癌性进行预测的致癌性预测模型的构建方法,其特征在于,在步骤s222中,对质谱数据集的处理包括脏数据清洗和缺失值填补。9.根据权利要求7所述的对致癌性进行预测的致癌性预测模型的构建方法,其特征在于,在步骤s224中,所述的通过3个隐藏层进行特征提取,包括以下步骤:(1)在初始给定输入x的基础上,第一个自动编码器对第一个隐藏层v进行无监督式的训练,通过重构误差的最小化操作使得输入x与重建后的输出x'的设定值保持不变;(2)将从第一个自动编码器中提取出的隐藏层v作为下一个自动编码器的输入,再以相同的步骤对下一个隐藏层进行训练;(3)循环进行步骤(2),直到所有自动编码器完成初始化任务;(4)将最终训练出的隐藏层的输出提取出来作为全连接层的输入。10.根据权利要求1所述的对致癌性进行预测的致癌性预测模型的构建方法,其特征在于,在步骤s4中,将致癌性-图卷积神经网络输出的特征矩阵x和自编码器模型输出的特征矩阵z输入第一层全连接层中进行特征融合,通过采用cancate层对特征矩阵x和特征矩阵z进行融合,然后再将融合后的特征矩阵输入第二层全连接层进行综合训练,输出综合分子结构预测模型的预测结果,并通过精准率、召回率和auc-roc三个指标分析致癌性综合预测模型的性能。

技术总结


本发明涉及一种对致癌性进行预测的致癌性预测模型的构建方法,包括以下步骤:首先采集多种化合物的数据,将多种化合物的数据进行筛选,分别筛选出致癌性数据和非致癌性数据,以此构建致癌性预测数据集;接着通过癌性预测数据集中的分子图结构数据来构建致癌性-图卷积神经网络模型;通过致癌性预测数据集中的质谱数据来构建自编码器模型;随后对致癌性-图卷积神经网络模型和自编码器模型最终分别输出的特征矩阵进行特征融合,将融合后的特征矩阵进行综合训练,最后输出预测结果;通过对预测结果进行分析,当满足精度要求,得到致癌性综合预测模型;通过得到的致癌性综合预测模型可以对化合物的致癌性进行预测,且预测精度更高。高。高。


技术研发人员:

陈唯 何家峰

受保护的技术使用者:

广东工业大学

技术研发日:

2022.11.09

技术公布日:

2023/1/3

本文发布于:2024-09-21 16:20:05,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/52098.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   致癌性   模型   数据
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议