一种基于注意力机制和深度学习的染质相互作用检测方法及系统



1.本发明涉及一种基于注意力机制和深度学习的染质相互作用检测方法及系统,属于生物信息学技术领域。


背景技术:



2.染质相互作用在基因调控、dna复制、进化和疾病机制等方面有着关键性的作用,对理解三维基因组结构和分析三维染质模式具有巨大的帮助,因此,染质相互作用的检测成为一大热点。在早期染质相互作用检测的研究中,通常使用正交实验如hi-c技术等生物方法进行检测,然而这些技术面临着成本昂贵、费时费力等难题。随后,一些使用dna序列预测染质相互作用的计算方法被提出以解决这些难题。然而,这些计算方法由于数据的高重叠度导致了过拟合问题,因此预测结果的可信度较低,对实际中的应用带来了巨大的不便。
3.当前研究中,一些使用机器学习的方法通过结合序列信息和功能基因组信号来预测染质相互作用。深度学习方法学习样本数据的内在规律和表示层次,是机器学习领域中一个新的研究方向。随着硬件计算能力和大数据的发展,深度学习在生物信息学领域中得到了广泛的应用。目前常用的方法是卷积神经网络(cnn)。cnn通过卷积计算提取输入的不同特征,同时通过堆叠卷积层提取更复杂的特征。此外,自然语言处理的技术在生物信息学领域中得到的巨大的推展,很多研究使用词向量技术将dna序列作为句子,k-mer作为单词来实现特征的提取。因此,本技术通过这些深度学习神经网络以及词向量技术捕获数据特征有效地提升了预测染质相互作用的性能和泛化能力。然而,这些方法的性能和泛化性较差,难以满足我们对预测工作的高精度和高泛化性的要求。因此,实现染质相互作用的高精度和高泛化的预测成为了一个重要研究方向。
4.染质相互作用对于基因转录、调控和表达至关重要,因此检测染质相互作用对三维基因组结构的研究非常关键。先前研究提出的多种计算方法预测染质相互作用。然而,现有方法未考虑数据不平衡的问题,导致预测染质相互作用的性能和泛化能力较差,难以满足现实中多种场景的需要。


技术实现要素:



5.针对现有技术的不足,本发明提供了一种基于注意力机制和深度学习的染质相互作用检测方法及系统;
6.在现实中,染质相互作用的预测存在数据集不平衡、预测精度低和泛化性能差的问题。数据集不平衡的问题导致模型训练的难度大,同时一些评估指标可能会掩盖模型的问题;预测精度低的问题导致预测结果的可信度较低,难以进行下一步分析;泛化性能差的问题导致对不同细胞系的染质相互作用的预测能力差异较大,因此,针对不同细胞系的染质相互作用需要构建不同的预测模型。
7.本发明使用dna序列数据和功能基因组数据,构建了一个基于注意力机制深度学习方法预测染质相互作用的高精度高泛化性模型,并通过在不平衡数据集和平衡数据集的多种指标评估模型从而有效地解决了现有技术的中存在的问题。
8.本发明通过使用词向量技术改进序列信息的特征提取,然后使用卷积神经网络(cnn),注意力机制以及全连接网络构建一个有效鲁棒的预测模型来实现对多种细胞系的染质相互作用的预测。最后,本研究提出的预测方法与先前研究中的预测方法进行了比较。分析和比较结果表明,本技术提出的预测模型预测染质相互作用的性能和稳定性是最佳的,并且在预测不同细胞系的染质相互作用方面具有非常强的泛化能力。
9.术语解释:
10.word2vec模型,是一用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。
11.本发明的技术方案为:
12.一种基于注意力机制和深度学习的染质相互作用检测方法,包括:
13.构建染质相互作用检测模型;
14.训练染质相互作用检测模型;
15.将待检测的dna序列输入训练好的染质相互作用检测模型,进行染质相互作用检测,得到检测结果。
16.根据本发明优选的,染质相互作用检测模型包括三个输入端口、卷积层、最大池化层、dropout层、批标准化层、注意力层和全连接层;
17.卷积层提取数据的非线性特征;最大池化层加强染质相互作用检测模型的鲁棒性并避免过拟合;dropout层通过临时随机丢弃神经元实现避免过拟合;批标准化层加速染质相互作用检测模型训练,同时避免梯度消失;注意力层用于提取序列信息中最重要的部分;全连接层进行分类并输出结果;
18.染质相互作用检测模型的两个输入input1和input2为两个区域的序列信息,将序列信息通过预训练得到词向量特征;将两个区域的词向量特征分别经过卷积层、最大池化层和dropout层后,水平拼接在一起;通过批标准化层加速染质相互作用检测模型训练,同时避免梯度消失;使用注意力层提取其中更重要的信息;将其结果与包括功能基因组数据在内的输入input3拼接,使用全连接层进行分类,根据预测概率值得到预测结果,如果预测概率值大于0.5,则预测为有相互作用,否则,预测为没有相互作用。
19.进一步优选的,功能基因组数据包括基因组特征(genomics features)、保守性分数(conservation scores)、ccctc结合位点基序(ctcf motif)、距离(distances)。
20.根据本发明优选的,训练染质相互作用检测模型,包括:
21.将数据集中的染质对按照染体号分割为训练集和测试集,并进行十折交叉验证;每一轮训练中,使用训练集训练染质相互作用检测模型,使用测试集检测染质相互作用检测模型的效果;染质相互作用检测模型在训练过程中,通过计算focal loss损失函数的损失值进行梯度更新,实现染质相互作用检测模型的训练和参数更新。
22.进一步优选的,染质相互作用检测模型训练过程中,卷积层的参数为:32个核,
核大小为50;最大池化层的参数为:池化大小为25,步长为25;dropout层的参数为0.5,即每次临时随机丢弃50%的神经元;focal loss损失函数的参数为:权重参数0.75,调节因子为3。
23.根据本发明优选的,将待检测的dna序列输入训练好的染质相互作用检测模型,进行染质相互作用检测,得到检测结果,包括:
24.首先,使用词向量技术处理待检测的两个区域的dna序列,得到两个词向量特征;
25.然后,将两个词向量特征分别进行卷积计算、最大池化操作和dropout层后进行拼接;并使用批标准化层进行处理;
26.再次,使用注意力机制提取序列信息中更重要的信息,赋予其更高的权重;
27.最后,将输出结果与包括功能基因组数据在内的输入拼接,再经过全连接层进行分类,根据预测概率值判断预测结果。
28.进一步优选的,使用词向量技术处理待检测的dna序列,包括:使用数据集中所有dna序列构建语料库,每条dna序列视为一个句子,每四个连续的碱基划分为一个单词;基于此语料库和划分出的单词,训练word2vec模型提取dna序列的特征,将两个区域的dna序列转化为词向量特征。
29.进一步优选的,经过全连接层进行分类,根据预测概率值判断预测结果,包括:通过分别使用relu和sigmoid作为激活函数的全连接层将输出映射为最终的预测概率,如果预测概率超过0.5,则认为预测结果为染质相互作用,否则认为预测结果为非染质相互作用。
30.根据本发明优选的,染质相互作用检测模型的损失函数为focal loss,该损失函数fl(p
t
)如式(1)所示:
31.fl(p
t
)=-α
t
(1-p
t
)
γ
logp
t
ꢀꢀ
(1)
32.式(1)中,α
t
是权重,用于解决不平衡数据的问题,γ是焦点参数,用于控制难分类样本的权重,p
t
如式(2)所示:
[0033][0034]
式(2)中,p是预测值,y是真实标签。
[0035]
一种基于注意力机制和深度学习的染质相互作用检测系统,包括:
[0036]
染质相互作用检测模型构建模块,被配置为:构建染质相互作用检测模型;
[0037]
染质相互作用检测模型训练模块,被配置为:训练染质相互作用检测模型;
[0038]
检测模块,被配置为:将待检测的dna序列输入训练好的染质相互作用检测模型,进行染质相互作用检测,得到检测结果。
[0039]
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现基于注意力机制和深度学习的染质相互作用检测方法的步骤。
[0040]
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现基于注意力机制和深度学习的染质相互作用检测方法的步骤。
[0041]
本发明的有益效果为:
[0042]
1、本发明提出了一种基于注意力机制深度学习方法预测染质相互作用的方法,
该方法可以通过提取dna序列的词向量特征并组合功能基因组特征,然后使用构建的深度学习模型预测染质相互作用。本发明提出的预测模型可以使用dna序列数据和功能基因组数据通过计算方法实现染质相互作用的预测而无需费时费力且成本高昂的生物实验。
[0043]
2、本发明提出的预测方法在预测不同细胞系的染质相互作用的方面具有非常强的泛化能力,因此可以仅构建一个模型实现对多种细胞系的染质相互作用的预测而无需针对不同细胞系的染质相互作用构建多个预测模型,极大地节约了时间成本并提高了实用性。
[0044]
3、本发明可以应用于生物医学上对染质相互作用的检测,从而进一步研究相应的三维基因组结构,在节约大量的金钱和时间成本的同时更好地分析疾病、疾病和预防疾病。
附图说明
[0045]
图1(a)为四种模型在gm12878细胞系上的性能对比示意图;
[0046]
图1(b)为四种模型在imr90细胞系上的性能对比示意图;
[0047]
图1(c)为四种模型在k562细胞系上的性能对比示意图;
[0048]
图1(d)为四种模型在hela-s3细胞系上的性能对比示意图;
[0049]
图2(a)为ert模型跨细胞系验证的结果示意图;
[0050]
图2(b)为xgboost模型跨细胞系验证的结果示意图;
[0051]
图2(c)为sgdc模型跨细胞系验证的结果示意图;
[0052]
图2(d)为ichrom-deep模型跨细胞系验证的结果示意图;
[0053]
图3为本发明构建的染质相互作用检测模型的结构示意图。
具体实施方式
[0054]
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
[0055]
实施例1
[0056]
一种基于注意力机制和深度学习的染质相互作用检测方法,包括:
[0057]
构建染质相互作用检测模型;
[0058]
训练染质相互作用检测模型;
[0059]
将待检测的dna序列输入训练好的染质相互作用检测模型,进行染质相互作用检测,得到检测结果。
[0060]
实施例2
[0061]
根据实施例1所述的一种基于注意力机制和深度学习的染质相互作用检测方法,其区别在于:
[0062]
如图3所示,染质相互作用检测模型包括三个输入端口、卷积层、最大池化层、dropout层、批标准化层、注意力层和全连接层;
[0063]
卷积层提取数据的非线性特征;最大池化层加强染质相互作用检测模型的鲁棒性并避免过拟合;dropout层通过临时随机丢弃神经元实现避免过拟合;批标准化层加速染质相互作用检测模型训练,同时避免梯度消失;注意力层用于提取序列信息中最重要的部分;全连接层进行分类并输出结果;
[0064]
染质相互作用检测模型的两个输入input1和input2为两个区域的序列信息,将序列信息通过预训练得到词向量特征;将两个区域的词向量特征分别经过卷积层、最大池化层和dropout层后,水平拼接在一起;通过批标准化层加速染质相互作用检测模型训练,同时避免梯度消失;使用注意力层提取其中更重要的信息;将其结果与包括功能基因组数据在内的输入input3拼接,使用全连接层进行分类,根据预测概率值得到预测结果,如果预测概率值大于0.5,则预测为有相互作用,否则,预测为没有相互作用。功能基因组数据包括基因组特征(genomics features)、保守性分数(conservation scores)、ccctc结合位点基序(ctcf motif)、距离(distances)。
[0065]
本发明通过改进染质相互作用检测模型的结构,从模型层面进一步提升了预测精度和泛化性能,更全面地满足实际应用的要求。
[0066]
训练染质相互作用检测模型,包括:
[0067]
数据集来自于先前发表的研究。将数据集中的染质对按照染体号分割为训练集和测试集,并进行十折交叉验证;即,十折交叉验证中的每一轮,训练集和测试集都来自完全不同的染体号。每一轮训练中,使用训练集训练染质相互作用检测模型,使用测试集检测染质相互作用检测模型的效果;染质相互作用检测模型在训练过程中,通过计算focal loss损失函数的损失值进行梯度更新,实现染质相互作用检测模型的训练和参数更新。
[0068]
染质相互作用检测模型训练过程中,卷积层的参数为:32个核,核大小为50;最大池化层的参数为:池化大小为25,步长为25;dropout层的参数为0.5,即每次临时随机丢弃50%的神经元,有效避免过拟合;focal loss损失函数的参数为:权重参数0.75,调节因子为3。
[0069]
将待检测的dna序列输入训练好的染质相互作用检测模型,进行染质相互作用检测,得到检测结果,包括:
[0070]
首先,使用词向量技术处理待检测的两个区域的dna序列,得到两个词向量特征;包括:dna序列的长度为5000bp,因此维度较高,其中会包含比较多的噪音,这会极大地影响模型预测染质相互作用的精度。本发明使用数据集中所有dna序列构建语料库,每条dna序列视为一个句子,每四个连续的碱基划分为一个单词;基于此语料库和划分出的单词,训练word2vec模型提取dna序列的特征,将两个区域的dna序列转化为词向量特征。
[0071]
然后,将两个词向量特征分别进行卷积计算、最大池化操作和dropout层后进行拼接;提高模型的鲁棒性,避免过拟合。并使用批标准化层进行处理;旨在加快训练速度,避免梯度消失。再次,使用注意力机制提取序列信息中更重要的信息,赋予其更高的权重;完成进一步的过滤。
[0072]
最后,将输出结果与包括功能基因组数据在内的输入拼接,再经过全连接层进行分类,根据预测概率值判断预测结果。包括:通过分别使用relu和sigmoid作为激活函数的全连接层将输出映射为最终的预测概率,如果预测概率超过0.5,则认为预测结果为染质相互作用,否则认为预测结果为非染质相互作用。本发明通过改进模型的结构,从模型层面进一步提升了预测精度和泛化性能,更全面地满足实际应用的要求。
[0073]
染质相互作用检测模型的损失函数为focal loss,该损失函数可以有效平衡正负样本对损失的贡献,可以让模型全面的学习数据的特点。该损失函数fl(p
t
)如式(1)所
示:
[0074]
fl(p
t
)=-α
t
(1-p
t
)
γ
logp
t
ꢀꢀ
(1)
[0075]
式(1)中,α
t
是权重,用于解决不平衡数据的问题,γ是焦点参数,用于控制难分类样本的权重,p
t
如式(2)所示:
[0076][0077]
式(2)中,p是预测值,y是真实标签。
[0078]
作为对比,评估本发明的方法和已有的方法在预测相同细胞系中染质相互作用的性能,如图1(a)、图1(b)、图1(c)、图1(d)所示,图1(a)为四种模型在gm12878细胞系上的性能对比示意图;图1(b)为四种模型在imr90细胞系上的性能对比示意图;图1(c)为四种模型在k562细胞系上的性能对比示意图;图1(d)为四种模型在hela-s3细胞系上的性能对比示意图;其中,从左至右依次为先前研究的ert、xgboost、sgdc与本发明提出的染质相互作用检测模型ichrom-deep。横坐标依次是平衡准确率(bacc)、准确率(acc)、马修斯相关系数(mcc)、f1分数(f1 score);从图1(a)、图1(b)、图1(c)、图1(d)中可以看出,本发明提出的染质相互作用检测模型ichrom-deep与现有模型相比有着更卓越的性能。本发明提出的染质相互作用检测模型在性能和稳定性上均显著高于先前研究的方法。
[0079]
随后,进一步对比了本发明检测方法与先前研究的方法的跨细胞系预测的性能(f1分数),如图2(a)、图2(b)、图2(c)、图2(d)所示。图2(a)为ert模型跨细胞系验证的结果示意图;图2(b)为xgboost模型跨细胞系验证的结果示意图;图2(c)为sgdc模型跨细胞系验证的结果示意图;图2(d)为ichrom-deep模型跨细胞系验证的结果示意图;其中,纵坐标是训练集数据来源的细胞系,横坐标是测试集数据来源的细胞系;例如,横坐标是gm12878,纵坐标是k562的意思是,k562细胞系的数据训练模型,预测gm12878细胞系的f1分数指标。从图2(a)、图2(b)、图2(c)、图2(d)中可以看出,本发明检测方法与先前的方法相比具有明显的优势,无论使用哪个细胞系的数据集训练,模型都有着更加优秀的效果。从图2(a)、图2(b)、图2(c)、图2(d)可以直观的看出,代表本发明检测方法的热图颜明显更深,这表明了本发明检测方法在预测精度和泛化性能上都有明显的改善,更加符合实际应用的需要。
[0080]
实施例3
[0081]
一种基于注意力机制和深度学习的染质相互作用检测系统,包括:
[0082]
染质相互作用检测模型构建模块,被配置为:构建染质相互作用检测模型;
[0083]
染质相互作用检测模型训练模块,被配置为:训练染质相互作用检测模型;
[0084]
检测模块,被配置为:将待检测的dna序列输入训练好的染质相互作用检测模型,进行染质相互作用检测,得到检测结果。
[0085]
实施例4
[0086]
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现实施例1或2所述基于注意力机制和深度学习的染质相互作用检测方法的步骤。
[0087]
实施例5
[0088]
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1或2所述基于注意力机制和深度学习的染质相互作用检测方法的步骤。

技术特征:


1.一种基于注意力机制和深度学习的染质相互作用检测方法,其特征在于,包括:构建染质相互作用检测模型;训练染质相互作用检测模型;将待检测的dna序列输入训练好的染质相互作用检测模型,进行染质相互作用检测,得到检测结果。2.根据权利要求1所述的一种基于注意力机制和深度学习的染质相互作用检测方法,其特征在于,染质相互作用检测模型包括三个输入端口、卷积层、最大池化层、dropout层、批标准化层、注意力层和全连接层;卷积层提取数据的非线性特征;最大池化层加强染质相互作用检测模型的鲁棒性并避免过拟合;dropout层通过临时随机丢弃神经元实现避免过拟合;批标准化层加速染质相互作用检测模型训练,同时避免梯度消失;注意力层用于提取序列信息中最重要的部分;全连接层进行分类并输出结果;染质相互作用检测模型的两个输入input1和input2为两个区域的序列信息,将序列信息通过预训练得到词向量特征;将两个区域的词向量特征分别经过卷积层、最大池化层和dropout层后,水平拼接在一起;通过批标准化层加速染质相互作用检测模型训练,同时避免梯度消失;使用注意力层提取其中更重要的信息;将其结果与包括功能基因组数据在内的输入input3拼接,使用全连接层进行分类,根据预测概率值得到预测结果,如果预测概率值大于0.5,则预测为有相互作用,否则,预测为没有相互作用。3.根据权利要求1所述的一种基于注意力机制和深度学习的染质相互作用检测方法,其特征在于,训练染质相互作用检测模型,包括:将数据集中的染质对按照染体号分割为训练集和测试集,并进行十折交叉验证;每一轮训练中,使用训练集训练染质相互作用检测模型,使用测试集检测染质相互作用检测模型的效果;染质相互作用检测模型在训练过程中,通过计算focal loss损失函数的损失值进行梯度更新,实现染质相互作用检测模型的训练和参数更新。4.根据权利要求1所述的一种基于注意力机制和深度学习的染质相互作用检测方法,其特征在于,将待检测的dna序列输入训练好的染质相互作用检测模型,进行染质相互作用检测,得到检测结果,包括:首先,使用词向量技术处理待检测的两个区域的dna序列,得到两个词向量特征;然后,将两个词向量特征分别进行卷积计算、最大池化操作和dropout层后进行拼接;并使用批标准化层进行处理;再次,使用注意力机制提取序列信息中更重要的信息,赋予其更高的权重;最后,将输出结果与包括功能基因组数据在内的输入拼接,再经过全连接层进行分类,根据预测概率值判断预测结果。5.根据权利要求4所述的一种基于注意力机制和深度学习的染质相互作用检测方法,其特征在于,使用词向量技术处理待检测的dna序列,包括:使用数据集中所有dna序列构建语料库,每条dna序列视为一个句子,每四个连续的碱基划分为一个单词;基于此语料库和划分出的单词,训练word2vec模型提取dna序列的特征,将两个区域的dna序列转化为词向量特征。6.根据权利要求4所述的一种基于注意力机制和深度学习的染质相互作用检测方
法,其特征在于,经过全连接层进行分类,根据预测概率值判断预测结果,包括:通过分别使用relu和sigmoid作为激活函数的全连接层将输出映射为最终的预测概率,如果预测概率超过0.5,则认为预测结果为染质相互作用,否则认为预测结果为非染质相互作用。7.根据权利要求1-6任一所述的一种基于注意力机制和深度学习的染质相互作用检测方法,其特征在于,染质相互作用检测模型的损失函数为focal loss,该损失函数fl(p
t
)如式(1)所示:fl(p
t
)=-α
t
(1-p
t
)
γ
log p
t
(1)式(1)中,α
t
是权重,用于解决不平衡数据的问题,γ是焦点参数,用于控制难分类样本的权重,p
t
如式(2)所示:式(2)中,p是预测值,y是真实标签。8.一种基于注意力机制和深度学习的染质相互作用检测系统,其特征在于,包括:染质相互作用检测模型构建模块,被配置为:构建染质相互作用检测模型;染质相互作用检测模型训练模块,被配置为:训练染质相互作用检测模型;检测模块,被配置为:将待检测的dna序列输入训练好的染质相互作用检测模型,进行染质相互作用检测,得到检测结果。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7任一所述的基于注意力机制和深度学习的染质相互作用检测方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一所述的基于注意力机制和深度学习的染质相互作用检测方法的步骤。

技术总结


本发明涉及一种基于注意力机制和深度学习的染质相互作用检测方法及系统,包括:构建染质相互作用检测模型;训练染质相互作用检测模型;将待检测的DNA序列输入训练好的染质相互作用检测模型,进行染质相互作用检测,得到检测结果。本发明可以使用DNA序列数据和功能基因组数据通过计算方法实现染质相互作用的预测而无需费时费力且成本高昂的生物实验。此外,本发明预测方法在预测不同细胞系的染质相互作用的方面具有非常强的泛化能力,可以仅构建一个模型实现对多种细胞系的染质相互作用的预测而无需针对不同细胞系的染质相互作用构建多个预测模型,极大地节约了时间成本并提高了实用性。节约了时间成本并提高了实用性。节约了时间成本并提高了实用性。


技术研发人员:

吴昊 张鹏宇

受保护的技术使用者:

山东大学

技术研发日:

2022.08.03

技术公布日:

2022/11/25

本文发布于:2024-09-20 13:35:00,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/13422.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议