一种基于样本-任务关系图的元学习分子属性预测方法



1.本发明属于分子属性预测领域,具体涉及一种基于样本-任务关系图的元学习分子属性预测方法。


背景技术:



2.深度学习方法需要利用大量的带标签数据进行训练,然而对数据打标签的代价是昂贵的,尤其在分子性质预测任务中,分子的性质需要在实验室中进行实验测定,这一过程不仅耗费时间,同时也会耗费金钱成本,带标签样本少、对数据进行标注的问题限制了深度学习在实际场景中的引用。因此,如何能够使得深度学习模型在带标签样本数量较少的情况下获得较好的性能是一个非常重要的问题,元学习方法的提出就是为了解决带标签数据稀少的小样本问题。
3.小样本分子性质预测的问题与广泛研究的小样本图片分类问题不同,通常来讲,在图片分类时,一张图片只有一个标签,然而,对于分子来说,同一个分子同时具备不同的属性,即同时具备多个属性标签,例如与不同蛋白的结合程度、吸收性、毒性、溶解性等。分子的一些属性在实验室中易测得,有些属性在实验室中测得的代价较高,因此,可以利用分子易测得的分子性质推测难以测得的分子性质。传统的小样本学习方法在图片分类任务上取得了较好的效果,但在应用于小样本分子属性预测时具有明显的缺点:在预测目标属性时无法考虑分子同时具有的其他属性。
4.公布号为cn112164428a的专利申请公开了一种基于深度学习的药物小分子性质预测方法,该方法基于构建好的训练样本采用监督学习的方式来构建用于药物小分子性质的模型,该过程需要更多的带标签的样本数据,但是在实际应用中,样本数据的标签难以测得,这样该方法并不适用。
5.公布号为cn113990408 a的专利申请公开了一种基于化学元素知识图谱的分子图对比学习方法,该方法通过构建的正负样本对的对比学习来构建分子表示,但是仍然需要分子性质标签来优化非线性分类器,基于该分子表示和优化非线性分类器可以实现分子性质预测。但是在实际应用中,样本数据的标签难以测得,这样该方法并不适用。


技术实现要素:



6.鉴于上述,本发明的是提供一种基于样本-任务关系图的元学习分子属性预测方法,通过构建样本-任务关系图,在预测分子的目标属性时考虑分子同时具备的其他已知属性,提升元学习分子属性预测的准确性。
7.为实现以上发明目的,本发明提供的一种基于样本-任务关系图的元学习分子属性预测方法,包括以下步骤:
8.步骤1,根据分子样本及对应的任务建立样本-任务关系图,其中,以分子样本和任务均作为图中的节点,分子样本与任务对应的任务标签作为节点之间边的属性;
9.步骤2,构建包含图表示模型和分类器的预测模型,利用图表示模型提取输入样
本-任务关系图中分子样本的节点表示和任务的节点表示,利用分类器对分子样本的节点表示和任务的节点表示的拼接结果进行任务标签预测,以输出标签预测概率;
10.步骤3,基于lstm构建辅助任务选择器,针对已知目标任务,利用辅助任务选择器采样已知目标任务的辅助任务;
11.步骤4,基于lstm构建目标任务选择器,利用辅助任务并采用目标任务选择器采用同一批次内的采样目标任务;
12.步骤5,基于同一采样目标任务同时采样额外分子样本以构建两组样本-任务关系图,形成正样本对,基于同一批次内不同采样目标任务采样额外分子样本以构建不同两组样本-任务关系图,形成负样本对,通过最大化正样本对之间的一致性和负样本对之间的一致性来构建对比损失;
13.步骤6,基于对比损失以及根据标签预测概率构建的分类损失来优化辅助任务选择器、目标任务选择器以及预测模型的参数;
14.步骤7,利用参数优化的辅助任务选择器和预测模型进行分子属性的预测。
15.与现有技术相比,本发明具有的有益效果至少包括:
16.基于构建的样本-任务关系图显示地建立样本与任务属性之间的关系,该样本-任务关系图是目前率先利用样本与任务之间的图结构指导元学习分子属性预测的方法,设计的辅助任务选择器能够顾针对不同的已知目标任务选择辅助任务,以便更好地利用辅助任务增强预测模型对目标任务的预测能力。设计的目标任务选择器能够选择预测模型训练时同一批次内的采样目标任务,作为对比损失函数的负样本挖掘技术。针对采样目标任务的对比损失函数,以便预测模型能够更好地区分不同采样目标任务的同时最大化同一采样目标任务的一致性。
附图说明
17.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
18.图1为本发明实施例提供的基于样本-任务关系图的元学习分子属性预测方法的流程示意图。
19.图2为本发明实施例提供的样本-任务关系图构建示意图。
具体实施方式
20.为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
21.图1为本发明实施例提供的基于样本-任务关系图的元学习分子属性预测方法的流程示意图。如图1所示,实施例提供的基于样本-任务关系图的元学习分子属性预测方法,包括以下步骤:
22.步骤1,根据分子样本及对应的任务建立样本-任务关系图。
23.实施例中,在构建样本-任务关系图时,以分子样本和任务均作为图中的节点,分子样本与任务对应的任务标签作为节点之间边的属性,这样将分子样本与不同的任务用图的拓扑结构连接起来。
24.实施例中,分子样本是指各种生物分子或者化学分子,该些分子样本对应各种属性,包括吸收性、毒性、溶解性以及与蛋白质的结合程度等,每类属性的分类对应一类任务。
25.步骤2,构建包含图表示模型和分类器的预测模型,并利用预测模型进行输入样本-任务关系图中分子样本相对于任务的标签预测概率。
26.实施例中,样本-任务关系图被输入至图表示模型之前,需要经过节点的初始化,其中,分子样本的节点表示初始化为分子样本的初级向量,该初始向量通过分子表示模型对分子样本的表示学习得到,任务的节点表示初始化为随机向量,然后利用图表示模型提取输入样本-任务关系图中分子样本的节点表示和任务的节点表示,最后,利用分类器对分子样本的节点表示和任务的节点表示的拼接结果进行任务标签预测,以输出标签预测概率。
27.实施例中,图表示模型和分子表示模型均为可插拔的基于图神经网络构建的图编码模型,其中,图神经网络包括gcn、gin、graphsage、mpnn等。分子表示模型优选为基于gin构建的图编码模型,图表示模型优选为基于graphsage构建的图编码模型。实施例中分类器优选为mlp,即利用mlp进行分子样本相对于任务的任务标签预测。
28.步骤3,基于lstm构建辅助任务选择器,针对已知目标任务,利用辅助任务选择器采样已知目标任务的辅助任务。
29.实施例中,辅助任务选择器以lstm为基础构建,用于为已知目标任务从候选辅助任务集中采用辅助任务,其中,已知目标任务从样本-任务关系图中随机采样得到,候选辅助任务集为样本-任务关系图中除已知目任务外的其他任务构成。
30.实施例中,利用辅助任务选择器采样已知目标任务的辅助任务,包括:针对辅助任务选择器,输入数据包括2部分:(a1)已知目标任务的向量表示与候选辅助任务的向量表示之间的第一表示相似程度,优选地,该第一表示相似程度通过计算得到,其中,分别是已知目标任务和候选辅助任务的向量表示,该向量表示随机初始化得到,sim1(
·
)表示相似度计算方式,优选为余弦相似度计算方式。(a2)分子样本在已知目标任务与候选辅助任务上的标签相似程度,优选地,该标签相似程度通过dist(y
t
,ya)计算得到,其中,y
t
,ya分别是分子样本相对于已知目标任务与候选辅助任务的任务标签向量,dist(
·
)表示任务标签向量之间距离的计算方式,优选为欧氏距离计算方式。
31.将以上2部分输入数据输入到辅助任务选择器,经计算输出候选辅助任务的采样概率,依据采样概率从候选辅助任务中采样辅助任务。
32.步骤4,基于lstm构建目标任务选择器,利用辅助任务并采用目标任务选择器采用同一批次内的采样目标任务。
33.实施例中,目标任务选择器以lstm为基础构建,用于采样在训练阶段同一批次内的采样目标任务,其中,该采样目标任务来自于辅助任务,即通过辅助任务选择器采样得到的辅助任务作为下一轮采样目标任务的候选集合。
34.实施例中,利用辅助任务并采用目标任务选择器采用同一批次内的采样目标任
务,包括:针对目标任务选择器,输入数据包括3部分:(b1)预测模型针对分子样本在已知目标任务上的预测损失值优选地,该预测损失值为预测模型对分子样本针对已知目标任务的标签预测概率与任务标签真值之间的交叉熵值。(b2)预测模型针对分子样本在辅助任务上的预测损失值优选地,该预测损失值为预测模型对分子样本针对辅助任务的标签预测概率与任务标签真值之间的交叉熵值。(b3)已知目标任务的向量表示与辅助任务的向量表示之间的第二表示相似程度,优选地,该第二表示相似程度通过计算得到,其中,分别是已知目标任务和辅助任务的向量表示,该向量表示为图表示模型输出的节点表示,l表示图表示模型图的层数,sim2(
·
)表示相似度计算方式,优选为余弦相似度计算方式。
35.以上3部分输入数据输入至目标任务选择器,经计算输出采样目标任务的采样概率,依据采样概率从辅助任务中采样下一个辅助任务作为采样目标任务。该过程经过多轮进行以得到同一批次内的多个采样目标任务。
36.步骤5,基于采样目标任务构建正样本对和负样本对,并通过最大化正样本对之间的一致性和负样本对之间的一致性来构建对比损失。
37.实施例中,在同一批次内的所有采样目标任务,基于同一采样目标任务同时采样额外两组分子样本以构建两组样本-任务关系图,形成正样本对。基于同一批次内不同采样目标任务采样额外分子样本以构建不同两组样本-任务关系图,形成负样本对,需要说明的是,在构建负样本对时,不限定采样的额外分子样本是否相同。在获得正样本对和负样本对之后,通过最大化正样本对之间的一致性和负样本对之间的一致性来构建对比损失该表对比损失示为:
[0038][0039]
其中,b是批次大小,分别表示同一采样目标任务t在正样本对中两组样本-任务关系图上的节点表示,表示不同采样目标任务t

在负样本对中一组样本-任务关系图上的节点表示,τ是温度参数,sim()为相似度计算方式,优选为余弦相似度。
[0040]
步骤6,基于对比损失以及根据标签预测概率构建的分类损失来优化辅助任务选择器、目标任务选择器以及预测模型的参数。
[0041]
实施例中,构建的分类损失为标签预测概率与任务标签真值的交叉熵损失,利用分类损失与对比损失之和,并采用梯度下降算法优化预测模型的参数。其中交叉熵损失表示为:
[0042][0043]
其中,y
i,t
表示第i个分子样本针对第t个任务的任务标签真值,表示第i个分子
样本针对第t个任务的标签预测概率,表示为:
[0044][0045]
其中,σ是sigmoid激活函数,mlp(
·
)表示mlp分类器,分别表示第i个分子样本与第t个任务经过图表示模型输出的节点表示。
[0046]
实施例中,辅助任务选择器和目标任务选择器采用强化学习的学习策略,包括:
[0047]
针对辅助任务选择器,采用负的分类损失作为回报来优化辅助任务选择器的模型参数,表示为:
[0048][0049]
其中,φ1表示辅助任务选择器的模型参数,γ1表示学习率,p(ξ)表示辅助任务的采样概率,表示分类损失;
[0050]
针对目标任务选择器,采用对比损失作为回报来优化目标任务选择器的模型参数,表示为:
[0051][0052]
其中,φ2表示目标任务选择器的模型参数,γ2表示学习率,p(η)表示采样目标任务的采样概率,表示对比损失,箭头

表示更新。
[0053]
步骤7,利用参数优化的辅助任务选择器和预测模型进行分子属性的预测。
[0054]
实施例中,利用参数优化的辅助任务选择器和预测模型进行分子属性的预测,包括:
[0055]
(a)基于参数优化的辅助任务选择器采样已知目标任务的辅助任务,具体选择采样过程参见步骤3,此处不再赘述。
[0056]
(b)基于已知目标任务、辅助任务以及分子样本构建新样本-任务关系图。
[0057]
如图2所示,依据分子样本、已知目标任务、辅助任务、分子样本在已知目标任务和辅助任务上的任务标签构建型样本-任务关系图。将已知目标任务、辅助任务与分子样本作为新样本-任务关系图中的节点,分子样本在任务上的任务标签作为节点之间连边的属性。
[0058]
(c)利用参数优化的预测模型对型样本-任务关系图进行预测,以得到分子样本在已知目标任务和辅助任务上的标签预测概率,实现分子属性的预测。
[0059]
利用参数优化的预测模型对新样本-任务关系图进行预测时,利用图表示模型提取输入新样本-任务关系图中分子样本的节点表示、已知目标任务的节点表示、辅助任务的节点表示,然后利用分类器对输入的两类节点表示预测分子样本在已知目标任务和辅助任务上的标签预测概率。
[0060]
实施例中,进行分子属性预测时,还包括:在经过基于已知目标任务、辅助任务以及分子样本构建样本-任务关系图后,利用构建的新样本-任务关系图对参数优化的预测模型再调优,再调优采用的损失函数为分类损失然后利用再调优的预测模型对新样本-任务关系图进行预测,以得到分子样本在已知目标任务和辅助任务上的标签预测概率,实现分子属性的预测。
[0061]
实施例提供的基于样本-任务关系图的元学习分子属性预测方法,在构建样本-任
务关系图的基础上,通过引入对比学习损失降低训练时的偏差,提升了元学习分子属性预测的准确性。
[0062]
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

技术特征:


1.一种基于样本-任务关系图的元学习分子属性预测方法,其特征在于,包括以下步骤:步骤1,根据分子样本及对应的任务建立样本-任务关系图,其中,以分子样本和任务均作为图中的节点,分子样本与任务对应的任务标签作为节点之间边的属性;步骤2,构建包含图表示模型和分类器的预测模型,利用图表示模型提取输入样本-任务关系图中分子样本的节点表示和任务的节点表示,利用分类器对分子样本的节点表示和任务的节点表示的拼接结果进行任务标签预测,以输出标签预测概率;步骤3,基于lstm构建辅助任务选择器,针对已知目标任务,利用辅助任务选择器采样已知目标任务的辅助任务;步骤4,基于lstm构建目标任务选择器,利用辅助任务并采用目标任务选择器采用同一批次内的采样目标任务;步骤5,基于同一采样目标任务同时采样额外分子样本以构建两组样本-任务关系图,形成正样本对,基于同一批次内不同采样目标任务采样额外分子样本以构建不同两组样本-任务关系图,形成负样本对,通过最大化正样本对之间的一致性和负样本对之间的一致性来构建对比损失;步骤6,基于对比损失以及根据标签预测概率构建的分类损失来优化辅助任务选择器、目标任务选择器以及预测模型的参数;步骤7,利用参数优化的辅助任务选择器和预测模型进行分子属性的预测。2.根据权利要求1所述的基于样本-任务关系图的元学习分子属性预测方法,其特征在于,所述样本-任务关系图被输入至图表示模型之前,需要经过节点的初始化,其中,分子样本的节点表示初始化为分子样本的初级向量,该初始向量通过分子表示模型对分子样本的表示学习得到,任务的节点表示初始化为随机向量;所述图表示模型和分子表示模型均为可插拔的基于图神经网络构建的图编码模型,其中,图神经网络包括gcn、gin、graphsage、mpnn。3.根据权利要求1所述的基于样本-任务关系图的元学习分子属性预测方法,其特征在于,利用辅助任务选择器采样已知目标任务的辅助任务,包括:以已知目标任务的向量表示与候选辅助任务的向量表示之间的第一表示相似程度、分子样本在已知目标任务与候选辅助任务上的标签相似程度作为辅助任务选择器的输入,经计算输出候选辅助任务的采样概率,依据采样概率从候选辅助任务中采样辅助任务。4.根据权利要求3所述的基于样本-任务关系图的元学习分子属性预测方法,其特征在于,所述第一表示相似程度通过计算得到,其中,分别是已知目标任务和候选辅助任务的向量表示,该向量表示随机初始化得到,sim1(
·
)表示相似度计算方式,优选为余弦相似度计算方式;所述标签相似程度通过dist(y
t
,y
a
)计算得到,其中,y
t
,y
a
分别是分子样本相对于已知目标任务与候选辅助任务的任务标签向量,dist(
·
)表示任务标签向量之间距离的计算方式,优选为欧氏距离计算方式。5.根据权利要求1所述的基于样本-任务关系图的元学习分子属性预测方法,其特征在于,利用辅助任务并采用目标任务选择器采用同一批次内的采样目标任务,包括:
以预测模型针对分子样本在已知目标任务上的预测损失值、预测模型针对分子样本在辅助任务上的预测损失值、已知目标任务的向量表示与辅助任务的向量表示之间的第二表示相似程度作为目标任务选择器的输入,经计算输出采样目标任务的采样概率,依据采样概率从辅助任务中采样辅助任务作为采样目标任务。6.根据权利要求5所述的基于样本-任务关系图的元学习分子属性预测方法,其特征在于,所述预测模型针对分子样本在已知目标任务上的预测损失值为预测模型对分子样本针对已知目标任务的标签预测概率与任务标签真值之间的交叉熵值;所述预测模型针对分子样本在辅助任务上的预测损失值为预测模型对分子样本针对辅助任务的标签预测概率与任务标签真值之间的交叉熵值;所述第二表示相似程度通过计算得到,其中,分别是已知目标任务和辅助任务的向量表示,该向量表示为图表示模型输出的节点表示,sim2(
·
)表示相似度计算方式,优选为余弦相似度计算方式。7.根据权利要求1所述的基于样本-任务关系图的元学习分子属性预测方法,其特征在于,构建的对比损失表示为:其中,b是批次大小,分别表示同一采样目标任务t在正样本对中两组样本-任务关系图上的节点表示,表示不同采样目标任务t

在负样本对中一组样本-任务关系图上的节点表示,τ是温度参数,sim()为相似度计算方式,优选为余弦相似度。8.根据权利要求1所述的基于样本-任务关系图的元学习分子属性预测方法,其特征在于,所述分类损失为标签预测概率与任务标签真值的交叉熵损失,利用分类损失与对比损失之和来优化预测模型的参数;辅助任务选择器和目标任务选择器采用强化学习的学习策略,包括:针对辅助任务选择器,采用负的分类损失作为回报来优化辅助任务选择器的模型参数,表示为:其中,φ1表示辅助任务选择器的模型参数,γ1表示学习率,p(ξ)表示辅助任务的采样概率,表示分类损失;针对目标任务选择器,采用对比损失作为回报来优化目标任务选择器的模型参数,表示为:其中,φ2表示目标任务选择器的模型参数,γ2表示学习率,p(η)表示采样目标任务的采样概率,表示对比损失,箭头

表示更新。9.根据权利要求1所述的基于样本-任务关系图的元学习分子属性预测方法,其特征在
于,利用参数优化的辅助任务选择器和预测模型进行分子属性的预测,包括:(a)基于参数优化的辅助任务选择器采样已知目标任务的辅助任务;(b)基于已知目标任务、辅助任务以及分子样本构建新样本-任务关系图;(c)利用参数优化的预测模型对新样本-任务关系图进行预测,以得到分子样本在已知目标任务和辅助任务上的标签预测概率,实现分子属性的预测。10.根据权利要求9所述的基于样本-任务关系图的元学习分子属性预测方法,其特征在于,还包括:利用构建的新样本-任务关系图对参数优化的预测模型再调优,再调优采用的损失函数为分类损失,然后利用再调优的预测模型对新样本-任务关系图进行预测,以得到分子样本在已知目标任务和辅助任务上的标签预测概率,实现分子属性的预测。

技术总结


本发明公开了一种基于样本-任务关系图的元学习分子属性预测方法,基于构建的样本-任务关系图显示地建立样本与任务属性之间的关系,该样本-任务关系图是目前率先利用样本与任务之间的图结构指导元学习分子属性预测的方法,设计的辅助任务选择器能够顾针对不同的已知目标任务选择辅助任务,以便更好地利用辅助任务增强预测模型对目标任务的预测能力。设计的目标任务选择器能够选择预测模型训练时同一批次内的采样目标任务,作为对比损失函数的负样本挖掘技术。针对采样目标任务的对比损失函数,以便预测模型能够更好地区分不同采样目标任务的同时最大化同一采样目标任务的一致性。致性。致性。


技术研发人员:

张强 庄祥 方尹 陈华钧

受保护的技术使用者:

浙江大学

技术研发日:

2022.08.22

技术公布日:

2022/11/25

本文发布于:2024-09-21 15:48:48,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/8338.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:样本   分子   目标   模型
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议