一种知识图谱三元组置信度评价方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202011309998.5
(22)申请日 2020.11.20
(71)申请人 山东省计算中心(国家超级计算济
南中心)
地址 250014 山东省济南市历下区科院路
19号山东省计算中心
(72)发明人 杨帅 王小红 赵志刚 窦方坤 
曹皓伟 潘景山 魏志强 
(74)专利代理机构 北京华际知识产权代理有限
公司 11676
代理人 褚庆森
(51)Int.Cl.
G06F  16/36(2019.01)
G16B  50/30(2019.01)
(54)发明名称一种知识图谱三元组置信度评价方法(57)摘要本发明的知识图谱三元组置信度评价方法,包括评估阶段、融合阶段和校验阶段,a).实体层面评估;a ‑1).数据源角度;a ‑2).文献共现角度;a ‑3).外链规模角度;a ‑4).文本描述角度;a ‑5).实体重要性角度;a ‑6).实体的度的角度;b).关系层面评估;
b ‑1).数据源角度;b ‑2).文献共现角度;b ‑3).对实体间已知关系层面的评价;b ‑4).对实体间未知关系层面的评价;c).知识图谱全局层面评估。本发明的知识图谱三元组置信度评价方法,可高效、快速、大规模的发掘知识图谱数据中的错误,进而提升整个知识图谱系统的数据质量;可以对链接预测、关系推理等机器学习
任务的结果进行数据可靠性校验。权利要求书4页  说明书12页  附图2页CN 112417166 A 2021.02.26
C N  112417166
A
1.一种知识图谱三元组置信度评价方法,包括评估阶段、融合阶段和校验阶段,其特征在于:所述评估阶段通过以下步骤来实现:
a).实体层面评估;
a-1).数据源角度对实体的评价,待评估的实体包括化合物、疾病、蛋白质、基因、通路、细胞系、药品、产品、靶点、酶、蛋白质-化合物共计11种,对于每种实体的数据源置信度N r参考关联开放数据云The Linked Open Data Cloud中的LOD打分,对于没有进行LOD打分的PubChem、RCSB PDB、DrugBank和DTO本体数据源分别给出5星、5星、5星和4星的打分;实体的数据源置信度N r的取值等于
LOD打分的星数,如果同一实体在2个或2个以上的数据源总出现,则其数据源置信度N r取最高打分值;
a-2).文献共现角度对实体的评价,在文献库中查询与实体相关的文献,实体的文献共现角度置信度LCA通过公式(1)进行求取:
其中,LCA表示实体的文献共现角度置信度,N表示与实体相关的文献数目,F表示文献的影响因子,L为文献引用量,T为不同文献类别对应的打分值,i表示第i篇文献,α、β、θ表示权值;
a-3).外链规模角度对实体的评价,实体的外链规模置信度N L用生物医药知识图谱中实体外部链接的数量表示,实体外链规模越大,实体数据的可靠性越高,通过实体外链个数衡量实体的可信性,实体的外链规模置信度N L等于实体的外链数目;
a-4).文本描述角度对实体的评价,实体文本描述是对实体概念、类别、功能信息的描述,有文本描述的实体,它的数据可靠性更高;如果步骤的实体,如果a-1)中的数据源中存在相应实体的文字描述,则该实体的文本描述置信值D的取值为1,不存在则文本描述置信值D取值为0;
a-5).实体重要性角度对实体的评价,在生物医药知识图谱中实体节点被链接的数量和质量直接决定了该节点在整个图谱中的重要性;采用PageRank算法来衡量某个实体在知识图谱中的重要性,来表征实体重要性置信度,PageRank算法如公式(2)所示:
其中,P1、P2、…、P i、…、P n表示知识图谱中的节点,表示待研究节点P j的入度,
表示待研究节点P j的出度,N表示知识图谱中的节点数,表示节点P j的PageRank 值,所有节点的PageRank值构成知识图的PageRank向量,q表示知识图中节点继续扩展的概率,其取值为0.5;
a-6).实体的度的角度对实体的评价,实体节点的入度和出度反映了知识图谱中实体信息的富集程度和实体与其它实体间的关联强度;实体的度的角度的置信度N s通过公式(3)进行求取:
N s=N in+N out      (3)
其中,N s表示实体的度的角度的置信度,N in表示实体节点的入度,N out表示实体节点的出度;
b).关系层面评估;
b-1).数据源角度对关系层面的评价,对于生物医药知识图谱中实体间的关系,通常用三元组(h,r,t)来表示,其中,h为头实体,t为尾实体,r为实体间关系;如果三元组数据来自高质量的数据源,则表明两个实体间的关联性很强,三元组信息的置信度很高;关系层面的数据源置信度N′in参考关联开放数据云The Linked Open Data Cloud中的LOD打分,对于没有进行LOD打分的PubChem、RCSB PDB、DrugBank和DTO本体数据源分别给出5星、5星、5星和4星的打分;关系层面的数据源置信度N′in的取值等于LOD打分的星数,如果同一实体在2个或2个以上的数据源总出现,则其关系层面的数据源置信度N′in取最高打分值;
b-2).文献共现角度对关系层面的评价,在文献库中查询与实体对(h,t)相关的文献,实体对(h,t)的文献共现角度置信度LCA′通过公式(4)进行求取:
其中,LCA′表示实体对(h,t)的文献共现角度置信度,N′表示与实体对(h,t)相关的文献数目,F表示文献的影响因子,L为文献引用量,T为不同文献类别对应的打分值,i表示第i 篇文献,α、β、θ表示权值;
b-3).对实体间已知关系层面的评价,生物医药知识图谱构建过程中创建的实体关系,称为已知关系,采用ResourceRank算法衡量已知关系的置信度,得到已知关系的置信度ResourceRank;
b-4).对实体间未知关系层面的评价,现有知识图谱中不存在的、需要通过推理得到的实体关系,称为未知关系;采用KSP算法衡量未知关系的置信度,通过图谱中两个实体间的前K条最短路径数目来评价关系强度,得到未知关系的置信度KSP;
c).知识图谱全局层面评估;
通过N total/M对知识图谱全局层面进行评估,以衡量知识图谱全局层面的信息密度,进而评估整个知识图谱所含数据的可信度;其中N total为知识图谱所有实体节点的总度数,总度数为所有实体节点入度和出度的和,M为知识图谱中实体节点的总数。
2.根据权利要求1所述的知识图谱三元组置信度评价方法,其特征在于:所述融合阶段通过以下步骤来实现:结合生物医药知识图谱数据质量情况、药物-靶点关系预测任务因素,生物医药知识图谱三元组置信值通过公式5求取:
其中,Confidence表示三元组置信值,其为正数,置信值越大,置信度越高;Confidence 置信值由实体层面、关系层面和知识图谱全局三个层面的11个置信度评估器加权得到,最终将置信值归一化到[0,1]区间;在指定的知识图谱中,若置信值小于阈值0.6,则表明该三元组的数据是不可靠的。
3.根据权利要求2所述的知识图谱三元组置信度评价方法,其特征在于:所述校验阶段
用于评估知识图谱三元组最终的置信值是否合理,进而优化评估器及融合器的设计;校验器包含专家抽样校验和自动化校验两种方法;专家抽样校验:专家抽样校验方法借助医药领域专家进行人工校验,专家校验的范围是:置信值得分处于[0.9,1]范围内、且三元组中包含现有药物或热门靶点的数据;专家校验的方法是:对三元组所涉及的药物、靶点进行研究,根据专业知识和经验核定高置信值的三元组数据是否可靠;
自动化校验:自动化校验方法是借助分子对接技术对三元组的置信值进行校验,自动化校验的范围是:置信值的范围是[0.6,0.9],随机采样其中10%的三元组;自动化校验的方法是:采用Discovery Studio 2018 Client中的LibDock和GOLD打分函数对三元组涉及的药物-靶点数据进行分子对接计算,根据最终的打分值判断置信值是否可靠;
校验阶段的结果会反馈给评估阶段和融合阶段,对于校验结果和置信值严重负相关的数据,深入调研其原因,进而对融合阶段各方法的权重进行调整,从而完善整套知识图谱三元组置信度评价方法。
4.根据权利要求1或2所述的知识图谱三元组置信度评价方法,其特征在于:步骤a-2)和步骤b-2)中的文献库包括CAS、Patent、PubMed、Wikipedia和DOI,所述的取值α、β、θ的取值分别为0.7、0.2和0.1;不同文献类别对应的打分值T如表1所示:
表1
文献类别打分值
CAS  1.0
Patent0.8
PubMed  1.0
Wikipedia0.5
DOI  1.0
5.根据权利要求1或2所述的知识图谱三元组置信度评价方法,其特征在于:步骤b-3)中的已知关系对关系层面的评价过程中,采用ResourceRank算法衡量已知关系的置信度;ResourceRank算法用于刻画两
个实体间的关联强度,该算法的思路是:如果实体对(h,t)之间的关联性很强,那么会有非常多的资源从头部实体h,通过所有关联路径传递到尾部实体t;具体通过以下步骤来实现:
b-3-1).构建一个以头实体h为中心的有向图;
b-3-2).利用公式(6)迭代计算图中的资源,直到其收敛,并计算尾实体t的资源保留值;
其中,M t是所有通向尾结点t的集合,OD(e i)是节点e i的出度,是节点e i到尾结点t 的带宽,带宽即路径数目;对于M t中每个节点e i,从节点e i到尾结点t转移的资源量为
设每个节点的资源流都有相同的η概率可以直接跳转到随机节点,并且随机
流向尾节点t的这部分资源是1/N,N是节点总个数;
b-3-3).利用步骤b-3-2)中的R(t|h)、头节点h的入度ID(h)、头结点h的出度OD(h)、尾
节点t的入度ID(t)、尾节点t的出度OD(t)、头结点到尾节点的深度Dep,总计6个特征构造特征向量V,并通过激活函数将V转换成概率值RR(h,t),RR(h,t)即为置信度ResourceRank,用于衡量头结点h和尾节点t之间存在一个或多个关系的可能性,其通过公式(7)进行求取:
其中,φ是非线性激活函数,W i和b i是训练时可以调节的参数矩阵,RR(h,t)值的范围在[0,1]之间,其值越接近1表明h和t之间越有可能存在关系。

本文发布于:2024-09-20 19:49:34,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/759506.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:实体   知识   图谱   关系
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议