一种基于CR决策树的知识图谱构建方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910587801.5
(22)申请日 2019.07.02
(71)申请人 厦门耐特源码信息科技有限公司
地址 361000 福建省厦门市湖里区五缘一
里51号602室
(72)发明人 肖清林 
(74)专利代理机构 北京劲创知识产权代理事务
所(普通合伙) 11589
代理人 王志敏
(51)Int.Cl.
G06F  16/36(2019.01)
G06F  16/35(2019.01)
G06F  17/27(2006.01)
G06Q  50/26(2012.01)
(54)发明名称一种基于CR决策树的知识图谱构建方法(57)摘要一种基于CR决策树的知识图谱构建方法,所述构建方法包括以下步骤;S1、采集所有知识并构建知识实体属性资料库;S2、获取知识图谱构建的语料数据;S3、对获取的知识图谱构建语料数据进行预处理,得到图谱构建语料数据集;S4、对语料数
据集采用混合式方法进行实体属性知识扩充;S5、对步骤4所得的实体属性知识进行实体属性值融合;S6、通过预先构建的知识实体属性资料库定义实体关系类型及基于实体的特征,抽取实体关系;S7、通过CR决策树并根据实体关系实现对知识图谱的构建。本发明不仅提高对知识图谱构建效率和准确性,同时所构建出的知识
图谱更形象直观。权利要求书1页  说明书4页  附图1页CN 110399496 A 2019.11.01
C N  110399496
A
1.一种基于CR决策树的知识图谱构建方法,其特征在于,所述构建方法包括以下步骤;S1、采集所有知识并构建知识实体属性资料库;
S2、获取知识图谱构建的语料数据;
S3、对获取的知识图谱构建语料数据进行预处理,得到图谱构建语料数据集;
S4、对语料数据集采用混合式方法进行实体属性知识扩充;
S5、对步骤4所得的实体属性知识进行实体属性值融合;
S6、通过预先构建的知识实体属性资料库定义实体关系类型及基于实体的特征,抽取实体关系;
S7、通过CR决策树并根据实体关系实现对知识图谱的构建。
2.根据权利要求1所述的一种基于CR决策树的知识图谱构建方法,其特征在于,所述步骤1采集所有知识并构建知识实体属性资料库包括以下内容:首先采集领域实体词条构建为语料集,并定义领域实体的基本属性及其属性值的词性,以及根据领域实体的基本属性的特点,将其划分为多值属性、固定型单值属性或非固定型单值属性类别。
3.根据权利要求1所述的一种基于CR决策树的知识图谱构建方法,其特征在于,所述步骤3对获取的知识图谱构建语料数据进行预处理,得到图谱构建语料数据集包括以下步骤:
S31、对语料数据进行整合得到语料文本域;
S32、对语料文本域进行分组;
S33、对各语料文本域分别进行域分词处理;
S34、根据无效词汇表进行无效词汇过滤,过滤掉无效词汇和敏感词汇;
S35、将有效词汇与资料库中词汇表进行比对,将新词汇加入到资料库的词汇列表,对己有词汇进行累加其出现的频次。
4.根据权利要求3所述的一种基于CR决策树的知识图谱构建方法,其特征在于,所述步骤S33中的分词处理包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法中的一种或多种。
5.根据权利要求4所述的一种基于CR决策树的知识图谱构建方法,其特征在于,所述基于字符串匹配的分词方法包括正向最大匹配法、逆向最大匹配法、最少切分和双向最大匹配法。
6.根据权利要求1所述的一种基于CR决策树的知识图谱构建方法,其特征在于,所述步骤5对实体属性值融合包括以下内容:
根据领域实体基本属性的特点,将属性划分为多值属性、固定型单值属性、非固定型单值属性三种类别;
首先,采用一种基于来源可信度的方法对多值属性的属性值进行融合;
其次,采用一种基于内容可信度的方法对固定型单值属性的属性值进行融合;
最后,采用如下一种基于学习排序的方法对非固定型单值属性的属性值进行融合。
7.根据权利要求1所述的一种基于CR决策树的知识图谱构建方法,其特征在于,所述步骤6通过预先构建的知识实体属性资料库定义实体关系类型及基于实体的特征,抽取实体关系中,釆用句法分析及词法分析将实体关系转化为特征向量,继而采用机器学习模型进行处理,计算特征向量的相似度,并对实体关系进行分类。
权 利 要 求 书1/1页CN 110399496 A
一种基于CR决策树的知识图谱构建方法
技术领域
[0001]本发明涉及知识图谱构建技术领域,尤其涉及一种基于CR决策树的知识图谱构建方法。
背景技术
[0002]知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。
[0003]在工作中,对不同知识信息需要进行不同类型的处理,由于其信息内容的庞大性,相同或相似信息在不同地区的展现形式存在差异,例如名称或词语的描述彼此不同,从而影响信息工作准确快速进行,需要通过对信息进行知识图谱的构建,以便工作正常有序进行;目前的知识图谱构建方法效率差,且图谱精度不高,容易因存在错误影响工作的正常进行。
[0004]为解决上述问题,本申请中提出一种基于CR决策树的知识图谱构建方法。
发明内容
[0005](一)发明目的
[0006]为解决背景技术中存在的技术问题,本发明提出一种基于CR决策树的知识图谱构建方法,不仅提高对知识图谱构建效率和准确性,同时所构建出的知识图谱更形象直观。[0007](二)技术方案
[0008]为解决上述问题,本发明提供了一种基于CR决策树的知识图谱构建方法,所述构建方法包括以下步骤;
[0009]S1、采集所有知识并构建知识实体属性资料库;
[0010]S2、获取知识图谱构建的语料数据;
[0011]S3、对获取的知识图谱构建语料数据进行预处理,得到图谱构建语料数据集;[0012]S4、对语料数据集采用混合式方法进行实体属性知识扩充;
[0013]S5、对步骤4所得的实体属性知识进行实体属性值融合;
[0014]S6、通过预先构建的知识实体属性资料库定义实体关系类型及基于实体的特征,抽取实体关系;
[0015]S7、通过CR决策树并根据实体关系实现对知识图谱的构建。
[0016]优选的,所述步骤1采集所有知识并构建知识实体属性资料库包括以下内容:首先采集领域实体词条构建为语料集,并定义领域实体的基本属性及其属性值的词性,以及根据领域实体的基本属性的特点,将其划分为多值属性、固定型单值属性或非固定型单值属性类别。
[0017]优选的,所述步骤3对获取的知识图谱构建语料数据进行预处理,得到图谱构建语料数据集包括以下步骤:
[0018]S31、对语料数据进行整合得到语料文本域;
[0019]S32、对语料文本域进行分组;
[0020]S33、对各语料文本域分别进行域分词处理;
[0021]S34、根据无效词汇表进行无效词汇过滤,过滤掉无效词汇和敏感词汇;
[0022]S35、将有效词汇与资料库中词汇表进行比对,将新词汇加入到资料库的词汇列表,对己有词汇进行累加其出现的频次。
[0023]优选的,所述步骤S33中的分词处理包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法中的一种或多种。
[0024]优选的,所述基于字符串匹配的分词方法包括正向最大匹配法、逆向最大匹配法、最少切分和双向最大匹配法。
[0025]优选的,所述步骤5对实体属性值融合包括以下内容:
[0026]根据领域实体基本属性的特点,将属性划分为多值属性、固定型单值属性、非固定型单值属性三种类别;
[0027]首先,采用一种基于来源可信度的方法对多值属性的属性值进行融合;
[0028]其次,采用一种基于内容可信度的方法对固定型单值属性的属性值进行融合;[0029]最后,采用如下一种基于学习排序的方法对非固定型单值属性的属性值进行融合。
[0030]优选的,所述步骤6通过预先构建的知识实体属性资料库定义实体关系类型及基于实体的特征,抽取实体关系中,釆用句法分析及词法分析将实体关系转化为特征向量,继而采用机器学习模型进行处理,计算特征向量的相似度,并对实体关系进行分类。[0031]本发明的上述技术方案具有如下有益的技术效果:通过建立知识实体资料库,便于对实体关系进行确认,以便于对知识图谱的构建,对获取的知识数据进行预处理,便于对语料数据进行类型划分和内容的精简,以提高对知识图谱的构建效率和准确性;通过将实体属性知识的扩充和属性值的融合,一方面提高了领域知识获取的准确率,另一方面极大增加了获取的领域实体知识的规模;通过CR决策树对知识图谱进行构建,不仅提高对知识图谱构建效率和准确性,同时所构建出的知识图谱更形象直观。
附图说明
[0032]图1为本发明提出的一种基于CR决策树的知识图谱构建方法的方法流程图。
具体实施方式
[0033]为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
[0034]如图1所示,本发明提出的一种基于CR决策树的知识图谱构建方法,所述构建方法包括以下步骤;
[0035]S1、采集所有知识并构建知识实体属性资料库;
[0036]S2、获取知识图谱构建的语料数据;
[0037]S3、对获取的知识图谱构建语料数据进行预处理,得到图谱构建语料数据集;[0038]S4、对语料数据集采用混合式方法进行实体属性知识扩充;
[0039]S5、对步骤4所得的实体属性知识进行实体属性值融合;
[0040]S6、通过预先构建的知识实体属性资料库定义实体关系类型及基于实体的特征,抽取实体关系;
[0041]S7、通过CR决策树并根据实体关系实现对知识图谱的构建。
[0042]本发明中,通过建立知识实体资料库,便于对实体关系进行确认,以便于对知识图谱的构建,对获取的知识数据进行预处理,便于对语料数据进行类型划分和内容的精简,以提高对知识图谱的构建效率和准确性;通过将实体属性知识的扩充和属性值的融合,一方面提高了领域知识获取的准确率,另一方面极大增加了获取的领域实体知识的规模;通过CR决策树对知识图谱进行构建,不仅提高对知识图谱构建效率和准确性,同时所构建出的知识图谱更形象直观。
[0043]在一个可选的实施例中,所述步骤1采集所有知识并构建知识实体属性资料库包括以下内容:首先采集领域实体词条构建为语料集,并定义领域实体的基本属性及其属性值的词性,以及根据领域实体的基本属性的特点,将其划分为多值属性、固定型单值属性或非固定型单值属性类别。
[0044]需要说明的是,实体的多值属性是指实体的属性存在多个属性值,实体的固定型单值属性是指实体的属性只存在一个属性值且表示方式唯一,实体的非固定型单值属性是指实体的属性只存在一个属性值,但表示方式不唯一。
[0045]在一个可选的实施例中,所述步骤3对获取的知识图谱构建语料数据进行预处理,得到图谱构建语料数据集包括以下步骤:
[0046]S31、对语料数据进行整合得到语料文本域;
[0047]S32、对语料文本域进行分组;
[0048]S33、对各语料文本域分别进行域分词处理;
[0049]S34、根据无效词汇表进行无效词汇过滤,过滤掉无效词汇和敏感词汇;
[0050]S35、将有效词汇与资料库中词汇表进行比对,将新词汇加入到资料库的词汇列表,对己有词汇进行累加其出现的频次。
[0051]需要说明的是,通过将语料数据整合为语料文本域,便于对语料数据进行分组分词处理,通过对语料文本域进行分组和分词处理,便于对语料文本域进行类型划分和内容的精简,以提高对知识图谱的构建效率和准确性。
[0052]在一个可选的实施例中,所述步骤S33中的分词处理包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法中的一种或多种。
[0053]需要说明的是,多种分词方法确保分词准确性,基于字符串匹配的分词方法是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行匹配,若在词典中到某个字符串,则匹配成功;
[0054]基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义

本文发布于:2024-09-22 07:05:27,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/416173.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:知识   实体   构建   进行   属性   图谱   方法   语料
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议