融合知识图谱的深度学习文本分类方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202011097951.7
(22)申请日 2020.10.14
(71)申请人 上海勃池信息技术有限公司
地址 201815 上海市嘉定区汇源路55号8幢
5层517室
(72)发明人 刘星辰 麻沁甜 陈晓峰 
(74)专利代理机构 上海骁象知识产权代理有限
公司 31315
代理人 赵俊寅
(51)Int.Cl.
G06F  16/35(2019.01)
G06F  16/36(2019.01)
G06F  40/295(2020.01)
G06N  3/04(2006.01)
G06N  3/08(2006.01)
(54)发明名称
融合知识图谱的深度学习文本分类方法
(57)摘要
融合知识图谱的深度学习文本分类方法,包
括以下步骤:提取待分类文本中的实体;利用已
构建的知识图谱,获取实体相关隐含信息;将实
体名称和隐含信息转换为格式化的文本,添加到
原始文本的尾部,形成补充后的文本;对补充后
的文本进行分词处理,并预处理得到文本的分词
序列;查询预设或随机初始化的词嵌入模型获取
分词序列的词嵌入矩阵,矩阵的每一行为各分词
的嵌入向量;将分词序列的词嵌入矩阵输入深度
学习文本分类算法,进行训练或者预测。本发明
克服现有技术的不足,将知识图谱引入到深度学
习的文本分类中,通过从知识图谱中查询隐含信
息并转换为格式化文本,对原始文本进行信息补
充,
从而提升深度学习文本分类的准确性。权利要求书1页  说明书4页  附图1页CN 112597298 A 2021.04.02
C N  112597298
A
1.融合知识图谱的深度学习文本分类方法,其特征在于:包括以下步骤:
S1:提取待分类文本中的实体;
S2:利用已构建的知识图谱,获取实体相关隐含信息;
S3:将实体名称和隐含信息转换为格式化的文本,添加到原始文本的尾部,形成补充后的文本;
S4:对补充后的文本进行分词处理,并预处理得到文本的分词序列;
S5:查询预设或随机初始化的词嵌入模型获取分词序列的词嵌入矩阵,矩阵的每一行为各分词的嵌入向量;
S6:将分词序列的词嵌入矩阵输入深度学习文本分类算法,进行训练或者预测。
2.根据权利要求1所述的融合知识图谱的深度学习文本分类方法,其特征在于:所述步骤S1中待分类文本中的实体通过命名实体识别方法从原始文本中提取获得,所述实体包括人名、地名、机构名和专有名词。
3.根据权利要求1所述的融合知识图谱的深度学习文本分类方法,其特征在于:所述步骤S2具体包括:所提取的待分类文本实体的隐含信息,通过已有的知识图谱查询获得,其中查询包括直接获取实体属性值和通过知识推理间接获取实体的相关信息。
4.根据权利要求1所述的融合知识图谱的深度学习文本分类方法,其特征在于,所述步骤S3具体包括:通过知识图谱查询所得的实体隐含信息,通过{实体名称:实体信息}的格式,添加到原始文本的尾部。其中实体信息转换为自然语言,多个实体信息按照它们在原始文本中的顺序添加,形成包含实体隐含信息的补充文本。
5.根据权利要求1所述的融合知识图谱的深度学习文本分类方法,其特征在于:所述步骤S4中分词序列中的每个词由补充后的文本进行分词处理,并进行特殊符号和停止词过滤预处理所得。
6.根据权利要求1所述的融合知识图谱的深度学习文本分类方法,其特征在于:所述步骤S5中分词序列的词嵌入矩阵,通过预设或随机初始化的词嵌入模型映射获得,其中词嵌入矩阵的每一行为分词序列中每一个分词对应的词嵌入向量。
7.根据权利要求1所述的融合知识图谱的深度学习文本分类方法,其特征在于:所述步骤S6将分词序列的词嵌入矩阵输入深度学习文本分类算法,进行训练或者预测具体包括:将步骤S5处理后获得的分词序列矩阵输入到卷积神经网络、循环神经网络和Transformer 深度学习模型中,结合样本的标签,进行深度学习文本分类器的训练或者分类准确度测试。
权 利 要 求 书1/1页CN 112597298 A
融合知识图谱的深度学习文本分类方法
技术领域
[0001]本发明涉及深度学习与文本分类技术领域,具体涉及融合知识图谱的深度学习文本分类方法。
背景技术
[0002]文本分类在互联网和金融等领域有着广泛的应用。当前的深度学习或者机器学习文本分类模型
大多基于文本本身的信息,比如文本本身的分词。但是文本中通常包含大量的人名、地名和机构名等实体,这些实体通常隐含有重要的信息,是实体名称本身没有包含的,缺失这些隐含的实体信息将导致文本分类的准确性下降。
发明内容
[0003]针对现有技术的不足,本发明提供了融合知识图谱的深度学习文本分类方法,克服了现有技术的不足,将知识图谱引入到深度学习的文本分类中,通过从知识图谱中查询隐含信息并转换为格式化文本,对原始文本进行信息补充,从而提升深度学习文本分类的准确性。
[0004]为实现以上目的,本发明通过以下技术方案予以实现:
融合知识图谱的深度学习文本分类方法,包括以下步骤:
S1:提取待分类文本中的实体;
S2:利用已构建的知识图谱,获取实体相关隐含信息;
S3:将实体名称和隐含信息转换为格式化的文本,添加到原始文本的尾部,形成补充后的文本;
S4:对补充后的文本进行分词处理,并预处理得到文本的分词序列;
S5:查询预设或随机初始化的词嵌入模型获取分词序列的词嵌入矩阵,矩阵的每一行为各分词的嵌入向量;
S6:将分词序列的词嵌入矩阵输入深度学习文本分类算法,进行训练或者预测。[0005]进一步的,所述步骤S1中待分类文本中的实体通过命名实体识别方法从原始文本中提取获得,所述实体包括人名、地名、机构名和专有名词。
[0006]进一步的,所述步骤S2具体包括:所提取的待分类文本实体的隐含信息,通过已有的知识图谱查询获得,其中查询包括直接获取实体属性值和通过知识推理间接获取实体的相关信息。
[0007]进一步的,所述步骤S3具体包括:通过知识图谱查询所得的实体隐含信息,通过{实体名称:实体信息}的格式,添加到原始文本的尾部。其中实体信息转换为自然语言,多个实体信息按照它们在原始文本中的顺序添加,形成包含实体隐含信息的补充文本。[0008]进一步的,所述步骤S4中分词序列中的每个词由补充后的文本进行分词处理,并进行特殊符号和停止词过滤预处理所得。
[0009]进一步的,所述步骤S5中分词序列的词嵌入矩阵,通过预设或随机初始化的词嵌
入模型映射获得,其中词嵌入矩阵的每一行为分词序列中每一个分词对应的词嵌入向量。[0010]进一步的,所述步骤S6将分词序列的词嵌入矩阵输入深度学习文本分类算法,进行训练或者预测具体包括:
将步骤S5处理后获得的分词序列矩阵输入到卷积神经网络、循环神经网络和Transformer深度学习模型中,结合样本的标签,进行深度学习文本分类器的训练或者分类准确度测试。
[0011]本发明提供了融合知识图谱的深度学习文本分类方法。具备以下有益效果:通过获取原始分类文本的实体,并通过知识图谱获取实体的隐含信息并补充到原始的文本中,可有效提升深度学习文本分类的分类精度。
附图说明
[0012]为了更清楚地说明本发明或现有技术中的技术方案,下面将对现有技术描述中所需要使用的附图作简单地介绍。
[0013]图1 本发明的流程示意图;
图2 本发明中具体实施方式提供的实施例的知识图谱的示例。
具体实施方式
[0014]为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述。
[0015]如图1所示,融合知识图谱的深度学习文本分类方法,包括以下步骤:S1:提取待分类文本中的实体;
S2:利用已构建的知识图谱,获取实体相关隐含信息;
S3:将实体名称和隐含信息转换为格式化的文本,添加到原始文本的尾部,形成补充后的文本;
S4:对补充后的文本进行分词处理,并预处理得到文本的分词序列;
S5:查询预设或随机初始化的词嵌入模型获取分词序列的词嵌入矩阵,矩阵的每一行为各分词的嵌入向量;
S6:将分词序列的词嵌入矩阵输入深度学习文本分类算法,进行训练或者预测。[0016]具体地,步骤S1中,提取待分类文本中的实体;具体而言,利用命名实体识别(NER)方法获取原始文本中的实体进行提取,每一个提取的实体对应一个实体类型。所述实体包括人名、地名、机构名和专有名词等。
[0017]步骤S2中,利用已构建的知识图谱,结合实体和知识图谱推理,获取实体相关隐含信息。具体而言,将步骤S1中获取的人名、地名和机构名等命名实体通过已经构建的知识图谱查询获取这些实体的隐含信息。其中查询包括直接获取实体属性值和通过知识推理间接获取实体的相关信息。
[0018]步骤S3中,将实体名称和隐含信息转换为格式化的文本,添加到原始文本的尾部,形成补充后的文本。具体而言,原始文本中的每一个实体和对应的从知识图谱中查询所得的隐含信息,转化成文本之后,按照实体在原始文本中的顺序,添加到原始文本的结尾。[0019]步骤S4中,对补充后的文本进行分词处理,并采用停止词和特殊符号过滤等预处理得到文本的分词序列。具体而言,将增加实体隐含信息之后的文本进行分词处理,同时去
除停止词和标点符号。
[0020]步骤S5中,查询预设或随机初始化的词嵌入模型获取分词序列的嵌入矩阵,矩阵的每一行为各分词的嵌入向量。具体而言,通过词嵌入模型将分词序列中每一个分词映射为一个维度相等的向量,则分词序列的所有向量组成词嵌入矩阵,其中词嵌入模型可以为预训练或者随机初始化,比如预训练的word2vec模型,例如采用word2vec预训练或者均匀分布U(0,1)随机初始化。
[0021]步骤S6中,将分词序列的嵌入矩阵输入到深度学习文本分类算法中,进行训练或者分类测试。具体而言,将文本输入深度学习进行训练或者预测之前,对文本进行相同的处理:提取原始文本中的实体,通过知识图谱查询实体的隐含信息,将实体和隐含信息转换成格式化的文本之后按序添加到文本的结尾。将补充后的文本进行分词和过滤处理,并转换为词嵌入矩阵。深度学习文本分类算法不限于卷积神经网络、循环神经网络和Transformer 等,而为任何可用词嵌入矩阵作为输入的深度学习文本分类方法。
[0022]本发明提供通过原始文本的实体抽取,利用抽取的实体从已有的知识图谱中查询隐含的实体信息,并融入到原始文本中。通过提升原始文本信息量的方式提升深度学习文本分类性能。
实施例
[0023]如图2所示,以“绵羊买呗更新了羊毛分的打分系统”作为一个待分类文本为例;
步骤S1:从该文本中提取“绵羊买呗”(虚设实体,仅作为示例用)和“羊毛分”(虚设实体,仅作为示例用)两个实体,其中绵羊买呗为绵羊金融服务集团(虚设实体,仅作为示例用)推出的一款消费信贷产品,所以它的实体类型为产品名称,而羊毛分则为个人信用的评分,其实体类型为专有名词。因此可以从原始文本中提取的到实体信息为:{绵羊买呗-产品名称}和{羊毛分:专有名词}。这些提取的实体信息作为下一个步骤的查询输入。[0024]步骤S2:针对步骤S1中提取到的绵羊买呗和羊毛分两个实体,利用图2所示的知识图谱示例,可以获取两个实体的如下信息:绵羊买呗别名买呗,是一种消费信贷产品,属于绵羊金融服务集团,它用羊毛分作为信用评分系统;羊毛分是一种信用评分系统,它的评分范围是150~750,在2020年推出。
[0025]步骤S3:将步骤S2中绵羊买呗和羊毛分两者的信息添加到原始文本的结尾,形成如下补充文本:“绵羊买呗更新了羊毛分的打分系统。{绵羊买呗:别名买呗,是一种消费信贷产品,属于绵羊金融服务集团,它使用羊毛分作为评分系统};{羊毛分:一种信用评分系统,它的评分范围是150~750,
在2020年推出}”。可以看到,补充后的文本信息量远高于原始文本。
[0026]步骤 S4:将步骤S3中得到的补充之后的文本“绵羊买呗更新了羊毛分的打分系统。{绵羊买呗:别名买呗,是一种消费信贷产品,属于绵羊金融服务集团,它使用羊毛分作为评分系统};{羊毛分:一种信用评分系统,它的评分范围是150~750,在2020年推出}”,则进行分词、去除停用词(“的”,“了”,“它”等)和去除某些标点符号(“。”等)之后,得到的分词列表为:[“绵羊买呗”, “更新”, “羊毛分”, “打分”, “系统”, “{”,“绵羊买呗,“:”, “别名”, “花呗”, “一种”, “消费信贷”, “产品”, “属于”, “绵羊金融服务集团”, “使用”, “羊毛分”, “作为”, “评分”, “系统”, “}”,“{”,“羊毛分”,“:”, “一种”, “信用”, “评

本文发布于:2024-09-22 18:31:22,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/403808.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:文本   实体   分类
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议