一种基于神经网络的司法领域关系抽取方法及系统

著录项
  • CN201910145396.1
  • 20190227
  • CN109933789A
  • 20190625
  • 中国地质大学(武汉)
  • 梁庆中;王晨威;郑坤;姚宏;刘超;董理君;康晓军;李新川;李圣文
  • G06F17/27
  • G06F17/27 G06N3/04 G06F16/36

  • 湖北省武汉市洪山区鲁磨路388号
  • 湖北(42)
  • 武汉知产时代知识产权代理有限公司
  • 孙妮
摘要
一种基于神经网络的司法领域关系抽取方法及系统,本发明在原有的开放式神经网络关系抽取框架基础上,构建司法领域专用数据集,并形成司法领域罪名特征集,通过优化神经网络提高关系抽取准确率的方法:首先,从中国裁判文书网获取大量司法领域相关非结构化文本,并用Word2Vec模型,Bert模型等向量转换模型得到文本的向量表示;其次,通过对非结构化文本进行TF?IDF词频统计,得到不同罪名及案由的特征集,并得到向量表示;然后优化OpenNRE模型及JointNRE模型,得到准确性更高的JudNRE模型;最后,利用JudNRE模型对文本向量,罪名特征向量向量进行处理,得到司法领域关系抽取模型,用于对待处理的司法领域非结构化文本数据进行司法领域关系抽取,得到对应的实体三元组。
权利要求

1.一种基于神经网络的司法领域关系抽取方法,其特征在于,包含:

S1、获取司法领域非结构化文本数据,然后通过文本预处理,获取每个文本的结论部分,分词后将其作为语料集,并生成每个语料集对应的实体三元组;

S2、对所述司法领域非结构化文本数据进行TF-IDF词频统计,得到不同罪名及案由所一起构成的特征集;

S3、分别得到预料集和特征集的向量表示,然后将语料集向量和特征集向量进行拼接,从而得到语料集的最终向量序列表示;

S4、对最终向量序列表示进行神经网络训练,得到面向司法领域的关系抽取模型;

S5、利用所述关系抽取模型,对待处理的司法领域非结构化文本数据进行司法领域关系抽取,得到对应的实体三元组。

2.根据权利要求1所述的基于神经网络的司法领域关系抽取方法,其特征在于,步骤S1中,获取司法领域非结构化文本数据是指从中国裁判文书网爬取非结构化文本数据集,包含刑事判决书和刑事裁定书两种文本。

3.根据权利要求1所述的基于神经网络的司法领域关系抽取方法,其特征在于,特征集向量为语料集每个词的词向量*(1+TF-IDF词频权重)。

4.根据权利要求1所述的基于神经网络的司法领域关系抽取方法,其特征在于,步骤S3中得到预料集和特征集的向量表示的方法为采用Word2Vec模型或者Bert模型得到向量表示。

5.根据权利要求1所述的基于神经网络的司法领域关系抽取方法,其特征在于,语料集向量由Word Embeddings和Position Embeddings拼接而成,Word Embeddings生成每条语料集的词向量,维度记为dw,Position Embeddings生成每条语料集的位置向量,维度记为dp;特征集向量为语料集每个词的词向量*(1+TF-IDF词频权重),维度记为dti,特征集向量的向量序列表示为

语料集的最终向量序列表示为w={w1,w2,...,wm};

其中,wi=Rd,d=dw+dp*2+dti。

6.一种基于神经网络的司法领域关系抽取系统,其特征在于,包含:

语料集获取模块,用于获取司法领域非结构化文本数据,然后通过文本预处理,获取每个文本的结论部分,分词后将其作为语料集,并生成每个语料集对应的实体三元组;

特征集获取模块,用于对所述司法领域非结构化文本数据进行TF-IDF词频统计,得到不同罪名及案由所一起构成的特征集;

最终向量序列表示模块,用于分别得到预料集和特征集的向量表示,然后将语料集向量和特征集向量进行拼接,从而得到语料集的最终向量序列表示;

模型训练模块,用于对最终向量序列表示进行神经网络训练,得到面向司法领域的关系抽取模型;

关系抽取模块,用于利用所述关系抽取模型,对待处理的司法领域非结构化文本数据进行司法领域关系抽取,得到对应的实体三元组。

7.根据权利要求6所述的基于神经网络的司法领域关系抽取系统,其特征在于,语料集获取模块中,获取司法领域非结构化文本数据是指从中国裁判文书网爬取非结构化文本数据集,包含刑事判决书和刑事裁定书两种文本。

8.根据权利要求6所述的基于神经网络的司法领域关系抽取系统,其特征在于,特征集向量为语料集每个词的词向量*(1+TF-IDF词频权重)。

9.根据权利要求6所述的基于神经网络的司法领域关系抽取系统,其特征在于,最终向量序列表示模块中得到预料集和特征集的向量表示的方法为采用Word2Vec模型或者Bert模型得到向量表示。

10.根据权利要求6所述的基于神经网络的司法领域关系抽取系统,其特征在于,语料集向量由Word Embeddings和Position Embeddings拼接而成,Word Embeddings生成每条语料集的词向量,维度记为dw,Position Embeddings生成每条语料集的位置向量,维度记为dp;特征集向量为语料集每个词的词向量*(1+TF-IDF词频权重),维度记为dti,特征集向量的向量序列表示为

语料集的最终向量序列表示为w={w1,w2,...,wm};

其中,wi=Rd,d=dw+dp*2+dti。

说明书
技术领域

本发明涉及关系抽取领域,更具体地说,涉及一种基于神经网络的司法领域关系抽取方法及系统。

近年来,随着人工智能技术的飞速发展,越来越多的研究工作被投入到实际应用中来。关系抽取作为自然语言处理技术的一种强有力表现形式,也伴随着知识图谱研究的火热而备受关注。就实用性来讲,关系抽取作为一项从非结构化文本中抽取有用信息,快速准确获取结构化数据信息的技术,可以有效减轻人工分析海量数据文本的负担。

当下,针对特定领域的关系抽取主要基于单语言文本,而且大多研究围绕英文展开。目前检察院办案仍需要对大量的裁判文书文本和刑事案件卷宗文本进行人工筛选和分析,而案情文本和卷宗文本多以半结构或纯原始文本的形式呈现,且文本类别繁多,检察官审阅的过程耗时耗力且工作效率较低,而关系抽取技术是帮助用户快速便捷获取信息的可靠媒介。因此,利用现有关系抽取相关技术,结合司法领域文本特点,实现司法领域文本的关系抽取,对检察院高效率高质量办案有着重大的意义。

现存问题:

虽然关系抽取的流程均为获取文本数据、文本分词、自然语言处理、实体对预测、关系推理(大多用到了远程监督)、关系概率预测等步骤,且训练数据较为规范。但通过对已有的司法领域裁判文书文本进行分析,可知其有如下特点:

1、文本包含信息多样;

2、文本独立性强;

3、没有外部数据作为参考。

对完整的司法领域刑事案件卷宗文本进行分析,可知其有如下特点:

1、卷宗涵盖信息完整;

2、卷宗内文本间信息相互关联;

3、待抽取信息较多,仅依托nlp处理较难实现。

故无法预测是否能通过常规的关系抽取方式来处理司法领域文本数据。

本发明要解决的技术问题在于,针对现有技术中无法预测是否能通过常规的关系抽取方式来处理司法领域文本数据的技术缺陷,提供了一种基于神经网络的司法领域关系抽取方法及系统。

本发明解决其技术问题所采用的基于神经网络的司法领域关系抽取方法,包含:

S1、获取司法领域非结构化文本数据,然后通过文本预处理,获取每个文本的结论部分,分词后将其作为语料集,并生成每个语料集对应的实体三元组;

S2、对所述司法领域非结构化文本数据进行TF-IDF词频统计,得到不同罪名及案由所一起构成的特征集;

S3、分别得到预料集和特征集的向量表示,然后将语料集向量和特征集向量进行拼接,从而得到语料集的最终向量序列表示;

S4、对最终向量序列表示进行神经网络训练,得到面向司法领域的关系抽取模型;

S5、利用所述关系抽取模型,对待处理的司法领域非结构化文本数据进行司法领域关系抽取,得到对应的实体三元组。

进一步地,在本发明的基于神经网络的司法领域关系抽取方法的步骤S1 中,获取司法领域非结构化文本数据是指从中国裁判文书网爬取非结构化文本数据集,包含刑事判决书和刑事裁定书两种文本。

进一步地,在本发明的基于神经网络的司法领域关系抽取方法中,特征集向量为语料集每个词的词向量*(1+TF-IDF词频权重)。

进一步地,在本发明的基于神经网络的司法领域关系抽取方法的步骤S3 中,得到预料集和特征集的向量表示的方法为采用Word2Vec模型或者Bert 模型得到向量表示。

进一步地,在本发明的基于神经网络的司法领域关系抽取方法中,语料集向量由Word Embeddings和Position Embeddings拼接而成,Word Embeddings 生成每条语料集的词向量,维度记为dw,Position Embeddings生成每条语料集的位置向量,维度记为dp;特征集向量为语料集每个词的词向量*(1+TF-IDF 词频权重),维度记为dti,特征集向量的向量序列表示为

语料集的最终向量序列表示为w={w1,w2,...,wm};

其中,wi=Rd,d=dw+dp*2+dti。

本发明为解决其技术问题,还提供了一种基于神经网络的司法领域关系抽取系统,包含:

语料集获取模块,用于获取司法领域非结构化文本数据,然后通过文本预处理,获取每个文本的结论部分,分词后将其作为语料集,并生成每个语料集对应的实体三元组;

特征集获取模块,用于对所述司法领域非结构化文本数据进行TF-IDF词频统计,得到不同罪名及案由所一起构成的特征集;

最终向量序列表示模块,用于分别得到预料集和特征集的向量表示,然后将语料集向量和特征集向量进行拼接,从而得到语料集的最终向量序列表示;

模型训练模块,用于对最终向量序列表示进行神经网络训练,得到面向司法领域的关系抽取模型;

关系抽取模块,用于利用所述关系抽取模型,对待处理的司法领域非结构化文本数据进行司法领域关系抽取,得到对应的实体三元组。

进一步地,在本发明的基于神经网络的司法领域关系抽取系统的语料集获取模块中,获取司法领域非结构化文本数据是指从中国裁判文书网爬取非结构化文本数据集,包含刑事判决书和刑事裁定书两种文本。

进一步地,在本发明的基于神经网络的司法领域关系抽取系统中,特征集向量为语料集每个词的词向量*(1+TF-IDF词频权重)。

进一步地,在本发明的基于神经网络的司法领域关系抽取系统中,最终向量序列表示模块中得到预料集和特征集的向量表示的方法为采用Word2Vec模型或者Bert模型得到向量表示。

进一步地,在本发明的基于神经网络的司法领域关系抽取系统中,语料集向量由Word Embeddings和Position Embeddings拼接而成,Word Embeddings 生成每条语料集的词向量,维度记为dw,Position Embeddings生成每条语料集的位置向量,维度记为dp;特征集向量为语料集每个词的词向量*(1+TF-IDF 词频权重),维度记为dti,特征集向量的向量序列表示为

语料集的最终向量序列表示为w={w1,w2,...,wm};

其中,wi=Rd,d=dw+dp*2+dti。

实施本发明的基于神经网络的司法领域关系抽取方法及系统,具有以下有益效果:本发明首次提出将开放式神经网络关系抽取应用到司法领域工作中,旨在通过分析司法领域文本语义特征,借助机器学习的方法实现对大规模司法领域文本中关键信息的抽取,同时,本发明首次在关系抽取神经网络模型中加入罪名特征向量,多角度优化关系抽取精确率。

下面将结合附图及实施例对本发明作进一步说明,附图中:

图1是本发明的基于神经网络的司法领域关系抽取方法一实施例的流程图;

图2是语料集的位置向量示意图;

图3是基于神经网络的司法领域关系抽取系统一实施例的原理图。

为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。

参考图1,图1是本发明的基于神经网络的司法领域关系抽取方法一实施例的流程图。本实施例基于神经网络的司法领域关系抽取方法包含如下步骤:

S1、获取司法领域非结构化文本数据,然后通过文本预处理,获取每个文本的结论部分,分词后将其作为语料集,并生成每个语料集对应的实体三元组。

在本步骤中,先利用开源司法领域案件文书爬取框架(Wenshu_Spider),从中国裁判文书网上获取刑事判决书和刑事裁定书两种文本,主要抽取含被告人和被害人的文本(可根据案由或罪名界定,常见的罪名如表1)。

表1含PER2PER对应关系的罪名

截取文本中的结论部分,利用jieba,KCWS等分词工具进行分词,并基于NLP抽取文本中PERSON类型的实体对,结合罪名构成实体三元组作为标签,进而形成语料集(标签形式如实体三元组“被告人--被害人”,在实例中,被告人和被害人均由具体的人名表示,如“王某--李某”)。

S2、对所述司法领域非结构化文本数据进行TF-IDF词频统计,得到不同罪名及案由所一起构成的特征集。特征集主要包含每种罪名及案由的常见词汇及构词规则。

在本步骤中,对爬取的原始文本进行TF-IDF词频统计,评估文本中的字词对于每类案由或罪名文本的重要程度,通过关键字词得到不同罪名及案由的特征集。

对于在某一特定文件里的词语来说,它的重要性(即词频)表示为:

其中,ni,j表示该词语i在特定文件j中出现的次数,∑knk,j表示在特定文件j所有词语出现的总次数。

S3、分别得到预料集和特征集的向量表示,然后将语料集向量和特征集向量进行拼接,从而得到语料集的最终向量序列表示。

在步骤中,利用向量生成模型(如Word2Vec模型或Bert模型)得到语料集和特征集的向量表示。其中Word2Vec模型可直接训练得到每个词的固定维度的向量表示,采用CBOW方法(Continuous Bag-of-Words,Word2Vec模型的一种)对每个实体的描述文本做词向量生成。在模型训练的时候,设置每个词向量的维度大小为100,设置合适的min-count和滑动窗口值(CBOW模型的训练输入是某一个特征词的上下文相关的词对应的词向量,Min-cout和滑动窗口值用于控制上下文长度),得到表示词向量。而BERT模型的训练分为预训练(Pre-training)和微调(Fine-tuning)两步,本发明仅用到预训练,生成768维的中文词向量表示。

将语料集向量和特征集向量进行拼接,得到语料集最终的向量序列表示,记为w(分别使用Word2Vec模型,Bert模型生成向量表示,用于实验结果对比)。其中,语料集向量由Word Embeddings和Position Embeddings拼接而成, Word Embeddings生成每条语料集的词向量,维度记为dw,Position Embeddings 生成每条语料集的位置向量,维度记为dp,每个词与实体对的相对位置,如图2 中的“董事长”,与头实体“王AA”的相对距离为4,与尾实体“王BB”的相对位置为-3);特征集向量为语料集每个词的词向量*(1+TF-IDF词频权重),维度记为dti(特征集的向量序列表示为

语料集的最终向量序列表示为w={w1,w2,...,wm};

其中,wi=Rd,d=dw+dp*2+dti。

S4、对最终向量序列表示进行神经网络训练,得到面向司法领域的关系抽取模型。

对于上述实施步骤S4,由以下具体步骤完成:

利用卷积神经网络的卷积层进行特征提取。卷积层滑动窗口记为l,句子Embeddings长度记为dc,卷积层矩阵向量表示为偏差向量表示为 b。第i个滑动窗口的序列向量可表示为:

qi=wi-l+1:i(1≤i≤m+l-1)

卷积层的第i个filter的计算公式为:

pi=[Wq+b]i

接下来进行最大池化:

[x]i=max(pi)

最后通过非线性层tanh函数和全连接层,得到卷积层的输出向量o。非线性层为:g=tanh([x]i),全连接层为:o=Wg+b。

将卷积层的输出向量o通过一个softmax层,预测实体对的关系概率:

其中,nr为关系数量,o为卷积层输出向量。

另外,将特征集的向量序列通过attention机制,进行每个语料集的罪名预测。首先计算每个罪名的attention权重:再计算每个语料集的罪名可能性分布:

zi=softmax(Wai+b)

最后得到罪名预测概率:

优化参数。关系预测的loss函数设置为:

罪名预测的loss函数设置为:

最终的loss函数设置为:

L=Lrelation+α·Lcharge

其中,s为语料集数量,θ为模型的所有参数,α为超参数,此处设为1。

S5、利用所述关系抽取模型,对待处理的司法领域非结构化文本数据进行司法领域关系抽取,得到对应的实体三元组。

参考图3,本发明为解决其技术问题,还提供了一种基于神经网络的司法领域关系抽取系统,包含语料集获取模块31、特征集获取模块32、最终向量序列表示模块33、模型训练模块34以及关系抽取模块35。

语料集获取模块31用于获取司法领域非结构化文本数据,然后通过文本预处理,获取每个文本的结论部分,分词后将其作为语料集,并生成每个语料集对应的实体三元组;特征集获取模块32用于对所述司法领域非结构化文本数据进行TF-IDF词频统计,得到不同罪名及案由所一起构成的特征集;最终向量序列表示模块33用于分别得到预料集和特征集的向量表示,然后将语料集向量和特征集向量进行拼接,从而得到语料集的最终向量序列表示;模型训练模块34用于对最终向量序列表示进行神经网络训练,得到面向司法领域的关系抽取模型;关系抽取模块35用于利用所述关系抽取模型,对待处理的司法领域非结构化文本数据进行司法领域关系抽取,得到对应的实体三元组。

其中,获取司法领域非结构化文本数据是指从中国裁判文书网爬取非结构化文本数据集,包含刑事判决书和刑事裁定书两种文本;最终向量序列表示模块中得到预料集和特征集的向量表示的方法为采用Word2Vec模型或者Bert 模型得到向量表示。

语料集向量由Word Embeddings和Position Embeddings拼接而成,WordEmbeddings生成每条语料集的词向量,维度记为dw,Position Embeddings生成每条语料集的位置向量,维度记为dp;特征集向量为语料集每个词的词向量* (1+TF-IDF词频权重),维度记为dti,特征集向量的向量序列表示为

语料集的最终向量序列表示为w={w1,w2,...,wm};

其中,wi=Rd,d=dw+dp*2+dti。

上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

本文发布于:2024-09-23 05:31:24,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/75166.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议