一种基于信息抽取和图模型的法律长文本相似度计算方法

著录项

申请号 CN202210779228.X
申请日 20220701
公开（公告）号 CN115034229A
公开日 20220909
申请（专利权）人电子科技大学
发明人贾海涛;唐小龙;林思远;李家伟;任利;周焕来;贾宇明;许文波
主分类号 G06F40/30
分类号
G06F40/30 G06F40/289 G06F40/211 G06N3/04 G06N3/08
地址四川省成都市高新区（西区）西源大道2006号
国省代码四川(51)

摘要

本发明提出了一种基于信息抽取和图模型的法律长文本相似度计算方法，所述方法包括以下步骤：从法律文本中抽取出实体和行为；用文本分类从行为中筛选出过错行为；将两个长文本中抽取出的实体和过错行为构成图模型；根据图模型中的结构和语义信息求出两个长文本的相似度。类案类判的目的为法官手头正在处理的案件寻相似甚至相同的案件，提高判案的速度和准确性。本发明旨在更好地求解法律案件之间的相似度，解决传统方法中无法抓住案件要点的问题，为实现类案检索提供算法基础。

权利要求



1.一种基于信息抽取和图模型的法律长文本相似度计算方法，该方法包括以下步骤：

步骤1：实体和行为抽取。本发明使用LTP语义依存分析树进行实体抽取和行为抽取。对于实体抽取，本发明提出使用LTP语义依存分析中的主体角、客体角，以及情景角中的工具和材料来实现。对于行为抽取，本发明提出以“主体角+动作+客体角”的结构，构建出语义依存分析子树来实现。

步骤2：文本二分类。对于抽取出来的行为，需要通过文本分类的方法，将过错行为从行为中筛选出来。本发明在预训练模型RoBERTa-wwm-ext-large的基础上进行微调，完成文本的二分类任务，将过错行为从行为中筛选出来。

步骤3：构建图模型。在前两步中抽取出了实体和行为，并对行为进行了筛选得到了过错行为后，需要进行图模型的构建。首先构建出A的实体和B的实体之间的图模型，接着再构建出A的行为和B的行为之间的图模型。

步骤4：基于图模型计算相似度。相似度计算方法包含两个层级的计算，一个是求解实体和实体之间的相似度、行为和行为之间的相似度，另一个是根据上一步构建的图模型计算出两个长文本之间的相似度。

2.如权利要求1所属方法，其特征在于，步骤1提出使用LTP语义依存分析树进行实体抽取和行为抽取。语义依存分析(SDP)是分析句子各个语言单位之间的语义关联，并将语义关联以依存结构呈现。LTP的语义依存分析的模型是Electra Small+BiAffine，在CCL2020数据集上的准确率达到76.62％，在同类算法中具有非常领先的效果。对于实体抽取，本发明创新性地使用LTP语义依存分析中的主体角、客体角，以及情景角中的工具和材料来实现，即包括施事、当事、受事、客事、涉事、系事、工具、材料。对于行为抽取，本发明创新性地提出以“主体角+动作+客体角”的结构来实现，将LTP语义依存分析树得到的主体角关系和客体角关系，构成若干以动作为核心的子树，按照“主体角+动作+客体角”的结构来抽取出行为。

3.如权利要求1所属方法，其特征在于，步骤2提出使用在预训练模型RoBERTa-wwm-ext-large的基础上进行微调，完成文本的二分类任务，将过错行为从行为中筛选出来。RoBERTa-wwm-ext-large相比于BERT主要有如下优化：RoBERTa预训练模型训练语料、模型参数和bacth size大大增加，使用了更复杂的24层Transformer(BERT使用12层)模型；去掉下一句预测(NSP)任务；使用动态掩码，每次向模型输入一个序列时都会生成新的掩码模式；采用全词掩码(Whole Word Masking,wwm)技术，即如果某个词的部分子词被掩码，则整个词都会被掩码；采用最大长度512进行训练。

4.如权利要求1所属方法，其特征在于，步骤3提出实体图模型和过错行为图模型的构建方法。首先需要构建出长文本A的实体和长文本B的实体之间的图模型，两个长文本之间按照语义相似度的高低来连接实体。接着再构建出长文本A的行为和长文本B的行为之间的图模型，同一文本之间的行为按照时序关系进行连接，两个长文本之间按照语义相似度的高低来连接行为。



5.如权利要求1所属方法，其特征在于，步骤4提出一种基于图模型的相似度计算方法。相似度计算方法包含两个层级的计算，一个是实体和实体之间，或者行为和行为之间的相似度，另一个是根据上一步构建的图模型计算出两个长文本之间的相似度。对于第一个层级的计算，本发明采用Sentence-BERT(SBERT)进行计算。对于第二个层级的计算，由于行为具有时序性，本发明创新性地提出一种基于图模型的相似度计算方法，充分结合了结构和语义两方面的信息，在步骤三建立的行为图模型上进行计算。实体不具有时序性，只结合语义信息在步骤三建立的实体图模型上进行计算。

6.如权利要求5所属方法，其特征在于，步骤4中要先将所有案件中实体和行为抽取出来，并把它们的Sentence-BERT(SBERT)嵌入存储到json文件中，这样在计算相似度时，只需要从json文件中到对应的向量，然后计算余弦距离即可。经过实验验证，使用此方法比直接以文本形式存储案件信息，速度快10到20倍。

说明书

一种基于信息抽取和图模型的法律长文本相似度计算方法

技术领域

本发明涉及一种基于信息抽取和图模型的法律长文本相似度计算方法，属于自然语言处理领域。

背景技术

语义依存分析(Semantic Dependency Parsing,SDP)，是分析句子各个语言单位之间的语义关联，并将语义关联以依存结构呈现。使用语义依存刻画句子语义，好处在于不需要去抽象词汇本身，而是通过词汇所承受的语义框架来描述该词汇，而论元的数目相对词汇来说数量总是少了很多的。语义依存分析目标是跨越句子表层句法结构的束缚，直接获取深层的语义信息。同时，语义依存分析不受句法结构的影响，将具有直接语义关联的语言单元直接连接依存弧并标记上相应的语义关系。

BERT(Bidirectional Encoder Representations from Transformers)已被证明是一种非常强大的方法，可以显著提高各种自然语言处理任务的性能，尤其是在自然语言理解任务中具有非常显著的优势，而文本分类本质上也是一种自然语言理解任务。本发明采用BERT的变种 RoBERTa-wwm-ext-large进行文本分类。

Sentence-BERT(SBERT)利用孪生网络和三胞胎网络结构生成具有语义意义的句子embedding向量，语义相近的句子其embedding向量距离就比较近，从而可以用来进行相似度计算(余弦相似度、曼哈顿距离、欧式距离)。该网络结构在查最相似的句子对，从上述的65 小时大幅降低到5秒(计算余弦相似度大概0.01s)，精度能够依然保持不变。当对比A,B两个句子相似度时，它们分别输入SBERT网络，输出是两组表征句子的向量，然后计算二者的相似度。

发明内容

本发明提出一种基于信息抽取和图模型的法律长文本相似度计算方法。本发明的目的在于更好地求解法律案件之间的相似度，解决传统方法中无法抓住案件要点的问题，为实现类案检索提供算法基础。类案类判的目的为法官手头正在处理的案件寻相似甚至相同的案件，提高判案的速度和准确性。

本发明技术方案如下：

首先进行实体和行为的抽取。对于实体抽取，使用LTP语义依存分析中的主体角、客体角，以及情景角中的工具和材料来实现，即包括施事、当事、受事、客事、涉事、系事、工具、材料。对于行为抽取，本发明创新性地提出以“主体角+动作+客体角”的结构来实现，将LTP语义依存分析得到的主体角关系和客体角关系，构成若干以动作为核心的子树，按照“主体角+动作+客体角”的结构来抽取出行为。

然后，对于抽取出来的行为，需要通过文本分类的方法，将过错行为从行为中筛选出来。本发明在预训练模型RoBERTa-wwm-ext- large的基础上进行微调，完成文本的二分类任务，将过错行为从行为中筛选出来。

在前两步中抽取出了实体和行为，并对行为进行了筛选得到了过错行为后，需要进行图模型的构建。首先需要构建出长文本A的实体和长文本B的实体之间的图模型，两个长文本之间按照语义相似度的高低来连接实体。接着再构建出长文本A的行为和长文本B的行为之间的图模型，同一文本之间的行为按照时序关系进行连接，两个长文本之间按照语义相似度的高低来连接行为。

最后，在完成图模型的构建之后构建后，需要进行图相似度的计算。相似度计算方法包含两个层级的计算，一个是实体和实体之间，或者行为和行为之间的相似度，另一个是根据上一步构建的图模型计算出两个长文本之间的相似度。对于第一个层级的计算，本发明采用 Sentence-BERT(SBERT)进行计算。对于第二个层级的计算，由于行为具有时序性，本发明创新性地提出一种基于图模型的相似度计算方法，充分结合了结构和语义两方面的信息，在步骤三建立的行为图模型上进行计算。实体不具有时序性，只结合语义信息在步骤三建立的实体图模型上进行计算。

本发明的有益效果为：提高了长文本相似度计算的准确性，以更好地求解法律案件之间的相似度，为实现类案检索提供算法基础，为法官手头正在处理的案件寻相似甚至相同的案件供其参考，从而提高判案的速度和准确性。

附图和附表说明

图1为本发明的算法整体框图；

图2为LTP语义依存分析的标签；

图3为LTP语义依存分析树的例图；

图4为Bert输入层结构图；

图5为Bert中间层结构图；

图6为Bert输出层结构图；

图7为wwm全词Mask输入示例；

图8为实体图模型的结构图；

图9为图模型的结构图；

图10为基于Sentence-BERT(SBERT)的相似度计算流程图；

具体实施方式

下面将会描述该算法的思路，并给出算法的具体步骤。

步骤一：实体和行为抽取

实体和行为分别代表了静态信息和动态信息，是文本中的关键信息。实体抽取和行为抽取是基于LTP的语义依存分析树来完成的。语义依存分析(Semantic DependencyParsing,SDP)是分析句子各个语言单位之间的语义关联，并将语义关联以依存结构呈现。语义依存分析目标是跨越句子表层句法结构的束缚，直接获取深层的语义信息。中文是意合的，在形式分析上有劣势，因此相比于句法分析，语义依存分析可以更好地表征句子的结构和语义信息。

LTP的语义依存分析的模型是Electra Small+BiAffine，在 CCL2020数据集上的准确率达到76.62％，在同类算法中具有非常领先的效果。LTP语义依存分析的标签中，主体角包括施事AGT、当事EXP，客体角包括受事PAT、客事CONT、涉事DATV、系事 LINK，情景角包括工具TOOL、材料MATL、方式MANN、范围 SCO等。LTP语义依存分析的标签如图2所示。

对于实体抽取，本发明创新性地使用LTP语义依存分析树中的主体角、客体角，以及情景角中的工具和材料来实现，即包括施事AGT、当事EXP、受事PAT、客事CONT、涉事DATV、系事 LINK、工具TOOL、材料MATL。施事指发出具体行为动作的主体或动作持续以及表现心理活动的有意识的主体，具有主观能动性；当事指非行为动作的发出者，不具有主观能动性，包括无意识运动的主体、非可控运动的主体以及各种关系的主体；受事指受主体的行为动作所改变的直接客体，一般与施事相对应，是受施事影响而导致位置、性质、结果等发生改变的对象，最明显的语义特征是具有被动性；客事指事件所涉及但是并未改变的客体以及动作行为产生的新事物或结果；涉事也称与事，是动作行为的非主动参与者，也可以说，涉事角是语义事件的第三方参与者，从语义上说，是事件接受者、伴随者、来源者以及比较的基准等等，从句法上说，经常出现在双宾语句中的间接宾语位置；系事是跟事件的参与者有关系的客体，一般由表示某种关联的动词连接主客体，表达主客体之间的某种具体的、或抽象的关系；工具是事件中所使用的工具，典型的工具角主要由介词“用”等引出，通常是由物体充当，但是一些有生命的、或者是抽象的事物也可以作为事件所凭借的工具；材料是事件中所使用的材料。

对于行为抽取，本发明创新性地提出以“主体角+动作+客体角”的结构来实现，将LTP语义依存分析树得到的主体角关系和客体角关系，构成若干以动作为核心的子树，按照“主体角+动作 +客体角”的结构来抽取出行为。LTP语义依存分析树的一个例子如图3所示。施事AGT、当事EXP描述了主体角及其动作；受事 PAT、客事CONT、涉事DATV、系事LINK描述了动作及其客体角。显然，动作是沟通主体角和客体角的桥梁。在图3中的例子中，“指挥”指向“负责人”，且关系为施事AGT，“指挥”指向“救援”，且关系为客事CONT，按照“主体角+动作+客体角”的结构来抽取出行为“负责人指挥救援”。类似地，可以LTP语义依存分析树得到若干以动作为核心的子树，从而抽取出行为。

步骤二：文本二分类

对于抽取出来的行为，并非所有都是关键信息，有些行为无需参与到相似度计算，否则会降低相似度计算的准确性。例如在法律案件中，当事人的过错行为的重要性要远远大于非过错行为的重要性，需要通过文本分类的方法，将过错行为从行为中筛选出来。不同的前进可能会筛选不同的行为，我们将需要参与到相似度计算的行为成为过错行为。本发明采用BERT的变种RoBERTa-wwm-ext-large进行文本分类。

1.BERT

BERT(Bidirectional Encoder Representations from Transformers)已被证明是一种非常强大的方法，可以显著提高各种自然语言处理任务的性能，尤其是在自然语言理解任务中具有非常显著的优势，而文本分类本质上也是一种自然语言理解任务。

(1)Bert输入层

Bert的输入可以是单一的一个句子或者是句子对，实际的输入值是segmentembedding与position embedding相加。为了使得Bert模型适应下游的任务(比如说分类任务，以及句子关系QA的任务)，输入将被改造成[CLS]+句子A(+[SEP]+句子B+[SEP])，其中：

·[CLS]:输入的第一个字符为[CLS]，在这里字符[CLS]的意思是分类(Classification)。代表的是分类任务的特殊token，它的输出就是模型的pooler output。

·[SEP]：分隔符

·句子A以及句子B是模型的输入文本，其中句子B可以为空，则输入变为[CLS]+句子A

Bert与Transformer的编码方式一样。将固定长度的字符串作为输入，数据由下而上传递计算，每一层都用到了self attention，并通过前馈神经网络传递其结果，将其交给下一个编码器。同时，因为 trasnformer无法获得字的位置信息，Bert和transformer一样也加入了绝对位置position encoding，但是和transformer不同的是，Bert使用的是不是transformer对应的函数型的encoding方式，而是直接采用类似word embedding的方式，直接获得position embedding。Bert输入层如图4。

(2)Bert中间层

模型的中间层和transformer的encoder一样，都是由self-attention layer+ADD&BatchNorm layer+FFN层组成的。Bert中间层可以表示为图5。

(3)Bert输出层

模型的每一个输入都对应这一个输出，根据不同的任务我们可以选择不同的输出，主要有两类输出：

·pooler output：对应的是[CLS]的输出。

·sequence output：对应的是所有其他的输入字的最后输出。

每个位置返回的输出都是一个隐藏层大小的向量(Bert-base版本为768)。Bert的输出层可以表示如图6。

2.wwm

全词掩码(Whole Word Masking,wwm)，是谷歌在2019年5月31 日发布的一项BERT的升级版本，主要更改了原预训练阶段的训练样本生成策略。因为谷歌发布的BERT-Base,Chinese模型里中文是以字为粒度进行切分，在BERT预训练过程中基于掩码的MaskedLanguage Model(MLM)任务中也以字粒度进行Mask操作。BERT- wwm针对这个问题进行一系列中文式的改造，充分考虑传统NLP中的中文分词操作，以词为粒度进行Mask操作，也就是Whole Word Masking(wwm)操作。

简单来说，原有基于WordPiece的分词方式会把一个完整的词切分成若干个子词，在生成训练样本时，这些被分开的子词会随机被 mask。在全词Mask中，如果一个完整的词的部分WordPiece子词被 mask，则同属该词的其他部分也会被mask，即全词Mask，如图7所示。需要注意的是，这里的mask指的是广义的mask(替换成[MASK]；保持原词汇；随机替换成另外一个词)，并非只局限于单词替换成 [MASK]标签的情况。

3.RoBERTa

RoBERTa(Robustly optimized BERT approach)是由FacebookAI和华盛顿大学的研究团队共同完成。因为RoBERTa的作者认为原生 BERT训练不足，所以进行了一项复杂研究，包括仔细评估了超参数和训练集大小等等对BERT预训练模型的影响。想比于原生BERT，RoBERTa预训练模型进行了六方面的优化，包括动态Mask、取消NSP 任务、设置更大的batchsize训练、使用更多的数据同时训练更久、调整优化器Adam参数和使用Byte level构建词表等优化策略。

(1)动态Mask操作

原生BERT模型使用静态的Mask操作，而RoBERTa模型使用动态的Mask操作。静态的Mask操作其实就是在数据处理时将语句进行Mask操作，然后将这些Mask操作完成的语句直接提供给模型进行训练。Mask在模型训练前数据已经处理好，所以不管训练多少轮，后面的训练中这句话的Mask操作是固定的。而动态Mask操作则是在模型训练的时候动态的对语句进行Mask，模型会在训练时不断更改Mask位置，使得每一轮训练样本的Mask位置可能都不同。通过动态Mask操作可以使得一条样本在每轮训练中Mask位置不同，提高了模型输入数据的随机性，最终提升了模型的学习能力。

(2)取消NSP任务

BERT的训练任务中包含NSP训练，即将两段话进行拼接提供给模型进行训练，正样本是选择同一篇文章中的连续的两段话，负样本是分别从两篇文章中分别选择一段话。RoBERTa模型进行了如下实验，证明了NSP任务对BERT模型的作用：首先，取消NSP任务反而能给BERT模型带来较好的提升，用实验证明了NSP任务对训练效果几乎没有影响；然后，同样使用NSP任务的情况下，样本中包含更多字符有更好的效果；最后，取消NSP任务的情况下，从一篇文章中获取数据要比从多篇文章中获取数据效果更好。

(3)设置更大的batch size训练

在模型训练时使用更大的batch size有利于提升模型的效果。原生BERT模型训练时使用的batch size是256，训练了1M的steps，而RoBERTa模型使用了更大的batch size。从结果可以发现，随着 batch size增加，ppl(Perplexity on held-outtraining data)不断降低，同时下游任务的准确率不断提升。

(4)使用更多的数据集同时训练的更久

使用更多的训练数据可以有效提升下游任务的性能。原生BERT 仅使用了16G的训练文本，但是RoBERTa模型使用了160G的训练文本，其中包括原始BERT的训练集BOOKCORPUS和英文(16G)、6300万篇英文新闻数据集CC-NEWS(76G)、Reddit上的网页内容(38G)和CommonCrawl数据集的一个子集STORIES(31G)。关于数据对预训练模型的作用毋庸置疑，不管是现在风头更劲的GPT 系列模型还是XLNet都很好的证明了数据的重要性。不仅使用更多的数据集可以提升模型，同时训练的时间更长也可以有效提升模型的性能。

(5)调整优化器Adam参数

RoBERTa模型对优化器Adam中的两项参数进行了调整：

mt＝β1mt-1+(1-β1)gt

vt＝β2vt-1+(1-β2)gt2

第一个调整是对Adam中的二阶矩估计β2。β2参数一般用于解决梯度稀疏的问题，通常情况下在NLP或者CV任务中建议设置接近为1，所以一般情况下都是设置为0.999。但是在论文中将β2参数设置为0.98；第二个调整则是Adam中的∈参数。∈参数参数最初的用途是防止除0的情况，在这里调节该参数可以提高模型训练的稳定性。

(6)使用Bytelevel构建词表

本发明中使用更大的Byte level的BPE词表，主要目的是为了减少NLP任务中未知词的问题。原生BERT模型在英文分词的时候使用的是基于BPE(Byte Pair Encoding)的wordpiece方法，该方法的核心就是将单词打散为字符，然后根据片段的组合频率对单词进行word piece分段处理。相比于原来的分词，wordpiece能有效降低 OOV(out of vocab)的情况。

综上所述，相较于BERT，RoBERTa-wwm-ext-large有如下改进：训练语料、模型参数和bacth size大大增加，使用了更复杂的24层 Transformer(BERT使用12层)模型；去掉下一句预测(NSP)任务；使用动态掩码，每次向模型输入一个序列时都会生成新的掩码模式；采用全词掩码(Whole Word Masking,wwm)技术，即如果某个词的部分子词被掩码，则整个词都会被掩码；采用最大长度512进行训练。基于上述改进，RoBERTa-wwm-ext-large在多个任务中做到了SOTA。

在预训练模型RoBERTa-wwm-ext-large的基础上进行微调，完成文本的二分类任务，将过错行为从行为中筛选出来。

步骤三：构建图模型

在前两步中抽取出了实体和行为，并对行为进行了筛选得到了过错行为。为了叙述方便，后面全部用行为来代称过错行为。为了求解两个长文本(假设为A和B)的相似度，本发明创新性地提出了一种图模型的构建方法，首先需要构建出A的实体和B的实体之间的图模型，求出A和B的实体相似度Simentity，接着再构建出A的行为和 B的行为之间的图模型，求出A和B的行为相似度Simaction。

对于实体图模型，假如A的实体个数不多于B的实体个数，则将A的每个实体和分别B的每个实体求语义相似度，选择B中语义相似度最高的实体进行连接(如果其相似度大于等于阈值0.7)。如果 A的某个实体和B中任意一个实体的语义相似度都低于阈值0.7，则作为图的孤立点。最终，边上的信息是两个实体之间的语义相似度。如果B的实体个数更多，则反之。实体图模型的结构见图8。

对于行为图模型，需要在抽取行为时按照顺序进行排列，因为行为之间的先后顺序也属于关键信息，如果A和B的行为都一样，只是顺序不一样，则行为相似度也不是100％。A的行为之间按照先后顺序构成有向的时序图，B的行为也同理。假如A的行为个数不多于 B的行为个数，则将A的每个行为和分别B的每个行为求语义相似度，选择B中语义相似度最高的行为进行连接(如果其相似度大于等于阈值0.7)。如果B的实体个数更多，则反之。最终构成的边的信息包含两种，同一篇章的边表示时序的先后，不同篇章的边表示语义相似度。行为图模型的结构见图9。

步骤四：基于图模型计算相似度

相似度计算方法包含两个层级的计算，一个是实体和实体之间，或者行为和行为之间的相似度，另一个是根据上一步构建的图模型计算出两个长文本之间的相似度。

对于第一个层级的计算，本发明采用Sentence-BERT(SBERT)进行计算。BERT和RoBERTa在文本语义相似度等句子对的回归任务上，已经达到了SOTA的结果，但二者都需要把两个句子同时输入到网络中，导致巨大的计算开销。Sentence-BERT(SBERT)利用孪生网络和三胞胎网络结构生成具有语义意义的句子embedding向量，语义相近的句子其embedding向量距离就比较近，从而可以用来进行相似度计算(余弦相似度、曼哈顿距离、欧式距离)。该网络结构在查最相似的句子对，从上述的65小时大幅降低到5秒(计算余弦相似度大概 0.01s)，精度能够依然保持不变。

SBERT在BERT/RoBERTa的输出结果上增加了一个Pooling操作，从而生成一个固定维度的句子Embedding。实验中采取了三种 Pooling策略做对比：直接用CLS位置的输出向量作为整个句子向量；计算所有Token输出向量的平均值作为整个句子向量；取出所有Token输出向量各个维度的最大值作为整个句子向量。经过实验验证，第二种方法的效果是最好的。为了能够fine-tune BERT/RoBERTa， SBERT采用了孪生网络和三胞胎网络来更新参数，以达到生成的句子向量更具语义信息。两个句子embedding向量u,v的余弦相似度计算结构如图10所示，损失函数为均方误差(mean squared error,MSE)。

对于第二个层级的计算，本发明创新性地提出一种基于图模型的相似度计算方法，充分结合了结构和语义两方面的信息。

实体不具有时序关系，在求解实体相似度Simentity时，若实体图模型共连接了Nentity对实体，两个实体的语义相似度为S1，文本A的实体个数为Na1，文本B的实体个数为Nb1，则求解公式为：

行为具有时序性，在求解行为相似度Simaction时，行为图模型共连接了Naction对行为，两个行为的语义相似度为S2，文本A的行为个数Na2、文本B的行为个数Na2。若A中行为x和B中行为y相连，若二者在行为序列中的位置分别为id1和id2(不考虑未连接行为的位置)，则二者偏移距离的计算方法为：

dist＝min{|id2-id1|,|id2+Naction-id1|}

则文本A和B的行为相似度为：

最终，两个长文本之间相似度计算公式为：

Sim＝β·Simentity+(1-β)·Simaction

值得注意的是，本发明创新地提出，要先将所有案件中实体和行为抽取出来，并把它们的Sentence-BERT(SBERT)嵌入存储到json文件中，这样在计算相似度时，只需要从json文件中到对应的向量，然后计算余弦距离即可。这样做的原因是，抽取出的行为和实体都较多，两篇案件的实体要一一计算相似度，行为也要一一计算相似度，每个案件都要和案件库中所有案件计算，因此总的计算量非常大。如果将抽取的实体和行为直接以文本的形式进行存储，在计算时需要反复编码，这一过程消耗的时间巨大，较难在实际场景中应用。经过实验验证，通过将SBERT嵌入存储起来的方法计算相似度，速度可以提升10到20倍。

本发明未尽事宜为公知技术。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

本文发布于:2024-09-25 04:25:25，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/3/73200.html

上一篇：关门装置及其使用方法

下一篇：一种基于多尺度时空融合图网络的交通预测方法

标签：一种基于信息抽取和图模型的法律长文本相似度计算方法

留言与评论（共有 0 条评论）