基于SAO结构的中文专利文本实体关系抽取方法

著录项
  • CN201811202084.1
  • 20181016
  • CN109933781A
  • 20190625
  • 北京信息科技大学
  • 吕学强;董志安
  • G06F17/27
  • G06F17/27

  • 北京市海淀区清河小营东路12号
  • 北京(11)
摘要
本发明涉及一种基于SAO结构的中文专利文本实体关系抽取方法,包括:步骤一:从专利文本中获取候选SAO三元组;步骤二:提取候选SAO三元组的传统特征和句法语义特征。本发明提供的基于SAO结构的中文专利文本实体关系抽取方法,把中文专利文本的关系抽取问题,转化为SAO结构识别的分类问题,利用中文专利语料作为处理数据,抽取了词法特征、上下文特征、距离特征以及句法语义特征,能够显著地增强关系抽取的性能,能够有效地提升关系抽取的效果,可以很好地满足实际应用的需要。
权利要求

1.一种基于SAO结构的中文专利文本实体关系抽取方法,其特征在于,包括:

步骤一:从专利文本中获取候选SAO三元组;

步骤二:提取候选SAO三元组的传统特征和句法语义特征。

2.根据权利要求1所述的中文专利文本实体关系抽取方法,其特征在于,步骤一具体包括:

步骤1)对专利文本进行分词和词性标注;

步骤2)对句子中的实体进行标记;

步骤3)从句子S={w1,w2,w3,...,wn}中取出实体对和关系词构成三元组SAO=(E1,R,E2),其中E1和E2表示实体对,R表示实体之间的关系词,如果句子中只有一个关系词,则转到步骤7),如果有多个关系词,则将实体对和关系词构成的三元组表示成一个集合Set={SAO1,SAO2,SAO3,...,SAOi};

步骤4)循环取出集合中的SAO三元组结构,首先计算实体对E1和E2在文档中的概率p(E1,E2)、关系词R在文档中的概率p(R),以及实体对和关系词的组合在文档中的概率p(E1,E2,R),计算SAOi三元组的互信息;

步骤5)根据互信息的大小对三元组进行排序;

步骤6)如果出现一个以上的互信息大小相同,则将它们并列作为候选三元组;

步骤7)将候选三元组中的关系词标记为候选关系词;

步骤8)如果集合为空则退出。

3.根据权利要求1所述的中文专利文本实体关系抽取方法,其特征在于,所述步骤4)的互信息计算公式为:

其中,p(wi,wj,R)表示wi、wj和R在文档中出现的概率,p(wi,wj)表示wi和wj在文档中出现的概率,p(R)则表示关系R在文档中出现的概率。

4.根据权利要求1-3所述的中文专利文本实体关系抽取方法,其特征在于,所述步骤二的传统特征包括词法特征、上下文信息特征和距离特征。

5.根据权利要求1-4所述的中文专利文本实体关系抽取方法,其特征在于,所述步骤二的句法语义特征包括SAO句法关系强度特征和SAO语义角特征SAO句法关系强度

SRS=V(E1,R)+V(R,E2);其中,

其中,R(E1,REL)表示实体E1和候选关系词REL之间的依存句法关系;R(REL,E2)表示候选关系词REL和实体E2之间的依存句法关系。

6.根据权利要求1-2所述的中文专利文本实体关系抽取方法,其特征在于,在所述步骤1)中,使用NLPIR汉语分词系统对专利语料进行分词。

7.根据权利要求1-2所述的中文专利文本实体关系抽取方法,其特征在于,在所述步骤2)中,采用双向最大匹配算法对句子中的实体进行标记。

8.根据权利要求1-7所述的中文专利文本实体关系抽取方法,其特征在于,所述中文专利文本实体关系抽取方法具体包括以下步骤:

(1)使用NLPIR汉语分词系统,同时在其中加入专利术语词典,对专利语料进行分词和词性标注;

(2)采用双向最大匹配算法对句子中的实体进行标记;

(3)在语料中选择包含两个以及两个以上实体的句子,组成候选句子的集合T={S1,S2,S3,...,Sn},其中,对于每一个句子Si={w1,w2,w3,...,wn};

(4)循环遍历集合T中的每一个句子,对于每一个句子Si,利用专利SAO结构抽取方法,获得句子的候选三元组;

(5)筛选出满足条件的若干条句子及该句子对应的候选三元组进行标注,满足SAO结构的候选三元组标记为正例,不满足SAO结构的候选三元组标记为负例;

(6)提取词法特征;利用word2vec对(5)中的句子进行训练,得到词向量模型,然后将句子中候选三元组中的实体对和关系词分别用词向量表示;

(7)提取上下文特征;上下文特征包括两种类型的特征,第一种是设置不同的窗口值,抽取实体1、实体2和关系词的上下文词语C0,C1,C2,C3,C4,C5,并用词向量表示;第二种是实体对和关系词之间的所有词RLL和RLR,用词向量表示;

(8)提取距离特征;根据距离特征算法,分别计算实体1和候选关系词之间的距离distance(E1,REL)的值、候选关系词和实体2之间的距离distance(REL,E2)的值以及实体1和实体2之间的距离distance(E1,E2)的值;

(9)对集合T中的每一个句子进行依存句法分析和语义角分析,并根据SSR和SRS的计算方法,分别计算出SAO语义角SSR的值和SAO句法关系强度SRS的值;

(10)将(5)中标注的标签和提取的所有特征组合在一起生成训练语料和测试语料。

说明书
技术领域

本发明属于实体关系抽取技术领域,具体涉及一种基于SAO结构的中文专利文本实体关系抽取方法。

专利文献作为技术成果的载体,全球90%以上的最新技术都以专利文献的形式记载下来。对于这些专利大数据,通过传统的人工方式来获取其中的有用信息变得越来越行不通。随着自然语言处理和机器学习技术的发展,信息抽取技术在获取信息上更加快速而又准确。

实体关系抽取是信息抽取的一个重要研究领域。其目的是用来识别文本中实体间的语义关系,为后面的文本分析任务做铺垫。目前,随着机器学习技术的发展,越来越多的研究人员开始尝试利用机器学习的相关算法来解决关系抽取的问题。在实体关系抽取的研究中,基于机器学习的方法一般只抽取词法信息、距离信息和上下文信息等基础的特征信息,忽略了实体间的语义关系。当前中文专利文本实体关系抽取方法中采用词法特征、上下文特征、距离特征等传统特征,导致抽取效率低,亟待改进。

针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技术缺陷的基于SAO结构的中文专利文本实体关系抽取方法。

为了实现上述发明目的,本发明提供的技术方案如下:

一种基于SAO结构的中文专利文本实体关系抽取方法,包括:

步骤一:从专利文本中获取候选SAO三元组;

步骤二:提取候选SAO三元组的传统特征和句法语义特征。

进一步地,步骤一具体包括:

步骤1)对专利文本进行分词和词性标注;

步骤2)对句子中的实体进行标记;

步骤3)从句子S={w1,w2,w3,...,wn}中取出实体对和关系词构成三元组SAO=(E1,R,E2),其中E1和E2表示实体对,R表示实体之间的关系词,如果句子中只有一个关系词,则转到步骤7),如果有多个关系词,则将实体对和关系词构成的三元组表示成一个集合Set={SAO1,SAO2,SAO3,...,SAOi};

步骤4)循环取出集合中的SAO三元组结构,首先计算实体对E1和E2在文档中的概率p(E1,E2)、关系词R在文档中的概率p(R),以及实体对和关系词的组合在文档中的概率p(E1,E2,R),计算SAOi三元组的互信息;

步骤5)根据互信息的大小对三元组进行排序;

步骤6)如果出现一个以上的互信息大小相同,则将它们并列作为候选三元组;

步骤7)将候选三元组中的关系词标记为候选关系词;

步骤8)如果集合为空则退出。

进一步地,所述步骤4)的互信息计算公式为:

其中,p(wi,wj,R)表示wi、wj和R在文档中出现的概率,p(wi,wj)表示wi和wj在文档中出现的概率,p(R)则表示关系R在文档中出现的概率。

进一步地,所述步骤二的传统特征包括词法特征、上下文信息特征和距离特征。

进一步地,所述步骤二的句法语义特征包括SAO句法关系强度特征和SAO语义角特征SAO句法关系强度

SRS=V(E1,R)+V(R,E2);其中,

其中,R(E1,REL)表示实体E1和候选关系词REL之间的依存句法关系;R(REL,E2)表示候选关系词REL和实体E2之间的依存句法关系。

进一步地,在所述步骤1)中,使用NLPIR汉语分词系统对专利语料进行分词。

进一步地,在所述步骤2)中,采用双向最大匹配算法对句子中的实体进行标记。

进一步地,所述中文专利文本实体关系抽取方法具体包括以下步骤:

(1)使用NLPIR汉语分词系统,同时在其中加入专利术语词典,对专利语料进行分词和词性标注;

(2)采用双向最大匹配算法对句子中的实体进行标记;

(3)在语料中选择包含两个以及两个以上实体的句子,组成候选句子的集合T={S1,S2,S3,...,Sn},其中,对于每一个句子Si={w1,w2,w3,...,wn};

(4)循环遍历集合T中的每一个句子,对于每一个句子Si,利用专利SAO结构抽取方法,获得句子的候选三元组;

(5)筛选出满足条件的若干条句子及该句子对应的候选三元组进行标注,满足SAO结构的候选三元组标记为正例,不满足SAO结构的候选三元组标记为负例;

(6)提取词法特征;利用word2vec对(5)中的句子进行训练,得到词向量模型,然后将句子中候选三元组中的实体对和关系词分别用词向量表示;

(7)提取上下文特征;上下文特征包括两种类型的特征,第一种是设置不同的窗口值,抽取实体1、实体2和关系词的上下文词语C0,C1,C2,C3,C4,C5,并用词向量表示;第二种是实体对和关系词之间的所有词RLL和RLR,用词向量表示;

(8)提取距离特征;根据距离特征算法,分别计算实体1和候选关系词之间的距离distance(E1,REL)的值、候选关系词和实体2之间的距离distance(REL,E2)的值以及实体1和实体2之间的距离distance(E1,E2)的值;

(9)对集合T中的每一个句子进行依存句法分析和语义角分析,并根据SSR和SRS的计算方法,分别计算出SAO语义角SSR的值和SAO句法关系强度SRS的值;

(10)将(5)中标注的标签和提取的所有特征组合在一起生成训练语料和测试语料。

本发明提供的基于SAO结构的中文专利文本实体关系抽取方法,把中文专利文本的关系抽取问题,转化为SAO结构识别的分类问题,利用中文专利语料作为处理数据,抽取了词法特征、上下文特征、距离特征以及句法语义特征,能够显著地增强关系抽取的性能,能够有效地提升关系抽取的效果,可以很好地满足实际应用的需要。

图1为上下文特征示意图;

图2为依存句法分析实例图;

图3为另一依存句法分析实例图。

为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

基于SAO结构的中文专利文本实体关系抽取方法,包括从专利文本中获取候选SAO三元组的步骤以及提取候选SAO三元组的传统特征和句法语义特征的步骤。

实体关系抽取是信息抽取中的一个相对比较重要的研究领域,它的任务就是提取文本中的实体对以及实体对之间的关系,并基于此构成(n,v,n)的三元组形式,这种形式与SAO结构比较相似。SAO(Subject-Action-Object)结构理论,源自于发明问题解决理论(theory of inventive problem solving,TIPS),用来表示解决问题方法的基本函数单元。在这里,主体S和客体O表示系统中的实体,一般由名词性或者名词性短语充当,行为A表示主体和客体之间的关系或操作,一般由系统中的动词构成。比如:“燃料电池具有输出电路”,“燃料电池”是主体S,“输出电路”是客体O,“具有”表示主体与客体之间的Action,抽取出的SAO结构用三元组的形式可表示为“(燃料电池,具有,输出电路)”。目前SAO结构抽取已经广泛地应用在专利分析上,包括:专利无效分析、专利侵权检测、专利技术发展趋势等方面。所以,对专利文本进行SAO结构的抽取有重要的理论价值和现实意义。

在中文专利的SAO结构抽取任务中,主要是对关系词进行识别和抽取。传统的关系抽取包括上下位关系、整体-部分关系等。而SAO结构的抽取是从主体和客体间的动词中抽取,不需要指定抽取的关系类型,这与开放式的关系抽取问题有点类似,因此可以互相借鉴。

xgboost(eXtreme Gradient Boosting)是在传统的GBDT(Gradient BoostingDecision Tree)的基础上发展而来的,属于决策树算法的衍生。因其预测准确率高、速度较快、性能较好而受到广泛关注,其在分类问题上威力巨大。传统的GBDT只利用了一阶导数信息,而xgboost对损失函数做了二阶的泰勒展开,并在目标函数外加入了正则化项,以权衡目标函数的下降和xgboost模型的复杂程度,避免出现过拟合的情况。并且xgboost可以利用CPU多线程进行并行处理,训练速度更快,此外它也支持使用libsvm的数据格式来做训练和预测。

以目标函数logloss为例进行推导:

(1)将目标函数进行二阶泰勒展开:

其中是样本的一阶导数,是样本的二阶导数。Ω(ft)是正则化项,C是常数。

在损失函数为logloss的情况下,一阶导数和二阶导数的推导如下:

依存句法分析(Dependency Parsing)是指通过分析句子中各语言成分之间的依存关系,来揭示句子中词语间的结构信息。通俗来讲,首先识别出句子中的各个语言成分,包括“主谓宾定状补”等成分,然后对各个词语之间的关系加以分析。本实施例中采用的是哈工大的语言技术平台(Language Technology Platform,LTP)进行依存句法分析。

在LTP平台中,总共定义了15种依存句法分析标注关系,具体含义如表1所示:

表1依存句法分析标注关系

语义角标注(Semantic Role Labeling)是一种对句子进行浅层语义分析的方式。它以句子中的谓词为中心,分析其他的短语结构在句子中的语义角,包括核心语义角和和附加语义角两种类型。由于附加语义角在句子中主要是对核心语义角或者谓词的补充说明,且多数以副词为主,在关系抽取实验中没有用到,此处不再详述。本实施例采用哈工大语言技术平台(LTP)来做语义角标注,该平台把核心语义角分为六种,A0通常表示施事,A1通常表示受事,A2-A5根据谓语动词的不同,所表示的含义也不同。

word2vec是一个深度学习工具,是Google于2013年推出的开源工具包。其主要思想是基于两种词语向量化模型,其中包括CBOW(Continuous Bag of Words)和Skip-gram两种模型。CBOW模型是一种学习框架,它从语料库中学习连续词袋模型。主要是基于上下文信息来预测当前词语的概率,即p(wt|wi);Skip-Gram模型与CBOW模型恰好相反,它是基于当前词语来预测上下文词语的概率,即p(wi|wt),这两者i的取值范围都是t-k≤j≤t+k且i≠t,k是表示上下文窗口大小的常数。

互信息是信息论里的概念,对于I(X;Y),它表示得知变量Y的信息而使变量X的不确定性减少的程度,同时它也可以表示变量X和变量Y之间关系的强弱,互信息越大,则变量X和变量Y之间的关系越强。假设S={w1,w2,w3,...,wi},S表示句子,wi表示句子中的词语。假设变量X=(wi,wj)表示实体对,变量Y=R表示关系词,则变量X和变量Y之间的互信息可表示为:

其中,p(wi,wj,R)表示wi、wj和R在文档中出现的概率,p(wi,wj)表示wi和wj在文档中出现的概率,p(R)则表示关系R在文档中出现的概率。

在本发明中将中文专利SAO结构关系抽取问题转换为一个二分类问题,因此需要预先抽取专利句子中的SAO结构,为后来使用xgboost进行分类做准备。

针对SAO结构的抽取,有两个需要解决的关键问题,一个是实体的识别问题,一个是SAO结构中关系的识别问题。在实体识别过程中,首先把本体中的概念实例作为一个个的实体,构成实体词典,然后使用双向最大匹配方法标记出句子中的实体,而后对标记的结果进行人工校对,保证实体识别的正确率;对于关系识别的问题,首先做出假设,即关系词位于实体对之间。通过对中文专利语料的随机均匀采样可以发现,关系词位于实体对外侧的三元组中被标记为正例的三元组只占2%,而如果把动词作为实体对之间的关系词,被标记的正例的数量占三元组总数的75%以上。因此,关系词位于实体对之间的假设基本成立。

根据以上假设,把实体对之间没有动词的三元组过滤掉,然后再利用实体对和关系词之间的互信息来选择候选的SAO三元组,具体的算法如下:

(1)对于句子S={w1,w2,w3,...,wn},首先从中取出之前标记的实体对和关系词,构成三元组SAO=(E1,R,E2),其中E1和E2表示实体对,R表示实体之间的关系词,如果句子中只有一个关系词,则转到(5);

如果有多个关系词,则将实体对和关系词构成的多个三元组表示成一个集合Set={SAO1,SAO2,SAO3,...,SAOi)。

(2)循环取出集合Set中的SAOi三元组结构,首先计算实体对E1和E2在文档中的概率p(E1,E2)、关系词R在文档中的概率p(R),以及实体对和关系词的组合在文档中的概率p(E1,E2,R),然后分别将这三个数值代入公式(4),计算SAOi三元组的互信息。

(3)根据互信息的大小对三元组进行排序。

(4)如果出现一个以上的互信息大小相同,则将它们并列作为候选三元组。

(5)将候选三元组中的关系词R标记为候选关系词。

(6)如果集合为空则退出。

通过互信息算法,可以自动地筛选出符合要求的候选关系词和候选三元组。然后对候选三元组进行人工标注,将满足SAO结构的候选三元组标注为正例,不满足SAO结构的候选三元组标注为负例。后面将提取候选三元组的特征,为使用xgboost算法训练做准备。

在实体关系抽取研究中,传统的特征有:词法、上下文信息、距离等特征,本发明中新增了句法语义特征。具体解释如下:

传统的词法信息是使用词袋模型的one-hot表示法,但是由该方法表示的词向量具有高维稀疏的特点,在训练语料非常大的情况下,会出现维度灾难,并且对于同义词,表示的出来的向量也千差万别,不利于词语的表示。本发明中采用word2vec训练专利语料,把专利语料中的每个词语都采用向量化的表示。使用word2vec的好处是可以通过调节参数来控制词向量的维度,避免出现维度灾难,而且对于意思相近的词,它们在向量空间中的距离也很接近。

顾名思义,上下文特征就是把候选三元组中的实体对和关系词在句子中的前后几个词作为特征提取出来,可以设置窗口值作为要提取的前后词个数。图1所示窗口值为2时的上下文特征示意图:

其中”{W0,W1,W2,W3,...,W15}”表示经过分词后的句子,Wi表示句子中的每一个词。对于图1中一些符号的说明,如表2所示:

表2上下文特征说明

三元组的上下文信息可以提取出两种形式的特征,第一种是C0,C1,C2,C3,C4,C5,表示的是实体对和关系词的上下文词语,第二种是RLL,RLR,表示的是实体对和关系词之间的所有词。

距离特征在关系抽取实验中也被经常使用,一般情况下,两个词语之间的距离越近,它们之间存在关联的可能性就越大。因此,把词语之间词的个数作为距离特征,具体来说,包括以下特征:distance(E1,REL),即实体E1和候选关系词REL之间的距离,distance(REL,E2)即候选关系词REL和实体E2之间的距离,distance(E1,E2)即实体E1和实体E2之间的距离。

利用哈工大的LTP对语料中的句子进行依存句法分析和语义角标注后,通过观察发现,在依存句法分析的结果中,实体与关系词之间存在主谓、动宾、介宾等关系;在语义角标注的结果中,SAO结构中的实体对被标注为各种语义角成分。因此,根据该特点总结出了SAO句法关系强度和SAO语义角特征,二者分别用SRS和SSR表示,具体说明如下:

(1)SAO语义角(SSR)

LTP中包含了对所有谓词的语义角标注结果,由于以核心谓词作为中心的语义角标注结果最具有代表性,因此,我们只采用基于核心谓词的语义角标注结果作为特征的选择来源。然后标注出SAO结构中实体对的角成分作为SAO语义角特征。

SAO句法关系强度(SRS)

SRS=V(E1,R)+V(R,E2) (7);

其中,R(E1,REL)表示实体E1和候选关系词REL之间的依存句法关系;R(REL,E2)表示候选关系词REL和实体E2之间的依存句法关系。例如,对“其中电动机产生动力”进行依存句法分析,其依存关系如图2所示:

其中,候选三元组(电动机,产生,动力)中,实体1“电动机”与关系词“产生”是SBV关系,因此V(E1,R)=1;关系词“产生”与实体2“动力”是VOB关系,所以V(R,E2)=1;因此,该句子的SAO句法关系强度SRS=V(E1,R)+V(R,E2)=2。

最后,利用xgboost算法在这些特征上做训练和预测,并对特征的有效性进行实验分析。

利用本发明提出的方法进行实验,本实验采用的数据来自于新能源汽车领域的中文专利文本8000篇,包含前期抽取的术语实体共有9644个。专利摘要是对专利文档内容的高度概括,因此,本实施例从专利文本中提取出摘要作为主要研究对象。

首先对专利数据进行预处理,然后从中选择5000条句子作为训练数据和测试数据,而后进行5折交叉验证。具体的实验过程如下:

(1)使用NLPIR汉语分词系统,同时在其中加入新能源汽车领域专利术语词典,对专利语料进行分词和词性标注。

(2)根据本体库中的术语实体,采用双向最大匹配算法对句子中的实体进行标记。

(3)在语料中选择包含两个以及两个以上实体的句子,组成候选句子的集合T={S1,S2,S3,...,Sn},其中,对于每一个句子Si={w1,w2,w3,...,wn}。

(4)循环遍历集合T中的每一个句子,对于每一个句子Si,利用上文所述的专利SAO结构抽取方法,获得句子的候选三元组。

(5)筛选出满足条件的5000条句子及该句子对应的候选三元组进行标注,满足SAO结构的候选三元组标记为正例,不满足SAO结构的候选三元组标记为负例。

(6)提取词法特征。利用word2vec对(5)中的5000条句子进行训练,得到词向量模型。然后将句子中候选三元组中的实体对和关系词分别用词向量表示。

(7)提取上下文特征。上下文特征包括两种类型的特征,第一种是设置不同的窗口值,抽取实体1、实体2和关系词的上下文词语C0,C1,C2,C3,C4,C5,并用词向量表示;第二种是实体对和关系词之间的所有词RLL和RLR,用词向量表示。

(8)提取距离特征。根据前文所述的距离特征算法,分别计算实体1和候选关系词之间的距离distance(E1,REL)的值、候选关系词和实体2之间的距离distance(REL,E2)的值以及实体1和实体2之间的距离distance(E1,E2)的值。

(9)对集合T中的每一个句子进行依存句法分析和语义角分析,并根据前文所述的SSR和SRS的计算方法,分别计算出SAO语义角SSR的值和SAO句法关系强度SRS的值。

(10)根据libsvm的特征形式,将(5)中标注的标签和提取的所有特征组合在一起生成训练语料和测试语料。

(11)利用xgboost算法对语料进行5折交叉实验。

本实验采用正确率(P)、召回率(R)和F值作为评价指标,首先将可能预测出来的4种结果做如下标记:

(1)TP表示正确预测出来的正例样本数;

(2)FN表示错误预测出来的正例样本数;

(3)FP表示错误预测出来的负例样本数;

(4)FN表示正确预测出来的负例样本数;

具体的计算过程如下所示:

正确率为:

召回率为:

F值:

首先把BaseF=E1+REL+E2词法特征作为基本特征,然后在xgboost上进行超参数搜索,到在基本特征下的xgboost参数组合局部最优解。然后在此基础上加入上下文特征、距离特征和句法语义特征来对比实验的结果。

按照图1中所示的上下文特征表示,在词法特征BaseF的基础上,分别加入上下文特征CF1(C0,C1,C2,C3,C4,C5)、CF2(RLL+RLR),对于CF1特征,设置不同的窗口值w,实验结果如表3所示:

表3不同窗口值下加入CF1、CF2特征的结果对比

通过表3可以看出,加入上下文特征CF1和CF2后,准确率和召回率都有明显的提升。对于特征CF1来说,分别设置了窗口w=1,2,3,4,5五个值,可以看出,当w=3时,准确率、召回率以及F值的效果最好,正确率、召回率和F值分别提高了14.8%、27.6%和21.5%,究其原因,如果窗口值w过小,则引入的上下文信息量较少,如果窗口值w过大,则会引入一些不必要的噪音数据。例如:“一块太阳能【极板】{代替}【车顶】”,如果w=1,对于实体“极板”可以引入“太阳能”作为其上下文词语,还算比较合理;如果w=2,则会引入“一块”和“太阳能”两个上下文的词语,而对于“一块”这个量词本身并没有任何实际的意义,可以修饰多种类型的名词,没有区分度。因此,它就是噪声数据。对于特征CF2来说,它表示的是实体对和关系词之间的所有词,跟上下文特征中的(C1+C2+C3+C4)类似,因此,加入特征CF2对准确率和召回率也会有小幅的提升。

把实体1和候选关系词之间的距离distance(E1,REL)、候选关系词和实体2之间的距离distance(REL,E2)以及实体1和实体2之间的距离distance(E1,E2)这三者作为一个整体的距离特征Dis,把BaseCF=BaceF+CF1(w=3)作为基准的特征组合,加入距离特征Dis后的实验结果如表4所示:

表4距离特征的实验结果

由表4可见,在BaseCF的基础上加入Dis后,正确率、召回率和F值分别提升1.3%、0.5%和0.9%。对结果进行分析发现,准确率的提高是由于距离较短的三元组正确识别为正例的数量增加,而被识别的正例的总数稍有所减少,这也证明了之前的假设,即两个词语之间的距离越近,它们之间存在关联的可能性就越大;两个词语之间的距离越远,它们存在关联的程度也就越低。

上面分析了词法特征、上下文特征以及距离特征等传统的特征组合的实验结果,其中效果最好的是BaseCF+Dis,把BaseCD=BaseCF+Dis作为基准的特征组合,在此基础上加入SAO语义角特征SSR和SAO句法关系强度特征SRS。实验结果如表5所示:

表5句法语义特征的实验结果

从表5中可以看出,加入SAO语义角特征后,正确率、召回率和F值分别提高了0.9%、2.2%和1.6%。主要还是因为满足SAO结构的三元组中的实体对都是核心语义角,而非附加语义角,所以有一定的区分性。而加入SAO句法关系强度特征后,正确率、召回率和F值则分别提高了3.3%、8.1%和5.6%,提升比较明显,说明本发明提出的句法特征可以有效地解决部分语义结构问题。例如“电力汽车顶部安装有【水平】{移动}【装置】”的依存句法关系如图3所示,由于分词不准确而产生了实体标记错误的问题,“水平移动装置”被切分成了三个词语,形成了一个三元组,可以通过它们内部的ATT修饰关系来解决这个有标记问题的三元组。引入词语内部的这种语义修饰关系,可以在一定程度上解决由于分词不准确而产生的实体标记错误的问题,从而减少了在人工标注时将负例标注为正例的失误。

本发明的方法提出的特征之间的组合更能有效区分专利实体之间的关系,尤其是本发明中新提出的句法语义特征,在一定程度上解决了部分的语义问题;本发明中使用的xgboost算法,是在GBDT的基础上,经过优化发展而来的,在拟合训练数据的同时,通过正则化和调参,又能够很好地避免模型的过拟合,达到了较好的结果。

以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

本文发布于:2024-09-22 10:29:07,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/68629.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议