一种面向中文专利文本的实体抽取方法和系统

著录项
  • CN201810694442.9
  • 20180629
  • CN109101538A
  • 20181228
  • 中译语通科技股份有限公司
  • 张力文;程国艮
  • G06/F1730
  • G06/F1730

  • 北京市石景山区石景山路20号16层1601
  • 北京(11)
  • 北京睿驰通程知识产权代理事务所(普通合伙)
  • 张文平
摘要
本发明提供了一种面向中文专利文本的实体抽取方法和系统,包括预处理模块、基于词性模板的候选实体抽取模块、和基于原文匹配的候选实体抽取模块。其中,预处理模块主要是把非结构化的文本转换为半结构化文本以便降低抽取难道,并把切割好的半结构化文本及其相应的词性序列输入到下一模块;基于原文匹配的候选实体抽取模块主要是对基于词性模板的候选实体抽取模块的后处理,主要是针对基于词性模板的候选实体抽取模块输出的非实体词,追溯这些词出现的原文,进行上下文匹配,得到最终实体。该方法和系统依据词性规则模板,无需人工标注便可对专利文本中的实体自动进行提取,克服了现有技术严重依赖大规模标注语料的缺陷,节省了标注的人力成本。
权利要求

1.一种面向中文专利文本的实体抽取方法,其特征在于,该方法包括如下步骤:

步骤一:对专利文本进行预处理,把非结构化的文本转换为半结构化文本,并把切割好的半结构化文本进行词性标记,生产相应的词性标记序列;

步骤二:基于词性模板进行候选实体抽取,并对候选实体进行边界过滤;

步骤三:对抽取的候选实体基于原文进行匹配,按一定的词性规则拼接得到最终的实体。

2.据权利要求1所述的方法,其特征在于:所述步骤一中的所述预处理包括:

(1)结构分割,所述结构分割针对权利要求书部分,按照特征词表将独立权利要求分为前序部分和特征部分,将从属权利要求书分为引用部分和限定部分;

(2)切分短句,所述切分短句是将文本中的长句,利用常见的标点符号划分为短句;

(3)词性标注,所述词性标注是对上述结构分割和上述切分短句划分后的子串进行词性标注,生成相应的词性标记序列。

6.根据权利要求2-5中任一项所述的方法,其特征在于:针对权利要求书部分的结构分割是利用权利要求项中的特征词进行的。

3.根据权利要求1或2所述的方法,其特征在于:所述步骤二包括:

(1)利用基于中文专利文本标题的词性模板,识别专利文本摘要、权利要求书以及正文中的实体;利用文本标题的词性标注序列及其子序列,匹配文本中短句的词性标注序列,抽取相应的词,然后将这些筛选的词进行拼接,形成候选实体;

(2)对候选实体进行边界过滤,将边界没有问题的实体作为最后的实体输出;将边界存在问题的候选实体执行所述步骤三。

4.根据权利要求3所述的方法,其特征在于:

对于所述边界存在问题的候选实体,追溯这些候选实体出现的文本原文部分,并对该原文部分进行上下文匹配,按一定的词性规则拼接得到最终的实体。

5.根据权利要求4所述的方法,其特征在于:所述的上下文匹配为上下文正向匹配和上下文逆向匹配。

7.一种面向中文专利文本的实体抽取系统,其特征在于,该系统包括:

(1)预处理模块,所述预处理模块对专利文本进行预处理,将非结构化的文本转换为半结构化文本,并把切割好的半结构化文本进行词性标记,生产相应的词性标记序列;

(2)基于词性模板的候选实体抽取模块,所述基于词性模板的候选实体抽取模块利用基于中文专利文本标题的词性模板,识别专利文本摘要、权利要求书以及正文中的实体;利用文本标题的词性标注序列及其子序列,匹配文本中短句的词性标注序列,抽取相应的词,然后将这些筛选的词进行拼接,形成候选实体;并对候选实体进行边界过滤,将边界没有问题的实体作为最后的实体输出;将边界存在问题的候选实体输入基于原文匹配的候选实体抽取模块;

(3)基于原文匹配的候选实体抽取模块,所述基于原文匹配的候选实体抽取模块对所述边界存在问题的候选实体进行原文追溯,并对其进行上下文匹配,按一定的词性规则拼接得到最终的实体。

8.根据权利要求7所述的系统,其特征在于:所述预处理模块执行如下操作:

(1)结构分割,所述结构分割针对权利要求书部分,按照特征词表将独立权利要求分为前序部分和特征部分,将从属权利要求书分为引用部分和限定部分;

(2)切分短句,所述切分短句是将文本中的长句,利用常见的标点符号划分为短句;

(3)词性标注,所述词性标注是对上述结构分割和上述切分短句划分后的子串进行词性标注,生成相应的词性标记序列。

10.根据权利要求8或9所述的系统,其特征在于:针对权利要求书部分的结构分割是利用权利要求项中的特征词进行的。

9.根据权利要求7或8所述的系统,其特征在于:所述的上下文匹配为上下文正向匹配和上下文逆向匹配。

说明书
技术领域

本发明涉及文本实体抽取领域,具体而言,是一种面向中文专利文本的实体抽取方法和系统。

在信息爆炸的时代,科技创新和知识管理逐渐被人们所重视。专利作为一种企业在市场竞争中的重要资本,不仅是科技创新成果的重要载体和表现形式,同时也是一种极具价值的文本,其内容丰富翔实,蕴含了大量的前沿科技信息。如何准确、快速地从大规模的专利文本中获取有价值的信息,是信息抽取面临的巨大挑战,而信息抽取的核心环节是实体识别。

目前解决实体识别问题的主导技术就是监督式学习,需要人工标注精准的训练语料,然而标注语料往往需要投入大量的人力和精力。实体识别大多是在新闻语料等有限的文本类型下进行,在识别人名、地名和机构名等有限的实体类别中取得了效果。而识别其他类型的命名实体的表现很差。在中文专利文献中,实体往往是某个领域内的实体,并非人名地名、机构名等日常生活中常见的实体。比如,在医药领域中涉及诸多如“五倍子”、“天仙藤”、“莱菔子”等中草药的名称。此外,出现在专利文献中的实体大都带有领域信息,这类实体多是由多个词语连接而成,比如:“智能化电动汽车”、“智能自助洗车机”,“交流充电桩”等。该类实体包含着清晰的领域信息以及专利特点,有效识别专利实体,可以为后续的分析与研究奠定坚实的基础。

综上所述,现有的实体识别技术存在以下缺陷:(1)由于专利文献中的实体领域性很强,很难到大规模的训练语料。并且即便获取语料,进行人工标注的成本也较高。由于缺乏大规模、高质量的实体标注语料,导致基于统计的机器学习模型在训练时,数据不充分、性能较差,无法准确识别;(2)专利中的实体往往不是一个名词,而是一个由多个词组成,含有较强的领域信息和该发明专利的特点,由于其多样性及独特性,现有技术无法准确的识别。

本发明的目的在于提供一种面向中文专利文本的实体抽取方法和系统,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。

本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。

根据本发明的第一方面,提供一种面向中文专利文本的实体抽取方法,该方法包括如下步骤:

步骤一:对专利文本进行预处理,把非结构化的文本转换为半结构化文本,并把切割好的半结构化文本进行词性标记,生产相应的词性标记序列;

所述预处理包括:

(1)结构分割,所述结构分割针对权利要求书部分,按照特征词表将独立权利要求分为前序部分和特征部分,将从属权利要求书分为引用部分和限定部分;而针对权利要求书部分的结构分割是利用权利要求项中的特征词进行的;

(2)切分短句,所述切分短句是将文本中的长句,利用常见的标点符号划分为短句;

(3)词性标注,所述词性标注是对上述结构分割和上述切分短句划分后的子串进行词性标注,生成相应的词性标记序列

步骤二:基于词性模板进行候选实体抽取,并对候选实体进行边界过滤;用基于中文专利文本标题的词性模板,识别专利文本摘要、权利要求书以及正文中的实体;利用文本标题的词性标注序列及其子序列,匹配文本中短句的词性标注序列,抽取相应的词,然后将这些筛选的词进行拼接,形成候选实体;对候选实体进行边界过滤,将边界没有问题的实体作为最后的实体输出;将边界存在问题的候选实体执行所述步骤三;

步骤三:对抽取的候选实体基于原文进行匹配,按一定的词性规则拼接得到最终的实体;对于所述边界存在问题的候选实体,追溯这些候选实体出现的文本原文部分,并对该原文部分进行上下文匹配,按一定的词性规则拼接得到最终的实体。

优选地,所述的上下文匹配为上下文正向匹配和上下文逆向匹配。

根据本发明的第二方面,提供一种面向中文专利文本的实体抽取系统,该系统包括:

(1)预处理模块,所述预处理模块对专利文本进行预处理,将非结构化的文本转换为半结构化文本,并把切割好的半结构化文本进行词性标记,生产相应的词性标记序列;所述预处理模块执行如下操作:

A.结构分割,所述结构分割针对权利要求书部分,按照特征词表将独立权利要求分为前序部分和特征部分,将从属权利要求书分为引用部分和限定部分;针对权利要求书部分的结构分割是利用权利要求项中的特征词进行的;

B.切分短句,所述切分短句是将文本中的长句,利用常见的标点符号划分为短句;

C.词性标注,所述词性标注是对上述结构分割和上述切分短句划分后的子串进行词性标注,生成相应的词性标记序列;

(2)基于词性模板的候选实体抽取模块,所述基于词性模板的候选实体抽取模块利用基于中文专利文本标题的词性模板,识别专利文本摘要、权利要求书以及正文中的实体;利用文本标题的词性标注序列及其子序列,匹配文本中短句的词性标注序列,抽取相应的词,然后将这些筛选的词进行拼接,形成候选实体;并对候选实体进行边界过滤,将边界没有问题的实体作为最后的实体输出;将边界存在问题的候选实体输入基于原文匹配的候选实体抽取模块;

(3)基于原文匹配的候选实体抽取模块,所述基于原文匹配的候选实体抽取模块对所述边界存在问题的候选实体进行原文追溯,并对其进行上下文匹配,按一定的词性规则拼接得到最终的实体。所述的上下文匹配为上下文正向匹配和上下文逆向匹配。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1示出了一种中文专利文本实体抽取系统的组成;

图2示出了基于词性模板的候选实体抽取模块工作流程;

图3示示出基于原文匹配的候选实体抽取模块工作流程。

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。

此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。

图1示例性地示出了一种面向中文专利文本的实体抽取系统的组成部分。主要包括:

(1)预处理模块,该模块对专利文本进行预处理,具体分为:结构分割,切分短句以及词性标注。主要目的是把,非结构化的文本转换为半结构化文本,以便降低抽取的难度,并把切割好的半结构文本以及其相应的词性序列输出到下一模块;其中,结构分割主要针对权利要求书部分,按特征词表将独立权利要求书分为的前序部分和特征部分,将从属权利要求书分为引用部分和限定部分;切分短句是将文本中长句,利用常见的标点符号划分为短句;词性标注是对划分后的子串进行词性标注,生成相应的词性标记序列;将短句及其相应的词性标记序列一并输出。

(2)基于词性模板的候选实体抽取模块,该模块大体划分为两步:第一,利用基于标题词性模板,识别专利文本摘要、权利要求书以及正文中的实体。由于标题是专利发明的高度概括,利用标题的词性标注序列及其子序列,匹配文献短句的词性标注序列,抽取相应的词,最后将这些筛选的词进行拼接,作为候选实体。第二、对候选实体进行边界过滤,将边界没有问题的实体作为最后的实体进行输出,把边界存在问题的实体输入到下一模块中。具体工作流程如图2所示。

(3)基于原文匹配的候选实体抽取模块,本模块是对模块2的后处理,由于模块2会输出一些非实体词,这类词虽然不是完整实体,但大多是专利文献的关键词,因而设计本模块的主要目的是,追溯这些关键词出现的原文,并对其进行上下文匹配,最后按一定的词性规则拼接得到最终的实体。具体工作流程如图3所示。

该方法依据词性规则模板,无需人工标注便可对专利文本中的实体自动进行提取,克服了现有技术严重依赖大规模标注语料的缺陷,节省了标注的人力成本。此外,本发明有效地解决了在某些特定领域中因缺少训练语料导致的实体识别准确率较低的问题。在识别多词构成的实体时,同样表现出良好的性能,可以自动准确地识别带有领域信息和专利特点的实体。

本发明提出的抽取方法是基于词性模板的实体自动抽取,以及基于统计的边界词过滤,在实际应用中本发明运行效率高、时间短,不会增加实体抽取的实用复杂度。

下面结合具体实施例对本方法及系统的具体工作流程进一步详细描述。

在预处理模块中,首先要提取标题,摘要,权利要求书以及正文。其中标题,摘要以及正文的结构简单,直接用常见的标点符号切分为短句子串,具体见下表:

对于权利要求书需要利用特征词进行结构的分割,具体特征词见下表:

在基于词性模板的候选实体抽取模块中,采用如下算法进行模板抽取:

1、去除标题中的量词(例如:一种),将集合T进行词性标注,得到标题的词性序列:T={pos,pos......pos};

2、到集合T的所有子序列,记为:Sub(T)。词性子序列长度为2-4,所得的子序列均为抽取模板;

3、短句进行词性标注,得到短句词性序列:S={pos',pos'......pos'}

4、利用词性模板Sub(T)匹配短句词性序列S,并抽取相应的词;

5、输出候选实体集合E

将候选实体进行边界词过滤,去掉首尾的边界词。过滤采用常见的停用词表,另外本方法总结了常见的边界词:等,的,不仅,而且,同时,并且,更加,且,从而,上,下,后,时。

在基于原文匹配的候选实体抽取模块中,采用匹配算法采用的传统分词中的正向/逆向匹配算法,词表采用jieba词表。具体算法如下:

其中,+表示出现一次或多次,*表示出现0次或多次。

应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由权利要求指出。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

本文发布于:2024-09-24 16:34:22,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/69173.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议