一种基于NLP的专利自动识别分类的方法

著录项
  • CN201811001292.5
  • 20180830
  • CN109522404A
  • 20190326
  • 电子科技大学
  • G06F16/35
  • G06F16/35 G06F16/951

  • 四川省成都市成都市高新区(西区)西源大道2006号4
  • 四川(51)
摘要
本发明提供了一种自动专利识别分类技术,目的是为了减少人工识别提高准确率。所述方法包括:首先在专利局上爬取特定领域下的所需数据,根据所需数据分析出匹配模式,根据匹配模式来对待匹配识别的专利进行一个语义标注,根据语义标注和规范形成xml文档描述专利。解析Xml文档,最后各个层面上的dom元素的相同率来对专利进行一个分类识别。其分为以下几个部分:网络爬虫数据清洗部分,自然语言处理部分,模式匹配生成xml文档部分。
权利要求

1.一种基于NLP的专利自动识别分类的方法,其包含了如下的几个模块:网络爬虫,获取特定领域专利数据。

网络爬虫模块:对网络爬虫的数据进行一个清洗,得到有用的信息安全领域的专利。

自然语言处理模块:

1)根据通用词典,领域词典,和专利词典,对爬取的文档进行预处理。

2)根据部分预处理后文档的特点,分析出抽取模式,这是训练的过程。

结果分析模块:

1)根据抽取模式,对剩下的文件进行一个分析,得到dom文档树,形成xml文件。

2)对Xml文件里面的关键文件元素的特点进行分析,最后再根据自己的规则,对新来得专利文件进行一个识别分类。。

2.根据权利要求1所述的爬虫模块,需要根据网站的特征分析并得到所需要的文档描述文件。

3.根据权利要求1所述的自然语言处理的预处理部分,所得专利其特征在于,可以分为头文件,说明书摘要,说明书,以及权力要求书四个部分。头部信息有很多,需存放到一个MAP中,其他基本信息用STRING来进行描述。并且调用国际IPC专利分类标准查分类的含义,得到指定领域类的专利。

4.根据权利要求1所述的自然语言处理的训练。要求给出关于语义规则的形式化定义如下代表规则

R=(O,W1,W2)

R代表规则,O代表逻辑,W1,W2代表待提取语义的词前缀与词后缀,他们都是此处的模式基元,或成为标记词,我们寻规则的目标主要是寻W1和W2。通过统计学方法对大量专利文本进行训练,根据词或短语的出现概率来寻W1,W2。即选择P(W)>p的词缀。在这一过程中我们根据最终的效果来选择p值,该值过高影响了最终标注的召回率,该值过低影响了准确度。

5.根据权利要求1所述的自然语言处理的模式匹配,要求自己定义多组模式对不同专利类型的所要表达信息进行提取。

6.根据权利要求1所述的语义标注结果需被转化为符合规范的Xml格式的文件被存储。

7.根据权利要求1识别分类规则的定义需要对好坏进行一个评判,达到一个属性相同数量的阈值就判定两个专利相同,描述属性数量少于一个阈值不属于一个专利。阈值的选择需要通过不断的尝试得到。

说明书
技术领域

本发明属于计算机自然语言处理领域,尤其涉及自然语言处理和机器学习领域。

自然语言处理研究领域是作为人工智能的应用发展起来的。最早的自然语言处理方面的研究工作是机器翻译,20世纪60年代,国外对机器翻译曾有大规模的研究,工作普遍采用基于规则的方法,或者基于知识库的方法,在限定领域取得成功但人们低估了自然语言的复杂性,在开放领域遇到很大的困难。随着大规模词典和真实语料库的研制,给自然语言处理领域的研究带来了巨大变化,基于语料库的统计自然语言学习逐渐成为一种重要的方法自然语言处理系统,它能够面向大规模真实文本的处理,使得研制的系统开始面向实用。随着互联网的普及,为自然语言处理领域提供了强有力的应用牵引和海量语言资源自然语言处理技术和信息检索技术结合,使得自然语言处理技术的应用领域大大扩大。到现在Web2.0的普及,网络上积累了规模巨大的User Generated Content,为自然语言处理技术的发展提供了新的资源和技术创新的源泉,例如Wikipedia、社区问答资源等,为建立大规模知识库奠定基础,使得基于知识的方法在开放域自然语言处理处理任务中的应用成为可能,同时基于知识的方法和基于统计的方法的融合受到关注。目前,自然语言处理包含了七大模块:句法语义分析、信息抽取、文本挖掘、机器翻译、信息检索、问答系统、对话系统。

随着信息社会的不断发展,人们所产出的知识以几何级数递增。在当今知识管理体系中,文档仍为一个主要的知识存在形式,它包括了图书、报纸、期刊和万维网上数以亿一记的各种格式文本文件。这种非结构化的文档中的知识很难为一些工具所利用以达到快速获取信息的目的,因此我们十分需要一种有效的从非结构化、半结构化文档中获取知识的方法,用这些有效的知识对一个非结构化的文档进行有效的筛选。常见的信息抽取方案有基于网页结构、基于文档结构的,也有基于文档内容分析的,但缺乏领域语义的支持。所以根据专利文档的特点,研究国内外经典的语义标注方法,提出了一种基于自然语言处理的给定文档自动语义标注方法,用于从给定文档中自动的抽取出语义信息,生成结构化文档的行为很有必要。

根据产生的结构化文档在当下,对专利有一定的描述,对于专利的识别分类判断主要是靠人工来进行的,这样的话,海量数据的筛选,一方面浪费了大量的人力资源,另一方面通过人的识别得也不一定准确,有一定的误差,所以一种基于自然语言处理(nlp)的自动识别分类技术应运而生。

本发明创建一种对申请专利文档的语义标注,根据语义标注创建出特定描述,再根据特定描述来对申请专利文档的识别个归类,从而达到一个提高识别效率,减少人力资源的目的。

为了实现上述目的,本发明的技术方案:

一种基于NLP的专利自动识别分类的方法包括以下几个有效信息:

大量的数据源,包括数据源为专利网上已呈现出来的专利和自己的部分待审核的伪造专利数据。专利网上的数据可以通过爬虫来实现,伪造专利数据可以修改部分真实专利内容,让他变成非专利。

专利文档的特点:1、文档结构相对固定2、被标注文档涉及到的命名体识别相当专业,不被一般的词表锁包含。3、文档撰写的结构固定。4、句法结构严谨,用词规范。

通用词表,领域词表,专利词表,用于给特定领域专利文档进行分词,预处理等等。

模式匹配模块,根据一定的规则,对预处理的数据进行一个匹配得到结果。

语义标注生成模块:根据模式模式匹配出的数据,生成语义标注。

Xml文件生成模块:根据语义标注生成xml文件,对该文档进行一个描述。

其中,数据源来源于专利网上的某一领域的专利,本次实验以安全信息领域相关。通过python对其数据进行爬取,得到大量的专利的说明文档。

其中,文档结构固定使得有一部分信息提取方便,而且其中的专利名称是帮助我们对专利分类的重要依据。术语的专业性让我们能够针对专利的领域来选取不同的领域术语表,从而在命名实体识别过程中提高准确率。文档撰写结构固定、句法结构严谨、用词规范的特点有利于我们发现其中的模式。专利知识的确定性让我们可以顺利对语义信息建模并实现提取。

其中,通用词表可以对文档的基本词汇进行分词,领域词表和专利词表可以对该领域下的文档进行一个分词标注,这样才能达到一个更好的预处理效果。

其中,我们通过利用文档的语言特点来对其进行自然语言处理,从而识别出文档中含有的语义,最终映射到相应的专利语义模型中。对于每种语义的识别我们都必须通过文本的语法分析从而匹配相应的模式来实现。

其中,通过我们的标注生成模块,语义信息被转化为符合规范的一格式的文件被存储,形成一个具有dom树的xml文件。

其中,通过生成xml文件模块,对Dom树的制定元素信息进行分析,达到一个专利识别分类的效果。

一种基于NLP的专利自动识别分类的实现方法,包括如下步骤:

网络爬虫,获取特定领域专利数据。

对网络爬虫的数据进行一个清洗,得到有用的信息安全领域的专利。

根据通用词典,领域词典,和专利词典,对爬取的文档进行预处理。

根据部分预处理后文档的特点,分析出抽取模式,这是训练的过程。

根据抽取模式,对剩下的文件进行一个分析,得到dom文档树,形成xml文件。

对Xml文件里面的关键文件元素的特点进行分析,最后再根据自己的规则,对新来得专利文件进行一个识别好分类。

调解上面一步的分类规则的参数,增大准确性。

重复上面一步,形成一个通用的准确识别分类方法。

其中爬虫的规则准确导致第一步获取的信息源的准确,从而影响后续识别分类的准确性。

其中通用词典,领域词典,和专利词典可以在网上进行搜索,越准确的预料,导致后续的结果越准。

其中抽取模式的分析是问题的关键,根据专利文档的特点进行分析,得到关键描述词,根据描述词的前后词的关系进一步得到该领域下的所描述的问题的特点。

其中DOM树的xml文件,格式更清晰,得到的信息更加明了,可以一目了然的了解文档的层次结构,和该专利的属性。

其中,根据专利属性给专利分类识别的方法自行设计,暂时比较简单,主要难点是在于专利的语义标注。

本发明的有益效果:

本发明的模块和方法通过对专利局的数据进行清洗训练,得到一个有效的匹配模式,再根据这个匹配模式对制定待匹配的文档进行一个筛选,这个筛选工程是利用匹配得到的语义标注生成一个xml文档,根据xml文档对专利的描述然后用自己设定的方法,对文档进行识别和分类,看他是否是属于专利,并且看他是否以前有人申请过等等。大大的减少了人为操作,节省人力资源,同时提高了筛选的准确性。

图1是本发明的整体结构。

图2是本发明网络爬虫数据源获取的过程。

图3是本发明的nlp语义标注的过程。

图4是分类模型的训练和筛选的过程。

为了使本发明的目的,技术方案和优点更加清楚明白,以下结合附图对本发明做进一步说明。

如图1所示,一种基于NLP的专利自动识别分类的系统结构示意图,由图可知包括预处理:该模块主要包含了4个部分,经过预处理后得到的是一个精简的描述安全领域的文本文件,同时也能得到描述的具体哪一个安全领域(网页内容提取:主要是把给描述某一个安全领域专利大致提取,所有的内容都提取下来。结构分析:对提取下来的内容进行结构分析。基本属性提取:根据分析结果,运用规则库里面的规则对内容进行初略的筛选。专利名称发现:发现这篇文章描述了哪一个类型专利。)

语义信息提取:对预处理得到的文本文件进行进一步的处理,根据一系列的规则,得到想要的对具体安全领域专利的描述。中文分词:对文档进行分词处理。命名体识别:识别所有的客体。模式识别:根据模式,得到关系。语义信息提取:获取主体的描述。

标注生成:该模块主要由两个模块组成,经过标注生成后会得到具体安全领域专利的所有描述。

标注生成:对这个安全领域专利的某一项特征根据描述生成许多标注。标注筛选:对这些标注进行筛选,得到准确的标注。

结果分析:该模块主要是将生成的语义标注生成一个xml文件。

如图2所示,数据源获取结构示意流程图,包括如下模块:

爬虫管理模块:管理输入的URL。

网页解析模块:对输入进来的URL进行解析,形成DOM树。

爬虫模块:分析DOM树,根据规则库进行提取想要的内容。

规则库:一系列的规则,如正则表达式匹配关键词。

输出txt文档数据:输出的数据为想要的一篇文章,即筛粗略选过的数据源。

如图3所示,本发明方法的信息抽取的详细流程图

文本数据:网络爬虫获取的数据源。

通用词表:网上提供的通用中文词表。

领域词表:针对安全领域的词表,和自己添加进去的一些专业词。

命名实体识别:对文本文件进行分词,标注词性,识别出描述的实体。

分类模型:最简单的理解,我就读于电子科技大学,这就能通过就读于这个介词判断我和电子科技大学之间存在关系,电子科技大学是我读的学校。就能通过这种方式建立起一个关系模型。这种方式的获取可以通过机器学习的方法也可以通过人工标注的方法。

如图4所示,该方法的训练和匹配过程

训练过程:

文本文件:爬虫爬取下来的文本,200篇左右。

解析文本:对文本进行分析,得到一个有效的训练集。

抽取模式:训练集通过分类模型(决策树)的反复训练得到一个有效的抽取模式(分类模型)。

测试过程:前面两步大致相同。

匹配:根据训练得到的抽取模式进行匹配,每一种匹配有多个结果,每一个关系都有一个概率。

选择候选项:匹配到的结果可能有多个,选择一个概率比较大的。

输出结果:得到的词语,以及与主体之间的关系。

本领域的普通技术人员将会意识到,这里所述的安全领域的实例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和特定领域的实例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体领域的变形和组合,这些变形和组合仍然在本发明的保护范围内。

本文发布于:2024-09-22 17:29:07,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/68445.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议