一种专利关键词自动提取方法

著录项
  • CN201710891269.7
  • 20170927
  • CN107622122A
  • 20180123
  • 合肥博力生产力促进中心有限公司
  • 冯晓辉
  • G06F17/30
  • G06F17/30 G06F17/27

  • 安徽省合肥市高新区天达路2号安徽大学科技园创新楼213
  • 安徽(34)
  • 上海精晟知识产权代理有限公司
  • 冯子玲
摘要
本发明公开了一种专利关键词自动提取方法,属于文字检索技术领域。包括以下步骤,电子文档导入检索查询、题目分析、正文分析和关键词的导出,以及正文分析中文档生成、字词识别、字词检索、字词检索、字词对比、字词获取、字词显示、字词保存。本发明通过对专利正文中的关键字进行提取,进而更加容易的对专利完成检索查询。
权利要求

1.一种专利关键词自动提取方法,其特征在于,包括如下步骤;

SS01电子文档导入检索查询,电子文档导入检索查询时自动生成主文档、子文档和对 比文档,并对主文档、子文档和对比文档进行保存;

SS02题目分析,题目分析时自动检索文库中相似文档,并保存在对比文档中;

SS03正文分析,题目分析时自动检索文库中相似文档,并保存在对比文档中;

SS04关键词的导出,在查询对比之后进行锁定复制,进行最终的字词导出并保存。

2.根据权利要求1所述的一种专利关键词自动提取方法,其特征在于:根据所述SS03正 文分析,进行对正文的分析对比包括以下子步骤;

SS03a文档生成,用于在电子文档导入时自动生成主文档、子文档和对比文档;

SS03b字词识别,用于对专利文献中各个板块进行识别划分;

SS03c字词检索,所述字词检索包括限定字跟随判定模块和重复字筛选模块,用于对正 文和题目进行分析;

SS03d字词对比,所述字词对比包括对比文档和对比词库,对比词库和对比文库用于与 所筛选词组进行对比筛选;

SS03e字词获取;用于获取最终判定的关键词组;

SS03f字词显示,用于将字词获取判定的词组进行显示;

SS03g字词保存,用于对主文档、子文档和对比文档进行保存。

3.根据权利要求2所述的一种专利关键词自动提取方法,其特征在于,所述SS03c中限 定字跟随判定模块用于对专业用词语句中名词的判定提取识别。

4.根据权利要求2所述的一种专利关键词自动提取方法,其特征在于,所述SS03d中字 词对比中重复字筛选模块用于对专利文献中多次重复使用的词句进行筛选。

说明书
技术领域

本发明属于文字检索技术领域,特别是涉及一种专利关键词自动提取方法。

目前,随着专利文献的迅速增长,专利文献专业和社会化查询日益普遍,实现专利 文献数据的查全率和查准率为专利文献信息的检索的难点和重点,长期以来,用袁术专利 数据来完成专利信息的检索,往往使得查全率和查准率相互冲突,在专利的撰写提交过程 中往往引用大量的相关技术资料和引用技术,使得在检索的过程中查出大量的相关度不足 的专利,需要一一进行查看排除,浪费了大量的时间。

本发明的目的在于提供一种专利关键词自动提取方法,通过对专利文献进行关键 字的提取,以关键字进行专利检索,提高专利检索的准确性的全面性,解决了现有的问题。

为解决上述技术问题,本发明是通过以下技术方案实现的:

本发明为一种专利关键词自动提取方法,包括如下步骤:SS01电子文档导入检索 查询,电子文档导入检索查询时自动生成主文档、子文档和对比文档,并对主文档、子文档 和对比文档进行保存;SS02题目分析,题目分析时自动检索文库中相似文档,并保存在对比 文档中;SS03正文分析,题目分析时自动检索文库中相似文档,并保存在对比文档中;SS04 关键词的导出,在查询对比之后进行锁定复制,进行最终的字词导出并保存。

进一步地,SS03正文分析,进行对正文的分析对比包括以下子步骤:SS03a文档生 成,用于在电子文档导入时自动生成主文档、子文档和对比文档;SS03b字词识别,用于对专 利文献中各个板块进行识别划分;SS03c字词检索,所述字词检索包括限定字跟随判定模块 和重复字筛选模块,用于对正文和题目进行分析;SS03d字词对比,所述字词对比包括对比 文档和对比词库,对比词库和对比文库用于与所筛选词组进行对比筛选;SS03e字词获取; 用于获取最终判定的关键词组;SS03f字词显示,用于将字词获取判定的词组进行显示; SS03g字词保存,用于对主文档、子文档和对比文档进行保存。

进一步地,所述SS03c中限定字跟随判定模块用于对专业用词语句中名词的判定 提取识别。

进一步地,所述SS03d中重复字筛选模块用于对专利文献中多次重复使用的词句 进行筛选。

本发明具有以下有益效果:

本发明包含有限定字跟随判定模块,根据撰写专利时所使用的专业定性词汇进行 跟随指引查询,进而使得检索的范围更加的具体,可节省大量的关键字检索时间,并且还划 分了字词识别对专利每一板块进行区分,防止大量引用技术中的关键字进行引诱判定,防 止其增加系统检索的负荷进而延长关键字提取的时间。

当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的 附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领 域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附 图。

图1为本发明的关键字提取流程图;

图2为本发明的步骤SS03中子流程图;

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它 实施例,都属于本发明保护的范围。

请参阅图1-2所示,本发明为一种专利关键词自动提取方法,包括如下步骤;

SS01电子文档导入检索查询,电子文档导入检索查询时自动生成主文档、子文档 和对比文档,并对主文档、子文档和对比文档进行保存;

SS02题目分析,题目分析时自动检索文库中相似文档,并保存在对比文档中;

SS03正文分析,题目分析时自动检索文库中相似文档,并保存在对比文档中;

SS04关键词的导出,在查询对比之后进行锁定复制,进行最终的字词导出并保存。

其中,SS03正文分析,进行对正文的分析对比包括以下子步骤;

SS03a文档生成,用于在电子文档导入时自动生成主文档、子文档和对比文档;

SS03b字词识别,用于对专利文献中各个板块进行识别划分;

SS03c字词检索,所述字词检索包括限定字跟随判定模块和重复字筛选模块,用于 对正文和题目进行分析;

SS03d字词对比,所述字词对比包括对比文档和对比词库,对比词库和对比文库用 于与所筛选词组进行对比筛选;

SS03e字词获取;用于获取最终判定的关键词组;

SS03f字词显示,用于将字词获取判定的词组进行显示;

SS03g字词保存,用于对主文档、子文档和对比文档进行保存。

其中,SS03c中限定字跟随判定模块用于对专业用词语句中名词的判定提取识别。

其中,SS03d中重复字筛选模块用于对专利文献中多次重复使用的词句进行筛选。

在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指 结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施 例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。 而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合 适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽 叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容, 可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明 的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅 受权利要求书及其全部范围和等效物的限制。

本文发布于:2024-09-21 23:37:37,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/68922.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议