一种专利检索时智能推荐专利的方法

著录项
  • CN201310021953.1
  • 20130122
  • CN103064982A
  • 20130424
  • 桂林电子科技大学
  • 张晓宇;彭文乐;文益民;曾德森;汪华登
  • G06F17/30
  • G06F17/30

  • 广西壮族自治区桂林市七星区金鸡路1号
  • 中国,CN,广西(45)
  • 桂林市华杰专利商标事务所有限责任公司
  • 巢雄辉
摘要
本发明所提出的一种专利检索时智能推荐专利的方法,是经过专利检索式输入和专利数据获取后,生成目标专利特征向量,智能生成推荐专利集,并进行推荐专利排序,该方法可以向专利检索者智能推荐通过检索式不能检索到的相关专利,减少漏检。对非专业检索人员能给予很大的帮助,即使对专业检索,也提供了一种新的工具,可以大大降低漏检率。
权利要求

1.一种专利检索时智能推荐专利的方法,包括专利检索式输入、专利数据获取、专利排序,其特征在于:经过专利检索式输入和专利数据获取后,生成目标专利特征向量,智能生成推荐专利集,并进行推荐专利排序,具体步骤包含:

(1)根据用户输入的检索式通过专利检索平台获取一个包括检索到的全部专利数据的专利集合,称为                                                                 ,提取 中各专利的专利名称、专利分类号、专利摘要;

(2)提取 C中全部专利的专利分类号所覆盖的最长的公共部分,设此字符串为 ,设此类字符串的数量为 m个,并根据 将 中各专利分成各组 C i, ,也就是有 ;

(3)根据 中专利的分组,分别提取各组 中各个专利的摘要,然后对各摘要实施分词,留下名词和动词,然后统计每个词语出现的频次,按从高到低排序,取前 K个词语对应的频次,构成各组 C i的目标专利特征向量 ,将这 K个词语构成的集合分别定义为各组 C i的词表 ;

(4)分别提取各组 中各个专利的标题实施分词,留下名词和动词,构成各组 C i的检索词集合 ;

(5)利用各组 C i的检索词集合 中的各个检索词,在专利检索平台以专利分类号为 加通配符*再进行检索,得到专利集合 ,从而得到与各组 C i相对应的推荐专利集 ,  中专利数量为 m i个;

(6)在推荐专利集 中提取各个专利的摘要,然后对各摘要实施分词,留下名词和动词,然后统计每个词语出现的频次,根据词表 中词语的顺序,定义一个 K维向量,若词表 中的某词不在分词结果中,则填入0,否则填入该词的频次,用 表示推荐专利集 中第 篇专利的专利特征向量,1≤ j≤ m i,按下式计算第 篇专利与目标专利特征向量 之间的关联度:

(7)依次计算每个推荐专利集 中各个推荐专利与该组的目标专利特征向量 之间的关联度,最后将 中所有推荐专利的关联度按照从高到低的顺序排序。

2.如权利要求1的专利检索时智能推荐专利的方法,其特征在于:所述专利为专利检索平台可输出的专利,包括已经授予专利权的和没有授予专利权的。

3.如权利要求1的专利检索时智能推荐专利的方法,其特征在于:具体过程通过在计算机上运行程序完成。

说明书
技术领域

本发明涉及智能信息处理技术,更进一步是关于信息智能推荐的技术,具体是一种专利检索时智能推荐专利的方法。

在我国,较有权威和影响力的专利检索网络平台包括:中国国家知识产权局网站(www.sipo.gov.com)、中国知识产权网(www.cnipr.com)、中国专利网(www.cnpatent. Com)、中国专利信息网(www.patent)、Soopat专利搜索(www.soopat.com)和Patentics(www.patentics.com)以及中国期刊网(wwwki)。这七大专利检索平台采用的检索形式与传统信息检索类似,采用字段检索,输入检索词或按照“*” (与)、“+”(或)、“一”(非)等组成字段内或字段间逻辑关系式。这些字段包括:专利号、专利名称、摘要、国际分类号、发明人、申请人、公开日等。

随着科技的迅速发展和经济的全球化,专利的作用越来越得到人们的重视。如今,从某种程度上说,国家之间的竞争等同于科学技术之间的竞争。进入21世纪以来,专利信息增长尤为迅速。全世界每年出版的专利说明书在百万件以上;我国每年公布的专利说明书也呈快速增长趋势。根据国家统计局的数据——2007年受理国内外发明专利申请24.5万件,2008年受理国内外发明专利申请29.0万件,2009年受理国内外专利申请97.7万件,2010年受理国内外专利申请122.2万件。专利信息的如此快速增长带来了信息超载,即科技研发人员从以上专利检索平台的海量专利信息里寻自己感兴趣的专利将成为一件不轻松的工作。专利推荐算法作为一种信息过滤的重要手段,是解决专利信息超载的一种重要的、有潜力的方法。

目前主流的推荐算法主要包含以下几大类(许海玲, 吴潇, 李晓东等. 互联网推荐系统比较研究[J]. 软件学报,2009, 20(2): 350‑362):基于内容的推荐,协同过滤的推荐,基于知识的推荐和组合推荐。仲伟炜通过跟踪和记录用户的访问操作行为,分析专利查询者经常一起查阅的专利文献,利用关联规则来分析专利文献的相关性,以实现专利文献的个性化推荐(仲伟炜. 专利文献分类及关联推荐技术应用研究[D]. 南京, 南京航空航天大学,2009)。该算法本质上属于协同过滤推荐,需要跟踪大量用户的专利检索行为,所推荐专利是一专利用户的共同兴趣。而对于科技研发人员来所,经常需要检索与本身研究目的相关的专利。通过专利检索,了解当前研究现状,同时拓展研究思路。在这种情况下文献(仲伟炜. 专利文献分类及关联推荐技术应用研究[D]. 南京, 南京航空航天大学,2009)中提出的算法将变得不再适应。

本发明的目的是提供一种在专利检索时智能推荐专利的方法。本发明可以解决的技术问题是在已有专利检索平台的基础上根据专利检索者提供的检索式,实现对与专利检索平台返回结果相关的其他专利的智能推荐,可用于解决科研技术人员在进行专利检索时的相关专利的推荐问题。

本发明所提出的一种专利检索时智能推荐专利的方法,是经过专利检索式输入和专利数据获取后,生成目标专利特征向量,智能生成推荐专利集,并进行推荐专利排序,具体步骤包含:

(1)根据用户输入的检索式,通过专利检索平台获取得到一个包括全部专利数据的专利集合,称为                                                ,提取中各专利的专利名称、专利分类号、专利摘要;

(2)提取C中全部专利的专利分类号所覆盖的最长的公共部分,设此字符串为,设此类字符串的数量为m个,并根据将中各专利分成各组[X1] ,,也就是有;

(3)根据中专利的分组,分别提取各组中各个专利的摘要,然后对各摘要实施分词,留下名词和动词,然后统计每个词语出现的频次,按从高到低排序,取前K个词语对应的频次,构成各组Ci的目标专利特征向量,将这K个词语构成的集合分别定义为各组Ci的词表;

(4)分别提取各组中各个专利的标题实施分词,留下名词和动词,构成各组Ci对应的检索词集合;

(5)利用各组Ci对应的检索词集合中的各个检索词,在专利检索平台以专利分类号加通配符*再进行检索,得到专利集合,从而得到与各组Ci相对应的推荐专利集,中专利数量为mi个;

(6)在推荐专利集中提取各个专利的摘要,然后对各摘要实施分词,留下名词和动词,然后统计每个词语出现的频次,根据词表中词语的顺序,定义一个K维向量,若词表中的某词不在分词结果中,则填入0,否则填入该词的频次,用表示推荐专利集中第篇专利的专利特征向量,1≤jmi,按下式计算第篇专利与目标专利特征向量之间的关联度:

(7)依次计算每个推荐专利集中各个推荐专利与该组的专利目标特征向量之间的关联度,最后将中所有推荐专利的关联度按照从高到低的顺序排序。

上述所述的专利是指专利检索平台可输出的专利,包括已经授予专利权的和没有授予专利权的。

为了高效准确地完成任务,本发明涉及的具体过程最好是通过在计算机上运行程序来完成。

本发明定义:目标专利特征向量表示使用某个检索式在某个专利检索平台上检索得到的专利集合的内容的特征。

本发明的方法可以向专利检索者智能推荐通过检索式不能检索到的相关专利,减少漏检。对非专业检索人员给予很大的帮助,即使对专业检索,也提供了一种新的工具,可以大大降低漏检率。

图1是本发明的流程示意图;

图2是本发明中专利数据获取流程示意图;

图3是本发明中目标专利特征向量生成流程示意图;

图4 是本发明中推荐专利集生成流程示意图;

图5是本发明中推荐专利排序流程示意图。

下面结合附图对本发明作进一步的描述。

第一、专利数据获取

根据用户输入的检索式通过某个专利在线检索平台检索得到专利集合,并获取中专利的专利名、专利分类号、专利摘要等信息。专利数据获取流程如图2所示。在此图中,选取的专利在线检索平台可为前面提及的七大专利检索平台中的任何一个。

第二、目标专利特征向量生成

目标专利特征向量的计算方法见图3,主要步骤如下:

(1)取中各专利的专利分类号最长的公共部分,设此字符串为,设此类字符串的数量为m,并根据将中专利进行分组,也就是有;

(2)根据中专利的分组,分别提取各组中各个专利的摘要;然后对各摘要实施分词;过滤掉量词和副词等词语后,留下名词和动词两类词语;然后统计各个词语出现的总频率;按词频从高到低排序,取前K个词语对应的词频,构成各组对应的目标专利特征向量。构成,这K个词语构成的集合分别定义为词表。取K=10。

第三、推荐专利集生成

见图4,主要步骤如下:

(1)对各个专利分组()中的各专利的标题进行中文分词,过滤掉量词、副词等语义表达能力不强的词语,留下的词性为动词和名词的词构成专利分组对应的检索词集合();

(2)利用检索词集合中的各个词通过专利在线检索引擎平台在专利分类号=+* (,*表示通配符)条件下再进行检索,得到专利集合()。从而得到推荐专利集合(),中专利数量为mi个。

第四、推荐专利排序

见图5。

用于描述推荐专利的内容特征的10维向量被称为专利特征向量。专利特征向量的构造方法是:在推荐专利集合()中提取第篇(1≤jmi)专利的摘要;对其进行中文分词,过滤掉量词和副词等词语,留下名词和动词两类词语;然后统计各个词语的词频,根据词表中词语的顺序,定义一个10维向量。若词表中的某词不在分词结果中,则填入0,否则填入该词的词频。用表示专利集合()中第篇专利的专利特征向量,则该推荐专利与目标专利特征向量之间的关联度Sk(1[X2] )计算如下式所示:

S k

依次计算每个推荐专利集合()中各个推荐专利与该组的专利目标特征向量之间的关联度,最后将中所有推荐专利的关联度Sk (1≤k≤[X3] )按照从高到低的顺序排序输出。

本文发布于:2024-09-20 22:36:03,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/67754.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议