一种基于概率检索模型的大数据专利检索方法

著录项

申请号 CN201710856764.4
申请日 20170921
公开（公告）号 CN107644080A
公开日 20180130
申请（专利权）人合肥集知网知识产权运营有限公司
发明人盛时永
主分类号 G06F17/30
分类号
G06F17/30 G06Q50/18
地址安徽省合肥市高新区天达路2号安徽大学科技园创新楼305室
国省代码安徽(34)

摘要

本发明公开了一种基于概率检索模型的大数据专利检索方法，该方法首先将专利数据库中的所有专利文档向量化，同时将用户的检索信息向量化，并对用户检索提问确定其相关集合和非相关集合，并构建相似度函数；利用贝叶斯公式将相似度函数进行概率模型转换；然后配置初始所有索引词在相关集合中的检索概率；对于用户的检索提问遍历专利数据库中的文档，并计算相似度；通过优化初始计算值来改进检索结果；用户根据呈现的结果，选择所需专利，或者添加或重新输入专利检索词进行二次检索过滤。该方法能够避免传统专利检索方法中检索式构造的非友善性和二值匹配相关性，并通过相似度计算函数提高了专利检索结果的匹配度和关联度。

权利要求



1.一种基于概率检索模型的大数据专利检索方法，其特征在于，所述方法包括如下步骤：

步骤S1：将专利数据库中的所有专利文档dj向量化；

步骤S2：将用户的检索信息q向量化；

步骤S3：对于用户检索提问q确定其相关集合R和非相关集合Rc，这里Rc是R在专利数据库中的补集，并构建相似度函数；

步骤S4：利用贝叶斯公式将相似度函数进行概率模型转换；

步骤S5：配置初始所有索引词Ki在相关集合R中的检索概率；

步骤S6：对于用户的检索提问q遍历专利数据库中的文档，并计算相似度；

步骤S7：通过优化初始计算值来改进检索结果；

步骤S8：用户根据呈现的结果，选择所需专利，或者添加或重新输入专利检索词进行二次检索过滤。

2.根据权利要求1所述的一种基于概率检索模型的大数据专利检索方法，其特征在于，所述步骤S1中专利文档dj向量化方法如下：

d j＝(w 1j,w 2j,……,w tj)

其中，向量分量w ij∈{0,1}代表第i个索引词K i在文档d j中所具有的权重，t为系统中索引词的总数。

3.根据权利要求1所述的一种基于概率检索模型的大数据专利检索方法，其特征在于，所述步骤S2中检索信息q向量化方法如下：

q＝(w 1q,w 2q,……,w tq)

其中t为系统中检索词总数，向量分量w iq∈{0,1}表示第i个索引词K i在提问q中的权值。

4.根据权利要求1所述的一种基于概率检索模型的大数据专利检索方法，其特征在于，所述步骤S3中定义P(R|d j)表示专利文档d j与检索提问q之间的相关概率，P(RC|d j)表示专利文档d j与检索提问q的不相关概率，同时定义文档d j与提问q的相似度函数如下：

SIM(d j，q)＝P(R|d j)/P(R C|d j)。

5.根据权利要求1所述的一种基于概率检索模型的大数据专利检索方法，其特征在于，所述步骤S4中概率模型转换计算公式如下：

SIM(d j，q)＝(P(d j|R)*P(R))/(P(d j|R C)*P(R C))

其中，P(d j|R)表示从相关专利文档集合R中随机选择文档d j的概率；P(d j|R C)表示从非相关专利文档集合R中随机选择文档d j的概率；P(R)和P(R C)分别表示在整个专利数据库中随机选择一篇文档是相关和不相关的概率。

6.根据权利要求1所述的一种基于概率检索模型的大数据专利检索方法，其特征在于，所述步骤S5中设定如下概率计算公式：

P(K i|R)≡0.5；P(K i|R C)＝n i/N

其中n i、N分别表示含有索引词K i的专利文档数和专利数据库中拥有的专利文档总数。

7.根据权利要求1所述的一种基于概率检索模型的大数据专利检索方法，其特征在于，所述步骤S6中按照相似度的大小得到前r个文档，同时组成集合D，其中D中含有索引词K i的文档集合为D i，其中的文档数为r i个。

8.根据权利要求1所述的一种基于概率检索模型的大数据专利检索方法，其特征在于，所述步骤S7中通过改进P(K i|R)和P(K i|R C)的初始计算值来改进检索结果,改进算法如下：

P(K i|R)＝r i/r

P(K i|R C)＝(n i-r i)/(N-r)

以上述最新的初始值重复步骤S6，多次重复检索和改进过程后，输出最终结果提供给用户。

说明书

技术领域

本发明涉及一种大数据专利检索方法，属于专利检索技术领域，具体涉及一种基于概率检索模型的大数据专利检索方法。

20世纪80年代以来，随着世界经济的发展和新技术革命的到来，专利文献作为一种既可以体现科技创新力，又可以保护科研成果不受侵犯的科技法律文献，其重要性越来越受到重视。据世界知识产权组织(World Intellectual Property Organization)报道，专利文献包含全世界每年90％～95％的最新科研成果，其中有70％左右的发明技术从未在其他非专利文献上发表。专利文献指导技术创新，将可以节约40％的研究经费和60％的研究时间，专利已经成为了企业科技创新和投资者商业战略决策的重要科技参考文献。

中国专利数据截止到2013年底达到了600万条，超过了美国和日本，跃居世界第一。面对如此大量的专利信息，用户获取有价值信息的代价也越来越高，正是这种需求导致了专利数据各种研究工作的开展以及各种商业专利服务平台的出现。

相对传统文本而言，专利文献有其特殊性，主要表现在5个方面：

(1)复杂性。专利文献记载着技术解决方案，确定了专利权保护范围，包含很多专业性和细节性的说明，特别是专利中描述技术细节和组成结构的句子表达非常复杂，涉及多种并列结构、依存结构和嵌套结构，在做句法语义分析时也比普通文本遇到更多的挑战。

(2)规范化。专利文献相对网页有更规整的结构化信息，一是它具有统一的分类，二是专利权利说明书遵循一定的写作规范，有效地利用这些规范化信息将有助于对专利的分析。

(3)抽象性。专利作为一种技术上受保护的文献，专利发明人为了垄断技术，会使用更加抽象的上位词表达保护的覆盖范围，这些词包含各种技术术语甚至是自定义词汇，从而增加了词法处理的难度。

(4)唯一性。专利是一种独一无二的信息资源，相对于网页，专利间的文本重叠度往往很小，因此在计算专利相似度时，基于词语重叠的方法并不适用。

(5)多主题多语言。一篇专利文献经常包括多个主题，而且不同国家采用不同的语言描述专利，所以专利检索更加注重跨语言多主题的检索。

对比文件1(一种专利检索的系统和方法，CN201410787225.6)公开了一种专利检索的系统和方法，专利检索的系统包括用户信息管理模块、检索类型选择模块、检索输入模块、检索配对模块和检索输出模块,专利检索的方法包括：S1,从简单检索、高级检索和表达式检索中选择适合本次检索的检索方式,并且进入该检索的窗口；S2,在选择进入的检索方式的窗口中输入检索词,点击检索窗口进入显示窗口；S3,在检索窗口选择专利呈现的形式,并弹出呈现窗口,或者选择二次检索过滤后再次呈现；S4,选择对专利进行保存或则结束进程。该发明中的专利检索主要从功能性模块出发，并没有进行实质性的提出高效率的检索方法。

针对以上缺点，有必要设计出一种新的专利检索方法，避免传统专利检索方法中检索式构造的非友善性和二值匹配相关性，提高专利检索结果的匹配度和关联度。

(一)要解决的技术问题

为了解决现有技术存在的上述问题，本发明提供了一种基于概率检索模型的大数据专利检索方法，该方法能够避免传统专利检索方法中检索式构造的非友善性和二值匹配相关性，提高专利检索结果的匹配度和关联度。

(二)技术方案

本发明提出了一种基于概率检索模型的大数据专利检索方法，该方法包括如下步骤：

步骤S1：将专利数据库中的所有专利文档dj向量化；

步骤S2：将用户的检索信息q向量化；

步骤S3：对于用户检索提问q确定其相关集合R和非相关集合Rc，这里Rc是R在专利数据库中的补集，并构建相似度函数；

步骤S4：利用贝叶斯公式将相似度函数进行概率模型转换；

步骤S5：配置初始所有索引词Ki在相关集合R中的检索概率；

步骤S6：对于用户的检索提问q遍历专利数据库中的文档，并计算相似度；

步骤S7：通过优化初始计算值来改进检索结果；

步骤S8：用户根据呈现的结果，选择所需专利，或者添加或重新输入专利检索词进行二次检索过滤。

优选的，所述步骤S1中，专利文档dj向量化方法如下：

dj＝(w1j,w2j,……,wtj)其中，向量分量wij∈{0,1}代表第i个索引词Ki在文档dj中所具有的权重，t为系统中索引词的总数。

优选的，所述步骤S2中，检索信息q向量化方法如下：

q＝(w1q,w2q,……,wtq),其中t为系统中检索词总数，向量分量wiq∈{0,1}表示第i 个索引词Ki在提问q中的权值。

优选的，所述步骤S3中，定义P(R|dj)表示专利文档dj与检索提问q之间的相关概率，P(RC|dj)表示专利文档dj与检索提问q的不相关概率。进一步定义文档dj与提问q的相似度函数如下：

SIM(dj，q)＝P(R|dj)/P(RC|dj)

优选的，所述步骤S4中概率模型转换计算公式如下：

SIM(dj，q)＝(P(dj|R)*P(R))/(P(dj|RC)*P(RC))

其中，P(dj|R)表示从相关专利文档集合R中随机选择文档dj的概率；P(dj|RC)表示从非相关专利文档集合R中随机选择文档dj的概率；P(R)和P(RC)分别表示在整个专利数据库中随机选择一篇文档是相关和不相关的概率。进一步通过化简转换，从上述相似度公式推导出如下公式：

SIM(dj，q)∽Σlog[(P(Ki|R)*(1-P(Ki|RC)))/(P(Ki|RC)*(1-P(Ki|R)))]

其中，Ki是第i个索引词，P(Ki|R)表示在R中随机选择一篇专利文档，其中含有索引词Ki的概率；P(Ki|RC)分别表示在RC中随机选择一篇专利文档，其中含有索引词Ki的概率。

优选的，所述步骤S5中设定如下概率计算公式：

P(Ki|R)≡0.5；P(Ki|RC)＝ni/N

其中ni、N分别表示含有索引词Ki的专利文档数和专利数据库中拥有的专利文档总数。

优选的，所述步骤S6中按照相似度的大小得到前r个文档，同时组成集合D，其中D 中含有索引词Ki的文档集合为Di，其中的文档数为ri个。

优选的，所述步骤S7中，对S6步骤得出的结果进行改进。具体做法是通过改进P(Ki |R)和P(Ki|RC)的初始计算值来改进检索结果。改进方案如下：

P(Ki|R)＝ri/r

P(Ki|RC)＝(ni-ri)/(N-r)

以上述最新的初始值重复步骤S6，多次重复检索和改进过程后，输出最终结果提供给用户。

(三)有益效果

从上述技术方案可以看出，本发明提出的基于概率检索模型的大数据专利检索方法具有以下有益效果：

1、该方法能够避免传统专利检索方法中检索式构造的非友善性和二值匹配相关性。

2、该方法通过相似度计算函数提高了专利检索结果的匹配度和关联度。

图1显示了本发明优选实施例的基于概率检索模型的大数据专利检索方法流程图。

下面结合附图，对本发明做的实施例作详细说明：本实施例在以本发明技术方案前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

图1显示了本发明优选实施例的基于概率检索模型的大数据专利检索方法流程图。

如图1所示，本发明优选实施例的基于概率检索模型的大数据专利检索方法包括如下步骤：

步骤S1：将专利数据库中的所有专利文档dj向量化；专利文档dj向量化方法如下：

dj＝(w1j,w2j,……,wtj)

其中，向量分量wij∈{0,1}代表第i个索引词Ki在文档dj中所具有的权重，t为系统中索引词的总数。

步骤S2：将用户的检索信息q向量化；检索信息q向量化方法如下：

q＝(w1q,w2q,……,wtq)

其中t为系统中检索词总数，向量分量wiq∈{0,1}表示第i个索引词Ki在提问q中的权值。

步骤S3：对于用户检索提问q确定其相关集合R和非相关集合Rc，这里Rc是R在专利数据库中的补集，并构建相似度函数；

定义P(R|dj)表示专利文档dj与检索提问q之间的相关概率，P(RC|dj)表示专利文档dj与检索提问q的不相关概率。进一步定义文档dj与提问q的相似度函数如下：

SIM(dj，q)＝P(R|dj)/P(RC|dj)

步骤S4：利用贝叶斯公式将相似度函数进行概率模型转换；概率模型转换计算公式如下：

SIM(dj，q)＝(P(dj|R)*P(R))/(P(dj|RC)*P(RC))

SIM(dj，q)∽Σlog[(P(Ki|R)*(1-P(Ki|RC)))/(P(Ki|RC)*(1-P(Ki|R)))]

步骤S5：配置初始所有索引词Ki在相关集合R中的检索概率；设定如下概率计算公式：

P(Ki|R)≡0.5；P(Ki|RC)＝ni/N

其中ni、N分别表示含有索引词Ki的专利文档数和专利数据库中拥有的专利文档总数。

步骤S6：对于用户的检索提问q遍历专利数据库中的文档，并计算相似度；按照相似度的大小得到前r个文档，同时组成集合D，其中D中含有索引词Ki的文档集合为Di，其中的文档数为ri个。

步骤S7：通过优化初始计算值来改进检索结果；对S6步骤得出的结果进行改进。具体做法是通过改进P(Ki|R)和P(Ki|RC)的初始计算值来改进检索结果。改进方案如下：

P(Ki|R)＝ri/r

P(Ki|RC)＝(ni-ri)/(N-r)

以上述最新的初始值重复步骤S6，多次重复检索和改进过程后，输出最终结果提供给用户。

步骤S8：用户根据呈现的结果，选择所需专利，或者添加或重新输入专利检索词进行二次检索过滤。

综上所述，本发明提出了一种基于概率检索模型的大数据专利检索方法，该方法首先将专利数据库中的所有专利文档向量化，同时将用户的检索信息q向量化，并对用户检索提问确定其相关集合和非相关集合，并构建相似度函数；利用贝叶斯公式将相似度函数进行概率模型转换；然后配置初始所有索引词在相关集合中的检索概率；对于用户的检索提问遍历专利数据库中的文档，并计算相似度；通过优化初始计算值来改进检索结果；用户根据呈现的结果，选择所需专利，或者添加或重新输入专利检索词进行二次检索过滤。该方法能够避免传统专利检索方法中检索式构造的非友善性和二值匹配相关性，并通过相似度计算函数提高了专利检索结果的匹配度和关联度。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

本文发布于:2024-09-22 06:52:04，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/3/68629.html

上一篇：专利检索结果列表数据排序规则调优方法及系统

下一篇：一种2-羟基琥珀酸类化合物及其药物组合物和应用

标签：一种基于概率检索模型的大数据专利检索方法

留言与评论（共有 0 条评论）