文本检索方法、装置、存储介质及服务器

著录项
  • CN202111404155.8
  • 20211124
  • CN114090799A
  • 20220225
  • 开普云信息科技股份有限公司;北京开普云信息科技有限公司
  • 汪敏;严妍;裴非;赵达;张路
  • G06F16/383
  • G06F16/383 G06F16/33 G06F16/338 G06F16/31 G06F16/36

  • 广东省东莞市石龙镇中山东东升路1号汇星商业中心5栋2单元1805室
  • 广东(44)
  • 北京德崇智捷知识产权代理有限公司
  • 邢飞飞
摘要
本申请公开了一种文本检索方法、装置、存储介质及服务器,属于数据检索技术领域。所述方法包括:获取待检索的第一专利文本的第一词袋组合和第一专利信息;获取专利数据库中每个第二专利文本的第二词袋组合和第二专利信息;根据第一词袋组合、第二词袋组合和词条的IPC权重,筛选与第一专利文本相似的n个第二专利文本,得到粗选集;根据第一词袋组合、粗选集中的第二词袋组合、各个词条之间的余弦距离和IPC权重,从粗选集中筛选与第一专利文本相似的m个第二专利文本,得到细选集;根据第一专利信息与第二专利信息的匹配度,对细选集中的各个第二专利文本的排序进行调整,得到检索结果。本申请可以提高检索效率和准确率。
权利要求

1.一种文本检索方法,其特征在于,所述方法包括:

获取待检索的第一专利文本的第一词袋组合和第一专利信息,所述第一词袋组合中包含至少一个第一词袋,且每个第一词袋中包含所述第一专利文本的一个字段组合中每个词条的标识和词频,所述字段组合包括标题、摘要、权利要求书或说明书中的至少一种;

获取专利数据库中每个第二专利文本的第二词袋组合和第二专利信息,所述第二词袋组合中包含至少一个第二词袋,每个第二词袋中包含所述第二专利文本的对应字段组合中每个词条的标识和词频;

根据所述第一词袋组合、所述第二词袋组合和词条的IPC权重,筛选与所述第一专利文本相似的n个第二专利文本,得到粗选集;

根据所述第一词袋组合、所述粗选集中的第二词袋组合、各个词条之间的余弦距离和所述IPC权重,从所述粗选集中筛选与所述第一专利文本相似的m个第二专利文本,得到细选集,m≤n;

根据所述第一专利信息与所述第二专利信息的匹配度,对所述细选集中的各个第二专利文本的排序进行调整,得到检索结果。

2.根据权利要求1所述的方法,其特征在于,所述根据所述第一词袋组合、所述第二词袋组合和词条的IPC权重,筛选与所述第一专利文本相似的n个第二专利文本,包括:

基于词频相似度算法和所述IPC权重,计算所述第一词袋组合中的每个第一词袋与各个所述第二词袋组合中对应的第二词袋的文本相似度;

对于每个第一词袋,获取与所述第一词袋的文本相似度最高的前i个第二词袋,所述i为正整数;

对每个第一词袋对应的i个第二词袋取并集,得到第一次筛选的第二专利文本;

对与所述第一词袋组合的文本相似度最高的多个第二专利文本进行筛选,得到第二次筛选的第二专利文本;

将两次筛选得到的第二专利文本组成所述粗选集。

3.根据权利要求2所述的方法,其特征在于,

所述获取专利数据库中每个第二专利文本的第二词袋组合和第二专利信息,包括:从所述专利数据库中筛选与所述第一专利文本的IPC分类相匹配的多个第二专利文本;获取筛选出的每个第二专利文本的第二词袋组合和第二专利信息;

所述基于所述词频相似度算法和所述IPC权重,计算所述第一词袋组合中的每个第一词袋与各个所述第二词袋组合中对应的第二词袋的文本相似度,包括:基于所述词频相似度算法,计算每个第一词袋中的词条与对应的第二词袋中的词条之间的相似度,计算所述第一词袋中所有词条的相似度与IPC分类权重的加权和,得到所述第一词袋与对应的第二词袋之间的文本相似度,所述IPC分类权重是词条在所述第一专利文本的IPC分类中的权重。

4.根据权利要求3所述的方法,其特征在于,所述从所述专利数据库中筛选与所述第一专利文本的IPC分类相匹配的多个第二专利文本,包括:

获取所述第一专利文本的IPC分类和预设的IPC映射,所述IPC映射中包含各个IPC分类和各个IPC分类集合之间的对应关系,且所述IPC映射是根据专利文本和所述专利文本的对比文件生成的;从所述IPC映射中获取与所述第一专利文本的IPC分类对应的IPC分类集合;从所述专利数据库中筛选属于所述IPC分类集合的多个第二专利文本;或者,

获取所述第一专利文本的IPC分类;从所述专利数据库中筛选属于所述IPC分类的多个第二专利文本,或者,确定所述IPC分类的上级IPC分类,从所述专利数据库中筛选属于所述上级IPC分类的多个第二专利文本。

5.根据权利要求2所述的方法,其特征在于,所述基于所述词频相似度算法和所述IPC权重,计算所述第一词袋组合中的每个第一词袋与各个所述第二词袋组合中对应的第二词袋的文本相似度,包括:

基于所述词频相似度算法,计算每个第一词袋中的词条与对应的第二词袋中的词条之间的相似度;

计算所述第一词袋中所有词条的相似度与IPC总权重的加权和,得到所述第一词袋与对应的第二词袋之间的文本相似度,所述IPC总权重是词条在所有专利文本中的权重。

6.根据权利要求1所述的方法,其特征在于,所述根据所述第一词袋组合、所述粗选集中的第二词袋组合、各个词条之间的余弦距离和所述IPC权重,从所述粗选集中筛选与所述第一专利文本相似的m个第二专利文本,得到细选集,包括:

基于词频相似度算法和IPC分类权重,计算所述第一词袋组合与所述粗选集中对应的第二词袋组合的文本相似度;

基于词移距离算法、各个词条之间的余弦距离和IPC分类权重,计算所述第一词袋组合与所述粗选集中对应的第二词袋组合的语义相似度;

根据预设的字段组合权重计算所述文本相似度和所述语义相似度的加权和,得到所述第一专利文本与所述粗选集中每个第二专利文本的整体相似度;

将整体相似度最高的前j个第二专利文本组成所述细选集,所述j为正整数;

其中,所述IPC分类权重是词条在所述第一专利文本的IPC分类中的权重。

7.根据权利要求1所述的方法,其特征在于,当所述第一专利信息包括第一著录项信息和第一附图数据,且所述第二专利信息包括第二著录项信息和第二附图数据时,所述根据所述第一专利信息与所述第二专利信息的匹配度,对所述细选集中的各个第二专利文本的排序进行调整,得到检索结果,包括:

对所述第一附图数据和所述第二附图数据进行交并比计算,得到计算结果;

将所述第一著录项信息中的每项内容与所述第二著录项信息中对应内容进行比较,得到比较结果;

根据预设的项目权重计算所述计算结果和所述比较结果的加权和,得到所述第一专利文本与所述细选集中每个第二专利文本的附加相似度;

根据每个附加相似度和对应的第二专利文本的整体相似度,对所述细选集中各个第二专利文本的排序进行调整,得到所述检索结果。

8.根据权利要求1所述的方法,其特征在于,所述获取待检索的第一专利文本的第一词袋组合和第一专利信息,包括:

获取所述第一专利文本的申请号,根据所述申请号从所述专利数据库中获取所述第一词袋组合和所述第一专利信息;或者,

获取所述第一专利文本,从所述第一专利文本中提取所述第一词袋组合和所述第一专利信息。

9.根据权利要求1至8中任一项所述的方法,其特征在于,所述方法还包括:

对于预处理的每个专利文本,对所述专利文本分别进行分字处理和分词处理,得到多个词条,所述词条包括字和词汇;

分别在所有专利文本中和在IPC分类中对每个词条的词频进行统计,得到每个词条的统计信息,根据所述统计信息生成每个词条的IPC权重;

基于TF-IDF算法和所述统计信息分别对字和词汇进行排序,并根据词性标注对排序结果进行筛选;

将每个字的标识、词频和对应的IPC权重组成字典;

从筛选结果中选择排序在前的q个词汇,将每个词汇的标识、词频和对应的IPC权重组成词典,所述q为正整数;

将所述字典和所述词典存储到所述专利数据库中。

10.根据权利要求9所述的方法,其特征在于,所述方法还包括:

对所述专利文本中至少一个字段中的词条进行W2V计算,得到每个词条的词向量;

根据所述词向量,计算所述字典中任意两个字之间的余弦距离,并计算所述词典中任意两个词汇之间的余弦距离;

将所述余弦距离存储到所述专利数据库中。

11.根据权利要求9所述的方法,其特征在于,所述方法还包括:

获取所述专利文本中的至少一个字段;

对于所述至少一个字段中的每个字段,对所述字段分别进行分字处理和分词处理,得到多个词条;

统计每个词条的词频,并将每个字段的词条的标识和词频组成一个词袋;

将所述词袋存储到所述专利数据库中。

12.根据权利要求11所述的方法,其特征在于,所述将所述词袋存储到所述专利数据库中,包括:

将各个专利文本的词袋进行哈希运算,得到哈希结果;

将所述哈希结果切片后部署到多个节点的专利数据库中。

13.根据权利要求1所述的方法,其特征在于,所述方法还包括:

当向所述专利数据库中增加的专利文本的数量超过第一阈值时,重新生成所述专利数据库;或者,

当根据所述专利数据库得到的检索结果的准确率下降超过第二阈值时,重新生成所述专利数据库。

14.一种文本检索装置,其特征在于,所述装置包括:

第一获取模块,用于获取待检索的第一专利文本的第一词袋组合和第一专利信息,所述第一词袋组合中包含至少一个第一词袋,且每个第一词袋中包含所述第一专利文本的一个字段组合中每个词条的标识和词频,所述字段组合包括标题、摘要、权利要求书或说明书中的至少一种;

第二获取模块,用于获取专利数据库中每个第二专利文本的第二词袋组合和第二专利信息,所述第二词袋组合中包含至少一个第二词袋,每个第二词袋中包含所述第二专利文本的对应字段组合中每个词条的标识和词频;

第一筛选模块,用于根据所述第一词袋组合、所述第二词袋组合和词条的IPC权重,筛选与所述第一专利文本相似的n个第二专利文本,得到粗选集;

第二筛选模块,用于根据所述第一词袋组合、所述粗选集中的第二词袋组合、各个词条之间的余弦距离和所述IPC权重,从所述粗选集中筛选与所述第一专利文本相似的m个第二专利文本,得到细选集,m≤n;

排序调整模块,用于根据所述第一专利信息与所述第二专利信息的匹配度,对所述细选集中的各个第二专利文本的排序进行调整,得到检索结果。

15.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至13任一所述的文本检索方法。

16.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如权利要求1至13任一所述的文本检索方法。

说明书
技术领域

本申请实施例涉及数据检索技术领域,特别涉及一种文本检索方法、装置、存储介质及服务器。

专利是一种受法律保护的特殊文件,随着国家对专利知识产权保护的逐步重视,越来越多的专利申请开始需要高效进行审核,这就需要审核人员花费大量精力和时间去检索相似的对比文件,以判断专利申请的创造性。

审核人员在专利检索引擎中输入待检索的第一专利文本后,检索引擎可以将该第一专利文本中的每个语句转换成句向量,并计算该第一专利文本中所有句向量与专利数据库中预存的每个第二专利文本中所有句向量之间的相似度,按照相似度从大到小的顺序对各个第二专利文本进行排序,将排序后的第二专利文本作为检索结果。

由于数据库中预存的第二专利文本的数量较多,逐一比较所有句向量的相似度的计算量较大,导致检索效率较低,且通过句向量的相似度来检索的准确率不高。

本申请实施例提供了一种文本检索方法、装置、存储介质及服务器,用于解决根据句向量进行检索时,检索效率低且准确率不高的问题。所述技术方案如下:

一方面,提供了一种文本检索方法,所述方法包括:

获取待检索的第一专利文本的第一词袋组合和第一专利信息,所述第一词袋组合中包含至少一个第一词袋,且每个第一词袋中包含所述第一专利文本的一个字段组合中每个词条的标识和词频,所述字段组合包括标题、摘要、权利要求书或说明书中的至少一种;

获取专利数据库中每个第二专利文本的第二词袋组合和第二专利信息,所述第二词袋组合中包含至少一个第二词袋,每个第二词袋中包含所述第二专利文本的对应字段组合中每个词条的标识和词频;

根据所述第一词袋组合、所述第二词袋组合和词条的IPC权重,筛选与所述第一专利文本相似的n个第二专利文本,得到粗选集;

根据所述第一词袋组合、所述粗选集中的第二词袋组合、各个词条之间的余弦距离和所述IPC权重,从所述粗选集中筛选与所述第一专利文本相似的m个第二专利文本,得到细选集,m≤n;

根据所述第一专利信息与所述第二专利信息的匹配度,对所述细选集中的各个第二专利文本的排序进行调整,得到检索结果。

在一种可能的实现方式中,所述根据所述第一词袋组合、所述第二词袋组合和词条的IPC权重,筛选与所述第一专利文本相似的n个第二专利文本,包括:

基于词频相似度算法和所述IPC权重,计算所述第一词袋组合中的每个第一词袋与各个所述第二词袋组合中对应的第二词袋的文本相似度;

对于每个第一词袋,获取与所述第一词袋的文本相似度最高的前i个第二词袋,所述i为正整数;

对每个第一词袋对应的i个第二词袋取并集,得到第一次筛选的第二专利文本;

对与所述第一词袋组合的文本相似度最高的多个第二专利文本进行筛选,得到第二次筛选的第二专利文本;

将两次筛选得到的第二专利文本组成所述粗选集。

在一种可能的实现方式中,所述获取专利数据库中每个第二专利文本的第二词袋组合和第二专利信息,包括:从所述专利数据库中筛选与所述第一专利文本的IPC分类相匹配的多个第二专利文本;获取筛选出的每个第二专利文本的第二词袋组合和第二专利信息;

所述基于所述词频相似度算法和所述IPC权重,计算所述第一词袋组合中的每个第一词袋与各个所述第二词袋组合中对应的第二词袋的文本相似度,包括:基于所述词频相似度算法,计算每个第一词袋中的词条与对应的第二词袋中的词条之间的相似度,计算所述第一词袋中所有词条的相似度与IPC分类权重的加权和,得到所述第一词袋与对应的第二词袋之间的文本相似度,所述IPC分类权重是词条在所述第一专利文本的IPC分类中的权重。

在一种可能的实现方式中,所述从所述专利数据库中筛选与所述第一专利文本的IPC分类相匹配的多个第二专利文本,包括:

获取所述第一专利文本的IPC分类和预设的IPC映射,所述IPC映射中包含各个IPC分类和各个IPC分类集合之间的对应关系,且所述IPC映射是根据专利文本和所述专利文本的对比文件生成的;从所述IPC映射中获取与所述第一专利文本的IPC分类对应的IPC分类集合;从所述专利数据库中筛选属于所述IPC分类集合的多个第二专利文本;或者,

获取所述第一专利文本的IPC分类;从所述专利数据库中筛选属于所述IPC分类的多个第二专利文本,或者,确定所述IPC分类的上级IPC分类,从所述专利数据库中筛选属于所述上级IPC分类的多个第二专利文本。

在一种可能的实现方式中,所述基于所述词频相似度算法和所述IPC权重,计算所述第一词袋组合中的每个第一词袋与各个所述第二词袋组合中对应的第二词袋的文本相似度,包括:

基于所述词频相似度算法,计算每个第一词袋中的词条与对应的第二词袋中的词条之间的相似度;

计算所述第一词袋中所有词条的相似度与IPC总权重的加权和,得到所述第一词袋与对应的第二词袋之间的文本相似度,所述IPC总权重是词条在所有专利文本中的权重。

在一种可能的实现方式中,所述根据所述第一词袋组合、所述粗选集中的第二词袋组合、各个词条之间的余弦距离和所述IPC权重,从所述粗选集中筛选与所述第一专利文本相似的m个第二专利文本,得到细选集,包括:

基于词频相似度算法和IPC分类权重,计算所述第一词袋组合与所述粗选集中对应的第二词袋组合的文本相似度;

基于词移距离算法、各个词条之间的余弦距离和IPC分类权重,计算所述第一词袋组合与所述粗选集中对应的第二词袋组合的语义相似度;

根据预设的字段组合权重计算所述文本相似度和所述语义相似度的加权和,得到所述第一专利文本与所述粗选集中每个第二专利文本的整体相似度;

将整体相似度最高的前j个第二专利文本组成所述细选集,所述j为正整数;

其中,所述IPC分类权重是词条在所述第一专利文本的IPC分类中的权重。

在一种可能的实现方式中,当所述第一专利信息包括第一著录项信息和第一附图数据,且所述第二专利信息包括第二著录项信息和第二附图数据时,所述根据所述第一专利信息与所述第二专利信息的匹配度,对所述细选集中的各个第二专利文本的排序进行调整,得到检索结果,包括:

对所述第一附图数据和所述第二附图数据进行交并比计算,得到计算结果;

将所述第一著录项信息中的每项内容与所述第二著录项信息中对应内容进行比较,得到比较结果;

根据预设的项目权重计算所述计算结果和所述比较结果的加权和,得到所述第一专利文本与所述细选集中每个第二专利文本的附加相似度;

根据每个附加相似度和对应的第二专利文本的整体相似度,对所述细选集中各个第二专利文本的排序进行调整,得到所述检索结果。

在一种可能的实现方式中,所述获取待检索的第一专利文本的第一词袋组合和第一专利信息,包括:

获取所述第一专利文本的申请号,根据所述申请号从所述专利数据库中获取所述第一词袋组合和所述第一专利信息;或者,

获取所述第一专利文本,从所述第一专利文本中提取所述第一词袋组合和所述第一专利信息。

在一种可能的实现方式中,所述方法还包括:

对于预处理的每个专利文本,对所述专利文本分别进行分字处理和分词处理,得到多个词条,所述词条包括字和词汇;

分别在所有专利文本中和在IPC分类中对每个词条的词频进行统计,得到每个词条的统计信息,根据所述统计信息生成每个词条的IPC权重;

基于TF-IDF算法和所述统计信息分别对字和词汇进行排序,并根据词性标注对排序结果进行筛选;

将每个字的标识、词频和对应的IPC权重组成字典;

从筛选结果中选择排序在前的q个词汇,将每个词汇的标识、词频和对应的IPC权重组成词典,所述q为正整数;

将所述字典和所述词典存储到所述专利数据库中。

在一种可能的实现方式中,所述方法还包括:

对所述专利文本中至少一个字段中的词条进行W2V计算,得到每个词条的词向量;

根据所述词向量,计算所述字典中任意两个字之间的余弦距离,并计算所述词典中任意两个词汇之间的余弦距离;

将所述余弦距离存储到所述专利数据库中。

在一种可能的实现方式中,所述方法还包括:

获取所述专利文本中的至少一个字段;

对于所述至少一个字段中的每个字段,对所述字段分别进行分字处理和分词处理,得到多个词条;

统计每个词条的词频,并将每个字段的词条的标识和词频组成一个词袋;

将所述词袋存储到所述专利数据库中。

在一种可能的实现方式中,所述将所述词袋存储到所述专利数据库中,包括:

将各个专利文本的词袋进行哈希运算,得到哈希结果;

将所述哈希结果切片后部署到多个节点的专利数据库中。

在一种可能的实现方式中,所述方法还包括:

当向所述专利数据库中增加的专利文本的数量超过第一阈值时,重新生成所述专利数据库;或者,

当根据所述专利数据库得到的检索结果的准确率下降超过第二阈值时,重新生成所述专利数据库。

一方面,提供了一种文本检索装置,所述装置包括:

第一获取模块,用于获取待检索的第一专利文本的第一词袋组合和第一专利信息,所述第一词袋组合中包含至少一个第一词袋,且每个第一词袋中包含所述第一专利文本的一个字段组合中每个词条的标识和词频,所述字段组合包括标题、摘要、权利要求书或说明书中的至少一种;

第二获取模块,用于获取专利数据库中每个第二专利文本的第二词袋组合和第二专利信息,所述第二词袋组合中包含至少一个第二词袋,每个第二词袋中包含所述第二专利文本的对应字段组合中每个词条的标识和词频;

第一筛选模块,用于根据所述第一词袋组合、所述第二词袋组合和词条的IPC权重,筛选与所述第一专利文本相似的n个第二专利文本,得到粗选集;

第二筛选模块,用于根据所述第一词袋组合、所述粗选集中的第二词袋组合、各个词条之间的余弦距离和所述IPC权重,从所述粗选集中筛选与所述第一专利文本相似的m个第二专利文本,得到细选集,m≤n;

排序调整模块,用于根据所述第一专利信息与所述第二专利信息的匹配度,对所述细选集中的各个第二专利文本的排序进行调整,得到检索结果。

一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如上所述的文本检索方法。

一方面,提供了一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如上所述的文本检索方法。

本申请实施例提供的技术方案的有益效果至少包括:

在第一轮根据词袋的文本相似度进行粗选,可以快速缩小对比范围,且能够兼顾一定的准确率;在第二轮根据词袋的语义相似度进行细选,可以保证准确率;在第三轮根据专利信息的匹配度来调整专利文本的排序,可以进一步提高检索的准确率,可以全面、快速、综合审查待检索的专利文本与专利数据库中所有专利文本的相似度排名。

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的字典和词典的生成方法的方法流程图;

图2是本申请一个实施例提供的词条的余弦距离的生成方法的方法流程图;

图3是本申请一个实施例提供的词袋的生成方法的方法流程图;

图4是本申请另一实施例提供的文本检索方法的方法流程图;

图5是本申请再一实施例提供的文本检索装置的结构框图。

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

在应用本实施例提供的文本检索方法进行检索之前,需要先对所有的专利文本进行预处理,将得到的预处理结果加载的检索模型中,再应用检索模型进行文本检索。其中,预处理包括生成字典和词典、生成词条的余弦距离和生成词袋这三个部分,下面分别对这三个部分的具体实现流程进行说明。

请参考图1,其示出了字典和词典的生成方法的流程示意图,该方法具体包括:

步骤101,对于预处理的每个专利文本,对专利文本分别进行分字处理和分词处理,得到多个词条,词条包括字和词汇。

服务器可以从XML格式的专利文件中提取字段、著录项信息、附图数据、IPC(International Patent Classification,国际专利分类表)分类等。其中,字段包括标题、摘要、权利要求书和说明书。

服务器可以对至少一个字段进行分字处理,在分字过程中只保留中文字,得到多个字。服务器可以对至少一个字段进行分词处理,在分词过程中同时保留中文词汇和英文词汇,得到多个词汇。为了便于说明,本实施例中将字和词汇统称为词条。

需要说明的是,服务器可以针对至少一个字段中的每个字段进行分字和分词处理;当对至少两个字段进行分字和分词处理时,也可以将至少两个字段合并后进行分字和分词处理,本实施例不作限定。

由于说明书的数据量较大,对说明书进行分字和分词处理需要占用较大内存,所以,在一个示例中,服务器可以只对标题、摘要和权利要求书进行分字和分词处理,以节省处理资源。

步骤102,分别在所有专利文本中和在IPC分类中对每个词条的词频进行统计,得到每个词条的统计信息,根据统计信息生成每个词条的IPC权重。

服务器可以统计词条的词频。具体的,服务器可以统计词条在所有专利文本中的词频,并统计词条在每个IPC分类中的词频,得到词条的统计信息。

服务器可以根据统计信息计算词条在其专利文本的IPC分类中的权重,得到IPC分类权重;还可以根据统计信息计算词条在所有专利文本中的总权重,得到IPC总权重;将IPC分类权重和IPC总权重作为该词条的IPC权重。

步骤103,基于TF-IDF算法和统计信息分别对字和词汇进行排序,并根据词性标注对排序结果进行筛选。

服务器可以从所有的词条中筛选出部分出现频率较高的词条,将这些词条制成字典和词典。

具体的,服务器可以利用TF-IDF算法和统计信息对字的排序,再根据词性标注去掉虚词,最后从排序中选出预定数量的词条。其中,虚词是指对专利领域内容意义没有影响的词,一般不是术语或者专业词汇,例如连词中的以、但是、然而、却、于是等,副词中的最、多、高低、更、非常等,介词中的把、在、和、对于、跟等,还可以扩展到方位词、代词、助词、叹词、拟声词(可通过词性标注等技术标识)等等,以及专利中文献专有的‘权利声明’、‘图示’、‘本发明’、‘装置’、‘方法’等,这些词分布很多,过高,既无实际意义,还占用计算和内存,需要进行筛选处理。

步骤104,将每个字的标识、词频和对应的IPC权重组成字典。

在一个示例中,服务器可以筛选出10000个字,将这10000个字的标识、词频和IPC分类组成字典。

步骤105,从筛选结果中选择排序在前的q个词汇,将每个词汇的标识、词频和对应的IPC权重组成词典。

q的数值可以根据实际需求确定。在一个示例中,可以将q设置为100000,则服务器可以筛选出前100000个词汇,将这100000个词汇的标识、词频和IPC分类组成词典。

步骤106,将字典和词典存储到专利数据库中。

请参考图2,其示出了词条的余弦距离的生成方法的流程示意图,该方法具体包括:

步骤201,对专利文本中至少一个字段中的词条进行W2V计算,得到每个词条的词向量。

其中,W2V计算具体是利用word2vec模型进行计算。那么,服务器可以先获取word2vec模型,再将字段中的词条输入该word2vec模型中,该word2vec模型的输出即为词条的词向量。其中,word2vec模型的原理是输入一个词的序列(一段文本),输出这个词序列属于不同类别的概率,序列中的词和词组组成特征向量,将它们映射到d维空间中,使得语义越相近的两个词之间的距离越小。word2vec模型具有适合大型数据,训练速度高效的优点,通过word2vec模型可以将文字转化为可计算的特征向量形式。

需要说明的是,服务器可以针对至少一个字段中的每个字段进行W2V计算;当对至少两个字段进行W2V计算时,也可以将至少两个字段合并后进行W2V计算,本实施例不作限定。

由于说明书的数据量较大,对说明书进行W2V计算需要占用较大内存,所以,在一个示例中,服务器可以只对标题、摘要和权利要求书进行W2V计算,以节省处理资源。

步骤202,根据词向量,计算字典中任意两个字之间的余弦距离,并计算词典中任意两个词汇之间的余弦距离。

针对字典,服务器可以根据任意两个中文字的词向量计算这两个中文字之间的余弦距离。针对词典,服务器可以根据任意两个词汇的词向量计算这两个词汇之间的余弦距离。

步骤203,将余弦距离存储到专利数据库中。

为了降低内存,服务器可以将余弦距离转换为二进制数据,再将二进制数据存储到专利数据库中。

请参考图3,其示出了词条的词袋的生成方法的流程示意图,该方法具体包括:

步骤301,获取专利文本中的至少一个字段。

步骤302,对于至少一个字段中的每个字段,对该字段分别进行分字处理和分词处理,得到多个词条。

步骤303,统计每个词条的词频,并将每个字段的词条的标识和词频组成一个词袋。

需要说明的是,服务器可以针对至少一个字段中的每个字段计算出一个词袋;当针对至少两个字段计算词袋时,也可以将至少两个字段合并后计算出一个词袋,本实施例不作限定。

由于说明书的数据量较大,对说明书计算词袋需要占用较大内存,所以,在一个示例中,服务器可以只对标题、摘要和权利要求书计算词袋,以节省处理资源。

步骤304,将词袋存储到专利数据库中。

具体的,将词袋存储到专利数据库中,可以包括:将各个专利文本的词袋进行哈希运算,得到哈希结果;将哈希结果切片后部署到多个节点的专利数据库中。

总结来说,当部署有一个主节点和多个从节点时,可以将余弦距离、著录项信息、附图数据、IPC分类等存储到主节点的专利数据库中,将字典、词典和词袋的哈希分片部署到主节点和多个从节点中。这里所说的节点即为服务器。

需要说明的是,可以对标题、摘要和权利要求书进行合并后得到组合字段,再根据组合字段生成专利数据库,避免对说明书进行计算时,由于数据量太大而影响计算机设备的性能的问题。后续,在进行检索时,若在说明书中识别出超出字典和词典范围的词条,则服务器可以剔除该词条,以避免该词条参与检索。

当然,在不考虑计算机设备的性能的前提下,也可以结合说明书生成专利数据库,其计算方式与字段组合的计算方式相同,此处不作赘述。

在生成专利数据库后,还可以对专利数据库进行更新。比如,当向专利数据库中增加的专利文本的数量超过第一阈值时,重新生成专利数据库;或者,当根据专利数据库得到的检索结果的准确率下降超过第二阈值时,重新生成专利数据库。

在将数据部署到各个节点后,可以创建检索模型,再利用真实考题和标准答案对检索模型进行训练,从而得到检索模型中的各项系数和权重。之后,可以利用检索模型进行文本检索。其中,考题是待检索的专利文本,标准答案是与该专利文本相似的专利文本。

请参考图4,其示出了本申请一个实施例提供的文本检索方法的方法流程图,该文本检索方法可以应用于服务器中。该文本检索方法,可以包括:

步骤401,获取待检索的第一专利文本的第一词袋组合和第一专利信息,第一词袋组合中包含至少一个第一词袋,且每个第一词袋中包含第一专利文本的一个字段组合中每个词条的标识和词频,字段组合包括标题、摘要、权利要求书或说明书中的至少一种。

为了便于区分,本实施例中将待检索的专利文本(也即考题)称为第一专利文本,将专利数据库中的专利文本称为第二专利文本。

在获取第一专利文本时,若第一专利文本已经进行过预处理,则服务器获取第一专利文本的申请号,根据申请号从专利数据库中获取第一词袋组合和第一专利信息。即,服务器可以以申请号为索引,从专利数据库中读取第一词袋组合和第一专利信息。若第一专利文本未进行过预处理,则完全获取第一专利文本,从第一专利文本中提取第一词袋组合和第一专利信息。即,服务器可以按照上述预处理的流程对第一专利文本进行预处理,得到第一词袋组合和第一专利信息。

第一词袋组合中可以包含至少一个第一词袋,每个第一词袋对应于一个字段组合。在一个示例中,字段组合包括:标题;摘要;权利要求书;说明书;标题和摘要;标题、摘要和权利要求书。比如,第一词袋组合中包括两个第一词袋,第一个第一词袋对应于标题和摘要,第二个第一词袋对应于权利要求书。

第一专利信息包括著录项信息、附图数据和IPC分类等,本实施例不作限定。

步骤402,获取专利数据库中每个第二专利文本的第二词袋组合和第二专利信息,第二词袋组合中包含至少一个第二词袋,每个第二词袋中包含第二专利文本的对应字段组合中每个词条的标识和词频。

本实施例中,第二词袋组合中的每个第二词袋与第一词袋组合中的每个第一词袋对应于相同的字段组合。仍然以上文中的第一词袋组合为例,则每个第二词袋组合中包括两个第二词袋,且第一个第二词袋对应于标题和摘要,第二个第二词袋对应于权利要求书。

可选的,服务器还可以根据IPC分类从所有第二专利文本中筛选出部分第二专利文本,再对筛选出的第二专利文本进行粗选。具体的,服务器从专利数据库中筛选与第一专利文本的IPC分类相匹配的多个第二专利文本;获取筛选出的每个第二专利文本的第二词袋组合和第二专利信息。

在第一种实现方式中,服务器可以获取第一专利文本的IPC分类和预设的IPC映射,该IPC映射中包含各个IPC分类和各个IPC分类集合之间的对应关系,且IPC映射是根据专利文本和专利文本的对比文件生成的;从IPC映射中获取与第一专利文本的IPC分类对应的IPC分类集合;从专利数据库中筛选属于IPC分类集合的多个第二专利文本。比如,在IPC映射中,第一专利文本的IPC分类对应的IPC分类集合中包含10个IPC分类,则服务器可以筛选属于这10个IPC分类的第二专利文本。

在第二种实现方式中,服务器可以获取第一专利文本的IPC分类;从专利数据库中筛选属于IPC分类的多个第二专利文本,或者,确定IPC分类的上级IPC分类,从专利数据库中筛选属于上级IPC分类的多个第二专利文本。其中,IPC包括部、大类、小类、主组、分组,那么,服务器筛选出的第二专利文本与第一文本可以属于相同的部或相同的大类或相同的小类或相同的主组或相同的分组。

步骤403,根据第一词袋组合、第二词袋组合和词条的IPC权重,筛选与第一专利文本相似的n个第二专利文本,得到粗选集。

具体的,步骤403可以包括以下几个子步骤:

1)基于词频相似度算法和IPC权重,计算第一词袋组合中的每个第一词袋与各个第二词袋组合中对应的第二词袋的文本相似度。

若服务器预先根据IPC分类对第二专利文本进行了筛选,则服务器可以基于词频相似度算法,计算每个第一词袋中的词条与对应的第二词袋中的词条之间的相似度,计算第一词袋中所有词条的相似度与IPC分类权重的加权和,得到第一词袋与对应的第二词袋之间的文本相似度,该IPC分类权重是词条在第一专利文本的IPC分类中的权重。

若服务器未根据第一专利文本的IPC分类对第二专利文本进行筛选,或者,若专利数据库中不存在与第一专利文本的IPC分类相匹配的第二专利文本,则服务器可以基于词频相似度算法,计算每个第一词袋中的词条与对应的第二词袋中的词条之间的相似度;计算第一词袋中所有词条的相似度与IPC总权重的加权和,得到第一词袋与对应的第二词袋之间的文本相似度,该IPC总权重是词条在所有专利文本中的权重。

2)对于每个第一词袋,获取与第一词袋的文本相似度最高的前i个第二词袋,i为正整数。

3)对每个第一词袋对应的i个第二词袋取并集,得到第一次筛选的第二专利文本。

其中,第一次筛选的第二专利文本的数量大于等于i且小于等于n×i。

本实施例中,可以预先设置粗选集中的第二专利文本的数量阈值,若第一次筛选的第二专利文本的数量达到了该数量阈值,则可以直接将第一次筛选的第二专利文本组成粗选集;若第一次筛选的第二专利文本的数量小于该数量阈值,则服务器还需要进行第二次筛选。

4)对与第一词袋组合的文本相似度最高的多个第二专利文本进行筛选,得到第二次筛选的第二专利文本。

5)将两次筛选得到的第二专利文本组成粗选集。

由于词袋部署在多个节点上,所以,每个节点都可以执行步骤403来得到一个粗选集,最后,每个从节点都将粗选集发送给主节点,主节点汇总得到最终的粗选集。

步骤404,根据第一词袋组合、粗选集中的第二词袋组合、各个词条之间的余弦距离和IPC权重,从粗选集中筛选与第一专利文本相似的m个第二专利文本,得到细选集,m≤n。

通常,细选集中的第二专利文本的数量小于粗选集中第二专利文本的数量,即m<n。然而,当每个字段组合的推荐结果集合都相等时,细选集中的第二专利文本的数量等于粗选集中第二专利文本的数量,即m=n。

具体的,步骤404可以包括以下几个子步骤:

1)基于词频相似度算法和IPC分类权重,计算第一词袋组合与粗选集中对应的第二词袋组合的文本相似度。

服务器可以基于词频相似度算法,计算每个第一词袋中的词条与粗选集中对应的第二词袋中的词条之间的相似度,计算第一词袋中所有词条的相似度与IPC分类权重的加权和,得到第一词袋与对应的第二词袋之间的文本相似度。其中,在计算相似度时需要用到词条之间的余弦距离。

2)基于词移距离算法、各个词条之间的余弦距离和IPC分类权重,计算第一词袋组合与粗选集中对应的第二词袋组合的语义相似度。

服务器可以基于词移距离算法,计算每个第一词袋中的词条与粗选集中对应的第二词袋中的词条之间的相似度,计算第一词袋中所有词条的相似度与IPC分类权重的加权和,得到第一词袋与对应的第二词袋之间的语义相似度。其中,在计算相似度时需要用到词条之间的余弦距离。

3)根据预设的字段组合权重计算文本相似度和语义相似度的加权和,得到第一专利文本与粗选集中每个第二专利文本的整体相似度。

本实施例中,可以预先对字段组合设置字段组合权重,该字段组合权重可以是训练得到的,也可以是经验值,本实施例不作限定。

服务器可以获取每个字段组合的文本相似度和语义相似度,再根据字段组合权重计算加权和,即可得到第一专利文本与每个第二专利文本的整体相似度。

4)将整体相似度最高的前j个第二专利文本组成细选集,j为正整数。

例如,j的数值为400,则服务器得到的细选集中包含400个第二专利文本。

步骤405,根据第一专利信息与第二专利信息的匹配度,对细选集中的各个第二专利文本的排序进行调整,得到检索结果。

当第一专利信息包括第一著录项信息和第一附图数据,且第二专利信息包括第二著录项信息和第二附图数据时,步骤205可以包括以下几个子步骤:

1)对第一附图数据和第二附图数据进行交并比计算,得到计算结果。

其中,交并比计算计算结果是一个0-1之间的数值。服务器在得到计算结果后,可以对该计算结果进行离散化处理,从而将计算结果映射为一个对应的等级数。

2)将第一著录项信息中的每项内容与第二著录项信息中对应内容进行比较,得到比较结果。

著录项信息可以包括多个项目,比如,发明人、申请人、申请机构等,

服务器可以将第一著录项信息与第二著录项信息中对应项目的内容进行比较,并对每个项目设置一个对应的等级数,若某一个项目的内容相同,则比较结果中包含该项目对应的等级数,若某一个项目的内容不同,则比较结果中不包含该项目对应的等级数。

3)根据预设的项目权重计算计算结果和比较结果的加权和,得到第一专利文本与细选集中每个第二专利文本的附加相似度。

本实施例中,可以预先对每个项目设置项目权重,该项目权重可以是训练得到的,也可以是经验值,本实施例不作限定。这里所说的项目包括著录项项目和附图数据。

服务器可以将每个项目对应的等级数乘以对应的项目权重后相加,即可得到每个第二专利文本的附加相似度。

4)根据每个附加相似度和对应的第二专利文本的整体相似度,对细选集中各个第二专利文本的排序进行调整,得到检索结果。

服务器可以根据附加相似度和整体相似度重新计算每个第二专利文本的最终相似度,按照最终相似度的大小对每个第二专利文本进行排序,并将序列作为检索结果提供给用户。

本实施例能够有效提升检索的准确率,并且针对目前的服务器性能,能够实现每秒内处理数条检索请求,极大降低了对比题库的时间所需,另审核人员能够有足够时间在引擎推荐范围内去人工审核专利文本的创新发明点。

经验证,细选集中的top50针对一套机械领域考题的命中率为47.09%,在添加附图数据调整排序后,命中率达到47.53%,在添加著录项调整排序后,命中率达到48%。所以,除了正文内容外,其他一些附加信息也是调整项的选择,例如医药领域的配方、化学领域的化学式等。

综上所述,本申请实施例提供的文本检索方法,在第一轮根据词袋的文本相似度进行粗选,可以快速缩小对比范围,且能够兼顾一定的准确率;在第二轮根据词袋的语义相似度进行细选,可以保证准确率;在第三轮根据专利信息的匹配度来调整专利文本的排序,可以进一步提高检索的准确率,可以全面、快速、综合审查待检索的专利文本与专利数据库中所有专利文本的相似度排名。

请参考图5,其示出了本申请一个实施例提供的文本检索装置的结构框图,该文本检索装置可以应用于服务器中。该文本检索装置,可以包括:

第一获取模块510,用于获取待检索的第一专利文本的第一词袋组合和第一专利信息,第一词袋组合中包含至少一个第一词袋,且每个第一词袋中包含第一专利文本的一个字段组合中每个词条的标识和词频,字段组合包括标题、摘要、权利要求书或说明书中的至少一种;

第二获取模块520,用于获取专利数据库中每个第二专利文本的第二词袋组合和第二专利信息,第二词袋组合中包含至少一个第二词袋,每个第二词袋中包含第二专利文本的对应字段组合中每个词条的标识和词频;

第一筛选模块530,用于根据第一词袋组合、第二词袋组合和词条的IPC权重,筛选与第一专利文本相似的n个第二专利文本,得到粗选集;

第二筛选模块540,用于根据第一词袋组合、粗选集中的第二词袋组合、各个词条之间的余弦距离和IPC权重,从粗选集中筛选与第一专利文本相似的m个第二专利文本,得到细选集,m≤n;

排序调整模块550,用于根据第一专利信息与第二专利信息的匹配度,对细选集中的各个第二专利文本的排序进行调整,得到检索结果。

在一个可选的实施例中,第一筛选模块530,还用于:

基于词频相似度算法和IPC权重,计算第一词袋组合中的每个第一词袋与各个第二词袋组合中对应的第二词袋的文本相似度;

对于每个第一词袋,获取与第一词袋的文本相似度最高的前i个第二词袋,i为正整数;

对每个第一词袋对应的i个第二词袋取并集,得到第一次筛选的第二专利文本;

对与第一词袋组合的文本相似度最高的多个第二专利文本进行筛选,得到第二次筛选的第二专利文本;

将两次筛选得到的第二专利文本组成粗选集。

在一个可选的实施例中,第二获取模块520,还用于从专利数据库中筛选与第一专利文本的IPC分类相匹配的多个第二专利文本;获取筛选出的每个第二专利文本的第二词袋组合和第二专利信息;

第一筛选模块530,还用于:基于词频相似度算法,计算每个第一词袋中的词条与对应的第二词袋中的词条之间的相似度,计算第一词袋中所有词条的相似度与IPC分类权重的加权和,得到第一词袋与对应的第二词袋之间的文本相似度,IPC分类权重是词条在第一专利文本的IPC分类中的权重。

在一个可选的实施例中,第二获取模块520,还用于:

获取所述第一专利文本的IPC分类和预设的IPC映射,所述IPC映射中包含各个IPC分类和各个IPC分类集合之间的对应关系,且所述IPC映射是根据专利文本和所述专利文本的对比文件生成的;从所述IPC映射中获取与所述第一专利文本的IPC分类对应的IPC分类集合;从所述专利数据库中筛选属于所述IPC分类集合的多个第二专利文本;或者,

获取所述第一专利文本的IPC分类;从所述专利数据库中筛选属于所述IPC分类的多个第二专利文本,或者,确定所述IPC分类的上级IPC分类,从所述专利数据库中筛选属于所述上级IPC分类的多个第二专利文本。

在一个可选的实施例中,第一筛选模块530,还用于:

基于词频相似度算法,计算每个第一词袋中的词条与对应的第二词袋中的词条之间的相似度;

计算第一词袋中所有词条的相似度与IPC总权重的加权和,得到第一词袋与对应的第二词袋之间的文本相似度,IPC总权重是词条在所有专利文本中的权重。

在一个可选的实施例中,第二筛选模块540,还用于:

基于词频相似度算法和IPC分类权重,计算第一词袋组合与粗选集中对应的第二词袋组合的文本相似度;

基于词移距离算法、各个词条之间的余弦距离和IPC分类权重,计算第一词袋组合与粗选集中对应的第二词袋组合的语义相似度;

根据预设的字段组合权重计算文本相似度和语义相似度的加权和,得到第一专利文本与粗选集中每个第二专利文本的整体相似度;

将整体相似度最高的前j个第二专利文本组成细选集,j为正整数;

其中,IPC分类权重是词条在第一专利文本的IPC分类中的权重。

在一个可选的实施例中,当第一专利信息包括第一著录项信息和第一附图数据,且第二专利信息包括第二著录项信息和第二附图数据时,排序调整模块550,还用于:

对第一附图数据和第二附图数据进行交并比计算,得到计算结果;

将第一著录项信息中的每项内容与第二著录项信息中对应内容进行比较,得到比较结果;

根据预设的项目权重计算计算结果和比较结果的加权和,得到第一专利文本与细选集中每个第二专利文本的附加相似度;

根据每个附加相似度和对应的第二专利文本的整体相似度,对细选集中各个第二专利文本的排序进行调整,得到检索结果。

在一个可选的实施例中,第一获取模块510,还用于:

获取第一专利文本的申请号,根据申请号从专利数据库中获取第一词袋组合和第一专利信息;或者,

获取第一专利文本,从第一专利文本中提取第一词袋组合和第一专利信息。

在一个可选的实施例中,该装置还包括预处理模块,预处理模块,用于:

对于预处理的每个专利文本,对专利文本分别进行分字处理和分词处理,得到多个词条,词条包括字和词汇;

分别在所有专利文本中和在IPC分类中对每个词条的词频进行统计,得到每个词条的统计信息,根据统计信息生成每个词条的IPC权重;

基于TF-IDF算法和统计信息分别对字和词汇进行排序,并根据词性标注对排序结果进行筛选;

将每个字的标识、词频和对应的IPC权重组成字典;

从筛选结果中选择排序在前的q个词汇,将每个词汇的标识、词频和对应的IPC权重组成词典,q为正整数;

将字典和词典存储到专利数据库中。

在一个可选的实施例中,预处理模块,还用于:

对专利文本中至少一个字段中的词条进行W2V计算,得到每个词条的词向量;

根据词向量,计算字典中任意两个字之间的余弦距离,并计算词典中任意两个词汇之间的余弦距离,余弦距离用于计算文本相似度和语义相似度;

将余弦距离存储到专利数据库中。

在一个可选的实施例中,预处理模块,还用于:

获取专利文本中的至少一个字段;

对于至少一个字段中的每个字段,对字段分别进行分字处理和分词处理,得到多个词条;

统计每个词条的词频,并将每个字段的词条的标识和词频组成一个词袋;

将词袋存储到专利数据库中。

在一个可选的实施例中,预处理模块,还用于:

将各个专利文本的词袋进行哈希运算,得到哈希结果;

将哈希结果切片后部署到多个节点的专利数据库中。

在一个可选的实施例中,装置还包括更新模块,更新模块,用于:

当向专利数据库中增加的专利文本的数量超过第一阈值时,重新生成专利数据库;或者,

当根据专利数据库得到的检索结果的准确率下降超过第二阈值时,重新生成专利数据库。

综上所述,本申请实施例提供的文本检索装置,在第一轮根据词袋的文本相似度进行粗选,可以快速缩小对比范围,且能够兼顾一定的准确率;在第二轮根据词袋的语义相似度进行细选,可以保证准确率;在第三轮根据专利信息的匹配度来调整专利文本的排序,可以进一步提高检索的准确率,可以全面、快速、综合审查待检索的专利文本与专利数据库中所有专利文本的相似度排名。

本申请一个实施例提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如上所述的文本检索方法。

本申请一个实施例提供了一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如上所述的文本检索方法。

需要说明的是:上述实施例提供的文本检索装置在进行文本检索时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将文本检索装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文本检索装置与文本检索方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请实施例的保护范围之内。

本文发布于:2024-09-20 20:30:05,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/69322.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议