专利相似性的对比分析方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201811480412.4
(22)申请日 2018.12.05
(71)申请人 南京邮电大学
地址 210023 江苏省南京市栖霞区栖霞街
道广月路30号
(72)发明人 汪云霄 覃婷婷 刘峥 
(74)专利代理机构 南京苏科专利代理有限责任
公司 32102
代理人 姚姣阳
(51)Int.Cl.
G06F  17/27(2006.01)
G06Q  50/18(2012.01)
(54)发明名称
专利相似性的对比分析方法
(57)摘要
本发明提供了一种专利相似性的对比分析
方法。所述专利相似性的对比方法通过利用自然
语言处理技术建立语义依存树,提取了专利文档
中的技术特征,并进一步通过建立技术特征的重
要性评分模型、建立技术特征-专利文档二部图
等方法总结计算技术特征与专利文档的相似性,
同时建立一对多的专利对比分析模型,从而可快
速有效的判断目标专利文档是否具有新颖性。权利要求书4页  说明书8页  附图3页CN 109684630 A 2019.04.26
C N  109684630
A
1.一种专利相似性的对比分析方法,其特征在于,包括以下步骤:
S1、定义专利文档包括目标专利文档和与所述目标专利文档相同主题的对比专利文档,且全部所述对比专利文档构成专利文档集D,建立每篇专利文档对应的语义依存树并使用剪枝策略修剪所述语义依存树,以提取所有专利文档的技术特征;
S2、基于技术特征的独特性和相似性,建立技术特征的重要性评分模型;
S3、基于图结构模型,建立技术特征-专利文档二部图;
S4、根据技术特征-文档二部图,计算技术特征-专利文档二部图中技术特征与专利文档的相关度并求解技术特征的共性分数;
S5、基于最优化方法,获取所述目标专利文档与所述对比专利文档之间的相似技术特征集;
S6、根据步骤S2中的重要性评分模型和步骤S5中的相似技术特征集,判断目标专利文档是否具有新颖性。
2.根据权利要求1所述的专利相似性的对比分析方法,其特征在于,所述步骤S1具体包括:
S11、定义专利文档包括目标专利文档和与所述目标专利文档相同主题的对比专利文档,且全部所述对比专利文档构成专利文档集D,并提取所述目标专利文档和所述专利文档集D中的全部技术特征;
S12、建立每篇专利文档对应的语义依存树,并使用剪枝策略修剪所述语义依存树,减小语义依存树的规模,并以修剪后的语义依存树作为技术特征提取的基础,获取由全部技术特征构成的技术特征集合T,T={t1,t2,...,t m},其中,t为技术特征,m为所述技术特征的个数。
3.根据权利要求2所述的专利相似性的对比分析方法,其特征在于:所述步骤S12具体为:
S121、语义依存解析:对专利文档中的每一个句子进行语义依存解析;
S122、语义依存树的建立、修剪:根据语义依存解析的结果,建立专利文档对应的语义依存树,并采用剪枝策略对所述语义依存树进行修剪;
S123、子树的提取:所述语义依存树上的每一个节点均对应一个语义依存子树,所述语义依存子树包括位于所述语义依存树的节点处且由名词和/或动词构成的根节点以及与所述根节点相连的子节点,每棵所述语义依存子树表示为一个技术特征。
4.根据权利要求3所述的专利相似性的对比分析方法,其特征在于:所述步骤S122中剪枝策略具体包括:
词性限制:利用词性标注去除语义依存树上的非实词节点;
距离限制:去除两个词之间相隔10个及以上词的边;
去除部分关系边:去除表并列关系的边和表顺承关系的边。
5.根据权利要求3所述的专利相似性的对比分析方法,其特征在于:所述步骤S123具体为:
S1231、定义语义依存树经剪枝策略修剪后获得的多棵语义依存树为语义依存子树,每棵所述语义依存子树的根节点、所述语义依存子树中具有子节点的名词节点和/或动词节点作为谓词节点,并以所述谓词节点作为新的根节点对所述语义依存子树进行分割;
S1232、将具有相同根节点的语义依存子树进行合并,以使得表示为技术特征的语义依存子树由两层或三层子树构成;
S1233、对于至多包含一个子节点的根节点和/或已经包含在其它语义依存子树中的名词节点/动词节点,不再作为分割语义依存子树的根节点,否则重复步骤S1231~S1232直至没有可以分割的语义依存子树为止。
6.根据权利要求1所述的专利相似性的对比分析方法,其特征在于:所述步骤S2具体包括:
S21、计算单个技术特征的独特性r t,d:
其中,t为技术特征,d为目标专利文档和专利文档集D中的任一专利文档,T d为任一专利文档中所有技术特征的集合,n(t,d)为单个技术特征t在任一所述专利文档中出现的频率,n(t,D)为单个技术特征在所述专利文档集D中出现的频率;
S22、定义t i、t j分别为任一所述专利文档中第i个和第j个技术特征,采用语义相似度来计算两个技术特征t i、t j之间的相似性SimT(t i,t j);
S23、结合所述技术特征的独特性r t,d和两个技术特征t i、t j之间的相似性SimT(t i,t j),计算所述技术特征t的重要性分数Score(t,d):
其中,为所述技术特征t的权重。
7.根据权利要求1所述的专利相似性的对比分析方法,其特征在于:所述步骤S3具体为:基于所述技术特征与所述专利文档的共现关系的技术特征-专利文档二部图,所述技术特征-专利文档二部图中的节点由所述专利文档和所述技术特征组成,且对应专利文档的节点和对应技术特征的节点之间的连线构成技
术特征-专利文档二部图的边,所述边的权重基于所述BM25算法计算获得。
8.根据权利要求1所述的专利相似性的对比分析方法,其特征在于:所述步骤S4具体包括:
S41、采用simrank方法求解、建立技术特征-专利文档二部图中所述技术特征和所述专利文档之间的相似度f(a,b):
其中,a、b为技术特征-专利文档二部图中代表所述技术特征和所述专利文档的节点,c 为simrank算法中的衰减因子,是一个0到1的常数;I(a)I(b)分别表示节点a和节点b的入节点集合;
S42、基于随机游走方法,计算技术特征-专利文档二部图中节点a和节点b之间的相关度f(a,b):
其中,τ(a,b)→(x,x)为以节点a和节点b为起点的两条随机游走路径首次在x点相遇,且两条路径的长度相同均为l(τ);P(τ)为节点a和节点b经不同的游走路径τ1和τ2在x点相遇的概率;路径τ1为(v1,v2,...,v m,x),路径τ2为(w1,w2,...,w m,x),路径长度l(τ1)=l(τ2)=m;
S43、计算同一技术特征在任意两篇专利文档d中的共性分数Φ(t,d,d′);
Φ(t,d,d′)=ln(1+f(t,d)×f(t,d′))
其中,d和d′为目标专利文档和专利文档集D中任意两篇专利文档,t为技术特征;f(t, d)和f(t,d′)的值越大,则表示该技术特征t为所述专利文档d和所述专利文档d′的共有的技术特征。
9.根据权利要求1所述的专利相似性的对比分析方法,其特征在于:所述步骤S5具体包括:
S51、获取相同技术特征集S0,其中,d0为目标专利文档,为所述目标专利文档d0中所有技术特征的集合,C为共性特征集,用于表征所述专利文档集D和所述目标专利文档的共性技术特征;S0为相同技术特征集,用于表征所述目标专利文档与所述对比专利文档相同的技术特征集;
S52、获取相似技术特征集S i,用于表征所述目标专利文档与第i篇所述对比专利文档d i 相似的技术特征的集合;
S53、设置优化目标的约束条件:选取每篇专利文档中重要分数大于平均值的技术特征,以筛除专利文档中不重要的技术特征,同时限制选择的技术特征的数量:
S54、设置优化目标函数,并根据所述目标函数获取所述目标专利文档d0与所述对比专利文档d n相似部分的技术特征集T sim;所述目标函数为:
其中,对于j∈[1,2,...,|S0|],S0j和S ij为所述目标专利文档d0和所述对比专利文档d i 中的一个相似技术特征对,且若所述对比专利文档d i中没有与所述目标专利文档d0相似的技术特征,则S ij=0。
10.根据权利要求1所述的专利相似性的对比分析方法,其特征在于:
所述步骤S6具体为:根据步骤S2中的技术特征的重要性分数来衡量T sim在目标专利文
档d0所有技术特征集中的重要性程度,如果且具有较高的重要性分数,则目
标专利文档d0不具有新颖性;如果且重要性分数较低,则目标专利文档d0与专利文档集D相比具有新颖性。

本文发布于:2024-09-22 13:36:20,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/436167.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:专利   文档   特征   技术   语义   依存   节点   目标
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议