一种基于计算机科技文献数据库的专利价值度计算方法

著录项

申请号 CN201910071220.6
申请日 20190125
公开（公告）号 CN109885681A
公开日 20190614
申请（专利权）人中译语通科技股份有限公司
发明人武学敏;程国艮;汪术文;龙明涛;张效源
主分类号 G06F16/35
分类号
G06F16/35 G06F17/27 G06Q10/06 G06Q50/18
地址北京市石景山区石景山路20号16层1601
国省代码北京(11)
代理机构北京兴智翔达知识产权代理有限公司
代理人蒋常雪

摘要

本发明公开了一种基于计算机科技文献数据库的专利价值度计算方法，从计算机专利数据库提取专利信息，从专利质量Q、技术价值T、市场价值M、社会效应S 4个层面，选取创新程度、技术宽度、法律属性、权利要求属性、投融资情况、许可转让情况等多个参数，对单个专利价值进行全面客观的计算，最终形成单个专利的价值评估数值。价值评估值J的总体计算方法是：J＝Q*α+T*β+M*γ+S*δ；其中，Q、M、T、S的数值范围都要设定在0?100之间；α、β、γ和δ是权重系数。本发明一种基于计算机科技文献数据库的专利价值度计算方法增强了专利文献评价价值的合理性，提高了专利文献评价方法的准确性。

权利要求



1.一种基于计算机科技文献数据库的专利价值度计算方法，其特征在于：从计算机专利数据库提取专利信息，从专利质量Q、技术价值T、市场价值M、社会效应S 4个层面，选取创新程度、技术宽度、法律属性、权利要求属性、投融资情况、许可转让情况等多个参数，对单个专利价值进行全面客观的计算，最终形成单个专利的价值评估数值；

价值评估值J的总体计算方法如下：

J＝Q*α+T*β+M*γ+S*δ

其中，Q、M、T、S的数值范围都要设定在0-100之间；α、β、γ和δ是权重系数。

2.根据权利要求1所述的一种基于计算机科技文献数据库的专利价值度计算方法，其特征在于：专利质量Q计算公式如下：

其中：Q1特征数量；Q2权项数量；Q3引用情况；Q4被引用情况；Q6同族数量；Q7专利类型，为发明时取值为3，为实用新型时取值为2；Q8法律状态，授权时取值为2，失效取值1.5，公开取值为1，驳回及其他是取值0.5；Q9有效期限；P1取值为5，P2取值为7，P3取值为1，P4取值为1.5，P5取值为2.5；为一年发明和实用新型独立权利要求平均特征数，为一年发明和实用新型平均权项数；为一年发明和实用新型平均引用情况；为一年发明和实用新型平均引用情况；为一年发明和实用新型平均同族数量情况。

3.根据权利要求1所述的一种基于计算机科技文献数据库的专利价值度计算方法，其特征在于：技术价值T的计算方法是：

对目标专利进行语义检索，获取与所述目标文献相关的目标文献相关数据集；

统计申请日之前相似度最高的N件专利，文献相似度记为N1、N2…Nn，计算均值记为第一相似度T1；

获取以上相似文献的技术分类信息，申请日之前的目标文献涉及的技术分类数量记为M，相似文献涉及的技术分类总数量记为M′，目标文献与相似文献相同的技术分类个数记为K，相同个数K和相似文献与目标文献总数量中数量较大的数字作比值，该比值记为第二相似度T2；

第一相似度、第二相似度可通过做加法或者加权加法进行计算，最终获得技术价值T。



4.根据权利要求1所述的一种基于计算机科技文献数据库的专利价值度计算方法，其特征在于：市场价值M的计算方法是：

选取相关度在50％-70％以上的文献；

通过申请日以前最相关的文献追踪领先的企业数量N1，通过申请日以后最相关的文献追踪跟随的企业数量N2，领先的企业数量N1与企业总数量N1+N2作比值，获得价值度参数M1，或者也可采用取差值或者加权做差的方式获得；

分别统计目标专利申请日前后的文献数量，申请日以前的申请专利数量记为N1′,申请日以后的申请专利数量记为N2′，申请日以后的申请专利数量N2′与相关专利总量N1′+N2′作比值，获得价值度参数M2，或者也可采用取差值或者加权做差的方式获得；

价值度参数M1、价值度参数M2可通过做加法或者加权加法进行计算，最终获得市场价值M。

8.根据权利要求4所述的一种基于计算机科技文献数据库的专利价值度计算方法，其特征在于：其中，上述提到的语义检索包括以下步骤：

I1：采集语料库；

I2：基于语料库，采用无监督自适应训练方法训练语义分析模型；

I3：理解输入至语义分析型的文本内容；

I4：基于理解信息确定文本内容与其余文本内容的相似度。



9.根据权利要求4所述的一种基于计算机科技文献数据库的专利价值度计算方法，其特征在于：其中，上述提到的语义检索包括以下步骤：

I1：确定文本内容与待测文本内容；

I2：对文本内容与待测文本内容进行分词；

I3：根据文本内容的分词结果与待测文本内容的分词结果，进行同义词归并，确定第三相似度；

I4：根据文本内容的分词结果与待测文本内容的分词结果，进行聚类分析，确定第四相似度；

I5：根据第三相似度和第四相似度，确定文本内容与待测文本内容的相似度。

10.根据权利要求9所述的一种基于计算机科技文献数据库的专利价值度计算方法，其特征在于：第三相似度，包括：根据文本内容的分词结果与待测文本内容的分词结果，确定同时存在于文本内容、待测文本内容的第一词的数量；确定文本内容、待测文本内容存在同义词的第二词的数量；

根据第一词和第二词的数量，利用下述公式，计算第三相似度：

P＝(x+y)/z

其中，p用于表征所述第三相似度，x用于表征所述第一词的数量，y用于表征所述第二词的数量，z用于表征所述待查重文档中词的总数；

第四相似度，包括：根据待测文本内容的分词结果，按照词频由高到低的顺序，在待测文本中确定第一高频词；根据文本内容的分词结果，按照词频由高到低的顺序，在文本内容中确定第二高频词；

确定待测文本内容中包括第一高频词的至少一个第一语句；

确定文本内容中包括第二高频词的至少一个第二语句；

确定同时存在于至少一个第一语句和至少一个第二语句中的第三词的数量；

确定至少一个第一语句中第四词的数量，其中，第四词在至少一个第二语句中存在同义词；

根据第三词的数量和第四词的数量，利用下述公式，计算所述第四相似度；

k＝(m+n)/h

其中，k用于表征所述第四相似度，m用于表征所述第三词的数量，n用于表征所述第四词的数量，h用于表征所述至少一个第一语句中词的总数；

根据第三相似度和第四相似度，利用下述公式，确定文本内容与待测文本内容的相似度；

q＝αp+βk

其中，q用于表征所述待查重文档与所述对比文档的重复率，α用于表征所述第三相似度的权重，β用于表征所述第四相似度的权重。

5.根据权利要求1所述的一种基于计算机科技文献数据库的专利价值度计算方法，其特征在于：社会效应S的计算方法是：

获取目标专利的其它信息，包括：S1复审信息、S2无效信息、S3诉讼信息和S4质押信息；逻辑判断有或无，如果是有，则S1＝40；S2＝25；S3＝25；S4＝10，社会效应S＝S1+S2+S3+S4，且S1+S2+S3+S4＝100。

6.根据权利要求1所述的一种基于计算机科技文献数据库的专利价值度计算方法，其特征在于：权重系数α、β、γ和δ的取值通过线性回归模型确定。

7.根据权利要求1所述的一种基于计算机科技文献数据库的专利价值度计算方法，其特征在于：权重系数α、β、γ、δ的权重系数利用层次分析法，构建出判断矩阵P求得。

说明书

一种基于计算机科技文献数据库的专利价值度计算方法

技术领域

本发明涉及知识产权领域，具体地说，涉及一种基于计算机科技文献数据库的专利价值度计算方法。

背景技术

近些年来高价值专利在知识产权行业备受关注，而且随着高价值专利相关课题的不断深入研究和探讨，从国家层面到各地政府，越来越多的配套政策和研究成果开始落地，不少先行的企业也已经积累了宝贵的实践经验，并尝到了高价值专利带给企业的益处。

我国是专利申请大国，如何从海量的专利申请中筛选出高价值的专利正如从矿石中滤金沙，具有很高的难度，而且国内对于高价值专利还没有明确的官方定义或学术定义，因此如何甄别高价值专利就显得尤为重要。

发明内容

本发明正是为了解决上述技术问题而设计的一种基于计算机科技文献数据库的专利价值度计算方法，解决现有技术不能客观、准确的评价专利价值度的问题，提高专利价值度评价的精确度。

本发明解决其技术问题所采用的技术方案是：

从计算机专利数据库提取专利信息，从专利质量Q、技术价值T、市场价值M、社会效应S4个层面，选取创新程度、技术宽度、法律属性、权利要求属性、投融资情况、许可转让情况等多个参数，对单个专利价值进行全面客观的计算，最终形成单个专利的价值评估数值。

价值评估值J的总体计算方法如下：

J＝Q*α+T*β+M*γ+S*δ

其中，Q、M、T、S的数值范围都要设定在0-100之间；系数α、β、γ和δ的取值通过线性回归模型确定。

另外，系数α、β、γ、δ的权重系数，也可以利用层次分析法，构建出判断矩阵P求得。

1)第一价值度参数(专利质量Q)

使用到的参数：Q1特征数量(特征数)；Q2权项数量；Q3引用情况；Q4被引用情况；Q6同族数量；Q7专利类型(NA/1发明NA/2实用新型)；Q8法律状态；Q9有效期限(存活期)。

以2015年发明和实用新型的平均数据作为参考，专利质量Q计算公式如下：

其中，为独立权利要求平均特征数，为平均权项数；为平均引用情况；为平均引用情况；为平均同族数量情况；

Q7为发明时，取值为3，为实用新型时取值为2；Q8为授权时取值为2，失效取值1.5，公开取值为1，驳回及其他是取值0.5，P1取值为5，P2取值为7，P3取值为1，P4取值为1.5，P5取值为2.5。

2)第二价值度参数(技术价值T)

对目标专利进行语义检索，获取与所述目标文献相关的目标文献相关数据集；

统计申请日之前相似度最高的N件专利，文献相似度记为N1、N2…Nn，计算均值记为第一相似度T1；

第一相似度、第二相似度可通过做加法或者加权加法进行计算，最终获得第二价值度参数T。

3)第三价值度参数(市场价值M)

选取相关度在50％-70％以上的文献，优选相关度为70％；

通过申请日以前最相关的文献追踪领先的企业数量N1，通过申请日以后最相关的文献追踪跟随的企业数量N2，领先的企业数量N1与企业总数量(N1+N2)作比值，获得价值度参数M1，或者也可采用取差值或者加权做差的方式获得；

分别统计目标专利申请日前后的文献数量，申请日以前的申请专利数量记为N1′,申请日以后的申请专利数量记为N2′，申请日以后的申请专利数量N2′与相关专利总量(N1′+N2′)作比值，获得价值度参数M2，或者也可采用取差值或者加权做差的方式获得；

价值度参数M1、价值度参数M2可通过做加法或者加权加法进行计算，最终获得第三价值度参数M。

在目标文献的申请日之前参与申请相关文献的企业数量能够反映在目标文献之前的市场热度，也能说明该技术在之前诸多企业关注，企业数量越多，平均相关度越高，后来者获取的市场价值越低，而在目标文献的申请日之后申请相关文献的企业数量能够反映在目标文献之后的市场热度，企业数量越多，平均相关度越高，相似技术越多，后来跟进的企业越多，说明目标文献的市场价值越高。

同样的，在目标文献的申请日之前申请的相关文献的数量也能够反映在目标文献之前技术的市场热度，数量越多，平均相关度越高，保护越充分，目标文献的价值越低，而在目标文献的申请日之后申请的相关文献的数量能够反映在目标文献之后技术的市场热度，数量越多，平均相关度越高，相似技术越多，后来跟进的越多，目标文献的价值越高。

4)第四价值信息(社会效应S)

获取目标专利的其它信息，包括：S1复审信息、S2无效信息、S3诉讼信息和S4质押信息。逻辑判断有或无，如果是有，则S1＝40；S2＝25；S3＝25；S4＝10，第四价值参数S＝S1+S2+S3+S4，且S1+S2+S3+S4＝100。

其中，上述提到的语义检索包括以下步骤：

I1：采集语料库；

I2：基于语料库，采用无监督自适应训练方法训练语义分析模型；

I3：理解输入至语义分析型的文本内容；

I4：基于理解信息确定文本内容与其余文本内容的相似度。

或者，语义检索也可以选择采用以下步骤：

I1：确定文本内容与待测文本内容；

I2：对文本内容与待测文本内容进行分词；

I3：根据文本内容的分词结果与待测文本内容的分词结果，进行同义词归并，确定第三相似度；

I4：根据文本内容的分词结果与待测文本内容的分词结果，进行聚类分析，确定第四相似度；

I5：根据第三相似度和第四相似度，确定文本内容与待测文本内容的相似度。

其中，第三相似度，包括：根据文本内容的分词结果与待测文本内容的分词结果，确定同时存在于文本内容、待测文本内容的第一词的数量；确定文本内容、待测文本内容存在同义词的第二词的数量；

根据第一词和第二词的数量，利用下述公式，计算第三相似度：

P＝(x+y)/z

其中，p用于表征所述第三相似度，x用于表征所述第一词的数量，y用于表征所述第二词的数量，z用于表征所述待查重文档中词的总数。

确定待测文本内容中包括第一高频词的至少一个第一语句；

确定文本内容中包括第二高频词的至少一个第二语句；

确定同时存在于至少一个第一语句和至少一个第二语句中的第三词的数量；

确定至少一个第一语句中第四词的数量，其中，第四词在至少一个第二语句中存在同义词；

根据第三词的数量和第四词的数量，利用下述公式，计算所述第四相似度；

k＝(m+n)/h

其中，k用于表征所述第四相似度，m用于表征所述第三词的数量，n用于表征所述第四词的数量，h用于表征所述至少一个第一语句中词的总数。

根据第三相似度和第四相似度，利用下述公式，确定文本内容与待测文本内容的相似度。

q＝αp+βk

其中，q用于表征所述待查重文档与所述对比文档的重复率，α用于表征所述第三相似度的权重，p用于表征所述第三相似度，β用于表征所述第四相似度的权重，k用于表征所述第四相似度。

确定两种或两种以上变量间相互依赖的定量关系，通常采用线性回归分析模型。当然，也可以考虑采用相似度模型、概率模型、非线性模型和组合模型等进行计算。

回归分析是对具有相关关系的两个或两个以上变量进行统计分析的一种常用方法。

多元线性回归方程通常表示为

y＝Xβ＝β01+β1x1+β2x2+…+βmxm，

其中x为变量的数目，βj(j＝1,2,…,m)称为回归系数，上式也被称为总体回归函数的随机表达式。

建立多元线性回归模型时，为了保证回归模型具有优良的解释能力和预测效果，应首先注意自变量的选择，其准则是：

(1)自变量对因变量必须有显著的影响，并呈密切的线性相关；

(2)自变量与因变量之间的线性相关必须是真实的，而不是形式上的；

(3)自变量之间应具有一定的互斥性，即自变量之间的相关程度不应高于自变量与因变量之因的相关程度；

(4)自变量应具有完整的统计数据，其预测值容易确定。

本发明的有益效果是：

1、技术价值从目标文献与相似文献的相似度、技术分类重合度两个方面考虑目标文献的技术价值，增加了文献评价价值的合理性，提高了文献评价方法的准确性。

2、提出了市场价值从领先企业及专利数量、跟随企业及专利数量的角度评价目标专利的市场价值，同样也增加了文献评价价值的合理性，提高了文献评价方法的准确性。

具体实施方式

下面结合实施例对本发明进一步说明。

本发明一种基于计算机科技文献数据库的专利价值度计算方法，从计算机专利数据库提取专利信息，从专利质量Q、技术价值T、市场价值M、社会效应S4个层面，选取创新程度、技术宽度、法律属性、权利要求属性、许可转让情况等多个参数，对单个专利价值进行全面客观的计算，最终形成单个专利的价值评估数值。

价值评估值J的总体计算方法如下：

J＝Q*α+T*β+M*γ+S*δ

其中，Q、T、M、S的数值范围都要设定在0-100之间；系数α、β、γ和δ的取值通过线性回归模型确定。

(1)获取目标文献的数据参数，包括：Q1特征数量(特征数)、Q2权项数量、Q3引用情况、Q4被引用情况、Q6同族数量、Q7专利类型(NA/1发明NA/2实用新型)、Q8法律状态、Q9有效期限(存活期)8个参数。

根据如下计算公式获得第一价值参数Q：

其中，Q7为发明时，取值为3，为实用新型时取值为2；Q8为授权时取值为2，失效取值1.5，公开取值为1，驳回及其他是取值0.5；P1取值为5，P2取值为7，P3取值为1，P4取值为1.5，P5取值为2.5。

(2)对目标专利进行语义检索，获取与所述目标文献相关的目标文献相关数据集；

统计申请日之前相似度最高的N件专利，文献相似度记为N1、N2…Nn，计算均值记为第一相似度T1；

获取以上相似文献的技术分类信息，申请日之前的目标文献涉及的技术分类数量记为M，相似文献涉及的技术分类总数量记为M′,目标文献与相似文献相同的技术分类个数记为K，相同个数K和相似文献与目标文献总数量中数量较大的数字作比值，该比值记为第二相似度T2；

第一相似度、第二相似度可通过做加法或者加权加法进行计算，最终获得第二价值度参数T。

(3)第三价值度参数(市场价值M)

选取相关度在50％-70％以上的文献，优选相关度为70％；

价值度参数M1、价值度参数M2可通过做加法或者加权加法进行计算，最终获得第三价值度参数M。

(4)获取目标专利的其它信息，包括：S1复审信息、S2无效信息、S3诉讼信息和S4质押信息。逻辑判断有或无，如果是有，则S1＝40；S2＝25；S3＝25；S4＝10，第四价值参数S＝S1+S2+S3+S4，且S1+S2+S3+S4＝100。

其中，上述提到的语义检索包括以下步骤：

I1：采集语料库；

I2：基于语料库，采用无监督自适应训练方法训练语义分析模型；

I3：理解输入至语义分析型的文本内容；

I4：基于理解信息确定文本内容与其余文本内容的相似度。

或者，语义检索也可以选择采用以下步骤：

I1：确定文本内容与待测文本内容；

I2：对文本内容与待测文本内容进行分词；

I3：根据文本内容的分词结果与待测文本内容的分词结果，进行同义词归并，确定第三相似度；

I4：根据文本内容的分词结果与待测文本内容的分词结果，进行聚类分析，确定第四相似度；

I5：根据第三相似度和第四相似度，确定文本内容与待测文本内容的相似度。

根据第一词和第二词的数量，利用下述公式，计算第三相似度：

P＝(x+y)/z

其中，p用于表征所述第三相似度，x用于表征所述第一词的数量，y用于表征所述第二词的数量，z用于表征所述待查重文档中词的总数。

确定待测文本内容中包括第一高频词的至少一个第一语句；

确定文本内容中包括第二高频词的至少一个第二语句；

确定同时存在于至少一个第一语句和至少一个第二语句中的第三词的数量；

确定至少一个第一语句中第四词的数量，其中，第四词在至少一个第二语句中存在同义词；

根据第三词的数量和第四词的数量，利用下述公式，计算所述第四相似度；

k＝(m+n)/h

其中，k用于表征所述第四相似度，m用于表征所述第三词的数量，n用于表征所述第四词的数量，h用于表征所述至少一个第一语句中词的总数。

根据第三相似度和第四相似度，利用下述公式，确定文本内容与待测文本内容的相似度。

q＝αp+βk

回归分析是对具有相关关系的两个或两个以上变量进行统计分析的一种常用方法。

多元线性回归方程通常表示为：

y＝Xβ＝β01+β1x1+β2x2+…+βmxm，

其中x为变量的数目，βj(j＝1,2,…,m)称为回归系数，上式也被称为总体回归函数的随机表达式。

建立多元线性回归模型时，为了保证回归模型具有优良的解释能力和预测效果，应首先注意自变量的选择，其准则是：

(1)自变量对因变量必须有显著的影响，并呈密切的线性相关；

(2)自变量与因变量之间的线性相关必须是真实的，而不是形式上的；

(3)自变量之间应具有一定的互斥性，即自变量之间的相关程度不应高于自变量与因变量之因的相关程度；

(4)自变量应具有完整的统计数据，其预测值容易确定。

数据库显示的专利价值详情：

本发明不局限于上述最佳实施方式，任何人在本发明的启示下得出的其他任何与本发明相同或相近似的产品，均落在本发明的保护范围之内。

本文发布于:2024-09-22 07:09:32，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/4/68535.html

上一篇：CD98HC基因人源化非人动物的构建方法及应用与流程

下一篇：一种含芳香基的哌啶衍生物Boc哌啶4-氟苯乙醇的合成方法与流程

标签：一种基于计算机科技文献数据库的专利价值度计算方法

留言与评论（共有 0 条评论）