一种自适应的高校专利科研团队识别方法

著录项
  • CN201910046709.8
  • 20190118
  • CN109829634A
  • 20190531
  • 北京工业大学
  • 刘磊;吴爽;韩敏;韩晓明;柯东杰;张红亮;孙应红
  • G06Q10/06
  • G06Q10/06 G06Q50/18 G06F17/27 G06F16/35

  • 北京市朝阳区平乐园100号
  • 北京(11)
  • 北京思海天达知识产权代理有限公司
  • 吴荫芳
摘要
本发明提供了一种自适应的高校专利科研团队的识别方法,属于数据挖掘领域,具体是一种自适应的高校专利科研团队识别方法。主要内容包括:首先对所有专利的全部发明人进行人名频次统计,构建发明人共现矩阵;其次构建专利?发明人矩阵,将专利?发明人矩阵进行奇异值分解,对分解后的矩阵用层次聚类法进行聚类,根据自适应阈值得到聚类的簇,将簇作为候选专利团队,利用特定规则,对候选专利科研团队进行分类和验证;最后利用主题生成模型对专利科研团队中的专利题目和摘要进行处理,根据处理后的发明内容,对专利进行语义聚类,并将聚类结果用于专利科研子团队识别。
权利要求

1.一种自适应的高校专利科研团队识别方法,按以下步骤实现:

步骤(1)数据预处理

(1.1)从高校科研数据库中获取高校h年内的专利数据集,记作D={z1,z2,…,zm},任意zi∈D表示一项专利,进一步被表示为z={per,title,abstract},其中per表示专利z的发明人集合,title表示专利名称,abstract表示专利摘要;

(1.2)将专利数据集D中的所有专利的全部发明人进行去重:z1(per)∪z2(per)∪…∪zm(per),得到高校全部发明人集合,记作Person={p1,p2,…,pn},其中任意pi∈D表示一位发明人,并对D中所有专利发明人per做频次统计,得到专利发明人的频次列表,记作plist={(p1,v1),(p2,v2),…,(pn,vn)},其中任意(p,v)∈plist表示一位发明人p发明了v项专利;

(1.3)如果两个专利发明人是x项专利的共同发明人,则称两个专利发明人具有共现关系,共现次数记为x,根据专利发明人在专利中的共现关系,以发明人集合Person={p1,p2,…,pn}为行和列,构建所有专利发明人的共现关系矩阵:

其中,coij表示发明人pi与发明人pj的共现次数;

步骤(2)构建专利-发明人矩阵

(2.1)以专利D={z1,z2,…,zm}为行,以发明人集合Person={p1,p2,…,pn}为列,构建专利-发明人矩阵:

其中,aij取值为0或1,aij=1,表示发明人pj是专利zi的专利发明人;aij=0,表示发明人pj不是专利zi的专利发明人;

(2.2)对专利-发明人矩阵Amn进行奇异值分解

其中Umn为矩阵Amn的左奇异向量构成的矩阵,Vnn为矩阵的右奇异向量构成的矩阵,Snn为矩阵Amn的奇异值构成的对角矩阵,记作s1>s2>…>sn,将Snn中小于阈值μ∈[0.01,0.02]的对角线元素都设置为0,记作S'nn,重新计算得到专利-发明人矩阵:

其中,a'ij表示发明人pj和专利zi,在奇异值分解后,重新计算得到的对应数值;

步骤(3)构建发明人的特征向量,利用层次聚类方法,得到候选专利科研团队

(3.1)将发明人集合Person={p1,p2,…,pn}中的每一个发明人看作一个初始的聚类簇Ci={pi},对任意发明人pi∈Persgn,发明人pi的特征向量以专利-发明人矩阵A'mn中对应的第i个列向量表示,记作Vec(pi);

(3.2)以单链方式计算任意簇与簇之间的距离,即以不同簇的两个最近的点之间的邻近度表示簇与簇之间距离,公式如下:

其中,Cos(Vec(pi),Vec(pj))表示发明人pi和pj的特征向量的夹角余弦值;

(3.3)合并距离最近的两个簇Ci和Cj;

(3.4)循环迭代步骤(3.2)、(3.3),直到簇与簇之间的最小距离小于阈值y;

这里给出阈值y的自适应调节公式:

其中,m为高校的专利数目,n为高校发明人的数目,lg(n)为以10为底的n的对数;

(3.5)聚类结果记作CP={C1,C2,…,Ck},Ci为每一个簇,k为簇的总数,每个簇中发明人集合作为一个候选专利科研团队;

步骤(4)利用特定规则,对候选专利科研团队进行分类和验证

(4.1)将候选专利科研团队中的成员分为带头人(leader)、核心成员(Nucleus)、一般成员(Common)三类,分类规则如下:

带头人:根据数据预处理步骤,专利发明人频次列表plist={(p1,v1),(p2,v2),…,(pn,vn)}中记录的每个发明人发明的专利项数,团队中发明专利项数最高的专利发明人作为团队带头人;

核心成员:团队中与带头人共现次数大于阈值θ1的专利发明人作为核心成员;

这里给出阈值θ1的公式:

其中,v为带头人发明的专利项数;

一般成员:团队中除了带头人和核心成员之外的成员作为一般成员,如果团队中一般成员数为0,则删除此候选团队;

(4.2)利用发明人共现矩阵,对候选专利科研团队进行合并

对于任意两个候选团队,如果两个专利团队带头人之间共现次数大于阈值θ2∈[30,40],则将这两个候选专利科研团队合并,发明专利项数最高的专利发明人作为新团队带头人,循环迭代,合并所有满足团队带头人之间共现次数大于阈值θ2的专利团队;

(4.3)重新识别团队核心和一般成员

根据(4.1)的核心成员和一般成员识别规则,重新识别团队合并后的团队核心和一般成员,如果团队中一般成员数为0,则删除此候选团队;

依次执行(4.1)-(4.3)得到专利科研团队集合,记作

P_TEAM=(p_team1,p_team2,…,p_teamm)

对任意一个专利科研团队p_team∈P_TEAM,进一步被表示为

p_team={leader,Nucleus,Common}

其中leader表示团队的带头人,Nucleus表示团队的核心成员集合,记作Nucleus={nucleus1,nucleus2,…nucleusv},Common表示团队的一般成员集合,记作Common={common1,common2,…,commonv'};

步骤(5)在步骤4的基础上,对专利科研团队集合P_TEAM中的团队进行专利科研子团队识别

根据专利的发明内容,对专利进行语义聚类,然后将聚类结果用于专利科研子团队识别;

(5.1)专利的语义表示

将一个专利科研团队的所有发明专利集合记作Dteam={z1,z2,…,zm},对所有专利z∈Dteam,执行如下Step1-Step3处理:

Step1:将专利z的题目title进行分词、去除停用词,处理后的结果记为Ttitile=(word1,word2,…,wordt);

Step2:将专利z的摘要abstract用自然语言处理领域通用的LDA(Latent DirichletAllocation)模型进行主题词生成,处理后的结果记为Tabstract=(word1,word2,…,wordt');

Step3:取Ttitile∪Tabstract作为专利z的语义词表示,记作T(z)=(word1,word2,…,wordt”);

(5.2)专利语义聚类

Step1:将Dteam中所有专利的语义词表示取并集T(z1)∪T(z2)∪…∪T(zm),得到该专利科研团队的专利语义词表示,记作T(Dteam)=(word1,word2,…,wordn);以Dteam={z1,z2,…,zm}为行,以T(Dteam)为列,构建专利-语义词矩阵

其中,wdij取值为0或1,wdij=1,表示语义词wordj是专利zi的语义词;wdij=0,表示wordj不是专利zi的语义词;

对任意zi∈Dteam,从专利-语义词矩阵WD中取zi的对应行,可以得到zi的语义向量,记作Vector(zi)=(wdi1,wdi2,…,wdin);

Step2:将Dteam中每一个专利看作一个初始的聚类簇ci={zi},对任意zi∈Dteam,两个专利的距离通过它们语义向量的夹角余弦计算,利用层次聚类法进行聚类,当簇与簇之间的最小距离小于阈值α∈[0.01,0.02]时迭代停止,聚类结果记CW={c1,c2,…,ck},k为簇的总数;

(5.3)专利科研子团队识别

聚类结果中每个簇的发明人集合对应一个科研子团队,对任意簇ci∈CW,将ci中所有专利的发明人取并集,得到专利团队的子团队,记作p_team(c)={p1,p2,…,pl},其中pi表示一个专利发明人,l为一个子团队的发明人数量;

专利科研团队Dteam={z1,z2,…,zm}的所有科研子团队表示为{p_team(c1),p_team(c2),…,p_team(cu)},ci∈CW。

说明书
技术领域

本发明属于数据挖掘领域,具体是涉及一种自适应的高校专利科研团队的识别方法。

随着社会的迅速发展,科研成果迅猛增加,高校专利技术总量也逐年增长,目前高校科研团队识别方法主要使用调查问卷、社会网络、频繁项集、层次聚类等方法对论文科研团队及科研团队带头人的研究。但目前对高校专利团队识别的自适应方法并不多见。高校专利团队是高校教师长期合作发表专利的基础上自然形成的研究团体。

科研工作者的合作关系对科研成果有着较大的影响。由于专利技术的呈现往往是由一个或者多个人员进行研究,即专利发明人之间的共现关系。根据专利发明人之间的共现关系可以得出专利发明人合作的关系,根据发明人的专利成果数量可以得出专利发明人的创新能力,因此将这两个因素运用到高校专利团队的识别,以便更好地发现高校专利团队。

高校专利团队的发现有利于高校的科研建设,高校专利团队人员的增减变化可以体现高校科研能力的变化趋势。但由于高校工作者数量较多,发表专利类型不同,专利的类型和数量差异较大。目前高校专利团队的研究方法没有没有自适应性,并不能普遍适用到国内的任意一个高校。因此需要一种自适应的高校专利团队识别方法,能够自适应地识别出不同高校的高校专利团队。

本发明针对高校专利科研团队识别问题,提出了一种自适应的高校专利科研团队识别方法。此方法可以根据高校专利的数目以及发明人的数量,自适应地调整高校的专利科研团队数目,识别出高校专利科研团队。主要内容包括:首先对所有专利的全部发明人进行人名频次统计,构建发明人共现矩阵;其次构建专利-发明人矩阵,将专利-发明人矩阵进行奇异值分解,对分解后的矩阵用层次聚类法进行聚类,根据自适应阈值得到聚类的簇,将簇作为候选专利团队,利用特定规则,对候选专利科研团队进行分类和验证;最后利用主题生成模型对专利科研团队中的专利题目和摘要进行处理,根据处理后的发明内容,对专利进行语义聚类,并将聚类结果用于专利科研子团队识别。

为实现上述目的,本发明采用如下的技术方案

一种自适应的高校专利科研团队识别方法,包括以下步骤:

步骤(1)数据预处理

(1.1)从高校科研数据库中获取高校h年内的专利数据集,记作D={z1,z2,…,zm}。任意zi∈D表示一项专利,进一步被表示为z={per,title,abstract},其中per表示专利z的发明人集合,title表示专利名称,abstract表示专利摘要。

(1.2)将专利数据集D中的所有专利的全部发明人进行去重:z1(per)∪z2(per)∪…∪zm(per),得到高校全部发明人集合,记作Person={p1,p2,…,pn},其中任意pi∈D表示一位发明人。并对D中所有专利发明人per做频次统计,得到专利发明人的频次列表,记作plist={(p1,v1),(p2,v2),…,(pn,vn)},其中任意(p,v)∈plist表示一位发明人p发明了v项专利。

(1.3)如果两个专利发明人是x项专利的共同发明人,则称两个专利发明人具有共现关系,共现次数记为x。根据专利发明人在专利中的共现关系,以发明人集合Person={p1,p2,…,pn}为行和列,构建所有专利发明人的共现关系矩阵:

其中coij表示发明人pi与发明人pj的共现次数。

步骤(2)构建专利-发明人矩阵

(2.1)以专利D={z1,z2,…,zm}为行,以发明人集合Person={p1,p2,…,pn}为列,构建专利-发明人矩阵:

其中aij取值为0或1。aij=1,表示发明人pj是专利zi的专利发明人,aij=0,表示发明人pj不是专利zi的专利发明人。

(2.2)对专利-发明人矩阵Amn进行奇异值分解

其中Umn为矩阵Amn的左奇异向量构成的矩阵,Vnn为矩阵的右奇异向量构成的矩阵,Snn为矩阵Amn的奇异值构成的对角矩阵,记作s1>s2>…>sn。将Snn中小于阈值μ∈[0.01,0.02]的对角线元素都设置为0,记作S'nn,重新计算得到专利-发明人矩阵:

其中a'ij表示发明人pj和专利zi,在奇异值分解后,重新计算得到的对应数值。

步骤(3)构建发明人的特征向量,利用层次聚类方法,得到候选专利科研团队

(3.1)将发明人集合Person={p1,p2,…,pn}中的每一个发明人看作一个初始的聚类簇Ci={pi}。对任意发明人pi∈Person,发明人p的特征向量以专利-发明人矩阵A'mn中对应的列向量表示,记作Vec(p)。

(3.2)以单链方式计算任意簇与簇之间的距离,即以不同簇的两个最近的点之间的邻近度表示簇与簇之间距离,公式如下:

其中Cos(Vec(pi),Vec(pj))表示发明人pi和pj的特征向量的夹角余弦值。

(3.3)合并距离最近的两个簇Ci和Cj。

(3.4)循环迭代步骤(3.2)、(3.3),直到簇与簇之间的最小距离小于阈值y。

这里给出阈值y的自适应调节公式:

其中m为高校的专利数目,n为高校发明人的数目,lg(n)为以10为底的n的对数。

(3.5)聚类结果记作CP={C1,C2,…,Ck},Ci为每一个簇,k为簇的总数,每个簇中发明人集合作为一个候选专利科研团队。

步骤(4)利用特定规则,对候选专利科研团队进行分类和验证。

(4.1)将候选专利科研团队中的成员分为带头人(leader)、核心成员(Nucleus)、一般成员(Common)三类,分类规则如下:

带头人:团队中频次最高的专利发明人作为团队带头人;

核心成员:团队中与带头人共现次数大于阈值θ1的专利发明人作为核心成员;

这里给出阈值θ1的公式:

其中v为带头人的频次。

一般成员:团队中除了带头人和核心成员之外的成员作为一般成员,如果团队中一般成员数为0,则删除此候选团队。

(4.2)利用发明人共现矩阵,对候选专利科研团队进行合并

对于任意两个候选团队,如果两个专利团队带头人之间共现次数大于阈值θ2∈[30,40],则将这两个候选专利科研团队合并,频次最高的专利发明人作为新团队带头人。循环迭代,合并所有满足团队带头人之间共现次数大于阈值θ2的专利团队。

(4.3)重新识别团队核心和一般成员。

根据(4.1)的核心成员和一般成员识别规则,重新识别团队核心和一般成员,如果团队中一般成员数为0,则删除此候选团队。

依次执行(4.1)-(4.3)得到专利科研团队集合,记作

P_TEAM=(p_team1,p_team2,…,p_teamm)

对任意一个专利科研团队p_team∈P_TEAM,进一步被表示为p_team={leader,Nucleus,Common}

其中leader表示团队的带头人,Nucleus表示团队的核心成员集合,记作Nucleus={nucleus 1,nucleus 2,…nucleus v},Common表示团队的一般成员集合,记作Common={common1,common2,…,commonv'}。

由于识别到的专利科研团队中,团队成员与成员之间的研究方向不同,因此本发明根据专利题目及摘要对专利科研团队的子团队做进一步的识别,专利科研团队的子团队由研究方向相同的成员组成。

步骤(5)专利科研团队中的专利科研子团队识别

根据专利的发明内容,对专利进行语义聚类,然后将聚类结果用于专利科研子团队识别。

(5.1)专利的语义表示

将一个专利科研团队的所有发明专利集合记作Dteam={z1,z2,…,zm},对所有专利z∈Dteam,执行如下Step1-Step3处理:

Step1:将专利z的题目title进行分词、去除停用词,处理后的结果记为Ttitile=(word1,word2,…,wordt)。

Step2:将专利z的摘要abstract用自然语言处理领域通用的LDA(LatentDirichlet Allocation)模型进行主题词生成,处理后的结果记为Tabstract=(word1,word2,…,wordt')。

Step3:取Ttitile∪Tabstract作为专利z的语义词表示,记作T(z)=(word1,word2,…,wordt”)。

(5.2)专利语义聚类

Step1:将Dteam中所有专利的语义词表示取并集T(z1)∪T(z2)∪…∪T(zm),得到专利科研团队的专利语义词表示,记作T(Dteam)=(word1,word2,…,wordn)。以Dteam={z1,z2,…,zm}为行,以T(Dteam)为列,构建专利-语义词矩阵

其中wdij取值为0或1。wdij=1,表示语义词wordj是专利zi的语义词;wdij=0,表示wordj不是专利zi的语义词。

对任意zi∈Dteam,从专利-语义词矩阵WD中取zi的对应行,可以得到zi的语义向量,记作Vector(zi)=(wdi1,wdi2,…,wdin)。

Step2:将Dteam中每一个专利看作一个初始的聚类簇ci={zi}。对任意zi∈Dteam,两个专利的距离通过它们语义向量的夹角余弦计算,利用层次聚类法进行聚类,当簇与簇之间的最小距离小于阈值α∈[0.01,0.02]时迭代停止。聚类结果记CW={c1,c2,…,ck},k为簇的总数。

(5.3)专利科研子团队识别

聚类结果中每个簇的发明人集合对应一个科研子团队。对任意簇ci∈CW,将ci中所有专利的发明人取并集,得到专利团队的子团队,记作p_team(c)={p1,p2,…,pl},其中pi表示一个专利发明人,l为一个子团队的发明人数量。

专利科研团队Dteam={z1,z2,…,zm}的所有科研子团队表示为{p_team(c1),p_team(c2),…,p_team(cu)},ci∈CW。

有益效果

本发明充分的优势主要体现在以下几个方面:

1)本方法可以根据发明人的频次列表、发明人共现矩阵,识别专利科研团队的带头人、核心成员和一般成员。

2)本方法可以根据高校的专利数目及高校发明人的数目,自适应识别高校专利科研团队。

3)本方法可以根据专利题目和摘要识别高校专利科研团队的子团队成员。

图1本发明实现自适应的高校专利科研团队识别方法的流程图;

下面结合附图和实施例,对本发明的具体实施方式作进一步的详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。

根据图1所示,本发明提出的方法是依次按以下步骤实现的(以某高校专利数据为例):

步骤(1)数据预处理

从某高校数据库中获取2000-2018年内的专利数据7632项,记作D={z1,z2,…,zm},zi由一个三元组表示,z={per,title,abstract},其中per表示专利z的发明人集合,title表示专利名称,abstract表示专利摘要。

将专利数据集中的所有专利发明人去重,得到高校全部发明人集合,记作Person={p1,p2,…,pn},对高校全部发明人集合统计频次,得到专利发明人的频次列表,记作plist={(p1,v1),(p2,v2),…,(pn,vn)},得到专利发明人7863人。

根据专利发明人在专利中的共现关系,以发明人集合Person={p1,p2,…,pn}为行和列,构建所有专利发明人的共现关系矩阵Co_rep,共现矩阵Co_rep的维度为7863×7863。

步骤(2)构建专利-发明人矩阵

构建专利-发明人矩阵Amn,矩阵Amn的行为专利D={z1,z2,…,zm},列为发明人集合Person={P1,P2,…,Pn},矩阵Amn的维度为7632×7863。对矩阵Amn进行奇异值分解,Snn的对角线元素si小于阈值μ=0.15的设置为0,用s=(s1,s2,si-1,0,...,0)作为Snn的新对角线元素,记作S'nn,重新计算重新计算得到专利-发明人矩阵A'mn,矩阵A'mn的维度为7632×7863。

步骤(3)专利发明人聚类

将发明人集合Person={p1,p2,…,pn}中的每一个发明人看作一个初始的聚类簇Ci={pi}。对任意发明人pi∈Person,发明人p的特征向量以专利-发明人矩阵A'mn中对应的列向量表示,记作Vec(p)。利用公式(5)计算不同簇的两个最近点之间的邻近度,将距离最近的两个簇Ci和Cj合并。循环迭代,直到簇与簇之间的距离小于公式(7)的自适应阈值y=0.198时迭代终止,聚类可以得到候选专利团队CP={C1,C2,…,Ck},一共有328个簇,即328个候选专利团队。

步骤(4)利用特定规则,对候选专利科研团队进行分类和验证。

将候选专利科研团队中的发明专利项数最高的专利发明人作为团队带头人,利用公式(7)将团队中与带头人共现次数大于阈值θ1的专利发明人作为核心成员;团队中除了带头人和核心成员之外的成员作为一般成员。删除候选团队中一般成员为0的团队,剩余候选专利团队223个。

下面以223个候选专利团队中的某一团队为例,说明阈值的θ1实施步骤:

首先根据专利发明人的频次列表plist,得到该团队的带头人,该团队的带头人leader对应的v=104,利用公式(7)得到阈值θ1=20.8。将团队中与带头人共现次数大于阈值θ1=20.8的专利发明人作为核心成员。

对于任意两个候选专利科研团队,如果两个团队带头人之间共现次数大于阈值θ2=30,则将这两个候选专利科研团队合并。频次最高的专利发明人作为新团队带头人。循环迭代,合并所有满足团队带头人之间共现次数大于阈值θ2=30时迭代终止。合并后的候选专利科研团队为96个。

重新识别合并后的候选专利团队,删除候选团队中一般成员为0的团队,得到专利科研团队集合,记作P_TEAM=(p_team1,p_team2,…,p_teamm),重新识别后的专利团队为77个。

步骤(5)专利科研团队中的专利科研子团队识别

根据专利的发明内容,对专利进行语义聚类,然后将聚类结果用于专利科研子团队识别。下面以77个团队中的某一团队为例,说明专利科研子团队识别的实施步骤。

首先将该团队中的所有专利题目进行分词、去除停用词;将专利摘要用LDA主题模型进行主题词确定,根据步骤(5.1)中的Step1-Step3得到该团队每一个专利的语义词,部分结果如表1所示:

表1部分专利的语义词表示

然后将团队中所有专利的语义词取并集,得到该团队的语义词集合T(Dteam)=(转码,装置,增益,编解码,系统,通信,设备,比特流,接收端,传输,球谐,展开,多声道,转换,扬声器,嵌入式,语音,编解码器,码率,音频,信号,速率,编码方法,编码器,解码,过渡,均值,脉冲,解码,…),以该团队的语义词集合T(Dteam)为行,以该团队中的每一个专利为列,利用公式(8)构建专利-语义词矩阵WD。

将团队中每一个专利看作一个初始的聚类簇ci={zi}。对任意两个专利的距离通过它们语义向量的夹角余弦计算,利用层次聚类法进行聚类,当簇与簇之间的最小距离小于阈值α=0.02时迭代停止。聚类结果记CW={c1,c2,…,ck},k=4为簇的总数。结果如表2:

表2团队中专利语义聚类结果

最后根据聚类结果,对任意聚类簇ci∈CW,将ci中所有专利的发明人取并集,得到专利团队的子团队,结果如表3:

表3

本发明通过对专利发明人进行词频统计,根据专利发明人与发明人构建专利发明人的共现关系矩阵。根据专利与发明人构建专利-发明人矩阵,将专利-发明人矩阵进行奇异值分解,对分解后的矩阵用层次聚类法进行聚类,进行专利团队的识别。本发明还通过团队中专利的主题、关键词对专利子团队进行了识别。根据识别出的专利科研团队及子团队,可以用于分析高校的科研进展情况,进而为高校的科研建设做出更好的决策方案。

本文发布于:2024-09-22 07:32:47,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/83005.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议