一种专利热点发现与趋势分析方法

著录项
  • CN201310129380.4
  • 20130415
  • CN103164540A
  • 20130619
  • 武汉大学
  • 彭智勇;陈旭;万鹏
  • G06F17/30
  • G06F17/30

  • 湖北省武汉市武昌区珞珈山武汉大学
  • 中国,CN,湖北(42)
  • 武汉科皓知识产权代理事务所(特殊普通合伙)
  • 张火春
摘要
本发明公开了一种专利热点发现与趋势分析方法。在专利热点发现过程中,首先,进行分词,并计算专利文档之间的相似度,根据相似度进行聚类。然后,对每个簇中的短语进行合并,使结果更加简洁、直观。接着,通过热点计算方法发现热点技术,并分析每项热点技术的热点程度。最后,根据历史数据进行曲线拟合,借助Logistic回归曲线判断某项技术当前所处的技术生命周期,从而分析该技术的发展状况及潜在的研究价值。同时,对热点技术进行有效的趋势分析,给出这项技术未来的发展趋势。本方法能从大量珍贵的专利数据中挖掘出有效的信息情报,具有广泛的实用性和较高的市场价值。
权利要求

1.一种专利热点发现与趋势分析方法,其特征在于,包括以下步骤:

步骤1:专利文档采集,构建专利文档集合;

步骤2:将所述的专利文档向量化;

步骤3:根据所述专利文档的空间向量表示,计算所述的专利文档中两两专利文档之间 的相似度;

步骤4:根据所述的专利文档之间的相似度对所述的专利文档集合进行聚类分析,形成 专利文档簇;

步骤5:对所述的每个专利文档簇进行主题命名;

步骤6:通过热点计算方法对所述的每个主题进行技术研究热点分析;

步骤7:对所述的每个技术研究热点进行趋势分析,分析所述的技术所处的生命周期阶 段,并对所述的技术的发展趋势做出预测。

2.根据权利要求1所述的专利热点发现与趋势分析方法,其特征在于:所述的步骤2 中将所述的专利文档向量化,具体实现方法为:

定义所述的专利文档的集合为D={d 1,d 2,…,d n},对于所述的专利文档集合D={d 1, d 2,…,d n}中的任意一条专利d i,利用一组关键词的空间向量来表示。其过程为,首先采用 现有的分词系统对所述的所有专利文档进行中文分词,得到词项;然后根据自定义或公用的 停用词词库去除所述的专利文档中的停用词词项,其中停用词词项为没有实际含义的功能词 词项;接着对于移除停用词词项后的词项,计算每个词项在所述的专利文档中的权重,其计 算公式为:

w ( t j , d i ) = tf ( t j , d i ) × log ( N / n t j + 0.01 ) Σ t j d i [ tf ( t j , d i ) × log ( N / n t j ) + 0.01 ] 2

其中,1≤i≤n,d i表示专利i的文档内容;

其中,w(t j,d i)为词项t j在专利文档d i中的权重,也记作w ij。而tf(t j,d i)为词项t j在专利 文档d i中的词频,N为专利文档集合D中专利的总数, 为专利文档集合D出现词项t j 的专利文档数,分母为归一化因子;

最后,将所述的词项向量化,表示为 用所述的各个词项对应的 空间向量表示每一篇所述的专利文档,其中w ij为词项t j在专利文档d i中的权重。

3.根据权利要求1所述的专利热点发现与趋势分析方法,其特征在于:所述的步骤3 中计算所述的专利文档中两两专利文档之间的相似度,包括以下步骤:

步骤3.1:对所述的任意两条专利文档d i和d j,使用其对应的向量之间的夹角余弦来度 量两者的相似度,其公式为:

sim 0 ( d i , d j ) = Σ k = 1 n W k ( d i ) × W k ( d j ) ( Σ k = 1 n W k 2 ( d i ) ) × ( Σ k = 1 n W k 2 ( d j ) ) * α

其中w k(d i)为第k个词项在文档d i中的权重,w k(d j)为第k个词项在文档d j中的权重,α 为所述的专利文档内容相似度在所述的相似度计算中所占的权重因子;

步骤3.2:计算所述的专利文档的国际专利分类号ipc相似度:

sim 1 ( d i , d j ) = length ( ipc ( d i ) ipc ( d j ) ) max ( length ( ipc ( d i ) , length ( ipc ( d j ) ) ) ) * β

其中β为ipc在相似度计算中所占的权重因子,ipc(d i)为专利文档i的ipc,ipc(d j)为 专利文档j的ipc,length(ipc)为ipc所占的字符长度;

步骤3.3:计算所述的专利文档的专利引用reference相似度计算公式如下:

sim 2(d i,d j)=n ref(d i,d j)*δ 1+n refed(d i,d j)*δ 2

其中,n ref(d i,d j)表示专利文档i,j同时引用了其他专利文献的次数,n refed(d i,d j)表示 专利i,j同时被其他文献引用的次数,δ 1为同时引用其他专利的影响因子,δ 2为同时被其 他专利引用的影响因子;

步骤3.4:计算所述的专利文档中两两专利文档之间的相似度为:

sim(d i,d j)=sim 0(d i,d j)+sim 1(d i,d j)+sim 2(d i,d j)。

4.根据权利要求1所述的专利热点发现与趋势分析方法,其特征在于:所述的步骤4 中根据所述的专利文档之间的相似度对所述的专利文档集合进行聚类分析,形成专利文档 簇,具体实现方法为:

根据所述的专利文档之间的相似度,使用K‑means聚类算法进行所述的专利文档聚类。 聚类后,得到的是一个一个的簇,每个簇由若干相似度较大的专利文档组成,同时每个簇由 所述的专利文档所包含的一组关键词短语来表示,定义簇C={T 1,T 2,…,T m},其中T i为簇 C中包含的第i个短语,且1≤i≤m。

5.根据权利要求1所述的专利热点发现与趋势分析方法,其特征在于:步骤5中所述 的对所述的每个专利文档簇进行主题命名,包括以下步骤:

步骤5.1:寻候选短语集合,具体实现方法如下:

对于簇C i中所包含的短语集合M={T 1,T 2,…,T n},如果frq(T j,C i)/docs(C i)>ξ,那 么将短语T j作为候选短语;

其中1≤j≤n,frq(T j,C i)为短语T j在簇C i中出现的频率,docs(C i)为簇C i中包含的专利 文档总数,ξ为定义的阀值;

步骤5.2:同类短语合并,具体实现方法如下:

如果T 1∩T 2∩…∩T n=T s,那么(T 1,T 2,…,T n)→T s;

即如果短语T 1,T 2,…,T n中都出现了T s这个子短语,则将T 1,T 2,…,T n这n个短语合并 为一个短语T s;

步骤5.3:寻最小覆盖集,具体实现方法如下:

P ( T i T j ) P ( T i T j ) > δ

其中,P(T i∩T j)表示同时包含T i、T j这两个词的文档数,P(T i∪T j)表示包含T i或T j中的 任意一个词的文档数。如果T i、T j两个词同时出现在同一篇专利文档中的次数与这两个词在 所有文档集合中出现的次数的比值大于某个阀值δ,那么T i、T j两个词中任意去掉一个,不 会太影响簇的召回率;

经过主题命名后,原始簇C i所包含的短语集合M={T 1,T 2,…,T n}被精简为M={T i, T j,…,T k},其中1≤i

6.根据权利要求1所述的专利热点发现与趋势分析方法,其特征在于:步骤6中通过 热点计算方法对所述的每个主题进行技术研究热点分析,具体实现方法为:通过对专利技术 热点的特征分析和量化,对所述的专利技术热点进行判断,其热度衡量公式为:

如果: freq ( T i ) > δ 1 andapp ( T i ) > δ 2 and Σ t = t 0 t 1 e 1 t 1 + 1 - t * freq ( t ) - Σ t = t 0 t 1 freq ( t ) Σ t = t 0 t 1 freq ( t ) > δ 3 ,

那么h(T i)=1,否则h(T i)=0;

其中T i为技术短语i,freq(T i)为短语T i出现的频率,app(T i)为专利申请中包含技术短语 T i的专利申请人数目,freq(t)为第t年总的词频数,δ 1、δ 2、δ 3为预先设置的三个阀值。 h(T i)=1表明技术短语T i是一个热点技术;h(T i)=0表明技术短语T i不是热点技术。作为热 点技术短语,其热度的计算公式为:

hotspot ( T i ) = ( 1 + ln freq ( T i ) δ 1 ) * ( 1 + ln app ( T i ) δ 2 ) * Σ t = t 0 t 1 e 1 t 1 + 1 - t * freq ( t ) - Σ t = t 0 t 1 freq ( t ) Σ t = t 0 t 1 freq ( t ) .

7.根据权利要求1所述的专利热点发现与趋势分析方法,其特征在于:步骤7中对所 述的每个技术研究热点进行趋势分析,分析所述的技术所处的生命周期阶段,并对所述的技 术的发展趋势做出预测,包括以下步骤:

步骤7.1:根据所述的每个技术研究热点中的某个热点技术短语所出现的情况,得到该 项技术申请在不同年份的申请数量;

T i→(y 1,n 1),(y 2,n 2),(y 3,n 3),……,(y k,n k)

其中,(y i,n i)表示在第y i年申请的专利数量为n i条;

步骤7.2:根据历史数据进行Logistic曲线拟合,到一条满项该项技术申请分布情况 的Logistic曲线;

Logistic曲线为: Y t = K 1 + e - a ( t - b )

所述的Logistic曲线拟合的包括如下步骤:

首先,进行如下变换:

y t = ln ( Y t K - Y t ) = - ab + at ,

y ^ t = a + b t ,

得到 a = b andb = - a b

然后根据历史数据,使用最小二乘法计算a′、b′的值:

y i=b′·x i+a′;

b = n · Σ x i y j - Σ x i · Σ y j n · Σ x i 2 - ( Σ x j ) 2 ;

a = Σ y j n - b · Σ x i n ;

其中,x i,y i为历史数据,x i为第(x 0+i)年,y i为在x i年申请的专利数目,n为历史 数据的总条数,得到a′和b′后,根据a=b′和b=‑a′/b′计算出a和b的值;

步骤7.3:通过拟合得到的曲线,对现有技术进行技术发展状况分析和趋势预测。具体 实现方法如下:

通过Logistic曲线 生长过程速度函数的一阶和二阶导数,可以得 到Logistic曲线增长或生长过程的始盛期、高峰期、盛末期分别为:

period=渐增期, if ( t 0 andt ln a - 1.317 b ) ;

period=快增期, if ( t > ln a - 1.317 b andt ln a + 1.317 b ) ;

period=缓增期, if ( t > ln a + 1.317 b ) ;

根据所述的Logistic曲线,判断该项技术所处的技术生命周期,所述的技术生命周期包 括:技术引入期、技术成长期、技术成熟期、技术饱和期,从而判断该项技术是否有继续研 究的价值;

根据所述的Logistic曲线,预测该技术在多少年后会被淘汰,以及预测在未来该项技术 的申请情况会是什么样,从而帮助专利审查员及时做出有利的战略决策。

说明书
技术领域

本发明涉及一种专利热点发现与趋势分析方法,尤其是涉及一种从专利集合中发现热点 技术并对热点技术进行趋势分析的方法。

专利文献涉及所有技术领域最新、最活跃的创新技术信息。专利文献的报导比其他文献 早1—3年,而且一项新技术的诞生到推广应用有个过程,存在一个“时间差”,少则几个月, 多则几十年。因此从专利文献中可以了解科技发展的最新动态。

研究显示:利用专利文献指导技术创新,可以有效节约40%的研究经费和60%的研究 时间。欧洲专利局的一项研究结果表明,在十几个欧洲专利条约成员国中,在应用技术的研 究开发中,由于利用了专利文献指导技术创新,每年可节约300亿马克的研究开发经费。

迄今,全球已有超过8500万件专利,且全世界现每年新增100多万件专利文献。

面对如此海量珍贵的专利数据,如何从中挖掘出有效的信息情报是目前工业界关注的热 点。

对于专利审查员来说,他可能需要了解:竞争对手的研究重点和技术优势是什么;哪些 技术现在被广泛研究;如果要做某个主题的研究,需要重点掌握哪些技术,应当遵循怎样的 技术路线;某项技术的研究价值是高还是低。

目前对市场的需求分析和技术预测主要依靠专家智慧,如采用专家调查法、德尔菲法等。 采用这样的方法能集合行业/领域专家的智慧,具有较强的实用性、科学性,但同时它也不 可避免地存在一些缺陷:

(1)定性分析为主,定量分析较少;

(2)缺少对于技术本身发展和创新的考虑;

(3)该过程耗时、耗力、成本高昂。

目前被广泛使用的专利数据服务平台,如Soopat、51Patent、CNIPR等,它们所提供的 服务限于基于专利外部特征项的一些分类、检索、统计等功能,而对于专利的热点发现研究, 目前还处于起步阶段。

本发明基于以上的技术背景,提出了一种专利热点发现和趋势分析方法,能够从一堆专 利文档集合中挖掘出研究主题和各个主题下所重点关注的技术,并能对每项技术的发展趋势 做出有效的预测。

本发明的技术方案包含如下步骤:一种专利热点发现与趋势分析方法,其特征在于,包 括以下步骤:

步骤1:专利文档采集,构建专利文档集合;

步骤2:将所述的专利文档向量化;

步骤3:根据所述专利文档的空间向量表示,计算所述的专利文档中两两专利文档之间 的相似度;

步骤4:根据所述的专利文档之间的相似度对所述的专利文档集合进行聚类分析,形成 专利文档簇;

步骤5:对所述的每个专利文档簇进行主题命名;

步骤6:通过热点计算方法对所述的每个主题进行技术研究热点分析;

步骤7:对所述的每个技术研究热点进行趋势分析,分析所述的技术所处的生命周期阶 段,并对所述的技术的发展趋势做出预测。

作为优选,所述的步骤2中将所述的专利文档向量化,具体实现方法为:

定义所述的专利文档的集合为D={d1,d2,…,dn},对于所述的专利文档集合D={d1, d2,…,dn}中的任意一条专利di,利用一组关键词的空间向量来表示。其过程为,首先采用 现有的分词系统对所述的所有专利文档进行中文分词,得到词项;然后根据自定义或公用的 停用词词库去除所述的专利文档中的停用词词项,其中停用词词项为没有实际含义的功能词 词项;接着对于移除停用词词项后的词项,计算每个词项在所述的专利文档中的权重,其计 算公式为:

<mrow> <mi>w</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mfrac> <mrow> <mi>tf</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>log</mi> <mrow> <mo>(</mo> <mi>N</mi> <mo>/</mo> <msub> <msub> <mi>n</mi> <mi>t</mi> </msub> <mi>j</mi> </msub> <mo>+</mo> <mn>0.01</mn> <mo>)</mo> </mrow> </mrow> <msqrt> <msup> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> </mrow> </msub> <mo>[</mo> <mi>tf</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>log</mi> <mrow> <mo>(</mo> <mi>N</mi> <mo>/</mo> <msub> <msub> <mi>n</mi> <mi>t</mi> </msub> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mn>0.01</mn> <mo>]</mo> </mrow> <mn>2</mn> </msup> </msqrt> </mfrac> </mrow> </mrow>

其中,1≤i≤n,di表示专利i的文档内容;

其中,w(tj,di)为词项tj在专利文档di中的权重,也记作wij。而tf(tj,di)为词项tj在专利
文档di中的词频,N为专利文档集合D中专利的总数,为专利文档集合D出现词项tj
的专利文档数,分母为归一化因子;

最后,将所述的词项向量化,表示为用所述的各个词项对应的
空间向量表示每一篇所述的专利文档,其中wij为词项tj在专利文档di中的权重。

作为优选,所述的步骤3中计算所述的专利文档中两两专利文档之间的相似度,包括以 下步骤:

步骤3.1:对所述的任意两条专利文档di和dj,使用其对应的向量之间的夹角余弦来度 量两者的相似度,其公式为:

<mrow> <msub> <mi>sim</mi> <mn>0</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>W</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <msub> <mi>W</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <msqrt> <mrow> <mo>(</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msubsup> <mi>W</mi> <mi>k</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mo>&times;</mo> <mrow> <mo>(</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msubsup> <mi>W</mi> <mi>k</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </msqrt> </mfrac> <mo>*</mo> <mi>&alpha;</mi> </mrow>

其中wk(di)为第k个词项在文档di中的权重,wk(dj)为第k个词项在文档dj中的权重,α 为所述的专利文档内容相似度在所述的相似度计算中所占的权重因子;

步骤3.2:计算所述的专利文档的国际专利分类号ipc相似度:

<mrow> <msub> <mi>sim</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>length</mi> <mrow> <mo>(</mo> <mi>ipc</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&cap;</mo> <mi>ipc</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <mi>max</mi> <mrow> <mo>(</mo> <mi>length</mi> <mrow> <mo>(</mo> <mi>ipc</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mi>length</mi> <mrow> <mo>(</mo> <mi>ipc</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>*</mo> <mi>&beta;</mi> </mrow>

其中β为ipc在相似度计算中所占的权重因子,ipc(di)为专利文档i的ipc,ipc(dj)为 专利文档j的ipc,length(ipc)为ipc所占的字符长度;

步骤3.3:计算所述的专利文档的专利引用reference相似度计算公式如下:

sim2(di,dj)=nref(di,dj)*δ1+nrefed(di,dj)*δ2

其中,nref(di,dj)表示专利文档i,j同时引用了其他专利文献的次数,nrefed(di,dj)表示 专利i,j同时被其他文献引用的次数,δ1为同时引用其他专利的影响因子,δ2为同时被其 他专利引用的影响因子;

步骤3.4:计算所述的专利文档中两两专利文档之间的相似度为:

sim(di,dj)=sim0(di,dj)+sim1(di,dj)+sim2(di,dj)。

作为优选,所述的步骤4中根据所述的专利文档之间的相似度对所述的专利文档集合进 行聚类分析,形成专利文档簇,具体实现方法为:

根据所述的专利文档之间的相似度,使用K‑means聚类算法进行所述的专利文档聚类。 聚类后,得到的是一个一个的簇,每个簇由若干相似度较大的专利文档组成,同时每个簇由 所述的专利文档所包含的一组关键词短语来表示,定义簇C={T1,T2,…,Tm},其中Ti为簇 C中包含的第i个短语,且1≤i≤m。

作为优选,步骤5中所述的对所述的每个专利文档簇进行主题命名,包括以下步骤:

步骤5.1:寻候选短语集合,具体实现方法如下:

对于簇Ci中所包含的短语集合M={T1,T2,…,Tn},如果frq(Tj,Ci)/docs(Ci)>ξ,那 么将短语Tj作为候选短语;

其中1≤j≤n,frq(Tj,Ci)为短语Tj在簇Ci中出现的频率,docs(Ci)为簇Ci中包含的专利 文档总数,ξ为定义的阀值;

步骤5.2:同类短语合并,具体实现方法如下:

如果T1∩T2∩…∩Tn=Ts,那么(T1,T2,…,Tn)→Ts;

即如果短语T1,T2,…,Tn中都出现了Ts这个子短语,则将T1,T2,…,Tn这n个短语合并 为一个短语Ts;

步骤5.3:寻最小覆盖集,具体实现方法如下:

<mrow> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>i</mi> </msub> <mo>&cap;</mo> <msub> <mi>T</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>i</mi> </msub> <mo>&cup;</mo> <msub> <mi>T</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>></mo> <mi>&delta;</mi> </mrow>

其中,P(Ti∩Tj)表示同时包含Ti、Tj这两个词的文档数,P(Ti∪Tj)表示包含Ti或Tj中的 任意一个词的文档数。如果Ti、Tj两个词同时出现在同一篇专利文档中的次数与这两个词在 所有文档集合中出现的次数的比值大于某个阀值δ,那么Ti、Tj两个词中任意去掉一个,不 会太影响簇的召回率;

经过主题命名后,原始簇Ci所包含的短语集合M={T1,T2,…,Tn}被精简为M={Ti, Tj,…,Tk},其中1≤i

作为优选,步骤6中通过热点计算方法对所述的每个主题进行技术研究热点分析,具体 实现方法为:通过对专利技术热点的特征分析和量化,对所述的专利技术热点进行判断,其 热度衡量公式为:

如果: <mrow> <mi>freq</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>></mo> <msub> <mi>&delta;</mi> <mn>1</mn> </msub> <mi>and app</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>></mo> <msub> <mi>&delta;</mi> <mn>2</mn> </msub> <mi>and</mi> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <msub> <mi>t</mi> <mn>0</mn> </msub> </mrow> <msub> <mi>t</mi> <mn>1</mn> </msub> </msubsup> <msup> <mi>e</mi> <mfrac> <mn>1</mn> <mrow> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>+</mo> <mn>1</mn> <mo>-</mo> <mi>t</mi> </mrow> </mfrac> </msup> <mo>*</mo> <mi>freq</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>-</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <msub> <mi>t</mi> <mn>0</mn> </msub> </mrow> <msub> <mi>t</mi> <mn>1</mn> </msub> </msubsup> <mi>freq</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <msub> <mi>t</mi> <mn>0</mn> </msub> </mrow> <msub> <mi>t</mi> <mn>1</mn> </msub> </msubsup> <mi>freq</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>></mo> <msub> <mi>&delta;</mi> <mn>3</mn> </msub> <mo>,</mo> </mrow>

那么h(Ti)=1,否则h(Ti)=0;

其中Ti为技术短语i,freq(Ti)为短语Ti出现的频率,app(Ti)为专利申请中包含技术短语 Ti的专利申请人数目,freq(t)为第t年总的词频数,δ1、δ2、δ3为预先设置的三个阀值。 h(Ti)=1表明技术短语Ti是一个热点技术;h(Ti)=0表明技术短语Ti不是热点技术。作为热 点技术短语,其热度的计算公式为:

<mrow> <mi>hotspot</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mi>ln</mi> <mfrac> <mrow> <mi>freq</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <msub> <mi>&delta;</mi> <mn>1</mn> </msub> </mfrac> <mo>)</mo> </mrow> <mo>*</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mi>ln</mi> <mfrac> <mrow> <mi>app</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <msub> <mi>&delta;</mi> <mn>2</mn> </msub> </mfrac> <mo>)</mo> </mrow> <mo>*</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <msub> <mi>t</mi> <mn>0</mn> </msub> </mrow> <msub> <mi>t</mi> <mn>1</mn> </msub> </msubsup> <msup> <mi>e</mi> <mfrac> <mn>1</mn> <mrow> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>+</mo> <mn>1</mn> <mo>-</mo> <mi>t</mi> </mrow> </mfrac> </msup> <mo>*</mo> <mi>freq</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>-</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <msub> <mi>t</mi> <mn>0</mn> </msub> </mrow> <msub> <mi>t</mi> <mn>1</mn> </msub> </msubsup> <mi>freq</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <msub> <mi>t</mi> <mn>0</mn> </msub> </mrow> <msub> <mi>t</mi> <mn>1</mn> </msub> </msubsup> <mi>freq</mi> <mtext></mtext> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>.</mo> </mrow>

作为优选,步骤7中对所述的每个技术研究热点进行趋势分析,分析所述的技术所处的 生命周期阶段,并对所述的技术的发展趋势做出预测,包括以下步骤:

步骤7.1:根据所述的每个技术研究热点中的某个热点技术短语所出现的情况,得到该 项技术申请在不同年份的申请数量;

Ti→(y1,n1),(y2,n2),(y3,n3),……,(yk,nk)

其中,(yi,ni)表示在第yi年申请的专利数量为ni条;

步骤7.2:根据历史数据进行Logistic曲线拟合,到一条满项该项技术申请分布情况 的Logistic曲线;

Logistic曲线为: <mrow> <msub> <mi>Y</mi> <mi>t</mi> </msub> <mo>=</mo> <mfrac> <mi>K</mi> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>a</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>-</mo> <mi>b</mi> <mo>)</mo> </mrow> </mrow> </msup> </mrow> </mfrac> </mrow>

所述的Logistic曲线拟合的包括如下步骤:

首先,进行如下变换:

<mrow> <msub> <mi>y</mi> <mi>t</mi> </msub> <mo>=</mo> <mi>ln</mi> <mrow> <mo>(</mo> <mfrac> <msub> <mi>Y</mi> <mi>t</mi> </msub> <mrow> <mi>K</mi> <mo>-</mo> <msub> <mi>Y</mi> <mi>t</mi> </msub> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mi>ab</mi> <mo>+</mo> <mi>at</mi> <mo>,</mo> </mrow>

<mrow> <msub> <mover> <mi>y</mi> <mo>^</mo> </mover> <mi>t</mi> </msub> <mo>=</mo> <msup> <mi>a</mi> <mo>&prime;</mo> </msup> <mo>+</mo> <msup> <mi>b</mi> <mo>&prime;</mo> </msup> <mi>t</mi> <mo>,</mo> </mrow>

得到 <mrow> <mi>a</mi> <mo>=</mo> <msup> <mi>b</mi> <mo>&prime;</mo> </msup> <mi>andb</mi> <mo>=</mo> <mo>-</mo> <mfrac> <msup> <mi>a</mi> <mo>&prime;</mo> </msup> <msup> <mi>b</mi> <mo>&prime;</mo> </msup> </mfrac> </mrow>

然后根据历史数据,使用最小二乘法计算a′、b′的值:

yi=b′·xi+a′;

<mrow> <msup> <mi>b</mi> <mo>&prime;</mo> </msup> <mo>=</mo> <mfrac> <mrow> <mi>n</mi> <mo>&CenterDot;</mo> <mi>&Sigma;</mi> <msub> <mi>x</mi> <mi>i</mi> </msub> <msub> <mi>y</mi> <mi>j</mi> </msub> <mo>-</mo> <mi>&Sigma;</mi> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>&CenterDot;</mo> <mi>&Sigma;</mi> <msub> <mi>y</mi> <mi>j</mi> </msub> </mrow> <mrow> <mi>n</mi> <mo>&CenterDot;</mo> <mi>&Sigma;</mi> <msup> <msub> <mi>x</mi> <mi>i</mi> </msub> <mn>2</mn> </msup> <mo>-</mo> <msup> <mrow> <mo>(</mo> <mi>&Sigma;</mi> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mfrac> <mo>;</mo> </mrow>

<mrow> <msup> <mi>a</mi> <mo>&prime;</mo> </msup> <mo>=</mo> <mfrac> <mrow> <mi>&Sigma;</mi> <msub> <mi>y</mi> <mi>j</mi> </msub> </mrow> <mi>n</mi> </mfrac> <mo>-</mo> <msup> <mi>b</mi> <mo>&prime;</mo> </msup> <mo>&CenterDot;</mo> <mfrac> <mrow> <mi>&Sigma;</mi> <msub> <mi>x</mi> <mi>i</mi> </msub> </mrow> <mi>n</mi> </mfrac> <mo>;</mo> </mrow>

其中,xi,yi为历史数据,xi为第(x0+i)年,yi为在xi年申请的专利数目,n为历史 数据的总条数,得到a′和b′后,根据a=b′和b=‑a′/b′计算出a和b的值;

步骤7.3:通过拟合得到的曲线,对现有技术进行技术发展状况分析和趋势预测。具体 实现方法如下:

通过Logistic曲线生长过程速度函数的一阶和二阶导数,可以得
到Logistic曲线增长或生长过程的始盛期、高峰期、盛末期分别为:

period=渐增期, <mrow> <mi>if</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>&GreaterEqual;</mo> <mn>0</mn> <mi>andt</mi> <mo>&le;</mo> <mfrac> <mrow> <mi>ln</mi> <mi>a</mi> <mo>-</mo> <mn>1.317</mn> </mrow> <mi>b</mi> </mfrac> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

period=快增期, <mrow> <mi>if</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>></mo> <mfrac> <mrow> <mi>ln</mi> <mi>a</mi> <mo>-</mo> <mn>1.317</mn> </mrow> <mi>b</mi> </mfrac> <mi>andt</mi> <mo>&le;</mo> <mfrac> <mrow> <mi>ln</mi> <mi>a</mi> <mo>+</mo> <mn>1.317</mn> </mrow> <mi>b</mi> </mfrac> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

period=缓增期, <mrow> <mi>if</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>></mo> <mfrac> <mrow> <mi>ln</mi> <mi>a</mi> <mo>+</mo> <mn>1.317</mn> </mrow> <mi>b</mi> </mfrac> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

根据所述的Logistic曲线,判断该项技术所处的技术生命周期,所述的技术生命周期包 括:技术引入期、技术成长期、技术成熟期、技术饱和期,从而判断该项技术是否有继续研 究的价值;

根据所述的Logistic曲线,预测该技术在多少年后会被淘汰,以及预测在未来该项技术 的申请情况会是什么样,从而帮助专利审查员及时做出有利的战略决策。

本发明的技术方案创造性地提出一种专利热点发现与趋势分析方法。因此,本发明具有 如下优点:

1.解决了基于文本重叠的方式计算出的相似度很低的问题,使得聚类后的簇更加紧密;

2.用尽可能简洁的词语来表示一个主题,结果更加直观;

3.能有效地发现专利文档集合中的热点技术,并能分析该项技术当前的发展状况;

4.能对热点技术未来的发展趋势做出有效的预测,帮助专利审查员进行战略决策。

图1:为本发明的总体框架图。

图2:为发明的相似度计算的流程图。

图3:为发明的主题命名的流程图。

图4:为发明的热点计算的流程图。

图5:为发明的热点技术趋势分析的流程图。

下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。

本发明的一种基于专利热点发现与趋势分析方法,能够从一堆专利文档集合中挖掘出研 究主题和各个主题下所重点关注的技术,并能对每项技术的发展趋势做出有效的预测。其基 于定义:专利文档的集合D={d1,d2,…,dn},对应的专利发表时间集合T={T1,T2,…,Tn}。其 中,1≤i≤n,di表示专利i的文档内容;Ti表示专利i的申请时间。

本发明拟通过聚类的方法挖掘出专利文档集合中主要的研究对象是什么、研究的热点技 术是什么。首先需要对专利文档集进行相似度计算。传统的文档相似度方法包括余弦相似度、 jaccard系数、基于HowNet的相似度计算方法,本发明拟以余弦相似度为例进行专利文档的 相似度计算,并结合专利文献的特点,引入一些新的因素作为专利相似度计算的指标。

请见图1‑5,本发明的技术方案包含如下步骤:一种专利热点发现与趋势分析方法,包 括以下步骤:

步骤1:专利文档采集,构建专利文档集合D={d1,d2,…,dn};

步骤2:将专利文档向量化;

对于专利文档集合D={d1,d2,…,dn}中的任意一条专利di,可以用一组关键词的空间向量 来表示。其过程为:

首先采用现有的分词系统,如中科院分词软件NLPIR对所有的专利文档进行中文分词, 得到词项;

然后根据自定义或公用的停用词词库去除所述的专利文档中的停用词词项,其中停用词 词项为没有实际含义的功能词词项;接着对于移除停用词词项后的词项,计算每个词项在所 述的专利文档中的权重,其计算公式为:

<mrow> <mi>w</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>tf</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>log</mi> <mrow> <mo>(</mo> <mi>N</mi> <mo>/</mo> <msub> <msub> <mi>n</mi> <mi>t</mi> </msub> <mi>j</mi> </msub> <mo>+</mo> <mn>0.01</mn> <mo>)</mo> </mrow> </mrow> <msqrt> <msup> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> </mrow> </msub> <mo>[</mo> <mi>tf</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>log</mi> <mrow> <mo>(</mo> <mi>N</mi> <mo>/</mo> <msub> <msub> <mi>n</mi> <mi>t</mi> </msub> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mn>0.01</mn> <mo>]</mo> </mrow> <mn>2</mn> </msup> </msqrt> </mfrac> </mrow>

其中,1≤i≤n,di表示专利i的文档内容;

其中,w(tj,di)为词项tj在文本di中的权重,也记作wij,而tf(tj,di)为词tj在文本di中的
词频,N为专利集合D中专利的总数,为专利集合D出现词项tj的专利文档数,分母为
归一化因子;

最后,用各个词项对应的空间向量表示每一篇专利文档,表示为
其中wij为词项tj在专利文档di中的权重。

步骤3:根据所述专利文档的空间向量表示,计算专利文档中两两专利文档之间的相似 度,包括以下步骤:

步骤3.1:对任意两条专利文档di和dj,使用其对应的向量之间的夹角余弦来度量两者 的相似度,其公式为:

<mrow> <msub> <mi>sim</mi> <mn>0</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>W</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <msub> <mi>W</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <msqrt> <mrow> <mo>(</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msubsup> <mi>W</mi> <mi>k</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mo>&times;</mo> <mrow> <mo>(</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msubsup> <mi>W</mi> <mi>k</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </msqrt> </mfrac> <mo>*</mo> <mi>&alpha;</mi> <mo>;</mo> </mrow>

其中wk(di)为第k个词项在文档di中的权重,wk(dj)为第k个词项在文档dj中的权重,α 为文本内容相似度在专利相似度计算中所占的权重因子。

步骤3.2:计算利文档的国际专利分类号ipc相似度;

由于在撰写专利时,专利申请人为了保证自己商业机密不被泄露,往往会故意掩蔽一些 技术细节,这直接导致基于文本重叠的方法计算出来的专利之间的相似度非常小;

因此,除了基于专利的非结构化信息来计算专利之间的相似度,还需要借助专利本身的 结构化信息来提高专利之间的关联程度,从而使聚类后的簇更加紧密。我们需要借助的结构 化属性信息包括:

(1)ipc(国际专利分类号):如果专利di和dj的ipc相同或者相似,那么这两项专利 所针对的技术领域也是相同或相似的,它们之间的相似程度也会越高。当然,这里还涉及到 ipc相似的粒度问题。

国际专利分类系统的体系结构如下:国际专利分类系统按照技术主题设立类目,把整 个技术领域分为5个不同等级:部、大类、小类、大组、小组。两项专利之间的ipc相似程 度取决于它们在哪个技术等级上是相同的。如果它们只是按部相同,那么这两条专利ipc的 相似程度就较低;反之,如果它们按部、按大类、按小类、按大组、按小组都是相同的,那 么这两条专利ipc的相似程度就很高。

(2)reference(专利引用):如果两条专利引用了其他相同的文章,且它们同时引用 相同专利的次数越多,那么这两条专利的相似程度就越高;同理,如果两条专利被同一篇其 他的专利所引用,且同时被引用的次数越多,那么它们的相似程度越高。

其中:两条专利的ipc相似度计算公式如下:

<mrow> <msub> <mi>sim</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>length</mi> <mrow> <mo>(</mo> <mi>ipc</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&cap;</mo> <mi>ipc</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <mi>max</mi> <mrow> <mo>(</mo> <mi>length</mi> <mrow> <mo>(</mo> <mi>ipc</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mi>length</mi> <mrow> <mo>(</mo> <mi>ipc</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>*</mo> <mi>&beta;</mi> </mrow>

其中β为ipc在相似度计算中所占的权重因子,ipc(di)为专利i的ipc,ipc(dj)为专利 j的ipc,length(ipc)为ipc所占的字符长度;

步骤3.3:计算专利文档的专利引用reference相似度计算公式如下:

sim2(di,dj)=nref(di,dj)*δ1+nrefed(di,dj)*δ2

其中,nref(di,dj)表示专利i,j同时引用了其他专利文献的次数,nrefed(di,dj)表示专利 i,j同时被其他文献引用的次数,δ1为同时引用其他专利的影响因子,δ2为同时被其他专利 引用的影响因子。

步骤3.4:计算专利文档中两两专利文档之间的相似度为:专利i、j的相似度表示为:

sim(di,dj)=sim0(di,dj)+sim1(di,dj)+sim2(di,dj)。

步骤4:根据专利文档之间的相似度对专利文档集合进行聚类分析,形成专利文档簇;

根据专利文档之间的相似度,使用K‑means聚类算法进行专利文档聚类。聚类后,得 到的是一个一个的簇,每个簇由若干相似度较大的专利文档组成,同时每个簇由这些专利文 档所包含的一组关键词短语来表示,定义簇C={T1,T2,…,Tm},其中Ti为簇C中包含的第i 个短语,且1≤i≤m。这些处于同一个簇中的专利所针对的技术主题往往是相同或相似的。 接下来,需要考虑如何用较直观的方法来表示每个簇的研究主题。

步骤5:对每个专利文档簇进行主题命名,包括以下步骤:

步骤5.1:寻候选短语集合,具体实现方法如下:

对于簇Ci中所包含的短语集合M={T1,T2,…,Tn},如果frq(Tj,Ci)/docs(Ci)>ξ,那 么将短语Tj作为候选短语;

其中1≤j≤n,frq(Tj,Ci)为短语Tj在簇Ci中出现的频率,docs(Ci)为簇Ci中包含的专利 文档总数,ξ为定义的阀值;

步骤5.2:同类短语合并,具体实现方法如下:

如果T1∩T2∩…∩Tn=Ts,那么(T1,T2,…,Tn)→Ts;

即如果短语T1,T2,…,Tn中都出现了Ts这个子短语,则将T1,T2,…,Tn这n个短语合并 为一个短语Ts;如关键词组“燃料汽车”、“电动汽车”、“小型汽车”,事实上,它们 的研究主题都是汽车,它们都包含“汽车”这个子短语,因此将它们合并成“汽车”;

步骤5.3:寻最小覆盖集,具体实现方法如下:

<mrow> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>i</mi> </msub> <mo>&cap;</mo> <msub> <mi>T</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>i</mi> </msub> <mo>&cup;</mo> <msub> <mi>T</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>></mo> <mi>&delta;</mi> </mrow>

其中,P(Ti∩Tj)表示同时包含Ti、Tj这两个词的文档数,P(Ti∪Tj)表示包含Ti或Tj中的 任意一个词的文档数。如果Ti、Tj两个词同时出现在同一篇专利文档中的次数与这两个词在 所有文档集合中出现的次数的比值大于某个阀值δ,那么Ti、Tj两个词中任意去掉一个,不 会太影响簇的召回率(Recall),如“电脑”和“计算机”这两个词表示的是同一个事物, 它们同时出现在同一篇专利中的概率很大,去除电脑和计算机中任意一个词不影响簇的召回 率;

经过主题命名后,原始簇Ci所包含的短语集合M={T1,T2,…,Tn}被精简为M={Ti, Tj,…,Tk},其中1≤i

步骤6:通过热点计算方法对每个主题进行技术研究热点分析;

通过对专利技术热点的特征分析和量化,得到了一个可以衡量技术热度的公式,这样可 以从众多的技术中识别出哪些是热点技术。本发明对技术热点的度量来自如下几个方面:

(1)申请数量

一项技术要想成为热点,首先需要从数量上进行保证,如果有关的申请数量太少,它的 受关注度太低,那么在这段时间内是不可能成为热点技术的;

(2)申请速度

一项热点技术应该具有较高的申请速度。如果一项技术的申请数目总体很多,但是分散 在很长的时间段内,平均到每天的相关数目很少,那么就不能成为热点技术。例如,在1 年内有2000条相关的专利申请要比在1个月内有1000条相关专利申请的热度低很多;

(3)专利权人数目

由于一项热点技术在广泛发展期间会引起很多同行的关注,所以专利权人的数量可以成 为技术热度的一个指标;

所以,本发明综合专利申请数量、申请速度和专利权人的数量这三项指标对专利热度的 影响,对专利技术热点进行判断,其热度衡量公式为:

提出了如下热度衡量公式:

如果: <mrow> <mi>freq</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>></mo> <msub> <mi>&delta;</mi> <mn>1</mn> </msub> <mi>andapp</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>></mo> <msub> <mi>&delta;</mi> <mn>2</mn> </msub> <mi>and</mi> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <msub> <mi>t</mi> <mn>0</mn> </msub> </mrow> <msub> <mi>t</mi> <mn>1</mn> </msub> </msubsup> <msup> <mi>e</mi> <mfrac> <mn>1</mn> <mrow> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>+</mo> <mn>1</mn> <mo>-</mo> <mi>t</mi> </mrow> </mfrac> </msup> <mo>*</mo> <mi>freq</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>-</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <msub> <mi>t</mi> <mn>0</mn> </msub> </mrow> <msub> <mi>t</mi> <mn>1</mn> </msub> </msubsup> <mi>freq</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <msub> <mi>t</mi> <mn>0</mn> </msub> </mrow> <msub> <mi>t</mi> <mn>1</mn> </msub> </msubsup> <mi>freq</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>></mo> <msub> <mi>&delta;</mi> <mn>3</mn> </msub> <mo>,</mo> </mrow>

那么h(Ti)=1,否则h(Ti)=0;

其中Ti为技术短语i,freq(Ti)为短语Ti出现的频率,app(Ti)为专利申请中包含技术短语 Ti的专利申请人数目,freq(t)为第t年总的词频数,δ1、δ2、δ3为预先设置的三个阀值。 H(Ti)=1表明技术短语Ti是一个热点技术;h(Ti)=0表明技术短语Ti不是热点技术。作为热 点技术短语,其热度的计算公式为:

<mrow> <mi>hotspot</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mi>ln</mi> <mfrac> <mrow> <mi>freq</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <msub> <mi>&delta;</mi> <mn>1</mn> </msub> </mfrac> <mo>)</mo> </mrow> <mo>*</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mi>ln</mi> <mfrac> <mrow> <mi>app</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <msub> <mi>&delta;</mi> <mn>2</mn> </msub> </mfrac> <mo>)</mo> </mrow> <mo>*</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <msub> <mi>t</mi> <mn>0</mn> </msub> </mrow> <msub> <mi>t</mi> <mn>1</mn> </msub> </msubsup> <msup> <mi>e</mi> <mfrac> <mn>1</mn> <mrow> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>+</mo> <mn>1</mn> <mo>-</mo> <mi>t</mi> </mrow> </mfrac> </msup> <mo>*</mo> <mi>freq</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>-</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <msub> <mi>t</mi> <mn>0</mn> </msub> </mrow> <msub> <mi>t</mi> <mn>1</mn> </msub> </msubsup> <mi>freq</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <msub> <mi>t</mi> <mn>0</mn> </msub> </mrow> <msub> <mi>t</mi> <mn>1</mn> </msub> </msubsup> <mi>freq</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>.</mo> </mrow>

从以上公式可看出,如果一项技术的专利申请频率越高、专利申请人分布越广泛、并在 一定时间范围内所增长的幅度越大,则该技术的热点程度越高。

步骤7:对每个技术研究热点进行趋势分析,分析技术所处的生命周期阶段,并对技术 的发展趋势做出预测,包括以下步骤:

步骤7.1:根据所述的每个技术研究热点中的某个热点技术短语所出现的情况,得到该 项技术申请在不同年份的申请数量;

Ti→(y1,n1),(y2,n2),(y3,n3),……,(yk,nk)

其中,(yi,ni)表示在第yi年申请的专利数量为ni条;

步骤7.2:根据历史数据进行Logistic曲线拟合,到一条满项该项技术申请分布情况 的Logistic曲线,Logistic分布是个具有较大实用价值的连续型分布;

Logistic曲线为: <mrow> <msub> <mi>Y</mi> <mi>t</mi> </msub> <mo>=</mo> <mfrac> <mi>K</mi> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>a</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>-</mo> <mi>b</mi> <mo>)</mo> </mrow> </mrow> </msup> </mrow> </mfrac> </mrow>

所述的Logistic曲线拟合的包括如下步骤:

首先,进行如下变换:

<mrow> <msub> <mi>y</mi> <mi>t</mi> </msub> <mo>=</mo> <mi>ln</mi> <mrow> <mo>(</mo> <mfrac> <msub> <mi>Y</mi> <mi>t</mi> </msub> <mrow> <mi>K</mi> <mo>-</mo> <msub> <mi>Y</mi> <mi>t</mi> </msub> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mi>ab</mi> <mo>+</mo> <mi>at</mi> <mo>,</mo> </mrow>

<mrow> <msub> <mover> <mi>y</mi> <mo>^</mo> </mover> <mi>t</mi> </msub> <mo>=</mo> <msup> <mi>a</mi> <mo>&prime;</mo> </msup> <mo>+</mo> <msup> <mi>b</mi> <mo>&prime;</mo> </msup> <mi>t</mi> <mo>,</mo> </mrow>

得到 <mrow> <mi>a</mi> <mo>=</mo> <msup> <mi>b</mi> <mo>&prime;</mo> </msup> <mi>andb</mi> <mo>=</mo> <mo>-</mo> <mfrac> <msup> <mi>a</mi> <mo>&prime;</mo> </msup> <msup> <mi>b</mi> <mo>&prime;</mo> </msup> </mfrac> </mrow>

然后根据历史数据,使用最小二乘法计算a′、b′的值:

yi=b′·xi+a′;

<mrow> <msup> <mi>b</mi> <mo>&prime;</mo> </msup> <mo>=</mo> <mfrac> <mrow> <mi>n</mi> <mo>&CenterDot;</mo> <mi>&Sigma;</mi> <msub> <mi>x</mi> <mi>i</mi> </msub> <msub> <mi>y</mi> <mi>j</mi> </msub> <mo>-</mo> <mi>&Sigma;</mi> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>&CenterDot;</mo> <mi>&Sigma;</mi> <msub> <mi>y</mi> <mi>j</mi> </msub> </mrow> <mrow> <mi>n</mi> <mo>&CenterDot;</mo> <mi>&Sigma;</mi> <msup> <msub> <mi>x</mi> <mi>i</mi> </msub> <mn>2</mn> </msup> <mo>-</mo> <msup> <mrow> <mo>(</mo> <mi>&Sigma;</mi> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mfrac> <mo>;</mo> </mrow>

<mrow> <msup> <mi>a</mi> <mo>&prime;</mo> </msup> <mo>=</mo> <mfrac> <mrow> <mi>&Sigma;</mi> <msub> <mi>y</mi> <mi>j</mi> </msub> </mrow> <mi>n</mi> </mfrac> <mo>-</mo> <msup> <mi>b</mi> <mo>&prime;</mo> </msup> <mo>&CenterDot;</mo> <mfrac> <mrow> <mi>&Sigma;</mi> <msub> <mi>x</mi> <mi>i</mi> </msub> </mrow> <mi>n</mi> </mfrac> <mo>;</mo> </mrow>

其中,xi,yi为历史数据,xi为第(x0+i)年,yi为在xi年申请的专利数目,n为历史 数据的总条数,得到a′和b′后,根据a=b′和b=‑a′/b′计算出a和b的值;

步骤7.3:通过拟合得到的曲线,对现有技术进行技术发展状况分析和趋势预测。具体 实现方法如下:

通过Logistic曲线生长过程速度函数的一阶和二阶导数,可以得
到Logistic曲线增长或生长过程的始盛期、高峰期、盛末期分别为:

period=渐增期, <mrow> <mi>if</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>&GreaterEqual;</mo> <mn>0</mn> <mi>andt</mi> <mo>&le;</mo> <mfrac> <mrow> <mi>ln</mi> <mi>a</mi> <mo>-</mo> <mn>1.317</mn> </mrow> <mi>b</mi> </mfrac> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

period=快增期, <mrow> <mi>if</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>></mo> <mfrac> <mrow> <mi>ln</mi> <mi>a</mi> <mo>-</mo> <mn>1.317</mn> </mrow> <mi>b</mi> </mfrac> <mi>andt</mi> <mo>&le;</mo> <mfrac> <mrow> <mi>ln</mi> <mi>a</mi> <mo>+</mo> <mn>1.317</mn> </mrow> <mi>b</mi> </mfrac> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

period=缓增期, <mrow> <mi>if</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>></mo> <mfrac> <mrow> <mi>ln</mi> <mi>a</mi> <mo>+</mo> <mn>1.317</mn> </mrow> <mi>b</mi> </mfrac> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

据Logistic曲线,判断该项技术所处的技术生命周期(技术引入期、技术成长期、技术 成熟期、技术饱和期),从而判断该项技术是否有继续研究的价值;

同时,可以根据得到的Logistic曲线,预测该技术在多少年后会被淘汰,以及预测在未 来该项技术的申请情况会是什么样(如在明年该项技术预计会有多少条专利申请,在后年该 项技术预计会有多少条专利申请,预计会在什么时候达到技术饱和状态等等),从而帮助专 利审查员及时做出有利的战略决策。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限 于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范 围之内。本发明的保护范围以权利要求书为准。

本文发布于:2024-09-24 14:28:08,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/68628.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议