一种专利技术演化分析方法及系统

著录项
  • CN201610087487.0
  • 20160216
  • CN105677907A
  • 20160615
  • 大连理工大学
  • 林鸿飞;祖坤琳
  • G06F17/30
  • G06F17/30 G06Q50/18

  • 辽宁省大连市高新园区凌工路2号
  • 辽宁(21)
  • 大连星海专利事务所
  • 徐雪莲
摘要
一种专利技术演化分析方法及系统,包括以下步骤:S1:专利数据采集;S2、专利信息抽取;S3、技术发展阶段自动化分;S4、技术演化分析:S5技术发展趋势预测。本发明通过将专利摘要、申请日等专利信息的关键信息进行提取,将其作为有序聚类的样本向量并利用有序聚类方法客观的自动划分技术的发展阶段;显示技术的动态演化过程,即技术的产生、发展、高潮直至消亡的过程;预测技术的发展趋势,帮助实施技术战略规划。可使公众更加方便直观的了解技术的发展过程及未来的趋势。
权利要求

1.一种专利技术演化分析方法,其特征在于,包括以下步骤:

S1:专利数据采集:

利用网络爬虫技术从专利信息网站中采集包含有预设时间区间和关键词的 专利信息数据并保存至本地;

S2、专利信息抽取:包括以下步骤:

A1、创建专利信息数据库,将步骤S1采集到的专利信息数据进行格式化处 理,存入所述专利信息数据库;

A2、从专利数据库中抽取字段信息并将其以文本文件格式保存至本地,并使 每一个专利对应文本中的一行;所述字段信息包括:申请日、专利标题和专利 摘要;

S3、技术发展阶段自动化分:包括以下步骤:

B1、建立专利数据的向量空间模型:对步骤S2抽取到的字段信息中的专利 摘要部分进行分词得到分词词语集,将分词词语集中的词语作为特征词,统计 每个特征词在多少专利摘要中出现过,以及该特征词在每个专利摘要中出现的 次数,得到每个特征词在每个专利中的权重;以每个专利中所包有的特征词的 个数作为向量维度,而将每个特征词在该专利中的权重作为向量元素生成每个 专利所对应的专利向量表示;按照字段信息中申请日的时间先后顺序,以预设 年度区间为时间区间对所述专利向量进行排序,得到该年度区间专利的向量空 间模型;

B2、使用有序聚类方法自动划分技术的发展阶段:

利用有序聚类方法对向量空间中的向量作为有序样本进行聚类,将聚类结果 作为技术发展阶段,并递归计算不同分类结果的类的直径和误差函数,根据误 差函数衡量聚类的性能以确定最佳分类;

S4、技术演化分析:

统计步骤B2得到的每个技术发展阶段中所有特征词的词频,得到词频最高 的若干个特征词作为本技术发展阶段的技术热点;

S5技术发展趋势预测:

利用统计软件统计专利信息数据库中每年专利的数量,以年份为横坐标, 数量为纵坐标,绘制数量变化曲线,并将曲线与标准的技术生命周期曲线对比, 作为技术未来发展趋势预测结果。

2.根据权利要求1所述的一种专利技术演化分析方法,其特征在于,步骤 A2中,将抽取的字段信息,以“日期/标题/摘要”的文本文件格式存储到本地。

3.根据权利要求1所述的一种专利技术演化分析方法,其特征在于,步骤 B2中,有序聚类方法的具体步骤如下:

专利有序样本为P={p 1,p 2,...,p n},假设分为k段,即有序聚类的类别数为k; 用G表示分段;

C1、获取类的直径:设某一类G包含的专利有{p (i),p (i+1),…,p (j)},j>i,分段 G记为G={i,i+1,…,j};该类的均值向量记为 该类的直径用类内的所有专 利到该类的均值向量 的距离表示,记为D(i,j);

C2、使用误差函数衡量聚类性能:误差函数为:

L [ b ( n , k ) ] = Σ t = 1 k D ( i t , i t + 1 - 1 )

记s(n,k)是误差函数取极小的分法,并利用有序聚类算法核心递推公式即可 求解,递推公式为

L [ S ( n , 2 ) ] = min 2 j n { D ( 1 , j - 1 ) + D ( j , n ) } L [ S ( n , k ) ] = min k j n { L [ S ( j - 1 , k - 1 ) ] + D ( j , n ) }

当n,k固定时,L[b(n,k)]越小表示分类越合理;

C3、获得最优解:对于已知的分类k,1<k<n,使s(n,k)在误差函数意义下达 到最小,首先到分点j k,使C2中的递推公式达到极小,即 L[S(n,k)]=L[S(j k-1,k-1)]+D(j k,n),得到第k类G k;然后j k-1,使它满足 L[S(j k-1,k-1)]=L[S(j k-1-1,k-2)]+D(j k-1,j k-1-1),得到k-1类G k-1;依次下去最终得 到最优解S(n,k)={G 1,G 2,...,G k}。

4.根据权利要求1所述的一种专利技术演化分析方法,其特征在于,步骤 B1中,特征词在专利中的权重的计算方法如下:

w t , d = tf t , d * l o g ( N / n t + 0.01 ) Σ k d [ tf k , d * log ( N / n k + 0.01 ) ] 2

其中:tf t,d表示在专利摘要d中特征词t出现的次数;n t表示特征词t在多少 专利摘要中出现过;N表示专利信息数据库中专利摘要的个数。

5.一种专利技术演化分析系统,其特征在于,包括以下模块:

专利数据采集模块:

用于利用网络爬虫技术从专利信息网站中采集包含有预设时间区间和关键 词的专利信息数据并保存至本地;

专利信息抽取模块:包括以下模块:

专利信息数据库生成及存储模块:用于创建专利信息数据库,将步骤S1采 集到的专利信息数据进行格式化处理,存入该专利信息数据库;从专利数据库 中抽取字段信息并将其以文本文件格式保存至本地,并使每一个专利对应文本 中的一行;所述字段信息包括:申请日、专利标题和专利摘要;

技术发展阶段自动化分模块:包括以下模块:

向量空间模型生成模块:用于对字段信息中的专利摘要部分进行分词得到分 词词语集,将分词词语集中的词语作为特征词,统计每个特征词在多少专利摘 要中出现过,以及该特征词在每个专利摘要中出现的次数,得到每个特征词在 每个专利中的权重;以每个专利中所包有的特征词的个数作为向量维度,而将 每个特征词在该专利中的权重作为向量元素生成每个专利所对应的专利向量表 示;按照字段信息中申请日的时间先后顺序,以预设年度区间为时间区间对所 述专利向量进行排序,得到该年度区间专利的向量空间模型;

有序聚类方法自动划分模块:

用于利用有序聚类方法对向量空间中的向量作为有序样本进行聚类,将聚类 结果作为技术发展阶段,并递归计算不同分类结果的类的直径和误差函数,根 据误差函数衡量聚类的性能以确定最佳分类;

技术演化分析模块:

用于统计有序聚类方法自动划分模块得到的每个技术发展阶段中所有特征 词的词频,得到词频最高的若干个特征词作为本技术发展阶段的技术热点;

技术发展趋势预测模块:

用于利用统计软件统计专利信息数据库中每年专利的数量,以年份为横坐 标,数量为纵坐标,绘制数量变化曲线,并将曲线与标准的技术生命周期曲线 对比,作为技术未来发展趋势预测结果。

6.根据权利要求5所述的一种专利技术演化分析系统,其特征在于,所述 抽取的字段信息,以“日期/标题/摘要”的文本文件格式存储到本地。

7.根据权利要求5所述的一种专利技术演化分析系统,其特征在于,有序 聚类方法自动划分模块中,包括如下模块:

专利有序样本为P={p 1,p 2,...,p n},假设分为k段,即有序聚类的类别数为k; 用G表示分段;

类直径获取模块:用于对于某一类G包含的专利有{p (i),p (i+1),…,p (j)},j>i, 分段G记为G={i,i+1,…,j};该类的均值向量记为 该类的直径用类内的所 有专利到该类的均值向量 的距离表示,记为D(i,j);

使用误差函数衡量聚类性能模块:其中,误差函数为:

L [ b ( n , k ) ] = Σ t = 1 k D ( i t , i t + 1 - 1 )

记S(n,k)是误差函数取极小的分法,并利用有序聚类算法核心递推公式即可 求解,递推公式为:

L [ S ( n , 2 ) ] = min 2 j n { D ( 1 , j - 1 ) + D ( j , n ) } L [ S ( n , k ) ] = min k j n { L [ S ( j - 1 , k - 1 ) ] + D ( j , n ) }

当n,k固定时,L[b(n,k)]越小表示分类越合理;

最优解获取模块:模块中,对于已知的分类k,1<k<n,使S(n,k)在误差函 数意义下达到最小,首先到分点j k,使递推公式达到极小,即 L[S(n,k)]=L[S(j k-1,k-1)]+D(j k,n),得到第k类G k;然后j k-1,使它满足 L[S(j k-1,k-1)]=L[S(j k-1-1,k-2)]+D(j k-1,j k-1-1),得到k-1类G k-1;依次下去最终得 到最优解S(n,k)={G 1,G 2,...,G k}。

8.根据权利要求5所述的一种专利技术演化分析系统,其特征在于,向量 空间模型生成模块中,特征词在专利中的权重的计算方法如下:

w t , d = tf t , d * l o g ( N / n t + 0.01 ) Σ k d [ tf k , d * log ( N / n k + 0.01 ) ] 2

其中:tf t,d表示在专利摘要d中特征词t出现的次数;n t表示特征词t在多少 专利摘要中出现过;N表示专利信息数据库中专利摘要的个数。

说明书
技术领域

本发明涉及本发明涉及文本挖掘、机器学习和专利分析领域,尤其是一种 专利技术演化分析方法及系统。

专利信息集是目前世界上最大的技术信息集,几乎囊括了一切应用领域的技 术成果。专利体现特定技术领域的发明情况,以往的研究也指出专利中的相当 一部分信息是较新的。专利中包含的研究成果具有商业、工业、法律和决策等 多种价值,如果进行仔细分析,发现技术细节和技术之间的关联,可以揭示商 业趋势,激发新的工业解决方案,帮助决策者制定投资政策。

专利文献的快速增长推动先进的专利分析技术的发展,所谓专利分析,就是 从专利文献中采集专利信息,通过科学的方法对专利信息进行加工、整理、分 析,最终形成专利情报和谋略。随着专利信息量的不断增长,无论从法律还是 管理角度,专利的检索和分析任务都变得非常重要。专利文献中包含了十多个 可供分析的项目,包括结构化信息和非结构化信息。结构化信息具有统一的语 义和格式,如专利号、申请日期、分类号等,非结构化的信息是自由的文本信 息,如专利标题、摘要和正文描述等。

关于专利技术演化历程的研究,CN101989268.A提供了一种专利技术发展趋 势分析系统及分析方法,根据预设主题在各国专利文献数据库中通过检索建立 专利数据库;采用专题建立模块在专利数据库中检索专利数据库中专利,建立 专利分析专题库;采用技术分类模块对专利分析库中的专利文献按技术进行分 类;通过技术选择模块选择分析的技术分类;通过图像显示模块显示所选技术 分类下历年专利申请数量或公开数量曲线图;该发明通过曲线图直观反映专利 技术的历年发展趋势情况。CN103177010.A提供的专利分析方法,设定进行专 利分析的纵轴属性,并根据该属性查相应的专利信息;设定进行专利分析的 横轴属性,并根据该属性查相应的专利信息项目;绘制由横轴和纵轴组成的 表格,同时将前两步查到的专利信息交集进行数量统计后输入表格中。

然而,专利的内容本身含有重要的技术信息。以上成果均没有利用专利数 据的深层文本信息。任何技术都有萌芽期、成长期、成熟期、衰落期,因此技 术发展周期的划分和对其发展阶段的判断是重要的专利分析任务,目前对于时 空维度的分析手段远远不能满足我们认识技术演化过程及其特征的需要。

本发明的目的是提供一种利用专利的深层文本信息预测技术发展趋势、使用 户充分直观的了解技术演化过程的专利技术演化分析方法及系统。

本发明解决现有技术问题所采用的技术方案:一种专利技术演化分析方法, 包括以下步骤:

S1:专利数据采集:

利用网络爬虫技术从专利信息网站中采集包含有预设时间区间和关键词的 专利信息数据并保存至本地;

S2、专利信息抽取:包括以下步骤:

A1、创建专利信息数据库,将步骤S1采集到的专利信息数据进行格式化处 理,存入所述专利信息数据库;

A2、从专利数据库中抽取字段信息并将其以文本文件格式保存至本地,并使 每一个专利对应文本中的一行;所述字段信息包括:申请日、专利标题和专利 摘要;

S3、技术发展阶段自动化分:包括以下步骤:

B1、建立专利数据的向量空间模型:对步骤S2抽取到的字段信息中的专利 摘要部分进行分词得到分词词语集,将分词词语集中的词语作为特征词,统计 每个特征词在多少专利摘要中出现过,以及该特征词在每个专利摘要中出现的 次数,得到每个特征词在每个专利中的权重;以每个专利中所包有的特征词的 个数作为向量维度,而将每个特征词在该专利中的权重作为向量元素生成每个 专利所对应的专利向量表示;按照字段信息中申请日的时间先后顺序,以预设 年度区间为时间区间对所述专利向量进行排序,得到该年度区间专利的向量空 间模型;

B2、使用有序聚类方法自动划分技术的发展阶段:

利用有序聚类方法对向量空间中的向量作为有序样本进行聚类,将聚类结果 作为技术发展阶段,并递归计算不同分类结果的类的直径和误差函数,根据误 差函数衡量聚类的性能以确定最佳分类;

S4、技术演化分析:

统计步骤B2得到的每个技术发展阶段中所有特征词的词频,得到词频最高 的若干个特征词作为本技术发展阶段的技术热点;

S5技术发展趋势预测:

利用统计软件统计专利信息数据库中每年专利的数量,以年份为横坐标, 数量为纵坐标,绘制数量变化曲线,并将曲线与标准的技术生命周期曲线对比, 作为技术未来发展趋势预测结果。

步骤A2中,将抽取的字段信息,以“日期/标题/摘要”的文本文件格式存 储到本地。

步骤B2中,有序聚类方法的具体步骤如下:

专利有序样本为P={p1,p2,…,pn},假设分为k段,即有序聚类的类别数为k; 用G表示分段;

C1、获取类的直径:设某一类G包含的专利有{p(i),p(i+1),…,p(j)},j>i,分段
G记为G={i,i+1,…,j};该类的均值向量记为该类的直径用类内的所有专
利到该类的均值向量的距离表示,记为D(i,j);

C2、使用误差函数衡量聚类性能:误差函数为:

L [ b ( n , k ) ] = Σ t = 1 k D ( i t , i t + 1 - 1 )

记S(n,k)是误差函数取极小的分法,并利用有序聚类算法核心递推公式即可 求解,递推公式为:

L [ S ( n , 2 ) ] = min 2 j n { D ( 1 , j - 1 ) + D ( j , n ) } L [ S ( n , k ) ] = min k j n { L [ S ( j - 1 , k - 1 ) ] + D ( j , n ) }

当n,k固定时,L[b(n,k)]越小表示分类越合理;

C3、获得最优解:对于已知的分类k,1<k<n,使S(n,k)在误差函数意义下达 到最小,首先到分点jk,使C2中的递推公式达到极小,即 L[S(n,k)]=L[S(jk-1,k-1)]+D(jk,n),得到第k类Gk;然后jk-1,使它满足 L[S(jk-1,k-1)]=L[S(jk-1-1,k-2)]+D(jk-1,jk-1-1),得到k-1类Gk-1;依次下去最终得 到最优解S(n,k)={G1,G2,…,Gk}。

步骤B1中,特征词在专利中的权重的计算方法如下:

w t , d tf t , d * log ( N / n t + 0.01 ) Σ k d [ tf k , d * log ( N / n k + 0.01 ) ] 2

其中:tft,d表示在专利摘要d中特征词t出现的次数;nt表示特征词t在多少 专利摘要中出现过;N表示专利信息数据库中专利摘要的个数。

一种专利技术演化分析系统,包括以下模块:

专利数据采集模块:

用于利用网络爬虫技术从专利信息网站中采集包含有预设时间区间和关键 词的专利信息数据并保存至本地;

专利信息抽取模块:包括以下模块:

专利信息数据库生成及存储模块:用于创建专利信息数据库,将步骤S1采 集到的专利信息数据进行格式化处理,存入该专利信息数据库;从专利数据库 中抽取字段信息并将其以文本文件格式保存至本地,并使每一个专利对应文本 中的一行;所述字段信息包括:申请日、专利标题和专利摘要;

技术发展阶段自动化分模块:包括以下模块:

向量空间模型生成模块:用于对字段信息中的专利摘要部分进行分词得到分 词词语集,将分词词语集中的词语作为特征词,统计每个特征词在多少专利摘 要中出现过,以及该特征词在每个专利摘要中出现的次数,得到每个特征词在 每个专利中的权重;以每个专利中所包有的特征词的个数作为向量维度,而将 每个特征词在该专利中的权重作为向量元素生成每个专利所对应的专利向量表 示;按照字段信息中申请日的时间先后顺序,以预设年度区间为时间区间对所 述专利向量进行排序,得到该年度区间专利的向量空间模型;

有序聚类方法自动划分模块:

用于利用有序聚类方法对向量空间中的向量作为有序样本进行聚类,将聚类 结果作为技术发展阶段,并递归计算不同分类结果的类的直径和误差函数,根 据误差函数衡量聚类的性能以确定最佳分类;

技术演化分析模块:

用于统计有序聚类方法自动划分模块得到的每个技术发展阶段中所有特征 词的词频,得到词频最高的若干个特征词作为本技术发展阶段的技术热点;

技术发展趋势预测模块:

用于利用统计软件统计专利信息数据库中每年专利的数量,以年份为横坐 标,数量为纵坐标,绘制数量变化曲线,并将曲线与标准的技术生命周期曲线 对比,作为技术未来发展趋势预测结果。

所述抽取的字段信息,以“日期/标题/摘要”的文本文件格式存储到本地。

有序聚类方法自动划分模块中,包括如下模块:

专利有序样本为P={p1,p2,…,pn},假设分为k段,即有序聚类的类别数为k; 用G表示分段;

类直径获取模块:用于对于某一类G包含的专利有{p(i),p(i+1),…,p(j)},j>i,
分段G记为G={i,i+1,…,j};该类的均值向量记为该类的直径用类内的所
有专利到该类的均值向量的距离表示,记为D(i,j);

使用误差函数衡量聚类性能模块:其中,误差函数为:

L [ b ( n , k ) ] = Σ t = 1 k D ( i t , i t + 1 - 1 )

记S(n,k)是误差函数取极小的分法,并利用有序聚类算法核心递推公式即可 求解,递推公式为:

L [ S ( n , 2 ) ] = min 2 j n { D ( 1 , j - 1 ) + D ( j , n ) } L [ S ( n , k ) ] = min k j n { L [ S ( j - 1 , k - 1 ) ] + D ( j , n ) }

当n,k固定时,L[b(n,k)]越小表示分类越合理;

最优解获取模块:模块中,对于已知的分类k,1<k<n,使S(n,k)在误差函 数意义下达到最小,首先到分点jk,使递推公式达到极小,即 L[S(n,k)]=L[S(jk-1,k-1)]+D(jk,n),得到第k类Gk;然后jk-1,使它满足 L[S(jk-1,k-1)]=L[S(jk-1-1,k-2)]+D(jk-1,jk-1-1),得到k-1类Gk-1;依次下去最终得 到最优解S(n,k)={G1,G2,…,Gk}。

向量空间模型生成模块中,特征词在专利中的权重的计算方法如下:

w t , d tf t , d * log ( N / n t + 0.01 ) Σ k d [ tf k , d * log ( N / n k + 0.01 ) ] 2

其中:tft,d表示在专利摘要d中特征词t出现的次数;nt表示特征词t在多少 专利摘要中出现过;N表示专利信息数据库中专利摘要的个数。

本发明的有益效果在于:本发明通过将专利摘要、申请日等专利信息的关键 信息进行提取,将其作为有序聚类的样本向量并利用有序聚类方法客观的自动 划分技术的发展阶段;显示技术的动态演化过程,即技术的产生、发展、高潮 直至消亡的过程;预测技术的发展趋势,帮助实施技术战略规划。可使公众更 加方便直观的了解技术的发展过程及未来的趋势。

图1是本发明的系统框架图。

图2是技术生命周期曲线图。

图3是汽车技术阶段划分最小误差函数曲线图。

图4是汽车热点技术演变图。

图5是汽车技术的生命周期曲线。

以下结合附图及具体实施例对本发明进行说明:

本发明分析方法的设计思路为:首先从专利网站获取专利数据;将获取的数 据存储到数据库中;从数据库中抽取后续步骤所需字段信息;建立专利数据的 向量空间模型;使用有序聚类方法自动划分技术的发展阶段;计算每个阶段的 热点技术,发现落后技术消亡和创新技术出现的过程;绘制专利数量变化曲线, 预测技术发展趋势。

一种专利技术演化分析方法,包括以下步骤:

S1:专利数据采集:

根据设定时间区间和关键词,利用网络爬虫技术从指定专利网站获取专利信 息数据并保存到本地;

S2、专利信息抽取:因为从专利网站获得的原始专利资料存在字段格式不统 一、重复等问题,为了方便以后的使用,因此需要创建一个数据库,将从专利 局网站采集到的专利信息数据格式化之后存储到该数据库中,其中数据库中的 字段包括专利号、申请日期、分类号、发明人、申请日、专利标题、摘要和正 文描述等信息。具体包括以下步骤:

A1、创建专利信息数据库,将步骤S1采集到的专利信息数据进行格式化处 理,存入所述专利信息数据库;

A2、从专利数据库中抽取字段信息并将其以“日期/标题/摘要”的文本文件 格式保存至本地,并使每一个专利对应文本中的一行;所述字段信息包括:申 请日、专利标题和专利摘要;

S3、技术发展阶段自动化分:包括以下步骤:

B1、建立专利数据的向量空间模型:对步骤S2抽取到的字段信息中的专利 摘要部分使用分词工具进行分词得到分词词语集,将分词词语集中的词语作为 特征词,统计每个特征词在多少专利摘要中出现过,以及该特征词在每个专利 摘要中出现的次数,得到每个特征词在专利中的权重;特征词在专利中的权重 的具体计算方法如下:

w t , d tf t , d * log ( N / n t + 0.01 ) Σ k d [ tf k , d * log ( N / n k + 0.01 ) ] 2

其中:tft,d表示在专利摘要d中特征词t出现的次数;nt表示特征词t在多少 专利摘要中出现过;N表示专利信息数据库中专利摘要的个数。

以每个专利中所包有的特征词的个数作为向量维度,而将每个特征词在该专 利中的权重作为向量元素生成每个专利所对应的专利向量表示;按照字段信息 中申请日的时间先后顺序,以预设年度区间为时间区间对专利向量进行排序, 得到该年度区间专利的向量空间模型。

B2、使用有序聚类方法自动划分技术的发展阶段:

利用有序聚类方法对向量空间中的向量作为有序样本进行聚类,将聚类结果 作为技术发展阶段,并递归计算不同分类结果的类的直径和误差函数,根据误 差函数衡量聚类的性能以确定最佳分类;

具体步骤为:专利有序样本为P={p1,p2,…,pn},假设分为k段,即有序聚类 的类别数为k。用G表示分段;

C1、获取类的直径:对于某一类G包含的专利有{p(i),p(i+1),…,p(j)},j>i,分
段G记为G={i,i+1,…,j};该类的均值向量记为该类的直径用类内的所有
专利到该类的均值向量的距离表示,记为D(i,j)。

C2、使用误差函数衡量聚类性能,误差函数为

L [ b ( n , k ) ] = Σ t = 1 k D ( i t , i t + 1 - 1 ) - - - ( 1 )

记S(n,k)是使(1)达到极小的分法,最后利用有序聚类算法最核心的两个递 推公式即可求解,递推公式为

L [ S ( n , 2 ) ] = min 2 j n { D ( 1 , j - 1 ) + D ( j , n ) } L [ S ( n , k ) ] = min k j n { L [ S ( j - 1 , k - 1 ) ] + D ( j , n ) } - - - ( 2 )

误差函数如公式(1)所示,即当前分类下,所有类别的直径的和。当n,k固定 时,L[b(n,k)]越小表示各类的离差平方和越小,即分类越合理。

C3、求最优解:求最优解:公式(2)的第二个公式表明,若要到将n个专 利样品分为k类的最优分割,要建立在将j-1个专利样品分为k-1类的最优分割的 基础上(j=2,3,…,n);

若分类k(1<k<n)已知,求分类法S(n,k),使它在误差函数意义下达到最 小,首先到分点jk,使公式(2)达到极小,即L[S(n,k)]=L[S(jk-1,k-1)]+D(jk,n), 得到第k类Gk。然后jk-1,使它满足L[S(jk-1,k-1)]=L[S(jk-1-1,k-2)]+D(jk-1,jk-1-1), 得到k-1类Gk-1。依次下去最终得到最优解S(n,k)={G1,G2,…,Gk}。

S4、技术演化分析:

统计步骤B2得到的每个技术发展阶段中所有特征词的词频,得到词频最高 的若干个特征词作为本技术发展阶段的技术热点。对比不同阶段之间的热点技 术,发现是否有新的技术在后面的阶段出现以及是否前一阶段出现的技术在后 面的阶段中消亡。

S5技术发展趋势预测:

利用统计软件统计专利信息数据库中每年专利的数量,以年份为横坐标, 数量为纵坐标,绘制数量变化曲线,并将曲线与标准的技术生命周期曲线对比, 作为技术未来发展趋势预测结果。

为了结合实施例验证本发明的有效性,以下以汽车专利为例,描述专利技术 演化分析方法的具体过程。应该理解,此处所描述的具体实施例仅用以解释本 发明,并不用于限定本发明。即本发明的保护范围不限于下述的实施例,相反, 根据本发明的构思,本领域其他技术人员可以进行适当改变,这些改变均落入 本发明权利要求书所限定的发明范围之内。

(1)利用网络爬虫技术,从中国知识产权局网站上获取1985年到2010年 的汽车专利,采集的条件为标题或者摘要中包含“汽车”关键字。每条专利包 括标题、摘要、申请日期、发明人、专利权人等字段。

(2)创建JavaDB数据库,数据库中包含(1)中所述字段。抽取系统需要 基于定制的字段信息抽取,即按照预定字段对给定专利信息文件进行匹配,即 通过标题、摘要、申请日期、发明人、专利权人等字段作为检索条件,得到检 索条件字段所在段落的内容作为该字段的值,并把匹配到的内容保存起来,之 后一并插入数据库存入到数据库中。专利信息入库使用HashMap构建专利数据 对象,并使用List结构存储专利数据表,进而批量插入到数据库中。

(3)从数据库中抽取专利的申请日期、标题和摘要字段,按行存储到文本 文件中,每行格式为“日期/标题/摘要”,例如“1985.08.01/带有照明灯的汽 车外后视镜/本发明提供了一种带有照明灯的汽车外后视镜……”。

(4)使用中科院的中文分词系统ICTCLAS的2013版本进行分词,分词过程 中的用户词典中包含了常见的6683个汽车本体词语。按照时间信息对分词处理 后的语料进行排序,以一年为基本的时间区间,得到有序聚类所需要的27个以 时间先后为顺序的汽车专利样本,构建向量空间模型,结果如表1所示,表1 中每一行代表某一年的专利向量,向量中的词比如”发电机“是该年的技术特 征词,它的值”0.1188“是该词的权重。

表1汽车专利样本特征矩阵


(5)对已经建立的27个有序的汽车专利样本进行聚类,得到分类和误差函 数的变换曲线如图3所示,其中横坐标表示分类数,纵坐标为对应的误差函数 值。从图3可知,在4类处出现了拐点,之后损失函数的趋势保持平稳,说明4 类之后的分类变化对误差函数值的影响不大,通过拐点粗略估计,最佳分类数 为4类,且最佳分割情况见表2。

表2阶段划分结果


中国从1985年开始实施专利制度,各企业公布的专利数逐年上升,尤其是 从2002年开始,都有了较大幅度的增长,说明国内汽车企业已经觉醒,开始重 视对专利的积累,1992年至2002年是中国汽车发展最好的十年,而且2002年 中国汽车工业面对WTO的冲击,发展迅速。这些数据在侧面证实了有序聚类对 国内汽车发展阶段划分的基本合理性。为方便后续陈述,本文将国内汽车在1985 年到2010年这段时间内发展的四个阶段进行定义:1985-1991年为阶段Ⅰ、1992 -2001为阶段Ⅱ,2002-2008年为阶段Ⅲ,2009-2010年为阶段Ⅳ,下文沿用 这种描述方法。

(6)汽车专利发展有阶段性的根本原因在于每个阶段的技术热点有所变化, 这在有序聚类中体现为每个阶段有不同的特征或者是同一特征在不同阶段的权 重不同。同样,聚类过程中特征的变化也是引发汽车发展阶段产生的原因。本 发明从聚类时提取的特征入手,展示国内汽车从1985年到2010年的演化发展 情况。着重分析部分重要技术,用相对词频率的大小衡量特征在这一阶段的重 要性,相对词频率为该特征在这一阶段的词频除以这一阶段的所有词的总词频, 本文选取相对词频率在阈值0.001以上的关键词作为研究对象,阈值的选取可 以根据需要自行确定,相关企业也可以根据自己需要研究的目的选取关键词。

从图4可以看出,轮胎、安全等等技术贯穿汽车发展历程,在每个阶段都有 关于该技术的相关专利申请,说明这些技术一直处于发展中。一些技术逐渐退 出历史,而另一些技术逐渐登上舞台。

在阶段Ⅰ,重要的技术有“报警器、防滑、制动器、客车、继电器、喇叭、” 等等。发展到阶段Ⅱ,阶段Ⅰ的“制动器、客车、继电器、喇叭”等技术的重 要性开始下降,在以后的发展阶段中,这些技术中只有“履带”在阶段Ⅳ中稍 微有起,而其他技术一直未再次兴起,面临着淘汰或者改革。与此同时,“防 盗、变速箱、轮毂、气囊”等技术在这个阶段变得更加重要,并在以后的几个 阶段中得到继续发展。

发展到阶段Ⅲ,一个显著变化是在前两个阶段占有重要地位的“报警器、内 胎、防滑、司机”等技术的重要性下降,而且除了继续发展阶段Ⅱ兴起的技术, 又新兴起了“电动机、蓄电池、底板、踏板、发电机、电池、电动车、后视镜、 靠背、混合动力”等技术,并且在阶段Ⅳ得到了继续的发展。在这一时期国内 汽车发展发生的重大变化和中国面对WTO的冲击密切相关,在WTO大背景下, 国内汽车产业吸纳全球经济一体化所带给我们的科学成果和现代理念,对汽车 的发展进行重大改革。

在阶段Ⅳ,除了继续发展前两个阶段特别是阶段Ⅲ新兴的技术,“电动汽车、 太阳能、充电”等技术脱颖而出,这和近些年来电动汽车的发展有很大的关系。

从阶段Ⅰ到阶段Ⅱ的主要变化在一些旧技术的落后,部分新技术的兴起,从 阶段Ⅱ到阶段Ⅲ的变化,是一个过渡时期,面临很多旧技术的淘汰和新技术的 兴起。阶段Ⅲ到阶段Ⅳ的变换主要是成熟技术的继续发展和部分新技术的兴起。

(7)如图5所示,该图反映了从1985年到2010年中国知识产权局汽车专 利数量的变化曲线,呈上升趋势,说明国内汽车总体上是在发展中。将图5结 合(6)中的阶段划分结果与图2进行对比,得到汽车技术发展的阶段,即1985 年到1991年为起步阶段,1992年到2001年为成长阶段,2002年到2008年为 成熟阶段,2009年以后即将进入衰退阶段。而在未来的5年内,专利数量会呈 现下降的趋势。

一种专利技术演化分析系统,其特征在于,包括以下模块:

专利数据采集模块:

用于利用网络爬虫技术从专利信息网站中采集包含有预设时间区间和关键 词的专利信息数据并保存至本地;

专利信息抽取模块:包括以下模块:

专利信息数据库生成及存储模块:用于创建专利信息数据库,将步骤S1采 集到的专利信息数据进行格式化处理,存入该专利信息数据库;从专利数据库 中抽取字段信息并将其以“日期/标题/摘要”的文本文件格式存储到本地,并 使每一个专利对应文本中的一行;所述字段信息包括:申请日、专利标题和专 利摘要;

技术发展阶段自动化分模块:包括以下模块:

向量空间模型生成模块:用于对抽取到的字段信息中的专利摘要部分进行分 词得到分词词语集,将分词词语集中的词语作为特征词,统计每个特征词在多 少专利摘要中出现过,以及该特征词在每个专利摘要中出现的次数,得到每个 特征词在专利中的权重;特征词在专利中的权重的计算方法如下:

w t , d tf t , d * log ( N / n t + 0.01 ) Σ k d [ tf k , d * log ( N / n k + 0.01 ) ] 2

其中:tft,d表示在专利摘要d中特征词t出现的次数;nt表示特征词t在多少 专利摘要中出现过;N表示专利信息数据库中专利摘要的个数。

以每个专利中所包有的特征词的个数作为向量维度,而将每个特征词在该专 利中的权重作为向量元素生成每个专利所对应的专利向量表示;按照字段信息 中申请日的时间先后顺序,以预设年度区间为时间区间对所述专利向量进行排 序,得到该年度区间专利的向量空间模型

有序聚类方法自动划分模块:

用于利用有序聚类方法对向量空间中的向量作为有序样本进行聚类,将聚类 结果作为技术发展阶段,并递归计算不同分类结果的类的直径和误差函数,根 据误差函数衡量聚类的性能以确定最佳分类;

有序聚类方法自动划分模块中,包括如下模块:

专利有序样本为P={p1,p2,…,pn},假设分为k段,即有序聚类的类别数为k; 用G表示分段;

类直径获取模块:用于对于某一类G包含的专利有{p(i),p(i+1),…,p(j)},j>i,
分段G记为G={i,i+1,…,j};该类的均值向量记为该类的直径用类内的所
有专利到该类的均值向量的距离表示,记为D(i,j);

使用误差函数衡量聚类性能模块:其中,误差函数为:

L [ b ( n , k ) ] = Σ t = 1 k D ( i t , i t + 1 - 1 )

记S(n,k)是使L[b(n,k)]达到极小的分法,并利用有序聚类算法核心递推公式 即可求解,递推公式为:

L [ S ( n , 2 ) ] = min 2 j n { D ( 1 , j - 1 ) + D ( j , n ) } L [ S ( n , k ) ] = min k j n { L [ S ( j - 1 , k - 1 ) ] + D ( j , n ) }

当n,k固定时,L[b(n,k)]越小表示分类越合理。

最优解获取模块:模块中,对于已知的分类k,1<k<n,使S(n,k)在误差函 数意义下达到最小,首先到分点jk,使递推公式达到极小,即

L[S(n,k)]=L[S(jk-1,k-1)]+D(jk,n),得到第k类Gk;然后jk-1,使它满足

L[S(jk-1,k-1)]=L[S(jk-1-1,k-2)]+D(jk-1,jk-1-1),得到k-1类Gk-1;依次下去最终得 到最优解S(n,k)={G1,G2,…,Gk}

技术演化分析模块:

用于统计有序聚类方法自动划分模块得到的每个技术发展阶段中所有特征 词的词频,得到词频最高的若干个特征词作为本技术发展阶段的技术热点。

技术发展趋势预测模块:

用于利用统计软件统计专利信息数据库中每年专利的数量,以年份为横坐 标,数量为纵坐标,绘制数量变化曲线,并将曲线与标准的技术生命周期曲线 对比,作为技术未来发展趋势预测结果。

以上内容是结合具体的优选技术方案对本发明所作的进一步详细说 明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术 领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若 干简单推演或替换,都应当视为属于本发明的保护范围。

本文发布于:2024-09-22 01:16:25,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/68164.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议