一种专利技术演化分析方法及系统

著录项

申请号 CN201610087487.0
申请日 20160216
公开（公告）号 CN105677907A
公开日 20160615
申请（专利权）人大连理工大学
发明人林鸿飞;祖坤琳
主分类号 G06F17/30
分类号
G06F17/30 G06Q50/18
地址辽宁省大连市高新园区凌工路2号
国省代码辽宁(21)
代理机构大连星海专利事务所
代理人徐雪莲

摘要

一种专利技术演化分析方法及系统，包括以下步骤：S1:专利数据采集;S2、专利信息抽取；S3、技术发展阶段自动化分；S4、技术演化分析：S5技术发展趋势预测。本发明通过将专利摘要、申请日等专利信息的关键信息进行提取，将其作为有序聚类的样本向量并利用有序聚类方法客观的自动划分技术的发展阶段；显示技术的动态演化过程，即技术的产生、发展、高潮直至消亡的过程；预测技术的发展趋势，帮助实施技术战略规划。可使公众更加方便直观的了解技术的发展过程及未来的趋势。

权利要求



1.一种专利技术演化分析方法，其特征在于，包括以下步骤：

S1:专利数据采集：

利用网络爬虫技术从专利信息网站中采集包含有预设时间区间和关键词的专利信息数据并保存至本地；

S2、专利信息抽取：包括以下步骤：

A1、创建专利信息数据库，将步骤S1采集到的专利信息数据进行格式化处理，存入所述专利信息数据库；

A2、从专利数据库中抽取字段信息并将其以文本文件格式保存至本地，并使每一个专利对应文本中的一行；所述字段信息包括：申请日、专利标题和专利摘要；

S3、技术发展阶段自动化分：包括以下步骤：

B1、建立专利数据的向量空间模型：对步骤S2抽取到的字段信息中的专利摘要部分进行分词得到分词词语集，将分词词语集中的词语作为特征词，统计每个特征词在多少专利摘要中出现过，以及该特征词在每个专利摘要中出现的次数，得到每个特征词在每个专利中的权重；以每个专利中所包有的特征词的个数作为向量维度，而将每个特征词在该专利中的权重作为向量元素生成每个专利所对应的专利向量表示；按照字段信息中申请日的时间先后顺序，以预设年度区间为时间区间对所述专利向量进行排序，得到该年度区间专利的向量空间模型；

B2、使用有序聚类方法自动划分技术的发展阶段：

利用有序聚类方法对向量空间中的向量作为有序样本进行聚类，将聚类结果作为技术发展阶段，并递归计算不同分类结果的类的直径和误差函数，根据误差函数衡量聚类的性能以确定最佳分类；

S4、技术演化分析：

统计步骤B2得到的每个技术发展阶段中所有特征词的词频，得到词频最高的若干个特征词作为本技术发展阶段的技术热点；

S5技术发展趋势预测：

利用统计软件统计专利信息数据库中每年专利的数量，以年份为横坐标，数量为纵坐标，绘制数量变化曲线，并将曲线与标准的技术生命周期曲线对比，作为技术未来发展趋势预测结果。

2.根据权利要求1所述的一种专利技术演化分析方法，其特征在于，步骤 A2中，将抽取的字段信息，以“日期/标题/摘要”的文本文件格式存储到本地。

3.根据权利要求1所述的一种专利技术演化分析方法，其特征在于，步骤 B2中，有序聚类方法的具体步骤如下：

专利有序样本为P＝{p 1，p 2，...，p n}，假设分为k段，即有序聚类的类别数为k；用G表示分段；

C1、获取类的直径：设某一类G包含的专利有{p (i),p (i+1),…，p (j)},j＞i，分段 G记为G＝{i,i+1,…，j}；该类的均值向量记为该类的直径用类内的所有专利到该类的均值向量的距离表示，记为D(i，j)；

C2、使用误差函数衡量聚类性能：误差函数为：

$L [b (n, k)] = Σ_{t = 1}^{k} D (i_{t}, i_{t + 1} - 1)$

记s(n，k)是误差函数取极小的分法，并利用有序聚类算法核心递推公式即可求解，递推公式为

$\{\begin{matrix} L [S (n, 2)] = \min_{2 \leq j \leq n} {D (1, j - 1) + D (j, n)} \\ L [S (n, k)] = \min_{k \leq j \leq n} {L [S (j - 1, k - 1)] + D (j, n)} \end{matrix}$

当n,k固定时，L[b(n，k)]越小表示分类越合理；

C3、获得最优解：对于已知的分类k，1＜k＜n，使s(n，k)在误差函数意义下达到最小，首先到分点j k,使C2中的递推公式达到极小，即 L[S(n，k)]＝L[S(j k-1，k-1)]+D(j k，n)，得到第k类G k；然后j k-1，使它满足 L[S(j k-1，k-1)]＝L[S(j k-1-1，k-2)]+D(j k-1，j k-1-1)，得到k-1类G k-1；依次下去最终得到最优解S(n，k)＝{G 1，G 2，...，G k}。

4.根据权利要求1所述的一种专利技术演化分析方法，其特征在于，步骤 B1中，特征词在专利中的权重的计算方法如下：

$w_{t, d} = \frac{{tf}_{t, d} * l o g (N / n_{t} + 0.01)}{\sqrt{Σ_{k \in d} {[{tf}_{k, d} * \log (N / n_{k} + 0.01)]}^{2}}}$

其中：tf t，d表示在专利摘要d中特征词t出现的次数；n t表示特征词t在多少专利摘要中出现过；N表示专利信息数据库中专利摘要的个数。



5.一种专利技术演化分析系统，其特征在于，包括以下模块：

专利数据采集模块：

用于利用网络爬虫技术从专利信息网站中采集包含有预设时间区间和关键词的专利信息数据并保存至本地；

专利信息抽取模块：包括以下模块：

专利信息数据库生成及存储模块：用于创建专利信息数据库，将步骤S1采集到的专利信息数据进行格式化处理，存入该专利信息数据库；从专利数据库中抽取字段信息并将其以文本文件格式保存至本地，并使每一个专利对应文本中的一行；所述字段信息包括：申请日、专利标题和专利摘要；

技术发展阶段自动化分模块：包括以下模块：

向量空间模型生成模块：用于对字段信息中的专利摘要部分进行分词得到分词词语集，将分词词语集中的词语作为特征词，统计每个特征词在多少专利摘要中出现过，以及该特征词在每个专利摘要中出现的次数，得到每个特征词在每个专利中的权重；以每个专利中所包有的特征词的个数作为向量维度，而将每个特征词在该专利中的权重作为向量元素生成每个专利所对应的专利向量表示；按照字段信息中申请日的时间先后顺序，以预设年度区间为时间区间对所述专利向量进行排序，得到该年度区间专利的向量空间模型；

有序聚类方法自动划分模块：

用于利用有序聚类方法对向量空间中的向量作为有序样本进行聚类，将聚类结果作为技术发展阶段，并递归计算不同分类结果的类的直径和误差函数，根据误差函数衡量聚类的性能以确定最佳分类；

技术演化分析模块：

用于统计有序聚类方法自动划分模块得到的每个技术发展阶段中所有特征词的词频，得到词频最高的若干个特征词作为本技术发展阶段的技术热点；

技术发展趋势预测模块：

用于利用统计软件统计专利信息数据库中每年专利的数量，以年份为横坐标，数量为纵坐标，绘制数量变化曲线，并将曲线与标准的技术生命周期曲线对比，作为技术未来发展趋势预测结果。

6.根据权利要求5所述的一种专利技术演化分析系统，其特征在于，所述抽取的字段信息，以“日期/标题/摘要”的文本文件格式存储到本地。

7.根据权利要求5所述的一种专利技术演化分析系统，其特征在于，有序聚类方法自动划分模块中，包括如下模块：

专利有序样本为P＝{p 1，p 2，...，p n}，假设分为k段，即有序聚类的类别数为k；用G表示分段；

类直径获取模块：用于对于某一类G包含的专利有{p (i),p (i+1),…，p (j)},j＞i，分段G记为G＝{i,i+1,…，j}；该类的均值向量记为该类的直径用类内的所有专利到该类的均值向量的距离表示，记为D(i，j)；

使用误差函数衡量聚类性能模块：其中，误差函数为：

$L [b (n, k)] = Σ_{t = 1}^{k} D (i_{t}, i_{t + 1} - 1)$

记S(n，k)是误差函数取极小的分法，并利用有序聚类算法核心递推公式即可求解，递推公式为：

$\{\begin{matrix} L [S (n, 2)] = \min_{2 \leq j \leq n} {D (1, j - 1) + D (j, n)} \\ L [S (n, k)] = \min_{k \leq j \leq n} {L [S (j - 1, k - 1)] + D (j, n)} \end{matrix}$

当n,k固定时，L[b(n，k)]越小表示分类越合理；

最优解获取模块：模块中，对于已知的分类k，1＜k＜n，使S(n，k)在误差函数意义下达到最小，首先到分点j k,使递推公式达到极小，即 L[S(n，k)]＝L[S(j k-1，k-1)]+D(j k，n)，得到第k类G k；然后j k-1，使它满足 L[S(j k-1，k-1)]＝L[S(j k-1-1，k-2)]+D(j k-1，j k-1-1)，得到k-1类G k-1；依次下去最终得到最优解S(n，k)＝{G 1，G 2，...，G k}。

8.根据权利要求5所述的一种专利技术演化分析系统，其特征在于，向量空间模型生成模块中，特征词在专利中的权重的计算方法如下：

$w_{t, d} = \frac{{tf}_{t, d} * l o g (N / n_{t} + 0.01)}{\sqrt{Σ_{k \in d} {[{tf}_{k, d} * \log (N / n_{k} + 0.01)]}^{2}}}$

其中：tf t，d表示在专利摘要d中特征词t出现的次数；n t表示特征词t在多少专利摘要中出现过；N表示专利信息数据库中专利摘要的个数。

说明书

技术领域

本发明涉及本发明涉及文本挖掘、机器学习和专利分析领域，尤其是一种专利技术演化分析方法及系统。

专利信息集是目前世界上最大的技术信息集，几乎囊括了一切应用领域的技术成果。专利体现特定技术领域的发明情况，以往的研究也指出专利中的相当一部分信息是较新的。专利中包含的研究成果具有商业、工业、法律和决策等多种价值，如果进行仔细分析，发现技术细节和技术之间的关联，可以揭示商业趋势，激发新的工业解决方案，帮助决策者制定投资政策。

专利文献的快速增长推动先进的专利分析技术的发展，所谓专利分析，就是从专利文献中采集专利信息，通过科学的方法对专利信息进行加工、整理、分析，最终形成专利情报和谋略。随着专利信息量的不断增长，无论从法律还是管理角度，专利的检索和分析任务都变得非常重要。专利文献中包含了十多个可供分析的项目，包括结构化信息和非结构化信息。结构化信息具有统一的语义和格式，如专利号、申请日期、分类号等，非结构化的信息是自由的文本信息，如专利标题、摘要和正文描述等。

关于专利技术演化历程的研究，CN101989268.A提供了一种专利技术发展趋势分析系统及分析方法，根据预设主题在各国专利文献数据库中通过检索建立专利数据库；采用专题建立模块在专利数据库中检索专利数据库中专利，建立专利分析专题库；采用技术分类模块对专利分析库中的专利文献按技术进行分类；通过技术选择模块选择分析的技术分类；通过图像显示模块显示所选技术分类下历年专利申请数量或公开数量曲线图；该发明通过曲线图直观反映专利技术的历年发展趋势情况。CN103177010.A提供的专利分析方法，设定进行专利分析的纵轴属性，并根据该属性查相应的专利信息；设定进行专利分析的横轴属性，并根据该属性查相应的专利信息项目；绘制由横轴和纵轴组成的表格，同时将前两步查到的专利信息交集进行数量统计后输入表格中。

然而，专利的内容本身含有重要的技术信息。以上成果均没有利用专利数据的深层文本信息。任何技术都有萌芽期、成长期、成熟期、衰落期，因此技术发展周期的划分和对其发展阶段的判断是重要的专利分析任务，目前对于时空维度的分析手段远远不能满足我们认识技术演化过程及其特征的需要。

本发明的目的是提供一种利用专利的深层文本信息预测技术发展趋势、使用户充分直观的了解技术演化过程的专利技术演化分析方法及系统。

本发明解决现有技术问题所采用的技术方案：一种专利技术演化分析方法，包括以下步骤：

S1:专利数据采集：

利用网络爬虫技术从专利信息网站中采集包含有预设时间区间和关键词的专利信息数据并保存至本地；

S2、专利信息抽取：包括以下步骤：

A1、创建专利信息数据库，将步骤S1采集到的专利信息数据进行格式化处理，存入所述专利信息数据库；

S3、技术发展阶段自动化分：包括以下步骤：

B2、使用有序聚类方法自动划分技术的发展阶段：

S4、技术演化分析：

统计步骤B2得到的每个技术发展阶段中所有特征词的词频，得到词频最高的若干个特征词作为本技术发展阶段的技术热点；

S5技术发展趋势预测：

步骤A2中，将抽取的字段信息，以“日期/标题/摘要”的文本文件格式存储到本地。

步骤B2中，有序聚类方法的具体步骤如下：

专利有序样本为P＝{p1，p2，…，pn}，假设分为k段，即有序聚类的类别数为k；用G表示分段；

C1、获取类的直径：设某一类G包含的专利有{p_(i),p_(i+1),…，p_(j)},j＞i，分段
G记为G＝{i,i+1,…，j}；该类的均值向量记为该类的直径用类内的所有专
利到该类的均值向量的距离表示，记为D(i，j)；

C2、使用误差函数衡量聚类性能：误差函数为：

$L [b (n, k)] = Σ_{t = 1}^{k} D (i_{t}, i_{t + 1} - 1)$

记S(n，k)是误差函数取极小的分法，并利用有序聚类算法核心递推公式即可求解，递推公式为：

$\{\begin{matrix} L [S (n, 2)] = \min_{2 \leq j \leq n} {D (1, j - 1) + D (j, n)} \\ L [S (n, k)] = \min_{k \leq j \leq n} {L [S (j - 1, k - 1)] + D (j, n)} \end{matrix}$

当n，k固定时，L[b(n，k)]越小表示分类越合理；

C3、获得最优解：对于已知的分类k，1＜k＜n，使S(n，k)在误差函数意义下达到最小，首先到分点jk,使C2中的递推公式达到极小，即 L[S(n，k)]＝L[S(jk-1，k-1)]+D(jk，n)，得到第k类Gk；然后jk-1，使它满足 L[S(jk-1，k-1)]＝L[S(jk-1-1，k-2)]+D(jk-1，jk-1-1)，得到k-1类Gk-1；依次下去最终得到最优解S(n，k)＝{G1，G2，…，Gk}。

步骤B1中，特征词在专利中的权重的计算方法如下：

$w_{t, d} \frac{{tf}_{t, d} * \log (N / n_{t} + 0.01)}{\sqrt{Σ_{k \in d} {[{tf}_{k, d} * \log (N / n_{k} + 0.01)]}^{2}}}$

其中：tft，d表示在专利摘要d中特征词t出现的次数；nt表示特征词t在多少专利摘要中出现过；N表示专利信息数据库中专利摘要的个数。

一种专利技术演化分析系统，包括以下模块：

专利数据采集模块：

用于利用网络爬虫技术从专利信息网站中采集包含有预设时间区间和关键词的专利信息数据并保存至本地；

专利信息抽取模块：包括以下模块：

技术发展阶段自动化分模块：包括以下模块：

有序聚类方法自动划分模块：

技术演化分析模块：

用于统计有序聚类方法自动划分模块得到的每个技术发展阶段中所有特征词的词频，得到词频最高的若干个特征词作为本技术发展阶段的技术热点；

技术发展趋势预测模块：

所述抽取的字段信息，以“日期/标题/摘要”的文本文件格式存储到本地。

有序聚类方法自动划分模块中，包括如下模块：

专利有序样本为P＝{p1，p2，…，pn}，假设分为k段，即有序聚类的类别数为k；用G表示分段；

类直径获取模块：用于对于某一类G包含的专利有{p_(i),p_(i+1),…，p_(j)},j＞i，
分段G记为G＝{i,i+1,…，j}；该类的均值向量记为该类的直径用类内的所
有专利到该类的均值向量的距离表示，记为D(i，j)；

使用误差函数衡量聚类性能模块：其中，误差函数为：

$L [b (n, k)] = Σ_{t = 1}^{k} D (i_{t}, i_{t + 1} - 1)$

记S(n，k)是误差函数取极小的分法，并利用有序聚类算法核心递推公式即可求解，递推公式为：

$\{\begin{matrix} L [S (n, 2)] = \min_{2 \leq j \leq n} {D (1, j - 1) + D (j, n)} \\ L [S (n, k)] = \min_{k \leq j \leq n} {L [S (j - 1, k - 1)] + D (j, n)} \end{matrix}$

当n,k固定时，L[b(n，k)]越小表示分类越合理；

最优解获取模块：模块中，对于已知的分类k，1＜k＜n，使S(n，k)在误差函数意义下达到最小，首先到分点jk,使递推公式达到极小，即 L[S(n，k)]＝L[S(jk-1，k-1)]+D(jk，n)，得到第k类Gk；然后jk-1，使它满足 L[S(jk-1，k-1)]＝L[S(jk-1-1，k-2)]+D(jk-1，jk-1-1)，得到k-1类Gk-1；依次下去最终得到最优解S(n，k)＝{G1，G2，…，Gk}。

向量空间模型生成模块中，特征词在专利中的权重的计算方法如下：

$w_{t, d} \frac{{tf}_{t, d} * \log (N / n_{t} + 0.01)}{\sqrt{Σ_{k \in d} {[{tf}_{k, d} * \log (N / n_{k} + 0.01)]}^{2}}}$

其中：tft，d表示在专利摘要d中特征词t出现的次数；nt表示特征词t在多少专利摘要中出现过；N表示专利信息数据库中专利摘要的个数。

本发明的有益效果在于：本发明通过将专利摘要、申请日等专利信息的关键信息进行提取，将其作为有序聚类的样本向量并利用有序聚类方法客观的自动划分技术的发展阶段；显示技术的动态演化过程，即技术的产生、发展、高潮直至消亡的过程；预测技术的发展趋势，帮助实施技术战略规划。可使公众更加方便直观的了解技术的发展过程及未来的趋势。

图1是本发明的系统框架图。

图2是技术生命周期曲线图。

图3是汽车技术阶段划分最小误差函数曲线图。

图4是汽车热点技术演变图。

图5是汽车技术的生命周期曲线。

以下结合附图及具体实施例对本发明进行说明：

本发明分析方法的设计思路为：首先从专利网站获取专利数据；将获取的数据存储到数据库中；从数据库中抽取后续步骤所需字段信息；建立专利数据的向量空间模型；使用有序聚类方法自动划分技术的发展阶段；计算每个阶段的热点技术，发现落后技术消亡和创新技术出现的过程；绘制专利数量变化曲线，预测技术发展趋势。

一种专利技术演化分析方法，包括以下步骤：

S1:专利数据采集：

根据设定时间区间和关键词，利用网络爬虫技术从指定专利网站获取专利信息数据并保存到本地；

S2、专利信息抽取：因为从专利网站获得的原始专利资料存在字段格式不统一、重复等问题，为了方便以后的使用，因此需要创建一个数据库，将从专利局网站采集到的专利信息数据格式化之后存储到该数据库中，其中数据库中的字段包括专利号、申请日期、分类号、发明人、申请日、专利标题、摘要和正文描述等信息。具体包括以下步骤：

A1、创建专利信息数据库，将步骤S1采集到的专利信息数据进行格式化处理，存入所述专利信息数据库；

A2、从专利数据库中抽取字段信息并将其以“日期/标题/摘要”的文本文件格式保存至本地，并使每一个专利对应文本中的一行；所述字段信息包括：申请日、专利标题和专利摘要；

S3、技术发展阶段自动化分：包括以下步骤：

B1、建立专利数据的向量空间模型：对步骤S2抽取到的字段信息中的专利摘要部分使用分词工具进行分词得到分词词语集，将分词词语集中的词语作为特征词，统计每个特征词在多少专利摘要中出现过，以及该特征词在每个专利摘要中出现的次数，得到每个特征词在专利中的权重；特征词在专利中的权重的具体计算方法如下：

$w_{t, d} \frac{{tf}_{t, d} * \log (N / n_{t} + 0.01)}{\sqrt{Σ_{k \in d} {[{tf}_{k, d} * \log (N / n_{k} + 0.01)]}^{2}}}$

其中：tft，d表示在专利摘要d中特征词t出现的次数；nt表示特征词t在多少专利摘要中出现过；N表示专利信息数据库中专利摘要的个数。

以每个专利中所包有的特征词的个数作为向量维度，而将每个特征词在该专利中的权重作为向量元素生成每个专利所对应的专利向量表示；按照字段信息中申请日的时间先后顺序，以预设年度区间为时间区间对专利向量进行排序，得到该年度区间专利的向量空间模型。

B2、使用有序聚类方法自动划分技术的发展阶段：

具体步骤为：专利有序样本为P＝{p1，p2，…，pn}，假设分为k段，即有序聚类的类别数为k。用G表示分段；

C1、获取类的直径：对于某一类G包含的专利有{p_(i),p_(i+1),…，p_(j)},j＞i，分
段G记为G＝{i,i+1,…，j}；该类的均值向量记为该类的直径用类内的所有
专利到该类的均值向量的距离表示，记为D(i，j)。

C2、使用误差函数衡量聚类性能，误差函数为

$L [b (n, k)] = Σ_{t = 1}^{k} D (i_{t}, i_{t + 1} - 1) - - - (1)$

记S(n，k)是使(1)达到极小的分法，最后利用有序聚类算法最核心的两个递推公式即可求解，递推公式为

$\{\begin{matrix} L [S (n, 2)] = \min_{2 \leq j \leq n} {D (1, j - 1) + D (j, n)} \\ L [S (n, k)] = \min_{k \leq j \leq n} {L [S (j - 1, k - 1)] + D (j, n)} \end{matrix} - - - (2)$

误差函数如公式(1)所示，即当前分类下，所有类别的直径的和。当n,k固定时，L[b(n，k)]越小表示各类的离差平方和越小，即分类越合理。

C3、求最优解：求最优解：公式(2)的第二个公式表明，若要到将n个专利样品分为k类的最优分割，要建立在将j-1个专利样品分为k-1类的最优分割的基础上(j＝2，3，…，n)；

若分类k(1＜k＜n)已知，求分类法S(n，k)，使它在误差函数意义下达到最小，首先到分点jk,使公式(2)达到极小，即L[S(n，k)]＝L[S(jk-1，k-1)]+D(jk，n)，得到第k类Gk。然后jk-1，使它满足L[S(jk-1，k-1)]＝L[S(jk-1-1，k-2)]+D(jk-1，jk-1-1)，得到k-1类Gk-1。依次下去最终得到最优解S(n，k)＝{G1，G2，…，Gk}。

S4、技术演化分析：

统计步骤B2得到的每个技术发展阶段中所有特征词的词频，得到词频最高的若干个特征词作为本技术发展阶段的技术热点。对比不同阶段之间的热点技术，发现是否有新的技术在后面的阶段出现以及是否前一阶段出现的技术在后面的阶段中消亡。

S5技术发展趋势预测：

为了结合实施例验证本发明的有效性，以下以汽车专利为例，描述专利技术演化分析方法的具体过程。应该理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。即本发明的保护范围不限于下述的实施例，相反，根据本发明的构思，本领域其他技术人员可以进行适当改变，这些改变均落入本发明权利要求书所限定的发明范围之内。

(1)利用网络爬虫技术，从中国知识产权局网站上获取1985年到2010年的汽车专利，采集的条件为标题或者摘要中包含“汽车”关键字。每条专利包括标题、摘要、申请日期、发明人、专利权人等字段。

(2)创建JavaDB数据库，数据库中包含(1)中所述字段。抽取系统需要基于定制的字段信息抽取，即按照预定字段对给定专利信息文件进行匹配，即通过标题、摘要、申请日期、发明人、专利权人等字段作为检索条件，得到检索条件字段所在段落的内容作为该字段的值，并把匹配到的内容保存起来，之后一并插入数据库存入到数据库中。专利信息入库使用HashMap构建专利数据对象，并使用List结构存储专利数据表，进而批量插入到数据库中。

(3)从数据库中抽取专利的申请日期、标题和摘要字段，按行存储到文本文件中，每行格式为“日期/标题/摘要”，例如“1985.08.01/带有照明灯的汽车外后视镜/本发明提供了一种带有照明灯的汽车外后视镜……”。

(4)使用中科院的中文分词系统ICTCLAS的2013版本进行分词，分词过程中的用户词典中包含了常见的6683个汽车本体词语。按照时间信息对分词处理后的语料进行排序，以一年为基本的时间区间，得到有序聚类所需要的27个以时间先后为顺序的汽车专利样本，构建向量空间模型，结果如表1所示，表1 中每一行代表某一年的专利向量，向量中的词比如”发电机“是该年的技术特征词，它的值”0.1188“是该词的权重。

表1汽车专利样本特征矩阵

(5)对已经建立的27个有序的汽车专利样本进行聚类，得到分类和误差函数的变换曲线如图3所示，其中横坐标表示分类数，纵坐标为对应的误差函数值。从图3可知，在4类处出现了拐点，之后损失函数的趋势保持平稳，说明4 类之后的分类变化对误差函数值的影响不大，通过拐点粗略估计，最佳分类数为4类，且最佳分割情况见表2。

表2阶段划分结果

中国从1985年开始实施专利制度，各企业公布的专利数逐年上升，尤其是从2002年开始，都有了较大幅度的增长，说明国内汽车企业已经觉醒，开始重视对专利的积累，1992年至2002年是中国汽车发展最好的十年，而且2002年中国汽车工业面对WTO的冲击，发展迅速。这些数据在侧面证实了有序聚类对国内汽车发展阶段划分的基本合理性。为方便后续陈述，本文将国内汽车在1985 年到2010年这段时间内发展的四个阶段进行定义：1985－1991年为阶段Ⅰ、1992 －2001为阶段Ⅱ，2002－2008年为阶段Ⅲ，2009－2010年为阶段Ⅳ，下文沿用这种描述方法。

(6)汽车专利发展有阶段性的根本原因在于每个阶段的技术热点有所变化，这在有序聚类中体现为每个阶段有不同的特征或者是同一特征在不同阶段的权重不同。同样，聚类过程中特征的变化也是引发汽车发展阶段产生的原因。本发明从聚类时提取的特征入手，展示国内汽车从1985年到2010年的演化发展情况。着重分析部分重要技术，用相对词频率的大小衡量特征在这一阶段的重要性，相对词频率为该特征在这一阶段的词频除以这一阶段的所有词的总词频，本文选取相对词频率在阈值0.001以上的关键词作为研究对象，阈值的选取可以根据需要自行确定，相关企业也可以根据自己需要研究的目的选取关键词。

从图4可以看出，轮胎、安全等等技术贯穿汽车发展历程，在每个阶段都有关于该技术的相关专利申请，说明这些技术一直处于发展中。一些技术逐渐退出历史，而另一些技术逐渐登上舞台。

在阶段Ⅰ，重要的技术有“报警器、防滑、制动器、客车、继电器、喇叭、” 等等。发展到阶段Ⅱ，阶段Ⅰ的“制动器、客车、继电器、喇叭”等技术的重要性开始下降，在以后的发展阶段中，这些技术中只有“履带”在阶段Ⅳ中稍微有起，而其他技术一直未再次兴起，面临着淘汰或者改革。与此同时，“防盗、变速箱、轮毂、气囊”等技术在这个阶段变得更加重要，并在以后的几个阶段中得到继续发展。

发展到阶段Ⅲ，一个显著变化是在前两个阶段占有重要地位的“报警器、内胎、防滑、司机”等技术的重要性下降，而且除了继续发展阶段Ⅱ兴起的技术，又新兴起了“电动机、蓄电池、底板、踏板、发电机、电池、电动车、后视镜、靠背、混合动力”等技术，并且在阶段Ⅳ得到了继续的发展。在这一时期国内汽车发展发生的重大变化和中国面对WTO的冲击密切相关，在WTO大背景下，国内汽车产业吸纳全球经济一体化所带给我们的科学成果和现代理念，对汽车的发展进行重大改革。

在阶段Ⅳ，除了继续发展前两个阶段特别是阶段Ⅲ新兴的技术，“电动汽车、太阳能、充电”等技术脱颖而出，这和近些年来电动汽车的发展有很大的关系。

从阶段Ⅰ到阶段Ⅱ的主要变化在一些旧技术的落后，部分新技术的兴起，从阶段Ⅱ到阶段Ⅲ的变化，是一个过渡时期，面临很多旧技术的淘汰和新技术的兴起。阶段Ⅲ到阶段Ⅳ的变换主要是成熟技术的继续发展和部分新技术的兴起。

(7)如图5所示，该图反映了从1985年到2010年中国知识产权局汽车专利数量的变化曲线，呈上升趋势，说明国内汽车总体上是在发展中。将图5结合(6)中的阶段划分结果与图2进行对比，得到汽车技术发展的阶段，即1985 年到1991年为起步阶段，1992年到2001年为成长阶段，2002年到2008年为成熟阶段，2009年以后即将进入衰退阶段。而在未来的5年内，专利数量会呈现下降的趋势。

一种专利技术演化分析系统，其特征在于，包括以下模块：

专利数据采集模块：

用于利用网络爬虫技术从专利信息网站中采集包含有预设时间区间和关键词的专利信息数据并保存至本地；

专利信息抽取模块：包括以下模块：

专利信息数据库生成及存储模块：用于创建专利信息数据库，将步骤S1采集到的专利信息数据进行格式化处理，存入该专利信息数据库；从专利数据库中抽取字段信息并将其以“日期/标题/摘要”的文本文件格式存储到本地，并使每一个专利对应文本中的一行；所述字段信息包括：申请日、专利标题和专利摘要；

技术发展阶段自动化分模块：包括以下模块：

向量空间模型生成模块：用于对抽取到的字段信息中的专利摘要部分进行分词得到分词词语集，将分词词语集中的词语作为特征词，统计每个特征词在多少专利摘要中出现过，以及该特征词在每个专利摘要中出现的次数，得到每个特征词在专利中的权重；特征词在专利中的权重的计算方法如下：

$w_{t, d} \frac{{tf}_{t, d} * \log (N / n_{t} + 0.01)}{\sqrt{Σ_{k \in d} {[{tf}_{k, d} * \log (N / n_{k} + 0.01)]}^{2}}}$

其中：tft，d表示在专利摘要d中特征词t出现的次数；nt表示特征词t在多少专利摘要中出现过；N表示专利信息数据库中专利摘要的个数。

以每个专利中所包有的特征词的个数作为向量维度，而将每个特征词在该专利中的权重作为向量元素生成每个专利所对应的专利向量表示；按照字段信息中申请日的时间先后顺序，以预设年度区间为时间区间对所述专利向量进行排序，得到该年度区间专利的向量空间模型

有序聚类方法自动划分模块：

有序聚类方法自动划分模块中，包括如下模块：

专利有序样本为P＝{p1，p2，…，pn}，假设分为k段，即有序聚类的类别数为k；用G表示分段；

使用误差函数衡量聚类性能模块：其中，误差函数为：

$L [b (n, k)] = Σ_{t = 1}^{k} D (i_{t}, i_{t + 1} - 1)$

记S(n，k)是使L[b(n,k)]达到极小的分法，并利用有序聚类算法核心递推公式即可求解，递推公式为：

$\{\begin{matrix} L [S (n, 2)] = \min_{2 \leq j \leq n} {D (1, j - 1) + D (j, n)} \\ L [S (n, k)] = \min_{k \leq j \leq n} {L [S (j - 1, k - 1)] + D (j, n)} \end{matrix}$