G06F40/216
1.一种专利技术领域的创新主题挖掘方法,其特征在于,其实现包括:
步骤S1、数据准备阶段:获取专利技术领域A的专利文献,对获取的专利文献进行预处理,构建向量空间模型;
步骤S2、数据处理阶段:首先,基于困惑度的方法确定最优主题数,构建LDA主题模型,并生成文档-主题矩阵和主题-特征词矩阵;随后,针对主题-特征词矩阵,利用四分位数法将每个主题下的特征词按照概率值降序排列,并选择前四分之一的特征词,得到四分化主题-特征词概率分布矩阵;
步骤S3、邻接矩阵二值化阶段:对四分化主题-特征词概率分布矩阵进行关联统计,得到主题间相同特征词来构建邻接矩阵,并通过定义邻接矩阵的二值化规则,完成邻接矩阵的二值化处理;
步骤S4、创新主题挖掘阶段:基于二值化处理后的邻接矩阵,绘制专利主题网络图,利用结构洞度量算法,根据不同主题占据专利主题网络图的结构洞数量,挖掘专利技术领域A的创新主题。
2.根据权利要求1所述的一种专利技术领域的创新主题挖掘方法,其特征在于,专利文献来自于专利数据库Total Patent,每个专利文献包括标题、摘要、IPC分类号、权利要求四部分信息。
3.根据权利要求2所述的一种专利技术领域的创新主题挖掘方法,其特征在于,执行步骤S1时,对获取的专利文献进行预处理的具体操作为:
基于获取的专利文献,首先对其语料进行分词,然后去除停用词、词干还原,最后去除标点符号、特殊符号和数字。
4.根据权利要求3所述的一种专利技术领域的创新主题挖掘方法,其特征在于,执行步骤S1时,构建向量空间模型的具体操作为:
基于预处理完成的专利文献,确定特征词数量;
将预处理后的语料转换为词频TF矩阵;
将词频TF矩阵转换成逆文本词频IDF矩阵;
将词频TF矩阵与逆文本词频IDF矩阵相乘,生成TF-IDF矩阵,该TF-IDF矩阵即为向量空间模型。
5.根据权利要求4所述的一种专利技术领域的创新主题挖掘方法,其特征在于,执行步骤S2时,基于困惑度的方法确定最优主题数,构建LDA主题模型,具体操作包括:
将获取的专利文献存储于数据集,将数据集随机划分为训练集与测试集;
针对获取的专利文献,使用基于困惑度的方法确定最优主题数;
使用向量空间模型对训练集、测试集进行加权处理,并利用加权后的训练集构建LDA模型;
将测试集作为语料,计算LDA模型在不同主题下的困惑度,并选取困惑度最小的主题数作为LDA模型的最优主题数;
以加权测试集和最优主题数作为构建元素,基于LDA模型,构建LDA主题模型。
6.根据权利要求1-5中任一项所述的一种专利技术领域的创新主题挖掘方法,其特征在于,执行步骤S3时,对四分化主题-特征词概率分布矩阵进行关联统计,得到主题间相同特征词,具体操作为:
步骤S3.1、按行遍历四分化主题-特征词概率分布矩阵;
步骤S3.2、关联统计第一行与第二行数据拥有相同特征词的数目,继续统计第一行与第三行直至最后一行数据具有相同特征词的数目;
步骤S3.3、关联统计第二行与第三行数据拥有相同特征词的数目,继续统计第二行与第四行直至最后一行数据具有相同特征词的数目;
步骤S3.4、由步骤S3.3类推,直到关联统计倒数第二行与倒数第一行数据拥有相同特征词的数目,关联统计结束完成对主题间相同特征词的统计。
7.根据权利要求6所述的一种专利技术领域的创新主题挖掘方法,其特征在于,针对构建的邻接矩阵,定义的二值化规则为:
y(i,j)=1 if x(i,j)>=1,and 0 otherwise. (1)
规则(1)中x(i,j)表示邻接矩阵中i行与j列的关联值,y(i,j)表示二值化后的值,
规则(1)表示当邻接矩阵中行与列的关联值满足大于等于1时,二值化后的值为1,否则,二值化后的值为0。
8.根据权利要求7所述的一种专利技术领域的创新主题挖掘方法,其特征在于,执行步骤S4,利用结构洞度量算法,根据不同主题占据专利主题网络图的结构洞数量,挖掘专利技术领域A的创新主题,这一过程具体包括:
首先,使用Burt提出的结构洞度量算法进行结构洞度量,分析得出的度量结果;
随后,使用Freeman提出的中介中心度算法度量节点的结构洞数量,分析得出的结果;
再随后,使用皮尔逊积矩相关系数,对结构洞度量算法得出的结果与中介中心度算法得出的结果进行相关性判别;
最后,根据判别结果,得到不同主题占据专利主题网络图的结构洞数量,进而挖掘专利技术领域A的创新主题。
本发明涉及数据挖掘技术领域,具体的说是一种专利技术领域的创新主题挖掘方法。
专利技术主题发现对于快速整体掌握领域技术研究热点、技术创新发展决策和行业投资规划有重要借鉴意义。国内外研究人员将结构洞理论应用于专利数据的研究并取得很多有效的科研成果,其中重要的研究成果多表现在利用结构洞理论对专利情报网络图进行分析,从网络中发掘有价值的情报信息及其所在位置。非均衡演进特征是结构洞在创新网路中的主要表现,具体表现两种重要的态势,态势一为小型结构洞的特征出现在创新网络的早期;态势二为极少数大型结构洞与大量小型结构洞并存在创新网络的中后期。调整分析的研究结果表明一种正向作用,这种正向作用分为两种情况,情况一是提高结构洞的非均衡化水平将会提高技术创造性程度更高的技术创新的产出;情况二是提高结构洞的平均水平将会提高技术创造性程度较低的技术创新的产出。
既有的研究表明,结构洞的理论和方法对专利情报分析领域有重要的应用价值,可以发现网络结构中隐藏的知识等。
本发明针对目前技术发展的需求和不足之处,提供一种专利技术领域的创新主题挖掘方法,通过将LDA(Latent Dirichlet Allocation)主题模型与结构洞理论相结合,为挖掘专利技术领域的创新方向提供新思路。
本发明的一种专利技术领域的创新主题挖掘方法,解决上述技术问题采用的技术方案如下:
一种专利技术领域的创新主题挖掘方法,其实现包括:
步骤S1、数据准备阶段:获取专利技术领域A的专利文献,对获取的专利文献进行预处理,构建向量空间模型;
步骤S2、数据处理阶段:首先,基于困惑度的方法确定最优主题数,构建LDA主题模型,并生成文档-主题矩阵和主题-特征词矩阵;随后,针对主题-特征词矩阵,利用四分位数法将每个主题下的特征词按照概率值降序排列,并选择前四分之一的特征词,得到四分化主题-特征词概率分布矩阵;
步骤S3、邻接矩阵二值化阶段:对四分化主题-特征词概率分布矩阵进行关联统计,得到主题间相同特征词来构建邻接矩阵,并通过定义邻接矩阵的二值化规则,完成邻接矩阵的二值化处理;
步骤S4、创新主题挖掘阶段:基于二值化处理后的邻接矩阵,绘制专利主题网络图,利用结构洞度量算法,根据不同主题占据专利主题网络图的结构洞数量,挖掘专利技术领域A的创新主题。
可选的,所涉及专利文献来自于专利数据库Total Patent,每个专利文献包括标题、摘要、IPC分类号、权利要求四部分信息。
可选的,执行步骤S1时,对获取的专利文献进行预处理的具体操作为:
基于获取的专利文献,首先对其语料进行分词,然后去除停用词、词干还原,最后去除标点符号、特殊符号和数字。
进一步可选的,执行步骤S1时,构建向量空间模型的具体操作为:
基于预处理完成的专利文献,确定特征词数量;
将预处理后的语料转换为词频TF矩阵;
将词频TF矩阵转换成逆文本词频IDF矩阵;
将词频TF矩阵与逆文本词频IDF矩阵相乘,生成TF-IDF矩阵,该TF-IDF矩阵即为向量空间模型。
进一步可选的,执行步骤S2时,基于困惑度的方法确定最优主题数,构建LDA主题模型,具体操作包括:
将获取的专利文献存储于数据集,将数据集随机划分为训练集与测试集;
针对获取的专利文献,使用基于困惑度的方法确定最优主题数;
使用向量空间模型对训练集、测试集进行加权处理,并利用加权后的训练集构建LDA模型;
将测试集作为语料,计算LDA模型在不同主题下的困惑度,并选取困惑度最小的主题数作为LDA模型的最优主题数;
以加权测试集和最优主题数作为构建元素,基于LDA模型,构建LDA主题模型。
进一步可选的,执行步骤S3时,对四分化主题-特征词概率分布矩阵进行关联统计,得到主题间相同特征词,具体操作为:
步骤S3.1、按行遍历四分化主题-特征词概率分布矩阵;
步骤S3.2、关联统计第一行与第二行数据拥有相同特征词的数目,继续统计第一行与第三行直至最后一行数据具有相同特征词的数目;
步骤S3.3、关联统计第二行与第三行数据拥有相同特征词的数目,继续统计第二行与第四行直至最后一行数据具有相同特征词的数目;
步骤S3.4、由步骤S3.3类推,直到关联统计倒数第二行与倒数第一行数据拥有相同特征词的数目,关联统计结束完成对主题间相同特征词的统计。
进一步可选的,针对构建的邻接矩阵,定义的二值化规则为:
y(i,j)=1 if x(i,j)>=1,and 0 otherwise.(1)
规则(1)中x(i,j)表示邻接矩阵中i行与j列的关联值,y(i,j)表示二值化后的值,
规则(1)表示当邻接矩阵中行与列的关联值满足大于等于1时,二值化后的值为1,否则,二值化后的值为0。
进一步可选的,执行步骤S4,利用结构洞度量算法,根据不同主题占据专利主题网络图的结构洞数量,挖掘专利技术领域A的创新主题,这一过程具体包括:
首先,使用Burt提出的结构洞度量算法进行结构洞度量,分析得出的度量结果;
随后,使用Freeman提出的中介中心度算法度量节点的结构洞数量,分析得出的结果;
再随后,使用皮尔逊积矩相关系数,对结构洞度量算法得出的结果与中介中心度算法得出的结果进行相关性判别;
最后,根据判别结果,得到不同主题占据专利主题网络图的结构洞数量,进而挖掘专利技术领域A的创新主题。
本发明的一种专利技术领域的创新主题挖掘方法,与现有技术相比具有的有益效果是:
本发明在数据准备阶段构建向量空间模型,在数据处理阶段构建LDA主题模型,并得到四分化主题-特征词概率分布矩阵,在邻接矩阵二值化阶段构建邻接矩阵并进行二值化处理,最后在创新主题挖掘阶段绘制专利主题网络图,利用结构洞度量算法,根据不同主题占据专利主题网络图的结构洞数量,挖掘专利技术领域A的创新主题;本发明通过将LDA主题模型与结构洞理论相结合,为挖掘专利技术领域的创新方向提供新思路。
附图1是本发明的方法流程示意图;
附图2是本发明绘制的专利主题网络图;
附图3是本发明绘制的基于中介中心度算法度量节点的网络主题图,图中节点越大表示中介中心度越大,同时表示节点占据结构洞数量越多的可能性越大;
附图4是本发明绘制的基于结构洞度量算法表示结构约束的节点系数值升序图,其中,系数值越高,网络闭合性越高,表示节点占据结构洞数量越少的可能性越大;
附图5是本发明绘制的基于结构洞度量算法表示有效规模的节点系数值降序图,其中,系数值越高,系数值越高,网络的冗余程度低,表示节点占据结构洞数量越多的可能性越大。
为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白,以下结合具体实施例,对本发明的技术方案进行清楚、完整的描述。
实施例一:
结合附图1,本实施例提出一种专利技术领域的创新主题挖掘方法,其实现包括:
步骤S1、数据准备阶段:获取专利技术领域A的专利文献,对获取的专利文献进行预处理,构建向量空间模型。
本步骤中,专利文献来自于专利数据库Total Patent,每个专利文献包括标题、摘要、IPC分类号、权利要求四部分信息。
执行步骤S1对专利文献进行预处理的具体操作为:
基于获取的专利文献,首先对其语料进行分词,然后去除停用词、词干还原,最后去除标点符号、特殊符号和数字。
执行步骤S1构建向量空间模型的具体操作为:
基于预处理完成的专利文献,确定特征词数量;
将预处理后的语料转换为词频TF矩阵;
将词频TF矩阵转换成逆文本词频IDF矩阵;
将词频TF矩阵与逆文本词频IDF矩阵相乘,生成TF-IDF矩阵,该TF-IDF矩阵即为向量空间模型。
步骤S2、数据处理阶段:
步骤S2.1、基于困惑度的方法确定最优主题数,构建LDA主题模型,并生成文档-主题矩阵和主题-特征词矩阵.
本步骤中,基于困惑度的方法确定最优主题数,构建LDA主题模型,具体操作包括:
步骤S2.1.1、将获取的专利文献存储于数据集,将数据集随机划分为训练集与测试集;
步骤S2.1.2、针对获取的专利文献,使用基于困惑度的方法确定最优主题数;
步骤S2.1.3、使用向量空间模型对训练集、测试集进行加权处理,并利用加权后的训练集构建LDA模型;
步骤S2.1.4、将测试集作为语料,计算LDA模型在不同主题下的困惑度,并选取困惑度最小的主题数作为LDA模型的最优主题数;
步骤S2.1.5、以加权测试集和最优主题数作为构建元素,基于LDA模型,构建LDA主题模型。
步骤S2.2、随后,针对主题-特征词矩阵,利用四分位数法将每个主题下的特征词按照概率值降序排列,并选择前四分之一的特征词,得到四分化主题-特征词概率分布矩阵。
步骤S3、邻接矩阵二值化阶段:
步骤S3.1、对四分化主题-特征词概率分布矩阵进行关联统计,得到主题间相同特征词来构建邻接矩阵。
得到主题间相同特征词的具体操作为:
步骤S3.1.1、按行遍历四分化主题-特征词概率分布矩阵;
步骤S3.1.2、关联统计第一行与第二行数据拥有相同特征词的数目,继续统计第一行与第三行直至最后一行数据具有相同特征词的数目;
步骤S3.1.3、关联统计第二行与第三行数据拥有相同特征词的数目,继续统计第二行与第四行直至最后一行数据具有相同特征词的数目;
步骤S3.1.4、由步骤S3.1.3类推,直到关联统计倒数第二行与倒数第一行数据拥有相同特征词的数目,关联统计结束完成对主题间相同特征词的统计。
步骤S3.2、定义邻接矩阵的二值化规则,完成邻接矩阵的二值化处理。
定义的二值化规则为:
y(i,j)=1 if x(i,j)>=1,and 0 otherwise.(1)
规则(1)中x(i,j)表示邻接矩阵中i行与j列的关联值,y(i,j)表示二值化后的值,
规则(1)表示当邻接矩阵中行与列的关联值满足大于等于1时,二值化后的值为1,否则,二值化后的值为0。
本步骤中,二值化阶段算法的伪代码如表1所示:
表1伪代码
步骤S4、创新主题挖掘阶段:结合附图2,基于二值化处理后的邻接矩阵,绘制专利主题网络图,利用结构洞度量算法,根据不同主题占据专利主题网络图的结构洞数量,挖掘专利技术领域A的创新主题。
本步骤中,首先,使用Burt提出的结构洞度量算法进行结构洞度量,分析得出的度量结果;如附图4、附图5,附图4为基于结构洞度量算法表示结构约束的节点系数值升序图,其中,系数值越高,网络闭合性越高,表示节点占据结构洞数量越少的可能性越大,附图5基于为结构洞度量算法表示有效规模的节点系数值降序图,其中,系数值越高,系数值越高,网络的冗余程度低,表示节点占据结构洞数量越多的可能性越大;
随后,使用Freeman提出的中介中心度算法度量节点的结构洞数量,分析得出的结果;如附图3,其为基于中介中心度算法度量节点的网络主题图,图中节点越大表示中介中心度越大,同时表示节点占据结构洞数量越多的可能性越大;
再随后,使用皮尔逊积矩相关系数,对结构洞度量算法得出的结果与中介中心度算法得出的结果进行相关性判别;
最后,根据判别结果,得到不同主题占据专利主题网络图的结构洞数量,进而挖掘专利技术领域A的创新主题。
需要补充的是,所述“专利技术领域A”中“A”为国际专利分类表8个部类中的任一技术领域。
综上可知,采用本发明的一种专利技术领域的创新主题挖掘方法,通过将LDA主题模型与结构洞理论相结合,为挖掘专利技术领域的创新方向提供新思路。
以上应用具体个例对本发明的原理及实施方式进行了详细阐述,这些实施例只是用于帮助理解本发明的核心技术内容。基于本发明的上述具体实施例,本技术领域的技术人员在不脱离本发明原理的前提下,对本发明所作出的任何改进和修饰,皆应落入本发明的专利保护范围。
本文发布于:2024-09-23 06:33:20,感谢您对本站的认可!
本文链接:https://www.17tex.com/tex/4/68244.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |