一种高速列车三维产品结构技术功效图构建系统及方法

著录项
  • CN201910635178.6
  • 20190715
  • CN110348133A
  • 20191018
  • 西南交通大学;成都地铁运营有限公司
  • 丁国富;韩鑫;黎伟洋;吴畏;黎荣;丁雨秋;张剑
  • G06F17/50
  • G06F17/50 G06T17/00

  • 四川省成都市二环路北一段111号西南交通大学科技处
  • 四川(51)
  • 成都信博专利代理有限责任公司
  • 刘凯
摘要
本发明公开一种高速列车三维产品结构技术功效图构建系统及方法,首先基于技术词库从专利网中获取专利信息,并对专利信息进行预处理;从预处理后的文本中抽取技术相关词和功效相关词;再结合各簇相关词在专利中的分布情况,分析出技术项和功效项;基于相关词在专利中的分布情况,计算出每个专利中不同主题的权重;结合技术主题权重和技术生命周期判别指标,分析出每项技术的生命周期;根据主题权重计算出技术项、功效项和产品结构三者的共现值,并基于此绘制三维产品结构技术功效图。本发明实现了技术、功效与产品结构关联,使技术功效图更具有指导意义,实现了技术信息的动态获取,解决了传统获取方法人力耗费大而且主观性大的问题。
权利要求

1.一种高速列车三维产品结构技术功效图构建系统,其特征在于,包括:

(1)技术词库储存高速列车研发技术相关的词语;

(2)数据获取模块将技术词库中的技术项、功效项和产品结构作为关键词,在专利网中实时抓取专利信息,包括专利题目、说明书摘要、权利要求书、说明书、申请人、申请日、IPC分类号;

(3)预处理模块根据python程序,将专利题目、说明书摘要、权利要求书、说明书的文本进行分词、词性标注和停用词过滤;

(4)相关词抽取模块采用产生式的表达形式,编写抽取规则,并基于抽取规则分别抽取技术、功效相关词;

(5)语义聚类模块根据语义相似度对词语归类,并用平均轮廓系数确定簇数;通过分析各簇中相关词在专利中的出现次数和位置,得到各簇中词语的优先排序,并提供排序较前的词语给工程师,由其总结出各簇的技术项或功效项;并将技术项和功效项与词库中现有的项进行对比,对新项进行标识;

(6)主题分析模块根据各簇中相关词在专利中的分布情况,分析出每个专利的技术主题权重和功效主题权重;根据产品结构中的产品名称及其相关词在专利中的分布情况,分析出每个专利的产品结构主题权重;

(7)技术生命周期计算模块计算出每项技术的技术生长率、技术成熟系数、技术衰老系数、新技术特征系数和失效度,并通过指数平滑减少噪声数据影响,再由周期判别规则分析出技术的生命周期;

(8)三维技术功效图构建模块以功效项为X轴、技术项为Y轴、产品结构为Z轴构建三维空间坐标系,再以功效主题权重、技术主题权重和产品结构主题权重计算出功效项、技术项、产品结构三者的共现值,以此作为三维空间中相交球的半径值;所述共现值为功效项、技术项和产品结构在现有专利中同时出现的频率累计值;

(9)技术内容查看模块提供用户可视化界面,供用户查看技术生命周期和产品结构技术功效图。

2.根据权利要求1所述的高速列车三维产品结构技术功效图构建系统,其特征在于,所述语义聚类模块将技术项、功效项与词库中现有的项进行对比,发现新项,并对其进行标识,以供后续评价;所述三维技术功效图构建模块根据新项的共现值判断其是否为新技术项或功效项,共现值不为零则为新技术项或功效项,添加至技术词库,否则舍弃;在此基础上,三维技术功效图构建模块统计每个相交球中相关专利的申请人占比和IPC类别占比,得到技术所属领域分布和技术所属企业分布。

3.根据权利要求1所述的高速列车三维产品结构技术功效图构建系统,其特征在于,所述技术内容查看模块以曲线图的形式,显示技术生命周期的变化情况,以空间离散点图的形式,显示产品结构技术功效图;所述产品结构技术功效图中的每个相交球连接相关的技术所属领域分布和技术所属企业分布,并以饼状图的形式显示。

4.根据权利要求1所述的高速列车三维产品结构技术功效图构建系统,其特征在于,还包括技术词库管理模块,用于对技术词库中的词语进行增添、修改和删除。

5.一种高速列车三维产品结构技术功效图构建方法,其特征在于,包括以下步骤:

步骤1:基于与高速列车研发技术相关词语的技术词库,从专利网中获取专利信息;

步骤2:通过python程序对获取的专利题目、摘要、权利要求书、说明书的文本进行分词、词性标注、去停用词的预处理;

步骤3:基于预定义的规则从预处理后的文本中抽取技术相关词和功效相关词;

步骤4:基于语义相似度分别对两类相关词聚类,通过轮廓系数调整簇数,并分析出各聚类簇的技术项和功效项;

步骤5:基于相关词在专利中的分布情况,计算出每个专利中技术主题权重、功效主题权重、产品结构主题的权重;

步骤6:结合技术主题权重和技术生命周期判别指标,分析出每项技术的生命周期;

步骤7:根据主题权重计算出技术项、功效项和产品结构三者的共现值,并基于此绘制三维产品结构技术功效图。

6.根据权利要求5所述的高速列车三维产品结构技术功效图构建方法,其特征在于,所述步骤4具体包括:

步骤41:根据技术相关词间的相似程度将词语归类进行语义相似度聚类,基于同义词词林中词语的相似情况进行语义相似度计算,语义相似度表示为:

其中,wri、wrj表示任意两个技术相关词,wri=wrj表示在词林中两个词等价,wri#wrj表示在词林中两个词相关,init是相似度的初值函数,其自变量为技术相关词wri、wrj之间的最短路径;a为两个相关词最近公共父结点的直接子结点的个数,b为两个相关词在最近公共父结点中的分支间距;

某聚类簇中各点到聚类中心距离的平方和表示为:

其中,WRk表示k簇中词语的集合,表示k簇中词语的数量,wrik表示k簇中第i个技术相关词,表示k簇的聚类中心,同时作为k簇中词语的中心词,表示为:

其中,u表示中心词在词林中的位置编号,当u的值不为整数时,采用进位方式修正;max(wrik)和min(wrik)表示k簇中词语在词林中的最大编号和最小编号;基于语义相似度聚类的目标是实现聚类域中所有的词语到聚类中心距离的平方和最小,即进一步表示为:

其中,WR表示总的技术相关词集合,k表示聚类的簇数;表示j簇中词语的数量;wrij表示j簇中第i个技术相关词;表示j簇的聚类中心;

步骤42:轮廓系数计算公式为:

其中,difz(wri)表示技术相关词wri与其同一簇内其它所有词差异度的平均值,用于量化簇内的内聚度;difw(wri)表示技术相关词wri与其外部的一个簇中所有词的差异度,遍历所有其他簇,到最小的差异度,用于量化簇间分离度;

用整个词语集的平均轮廓系数确定聚类簇数,平均轮廓系数计算公式为:

其中,nc为所有技术相关词的数量;当平均轮廓系数L(WR)k最大时,簇数k为最佳的聚类簇数;

步骤43:基于各聚类簇中词语在专利题目、摘要、权利要求书、说明书的出现位置和次数,计算各簇技术相关词的优先排序,技术相关词的出现次数计算公式表示为:

其中,nz表示获取专利的数量,分别表示技术相关词wrik在专利j的题目、摘要、权利要求书、说明书中出现的次数,表示词在专利中不同位置出现的权重;

根据各技术相关词num(wrik)值的大小,进行从大到小排序,并将前10~20个技术相关词作为推荐词,再由工程师从中总结出关键词,即技术项;所得的技术项将与词库中现有的项进行匹配,基于此发现新技术项。

7.根据权利要求6所述的高速列车三维产品结构技术功效图构建方法,其特征在于,所述步骤5具体包括:

计算在一个专利中每个技术项的相关词出现的总次数,计算公式表示为:

其中,num(WRk)j表示在一个专利中某个技术主题相关词出现的总次数;

基于各技术项的相关词在专利中出现的总次数,每个专利中技术主题权重表示为:

其中,表示每个专利的不同技术主题的权重,其满足k表示聚类的簇数,即技术项的数量。

8.根据权利要求7所述的高速列车三维产品结构技术功效图构建方法,其特征在于,所述步骤6具体包括:

步骤61:根据技术主题权重统计各项技术的专利数量,某项技术相关专利数量的统计公式表示为:

步骤62:将获取的专利按两个维度分类,一个维度为发明专利、实用新型专利和外观设计专利,另一维为有效专利和无效专利,并以步骤61的方式统计各类专利的数量;

步骤63:计算每项技术生命周期判别指标,包括技术生长率、技术成熟系数、技术衰老系数、新技术特征系数、失效度;

某项技术的技术生长率计算公式表示为:

其中,num(inpat0)k、num(inpat-1)k和num(inpat-2)k分别表示本次及前两次获取的发明专利的数量;

某项技术的技术成熟系数计算公式表示为:

其中,num(umpat0)k表示本次获取的实用新型专利的数量;

某项技术的技术衰老系数计算公式表示为:

其中,num(edpat0)k表示本次获取的外观设计专利的数量;

某项技术的新技术特征系数计算公式表示为:

某项技术的失效度计算公式表示为:

其中,num(valid0)k和num(fail0)k分别表示本次获取的有效专利和无效专利的数量;

使用失效度对技术衰老系数进行修正,修正公式表示为:

β′k=βk×fk

为减小噪声数据的影响,将计算得到的指标值进行指数平滑;

步骤64:根据周期判别规则确定每项技术在不同时间所处的生命周期,周期判别规则表示为:

其中,△Nk、△vk和△βk分别表示相邻两个获取时间段中新技术特征系数、技术生长率和技术衰老系数的差值。

9.根据权利要求8所述的高速列车三维产品结构技术功效图构建方法,其特征在于,所述步骤7具体包括:

步骤71:以功效项为X轴、技术项为Y轴、产品结构为Z轴,构建三维空间坐标系;

步骤72:技术项、功效项和产品结构三者共现值计算公式表示为:

其中,共现值coe(fk,tk,sk)表示为功效项fk、技术项tk、产品结构sk三者相交球的半径值;

步骤73:根据共现值对步骤4中得到的新技术项或功效项进行评价,共现值不为零则为新项,添加至技术词库,否则舍弃;

步骤74:统计每个相交球中相关专利的申请人占比和IPC类别占比,得到技术所属领域分布和技术所属企业分布。

说明书
技术领域

本发明涉及高速列车设计和数据挖掘技术领域,具体为一种高速列车三维产品结构技术功效图构建系统及方法。

自2004年,我国确定推进铁路技术装备现代化“引进先进技术、联合设计生产、打造中国品牌”的总体方针以来,我国高速列车历经了十余年的跨越式发展,取得了一系列技术创新成果。但当今世界科技日新月异,全球化步伐明显加快,国内高速列车制造企业在享受着各种机遇的同时,也迎来了更大的挑战。

以仿制国外产品的传统设计思路早已无法与中国快速全球化的思想契合。因此,高速列车制造企业急需提高自主创新能力,增强其竞争力,使企业得以占据市场的主导地位。其中,规划技术战略,确定技术研发重点是企业进行自主创新的首要任务。

然而,目前高速列车制造企业主要通过专家访谈和现场调研得到研发技术现状,以此作为技术战略规划的数据参考。这种获取方法存在获取不及时,人力耗费大和主观性大等问题,而且获取内容通常以报告、答卷等形式记录,内容不直观而且难以直接指导产品研发,这都影响了企业对研发技术现状识别的准确性,从而影响企业技术战略规划。

针对上述问题,本发明的目的在于提供一种能够自动地分析大量的专利数据,挖掘出高速列车创新研发技术,有效地支持我国高速列车自主研发技术的快速创新、迭代的高速列车三维产品结构技术功效图构建系统及方法。技术方案如下:

一种高速列车三维产品结构技术功效图构建系统,包括:

(1)技术词库储存高速列车研发技术相关的词语;

(2)数据获取模块将技术词库中的技术项、功效项和产品结构作为关键词,在专利网中实时抓取专利信息,包括专利题目、说明书摘要、权利要求书、说明书、申请人、申请日、IPC分类号;

(3)预处理模块根据python程序,将专利题目、说明书摘要、权利要求书、说明书的文本进行分词、词性标注和停用词过滤;

(4)相关词抽取模块采用产生式的表达形式,编写抽取规则,并基于抽取规则分别抽取技术、功效相关词;

(5)语义聚类模块根据语义相似度对词语归类,并用平均轮廓系数确定簇数;通过分析各簇中相关词在专利中的出现次数和位置,得到各簇中词语的优先排序,并提供排序较前的词语给工程师,由其总结出各簇的技术项或功效项;并将技术项和功效项与词库中现有的项进行对比,对新项进行标识;

(6)主题分析模块根据各簇中相关词在专利中的分布情况,分析出每个专利的技术主题权重和功效主题权重;根据产品结构中的产品名称及其相关词在专利中的分布情况,分析出每个专利的产品结构主题权重;

(7)技术生命周期计算模块计算出每项技术的技术生长率、技术成熟系数、技术衰老系数、新技术特征系数和失效度,并通过指数平滑减少噪声数据影响,再由周期判别规则分析出技术的生命周期;

(8)三维技术功效图构建模块以功效项为X轴、技术项为Y轴、产品结构为Z轴构建三维空间坐标系,再以功效主题权重、技术主题权重和产品结构主题权重计算出功效项、技术项、产品结构三者的共现值以此作为三维空间中相交球的半径值;共现值表示的是功效项、技术项和产品结构在现有专利中同时出现的频率累计值;

(9)技术内容查看模块提供用户可视化界面,供用户查看技术生命周期和产品结构技术功效图。

进一步的,所述语义聚类模块将技术项、功效项与词库中现有的项进行对比,发现新项,并对其进行标识,以供后续评价;所述三维技术功效图构建模块根据新项的共现值判断其是否为新技术项或功效项,共现值不为零则为新技术项或功效项,添加至技术词库,否则舍弃;在此基础上,三维技术功效图构建模块统计每个相交球中相关专利的申请人占比和IPC类别占比,得到技术所属领域分布和技术所属企业分布。

更进一步的,所述技术内容查看模块以曲线图的形式,显示技术生命周期的变化情况,以空间离散点图的形式,显示产品结构技术功效图;所述产品结构技术功效图中的每个相交球连接相关的技术所属领域分布和技术所属企业分布,并以饼状图的形式显示。

更进一步的,还包括技术词库管理模块,用于对技术词库中的词语进行增添、修改和删除。

一种高速列车三维产品结构技术功效图构建方法,包括以下步骤:

步骤1:基于与高速列车研发技术相关词语的技术词库,从专利网中获取专利信息;

步骤2:通过python程序对获取的专利题目、摘要、权利要求书、说明书的文本进行分词、词性标注、去停用词的预处理;

步骤3:基于预定义的规则从预处理后的文本中抽取技术相关词和功效相关词;

步骤4:基于语义相似度分别对两类相关词聚类,通过轮廓系数调整簇数,并分析出各聚类簇的技术项和功效项;

步骤5:基于相关词在专利中的分布情况,计算出每个专利中不同主题的权重;

步骤6:结合技术主题权重和技术生命周期判别指标,分析出每项技术的生命周期;

步骤7:根据主题权重计算出技术项、功效项和产品结构三者的共现值,并基于此绘制三维产品结构技术功效图。

进一步的,所述步骤4具体包括:

步骤41:根据技术相关词间的相似程度将词语归类进行语义相似度聚类,基于同义词词林中词语的相似情况进行语义相似度计算,语义相似度表示为:

其中,wri、wrj表示任意两个技术相关词,wri=wrj表示在词林中两个词等价,wri

图1为本发明高速列车三维产品结构技术功效图构建系统的结构示意图。

图2为本发明高速列车三维产品结构技术功效图构建方法的流程图。

图3为本发明实施例中技术生命周期曲线的示意图。

图4为本发明实施例中三维产品结构技术功效图的示意图。

下面结合附图和具体实施例对本发明做进一步详细说明。图1为本发明的技术方案还包括一种基于数据挖掘的高速列车三维产品结构技术功效图构建系统,其包括:

(1)数据获取模块,用于获取专利网中的专利信息。该模块将技术词库中的技术项、功效项、产品结构作为关键词,在专利网中抓取相关专利信息,包括专利题目、摘要、权利要求书、说明书、申请人、申请日、IPC分类号。此外,还能通过设置该模块的获取频率,实现实时获取数据;

(2)预处理模块,用于预处理获取的专利信息。该模块根据自编的python程序,将专利题目、摘要、权利要求书、说明书等文本进行分词、词性标注和停用词过滤;

(3)相关词抽取模块,用于抽取技术、功效相关词。该模块可采用产生式的表达形式,编写抽取规则,并基于抽取规则分别抽取技术、功效相关词;

(4)语义聚类模块,用于将抽取的相关词进行语义聚类,并在此基础上分析出技术项和功效项。该模块根据语义相似度对词语归类,并用平均轮廓系数确定簇数。通过分析各簇中相关词在专利中的出现次数和位置,得到各簇中词语的优先排序,并提供排序较前的词语给工程师,由其总结出各簇的关键词,即技术项或功效项。此外,该模块能将这些技术项、功效项与词库中现有的项进行对比,发现新项,并对其进行标识,以供后续评价。

(5)主题分析模块,用于分析每个专利中不同主题的比重,即主题权重。该模块根据各簇中相关词在专利中的分布情况,分析出每个专利的技术主题权重、功效主题权重。根据产品结构中的产品名称及其相关词在专利中的分布情况,分析出每个专利的产品结构主题权重;

(6)技术生命周期计算模块,用于分析每项技术的生命周期。该模块能计算出每项技术的技术生长率、技术成熟系数、技术衰老系数、新技术特征系数、失效度,并通过指数平滑减少噪声数据影响,再由周期判别规则分析出技术的生命周期;

(7)三维技术功效图构建模块,用于构建产品结构技术功效图。该模块能以功效项为X轴、技术项为Y轴、产品结构为Z轴构建三维空间坐标系,再以功效主题权重、技术主题权重、产品结构主题权重计算出功效项、技术项、产品结构三者的共现值,以此作为三维空间中相交球的半径值。此外,该模块根据新项的共现值判断其是否为新技术项或功效项,共现值不为零则为新技术项或功效项,添加至技术词库,否则舍弃。在此基础上,该模块将统计每个相交球中相关专利的申请人占比和IPC类别占比,得到技术所属领域分布和技术所属企业分布;

(8)技术内容查看模块,用于提供用户可视化界面,以进行对技术生命周期、产品结构技术功效图的查看。该模块以曲线图的形式,显示技术生命周期的变化情况。该模块以空间离散点图的形式,显示产品结构技术功效图。其中,产品结构技术功效图中的每个相交球连接了相关的技术所属领域分布和技术所属企业分布,以饼状图的形式显示。图4为产品结构技术功效图的示意图,每个相交球连接了两个饼状图;

(9)技术词库管理模块,用于管理技术词库。该模块能对技术词库中的词语进行增添、修改和删除;

(10)技术词库,用于储存高速列车研发技术相关的词语。

如图2所示,本发明基于数据挖掘的高速列车三维产品结构技术功效图构建方法步骤如下:

步骤1:基于技术词库从专利网中获取专利信息;

技术词库是与高速列车研发技术相关词语的集合,包括技术项、功效项、高速列车产品结构等。以词库中的词语作为检索关键词在专利网中检索出相关专利,再通过自编的python爬虫程序获取专利信息,包括专利题目、摘要、权利要求书、说明书、申请人、申请日、IPC分类号。

其中,技术词库中储存的技术项、功效项的相关词语是根据实际用语预定义的,这些内容能通过本发明技术方案后续步骤不断丰富。

步骤2:对获取的专利题目、摘要、权利要求书、说明书等文本进行预处理;

通过自编的python程序对专利题目、摘要、权利要求书、说明书进行分词、词性标注、去停用词。

步骤3:基于预定义规则从预处理后的文本中抽取技术相关词和功效相关词,主要分两步进行:

1)通过分析技术相关词和功效相关词的区别,以产生式作为表达形式,制定抽取规则,如if<词性为名词>,then<该词为技术相关词>;

2)根据预定义的规则从专利题目、摘要、权利要求书、说明书中抽取技术相关词和功效相关词。

其中,产品结构相关词与技术、功效相关词不同,产品结构相关词定义较为明确,如车体结构相关词有底架、侧墙等,该部分词直接来源于技术词库,不需要重新抽取。

步骤4:基于语义相似度分别对两类相关词聚类,通过轮廓系数调整簇数,并分析出各聚类簇的技术项、功效项。针对技术项的获取,其步骤主要分三步进行:

1)基于语义相似度聚类,是根据技术相关词间的相似程度将词语归类,语义相似度计算是基于同义词词林中词语的相似情况进行计算的,语义相似度表示为:

其中,wri、wrj表示任意两个技术相关词,wri=wrj表示在词林中两个词等价,wri

本文发布于:2024-09-20 17:26:28,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/69566.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议