基于结构文本聚类的专利地形图绘制方法及装置

著录项
  • CN202111025719.7
  • 20210902
  • CN113886574A
  • 20220104
  • 北京中知智慧科技有限公司
  • 朱欣昱;程序;刘琦;孔文娟;李艳;陈亚鑫;张素兰
  • G06F16/35
  • G06F16/35 G06F40/289

  • 北京市海淀区马甸南村一号9幢202号
  • 北京(11)
  • 北京三友知识产权代理有限公司
  • 侯天印;郝博
摘要
本发明公开了一种基于结构文本聚类的专利地形图绘制方法及装置,其中该方法包括:获取所有目标专利文本;按照不同类型字段及每一类型字段对应的预设权重,从每一所述目标专利文本中提取关键特征词;确定每一关键特征词在所在专利文本中的文档内权重;确定每一关键特征词在所有专利文本中的文档间权重;根据所述文档内权重和文档间权重,确定加入到聚类集合中的关键特征词;根据加入到聚类集合中的关键特征词,对目标专利文本进行聚类处理,得到聚类处理结果;根据所述聚类处理结果,绘制专利地形图。本发明可以实现基于结构文本聚类精确地绘制专利地形图,从而可以准确地反映专利技术的技术关联程度和技术密集点等信息。
权利要求

1.一种基于结构文本聚类的专利地形图绘制方法,其特征在于,包括:

获取所有目标专利文本;

按照不同类型字段及每一类型字段对应的预设权重,从每一所述目标专利文本中提取关键特征词;

确定每一关键特征词在所在专利文本中的文档内权重;确定每一关键特征词在所有专利文本中的文档间权重;

根据所述文档内权重和文档间权重,确定加入到聚类集合中的关键特征词;根据加入到聚类集合中的关键特征词,对目标专利文本进行聚类处理,得到聚类处理结果;

根据所述聚类处理结果,绘制专利地形图。

2.如权利要求1所述的基于结构文本聚类的专利地形图绘制方法,其特征在于,按照不同类型字段及每一类型字段对应的预设权重,从每一所述目标专利文本中提取关键特征词,包括:按照如下方法提取一个目标专利文本对应的关键特征词:

按照不同类型字段及每一类型字段对应的预设权重,从一个目标专利文本中提取得到候选特征词;

计算从一个目标专利文本中提取出的候选特征词之间的共现因子;

根据所述共现因子,确定候选特征词在目标专利文本全文中的权重;

根据候选特征词在目标专利文本全文中的权重,提取得到一个目标专利文本对应的关键特征词。

3.如权利要求1所述的基于结构文本聚类的专利地形图绘制方法,其特征在于,确定每一关键特征词在所在专利文本中的文档内权重,包括:

确定每一关键特征词在每一个段落内的权重;

根据每一关键特征词在每一个段落内的权重,确定每一关键特征词在所在专利文本中的文档内权重。

4.如权利要求3所述的基于结构文本聚类的专利地形图绘制方法,其特征在于,确定关键特征词在每一个段落内的权重,包括按照如下公式确定关键特征词在每一个段落内的权重:

wip=wipf×(1+wipd)×wp;

其中,wip为关键特征词在每一个段落内的权重,wp为一个段落的权重,wipf为关键特征词的词频权重,wipd为共现因子。

5.如权利要求1所述的基于结构文本聚类的专利地形图绘制方法,其特征在于,确定每一关键特征词在所有专利文本中的文档间权重,包括:

确定每一关键特征词在所有专利文本中的分布情况;

根据每一关键特征词在所有专利文本中的分布情况,确定每一关键特征词在所有专利文本中的文档间权重。

6.如权利要求5所述的基于结构文本聚类的专利地形图绘制方法,其特征在于,根据每一关键特征词在所有专利文本中的分布情况,确定每一关键特征词在所有专利文本中的文档间权重,包括:每一关键特征词在所有专利文本中的文档间权重随着关键特征词分布在专利文本中的数目的增加而减小。

7.如权利要求1所述的基于结构文本聚类的专利地形图绘制方法,其特征在于,根据所述聚类处理结果,绘制专利地形图,包括:

将聚类处理结果中每一关键特征词对应的特征向量映射到相应角度的预先建立的极坐标轴上,计算得到每一特征向量对应的极坐标;

将每一特征向量对应的极坐标转换为笛卡尔坐标,得到每一特征向量所围成多边形的质心;所述质心为每一特征向量映射到笛卡尔坐标系上的平面坐标;

计算每一特征向量所在簇的相似度;所述相似度为对应特征向量的Z坐标;

根据每一特征向量的平面坐标和Z坐标,得到专利地形图。

8.一种基于结构文本聚类的专利地形图绘制装置,其特征在于,包括:

获取单元,用于获取所有目标专利文本;

提取单元,用于按照不同类型字段及每一类型字段对应的预设权重,从每一所述目标专利文本中提取关键特征词;

权重确定单元,用于确定每一关键特征词在所在专利文本中的文档内权重;确定每一关键特征词在所有专利文本中的文档间权重;

处理单元,用于根据所述文档内权重和文档间权重,确定加入到聚类集合中的关键特征词;根据加入到聚类集合中的关键特征词,对目标专利文本进行聚类处理,得到聚类处理结果;

绘制单元,用于根据聚类处理结果,绘制专利地形图。

9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一所述方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至7任一所述方法的计算机程序。

说明书
技术领域

本发明涉及大数据技术领域,尤其涉及一种基于结构文本聚类的专利地形图绘制方法及装置。

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

专利地形图不同于广义的统计图表式的专利地图,它是将专利及技术集,以坐标点的方式,布置在一个具有三维坐标的,拥有等高线等元素的地形图中。使用这样的结果来直观地反映专利技术的技术关联程度,技术密集点等信息。现有专利地形图的绘制方法存在绘制精度低的问题,导致不能准确地反映专利技术的技术关联程度,技术密集点等信息。

本发明实施例提供一种基于结构文本聚类的专利地形图绘制方法,用以实现基于结构文本聚类精确地绘制专利地形图,该方法包括:

获取所有目标专利文本;

按照不同类型字段及每一类型字段对应的预设权重,从每一所述目标专利文本中提取关键特征词;

确定每一关键特征词在所在专利文本中的文档内权重;确定每一关键特征词在所有专利文本中的文档间权重;

根据所述文档内权重和文档间权重,确定加入到聚类集合中的关键特征词;根据加入到聚类集合中的关键特征词,对目标专利文本进行聚类处理,得到聚类处理结果;

根据所述聚类处理结果,绘制专利地形图。

本发明实施例还提供一种基于结构文本聚类的专利地形图绘制装置,用以实现基于结构文本聚类精确地绘制专利地形图,该装置包括:

获取单元,用于获取所有目标专利文本;

提取单元,用于按照不同类型字段及每一类型字段对应的预设权重,从每一所述目标专利文本中提取关键特征词;

权重确定单元,用于确定每一关键特征词在所在专利文本中的文档内权重;确定每一关键特征词在所有专利文本中的文档间权重;

处理单元,用于根据所述文档内权重和文档间权重,确定加入到聚类集合中的关键特征词;根据加入到聚类集合中的关键特征词,对目标专利文本进行聚类处理,得到聚类处理结果;

绘制单元,用于根据聚类处理结果,绘制专利地形图。

本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述结构文本聚类的专利地形图绘制方法。

本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述结构文本聚类的专利地形图绘制方法的计算机程序。

本发明实施例中,结构文本聚类的专利地形图绘制方案,通过:获取所有目标专利文本;按照不同类型字段及每一类型字段对应的预设权重,从每一所述目标专利文本中提取关键特征词;确定每一关键特征词在所在专利文本中的文档内权重;确定每一关键特征词在所有专利文本中的文档间权重;根据所述文档内权重和文档间权重,确定加入到聚类集合中的关键特征词;根据加入到聚类集合中的关键特征词,对目标专利文本进行聚类处理,得到聚类处理结果;根据所述聚类处理结果,绘制专利地形图,可以实现基于结构文本聚类精确地绘制专利地形图,从而可以准确地反映专利技术的技术关联程度和技术密集点等信息。

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1为本发明实施例中基于结构文本聚类的专利地形图绘制方法的流程示意图;

图2为本发明实施例中关键特征词提取流程示意图;

图3为本发明实施例中极坐标变换示意图;

图4为本发明实施例中关键词提取设置示意图;

图5为本发明实施例中专利向量示例图;

图6为本发明实施例中专利聚类结果示意图;

图7为本发明实施例中含专利绘点的专利地形图;

图8为本发明实施例中仅有中心绘点的地形图;

图9为本发明实施例中基于结构文本聚类的专利地形图绘制装置的结构示意图。

为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。

本发明实施例提出了一种基于结构文本聚类的专利地形图绘制方案,该方案的目的旨在对有结构的专利文本进行研究,在此基础上进行专利文本聚类,进而研究聚类地形图的绘制算法,使其能够准确地表达对应的物理含义,并对在地形图基础上的专利分析进行相关的研究。下面对该基于结构文本聚类的专利地形图绘制方案进行详细介绍。

图1为本发明实施例中基于结构文本聚类的专利地形图绘制方法的流程示意图,如图1所示,该方法包括如下步骤:

步骤101:获取所有目标专利文本;

步骤102:按照不同类型字段及每一类型字段对应的预设权重,从每一所述目标专利文本中提取关键特征词;

步骤103:确定每一关键特征词在所在专利文本中的文档内权重;确定每一关键特征词在所有专利文本中的文档间权重;

步骤104:根据所述文档内权重和文档间权重,确定加入到聚类集合中的关键特征词;根据加入到聚类集合中的关键特征词,对目标专利文本进行聚类处理,得到聚类处理结果;

步骤105:根据所述聚类处理结果,绘制专利地形图。

本发明实施例提供的结构文本聚类的专利地形图绘制方法可以实现基于结构文本聚类精确地绘制专利地形图,从而可以准确地反映专利技术的技术关联程度和技术密集点等信息。下面结合图2至图8进行详细介绍。

一、首先,介绍上述步骤101。

具体实施时,目标专利文本的含义是将要进行分析进而进行聚类的结构文本,所有的目标专利文本可以构成一个文档的集合,例如本发明实施例提供的结构文本聚类的专利地形图绘制方法采用256篇工业机器人领域的中国专利作为所有目标专利文本。

二、接着,介绍上述步骤102,即对有结构的专利文本的特征信息提取。

具体实施时,作为实验对象,本发明实施例对256篇工业机器人领域的中国专利进行提取关键词。专利文本不同于一般的新闻等信息文本,由于整个专利申请流程的相对规范,专利文本的书写形式,文章结构也相对固定。众所周知,专利包含了大量的固定的著录项信息,在这些著录项信息中,能够参与文本分析的文本型信息如下表1所示。

表1:专利文本型信息(字段类型)及其对应信息内涵

以上文本字段是基于中国专利数据初加工标引基础的。可以看到,不同的字段对应的信息内容是相对固定,并且是各不相同的。

在一个实施例中,如图2所示,按照不同类型字段及每一类型字段对应的预设权重,从每一所述目标专利文本中提取关键特征词,可以包括:按照如下方法提取一个目标专利文本对应的关键特征词:

按照不同类型字段及每一类型字段对应的预设权重,从一个目标专利文本中提取得到候选特征词;即图2中的收集候选主题词的步骤;

计算从一个目标专利文本中提取出的候选特征词之间的共现因子;即图2中的计算共现因子的步骤;

根据所述共现因子,确定候选特征词在目标专利文本全文中的权重;即图2中的计算权重的步骤;

根据候选特征词在目标专利文本全文中的权重,提取得到一个目标专利文本对应的关键特征词;即图2中的权重归一化取前20名的步骤,即权重归一化后取权重排名前20名的候选特征词作为关键特征词。

具体实施时,在图2中的收集候选主题词的步骤中,字段类型可以是如上表1中信息字段列所述内容。具体地,本发明实施例中专利提取关键特征词采用了4个字段标题、摘要、主权项、全文(4个字段类型),各项权值(预设权重)设置如图4所示。

具体实施时,在图2中的计算共现因子的步骤中,可以按照下面公式(4)计算从一个目标专利文本中提取出的候选特征词之间的共现因子。在利用公式计算候选特征词之间的共现因子时,wip为候选特征词在每一个段落内的权重,wp为一个段落的权重,wipf为候选特征词的词频权重,wipd为共现因子。

具体实施时,在图2中的计算权重的步骤中,可以按照下面公式(1)计算候选特征词在目标专利文本全文中的权重。公式(1)中wip的计算方式如公式(2)所示。

具体实施时,在最终取词的步骤中,可以按照图2中的权重归一化取前20名的步骤所示,对权重归一化处理后再取词,可以提高取词的精度和效率。

具体实施时,上述图2所示的提取特征词的实施方式可以提高提取特征的准确率,进而提高后续绘制专利地形图的精确度。提取关键词之后的专利向量示例可以如图5所示。

三、接着,介绍上述步骤103。

本发明实施例中步骤103的主要思路是,将特征词的权重分为两部分:文档内权重(wl)和文档间权重(wg)。文档内权重由文档内部的分布情况计算,文档间权重主要根据特征词在文档集合中出现的情况计算。最后的权重为二者的乘积:w=wl×wg

1)文档内权重的决定因素有:词频率(frequency)+共现距离(co-location)+段落位置(importance)+概念层次(Similarity)。

由于专利文本具有明确的段落结构,不同的段落具有不同的重要性,因此,本发明实施例对每一个段落进行主观评价权重,那么一个特征词在全文的权重就可以是由若干个段落内的权重的总和。

其中,wi为一个特征词(候选特征词或关键特征词)在全文的权重,wip为一个特征词(候选特征词或关键特征词)在每一个段落内的权重。

通过上述可知,在一个实施例中,确定每一关键特征词在所在专利文本中的文档内权重,可以包括:

确定每一关键特征词在每一个段落内的权重;

根据每一关键特征词在每一个段落内的权重,确定每一关键特征词在所在专利文本中的文档内权重。

本发明实施例主要研究在一个段落内的权重分配方案,假设一个段落的权重为wp,那么段落内的特征词权重可表示为:

wip=wipf×(1+wipd)×wp; (2)

其中:wip为关键特征词(或候选特征词)在每一个段落内的权重,wp为一个段落的权重,wipf为关键特征词(或候选特征词)的词频权重,wipd为共现因子。

通过上述可知,在一个实施例中,确定关键特征词在每一个段落内的权重,可以包括按照上述公式(2)确定关键特征词在每一个段落内的权重。

在一个段落内,词的频率代表一个词语的权重,即,频率越高,权重越大,即在一个实施例中,上述基于结构文本聚类的专利地形图绘制方法还可以包括按照如下公式计算词频权重:

其中,wipf为关键特征词的词频权重,fip为关键特征词在一个段落内中出现的频率,n为关键特征词的总数目,j为关键特征词的序号。

同时,本发明实施例对段落内,对词语的共现程度进行评估。假设两个特征词的共现距离分别是d1,d2,d3……dm。

那么两个词语的共现因子可以定义为:

其中,wipd为共现因子,dj为共现距离,m为特征词的总数目,j为特征词的序号。

通过上述可知,在一个实施例中,上述基于结构文本聚类的专利地形图绘制方法还可以包括按照公式(4)计算共现因子。

2)文档间权重的决定因素有:文档率(concurrence)。

在一个实施例中,确定每一关键特征词在所有专利文本中的文档间权重,可以包括:

确定每一关键特征词在所有专利文本中的分布情况;

根据每一关键特征词在所有专利文本中的分布情况,确定每一关键特征词在所有专利文本中的文档间权重。

具体实施时,文档间权重意味着:如果某个特征词的分布在文档集合中是均匀的,说明该特征词在很多文本中出现,故认为其代表某一文本的能力较弱,该特征词的文档间权重应为0;如果该特征词只在一个文本中出现,这时可以认为该特征词代表这一文本的能力强,其文档间权重则最大。即在一个实施例中,根据每一关键特征词在所有专利文本中的分布情况,确定每一关键特征词在所有专利文本中的文档间权重,可以包括:每一关键特征词在所有专利文本中的文档间权重随着关键特征词分布在专利文本中的数目的增加而减小。

具体实施时,可以采用均方差来评估一个特征词在各个文档中的分布情况:

假设特征词T在文档集合中的权重分别是wk(k=1,2,…|D|)。现在主要评估这些权重在各个文档中均衡分布情况。利用均方差的特性,计算权重的分布情况:

也就是说wg越大,那么该特征词在各篇文档中的权重差异性很大,如果在各篇分布均匀,那么wg=0,则该特征词将从聚类中排出(即在步骤104中,该特征词不会被加入到聚类集合中进行聚类分析)。考虑到特征词的空间稀疏问题,可简化为:

其中,wg为文档间权重,D为文档内权重(即特征词在第k个文档内的权重),k为文档的标识(序号),为权重平均值,i为文档内权重的标识(序号)。

四、接着,为了便于理解,一同介绍上述步骤104和步骤105。

在上述步骤104中,可以采用的K-means的文本聚类算法,专利聚类结果可以如图6所示。

在一个实施例中,在上述步骤105中,根据所述聚类处理结果,绘制专利地形图,可以包括:

将聚类处理结果中每一关键特征词对应的特征向量映射到相应角度的预先建立的极坐标轴上,计算得到每一特征向量对应的极坐标;

将每一特征向量对应的极坐标转换为笛卡尔坐标,得到每一特征向量所围成多边形的质心;所述质心为每一特征向量映射到笛卡尔坐标系上的平面坐标;

计算每一特征向量所在簇的相似度;所述相似度为对应特征向量的Z坐标;

根据每一特征向量的平面坐标和Z坐标,得到专利地形图。

具体实施时,专利地形图绘制算法可以包括:

将一个N维数据空间映射到一个平面上显示,采用极坐标变换,如图3所示。

将N个维数据按照圆周(2π)等角度分布,并将每一个维按照该维的实际值域进行设置。

任意一个向量Vk={vi}(i=0,1,2,…,N-1),将每一维的值映射到相应角度的坐标轴上,并计算该点的极坐标:

将其转换为笛卡尔坐标为:

(vi cosθi,vi sinθi);

这样向量Vk所围成的多边形的质心为:

这个质心坐标就是向量Vk映射到笛卡尔坐标系上的平面坐标,再将该向量所在簇的相似度作为该点的Z坐标,至此,向量在专利地图上的落点设计完成,专利地形图绘制结果可以如图7和图8所示。

具体实施时,绘制专利地图的详细实施方案可以包括:

1)为了避免不同维度的数据的经过质心,比如0°和180°,90°和270°,在分布特征向量时,选择90°作为整个向量坐标空间。

2)计算簇(聚类结果中的一个簇)坐标:

a)以原点为中心,根据极坐标变换方式计算簇坐标。

b)计算各个簇坐标离原点的距离。

c)将所有簇坐标按照等比例(所有簇中最远距离的倒数)收缩,现在在单位圆内。

3)计算专利坐标:

a)计算各个簇的覆盖半径:相邻最近的簇之间的距离的1/2。

b)以专利所在簇坐标为中心,根据极坐标变换方式计算专利坐标。

根据各个专利与簇的相似度将所有专利坐标收缩在所在簇的覆盖半径内,即:

五、为了便于全面理解,下面再介绍专利聚类及地图绘制算法程序主要接口设计。

a)提取主题词

功能:对文本内容进行分析,并提取专利的主题词以及评估每个主题词对全文主题的贡献权重。

入口:输入专利文献的标题、摘要、主权项、正文等内容及其各自章节的权重。

出口:该专利的关键词及其各自的权重和概念分组。

b)聚类功能

功能:对一批专利文献按照主题相似性进行自动分组。

入口:输入各个专利文献的ID、主题词及主题词的权重和概念组、参考词表、聚类个数、是否计算坐标、循环的最大次数、聚类终止条件、工作线程个数。

出口:各个聚簇的主题词向量,各个聚簇所含的专利文献,以及各个专利文献与所在聚簇的中心之间的距离。

c)比较相似性

功能:对两个词向量比较相似度。

入口:要比较的两个向量。

出口:向量之间的相似度。

通过上述可知,本发明实施例提供的基于结构文本聚类的专利地形图绘制方法很好地实现了如下几个目的:

1)专利主题词的分字段提取,以及专利的向量化表示。这是专利的文本聚类的基础。由于使用了分段式的提取方法,以及专业词库。专利向量中的非技术性词汇数量被大大地减少了。

2)专利的文本聚类。基于专利的特殊向量化手段,专利文本聚类的结果,更接近于专利技术分类的结果。

3)专利地形图的绘制。专利地形图绘制很好的实现类别中心点之间,类别中心点与专利点之间,专利点之间的距离计算。在中心点总体均布的基础上,实现了上述3类距离关系中的前两类尽可能体现文本相似度的目的。同时,专利点的疏密程度也确实体现技术研究的分布情况。

本发明实施例中还提供了一种基于结构文本聚类的专利地形图绘制装置,如下面的实施例所述。由于该装置解决问题的原理与基于结构文本聚类的专利地形图绘制方法相似,因此该装置的实施可以参见基于结构文本聚类的专利地形图绘制方法的实施,重复之处不再赘述。

图9为本发明实施例中基于结构文本聚类的专利地形图绘制装置的结构示意图,如图9所示,该装置包括:

获取单元01,用于获取所有目标专利文本;

提取单元02,用于按照不同类型字段及每一类型字段对应的预设权重,从每一所述目标专利文本中提取关键特征词;

权重确定单元03,用于确定每一关键特征词在所在专利文本中的文档内权重;确定每一关键特征词在所有专利文本中的文档间权重;

处理单元04,用于根据所述文档内权重和文档间权重,确定加入到聚类集合中的关键特征词;根据加入到聚类集合中的关键特征词,对目标专利文本进行聚类处理,得到聚类处理结果;

绘制单元05,用于根据聚类处理结果,绘制专利地形图。

在一个实施例中,所述提取单元具体可以用于:按照如下方法提取一个目标专利文本对应的关键特征词:

按照不同类型字段及每一类型字段对应的预设权重,从一个目标专利文本中提取得到候选特征词;

计算从一个目标专利文本中提取出的候选特征词之间的共现因子;

根据所述共现因子,确定候选特征词在目标专利文本全文中的权重;

根据候选特征词在目标专利文本全文中的权重,提取得到一个目标专利文本对应的关键特征词。

在一个实施例中,所述权重确定单元具体可以用于:

确定每一关键特征词在每一个段落内的权重;

根据每一关键特征词在每一个段落内的权重,确定每一关键特征词在所在专利文本中的文档内权重。

在一个实施例中,所述权重确定单元具体可以用于按照如下公式确定关键特征词在每一个段落内的权重:

wip=wipf×(1+wipd)×wp;

其中,wip为关键特征词在每一个段落内的权重,wp为一个段落的权重,wipf为关键特征词的词频权重,wipd为共现因子。

在一个实施例中,所述权重确定单元具体可以用于:

确定每一关键特征词在所有专利文本中的分布情况;

根据每一关键特征词在所有专利文本中的分布情况,确定每一关键特征词在所有专利文本中的文档间权重。

在一个实施例中,所述权重确定单元具体可以用于每一关键特征词在所有专利文本中的文档间权重随着关键特征词分布在专利文本中的数目的增加而减小。

在一个实施例中,所述绘制单元具体可以用于:

将聚类处理结果中每一关键特征词对应的特征向量映射到相应角度的预先建立的极坐标轴上,计算得到每一特征向量对应的极坐标;

将每一特征向量对应的极坐标转换为笛卡尔坐标,得到每一特征向量所围成多边形的质心;所述质心为每一特征向量映射到笛卡尔坐标系上的平面坐标;

计算每一特征向量所在簇的相似度;所述相似度为对应特征向量的Z坐标;

根据每一特征向量的平面坐标和Z坐标,得到专利地形图。

本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述结构文本聚类的专利地形图绘制方法。

本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述结构文本聚类的专利地形图绘制方法的计算机程序。

本发明实施例中,结构文本聚类的专利地形图绘制方案,通过:获取所有目标专利文本;按照不同类型字段及每一类型字段对应的预设权重,从每一所述目标专利文本中提取关键特征词;确定每一关键特征词在所在专利文本中的文档内权重;确定每一关键特征词在所有专利文本中的文档间权重;根据所述文档内权重和文档间权重,确定加入到聚类集合中的关键特征词;根据加入到聚类集合中的关键特征词,对目标专利文本进行聚类处理,得到聚类处理结果;根据所述聚类处理结果,绘制专利地形图,可以实现基于结构文本聚类精确地绘制专利地形图,从而可以准确地反映专利技术的技术关联程度和技术密集点等信息。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

本文发布于:2024-09-23 01:34:02,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/68817.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议