一种基于TRIZ的中文专利语料库半自动构建方法

著录项

申请号 CN202011487942.9
申请日 20201216
公开（公告）号 CN112487192A
公开日 20210312
申请（专利权）人华南农业大学
发明人韦婷婷;张建桃;江涛
主分类号 G06F16/35
分类号
G06F16/35 G06F40/194 G06F40/211 G06F40/289 G06F40/30 G06K9/62
地址广东省广州市天河区五山路483号华南农业大学数学与信息学院
国省代码广东(44)
代理机构广州赤信知识产权代理事务所（普通合伙）
代理人龚素琴

摘要

本发明提出一种基于TRIZ的中文专利语料库半自动构建方法，是对40个TRIZ发明原理进行重组，使重新分组的发明原理类别之间存在较大的歧义，类内的歧义就相对较小，进一步提升语料库的质量。专利文本包含很多低频的领域术语，利用一般的中文分词将破坏完整的术语，本法能采集到较为完整的术语关键词，为专利语义分析提供良好的基础。关键词所能提供的语义信息有限，本法还对句子进行依存句法解析，获取更充分的语义信息让机器识别更准确，还有助于非领域专业人员对句子的理解进而更好地完成少量的标注工作。本法基于表示学习方法抽取专利文本的句子、依存特征，捕获更深层次、更为抽象的专利语义表示，将能抽取到最具判别性的特征从而有助于文本的聚类。

权利要求



1.一种基于TRIZ的中文专利语料库半自动构建方法，其特征在于，包括以下步骤：

步骤一：构建初始的专利语料集T0；

步骤二：对初始的专利语料集T0进行预处理得到专利语料集T1；

步骤三：抽取专利语料集T1中的术语关键词，构建一个专利术语关键词集合K1；其具体过程为：

31)针对每篇专利文本，利用自然语言处理工具包结合自定义词典进行中文分词、去停用词，进而汇总所有专利的术语列表，并统计每个术语在所有专利文本中出现的次数，构建一个初始术语列表集合S1；

32)针对每篇专利文本，采用最近邻搜索方法进行文中的指代消解，解决代词的指示问题，处理后的专利文本集以T2表示；

33)针对T2中的每篇专利文本，根据词组结构普遍规律理论，将相邻重现的术语组合词汇作为新术语的候选，汇总所有专利文本，构建一个新术语候选集合S2；

34)针对T2中的所有专利文本，根据S1和S2，挑选出常见的普通词，作为S3；

35)针对T2中的所有专利文本，利用最长公共子串算法进行文本解析，最终从(S1+S2-S3)中确定最后的术语关键词集合K1；

步骤四：以T2为训练样本，利用word2vec学习专利文本中包含的每个普通词、关键词K1中每个术语的初始表示向量，每个普通词/术语都被表示成低维稠密的向量；

步骤五：针对T1语料集中的每篇专利，识别关键词k所在的句子，并通过依存句法解析获取句子的依存路径，以观察术语之间的语义关联关系；经过分析的专利语料集以T3表示；

步骤六：针对T3中的每篇专利文本，分别构建依存句子的初始句子向量、初始依存向量：

步骤七：利用卷积神经网络分别对专利中的句子向量和依存向量进行编码，抽取出其中最为重要的特征表示，最后将两者拼接，作为T3中的每篇专利文本的向量表示；

步骤八：依据T3，以及重组TRIZ发明原理，人工为每个原理标注少量的专利样本，挑选为样本的原则是一般普通人员(非领域专业人员)3人的标注达到一致，无任何歧义，从而保证获取高质量的样本；

步骤九：将每个原理下的专利样本，其向量表示进行拼接，再利用卷积神经网络抽取该类TRIZ原理的抽象特征表示；

步骤十：将T3中，未被标注为样本的专利集作为测试集T4，再进行一轮的训练，以获取每篇专利文本的重要特征表示，训练的假设如下：一篇专利与其应归属的正确TRIZ原理的相似度，大于与其它非对应TRIZ原理的相似度；相似度的计算是两篇专利向量的点积，最终分别学习到T4中每篇专利文本的语义表示、TRIZ原理的初始语义表示；

步骤十一：将T4中的所有专利文本以及21个TRIZ原理的样本表示进行合并为T5，利用K-means聚类方法进行聚类，K为TRIZ原理个数21；

步骤十二：人工观察21个样本所在的聚类簇，当它们并无重叠，各分布于21个簇，则无需再做调整；当有重叠，则再人工干预进行调整，最终构建成一个语料集T6。



2.根据权利要求1所述的基于TRIZ的中文专利语料库半自动构建方法，其特征在于，所述步骤二的预处理具体过程为：

21)仅选取专利中的标题、摘要以及主权项作为主要的判别信息，清除错误、冗余信息；

22)将每个专利存储为一个独立的、并以申请号命名的txt文本文件；

根据前两步的处理，获取一个经过预处理的专利语料集T1。

3.根据权利要求2所述的基于TRIZ的中文专利语料库半自动构建方法，其特征在于，步骤六中句子向量由关键词向量、关键词左右各2个词的词向量拼接组成；依存向量由该依存路径上的词性标签按照依存方向顺序拼接组成。

4.根据权利要求2所述的基于TRIZ的中文专利语料库半自动构建方法，其特征在于，步骤八所述的重组TRIZ发明原理为：

编号1的发明原理对应：分割、抽取/分离、局部质量；

编号2的发明原理对应：非对称；

编号3的发明原理对应：合并、多功能性、复合材料；

编号4的发明原理对应：嵌套、多孔材料；

编号5的发明原理对应：配重、气体与液压结构；

编号6的发明原理对应：预先反作用、预先作用、预先应急措施；

编号7的发明原理对应：等势原则、逆向思维；

编号8的发明原理对应：曲面化；

编号9的发明原理对应：动态化；

编号10的发明原理对应：不足或超额行动、紧急行动；

编号11的发明原理对应：一维变多维；

编号12的发明原理对应：机械振动、周期性动作、连续有效作用；

编号13的发明原理对应：变害为利、自服务；

编号14的发明原理对应：反馈；

编号15的发明原理对应：中介物；

编号16的发明原理对应：复制、机械系统的替代、改变颜；

编号17的发明原理对应：一次性用品、抛弃与再生；

编号18的发明原理对应：柔性外壳和薄膜；

编号19的发明原理对应：同质性；

编号20的发明原理对应：物理/化学状态的变化、相变、热膨胀；

编号21的发明原理对应：加速氧化、惰性环境。

说明书

技术领域

本发明涉及专利文本分类技术领域，更具体地，涉及一种基于TRIZ的中文专利语料库半自动构建方法。

近年来我国的专利数量呈现井喷式增长，且中国专利含金量与发达国家相比仍有较大差距，存在“专利数量与质量不协调”问题。因此，人们迫切需要一种有效的手段对海量的专利数据进行有效地组织和管理，进而识别真正有创新性发明原理的关键技术，为企业转型升级及国家产业政策的制定等提供重要的依据。

然而，传统基于国际专利分类法IPC进行的专利自动分类并不能满足人们获取发明原理这种细粒度层面知识的需求，大数据环境下需要从新的视角重组专利中蕴含的丰富知识。TRIZ(英文全称为Theory of Inventive Problem Solving，中文翻译为发明问题解决理论)理论已成为很多产业(如制造业等)发明创新的重要利器，它包含40条创新原理，并且专利中的大多原理都可以归类至TRIZ发明理论体系中。因此，基于TRIZ发明原理的专利分类已逐渐引起学术界和工业界的重视，它可以帮助用户寻利用相似发明原理或者解决相似技术问题的专利，从而降低创新上的时间成本，缩短研发周期，具有一定的现实意义。

一般而言，语料库的构建通常分为：人工构建、半自动构建、全自动构建。目前基于TRIZ的专利文本相关研究其语料库几乎是研究人员为其具体的应用而自行人工标注，尚未出现一套统一的标注方法。其次，自动构建方法面临的难点是：专利文本包含的领域专业术语较多，语句较长且语义复杂，对文本自动分析带来很大的挑战，难以自动构建高质量的语料库。

目前对专利语料库的相关研究较少，比较相似的方案有如下：

学术论文(作者：石翠，题目：专利文献语料库检索问题分析与解决方案，辽宁行政学院学报)该文献从专利文献的分词、词性标注和依存句法解析三方面给出了一定的解决方案，但是其专利的表示由特征工程构成，并未考虑自动学习有效特征，还具有一定的局限性。

传统基于TRIZ的专利文本相关研究其语料库全部依靠人工构建，不仅耗费大量的人力物力，而且由于标注人员对专利所包含知识的理解差异，其可靠性也难以得到保证。此外，原始的TRIZ发明原理有40个，数量较多，而且各个原理相对比较抽象，存在部分原理有重叠的文本描述信息现象，对标注人员造成一定的困扰。

为了克服现有技术的不足，本发明提出一种中文专利语料库半自动构建方法，该方法是在对TRIZ发明原理进行观察和分析的基础上，对原始的40个TRIZ发明原理进行重组，而后基于这个分类体系利用语义分析手段进行中文专利文本语料库的半自动构建，可以节省大量的人力物力。

为了实现上述目的，本发明的技术方案为：

一种基于TRIZ的中文专利语料库半自动构建方法，包括以下步骤：

步骤一：构建初始的专利语料集T0；

步骤二：对初始的专利语料集T0进行预处理得到专利语料集T1；

步骤三：抽取专利语料集T1中的术语关键词，构建一个专利术语关键词集合K1；其具体过程为：

32)针对每篇专利文本，采用最近邻搜索方法进行文中的指代消解，解决代词的指示问题，处理后的专利文本集以T2表示；

34)针对T2中的所有专利文本，根据S1和S2，挑选出常见的普通词，作为S3；

35)针对T2中的所有专利文本，利用最长公共子串算法进行文本解析，最终从(S1+S2-S3)中确定最后的术语关键词集合K1；

步骤五：针对T1语料集中的每篇专利，识别关键词k(k包含在K1中)所在的句子，并通过依存句法解析获取句子的依存路径，以观察术语之间的语义关联关系；这是由于专利文本中的句子通常比较长，句子结构也比较复杂，获取依存路径将有助于机器的解析，更是方便一般人员对句子的理解和标注。经过分析的专利语料集以T3表示；

步骤六：针对T3中的每篇专利文本，分别构建依存句子的初始句子向量、初始依存向量：

步骤九：将每个原理下的专利样本，其向量表示进行拼接，再利用卷积神经网络抽取该类TRIZ原理的抽象特征表示；

步骤十一：将T4中的所有专利文本以及21个TRIZ原理的样本表示进行合并为T5，利用K-means聚类方法进行聚类，K为TRIZ原理个数21；

针对现有技术的缺点，本发明将原始的40个发明原理重组为21个，通过将拥有相似文本描述的几种发明原理进行合并，重新归为一组，这样可以使得重新分组的发明原理类别之间存在较大的歧义，而类内的歧义就相对较小。基于重组的原理体系，利用语义分析手段对专利文本进行分析，半自动化构建相应的语料库，为基于TRIZ的专利分析提供较为可靠的数据基础。

优选的，所述步骤二的预处理具体过程为：

23)仅选取专利中的标题、摘要以及主权项作为主要的判别信息，清除错误、冗余信息；

24)将每个专利存储为一个独立的、并以申请号命名的txt文本文件；

根据前两步的处理，获取一个经过预处理的专利语料集T1。

优选的，步骤六中句子向量由关键词向量、关键词左右各2个词的词向量拼接组成；依存向量由该依存路径上的词性标签按照依存方向顺序拼接组成。

优选的，步骤八所述的重组TRIZ发明原理为：

编号1的发明原理对应：分割、抽取/分离、局部质量；

编号2的发明原理对应：非对称；

编号3的发明原理对应：合并、多功能性、复合材料；

编号4的发明原理对应：嵌套、多孔材料；

编号5的发明原理对应：配重、气体与液压结构；

编号6的发明原理对应：预先反作用、预先作用、预先应急措施；

编号7的发明原理对应：等势原则、逆向思维；

编号8的发明原理对应：曲面化；

编号9的发明原理对应：动态化；

编号10的发明原理对应：不足或超额行动、紧急行动；

编号11的发明原理对应：一维变多维；

编号12的发明原理对应：机械振动、周期性动作、连续有效作用；

编号13的发明原理对应：变害为利、自服务；

编号14的发明原理对应：反馈；

编号15的发明原理对应：中介物；

编号16的发明原理对应：复制、机械系统的替代、改变颜；

编号17的发明原理对应：一次性用品、抛弃与再生；

编号18的发明原理对应：柔性外壳和薄膜；

编号19的发明原理对应：同质性；

编号20的发明原理对应：物理/化学状态的变化、相变、热膨胀；

编号21的发明原理对应：加速氧化、惰性环境

与现有技术相比，本发明的有益效果是：本发明是基于TRIZ发明原理进行语料库的半自动构建方法，相比于现有的方法，其优势在于能够更好地提取专利文本的特征表示，这对于无论是人工的少量标注，还是机器的自动标注，都具有一定的可靠性保证，而且也节省了人力物力。具体为：

(1)本发明对原始的40个TRIZ发明原理进行重组，使得重新分组的发明原理类别之间存在较大的歧义，而类内的歧义就相对较小，进一步提升语料库的质量。

(2)专利文本包含很多低频的领域术语，且利用一般的中文分词将破坏完整的术语，本发明采用的方法能够采集到较为完整的术语关键词，为专利语义分析提供良好的基础。

(3)关键词所能提供的语义信息有限，本发明还对句子进行依存句法解析，除了获取更充分的语义信息让机器识别更准确，还有助于非领域专业人员对句子的理解进而更好地完成少量的标注工作。

本发明基于表示学习方法抽取专利文本的句子、依存特征，捕获更深层次、更为抽象的专利语义表示，将能抽取到最具判别性的特征从而有助于文本的聚类。

图1为本发明的语料库半自动构建流程图。

图2为本发明关键词提取结果示意图。

下面结合附图和具体实施方式对本发明作进一步描述。

1、TRIZ发明原理的重组

TRIZ理论可以翻译为“发明问题的解决理论”，是以G.S.Altshuller为首的一批学者，经过整理、总结，从250万个专利文件中建立的一套系统的、实用的发明问题解决理论。TRIZ认为创新是解决矛盾的方法，并从专利当中得出了移动物的重量等39个引起矛盾冲突的参数以及矛盾矩阵，并总结出分割、抽取/分离、局部质量等40个发明原理，这些发明的原理可以用来到解决问题或者创新的可能性方案，展现了发明背后的特定规律或者特定模式。从一定程度上来讲，创新就是发明创造，创新通常是为了解决问题，一般都会利用现有的知识和工具对已有的事物进行改良或者直接是创造新的事物，而TRIZ可以为人们发现和解决这类问题提供了系统的、详细的理论和方法。其中TRIZ的40个发明原理如表1所示。

表1 TRIZ40个发明原理

原始的TRIZ发明原理有40个，数量较多，而且各个原理相对比较抽象，存在部分原理有重叠的文本描述信息现象，对标注人员造成一定的困扰。针对这些缺点，本发明将原始的40个发明原理重组为21个，通过将拥有相似文本描述的几种发明原理进行合并，重新归为一组，这样可以使得重新分组的发明原理类别之间存在较大的歧义，而类内的歧义就相对较小。比如发明原理9预先反作用和预先作用(原理10)、预先应急措施(原理11)都涉及到“预先进行某种操作”这个行为，或者是发明原理物理/化学状态的变化(原理35)、相变(原理36)以及热膨胀(原理37)都涉及到物体的化学性质或者物理性质，那么归为一组之后，一方面可以使得组间歧义较小，更容易体现聚类的效果，另一方面还可避免出现一些原理难以收集到样本的情况。因此，本发明对这40个原理进行重组，将在一定程度上帮助数据标注人员更好地归类样本。重组的原理如表2所示。

表2重组发明原理的编号表

2、专利文本的处理

(1)从佰腾网中爬取中文专利数据，构建初始的专利语料集。

(2)针对专利文本进行预处理：

a)仅选取专利中的标题、摘要以及主权项作为主要的判别信息，清除错误、冗余信息；

b)将每个专利存储为一个独立的、并以申请号命名的txt文本文件；

c)根据前两步的处理，获取一个经过预处理的专利语料集T1；

(3)抽取T1中的术语关键词，构建一个专利术语关键词集合K1：

a)针对每篇专利文本，利用自然语言处理工具包结合自定义词典进行中文分词、去停用词，进而汇总所有专利的术语列表，并统计每个术语在所有专利文本中出现的次数，构建一个初始术语列表集合S1；

b)针对每篇专利文本，采用最近邻搜索方法进行文中的指代消解，解决代词的指示问题，处理后的专利文本集以T2表示；

c)针对T2中的每篇专利文本，根据词组结构普遍规律理论，将相邻重现的术语组合词汇作为新术语的候选，汇总所有专利文本，构建一个新术语候选集合S2；

d)针对T2中的所有专利文本，根据S1和S2，挑选出常见的普通词，作为S3；

e)针对T2中的所有专利文本，利用最长公共子串算法进行文本解析，最终从(S1+S2-S3)中确定最后的术语关键词集合K1。

(4)以T2为训练样本，利用word2vec学习专利文本中包含的每个普通词、关键词K1中每个术语的初始表示向量，每个普通词/术语都被表示成低维稠密的向量。

(5)针对T1语料集中的每篇专利，识别关键词k(k包含在K1中)所在的句子，并通过依存句法解析获取句子的依存路径，以观察术语之间的语义关联关系。这是由于专利文本中的句子通常比较长，句子结构也比较复杂，获取依存路径将有助于机器的解析，更是方便一般人员对句子的理解和标注。经过分析的专利语料集以T3表示。

(6)针对T3中的每篇专利文本，分别构建依存句子的初始句子向量、初始依存向量：

a)句子向量由关键词向量、关键词左右各2个词的词向量拼接组成；

b)依存向量由该依存路径上的词性标签按照依存方向顺序拼接组成。

(7)利用卷积神经网络分别对专利中的句子向量和依存向量进行编码，抽取出其中最为重要的特征表示，最后将两者拼接，作为T3中的每篇专利文本的向量表示。

(8)依据T3，以及本发明提出的重组TRIZ发明原理，人工为每个原理标注少量的专利样本，挑选为样本的原则是一般普通人员(非领域专业人员)3人的标注达到一致，无任何歧义，从而保证获取高质量的样本。

(9)将每个原理下的专利样本，其向量表示进行拼接，再利用卷积神经网络抽取该类TRIZ原理的抽象特征表示。

(10)将T3中，未被标注为样本的专利集作为测试集T4，再进行一轮的训练，以获取每篇专利文本的重要特征表示。训练的假设如下：一篇专利与其应归属的正确TRIZ原理的相似度，大于与其它非对应TRIZ原理的相似度。相似度的计算是两篇专利向量的点积。最终分别学习到T4中每篇专利文本的语义表示、TRIZ原理的初始语义表示。

(11)将T4中的所有专利文本以及21个TRIZ原理的样本表示进行合并为T5，利用K-means聚类方法进行聚类(K为TRIZ原理个数21)。

(12)人工观察21个样本所在的聚类簇，如它们并无重叠，各分布于21个簇，则无需再做调整。如果有重叠，则再人工干预进行调整，最终构建成一个语料集T6。

将T6按照不同的随机数种子将语料分割为测试集、验证集、训练集三部分，利用卷积神经网络方法进行分类，从而验证语料库的质量。

以“刀剪”领域的专利文本为例，有效专利文本共1663篇，其中人工标注了356篇，剩余的由机器和人工合作打标签。

(1)关键词抽取

以某专利为例，进行关键词的提取之后，从该文本中的“碳纤维”、“航空航天”、“复合材料”、“圆柱状”、“耐磨性”等关键词中，发现可以抽取到复合型的关键词，如图2所示。

(2)聚类结果

聚类结果为人工标注的样本质心所在的聚类簇包含的专利文本个数，平均相似度为聚类簇中的每个专利文本与样本质心的相似度之和除以该簇的专利个数。相似度越高，代表该簇的聚类质量越高。从结果来看，通过本文方法可以在一定程度上减少很多人力物力。

表3经过人工调整后，人工标注的样本其所在聚类结果

抽取关键词的方法，可以直接使用传统的TextRank方法进行抽取，但是结果应该是长尾词被分割，无法获取到语义完整的术语。

利用深度学习抽取特征的技术，可以替代为传统的特征工程方法，比如词袋模型等，但是应该是无法获取到完整的语义特征。

以上所述的本发明的实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神原则之内所作出的修改、等同替换和改进等，均应包含在本发明的权利要求保护范围之内。