基于决策树算法的专利发明人姓名消歧研究

基于决策树算法的专利发明人姓名消歧研究
孙笑明1,余武憬1,任若冰1,熊旺2,王雅兰1
(1.西安建筑科技大学管理学院,陕西西安710055;2.西安交通大学管理学院,陕西西安710049)
摘要:为了实现高质量的数据清洗,提升专利数据构建网络的准确性,发明人的姓名消歧已经成为目前国内外众多研究者重视的关键性问题。本文根据中文姓名的特殊性,选取专利数据中分层抽样采集到的400个姓名对,使用半监督学习算法,以特征向量(如分类号相似度)为信息提取源,构造基于决策树C4.5算法的分类模型,识别姓名歧义问题,并对分类模型的准确率与可靠性进行了评估。以国内通讯行业专利数据为实例的研究表明:采用该分类模型进行清洗能够有效提升数据清洗的效率和精确度。
关键词:发明人;姓名消歧;半监督学习;决策树C4.5
中图分类号:G354.2文献标识码:A DOI:10.3969/j.issn.1003-8256.2023.04.011
0引言
近年来,数字经济作为中国经济发展最活跃的因素之一,为推动数字产业化快速发展和产业数字化转型必须精准做好分析网络数字资源的工作[1]。而专利既是网络数字资源的重要组成部分,也代表着技术创新的发展趋势,是各领域企业需要不断挖掘的数据信息。一方面,专利数据是保障,谁能掌握这类数据并进行准确分析,谁就能够明确科技情报的先机。另一方面,专利文献中包含了技术、经济、法律以及科学研究等多种类型的综合性信息[2]。通过对其进行深入研究能够大致了解企业发展的动向与发展所存在的问题,掌握企业的合作关系、企业的供应链关系以及企业的创新绩效,因此专利信息对于企业的研究来说十分重要。
随着以5G、物联网等通信网络基础设施和数据中心、智能计算中心为代表的计算基础设施的建成,云计算、人工智能、区块链等新一代信息技术的运用逐渐成熟,为专利等数字化信息的多个数据服务平台提供了技术支持[3]。目前,国内外已经建立了多个专利数据服务平台,如Patsnap、Patent Star Search System、Dervent
Innovation、PATLAB、Google Patent Search等。除了这些专门服务于专利数据的平台外,复合型图书馆为能够积极促进数字化转型在以后的发展中也不可避免地需要加入专利的分析[4]。据统计,在2021年初商用专利检索数据库中全球专利数据总量已超过1.5亿条[5],从中能够发现科技大数据不仅更新速度非常快,同时数据体量庞大,而作为这类数据代表的专利数据更是具备分析价值高、关联信息类型多的特征[6]。在这之中,企业专利是技术创新和研发投入形成的重要成果呈现,而专利发明人
作为重要的研发人员,决定着企业的最新技术动态和战略方向,能够对企业的创新绩效产生重要的影响[7]。合理使用专利数据中的发明人信息可以为企业进行人才战略制定[8]、情报技术分析[9]及组织网络动态变化特征[10]等方面的研究贡献价值。因此,精确的发明人数据是以上研究分析的基础,在享受基于专利数据分析所带来的思想创新之余,怎样能够消除有歧义的数据,使得有效查、收集信息成为了一个需要考虑的问题。
信息资源伴随着互联网技术的发展呈现出爆炸增长的趋势,发布信息的速度不断加快,任何人都能够利用网络发布各类与身份有关的信息,如何快速且准确地从主流人物信息中得到自己想要的数据,成为获取知识的重要目标。通常人们选择姓名作为查信息的关键点,名字作为不同实体的代号是最简单可取的检索方式。但在现实情境下,用户想利用搜索引擎仅仅通过简单的名字查就准确锁定需要寻的对象信息并不容易,这就导致他们需要花费更多的时间从返回的信息中筛选出自己感兴趣的那部分数据。曾有一项调查报告结果表明姓名数量对应超出其数倍的实体数
基金项目:国家自然科学基金面上项目(72072140);教育部人文社会科学研究一般项目(19YJC630034)
作者简介:孙笑明(1982—),男,辽宁大连人,博士,副教授,博士生导师,研究方向:复杂组织网络与创新,大数据分析。E-mail:sun413@xauat.edu
科学与管理2023年
量[11],普遍存在的重名现象增加了查信息的困难程度。一些不准确的姓名信息会影响专利数据的稳定性[10],并对研究结果产生一些不利影响[12],因此有必要将专利数据中这些存在歧义的姓名信息进行识别并消除。目前,国外对于怎样清洗姓名数据的研究已较为成熟,但汉字与英文的命名和组成规律并不相同,因而研究所提供的方法不能达到成功清洗和消除歧义的目的[13]。
为了克服上述研究的不足,本文考虑如果把最初需要进行名字消歧的数据在每一次筛选中按照一定条件逐步分析,到最终完成筛选流程时会不会达到效率高且经过多轮的数据匹配专利发明人姓名消歧成功率较高的效果。基于决策树算法的应用为此目标的达成提供重要思路。决策树算法研究已经较为成熟,且以数据分析效率高、逻辑简单易懂的特点被广泛应用于机器学习[14]、知识发现等领域,并在这些领域中都起到了节省成本和提高效率的作用。因此基于决策树思想,本文主要基于专利数据中的发明人信息,在刘斌等[15]研究的基础上,从中文姓名的特殊性出发,采用机器学习中半监督学习的算法从各企业中分层抽样筛选出发明人姓名歧义集合。之后,引入发明人姓名、合作者、专利分类号等特征属性作为姓名消歧的信息提取源进行分析,用特征属性值构造基于决策树C4.5算法的识别是否存在姓名歧义的分类器模型,并对算法的实施效果进行评估。决策树分类模型提供一种在解决非线性分类问题的情境下识别姓名歧义的方法,弥补了使用
logistic回归模型拟合效果不足的缺陷,大大提高了专利数据姓名消歧的准确率和数据清洗的稳定性。
1文献回顾
1.1姓名消歧方法相关研究
采用实体语义表达存有的不清晰以及数据容量随网络流行词语不断增多,为辨别实体歧义带来了很大的挑战。通常有两种类型的实体歧义[16]:第一种是多词同义,意味着多个词代表相同的含义;第二种则为一词多义,指的是同一个词组可以指代许多不同的物体。发明人姓名消歧是消除实体歧义中的重要应用,在专利等大数据分析中具有重要的意义。例如,在专利检索时,研究者需要在文献库中查名为“张宽”的发明人的专利,但是由于这一词组对应着很多不同的实体,系统会返回其所查到的“张长宽”“张见”等所有相似词组的专利数据,这样的数据会大大降低搜索结果的有效性和准确性,进而影响分析的结果。因此,作者姓名歧义问题成为近年来研究人员的研究热点之一。
专利发明人的姓名消歧方法在国外的研究已有很多资料能够参考[17]。Melamed等[18]使用soundex算法,将发明人姓名进行标准化处理转化为字母代码,依据每个发明人所拥有的专利数量为其赋予权重,然后根据权重进行相应的分数匹配来识别姓名歧义问题;
Fleming等[19]在Torvik和Smalheise[20]姓名匹配算法的基础上进行改进,利用贝叶斯算法从美国专利数据库中对发明人姓名进行唯一化处理,通过对发明人合作网络的属性(如姓氏出现的频率、发明人的居住地址和发明人合作者相似度等)设置阈值来识别姓名歧义。但中英文在发音、书写以及姓氏、
名字的文化背景等方面存在较大差异,所以国外研究中的姓名消歧方法并不能适用于中文专利数据的清洗[21]。目前国内对于专利数据姓名消歧的研究较少[22],比较典型的有:刘嘉等[23]首先将中文字符串转化为英文,基于Token匹配算法进行中文数据清洗,大大提高了数据清洗的准确率。但其匹配算法并不仅针对中文数据,在处理较短的中文姓名时存在一定误差。郭舒[24]主要针对文献数据库,结合对文献信息的文本挖掘,提出一种有效的姓名消歧算法。但此算法主要基于文献数据库,使用标题及出版物数据进行实证研究,其消歧效果具有一定的局限性,并不能完全用于专利数据中。刘斌等[15]首先使用专利数据,从汉语拼音库和四角码库筛选出可能存在歧义的发明人姓名对,然后引入发明人、合作者及专利分类号等特征属性,通过建立logistic模型进行回归拟合对其模拟权重进而计算出发明人姓名对的综合相似度,最后对综合相似度确定一个阈值以识别是否存在姓名歧义并进行消除。
综上所述,虽然利用logistic回归拟合的方法进行二分类的判别不需要提前对数据分布做出任何概率上的假设,但是其主要适用于线性分类问题,且对数据分布较为敏感,判别的结果也不稳定,不能准确识别出是否存在姓名歧义。当遇到非线性分类问题时,每个网络属性之间并没有明确边界划分,如果仅凭一个综合阈值来判别发明人之间是否存在姓名歧义,这会影响回归拟合的结果和分类结果的准确性,所以在算法层面还有进一步优化与改进的必要。同时刘斌等[15]并没有对回归模型的实施效果如模型的准确率以及实施速度等指标进行评估,所以在实验深度层面也有完善的必要。如果在上述特征属性的基础上将其组合起来,通过一个非线性分类函数算法对特征属性分别设置阈值进行多层级分类,从而克服log
istic回归模型仅适用于线性分类的缺陷,或将提高姓名消歧的稳定性及准确率,提升专利数据清洗的效率。
1.2决策树算法的相关研究
目前,计算机算法领域的研究成果颇丰,其中有一
86
第4期
些算法可以借鉴并运用于管理类研究,比如决策树算法。决策树由于效率高、误差小而被广泛应用于分类问题[25]。在决策树中,内部分支节点代表一种条件特征[26],叶子节点代表一种决策特征或分类结果。该算法通常根据计算出的熵值大小选择树的分支节点,并根据分支节点的情况进行数据训练。目前,C4.5算法简单高效,可以有效处理大数据。这类算法是一种常被用于对文本信息分类的规则算法,通常是由两部分所组成。一为生成树,起初所有的数据都积累于树的根部节点上,然后需要依据测试特征进行参数的选择设置并以不同的测试特性将数据逐一分隔;二为修剪枝,需要从构建的树中删去一些不寻常或者错误的数据,使得所生成的决策树能够更加贴合信息数据的分类需求。
对于怎样有效构造决策树,最早是由Quinlan[27]在1986年所提出的ID3算法,这是最具深刻影响的决
策树算法,该算法的基础为信息熵。此后该类算法的研究大部分是在此基础上所进行的改进,比如本文所运用到的C4.5算法,是在ID3的基础上增加了对连续属性的离散化并且还能够对未知属性进行处理。其核心思想是利用属性的信息增益率,将该值最大的属性作为决策树分枝的分类属性,逐一往下按顺序完成分枝的构造,最终呈现出完整的数据分析模型。由于该算法具有不需要使用人了解很多背景知识的特殊优势[28],C4.5算法已经在金融、保险等各个领域发挥了作用。信息增益是一种在文本中进行特征选择时所常用的算法[29]。在文本分类领域,信息增益的计算是针对每个特征项而言的,对于该值的测量通过信息熵与条件熵所确定。研究人员通常将信息熵作为信息量不确定程度的度量[30]。如果随机变量(X)变化得较多,那么通过该随机变量所能接受到的信息就会越多。同时,将条件熵定义为通过观察另一随机变量(Y)而得到X 的不确定程度。信息熵与条件熵的差值即为信息增益,表示去除不确定性后所得到的信息量。通过信息增益的计算能够明确某一特征在一类信息文本中贡献的信息量,若某一特征项的信息增益值越大则表明对于分类也更加重要,因而将这些贡献信息量较大的特征选取出来用于决策树分枝的构建可以提高分类效率。
然而,随着不断加大训练样本集中的样本数量,需要不断地增加把这些样本移入再移出主存中的时间,这会严重地影响算法的效率。因此,对于决策树算法研究中,使该算法能够有效处理大规模训练样本集成为一个的重要问题,而该问题目前也是国内决策树算法研究的热点。目前已有很多关于决策树C4.5算法的优化调整,比如利用Fayyad和Irani的边界定理对连续属性进行离散化[31],并在离散化之后用Gi
ni指标代替信息熵对算法进行了化简[32],从而提高了C4.5算法的计算效率。综上所述,目前对于决策树算法的研究已较多,大部分研究C4.5算法的案列中是将其作为原因查的方法,而在大数据分析方面的运用,特别是对于姓名消歧研究,当前研究文献还较少。因此本文拟将决策树算法和姓名消歧结合起来,补充姓名消歧研究和决策树运用研究。针对目前网上纷繁杂乱的数据,为快速到和数据分析所匹配的人物信息可通过设计与寻求信息相关的多个关键字词,逐一进行排序和比对,最终经过筛选留下最符合研究需要的数据。
2基于决策树C4.5算法的发明人姓名消歧方案的步骤
本文所设计的消歧方案主要针对发明人姓名之间由于形近字和同音字产生的歧义问题,根据汉语拼音转换数据库与四角码转换数据库中文姓名独有的特性,在刘斌等[15]设计的专利数据发明人姓名消歧方法的基础上,提出了一种基于决策树C4.5算法的分类器模型来识别是否存在姓名歧义。设计这一算法考虑到各方面实用性,主要从以下几个方面展开:首先,从初始专利数据库,即汉语拼音转换数据库和四角码转换数据库中出存有姓名歧义的集合。其次,依据信息增益最大原则将专利数据所涵盖的特征属性进行计算,明确能够用于决策树分类的特征属性。最后,设置决策树分类特征属性的阈值,构建决策树分类模型对产生歧义的人名对逐步判断其是否存在歧义。其算法流程图参见图1
图1姓名消歧算法流程
基于决策树算法的专利发明人姓名消歧研究87
科学与管理2023年
2.1发明人姓名歧义集合的筛选
考虑到实际筛选姓名歧义集合的过程中,所有姓名穷尽式的配对比较会导致计算量过大,采用监督学习算法虽然能大幅提高集中分类的准确率,但其成本巨大且实施困难,所以并不适用于日常专利数据的清洗工作。鉴于此,本文采用机器学习中半监督学习的算法,使用一部分标记的数据来进行姓名歧义的识别。
此外,通讯企业是技术密集型企业,对知识和技术水平有较高的要求,更为重视通过申请专利来保护自己的核心技术,因而所申请的专利条数相对较多,在搜索数据时出现同名情况的概率也相对较大。故此,本文选定多家通讯企业的专利数据作为初始专利数据库I,利用汉语拼音转换数据库(规则为f1)和四角码转换数据库(规则为f2)从同一家通讯企业内选取明显属于同一个发明人的姓名对(姓名相似度大于90%且合作者相似度大于90%),以及明显不属于同一个发明人的姓名对,来构建标记数据。同时
考虑到不同企业内部姓名分布差异并避免训练数据集中,再采取分层抽样的方式,根据公司研发者人数的比例从各企业中抽取样本,最终提取出的样本为400个姓名对作为发明人姓名歧义集合M,M={(n
i,n j)|n i,n j∈I},i,j=1,2,3…其中(n
i,n j)表示选取出的一组姓名对。
2.2姓名消歧特征向量的提取与计算
与之前的研究一样,在研究如何对姓名进行有效消歧时通常需要选择合适的消歧依据。同时,这些依据应该尽可能地体现数据上存有的差异,并能够与相关主体有很强的联系。
专利著录项能够向下载数据的用户和研究人员展示很多的专利信息[33],如图2所示。其中,合作者为与发明人共同参与发明设计的联合开发者,专利知识分类号代表发明人所研究的知识领域归属,申请人为自然人或法人(通常为机构或企业)提交专利申请。合作者、专利知识分类号、申请人、专利权人是专利的主要部分,能更广泛地反映与发明人相关的创新信息,适合在我国被用于发明人姓名的消歧研究。
一项专利可能由一个或多个人合作创新产出,除去消歧人员的其他发明人作为该项专利的合作者,并且该专利所涉及到的专业技术知识也存在不同的可能性,分类号作为专业技术知识的具体体现,因而参考
刘斌等[15]的研究,本文从专利信息的11个著录项中选取发明人、合作者、分类号、专利权人四个特征属性作为姓名消歧的相似度参考因子进行计算。
2.2.1姓名相似度的计算
姓名相似度的计算分为两部分,
一是字音的相似
图2专利数据中姓名消歧信息提取
度,即多音字或作者姓名为相同读音,如张诚与张城,读音均为zhang cheng;二是字形的相似度,如侯皞与候皞,这两个字形都非常相近。对于字音的相似度,本文依据新华字典中汉字拼音对照表,建立汉字拼音转换数据库,将姓名中的汉字转为字符串形式的拼音。同时考虑前后鼻音可能存在的缺失、连拼缩写以及模糊音的错误,对转换数据库进行了改进。字音相似度的计算公式如下:
S_Nam1=
|
|A ci∩B cj
|
|A ci∪B cj(1)对于字形相似度的计算,本文依据中文字典中四角码对照表建立了汉字四角码转换数据库,将姓名中的汉字转为数字字符串。字形相似度的计算公式如下:
S_Nam2=
|
|A di∩B dj
|
|A di∪B dj(2)最后将字音相似度的值与字形相似度的值相乘即可计算出两个发明人之间的姓名相似度。姓名相似度的计算公式如下:
S_Nam=S_Nam1×S_Nam2(3)
其中,A
ci
为发明人i的拼音转换字符,B
cj
为发明人j 的拼音转换字符,S_Nam1表示发明人i和j之间的姓名
字音相似度。A
di
为发明人i的姓名字形转换字符,B
dj 为发明人j的姓名字形转换字符,S_Nam2表示发明人i 和j之间的姓名字形相似度。S_Nam表示发明人之间的姓名相似度,为发明人之间拼音相似度与字形相似度的乘积。
2.2.2合作者相似度的计算
对于合作者相似度,本文采取的方法是将产生消
88
第4期
歧的这个姓名对所存在的专利提取出,并对这两个发明人的合作者姓名信息进行计算。由于合作者的数量有限因而采取遍历比较的方法,对两人共同的合作者计数,并将计数结果除以两者合作者数量的乘积。如果计算出两位同名学者的相似度较高,那么他们为同一人的可能性则较大。
S_Coo1=
|
|A ai∩B aj
|
|A ai∪B aj(4)
S_Coo2=
|
|A ai∩B aj
|
|A ai(5)
S_Coo3=
|
|A ai∩B aj
|
|B aj(6)
S_Coo=Avg{S_Coo1,S_Coo2,S_Coo3}(7)
其中,A
ai
为发明人i在他申请的专利中对应的专利合
作者集合,B
aj
为发明人j在他申请的专利中对应的专利合作者集合。S_Coo1,S_Coo2,S_Coo3分别表示其合作者相似度。S_Coo表示发明人的合作者相似度,为上述三者的均值。
2.2.3分类号相似度的计算
对于分类号相似度的计算,与上文合作者相似度的计算方法类似。公式如下:
S_Pcn1=
|
|A bi∩B bj
|
|A bi∪B bj(8)
S_Pcn2=
|
|A bi∩B bj
|
|A bi(9)
S_Pcn3=
|
|A bi∩B bj
|
|B bj(10)
S_P cn=Avg{S_Pcn1,S_Pcn2,S_Pcn3}(11)
其中,A
bi
为发明人i在他申请的专利对应的的专利分
类号,B
bj
为发明人j在他申请的专利中对应的专利分类号。S_Pcn1,S_Pcn2,S_Pcn3分别表示其专利分类号相似度。S_Pcn表示发明人的分类号相似度,为上述三者的均值。
2.2.4专利权人相似度的计算
对于分类号相似度的计算,与上文合作者相似度的计算方法类似。公式如下:
S_Pcd1=
|
|A di∩B dj
|
|A di∪B dj(12)
S_Pcd2=
|
|A di∩B dj
|
|A di(13)
S_Pcd3=
|
|A di∩B dj
|
|B dj(14)
S_P
cd=Avg{S_Pcd1,S_Pcd2,S_Pcd3}(15)
其中,A
di
为发明人i在他申请的专利对应的的所属专
利权人,B
dj
为发明人j在他申请的专利中对应的所属
专利权人。S_Pcd1,S_Pcd2,S_Pcd3分别表示其专利权
人相似度。S_Pcd表示发明人的专利权人相似度,为
上述三者的均值。
2.3基于决策树C4.5算法的姓名消歧模型设计
2.3.1专利数据姓名消歧的分类模型选择
对于专利数据所进行的姓名消歧,其核心关键点
是通过分析产生歧义的姓名对所在的不同专利中他们
的合作者、专利所涉及的知识领域的相似程度,识别出
两个在姓名或字形上十分相近的发明人,因此将分类
模型的理念引入姓名歧义识别的研究中是一个可行的
方法。本文综合考虑中文姓名的特殊性和专利数据中
发明人姓名的独有性,将专利著录项中姓名相似度、合
作者相似度、分类号相似度和专利权人相似度依次作
为识别姓名歧义的四个分类标准。但是使用专利数据
进行姓名消歧研究选择分类模型时,还需要考虑一些
其他因素。
(1)较快的分类速度
作为研究需要的专利数据往往数量都较为庞大,
尤其当所查的研发者名字较为普遍时,在寻过程
中需要消歧的专利数据可能有上千甚至是上万条。那
么所选择的分类模型则被要求处理大型数据时达到一
定的速度,节约研究的时间,提高研究效率。
(2)充分利用已知属性
由于专利数据包含的信息很多,但部分特征属性
若提取出来需要处理内容的较多,比如专利的摘要包
含有整个专利的介绍,虽然提供的信息充足却不利于
进行整合比对,占用的成本太大。因此为了提高姓名
消歧的效率和成功率,选择提取专利数据中已知的其
他特征属性进行计算。
(3)便于理解和对外解释
所设计的姓名消歧模型是为了帮助研究人员在进
行发明人相关研究时能够准确、迅速地排除歧义姓名
到正确的发明人所属专利,因而这类模型与设计的
思想需要便于使用者理解,这样有助于拓宽分类模型
的使用范围。
针对以上在专利数据的姓名消歧时需要考虑的因
素,本文在目前常用的几种分类算法中选取了决策树
C4.5算法。决策树算法在解决专利数据姓名消歧问题
上有许多先发的优势:首先,基于决策树算法的分类模基于决策树算法的专利发明人姓名消歧研究89

本文发布于:2024-09-25 11:09:38,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/415780.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:姓名   数据   专利
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议