专利发明人重名辨识方法综述

第45卷 第2期 2018年2月
天  津  科  技
TIANJIN SCIENCE & TECHNOLOGY
V ol.45  No.2Feb. 2018
基金项目:国家自然科学基金资助项目“科学合作网络的不连通问题研究”(71473237)、中国工程科技知识中心建设项目“知识组织体系
建设”(CKCEST-2017-1-12)、中国科学技术信息研究所创新研究基金面上项目“基于词系统的知识服务平台应用示范”(MS2017-03)的资助。 收稿日期:2018-01-22
科技评论
USPTO 专利发明人重名辨识方法综述
于永胜,董 诚,韩红旗,李 仲
(中国科学技术信息研究所 北京100038)
摘 要:英文专利发明人姓名歧义现象越来越严重,极大阻碍了英文专利数据的研究应用。为了解英文专利发明人重名辨识方法的研究现状,进行了方法调研和总结:首先,介绍专利发明人重名辨识研究的意义及困难;其次,对国内外现有的专利发明人重名辨识方法进行梳理,主要将其分为基于规则的方法和基于机器学习的方法;最后,对发明人重名辨识方法的优缺点进行总结分析,并对未来方法研究进行展望。建议将深度学习算法和语义指纹算法融入到专利发明人重名辨识方法中,以便更加高效准确地进行发明人重名辨识。 关键词:重名辨识 机器学习 语义指纹 聚类
中图分类号:G35      文献标志码:A        文章编号:1006-8945(2018)02-0022-06
A Survey on Name Disambiguation Method for USPTO Inventors
YU Yongsheng ,DONG Cheng ,HAN Hongqi ,LI Zhong
(Institute of Scientific and Technical Information of China ,Beijing 100038,China )
Abstract :The name ambiguity phenomenon of inventors has become more and more serious in USPTO ,which greatly hinders the research and application based on patent data .A survey on name disambiguation method for USPTO inventors was carried out .The research significance and difficulty of inventor disambiguation was introduced .Then ,the research situation of existing meth
ods was tidied clearly ,which contains the method based on rule and the method based on machine learning .In the end ,a comparison of the exiting methods for inventor disambiguation was drawn in and suggestions were given .It suggests integrating the deep learning algorithm and semantic fingerprints algorithm into existing methods to more quickly and accurately perform the name disambiguation for USPTO inventors. Key words :name disambiguation ;machine learning ;semantic fingerprint ;clustering
0 引 言
专利数据具有重要的科研应用价值。专利数据集技术情报、法律情报和经济情报于一体[1],是一种重要的竞争情报信息分析来源,它还可以用于发明人迁移[2]、创新经济[3]和创新合作网络影响力分析[4]等研究领域。
严重的专利发明人重名现象影响着专利数据的科研应用。美国专利商标局(USPTO )一直没给专利发明人或专利权人分配一个独一无二的身份识别号,随着专利文献数量越来越多,具有同名或近似名的专利发明人重名现象因为姓名缩写、中间名缺失、拼写
错误等原因更加严重,该现象给专利数据在技术应用
和科学研究等领域的应用造成很大阻碍[5]。
本研究将造成专利发明人重名辨识越来越困难的原因归纳为4类:①专利数据规模庞大,现有专利发明人重名辨识方法计算成本太高。USPTO 在 2013年就拥有超过800万件专利和3200万亿对记录,这使得人工处理方法不再可行,现有专利发明人重名辨识方法计算成本太高[6]。②专利发明人姓名存在缩写、后缀、拼写错误、中间名缺失等情况,增加了发明人重名辨识难度。在美国专利中,专利发明人中间名缺失率为51.10%[7]。③USPTO 专利发明人大量使用常用名,如:John Smi h 。根据统计,美国约有
2018年2月于永胜等:USPTO专利发明人重名辨识方法综述·23·
16.4%的人口使用常用名,数量约为5271万人[8]。④学科领域信息不能有效区分重名专利发明人。USPTO专利大多为合作发明且跨学科领域,这使得学科领域不能作为区分重名发明人的主要依据,增加了专利发明人重名辨识的难度[9]。
专利发明人重名辨识方法是为解决上述现象而提出的,其目的是促进专利数据在科研和情报分析领域的应用[10]。这类方法根据专利发明人记录的成对比较结果,区分专利数据库中具有相同或相近姓名的发明人,并将每个发明人与其专利对应起来。
现有的专利发明人重名辨识方法主要包括:基于规则的方法、基于机器学习生物方法。基于规则的方法稳定性差,不能有效适应不同的专利发明人重名辨识环境;基于机器学习的方法能够较好适应不同
的专利发明人重名辨识环境,并具有较好的重名辨识效果,但该方法在大规模专利数据集上运行时间成本 较高[11]。
1 姓名歧义性
姓名歧义性是指不同来源的实体对象共用同一个姓名,尤其是在整合不同的网页和数据库时,姓名歧义现象会因姓名缩写或假名等更加严重,造成数据库检索结果不准确[9]。专利发明人姓名歧义是指当数据库查询或关联某个发明人的专利时,往往会将所有同名发明人的专利返回或将某个发明人与其他发明人的专利相连接,使得基于专利发明人的科研技术研究结果出现偏差。
USPTO专利发明人重名辨识方法研究,来源于国家科技支撑计划课题“面向科技情报分析的信息服务系统研发与应用示范”项目研究计划。该项目通过构建专利发明人科研合作网络,进行创新团队竞争与合作关系挖掘,而专利发明人重名辨识是该项目中的一项基础研究。
2 重名辨识方法研究现状
本研究主要介绍专利发明人重名辨识方法研究现状,对现有的研究方法进行分析,主要包括:基于规则的方法、基于机器学习的方法、基于语义指纹的方法和基于唯一标识的方法。
2.1 专利发明人重名辨识方法分类
专利发明人重名辨识方法是记录连接方法(Record Linkage)在专利领域中的子应用[10]。1969年,Fellegi和Sunter[12]基于单一数据源中记录属于单一个体的假设,提出了第一个用于记录连接的数学统计模型。而发明人重名辨识方法主要用于区分专利数据库中同名而不同发明的人的专利。
本研究具体方法分类如图1所示。
图1专利发明人重名辨识方法分类
Fig.1Classification of name disambiguation methods for patent inventors
2.2 基于规则的专利发明人重名辨识方法
基于规则的专利发明人重名辨识方法包括基于规则和阈值的重名辨识方法、基于相似度打分表的重名辨识方法,主要依据人为设置的规则、阈值或相似度分值,来进行专利发明人记录的成对比较,判断两个同名专利发明人是否属于同一个人。
2.2.1基于规则和阈值的重名辨识方法
Singh[13]根据从专利数据中抽取发明人姓和地区字段,利用if-else判定规则和字符串精确匹配来判定专利发明人记录对是否正确匹配。Fleming[4]通过专利发明人的专利权人和地区合并字段,利用“if-else-then”匹配规则和字符串精确匹配进行发明人重名辨识,然后通过一个预设的阈值,判断两条专利发明人记录是否属于同一个人。Milojevi[14]在模拟的题录数据库中,利用专利发明人姓(last name)和名的首字母(initial of last name)代替其他字段进行专利发明人重名辨识,获得的专利发明人姓名识别结果更加准确。Morrison[15]提出了一套基于高分辨率地理位置的专利权人和专利发明人重名辨识方法,该方法主要针对欧洲专利数据,将欧洲专利数据中的地理街道位置转化成经纬度进行相似发明人或专利权人姓名聚类,然后通过制定规则和编辑距离阈值进行专利发明人重名辨识。
2.2.2基于相似度打分表的重名辨识方法
基于相似度打分表的专利发明人重名辨识方法是介于规则方法和无监督学习方法之间的一种方法,该方法通过人为制定专利发明人比较字段的相似度打分表,计算两条专利发明人记录的相似度分值,然后通过一个预设的阈值判断这两条发明人记录是否属于同一个人。Miguelez[3]通过桑迪克斯编码系统
·24·天 津 科 技第45卷 第2期
(Soundex-code)对专利发明人姓名进行重新编码以聚集相似的发明人姓名,然后用相似度打分表计算每对专利发明人的相似度分值并判断其是否匹配。Pezzoni等[16]采用基于编辑距离的词牌方法将专利发明人相似姓名分组,然后根据相似度打分表计算发明人记录对的相似度分值,并进行阈值判断。
2.3 基于机器学习的专利发明人重名辨识方法
机器学习是指利用统计学原理,让计算机模拟人类思维,根据对以往数据或经验的学习,达到替人进行数据处理和分析的目的[17]。
目前,基于机器学习的专利发明人重名辨识方法主要包括3个阶段:数据处理阶段、匹配阶段和过滤阶段[3,16,18]。数据处理阶段,主要包括停用词过滤、字母小写转化、专利发明人字段拆分、噪音数据删除等,为专利发明人重名辨识准备好结构化数据;匹配阶段是专利发明人重名辨识方法的核心,是指通过机器学习方法判断专利发明人记录对是否属于同一个人或者计算专利发明人记录对的相似度分值,为过滤阶段的相似发明人聚类做准备;过滤阶段,通常根据参数估计获得的阈值,利用聚类算法区分存在姓名歧义的专利发明人。
2.3.1基于无监督学习的重名辨识方法
基于无监督学习的专利发明人重名辨识方法根据相似度计算方法在无标签训练数据集中进行聚类,将
低于相似度阈值或距离的专利发明人记录对作为相似发明人,根据相似度计算方法不同,聚类算法可以分为距离聚类、原型聚类、密度聚类和层次聚类。Nicolas[19]使用无监督贝叶斯方法在欧洲专利数据集上识别独特发明人,该方法创新之处在于,它将专利发明人重名辨识表示为一个相似度概率模型,即用相似度概率表征每对专利发明人记录间的相似程度。朱亮亮[20]利用改进的k-means算法进行文献著者姓名消歧,根据最大最小原则选取初始聚类中心,克服了传统k-means聚类算法随机选择初始聚类中心可能会导致局部收敛的问题。
2.3.2基于半监督学习的重名辨识方法
基于半监督学习的专利发明人重名辨识方法通常使用小数据量标签数据集和大数据量无标签数据集来训练模型,用于判断专利发明人记录对是否属于相同实体。Torvik和Smalheiser[21]通过将数学统计概念引入到MEDLINE数据库作者姓名消歧中,获得了一批准确度较高的人造标签数据,可以用于训练分类模型,然后在贝叶斯框架下使用逻辑回归预测MEDLINE作者记录对是否正确匹配。其意义在于可以通过统计获得准确度较高的人造标签数据集,解决了监督学习方法中分类器训练数据不足的问题,但是人造标签数据集中任何误差或错误假设都会影响到分类模型准确性。Swapnil[10]根据Torvik和Smalheiser[12]的方法获得人造标签数据集,分别生成专利发明人姓名、地址和技术类的相似度分值,然后通过支持向量机和逻辑回归方法证明简单的机器学习方法可以用于代替较复杂的专利发明人重名辨识方法。Li等[22]也是借助于Torvik和Smalheiser[21]的方法,通过统计产生准确度较高的人造标签
数据集,并在贝叶斯框架下使用逻辑回归方法判断专利发明人记录对的匹配情况。
2.3.3基于监督学习的重名辨识方法
基于监督学习的专利发明人重名辨识方法通过标签数据集训练分类器,用于判断专利数据库中发明人记录对是否匹配。Ventura[23]提出了性能更优的基于随机森林的条件森林(Conditional Forest of Ran-dom Forest,CFoRF)算法用于专利发明人重名辨识,针对专利发明人数据中间名缺失等情况构建不同的条件子集,并在这些条件子集上分别训练不同的随机模型,最后通过集成这些模型的分类结果预测专利发明人记录对的匹配概率。为了降低计算成本,Ventura[5]之后提出了基于随机森林的森林(Forest of Random Forest,FoRF)和层次聚类算法用于重名辨识专利发明人,并将该方法应用于数据密集型专利发明人重名辨识,通过在50000条美国专利数据上进行实验,证明了该方法具有良好性能。类似的,Ventura[11]采用基于随机森林和层次聚类的方法进行发明人重名辨识,结果显示该方法的误分率(spliting error rate)和误合率(lumping error rate)均低于规则方法和半监督方法;Yang等[18]提出了基于混合分类器和图聚类的方法进行专利发明人重名辨识,并取得了USPTO专利发明人姓名消歧竞赛第二名的好成绩,其中混合分类器是由Bootstrap监督学习方法、概率记录连接和规则方法融合而成;Kim等[8]采用基于随机森林和DBSCAN聚类的方法,在USPTO专利发明人姓名消歧竞赛训练数据上进行测试,其实验结果不仅优于2015年USPTO专利发明人姓名消歧竞赛结果,而且其方法运行时间也比竞赛方法运行时间节省半小时,证明了该方法能够更好地进行专利发明人重名辨识。
2.4 基于语义指纹的重名辨识方法
语义指纹具有不同的定义:吴军[24]将语义指纹(也称为信息指纹)定义为将一段信息(文字、图片、
2018年2月于永胜等:USPTO专利发明人重名辨识方法综述·25·
音频、视频等)随机地映射到一个多维二进制空间中的一个点(一段二进制数字);Webber[25]将语义指纹定义为基于语义折叠理论编码明确、包含意义和语境信息的数据表示,即用一段数字表征隐藏在自然语言背后的含义;Ibriyamova[26]认为语义指纹是一种在大量文本内容上进行训练,并能够表征文本中词与词之间关联关系的概念。综上所述,本文将语义指纹定义为基于文本摘要技术,能够表示文本特征和差异,并且将文本内容映射为二进制哈希值的一种算法。语义指纹算法根据文本特征权重对这些哈希值进行加权求和、压缩,生成能够表征大量文本内容特征和差异的一段64位或128位二进制数字串,比较有代表性的指纹算法有shingling指纹算法[27]、Simhash语义指纹算法[28]。其中,文本摘要技术,即哈希函数,是指将文本内容通过一个散列函数或哈希表映射为固定长度的数字串,比较有代表性的哈希函数有Minhash函数[29]、Rabin哈希[30]、SDBM哈希[31]、MD5哈希[32]、SHA-1哈希[33]。
Han[34]通过Simhash语义指纹算法,将论文文本特征映射为一段64位二进制语义指纹,并结合文献合著者、机构、邮箱等信息,进行论文著者姓名消歧,结果证明语义指纹方法性能要优于传统K-means
聚类消歧方法。在专利数据中,专利发明人一直存在特征稀疏等问题[35],现有的专利发明人重名辨识方法一直基于专利元数据特征进行分析,占专利内容比例较高的文本数据却一直没有用于发明人重名辨识研究,而语义指纹算法却可以将文本特征归并到语义指纹中,用于专利发明人相似度判断。
2.5 基于唯一标识的重名辨识方法
基于唯一标识的重名辨识方法是指通过给每一位科研人员分配一个独特且唯一的身份标识号,并将其与科研人员的科研产出相关联,进而消除科研人员姓名歧义现象。早在2009年,汤森路透公司就推出了ResearcherID[36]用户注册平台,每位科研人员可以通过用户注册获得一个独特且唯一的身份标识号,每当个人科研成果需要出版发表时,每位科研人员需要同时提供自己的身份标识号,以便在ResearcherID有效范围内规避科研人员姓名歧义现象。ORCID[37] (Open Researcher and Contributor ID,科研人员与投稿身份识别开放项目)是由汤森路透公司和自然出版集团等多家单位在2009年联合发起的项目,与科技文献DOI类似,ORCID可以给全球每位科研人员分配一个独立唯一性的国际学术标识符,该标识符是由一套免费、全球唯一的16位身份识别码构成。在2014年,中国科学院文献情报中心[38]与ORCID签署合作协议,推出中国科学家在线(iAuthor)平台作为ORCID的中国服务平台,将更加方便地服务中国科研人员使用ORCID,管理个人科研成果。
基于唯一标识的重名辨识方法非常简单有效、省时省力,因此国内外许多出版机构都在制定和推出一
套独特的身份标识系统,用于科研人员身份识别。但是,在实际执行过程中,基于唯一标识的专利发明人重名辨识系统会遇到以下几个困难:①Smalhesier[9]提到,国外价值观念中非常重视个人隐私信息,例如身份证号、社保号、唯一性身份识别号等能够唯一标识个人身份的信息经常被反对公开,这也是USPTO 没有给专利发明人分配唯一性身份识别号的原因之一;②唯一性身份标识系统由科研出版机构等联合推行,系统维护及资金来源难以保证长期稳定有效;③ORCID、ResearcherID、百度ScholarID等都是面向大范围各个行业领域的身份标识系统,难以在行业内部形成统一规范的行业体系和执行标准,而且每个科研人员可能拥有多个唯一性身份标识符,或者在同一个标识系统中拥有多个ID,造成另一种意义上的“歧义”现象;④对于已有专利文献的重名辨识,唯一标识系统无法解决这个问题,而现有文献资料具有重要的研究价值和参考意义,所以其他重名辨识方法有一定的研究意义。
3 总 结
本研究以机器学习方法缺点作为研究出发点,为在较短时间内有效完成发明人重名辨识,对专利发明人重名辨识方法进行展望:①本文建议将深度学习算法融入到重名辨识方法中,以便更加准确地进行发明人重名辨识。②本文建议将语义指纹算法融入到重名辨识方法中,以便更加高效地进行发明人重名辨识。■
参考文献
[1]邓要武. 科技报告、专利文献和标准文献资源检索与利用[J]. 图书馆工作与研究,2008(7):71-74.  [2]Doherr T. Inventor mobility index:A method to disam-biguate inventor careers [J]. New Discussion Papers,
2008(5):251-262.
[3]Miguelez E,Gomez-miguelez I. Singling out individual inventors from patent data [J]. Ssrn Electronic Journal,
2011(23):69-74.
[4]Fleming L,King C,Juda A I. Small worlds and re-
·26·天 津 科 技第45卷 第2期
gional innovation [J]. Social Science Electronic Publish-
ing,2007,18(6):938-954.
[5]Ventura S L,Nugent R. Hierarchical Linkage Clustering with Distributions of Distances for Larg e-Scale Record
Linkage[M]. Switzerland:Springer International Pub-
lishing,2014.
[6]Ventura S L,Nugent R,Fuchs E R. Methods matter:Rethinking inventor disambiguation with classification &
labeled inventor records [J]. Academy of Manag ement
Annual Meeting Proceeding s,2013,2013(1):14537-
14537.
[7]Akinsanmi E O,Fuchs E,Reagans R E. Economic downturns,technology trajectories and the careers of
scientists [J]. Geor g ia Institute of Technolo g y,
2011(9):52-74.
[8]Kim K,Khabsa M,Giles C L. Random forest DBSCAN for USPTO inventor name disambigua
tion [J].
arXiv:1602. 01792v2,2016(2):37-49.
[9]Smalheiser N R,Torvik V I. Author name disambigua-tion [J]. Annual Review of Information Science & Tech-
nology,2015,43(1):1-43.
[10]Swapnil M U. Inventor disambiguation for patents filed at USPTO [J]. CiteSeerX,2013(5):83-102.  [11]Ventura S L,Nugent R,Fuchs E R H. Seeing the non-stars:(Some)sources of bias in past disambiguation ap-
proaches and a new public tool leveraging labeled re-
cords[J]. Research Policy,2015,44(9):1672-1701.  [12]Fellegi I P,Sunter A B. A theory for record linkage [J].
Journal of the American Statistical Association,1969,
64(328):1183-1210.
[13]Singh J. Collaborative networks as determinants of knowledge diffusion patterns [J]. Management
Science,2005,51(5):756-770.
[14]Milojevi S. Accuracy of simple,initials-based methods for author name disambiguation [J]. Journal of Infor-
metrics,2013,7(4):767-773.
[15]Morrison G,Riccaboni M,Pammolli F. Disambigua-tion of patent inventors and assignees using high-
resolution geolocation data [J]. Social Science Electronic
Publishing,2015(12):46-71.
[16]Pezzoni M,Lissoni F,Tarasconi G. How to kill inven-tors:Testing the Massacrator algorithm for inventor dis-
ambiguation [J]. Scientometrics,2014,101(1):477-
504.
[17]周志华. 机器学习:Machine Learning [M]. 北京:清华大学出版社,2016:1-2.  [18]Yang G C,Liang C,Jing Z,et al. A mixture record linkage approach for US patent inventor disambigua-
tion[C]. 2017. Advanced Multimedia and Ubiquitous
Engineering,MUE/FutureTech,2017:331-338.  [19]Nicolas C,Lorenzo C. Who’s Who in Patents. A Bayesian approach [J]. Working Papers,2009(7):
104-121.
[20]朱亮亮. 利用改进的K-means算法实现文献著者人名消歧[J]. 软件导刊,2013,12(5):63-66.
[21]Torvik V I,Smalheiser N R. Author name disambigua-tion in MEDLINE. [J]. Acm Transactions on Knowledge
Discovery from Data,2009,3(3):1-29.
[22]Li G C,Lai R,D’Amour A,et al. Disambiguation and co-authorship networks of the U. S. patent inventor
database(1975—2010)[J]. Research Policy,2014,
43(6):941-955.
[23]Ventura S L,Nugent R,Fuchs E R H. Methods matter:Revamping inventor disambiguation algorithms
with classification models and labeled inventor re-
cords[J]. Academy of Management Annual Meeting Pro-
ceedings,2013(1):14537-14537.
[24]吴军. 数学之美[M]. 2版. 北京:人民邮电出版社,2014:142-152.
[25]Webber F D S. Semantic folding theory and its applica-tion in semantic fingerprinting[J]. Computer Science,
2015(11):51-110.
[26]Ibriyamova F,Kogan S,Salganikshoshan G,et al.
Using semantic fingerprinting in finance[J]. Social Sci-
ence Electronic Publishing,2016(5):10-38.  [27]Broder A Z,Glassman S C,Manasse M S,et al. Syn-tactic clustering of the Web[J]. Computer Networks &
Isdn Systems,1997,29(8-13):1157-1166.
[28]Charikar M S. Similarity estimation techniques from rounding algorithms[C]. Thiry-Fourth ACM Symposium
on Theory of Computing. New Jersey,2002:380-388.  [29]Broder A Z. O n the resemblance and containment of documents[C]. Compression and Complexity of Se-
quences 1997. Proceedings,2002:21-29.
[30]Rabin M O. Fingerprinting by Random Polynomials [EB/OL]. https://www. docketalarm/cases/PTAB/
IPR2013-00086/Inter_Partes_Review_of_U.S._Pat._794
9662/12-16-2012-Petitioner/Exhibit-1015-Rabin%2C_
Fingerprinting_by_Random_Polynomials%2C_Center_
for_Research_in_Computing_Technology%2C_Harvard
_University%2C_Report_TR_15_81/.
[31]Jain S,Pandey M. Hash table based word searching

本文发布于:2024-09-20 21:42:32,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/742453.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:方法   专利发明   辨识
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议