中文专利发明人重名消解问题研究

2018年第10期(总第173期)
2
摘要:专利发明人分析为技术人才评价和科研团队识别提供有力的数据支撑。然而,中文姓名存在大量重
名现象,使得基于发明人的研究结果出现偏差。本文提出一种基于规则的中文专利发明人重名消解方法。针对专利申请人因为并购、拆分、重组或战略转型等原因造成的名称不一致情况,采用基于向量空间模型的余弦相似度算法进行识别;针对因门牌号书写不规范而造成的地址不一致情况,采用基于邮编和门牌地址的分级匹配算法进行识别;合作者相似度采用Jaccard 系数计算。以中国科学技术信息研究所《电动汽车专题数据库》为例,验证该方法的科学性和有效性。
关键词:重名消解;中文专利;发明人;相似度;向量空间模型中图分类号:G350;TP391DOI :10.3772/j.issn.1673-2286.2018.10.001
邢晓昭  郑彦宁
(中国科学技术信息研究所,北京 100038)
*本研究得到中国科学技术信息研究所创新研究基金青年项目“基于社会网络分析的科研团队识别关键技术研究”(编号:QN2018-01)资助。专利文献是一种具有丰富技术内涵、规范化、可公开获得的技术资料[1]。发明人信息是专利文献信息的重要组成部分,专利发明人是对发明创造的实质特点做出创造性贡献的人[2]。通过发明人专利数量、引文数量和网络中心度等指标,可以对其技术竞争力进行比较和排名,识别核心技术人才;通过对发明人参与发明的时序分析,可了解发明人技术生涯,识别其创新轨迹;通过对发明人合著情况的分析,可以探索技术创新合作模式,发现科研团队。
然而,中文专利发明人姓名中存在大量重名现象。以姓名“李军”为例,在国家知识产权局网站中以“李军”为发明人共检索出专利文献记录21 410条(检索时间:2018年10月8日),分布在生物医药、机械制造、农业、化工、电子电器等多个领域。即使在同一科研机构中重名的情况也非常普遍,仅重庆大
学就有7位名为“张伟”的研究人员。发明人姓名重名使得在专利数据库中查询或关联某个发明人的专利时,往往会将所有同名发明人的专利返回,或将某个发明人与其他发明人的专利相链接。如果不解决专利发明人姓名歧义问题,无论是进行技术人才评价、人才成长路径分析,还是开展科研团队识别,都会对结果造成干扰。因此,重名消
解研究是建立高质量中文专利数据集,并进行精准团队识别的前提。
1  相关研究
重名消解本质上要解决的是姓名歧义问题。国内外学者针对专利发明人的姓名消歧进行了诸多探索,并积累了许多匹配算法。这些算法主要集中于解决两个问题。一是应该采用何种方式、选择哪些属性计算两组专利数据之间的相似度。字符串匹配与名称编码是标准化发明人姓名的2种主要途径。而专利申请人、分类号、地址信息和合作网络可以作为除姓名外,进行发明人记录对匹配的附加属性。Singh [3]对发明人姓、名全称,以及中间名首字母进行精确匹配,并采用专利分类号进行补充匹配来判定不同的记录是否只指向同一位专利发明人。Miguélez 等[4]采用Soundex 编码系统对发明人姓名进行重新编码,以降低因匹配不足到造成的“第一类错误”。王道仁等[5]采用汉明距离算法、Jaro-Wrinkler 算法和基于q-gram 的算法等10种常用字符串匹配算法对发明人的姓名字符串进行模糊匹配,结果显示,Jaro-Winkler 算法对于指向同一发明人不同姓名字符串的识

本文发布于:2024-09-22 04:20:59,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/401658.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:发明人   进行   专利   姓名   识别
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议