专利信息数据中的去重问题研究

专利信息数据中的去重问题研究
作者：李三
来源：《中国知识产权》2015年第02期

由于专利具有地域性，在专利检索当中一般都需要在各个国家、组织和地区进行检索，以保证其数据覆盖的全面性，但是由于同族专利等的存在，会导致检索结果中出现重复数据，所以需要去重。去重须建立在每条数据记录有其唯一标识码的基础上，本文首先分析了数据重复的种类，然后提出一种生成标识码的方法，在此基础上按需求进行去重。

专利检索中的数据重复问题

在关于主题的专利检索中，检索人员一般需要在各大国家、组织和地区的检索系统中进行检索，然后对数据进行整合清洗，其工作最基本的就是去重。下文以某条专利数据为例，分别在中华人民共和国国家知识产权局（以下简称SIPO）、美国专利商标局（以下简称USPTO）、欧洲专利局（以下简称EPO）进行检索来具体说明这一问题：

在SIPO的数据库中检索

由于字段较多，只挑选部分来说明数据重复问题，SIPO数据样例见表1。

从表1中可以看出：此专利是美国戴尔公司在中国申请的专利，而且在中国已经取得专利权，其生效日期从优先权日1997.08.29开始计算。

在USPTO的数据库中检索

由于专利的地域性，上文提到的专利CN1525325B在USPTO有相关申请，见表2。USPTO在2001前是先发明制的，公开的专利文献即表示对其授予了专利权。

从表2中可以看出：此专利是美国戴尔公司在美国申请的专利，申请人、发明人都与CN1525325B上的信息是一样的。需要说明的是USPTO的记录中多了一个同族号25445431的信息。

在EPO的数据库中检索

EPO专利信息库的数据收集得较为全面，不仅包含本组织公开的数据，而且还包括其他国家、组织和地区公开的数据，上文提到的CN1525325B数据记录在EPO数据库的表现形式见表3。

本文发布于:2024-09-23 13:28:21，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/2/446848.html

上一篇：专利不侵权抗辩

下一篇：最新整理专利号的含义x