专利信息数据中的去重问题研究作者:李三来源:《中国知识产权》2015年第02期 由于专利具有地域性,在专利检索当中一般都需要在各个国家、组织和地区进行检索,以保证其数据覆盖的全面性,但是由于同族专利等的存在,会导致检索结果中出现重复数据,所以需要去重。去重须建立在每条数据记录有其唯一标识码的基础上,本文首先分析了数据重复的种类,然后提出一种生成标识码的方法,在此基础上按需求进行去重。 专利检索中的数据重复问题
在关于主题的专利检索中,检索人员一般需要在各大国家、组织和地区的检索系统中进行检索,然后对数据进行整合清洗,其工作最基本的就是去重。下文以某条专利数据为例,分别在中华人民共和国国家知识产权局(以下简称SIPO)、美国专利商标局(以下简称USPTO)、欧洲专利局(以下简称EPO)进行检索来具体说明这一问题:
在SIPO的数据库中检索
由于字段较多,只挑选部分来说明数据重复问题,SIPO数据样例见表1。
从表1中可以看出:此专利是美国戴尔公司在中国申请的专利,而且在中国已经取得专利权,其生效日期从优先权日1997.08.29开始计算。
在USPTO的数据库中检索
由于专利的地域性,上文提到的专利CN1525325B在USPTO有相关申请,见表2。USPTO在2001前是先发明制的,公开的专利文献即表示对其授予了专利权。
从表2中可以看出:此专利是美国戴尔公司在美国申请的专利,申请人、发明人都与CN1525325B上的信息是一样的。需要说明的是USPTO的记录中多了一个同族号25445431的信息。
在EPO的数据库中检索
EPO专利信息库的数据收集得较为全面,不仅包含本组织公开的数据,而且还包括其他国家、组织和地区公开的数据,上文提到的CN1525325B数据记录在EPO数据库的表现形式见表3。