使用神经网络技术对中国专利过档数据进行CPC分类的实证研究

摘 要:本文对使用神经网络模型对中国专利全过档数据CPC分类进行了研究和试验论证。对数据分区、专利特征化、模型训练等多个技术实现环节的要点进行了论述。并对13万未分类中国过档专利数据进行了分类实验,实验结果验证了本方法具备一定的可实用性。
关键词:神经网络专利数据CPC分类
中图分类号: G306 文献标识码:A
0引言
为了解决IPC分类体系在技术的细分和准确性上的不足,2010年10月25日,欧洲专利局和美国专利商标局发布声明,宣布共同开发建立一个新的“联合专利分类体系(CPC 分类体系)”[1]。经过两年多的准备,自2013年1月1日起,两局正式启用CPC分类体系。CPC其分类条目超过25万个,融合欧美两局最好的分类实践经验。利用CPC 检索可以准确、快速地检索到具有相应构思的文献。我国目前正在积极地融入CPC分类体系。
世界上有关专利CPC分类的研究,主要都是基于欧、美、日本专利的CPC自动分类。由于CPC分类本身是从欧洲专利的ECLA分类中演化来的,并且尽可能地考虑了对美国专利的USPC分类兼容。因此,对于欧美专利而言,由于原有的ECLA分类和USPC 分类,其CPC自动分类的难度和技术路线,同中国专利完全不同。日本专利由于自有的FI与FTERM分类,其分类技术路线也与我国专利不同。而我国除了国际通用的IPC分类,没有任何自有的更细节分类。此外,我国专利数量极大,且文字描述主要是中文。这导致我国专利实现CPC自动分类,基础最差,难度最高,技术路线同其他国家均不同。在国外范围内上,对于中国专利的CPC自动分类技术研究,是基本缺失的[2]。
目前我国CPC分类工作主要采用人工分类的方式进行。国内的相关研究,讨论了基于引证映射、同族映射等进行CPC分类的可能性,但仍停留在理论层面,并没有在大批量数据基础上进行过实证研究。目前若采用欧洲专利局提供的IPC-CPC映射表进行粗略的自动分类转换,这类方法目前的准确率约为55%,并会导致大量的杂质引入。
目前我国的IPC分类工作中,采用了一定程度的自动分类技术。但根据近期的评测显示,IPC分类到第三级(小类级),准确率约为70%,分类到第五级(小组级),准确率低于30%。考虑到CPC分类的细化程度,相当于IPC分类的第六级,因此,有关IPC自动分类的技术研究,也缺乏在CPC自动分类中的应用前景。
故本文拟解决的主要问题为:在中国专利全过档数据的体量基础上,实现中国专利的CPC自动分类,且准确率和召回率高于采用欧洲专利局提供的IPC-CPC映射表进行自动分类的效果。
此外,由于使用神经网络模型进行文本分类,有比较成熟的技术可以借鉴[3-5]。故本文选用了较为成熟
作者简介:刘琦(1982—),男,安徽安庆人,工程硕士,知识产权师,主要从事专利信息化系统建设与研究;朱欣昱(1980—),男,辽宁沈阳人,博士,研究员,主要从事专利信息化、专利数据分析。
按照背景技术、附图说明、实施例等方式进行进一步的位置细分,应该能得到更好的分类结果。如果能够将图像信息作为分类的训练特征之一,也有可能会得到较好的结果。(第二作者对本文贡献等同于第一作者参考文献:
[1] 朱新超,霍翠婷,刘会景. 合作专利分类系统
(CPC )与传统专利分类系统的比较分析[J]. 数字图书馆论坛,2013(9): 38-44.
[2] 贾杉杉,刘畅,孙连英,等.基于多特征多分类
器集成的专利自动分类研究[J].数据分析与知识发现,2017,1(08):76-84.
[3] 黄彩云,吴金红,陈勇跃,等.非均衡数据下基
于卷积神经网络的专利文本自动分类研究[J].文
4 进一步研究思路
(1)在实际分类过程中,可探索混合策略的可能性将单纯的神经网络层分类,拓展为映射规则层、语义规则层和神经网络层的串行策略。待分类数据先经过两个规则层的强规则分类,最后再进行神经网络分类。
(2)数据分区的进一步优化
考虑到部分IPC 小类其实仍旧面临着分类过泛的问题。针对训练数据过多,分类质量较差的数据分区,存在着数据再细分的可能性。
反之,对于分类质量差,训练数据过少,分类角度接近或雷同的小类,存在着数据合并的可能性。(3)特征选择的进一步优化
在特征选择方面,也存在着优化的空间。如能够
Neural Network Technology
LIU Qi, ZHU Xinyu
(Intellectual Property Publishing House Co., Ltd., Beijing 100081)
Abstract: The method uses a neural network model to carry out research and experimental demonstration on CPC classification of Chinese patent data. The key points of a plurality of technical implementation links such as data partitioning, patent characterization, model training and the like are discussed. And classification experiments are carried out on 130 thousand unclassified Chinese patent data, and the experimental result verifies that the method has certain practicability.
Key words: neural network; patent data; CPC

本文发布于:2024-09-22 16:34:05,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/407722.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:分类   专利   数据
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议