专利数据检索与分析系统的设计与实现

本栏目责任编辑:王力
数据库与信息管理
专利数据检索与分析系统的设计与实现
管魏琪
(河北工程大学信息与电气工程学院,河北邯郸056038)
摘要:技术在继承与创新中发展。专利检索为技术继承提供了便利,检索能够更快的了解某项技术同时还能避免重复的
劳动;专利分析可以预测领域空白点为创新做指引。专利检索与分析使企业明晰世界专利的动态、避免
重复开发与资金浪费,对企业而言功劳甚大。本文以钢铁、电力产业专利作为数据源构建专利数据检索与分析系统。关键词:数据清洗;专利检索;专利分析;聚类分析中图分类号:TP31
文献标识码:A
文章编号:1009-3044(2021)10-0040-03
开放科学(资源服务)标识码(OSID ):
Design and Implementation of Patent Data Retrieval and Analysis System GUAN Wei-qi
(Hebei University of Engineering,Handan 056038,China)
Abstract:Technology is developed in inheritance and innovation.Patent search provides convenience for technology inheritance,which can quickly understand a certain technology while avoiding duplication of labor;patent analysis can predict gaps in the field and guide innovation.Patent search and analysis enable companies to clarify the dynamics of patents in the world,avoid repeated development and waste of funds,which is a great contribution to companies.This article uses the steel and electric power industry patents as data sources to construct a patent data retrieval and analysis system.Key words:Data cleaning;patent search;patent analysis;cluster analysis
当科技的进步,伴随着技术的更新,专利数量的涌现。专利存在多种特性与特点。例如专利的复杂性表现为同族专利的复杂性与不同族专利的复杂性,同族专利的复杂性主要体现为同族不同专利会有多个不同优先权人,同族的不同专利又具有一个相同的优先权人,而不同族的复杂性就更好理解,它就
为专利涉及多个领域多种方法[1]
;专利的结构化特点是专利的核心特点,这一特点主要是为了方便去进行专利检索;专利的抽象性是描绘了专利的本质特征,它是一种知识产权的体现不以人的五官触觉去认识,不占用任何空间,但是又能以一定的形式为人们所感知的智力创造成果;专利的唯一性主要是来维护自我或地域的智力成果的保障。这些特点使专利数据的检索方式与分析方法对传统文本的方式与方法发起了挑战,逐步转化为现代化的信息检索方式与智能化的分析方法
[2]。
1相关理论介绍
在本章中主要是对数据清洗工作以及专利数据信息的分析方法中所需要的理论支持进行描述与表达。1.1专利数据清洗
专利分析与检索系统的基础是充足和完备的数据量,本论
文采用的是Mysql 数据库,它的数据类型是结构化数据[3]。而本文的数据来源是德温特专利数据库中导出的文本数据,需要将文本数据类型转化为Mysql 数据库中的结构化数据,并对转
化过程中产生的“脏”数据进行数据完整性处理。
数据清洗(Data cleaning)是对数据进行去空、去错以及去重的过程,主要目的是实现数据的完整性,不因可去除的错误信息误导实验结果的正确性[4]。本文数据清洗的流程为:
(1)按照专利数据标引字段进行截取将文本数据转化为结构化数据如图1所示:
图1结构化数据
(2)一致性检查,就是对数据整体性以及局部各字段类型进行校验,具体过程是通过数据下各字段存在的合理取值范围和字段之间的相互关系,以此来检查数据是否存在不合理性,发现处于正常范围外、逻辑上下存在不合理或者相互矛盾的
收稿日期:2020-12-21
40
数据库与信息管理
本栏目责任编辑:王力
Computer Knowledge and Technology 电脑知识与技术
第17卷第10期(2021年4月)
数据。
(3)数据中无效值和缺失值的处理,这一过程是通过前面两步确认数据中存在不合理的数据信息即存在一些无效值和缺失值,这时需要给他们进行适当的处理以此来保证数据的正确性。
1.2专利数据分析
专利数据分析是通过对专利数据信息中各个专利信息字段的进行加工以及组合[5](例如:专利的地域字段、专利的申请人字段、专利技术主题字段等都可以和时间序与专利的申请量进行组合),并通过统计学的方法或者数据挖掘的处理手段来使这些信息具有纵览过去专利的全局情况以及预测未来可研发领域或者说可加大投入研发资金的领域的功能[6]。
专利数据信息分析可以使它们由普通的专利基本信息变成为能够为企业或者个人提供对专利资金研发的投入、专利未来的布局以及个人专利申请的研发方向。
2系统设计
2.1系统需求分析
对于个人而言,若在申请专利之前甚至可说在投入到专利技术研究方向之前,若是没有对于专利检索的系统,那么可能导致专利研究的方向冲突或者是专利已经被申请,对于企业而言,对于研究技术方向的投入每一份的资金都要去估算它的价值是否能够盈利或者说在未来公司长远立场上是否能起到举足轻重的地位,企业和个人都是该专利检索与分析系统的潜在用户。系统的研发意义都是从用户的角度出发,本文从使用者基本需求出发:
(1)用户的登录与注册
任何系统能被广泛地推广和使用首先也是最重要的是对于用户个人信息的保护,本文系统由于为了方便用户重复使用会保留用户搜索信息,所以用户需要一人一账户避免因为搜索信息的泄露造成别人关注和预测你接下来的研究方向。
(2)专利数据的检索
企业和个人想在某技术领域进行投入研究之前需要对该技术领域专利进行技术专利检索。本文在专利检索这个功能模块主要分为三部分。分别为智能检索、高级检索和分来检索,可以让用户根据自己需求来自我选择合适的检索模块。
(3)专利分析
对于专利信息的数据分析,可对于企业技术领域研究方向进行预测。在本文系统专利分析这一模块,进行多例专利分析,统筹分析更有效的对企业专利技术领域做出战略布局。主要有专利概况分析、申请人分析、主要机构分析、地域分析、发明人分析、技术领域分析、技术生命周期分析、聚类分析。
(4)生成分析报告在这一模块中,主要实现的是对专利分析结果的可视化界面进行打印生成可视化专利数据的分析报告。2.2系统框架设计
通过本章开头所做的需求分析,本文将采用经典的三层构对专利数据检索与分析系统进行业务功能可划分为,如图2系
统的三层结构设计图所示。
图2系统的三层结构
系统的表示层即为用户与系统的交互UI 界面,采用Boost⁃rap 框架、Material Design 语言进行界面美化和echart 图标库进行可视化展示。
业务逻辑层是实现了专利检索与分析的功能模块的层。它负责接收前端的HTTP 请求与相应的数据库中数据的提取回馈。
最后一层数据访问层是实现专利数据检索与分析系统的数据储存和数据被访问功能,在业务逻辑层得到前端请求响应向数据访问层提取数据进行响应,实现信息的交互。2.3系统模块设计
根据本文系统框架业务逻辑层,将专利检索与分析系统的模块组成进行划分,共分为4个模块,分别为登录注册模块、专利检索模块、专利分析模块和报告打印模块。系统的模块设计如图3
所示。
图3系统模块划分
2.4数据库结构设计
一个专利由多条信息字段组成,把相同或者相近属性字段列为一张表,既保证了数据库表结构的清晰明了,又使在前端调用数据库信息时SQL 语句的结构清晰表达明了。结构化规范式数据库不仅在录入数据时高效快捷,更能加强表间的级联,在数据量很大的情况下也能提高响应速度。
(1)专利与专利优先权信息存在一对一的关系,即一个专利对应着一个专利优先权信息,而同时一个专利优先权信息对应着一个专利。
(2)专利与引用专利信息存在多对多的关系,即一个专利可以引用多个专利,同时一个专利也可以被多个专利引用。
(3)专利与引用文献存在多对多的关系,即一个专利可以引
41
本栏目责任编辑:王力
数据库与信息管理
Computer Knowledge and Technology 电脑知识与技术第17卷第10期(2021年4月)
用多个文献信息,而一个文献信息又可以被多个专利引用。
(4)专利与专利IPC 分类信息存在多对一的关系,即一个专利对应着一个IPC 分类号,而一个IPC 分类号可以有多个专利。
(5)专利基本信息与专利权人信息存在多对一的关系,即一个专利对应着一个专利权人,而一个专利权人可以对应多个专利。
(6)专利和发明人存在多对多的关系,一个专利对应着多个发明人,而一个发明人也对应着多个专利。
(7)专利和专利入藏号存在一对一的关系,一个专利对应着一个入藏号,同时一个入藏号对应着一个专利。2.5系统实现
2.5.1专利检索模块实现
专利检索模块主要是满足用户对专利检索的需求,在这一模块用三种检索方式,专利检索的流程如图4
所示。
图4专利检索流程图
智能检索是通过搜索主题词,例如标题或摘要关键词等搜索有关技术领域专利,高级检索是用户自己填写专利的基本信息如标题、申请人等限制性的搜索专利,这样好处是能够快捷地搜索到用户指定的专利数据信息,而分类检索是按国家的不同搜索用户想要搜索的某国的相关技术领域的专利信息。实现界面如图5
所示。
图5系统高级检索界面
2.5.2专利分析模块
专利分析模块是该系统的运转核心,检索的内容不加以分
析还是无法对企业或个人做出研究技术领域的预测和指导。设计从满足用户的需求出发,本文在专利
分析模块共实现了专利概况分析、申请人分析、主要机构分析、地域分析、发明人分析、技术领域分析、技术生命周期分析和聚类分析八个分析,共同来指导和预测用户所搜索的有关技术领域的专利,为用户在研究热点上提供预测或判断现研究方向上的成长空间。实现页面如图6
所示。
图6专利分析界面
2.6系统测试
专利数据检索与分析系统的主要功能是为了方便申请专
利个人或申请专利的企业提供方便、快捷及有效的专利技术领域检索以及检索内容的分析。测试将围绕系统的四大模块进行测试,分别是用户登录注册模块测试、专利信息检索模块测试、专利信息分析模块测试和专利分析报告打印模块测试。如表1所示。
表1系统功能性测试范围
功能点名称用户注册用户登录专利信息检索专利信息分析分析报告打印
测试数量
24471
编号101-102201-204301-304401-407501
描述测试用户注册测试用户登录测试三种检索方式测试7种分析方法测试报告打印情况
3结束语
随着互联网的快速发展,信息的涌现,交流和查阅信息变得快捷高效,研发人员在专利研究方面日益更新,如果在第一时间能够查询和分析出研究热点那么可以减少很多研究时间和研究费用。
本文系统为用户提供的服务还有可扩展的空间,未来可在系统上增加专利分析其他方法和专利检索功能更加快更加准确的方法,通过分析专利相关技术指标为用户提供技术战略布局和技术预测。
参考文献:
[1]Galhard H,Florescu D,Shasha D,et al.An extensible framework for data cleaning[C]//Proceedings of 16th International Confer⁃ence on Data Engineering (Cat.No.00CB37073).February 29-March 3,2000,San Diego,CA,USA.IEEE,2000:312.
[2]李继东,王移芝.基于扩展词典与语义规则的中文微博情感分析[J].计算机与现代化,2018(2):89-95.
[3]朱梦.基于机器学习的中文文本分类算法的研究与实现[D].北京:北京邮电大学,2019.
[4]张林,钱冠,樊卫国,等.轻型评论的情感分析研究[J].软件学报,2014,25(12):2790-2807.
[5]李琼,陈利.一种改进的支持向量机文本分类方法[J].计算机技术与发展,2015,25(5):78-82.
[6]朱相丽,谭宗颖.专利组合分析在评价企业技术竞争力中的应用——以储氢技术为例[J].情报杂志,2013,32(4):28-33.
【通联编辑:梁书】
42

本文发布于:2024-09-22 16:34:13,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/398744.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:专利   分析   信息   数据
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议