专利检索分析操作流程

步骤1:范围检索(Scoping Search)
范围检索的目的在于对分析的技术主题有一个基本的把握。以无人机技术为例,为了实施范围检索,首先仅以关键词“无人机(drone or drones)”进行检索。
通过范围检索,检索人员可以对检索结果有一个初步的了解,并且从检索到的文献中获取一些能够用于扩展检索的关键词。例如,对于无人机技术,除了使用上述的“无人机(drone or drones)”这个关键词以外,有些专利文献中可能还会将其描述为“无人驾驶飞行器(Unmanned Aerial Vehicle)”以及其他的一些术语。
此外,在科学文献和专利文献中,还会描述“无人机”的很多用途,如果需要研究某种特定用途的无人机,例如农业植保无人机,我们可以在检索中对其用途进行限定,或者是将某些用途排除在目标文献之外。
步骤2:探索性数据可视化(Exploratory data visualization)
数据可视化往往被认为是数据分析流程中的最后环节。但其实,在专利分析初期,数据可视化可以帮助我们理解数据和选择后续的分析方向。例如,我们可以利用数据可视化来发现专
利申请的趋势,也可以尝试利用文本聚类的可视化来识别专利文献中的技术分布。
步骤3:确定检索式(Defined Search)
检索是一个不断迭代的过程。基于文献量的多少和该技术主题的复杂程度,可能需要进行很多次实验性的检索。
在探索检索的过程中,最好是将探索检索的过程全都记录下来,以便在以后还能记得当时为什么要这样检索,也便于向其他人解释为什么要构建这样的检索式。
经过不断迭代的探索性检索之后,就能够得到一个确定的检索式,通过这个检索式进行检索,以获得数据。
步骤4:核心数据集(Core Dataset)
当使用最终确定的检索式在数据中进行检索后,下载下来的数据集,就是核心数据集,也就是我们要进行数据分析的基础。但这里要记住的是,不要直接对这个数据集进行编辑,也就是说,要保留一个原始版本的数据集合,以方便后续出问题的时候可以核对和查。
步骤5:核心数据集的数据清理(Cleaning the Core Dataset)
专利分析的数据往往是存储为以下三种格式:
逗号分隔(.csv)或制表符分隔(.tsv)的文件,其中分隔符用于区分列
Excel格式
JSON格式(javascript对象表示法语言)
在大多数情况下,这些表中包含具有串联信息的列。例如在专利申请人的列中,每一个单元格中可能包含多个人名,如“Google; Alphabet; Smith, Amy”。
在专利分析的实践中,包含这种串联信息的数据列通常包括:国际专利分类、申请人、发明人。此外,其他的一些数据列,比如日期,也有可能包含串联的信息。对于这种包含串联信息的单元格,应当把数据信息拆分到不同的单元格中,以便于后续进行数据分析。
专利数据也可以有其他的数据格式,例如XML和JSON。不过,这种数据格式并不是设计来给我们人工读取的,而是给计算机读取的。
步骤5.1 拆分数据(Splitting Data)
拆分数据就是将同一个单元格中包含的串联信息拆分到不同的单元格中,例如原始下载下来的数据表中的申请人列,每一个单元格中有好几个人名,就需要我们将不同的人名拆分到不同的单元格中,可以使用Excel中的“分列”功能。
在开源数据处理工具Open Refine中也可以轻松实现分列功能。Open Refine是一个网页版的程序,该网站的用户还为R和Python编写了扩展包。
步骤5.2 清理数据(Cleaning Data)
清理数据包括两个方面的内容:
第一种情形,清理噪音。例如,在下载的专利数据表中,通常会有申请人列,单元格中会包含多个申请人的姓名,例如,该单元格可能会包含如下信息:
Google Google Inc. Google Inc., Google Inc
这种情况下,虽然申请人都是Google这一家公司,但是由于申请人名称的变化,例如有无In
c和后面的点,都会被计算机认为是不同的申请人。此时需要我们人工将这种噪音清理。
第二种情形,区分相同名称的不同实体。当我们处理发明人名称时,往往会发现一些相同名称的发明人,例如Wang Wei, Smith John。如果不加区分地将这些名字都认为是一个人,这将导致发明人的统计结果出现错误,因此,需要结合其他的信息,例如申请人、共同发明人、或者发明所涉及的技术主题信息,来确定这些叫同一名字的人是一个人还是多个人。处理这类问题比较好用的开源工具是Open Refine。
其他类型的数据清理还包括将日期转换为可用的格式,例如从2021-12-25中提取年份,或者从IPC分类号中提取大类或者小类,例如从C12Q1/68分类号中提取C12Q,以便于对分类号所代表的技术分布进行数据统计。
此外,专利分析将越来越多地使用机器学习模型从文本中提取信息,例如概念、化学名称、物种名称、国家或地名以及其他术语。这使得我们将专利数据与其他类型数据链接起来变成可能,从而获得更丰富的信息。
步骤6:可视化及报告(Visualize & Report)
专利分析的最后一步即是数据可视化和报告撰写,以使得专利分析的成果能够适合于我们的目标受众。
实现数据可视化的方式有很多种,在The WIPO Manual on Open Source Patent Analytics (2nd edition)一书中主要介绍了以下几种:
使用Tableau Public制作数据仪表板(Dashboards)
使用Gephi制作网络数据可视化(Networks)
使用plotly实现数据可视化
使用infographics实现数据可视化
步骤7:小结
专利分析是一个不断迭代的过程,它包含许多明确具体的步骤,包括最初的范围检索(scoping searches)和探索性数据分析(exploratory data analysis)、确定的核心数据集(core dataset)、将核心数据集拆分为不同的子表格、清理数据、将专利数据和其他数据
来源进行合并,以及最终的数据可视化和报告撰写。

本文发布于:2024-09-21 23:37:27,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/443813.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   检索   例如   可视化   信息   专利
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议