基于大数据的专利信息分析方法、设备及存储介质

著录项
  • CN202110038764.X
  • 20210112
  • CN112784026A
  • 20210511
  • 国网江苏省电力有限公司电力科学研究院;国家电网有限公司;国网江苏省电力有限公司;江苏省电力试验研究院有限公司
  • 祝和明;赵新冬;邓涛;杨逸飞;戴威
  • G06F16/332
  • G06F16/332 G06F16/33 G06Q50/18 G06F16/31

  • 江苏省南京市江宁区帕威尔路1号
  • 江苏(32)
  • 南京纵横知识产权代理有限公司
  • 俞翠华
摘要
本发明公开了一种基于大数据的专利信息分析方法、设备及存储介质,所述方法包括获取预设数据库中的专利文本;对获取到的各专利文本分别进行处理,得到与各专利文本对应的第一关键词;获取预设的第二关键词和分析模型,将与各专利文本对应的第一关键词和所述第二关键词均输入至所述分析模型,所述分析模型输出分析数据,其中,所述分析数据包括第一关键词和与第一关键词对应的专利文本的地址数据,其中所述地址数据为各个第一关键词存储地址的索引。本发明能够实现电力专利数据的分层次和分类别管理,提高电力行业专利利用率,提升专利价值,从而促进电力行业成果转移和转化。
权利要求

1.一种基于大数据的专利信息分析方法,其特征在于,包括:

获取预设数据库中的专利文本;

对获取到的各专利文本分别进行处理,得到与各专利文本对应的第一关键词;

获取预设的第二关键词和分析模型,将与各专利文本对应的第一关键词和所述第二关键词均输入至所述分析模型,所述分析模型按照预设的相似度判断原则输出分析数据;

其中,所述分析数据包括第一关键词和与第一关键词对应的专利文本的地址数据,其中所述地址数据为各个第一关键词存储地址的索引。

2.根据权利要求1所述的一种基于大数据的专利信息分析方法,其特征在于:所述获取预设数据库中的专利文本步骤之前或之后还包括:

设置第一预设时间和至少一个第三关键词;

间隔所述第一预设时间,自动遍历专利数据库中的所有专利;

筛选具有第三关键词内容的专利文本,将具有第三关键词内容的专利文本存储至预设数据库中。

3.根据权利要求2所述的一种基于大数据的专利信息分析方法,其特征在于:所述第三关键词包括电力、电压、电阻、电能、电势差、功率、焦耳、断路器、隔离开关、接触器、熔断器、无功补偿装置中的任意一种或多种。

4.根据权利要求1所述的一种基于大数据的专利信息分析方法,其特征在于,所述分析数据的获取方法包括,分别针对各专利文本对应的第一关键词,执行以下过程:

计算专利文本对应的第一关键词中的第一关键词和所述第二关键词的相似度,得到相似度值;

若计算得到的相似度值大于第一预设值,则表示该专利文本与所述第二关键词相对应,所述专利文本为所述分析数据中的一个子集。

5.根据权利要求1所述的一种基于大数据的专利信息分析方法,其特征在于:所述第一关键词和第二关键词为任意专利文本向量中词项的专利语义信息;所述相似度值基于聚类算法得到。

6.根据权利要求1所述的一种基于大数据的专利信息分析方法,其特征在于:所述第二关键词包括至少两个第三子词语,当将所述第一关键词中的第一关键词与第二关键词中的第三子词语进行比较时,相同的词语越多,则对应的专利文本权重越高。

7.根据权利要求1所述的一种基于大数据的专利信息分析方法,其特征在于:所述分析模型为相似度模型。

8.一种基于大数据的专利信息分析系统,其特征在于,包括:存储器、处理器以及计算机程序,所述计算机程序存储在所述存储器中,所述处理器运行所述计算机程序执行权利要求1至7中任一所述的方法。

9.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现权利要求1至7中任一所述的方法。

说明书
技术领域

本发明属于互联网、大数据技术领域,具体涉及一种基于大数据的专利信息分析方法、设备及存储介质。

在21世纪的知识经济时代,专利成为了全球各大技术密集型企业竞争的对象。专利数据涵盖丰富的技术、法律、经济等价值。专利数据是世界上最大的技术信息源,囊括了全球90%以上的最新技术情报,比一般技术刊物所提供的信息早5-6年,包含技术、市场、法律等信息,通过对专利信息进行分析研究,可以提高技术研发项目的研究起点和水平,大大减少研发时长和投入经费。以欧洲为例,其通过专利文献每年节约的研发经费就高达300亿欧元。如何能更快、更准确地到企业所需专利信息,并进行检索分析、技术挖掘等系列深度应用,这是许多国家正着手攻克的课题。

我国电力行业专利数据资源丰富,专利申请量与日俱增。截至到公开日2019年7月,国网江苏省电力有限公司及下辖地市级、县(市)级、控股份公司全球专利申请,共计16572件,其中国内申请量共计16457件,其中4600多件发明专利处于在审状态,7000多件有效专利需要进行维持,每年还有2000多件新的专利申请,且专利技术涉及到13个市及20余个科研单位的管理,知识产权管理工作非常艰巨。国网江苏省电力有限公司的专利许可仅有25件,占专利申请总量的很小。可见,虽然电力有限公司拥有大量的高端人才且具备雄厚的研究资金、强大的研发实力,但这些研发成果并没有得到有效的维护,专利转化实施效率也比较低。

针对大型电力企业,专利价值计算的意义主要在于:大型电力企业想要在全球技术贸易的竞争中脱颖而出,就必须通过不断提升自身的研发实力,加强技术储备,进行合理的专利布局,规避侵权诉讼等,这些目标的实现需要依靠对专利价值做出科学客观的评估,以便于电力企业进行有效的资源配置;电力行业是国民经济发展战略中的先行产业,是衡量一个国家经济发达程度的重要标志,因此,当电力行业专利投人到经济市场进行运营时,需要对其价值进行评估,将其量化,进而成为衡量经济的一个重要指标。

但是专利作为一种无形资产,其价值的评估受到许多不定因素的影响。对于国内大型电力企业而言,随着经济体制的不断改良和企业的发展,市场对该行业的专利价值评估的需求越发旺盛。可惜的是,目前专门针对电力行业的专利价值评估进行的研究还有待深入,评估方法的选择多借鉴其他行业的做法,或者是专利价值评估的基本方法,没有具有行业特的专利价值评估方法。专利价值评估方法的同一化是电力行业专利价值评估目前的困境,走出困境的办法就是出评估电力行业专利价值的有效方法。

因此,如何利用大数据技术,对电力行业专利数据进行挖掘和价值分析,筛选高价值专利、挖掘潜藏在数据中的深度信息,是电力行业提高创新能力、促进成果转化的发展重点。

针对上述问题,本发明提出一种基于大数据的专利信息分析方法、设备及存储介质,提高电力行业专利利用率,提升专利价值,从而促进电力行业成果转移和转化。

为了实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:

第一方面,本发明提供了一种基于大数据的专利信息分析方法,包括:

获取预设数据库中的专利文本;

对获取到的各专利文本分别进行处理,得到与各专利文本对应的第一关键词;

获取预设的第二关键词和分析模型,将与各专利文本对应的第一关键词和所述第二关键词均输入至所述分析模型,所述分析模型输出分析数据;

其中,所述分析数据包括第一关键词和与第一关键词对应的专利文本的地址数据,其中所述地址数据为各个第一关键词存储地址的索引。

可选地,所述获取预设数据库中的专利文本,步骤之前或之后还包括:

设置第一预设时间和至少一个第三关键词;

间隔所述第一预设时间,自动遍历专利数据库中的所有专利;

筛选具有第三关键词内容的专利文本,将具有第三关键词内容的专利文本存储至预设数据库中。

可选地,所述第三关键词包括电力、电压、电阻、电能、电势差、功率、焦耳、断路器、隔离开关、接触器、熔断器、无功补偿装置中的任意一种或多种。

可选地,所述第一关键词包括若干个第一关键词;所述第二关键词包括若干个第二关键词。

可选地,所述分析数据的获取方法包括,分别针对各专利文本对应的第一关键词,执行以下过程:

计算专利文本对应的第一关键词中的第一关键词和所述第二关键词的相似度,得到相似度值;

若计算得到的相似度值大于第一预设值,则表示该专利文本与所述第二关键词相对应,所述专利文本为所述分析数据中的一个子集。

可选地,所述第一关键词和第二关键词为任意专利文本向量中词项的专利语义信息;所述相似度值基于聚类算法得到。

可选地,所述第二关键词包括至少两个第三子词语,当将所述第一关键词中的第一关键词与第二关键词中的第三子词语进行比较时,相同的词语越多,则对应的专利文本权重越高。

可选地,所述分析模型为相似度模型。

第二方面,本发明提供了一种基于大数据的专利信息分析系统,包括:存储器、处理器以及计算机程序,所述计算机程序存储在所述存储器中,所述处理器运行所述计算机程序执行第一方面中任一所述的方法。

第三方面,本发明提供了一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现第一方面中任一所述的方法。

与现有技术相比,本发明的有益效果:

本发明能够对专利文本进行处理获取相应的数据,并基于获取到的数据进行分析,进而能够对能够实现电力专利数据的分层次和分类别管理,提高电力行业专利利用率,提升专利价值,促进电力行业成果转移和转化。

为了使本发明的内容更容易被清楚地理解,下面根据具体实施例并结合附图,对本发明作进一步详细的说明,其中:

图1为本发明一种实施例的电力领域基于大数据的专利信息分析方法的第一种实施方式的流程图;

图2为本发明一种实施例的电力领域基于大数据的专利信息分析方法的第二种实施方式的流程图。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

应当理解,在本发明的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

应当理解,在本发明中,“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解,在本发明中,“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含,“包含A、B或C”是指包含A、B、C三者之一,“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。

应当理解,在本发明中,“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”,表示B与A相关联,根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。A与B的匹配,是A与B的相似度大于或等于预设的阈值。

取决于语境,如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。

实施例1

本发明实施例中提供了一种基于大数据的专利信息分析方法,包括以下步骤:

(1)获取预设数据库中的专利文本;

本发明实施例中所述的预设数据库为电力领域专利知识库。其中专利文本可以是任意申请人、任意国家、任意专利权人的专利申请,但是本申请中的专利文本并不仅限定于已经申请、公开的专利申请,也可以是内网、局域网流传的专利相关文件、交底书等等。

在本发明实施例的一种具体实施方式中,所述获取预设数据库中的专利文本,步骤之前或之后还包括:

设置第一预设时间和至少一个第三关键词;其中,所述第一预设时间可以是5分钟、十分钟、一小时等。所述第三关键词可以包括电力、电压、电阻、电能、电势差、功率、焦耳、断路器、隔离开关、接触器、熔断器、无功补偿装置等电能词语中的任意一种或多种;

间隔所述第一预设时间,自动遍历专利数据库中的所有专利;所述专利数据库可以是国家知识产权局的专利数据库、浙江省的专利数据库、某某大学的专利数据库、某某企业的专利数据库等等;所述预设数据库可以与多个数据库进行连接,在本步骤中,可以获取多个数据库中的专利文本。随着时间的增长,专利文本会越来越多,所以为了达到即时更新预设数据库的目的,每间隔第一预设时间则获取其余数据库的专利数据。

筛选具有第三关键词内容的专利文本,将具有第三关键词内容的专利文本存储至预设数据库中,即:将具有第三关键词内容的专利文本筛选出,默认为其是电力领域的专利申请,具有被体系划分的可能。所述第三关键词包括电力、电压、电阻、电能、电势差、功率、焦耳、断路器、隔离开关、接触器、熔断器、无功补偿装置中的任意一种或多种。

(2)对获取到的各专利文本分别进行处理,得到与各专利文本对应的第一关键词;

在本发明实施例的一种具体实施方式中,所述第一关键词可以是名词、形容词、副词等,例如说电力、电压、电阻、电能、电势差、功率、焦耳、断路器、隔离开关、接触器、熔断器、无功补偿装置、较大的频率、高频、低频等等。

(3)获取预设的第二关键词和分析模型,将与各专利文本对应的第一关键词和所述第二关键词均输入至所述分析模型,所述分析模型输出分析数据,其中,所述分析数据包括第一关键词和与第一关键词对应的专利文本的地址数据,其中所述地址数据为各个第一关键词存储地址的索引。

所述第一关键词包括若干个第一关键词;所述第二关键词包括若干个第二关键词;例如说一个专利文本中,既包括断路器、电压、保护电阻等等,则该专利文本可能是适用于断路保护的电能技术。第二关键词可以是电流、电流互感器、电流差、传感器等等;所述分析模型可以是相似度模型,例如说LSTM模型、Bi-LSTM模型、ESSM模型、ESIM模型等等。例如,使用者需要筛选一部分电流检测专利,其中第二关键词包括的第二关键词就可能包括电流、电流互感器、传感器等词语,只要是包括前述三个词语的专利文本具有很大的概率是电流检测的相关专利文件,进而进行体系的分类。

在本发明实施例的一种具体实施方式中,所述分析数据的获取方法包括,分别针对各专利文本对应的第一关键词,执行以下过程:

相似度计算步骤:计算专利文本对应的第一关键词中的第一关键词和所述第二关键词的相似度,得到相似度值;

划分步骤:若计算得到的相似度值大于第一预设值,则表示该专利文本与所述第二关键词相对应,所述专利文本为所述分析数据中的一个子集,其中第一预设值可以是预先设置。

在本发明实施例的一种具体实施方式中,所述第一关键词和第二关键词为任意专利文本向量中词项的专利语义信息;所述相似度值基于聚类算法得到。

在本发明实施例的一种具体实施方式中,所述第二关键词包括至少两个第三子词语,当将所述第一关键词中的第一关键词与第二关键词中的第三子词语进行比较时,相同的词语越多,则对应的专利文本权重越高。此时证明专利文本与第二关键词就越接近,所以权重就越高。在表现形式上,可以是在显示过程中将权重较高的专利文本突出显示、优先显示等等。

实施例2

本发明实施例中提供了一种基于大数据的专利信息分析系统,包括:存储器、处理器以及计算机程序;

存储器,用于存储所述计算机程序,该存储器还可以是闪存(flash)。所述计算机程序例如是实现上述方法的应用程序、功能模块等。

处理器,用于执行所述存储器存储的计算机程序,以实现实施例1中描述的方法中终端执行的各个步骤。具体可以参见前面方法实施例中的相关描述。

可选地,存储器既可以是独立的,也可以跟处理器集成在一起。

当所述存储器是独立于处理器之外的器件时,所述终端还可以包括:

总线,用于连接所述存储器和处理器。终端还可以进一步包括发送器,用于向服务器发送处理器生成的第一类事件信息。

其中,可读存储介质可以是计算机存储介质,也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如,可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(ApplicationSpecific Integrated Circuits,简称:ASIC)中。另外,该ASIC可以位于用户设备中。当然,处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

实施例3

本发明实施例中提供了一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现实施例1中任一所述的方法。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

本文发布于:2024-09-22 22:36:35,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/68554.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议