一种基于专利数据库的企业人员姓名消歧方法及相关设备

著录项
  • CN202211372358.8
  • 20221103
  • CN115599928A
  • 20230113
  • 企知道网络技术有限公司
  • 胡琛;吴璇;蔡子哲
  • G06F16/38
  • G06F16/38 G06F16/35 G06F40/216 G06Q50/18

  • 广东省深圳市南山区西丽街道西丽社区留仙大道创智云城1标段1栋D座2201
  • 广东(44)
  • 成都维企专利代理有限公司
  • 宋学康
摘要
本申请提供一种基于专利数据库的企业人员姓名消歧方法及相关设备,涉及数据处理领域,其中方法包括:从专利数据库中获取目标企业人员姓名对应的全部专利;基于专利的IPC分类号对全部专利进行划分,得到至少一个相似技术领域的专利集合,并获取各专利集合对应的行业类型;获取各专利集合中的发明人姓名,将出现频次大于所设阈值的发明人姓名分别确定为共同发明人姓名;将行业类型与共同发明人姓名作为专利数据库中目标企业人员姓名对应的标签。通过划分详细的行业类型标签并确定共同发明人标签,能够精确指向具体的目标企业人员实体,能够有效提高企业数据中同名消歧的准确性。
权利要求

1.一种基于专利数据库的企业人员姓名消歧方法,其特征在于,所述方法包括:

从专利数据库中获取目标企业人员姓名对应的全部专利;

基于专利的IPC分类号对所述全部专利进行划分,得到至少一个相似技术领域的专利集合,并获取各所述专利集合对应的行业类型;

获取各所述专利集合中的发明人姓名,将出现频次大于所设阈值的所述发明人姓名分别确定为共同发明人姓名;

将所述行业类型与所述共同发明人姓名作为所述专利数据库中所述目标企业人员姓名对应的标签。

2.根据权利要求1所述的方法,其特征在于,所述基于专利的IPC分类号对所述全部专利进行划分,得到至少一个相似技术领域的专利集合,包括:

基于所述IPC分类号定义邻域半径,基于所述邻域半径与所述邻域密度阈值对所述全部专利进行划分,得到至少一个相似技术领域的专利集合。

3.根据权利要求2所述的方法,其特征在于,所述基于所述IPC分类号定义邻域半径,基于所述邻域半径与所述邻域密度阈值对所述全部专利进行划分,得到至少一个相似技术领域的专利集合,包括:

以IPC分类号的部为邻域半径对所述全部专利进行划分,得到部对应的多个类型的第一专利集合;

获取各所述第一专利集合的邻域密度;

判断各所述第一专利集合的邻域密度是否都大于所设第一邻域密度阈值;

若各所述第一专利集合的邻域密度都大于所设第一邻域密度阈值,则将各所述第一专利集合作为至少一个相似技术领域的专利集合;

若各所述第一专利集合的邻域密度不都大于所设第一邻域密度阈值,则以IPC分类号的大类为邻域半径对所述全部专利进行划分,得到大类对应的多个类型的第二专利集合,并按照上述方式对多个第二专利集合进行判断,直至以IPC分类号的小组为邻域半径对所述全部专利进行划分得到的专利集合判断完成为止。

4.根据权利要求3所述的方法,其特征在于,所述获取各所述第一专利集合的邻域密度之后,还包括:

若所述第一专利集合的邻域密度小于所述第二邻域密度阈值,则获取所述第一专利集合内的专利数量;

若所述第一专利集合内的专利数量小于数量阈值,则将所述第一专利集合清除。

5.根据权利要求1所述的方法,其特征在于,将出现频次大于所设阈值的发明人姓名分别确定为所述目标企业人员姓名对应的共同发明人姓名,包括:

若所述专利集合中出现频次大于所设阈值的发明人姓名数量为多个,分别获取所述多个出现频次大于所设阈值的发明人姓名对应的专利的申请人;

若所述申请人相同,则将所述多个出现频次大于所设阈值的发明人姓名确定为并列的共同发明人姓名。

6.根据权利要求1所述的方法,其特征在于,所述将所述行业类型与所述共同发明人姓名作为所述专利数据库中对应所述目标企业人员姓名的标签之后,还包括:

在专利数据库中基于各所述专利集合的邻域密度对所述目标企业人员姓名对应的标签进行排序;

显示所述目标企业人员姓名对应的标签的排序结果。

7.根据权利要求1所述的方法,其特征在于,所述获取各所述专利集合对应的行业类型,包括:

将所述专利的IPC分类号与国民经济行业分类代码表进行匹配,得到所述专利的IPC分类号与行业类型的对应关系;

基于所述专利的IPC分类号与行业类型的对应关系,获取各所述专利集合对应的行业类型。

8.一种基于专利数据库的企业人员姓名消歧装置,其特征在于,所述装置包括:

专利获取模块(10),用于从专利数据库中获取目标企业人员姓名对应的全部专利;

行业类型获取模块(20),用于基于专利的IPC分类号对所述全部专利进行划分,得到至少一个相似技术领域的专利集合,并获取各所述专利集合对应的行业类型;

发明人姓名获取模块(30),用于获取各所述专利集合中的发明人姓名,将出现频次大于所设阈值的发明人姓名分别确定为所述目标企业人员姓名对应的共同发明人姓名;

标签添加模块(40),用于将所述行业类型与所述共同发明人姓名作为所述专利数据库中对应所述目标企业人员姓名的标签。

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适用于由处理器加载并执行如权利要求1~7任意一项所述的方法。

10.一种电子设备,其特征在于,包括处理器、存储器和收发器,所述存储器用于存储指令,所述收发器用于和其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述电子设备执行如权利要求1~7任意一项所述的方法。

说明书
技术领域

本申请涉及数据处理领域,具体涉及一种基于专利数据库的企业人员姓名消歧方法及相关设备。

随着知识产权行业的发展,全国各类企业的专利数据大量涌入专利数据库,在海量的专利数据中,往往会出现企业人员姓名相同的情况,导致在检索某个企业人员相关的专利时,会出现检索不准确的情况。而为了提高检索的准确性,则需要对企业人员重名情况进行处理以消歧。传统技术对于企业人员重名情况的处理方式通常是通过对拥有相同姓名的企业人员附加不同的地域标签以及行业标签来进行区分,以此来消除相同姓名造成的歧义。现有的地域标签通常是以省级或市级为基准进行划分的,但由于我国人口基数大,相同省级或市级往往还是存在同名同行业的情况,同时行业标签通常是根据企业的经营范围进行确定的,而企业的经营范围通常涉及的业务较广,导致所确定的行业标签也较为宽泛,因此使用现有的地域标签和行业标签对专利数据库中同名消歧的效果不够理想,消歧的准确性较低。

本申请提供一种基于专利数据库的企业人员姓名消歧方法及相关设备,通过专利的IPC分类号划分专利集合得到细分的行业类型,同时获取共同发明人中出现频次较高的发明人姓名,将行业类型与出现频次较高的发明人姓名作为数据库中区别企业人员姓名的标签,与现有的地域标签与行业标签相比,为专利数据中的相同的企业人员姓名添加更详细的标签,能够更精确地区分专利数据中的同名数据,从而能够更加准确地实现同名消歧。

第一方面,本申请提供了一种基于专利数据库的企业人员姓名消歧方法,所述方法包括:

从专利数据库中获取目标企业人员姓名对应的全部专利;

基于专利的IPC分类号对所述全部专利进行划分,得到至少一个相似技术领域的专利集合,并获取各所述专利集合对应的行业类型;

获取各所述专利集合中的发明人姓名,将出现频次大于所设阈值的发明人姓名分别确定为所述目标企业人员姓名对应的共同发明人姓名;

将所述行业类型与所述共同发明人姓名作为所述专利数据库中对应所述目标企业人员姓名的标签。

通过上述技术方案,使用IPC分类号对专利数据库中的同名专利进行划分,IPC分类号所代表的技术领域是比较详细且准确的,因此所划分的相似技术领域的专利对应的行业类型较为精确可靠,同时与目标企业人员姓名一起出现的发明人绑定作为标签,使得同名人员具有独特的辨识标签,能够更加准确地实现同名消歧。

可选的,所述基于专利的IPC分类号对所述全部专利进行划分,得到至少一个相似技术领域的专利集合,包括:

基于所述IPC分类号定义邻域半径,基于所述邻域半径与所述邻域密度阈值对所述全部专利进行划分,得到至少一个相似技术领域的专利集合。

通过采用上述技术方案,按IPC分类号的五大类作为划分的邻域半径,同时确定邻域密度的阈值,能够依据IPC分类号逐渐缩小技术领域的范围,从同名的全部专利 中划分出相似技术领域的专利集合,能够简单快速的对大量的同名专利进行归类处理。

可选的,所述基于所述IPC分类号定义邻域半径,基于所述邻域半径与所述邻域密度阈值对所述全部专利进行划分,得到至少一个相似技术领域的专利集合,包括:

以IPC分类号的部为邻域半径对所述全部专利进行划分,得到部对应的多个类型的第一专利集合;

获取各所述第一专利集合的邻域密度;

判断各所述第一专利集合的邻域密度是否都大于所设第一邻域密度阈值;

若各所述第一专利集合的邻域密度都大于所设第一邻域密度阈值,则将各所述第一专利集合作为至少一个相似技术领域的专利集合;

若各所述第一专利集合的邻域密度不都大于所设第一邻域密度阈值,则以IPC分类号的大类为邻域半径对所述全部专利进行划分,得到大类对应的多个类型的第二专利集合,并按照上述方式对多个第二专利集合进行判断,直至以IPC分类号的小组为邻域半径对所述全部专利进行划分得到的专利集合判断完成为止。

通过采用上述技术方案,按IPC分类号的大小顺序逐渐缩小相似技术领域的大小,先按IPC分类号中的部为分类依据,计算得到划分的专利集合中的邻域密度,由于以部为分类依据涵盖的专利数量较多,邻域半径较大,因而邻域密度是小于第一邻域密度阈值的,在以IPC大类为分类依据后,邻域半径较大,划分出的专利集合也相对较多,因而邻域密度逐渐增大,直至大于第一邻域密度阈值得到专利集合的划分结果,通过IPC分类号技术领域广度由大到小的顺序,能够快速获取到合适的专利集合划分结果。

可选的,所述获取各所述第一专利集合的邻域密度之后,还包括:

若所述第一专利集合的邻域密度小于所述第二邻域密度阈值,则获取所述第一专利集合内的专利数量;

若所述第一专利集合内的专利数量小于数量阈值,则将所述第一专利集合清除。

通过上述技术方案,若划分出的专利集合的邻域密度低且专利集合类的专利数量少,则说明此专利集合无参考价值,无法准确指向目标企业人员实体,避免对后续对于专利集合的划分产生影响。

可选的,所述将出现频次大于所设阈值的所述发明人姓名确定为共同发明人姓名,包括:

若所述专利集合中出现频次大于所设阈值的发明人姓名数量为多个,分别获取所述多个出现频次大于所设阈值的发明人姓名对应的专利的申请人;

若所述申请人相同,则将所述多个出现频次大于所设阈值的发明人姓名确定为并列的共同发明人姓名。

通过采用上述技术方案,在同一专利集合中,当与目标企业人员姓名同时出现的共同发明人多次出现时,判断这些多次出现的共同发明人的申请人是否相同,相同则说明这些共同发明人与目标企业人员姓名具有相同联系,因此可将这些共同发明人一起并列为目标企业人员姓名的标签,以明确的共同发明人姓名指向目标企业人员姓名。

通过采用上述技术方案,若专利集合中出现频次大于所设阈值的发明人姓名只有一个,则说明此发明人姓名与目标企业人员姓名的联系较大,因此将其确定为共同发明人姓名则比较准确。

可选的,所述将所述行业类型与所述共同发明人姓名作为所述专利数据库中对应所述目标企业人员姓名的标签之后,还包括:

在专利数据库中基于各所述专利集合的邻域密度对所述目标企业人员姓名对应的标签进行排序;

显示所述目标企业人员姓名对应的标签的排序结果。

通过采用上述技术方案,专利集合的邻域密度说明,目标企业人员姓名对应的某个技术领域的专利数量多、消歧效果好,同时将专利样本少、消歧效果差的目标企业人员姓名对应的标签排在后面,提高专利数据库中检索到目标企业人员姓名对应标签的速度。

可选的,所述获取各所述专利集合对应的行业类型,包括:

将所述专利的IPC分类号与国民经济行业分类代码表进行匹配,得到所述专利的IPC分类号与行业类型的对应关系;

基于所述专利的IPC分类号与行业类型的对应关系,获取各所述专利集合对应的行业类型。

通过采用上述技术方案,将IPC分类号与国民经济分类代码表进行匹配,能够根据IPC分类号所代表的技术领域获取精确的行业类型,提高行业类型标签的精度。

第二方面,本申请提供了一种基于专利数据库的企业人员信息消歧装置,所述装置包括:

专利获取模块10,用于从专利数据库中获取目标企业人员姓名对应的全部专利;

行业类型获取模块20,用于基于专利的IPC分类号对所述全部专利进行划分,得到至少一个相似技术领域的专利集合,并获取各所述专利集合对应的行业类型;

发明人姓名获取模块30,用于获取各所述专利集合中的发明人姓名,将出现频次大于所设阈值的发明人姓名分别确定为所述目标企业人员姓名对应的共同发明人姓名;

标签添加模块40,用于将所述行业类型与所述共同发明人姓名作为所述专利数据库中对应所述目标企业人员姓名的标签。

第三方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适用于由处理器加载并执行上述方法。

第四方面,本申请提供了一种电子设备,包括处理器、存储器和收发器,所述存储器用于存储指令,所述收发器用于和其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述电子设备执行上述方法。

综上所述,本申请技术方案所带来的有益效果为:

在专利数据库中通过IPC分类号对目标企业人员姓名对应的专利进行详细的划分,得到相似技术领域的专利集合,以此得到详细的行业类型作为区别标签,并将专利集合中多次出现的共同发明人作为另一个区别标签,使得区分同名的标签更加精确;将两个区别标签共同作为同名消歧的区分点,使得区别标签能够指向具体的目标企业人员,能够有效提升专利数据库中的同名消歧效果。

图1是本申请实施例提供的一种基于专利数据库的企业人员姓名消歧方法的流程示意图;

图2是本申请实施例提供的一种专利集合划分的举例示意图;

图3是本申请实施例提供的另一种专利集合划分的举例示意图;

图4是本申请实施例提供的一种专利集合划分的流程示意图

图5是本申请实施例提供的一种确定共同发明人的举例示意图;

图6是本申请实施例提供的一种基于专利数据库的企业人员姓名消歧装置的结构示意图;

图7是本申请实施例提供的另一种基于专利数据库的企业人员姓名消歧装置的结构示意图;

图8是本申请实施例提供的一种电子设备的结构示意图。

附图标记说明:10、专利获取模块;20、行业类型获取模块;21、专利集合划分模块;22、邻域密度判断模块;23、专利数量判断模块;24、行业类型匹配模块;30、发明人姓名获取模块;31、共同发明人并列模块;40、标签添加模块; 41、标签排序模块; 1000、电子设备;1001、处理器;1002、通信总线;1003、用户接口;1004、网络接口;1005、存储器。

为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。

在本申请实施例的描述中,“示性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个屏幕终端是指两个或两个以上的屏幕终端。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。

首先对本申请的应用场景作简单介绍,专利数据库是以互联网或局域网为平台的大型专利信息服务系统,定期更新来自各个国家或地区的官方专利管理部门的专利信息数据,专利数据库中储存了大量的专利文献,通过对专利信息的深层次的价值挖掘,帮助个人、企业、科研机构提升创新能力和核心竞争力,为企业技术研发、专利战略研究以及科学决策提供强有力的支撑。

随着专利数据库中专利文献的数量不断增加,专利数据库中发明人重名的情况也愈发严重,根据姓名进行检索往往会出现大量的专利信息以及附带的企业及个人信息,相同的姓名指向的实体有多个,单凭现有的地域标签和行业标签难以明确相同的姓名所具体指向的实体。

请参见图1,为本申请实施例提供的一种基于专利数据库的企业人员姓名消歧方法的流程示意图,该方法可依赖于计算机程序实现,可依赖于单片机实现,也可运行于基于冯诺依曼体系的基于专利数据库的企业人员信息消歧装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。本申请实施例以专利数据为分析基础,对基于专利数据库的企业人员信息消歧方法的具体步骤做详细说明。

S101,从专利数据库中获取目标企业人员姓名对应的全部专利。

目标企业人员姓名是指在专利数据库中存有专利数据的企业人员的姓名,由于重名情况的存在,目标企业人员姓名对应有多个专利,专利之间具有较大差异,因此在例如企知道、企查查这类基于专利数据库的网站上查人员姓名时,会呈现出多个一致的姓名,难以得知具体指向的实体。

S102,基于专利的IPC分类号对全部专利进行划分,得到至少一个相似技术领域的专利集合,并获取各专利集合对应的行业类型。

国际专利分类号(International Patent Classification,IPC)是目前国际通用的专利文献分类和检索工具,IPC分类号采用功能和应用相结合,以功能性为主、应用性为辅的分类原则,采用等级的形式将技术内容注明,以部、大类、小类、大组以及小组逐级分类,形成完成的分类体系。

对相同目标企业人员姓名的专利进行分类,以相似的技术领域划分多个专利集合,例如搜索到同名人员的多个专利,按照相似技术领域划分得到卫星通信集合、隧道挖掘集合以及光伏发电集合,这三类专利集合所指向的相同姓名明显是不同邻域的不同实体人员,同时卫星通信集合、隧道挖掘集合以及光伏发电集合对应的行业类型分别可以归类为通信技术行业、隧道工程行业以及光伏开发行业。

在其中一个实施例中,基于IPC分类号定义邻域半径,基于邻域半径与邻域密度阈值对全部专利进行划分,得到至少一个相似技术领域的专利集合。

邻域半径是指划分的专利集合的大小范围,邻域半径大则归类到半径内的专利数量也就越多,反之邻域半径小,划分的专利集合的范围也较小,集合内的专利数量也较少。按照IPC分类号来定义邻域半径,例如使用IPC分类号中邻域半径最大的部来划分专利集合,全部专利会落入8个大的分册中,形成8个邻域半径很大的专利集合,但以此得出的行业类型显然是比较宽泛的,行业类型的参考价值也比较低。

邻域密度是指在邻域半径内的专利数量的聚集程度大小,邻域密度阈值是反映邻域密度是否达到划分标准的依据,举例来说,以部来划分得到的专利集合其中虽然囊括的专利数量较多,但是由于邻域半径较大,使得划分不够精确,需要引入邻域密度来反映专利集合划分的准确性,专利集合只有达到既包含了足够数量的专利,所包含专利的相关性较高,才能确定为专利集合的划分是准确的。邻域密度阈值的设定由所搜索到的同名的全部专利的数量以及IPC专利号划分确定,以准确划分相似技术领域的专利集合为准。

在其中一个实施例中,以IPC分类号的部为邻域半径对全部专利进行划分,得到部对应的多个类型的第一专利集合;获取各第一专利集合的邻域密度;判断各第一专利集合的邻域密度是否都大于所设第一邻域密度阈值;若各第一专利集合的邻域密度都大于所设第一邻域密度阈值,则将各第一专利集合作为至少一个相似技术领域的专利集合;若各第一专利集合的邻域密度不都大于所设第一邻域密度阈值,则以IPC分类号的大类为邻域半径对全部专利进行划分,得到大类对应的多个类型的第二专利集合,并按照上述方式对多个第二专利集合进行判断,直至以IPC分类号的小组为邻域半径对全部专利进行划分得到的专利集合判断完成为止。

请参见图2,为本申请实施例提供的一种专利集合划分的举例示意图,图中黑点类似于目标企业人员姓名对应的全部专利,圈代表划分的专利集合,圈的大小表征了邻域半径的大小。

首先以部为邻域半径进行专利集合的划分,分别得到多个第一专利集合,计算相对于此邻域半径的邻域密度,邻域密度的计算由属于专利集合内的专利数量与邻域半径得到,邻域半径有IPC专利号的五大类分组得到,举例来说,邻域半径按部、大类、小类、大组以及小组可定义为100、80、60、40以及20,邻域半径逐渐缩小,同时IPC分类的范围也逐渐缩小。

将得到的多个第一专利集合的邻域密度分别与定义的第一邻域密度阈值进行比较,若多个第一专利集合的邻域密度均大于第一邻域密度阈值,则说明此邻域半径划分效果已达到专利集合划分要求,可获取专利集合对应的行业类型。

若多个第一专利集合的邻域密度存在不大于第一邻域密度阈值,则说明其中部分专利集合的划分并没有达到专利集合的精度要求,专利集合的划分不够准确,此时需要使用IPC分类号中邻域半径更小的方式进行再次划分,对划分后的第二专利集合进行再次比对,直至所有的专利集合的邻域密度均达到第一邻域密度阈值的要求。

请参见图3,为本申请实施例提供的一种专利集合划分的举例示意图,图中为以大组为专利集合进行划分的情况,由图中可以看出,图中邻域半径减小,但邻域密度是明显增大的,说明专利集合的中的专利技术领域相似度较高,说明此专利集合内的专利指向同一企业人员实体可能性很大,根据此专利集合的技术领域得到的对应的行业类型的准确性也是比较高的,可以细化到比较精细的行业类型。

在其中一个实施例中,若第一专利集合的邻域密度小于第二邻域密度阈值,则获取第一专利集合内的专利数量;若第一专利集合内的专利数量小于数量阈值,则将第一专利集合清除。

第二邻域密度阈值基于目标企业人员姓名所对应的全部专利的数量,当划分出的专利集合的邻域密度小于第二邻域密度阈值,判断集合内的专利数量是否小于数量阈值,若均满足条件,则说明专利集合内的专利数量太少,对于区分目标企业人员无数据参考价值,需及时舍去以免对后续精确划分其它专利集合产生影响。

请参见图4,为本申请实施例提供的一种专利集合划分的流程示意图,图中以IPC分类号作为邻域半径对全部专利集合进行划分,得到多个类型的专利集合,若专利集合的邻域密度小于第二邻域密度且专利集合内的专利数量小于数量阈值,则清除该专利集合,判断得到的多个专利集合的邻域密度是否都大于第一邻域密度阈值,若均达到第一邻域密度阈值,则输出多个专利集合,若存在未达到第一密度阈值的专利集合,则使用更小等级的IPC分类号对全部专利再次进行划分,重新执行上述判断,直至达到满足要求的专利集合。

在其中一个实施例中,将专利的IPC分类号与国民经济行业分类代码表进行匹配,得到专利的IPC分类号与行业类型的对应关系;基于专利的IPC分类号与行业类型的对应关系,获取各专利集合对应的行业类型。

将专利IPC分类号的与国民经济行业分类代码表进行匹配,由此可获得详细的行业类型,现有的行业类型的分类较为宽泛,并且可能只是对其中某些重名人员做了行业类型的划分,多数由于同名歧义难以根据单个专利对目标企业人员姓名进行行业类型的判断,因此使用较多的相似技术领域的专利的专利集合来进行行业判断,判断的可靠性能够得到明显提高。

S103,获取各专利集合中的发明人姓名,将出现频次大于所设阈值的发明人姓名分别确定为共同发明人姓名。

发明人姓名为专利集合中各个专利的所有发明人姓名,其中包括目标企业人员姓名,此处目的为到和目标企业人员姓名同时出现次数较多的共同发明人姓名,共同发明人姓名可作为辨识目标企业人员姓名的标签,举例来说,在一个专利集合中,两个姓名均为张三的人,两人均从事餐饮行业,其中一个张三的好友为李四,而另一个张三的好友为王五,我们即可通过李四或王五从姓名层面分辨出张三的区别,本申请举例所提及的姓名并非真实姓名,只为清楚解释如何通过共同发明人区分目标企业人员姓名。

将出现频次大于所设阈值的发明人姓名确定为共同发明人姓名,与目标企业人员姓名多次出现即可排除偶然因素的干扰,具有相同姓名且在同一细分行业类型以及多次出现的共同发明人,这些标签信息指向的实体人物较为清晰。

在其中一个实施例中,若专利集合中出现频次大于所设阈值的发明人姓名数量为多个,分别获取多个出现频次大于所设阈值的发明人姓名对应的专利的申请人;若申请人相同,则将多个出现频次大于所设阈值的发明人姓名确定为并列的共同发明人姓名。

在某一专利集合中出现频次较多的发明人姓名,获取这些出现频次较多的发明人姓名对应专利的申请人,若申请人相同,则说明高频次出现的发明人姓名与目标企业人员姓名所代表的实体人与同一申请人有关系,即隶属于同一个公司,因此可将多个高频次出现的发明人姓名一起确定为共同发明人姓名。

举例来说,请参见图5,为本申请实施例提供的一种确定共同发明人的举例示意图,在一个专利集合中,甲为目标企业人员姓名,与甲同时出现的发明人姓名乙出现频次为5次,与甲同时出现的发明人姓名丙出现频次为6次,获取同时出现5次的乙与同时出现6次的丙的专利的申请人丁公司,若申请人相同,则说明乙、丙均与甲存在社会关系,因此可将乙与丙同时作为共同发明人姓名,提高对目标企业人员姓名甲消歧的准确性,本申请所提及的申请人相同并非独指需要申请人全部相同,若存在多个申请人相同,少数几个申请人不相同以及申请人与发明人相同的情况,也可作为并列的共同发明人。

S104,将行业类型与共同发明人姓名作为专利数据库中目标企业人员姓名对应的标签。

将行业类型与共同发明人一起作为目标企业人员的标签,为显示的相同的姓名附加不同的标签,用以准确区分同名人员,能够准确达到同名消歧的作用。

在其中一个实施例中,在专利数据库中基于各专利集合的邻域密度对目标企业人员姓名对应的标签进行排序;显示目标企业人员姓名对应的标签的排序结果。

一个专利集合的邻域密度越大,说明专利集合划分的技术领域越契合集合内的专利,或是专利集合内的专利数量越大,使得指向企业人员姓名的参考专利数量越多,得出的结果越精确。因此将更准确的目标企业人员姓名对应的标签排在前面,以便快速得到可靠与准确的排序结果。

通过上述技术方案,通过IPC分类号对相同目标企业人员姓名的全部专利进行分类,得到相似技术领域的专利集合,按相似技术领域得到行业类型,再在专利集合中确定共同发明人作为另一个区分标签,使用行业类型与共同发明人作为标签以起到企业数据中的同名消歧,行业类型标签与共同发明人标签均为指向目标企业人员实体的具体详细的标签,因此能够有效提高消歧的准确性。

请参见图6,其示出了本申请一个示例性实施例提供的基于专利数据库的企业人员姓名消歧装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该装置包括专利获取模块10、行业类型获取模块20、发明人姓名获取模块30以及标签添加模块40。

专利获取模块10,用于从专利数据库中获取目标企业人员姓名对应的全部专利。

行业类型获取模块20,用于基于专利的IPC分类号对全部专利进行划分,得到至少一个相似技术领域的专利集合,并获取各专利集合对应的行业类型。

发明人姓名获取模块30,用于获取各专利集合中的发明人姓名,将出现频次大于所设阈值的发明人姓名分别确定为目标企业人员姓名对应的共同发明人姓名。

标签添加模块40,用于将行业类型与共同发明人姓名作为专利数据库中对应目标企业人员姓名的标签。

请参见图7,图7为本申请实施例提供的另一种基于专利数据库的企业人员姓名消歧装置的结构示意图。

可选的,如图7所示,装置还包括:

专利集合划分模块21,用于基于IPC分类号定义邻域半径,基于邻域半径与邻域密度阈值对全部专利进行划分,得到至少一个相似技术领域的专利集合。

可选的,如图7所示,装置还包括:

邻域密度判断模块22,用于以IPC分类号的部为邻域半径对全部专利进行划分,得到部对应的多个类型的第一专利集合;获取各第一专利集合的邻域密度;判断各第一专利集合的邻域密度是否都大于所设第一邻域密度阈值;若各第一专利集合的邻域密度都大于所设第一邻域密度阈值,则将各第一专利集合作为至少一个相似技术领域的专利集合;若各第一专利集合的邻域密度不都大于所设第一邻域密度阈值,则以IPC分类号的大类为邻域半径对全部专利进行划分,得到大类对应的多个类型的第二专利集合,并按照上述方式对多个第二专利集合进行判断,直至以IPC分类号的小组为邻域半径对全部专利进行划分得到的专利集合判断完成为止。

可选的,如图7所示,装置还包括:

专利数量判断模块23,用于若第一专利集合的邻域密度小于第二邻域密度阈值,则获取第一专利集合内的专利数量;若第一专利集合内的专利数量小于数量阈值,则将第一专利集合清除。

可选的,如图7所示,装置还包括:

共同发明人并列模块31,用于若专利集合中出现频次大于所设阈值的发明人姓名数量为多个,分别获取多个出现频次大于所设阈值的发明人姓名对应的专利的申请人;若申请人相同,则将多个出现频次大于所设阈值的发明人姓名确定为并列的共同发明人姓名。

可选的,如图7所示,装置还包括:

标签排序模块41,用于在专利数据库中基于各专利集合的邻域密度对目标企业人员姓名对应的标签进行排序;显示目标企业人员姓名对应的标签的排序结果。

可选的,如图7所示,装置还包括:

行业类型匹配模块24,用于将专利的IPC分类号与国民经济行业分类代码表进行匹配,得到专利的IPC分类号与行业类型的对应关系;基于专利的IPC分类号与行业类型的对应关系,获取各专利集合对应的行业类型。

本申请实施例还提供了一种计算机存储介质,计算机存储介质可以存储有多条指令,指令适于由处理器加载并执行如上述图1~图7所示实施例的一种基于专利数据库的企业人员姓名消歧的方法,具体执行过程可以参见图1~图7所示实施例的具体说明,在此不进行赘述。

请参见图8,为本申请实施例提供了一种电子设备的结构示意图。如图8所示,所述电子设备1000可以包括:至少一个处理器1001,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。

其中,通信总线1002用于实现这些组件之间的连接通信。

其中,用户接口1003可以包括显示屏(Display)、摄像头(Camera),可选用户接口1003还可以包括标准的有线接口、无线接口。

其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各种接口和线路连接整个服务器内的各个部分,通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集,以及调用存储在存储器1005内的数据,执行服务器的各种功能和处理数据。可选的,处理器1001可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1001中,单独通过一块芯片进行实现。

其中,存储器1005可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图8所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及一种基于专利数据库的企业人员姓名消歧的应用程序。

在图8所示的电子设备1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;而处理器1001可以用于调用存储器1005中存储一种基于专利数据库的企业人员姓名消歧的应用程序,当由一个或多个处理器执行时,使得电子设备执行如上述实施例中一个或多个所述的方法。

一种电子设备可读存储介质,所述电子设备可读存储介质存储有指令。当由一个或多个处理器执行时,使得电子设备执行如上述实施例中一个或多个所述的方法。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必需的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所披露的装置,可通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其他的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践真理的公开后,将容易想到本公开的其他实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。

本文发布于:2024-09-24 07:16:55,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/68093.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议