基于科技内容的机构及作者管理系统、方法、终端及介质

著录项
  • CN202011294066.8
  • 20201118
  • CN114519089A
  • 20220520
  • 上海市研发公共服务平台管理中心
  • 王茜;胡寅骏;徐永斌
  • G06F16/31
  • G06F16/31 G06F16/335 G06F16/35 G06F16/38

  • 上海市徐汇区钦州路100号2号楼4楼
  • 上海(31)
  • 上海光华专利事务所(普通合伙)
  • 倪静
摘要
本申请提供基于科技内容的机构及作者管理系统、方法、终端及介质,本发明利用专利和论文等科技数据,提供了一种用于对机构及作者进行管理的解决方案,适用科学数据领域检索的机构和人才的中英文、外文的信息语料库,利用词频、短语相似度等方法基于专利的同族专利(pct和优先权)的数据来构建语料库,来实现一个名称的全关联和全检所的需求。
权利要求

1.一种基于科技内容的机构及作者管理系统,其特征在于,包括:

映射表构建模块,用于通过同族专利、PCT专利或科技论文来确定基于中文版本和外文版本的同一份科技文献,并分别提取中文机构名称、外文机构名称、中文作者姓名、外文作者姓名,据以构建机构基础映射表和人名基础映射表;

映射表优化模块,用于基于企业数据和/或百科数据,对所述机构基础映射表和人名基础映射表进行优化;

标准化模块,用于对优化后的机构基础映射表和人名基础映射表进行标准化处理,以令映射表中每一条记录都具备唯一性;

聚合模块,用于对机构基础映射表和人名基础映射表,先按照姓名进行聚合,再按照机构名称进行聚合,以生成每个机构实体的中文表达集合和外文表达集合,以及每个作者实体的中文表达集合和外文表达集合。

2.根据权利要求1所述的机构及作者管理系统,其特征在于,所述映射表构建模块构建映射表的过程包括:

通过PCT和优先权标签建立同族专利关系,利用Spark大数据处理技术分别抽取不同语言版本的申请人和发明人;

选取申请人和发明人数量一致的不同语言版本的专利;

以申请人及发明人的中文版本为唯一标识,抽取中文名称的英文版和其他语言版本,据以输出对应的机构基础映射表和人名基础映射表。

3.根据权利要求1所述的机构及作者管理系统,其特征在于,所述映射表优化模块基于企业数据对所述机构基础映射表和人名基础映射表进行优化,包括:从企业信用查询平台查询机构实体的曾用名和/或别名信息;将机构的曾用名和/或别名信息补充至该机构实体所对应的映射表中。

4.根据权利要求1所述的机构及作者管理系统,其特征在于,所述映射表优化模块基于百科数据对所述机构基础映射表和人名基础映射表进行优化,包括:从百科平台中查询机构实体和作者实体的不同语言表述信息;将机构实体和作者实体的不同语言表述信息补充至实体所对应的映射表中。

5.根据权利要求1所述的机构及作者管理系统,其特征在于,所述映射表优化模块对机构映射表进行优化的过程如下:

获取机构基础映射表和既有机构映射表;所述既有机构映射表至少包括跨源合并的机构库初版;

将既有机构映射表反映到机构基础映射表中,以使既有机构映射表中的每一个机构名称表述都能与机构基础映射表中的机构名称相匹配,并将机构名称的曾用名或别名分别写入相应的栏位中;

忽略字符串长度小于预设长度的机构实体;

从既有机构映射表中抽取机构的机构ID和机构的不同表述构成待处理机构映射表,对所述待待处理机构映射表中的所有机构表述进行预处理;所述预处理的方式至少包括如下任一种:忽略大小写并去掉正则表达、删除标点符号、将全部小写字母改为大写字母、同一全角括号和半角括号、将机构名称末尾括号中的内容提取到机构名称最前面并删除括号、将机构名称反序排列;

将经过预处理后的机构表述与机构基础映射表中的机构表述,分别两两计算字符串相似度,选择最高相似度作为既有机构映射表的机构实体与机构基础映射表中的机构实体之间的相似度;

在完成一轮字符串相似度计算后,选择最高的字符串相似度,若该相似度大于预设阈值,则确定为同一个机构实体,并将该机构实体在既有机构映射表中的相关信息记入机构基础映射表中。

6.根据权利要求1所述的机构及作者管理系统,其特征在于,所述映射表优化模块对人名映射表进行优化的过程如下:

获取人名基础映射表和既有人名映射表;

忽略字符串长度小于预设长度的作者实体;

从既有人名映射表中抽取作者ID及作者姓名的不同表述,并对所有作者姓名进行预处理;所述预处理的方式包括如下任一种:修改或删除指定的标点符号、将全部小写字母改为大写字母、将英文表述中字符串长度小于2的人名删除、对英文表述的人名的字母进行顺序交换;

将预处理后的人名表述与人名基础映射表中的所有人名表述,分别两两计算字符串相似度,选择最高相似度作为既有人名映射表的作者实体与人名基础映射表中作者实体的相似度;

在完成一轮字符串相似度计算后,选择最高的字符串相似度,若该相似度大于预设阈值,则确定为同一个作者实体,并将该作者实体在既有人名映射表中的相关信息记入人名基础映射表中。

7.根据权利要求1所述的机构及作者管理系统,其特征在于,所述聚合模块在机构名称确实的情况下,按照机构地址进行聚合。

8.一种基于科技内容的机构及作者管理方法,其特征在于,包括:

通过同族专利、PCT专利或科技论文来确定基于中文版本和外文版本的同一份科技文献,并分别提取中文机构名称、外文机构名称、中文作者姓名、外文作者姓名,据以构建机构基础映射表和人名基础映射表;

基于企业数据和/或百科数据,对所述机构基础映射表和人名基础映射表进行优化;

对优化后的机构基础映射表和人名基础映射表进行标准化处理,以令映射表中每一条记录都具备唯一性;

对机构基础映射表和人名基础映射表,先按照姓名进行聚合,再按照机构名称进行聚合,以生成每个机构实体的中文表达集合和外文表达集合,以及每个作者实体的中文表达集合和外文表达集合。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求8所述基于科技内容的机构及作者管理方法。

10.一种电子终端,其特征在于,包括:处理器及存储器;

所述存储器用于存储计算机程序;

所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行如权利要求8所述基于科技内容的机构及作者管理方法。

说明书
技术领域

本申请涉及科技数据管理领域,特别是涉及基于科技内容的机构及作者管理系统、方法、终端及介质。

随着大数据的飞速发展,数据之间的联系和打通显得尤为重要,但一个实体的名称可能有别称,中英文,外文等不同表示,正是由于同一个实体有多种不同表述,所以检索结果往往不够全面,尤其是在检索科学类数据时,这种问题变得尤为突出。

鉴于以上所述现有技术的缺点,本申请的目的在于提供基于科技内容的机构及作者管理系统、方法、终端及介质,用于解决现有技术中同一个实体有多种不同表述,所以检索结果往往不够全面的问题。

为实现上述目的及其他相关目的,本申请的第一方面提供一种基于科技内容的机构及作者管理系统,包括:映射表构建模块,用于通过同族专利、PCT专利或科技论文来确定基于中文版本和外文版本的同一份科技文献,并分别提取中文机构名称、外文机构名称、中文作者姓名、外文作者姓名,据以构建机构基础映射表和人名基础映射表;映射表优化模块,用于基于企业数据和/或百科数据,对所述机构基础映射表和人名基础映射表进行优化;标准化模块,用于对优化后的机构基础映射表和人名基础映射表进行标准化处理,以令映射表中每一条记录都具备唯一性;聚合模块,用于对机构基础映射表和人名基础映射表,先按照姓名进行聚合,再按照机构名称进行聚合,以生成每个机构实体的中文表达集合和外文表达集合,以及每个作者实体的中文表达集合和外文表达集合。

于本申请的第一方面的一些实施例中,所述映射表构建模块构建映射表的过程包括:通过PCT和优先权标签建立同族专利关系,利用Spark大数据处理技术分别抽取不同语言版本的申请人和发明人;选取申请人和发明人数量一致的不同语言版本的专利;以申请人及发明人的中文版本为唯一标识,抽取中文名称的英文版和其他语言版本,据以输出对应的机构基础映射表和人名基础映射表。

于本申请的第一方面的一些实施例中,所述映射表优化模块基于企业数据对所述机构基础映射表和人名基础映射表进行优化,包括:从企业信用查询平台查询机构实体的曾用名和/或别名信息;将机构的曾用名和/或别名信息补充至该机构实体所对应的映射表中。

于本申请的第一方面的一些实施例中,所述映射表优化模块基于百科数据对所述机构基础映射表和人名基础映射表进行优化,包括:从百科平台中查询机构实体和作者实体的不同语言表述信息;将机构实体和作者实体的不同语言表述信息补充至实体所对应的映射表中。

于本申请的第一方面的一些实施例中,所述映射表优化模块对机构映射表进行优化的过程如下:获取机构基础映射表和既有机构映射表;所述既有机构映射表至少包括跨源合并的机构库初版;将既有机构映射表反映到机构基础映射表中,以使既有机构映射表中的每一个机构名称表述都能与机构基础映射表中的机构名称相匹配,并将机构名称的曾用名或别名分别写入相应的栏位中;忽略字符串长度小于预设长度的机构实体;从既有机构映射表中抽取机构的机构ID和机构的不同表述构成待处理机构映射表,对所述待待处理机构映射表中的所有机构表述进行预处理;所述预处理的方式至少包括如下任一种:忽略大小写并去掉正则表达、删除标点符号、将全部小写字母改为大写字母、同一全角括号和半角括号、将机构名称末尾括号中的内容提取到机构名称最前面并删除括号、将机构名称反序排列;将经过预处理后的机构表述与机构基础映射表中的机构表述,分别两两计算字符串相似度,选择最高相似度作为既有机构映射表的机构实体与机构基础映射表中的机构实体之间的相似度;在完成一轮字符串相似度计算后,选择最高的字符串相似度,若该相似度大于预设阈值,则确定为同一个机构实体,并将该机构实体在既有机构映射表中的相关信息记入机构基础映射表中。

于本申请的第一方面的一些实施例中,所述映射表优化模块对人名映射表进行优化的过程如下:获取人名基础映射表和既有人名映射表;忽略字符串长度小于预设长度的作者实体;从既有人名映射表中抽取作者ID及作者姓名的不同表述,并对所有作者姓名进行预处理;所述预处理的方式包括如下任一种:修改或删除指定的标点符号、将全部小写字母改为大写字母、将英文表述中字符串长度小于2的人名删除、对英文表述的人名的字母进行顺序交换;将预处理后的人名表述与人名基础映射表中的所有人名表述,分别两两计算字符串相似度,选择最高相似度作为既有人名映射表的作者实体与人名基础映射表中作者实体的相似度;在完成一轮字符串相似度计算后,选择最高的字符串相似度,若该相似度大于预设阈值,则确定为同一个作者实体,并将该作者实体在既有人名映射表中的相关信息记入人名基础映射表中。

于本申请的第一方面的一些实施例中,所述聚合模块在机构名称确实的情况下,按照机构地址进行聚合。

为实现上述目的及其他相关目的,本申请的第二方面提供一种基于科技内容的机构及作者管理方法,包括:通过同族专利、PCT专利或科技论文来确定基于中文版本和外文版本的同一份科技文献,并分别提取中文机构名称、外文机构名称、中文作者姓名、外文作者姓名,据以构建机构基础映射表和人名基础映射表;基于企业数据和/或百科数据,对所述机构基础映射表和人名基础映射表进行优化;对优化后的机构基础映射表和人名基础映射表进行标准化处理,以令映射表中每一条记录都具备唯一性;对机构基础映射表和人名基础映射表,先按照姓名进行聚合,再按照机构名称进行聚合,以生成每个机构实体的中文表达集合和外文表达集合,以及每个作者实体的中文表达集合和外文表达集合。

为实现上述目的及其他相关目的,本申请的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于科技内容的机构及作者管理方法。

为实现上述目的及其他相关目的,本申请的第四方面提供一种电子终端,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行所述基于科技内容的机构及作者管理方法。

如上所述,本申请的基于科技内容的机构及作者管理系统、方法、终端及介质,具有以下有益效果:本发明利用专利和论文等科技数据,提供了一种用于对机构及作者进行管理的解决方案,适用科学数据领域检索的机构和人才的中英文、外文的信息语料库,利用词频、短语相似度等方法基于专利的同族专利(pct和优先权)的数据来构建语料库,来实现一个名称的全关联和全检所的需求。

图1显示为本申请一实施例中基于科技内容的机构及作者管理系统的结构示意图。

图2显示为本申请一实施例中基于科技内容的机构及作者管理方法的流程示意图。

图3显示为本申请一实施例中电子终端的结构示意图。

以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

需要说明的是,在下述描述中,参考附图,附图描述了本申请的若干实施例。应当理解,还可使用其他实施例,并且可以在不背离本申请的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本申请的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本申请。空间相关的术语,例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等,可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。

在本申请中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”、“固持”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。

再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。

为了使本发明的目的、技术方案及优点更加清楚明白,通过下述实施例并结合附图,对本发明实施例中的技术方案的进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。

如图1所示,展示了本发明一实施例中的基于科技内容的机构及作者管理系统的结构示意图。本实施例中基于科技内容的机构及作者管理系统100包括映射表构建模块101、映射表优化模块102、标准化模块103、聚合模块104。下文,将针对各个模块的原理做进一步的解释与说明。

映射表构建模块101,用于通过同族专利、PCT专利或科技论文来确定基于中文版本和外文版本的同一份科技文献,并分别提取中文机构名称、外文机构名称、中文作者姓名、外文作者姓名,据以构建机构基础映射表和人名基础映射表。

应理解的是,同族专利是基于同一优先权文件,在不同国家或地区,以及地区间专利组织多次申请、多次公布或批准的内容相同或基本上相同的一组专利文献;PCT专利是申请人就一项发明创造在《专利合作条约》PCT缔约国获得专利保护时,按照规定的程序向某一缔约国的专利主管部门提出的专利申请。科技论文例如有SCI论文,是指被ScientificCitationIndex收录的期刊所刊登的论文。

在专利申请中,通过优先权或者PCT连接的两个专利通常是同一个专利的不同语言版本,因此可通过同族专利标签或者PCT标签到专利之间的关联关系。基于类似的道理,同一份SCI论文,同一个实体可能会有不同的表述,有中文的也有外文的,因此可以将这些相同实体对应的不同表述版本建立关联关系。

为便于理解,以专利为例来说明:映射表构建模块101执行如下各步骤:

①通过PCT和优先权标签建立同族专利关系,利用Spark大数据处理技术分别抽取不同语言版本的申请人和发明人(此处的申请人作为机构,发明人作为作者)。

②判断不同语言版本的申请人、发明人的数量是否一致,考虑到实操性,本实施例只选用数量一致的同族专利的申请人和发明人作为多语言实体词典的来源。

③以申请人、发明人的中文版本为唯一标识,抽取中文名称的英文版和其他语言版本;如没有中文版本唯一标识,则让英文名称作为唯一标识;应理解的是,由于中文名称的重复率比其他语言低且辨识度更高,因此本实施例中以申请人、发明人的中文版本为唯一标识。

④输出对应的机构基础映射表和人名基础映射表,标准格式如<标准中文名、标准英文名、中文名集合、英文名集合、其他外文名集合>,其中标准中文名和标准英文名是唯一的,原则上一标准中文名为主,如缺少标准中文名则以标准英文名为主。

映射表优化模块102用于基于企业数据和/或百科数据,对所述机构基础映射表和人名基础映射表进行优化,例如进行一些扩展和补充工作。具体来说,企业数据可从一些企业信用查询平台(如企查查、启信宝、天眼查等平台)查询机构的曾用名或别称等信息;百科数据(如、百度百科等)用于补充机构名称和作者姓名的不同语言表述。

为便于理解,先以机构基础映射表为例来说明:映射表优化模块102对机构名称进行优化的执行步骤如下所述:

①获取机构基础映射表和既有机构映射表;其中的既有机构映射表例如高校映射表、跨源合并的机构库初版、以及后期有机构库则可从机构库中抽出。

②将既有机构映射表反映到机构基础映射表,也即既有机构映射表中的任何一个机构名称表述都能与机构基础映射表中的任何一个机构名称匹配,将机构名称的其他表述(如曾用名或别称等)分别写入相应的栏位中,并将机构标准中英文名称更新为机构基础映射表中对应字段的名称表述。

③确保企业信用查询平台中的曾用名或别名都已经反映到既有机构映射表中,如未反映,则需要重新将企业信用查询平台中的曾用名或别名数据进行收录。

④忽略字符串长度小于预设长度的机构实体(例如字符串长度小于4),这些字符串过短的机构名称可以视为干扰项,将其记录到备份表中即可。

⑤从既有机构映射表中抽取机构的机构ID和机构的不同表述构成待处理机构映射表,对所述待处理机构映射表中所有机构表述进行以下预处理:

预处理1)忽略大小写去掉正则表达,例如:“(两合|责任|科技|技术|责任|股份|合伙|(合伙))*(有限)*公司”、“CORP(ERATION)*[.,]*$”、“GMBH$”、“INC[.,]*$司”、“株式会社司”。

预处理2)删除标点符号,如:分号(;)、逗号(,)、横杠(-)等。

预处理3)将全部小写字母改为大写字母。

预处理4)统一全角括号和半角括号,例如将所有的半角括号都改为全角括号。

预处理5)将机构名称末尾括号中的内容提取到机构名称最前面并删除括号。例如:将原先的机构名称“XXX(苏州)YYY”,修改为“苏州XXXYYY”。

预处理6)将机构名称反序排列,英文机构名称则是按照空格切分单词后反序排列。例如,将“上海科技发展”变更为“展发技科海上”,将“Shanghai Technology”变更为“Technology Shanghai”。

将预处理后的机构表述与机构基础映射表中的所有机构表述,分别两两计算字符串相似度,选择最高相似度作为既有机构映射表的机构实体与机构基础映射表中的机构实体之间的相似度。对机构基础映射表运行完一轮字符串相似度计算后,挑选出最大的字符串相似度,当挑选出的最大字符串相似度大于预设阈值(如0.8,可根据实际情况做调整)时,认为机构实体为同一个实体,于是可将既有机构映射表的相关信息记入机构基础映射表中。

需说明的是,本实施例中计算字符串相似度的方式包括但不限于:字符串编辑距离算法、余弦相似度算法、矩阵相似度算法等。以其中的字符串编辑距离算法为例来说明,假设字符串的操作只有3种:插入一个字符、删除一个字符、替换一个字符,两个字符串之间的编辑距离定义为从字符串str1到str2的最少的操作次数。

在全部执行完上述步骤后,对机构基础映射表中的机构名称表述进行查重,遇到重复的表述则重新计算该表述与其他同一实体中的不同表述的字符串相似度作为该表述与实体的相似度;按照出现重复表述的不同实体分别取出该表述与不同实体的相似度,保留相似度最大的一组,删除其他机构实体中的该重复表述。

下文以人名基础映射表为例来说明:映射表优化模块102对作者姓名进行优化的执行步骤如下所述:

①获取人名基础映射表和既有人名映射表;其中的既有人名映射表例如是跨源合并的人才库初版、以及后期有人才库则可从人才库中抽出。

②将既有人名映射表反映到人名基础映射表,也即既有人名映射表中的任何一个作者姓名的表述都能与人名基础映射表中的任何一个作者姓名匹配,将作者姓名的其他表述分别写入相应的栏位中,并将作者姓名标准中英文名称更新为人名基础映射表中对应字段的名称表述。

③忽略字符串长度小于预设长度的作者实体(例如字符串长度小于4),这些字符串过短的作者姓名可以视为干扰项,将其记录到备份表中即可。

④从既有人名映射表中抽取作者ID及作者姓名的不同表述,并对所有作者姓名进行以下预处理:

预处理1)将“-”替换为空格,并删除标点符号,如:分号(;)、逗号(,)、横杠(-)等。

预处理2)将全部小写字母改为大写字母。

预处理3)英文表述的人名若字符串长度小于2,通常是首字母缩写,需要删掉。

预处理4)对英文表述的人名的字母进行排序交换,例如A B C除了A B C以外还增加B A C、A C B、C A B和C B A等。

将预处理后的人名表述与人名基础映射表中的所有人名表述,分别两两计算字符串相似度,选择最高相似度作为既有人名映射表的作者实体与人名基础映射表中作者实体的相似度;对人名基础映射表运行完一轮字符串相似度计算后,挑选出最大的字符串相似度,当挑选出的最大字符串相似度大于预设阈值(如0.92,可根据实际情况做调整)时,认为作者实体为同一个实体,于是可将既有人名映射表的相关信息记入人名基础映射表中。

将人名基础映射表中的人名切词(添加复姓词典),然后转换成拼音,进行交换排列(如A B C除了A B C以外还增加B A C、A C B、C A B和C B A)后补集加入到人名英文名称集合中。

标准化模块103用于对优化后的机构基础映射表和人名基础映射表进行标准化处理,以确保每条记录存在的唯一性。

具体来说,标准化模块103可通过二重循环算法或快排优化算法来验证机构实体和作者实体的唯一性。其中,二重循环算法是建立两重循环来校验每个实体是否唯一;快排优化算法可使用quick sort排序算法进行元素排序,再取第一个值。由于二重循环算法或快排优化算法都是现有技术,故不再赘述。

聚合模块104用于对机构基础映射表和人名基础映射表,先按照姓名进行聚合,再按照机构名称进行聚合;在机构名称缺失的情况下,按照机构地址进行进行聚合,最后以生成每个机构实体的中文表达集合和外文表达集合,以及每个作者实体的中文表达集合和外文表达集合。

具体来说,按照作者姓名、机构名称、作者地址、机构地址选出用于消岐的候选人组;对既有机构映射表和既有人名映射表中抽取<作者ID,机构名称,作者姓名,作者地址,论文ID,专利ID>;确保合并用的素菜中有机构名称或者人才地址;利用机构映射表对机构名称进行标准化;利用人名映射表对作者姓名进行改写,改写为人名的英文标准名称,例如没有英文标准名称,则使用中文标准名称。需说明的是,若在后续合并时产生不同姓名称呼都被错误合并在一起的情况(例如张三、章三、Jack Zhang、Tony Zhang、San Zhang、Zhangsan都被合并到一起),则进行消歧处理。

在聚合过程中,可先按照作者姓名进行聚合,再按照标准化后的机构名称进行聚合;若没有机构名称,则按照机构地址进行聚合。其中,按照机构地址进行聚合的规则为:在进行分词处理后,机构地址分词集合之间的Dice系数大于预设阈值(例如可取经验值0.6,也可根据实际情况做调整)进行合并。

应理解的是,Dice系数可以计算两个字符串之间的相似度:

Dice(s1,s2)=2*comm(s1,s2)/(leng(s1)+leng(s2));其中,comm(s1,s2)是s1、s2中相同字符的个数leng(s1),leng(s2)是字符串s1、s2的长度。

应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,x模块可以为单独设立的处理元件,也可以集成在上述系统的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述系统的存储器中,由上述系统的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital signal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。

如图2所示,展示了本发明一实施例中基于科技内容的机构及作者管理方法的流程示意图。本实施例的机构及作者管理方法包括步骤S21~S24。

步骤S21:通过同族专利、PCT专利或科技论文来确定基于中文版本和外文版本的同一份科技文献,并分别提取中文机构名称、外文机构名称、中文作者姓名、外文作者姓名,据以构建机构基础映射表和人名基础映射表。

步骤S22:基于企业数据和/或百科数据,对所述机构基础映射表和人名基础映射表进行优化。

步骤S23:对优化后的机构基础映射表和人名基础映射表进行标准化处理,以令映射表中每一条记录都具备唯一性。

步骤S24:对机构基础映射表和人名基础映射表,先按照姓名进行聚合,再按照机构名称进行聚合,以生成每个机构实体的中文表达集合和外文表达集合,以及每个作者实体的中文表达集合和外文表达集合。

需说明的是,本实施例提供的基于科技内容的机构及作者管理方法,可应用于ARM(Advanced RISC Machines)控制器、FPGA(Field Programmable Gate Array)控制器、SoC(System on Chip)控制器、DSP(Digital Signal Processing)控制器、或者MCU(Micorcontroller Unit)控制器等硬件;也可应用于台式电脑、笔记本电脑、平板电脑、智能手机、智能手环、智能手表、智能头盔、智能电视、个人数字助理(Personal DigitalAssistant,简称PDA)等个人电脑;还可应用于服务器,所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上,也可以由分布的或集中的服务器集构成。

如图3所示,展示了本发明一实施例中的电子终端的结构示意图。本实例提供的电子终端,包括:处理器31、存储器32、通信器33;存储器32通过系统总线与处理器31和通信器33连接并完成相互间的通信,存储器32用于存储计算机程序,通信器33用于和其他设备进行通信,处理器31用于运行计算机程序,使电子终端执行如上基于科技内容的机构及作者管理方法的各个步骤。

上述提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。

上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于科技内容的机构及作者管理方法。

于本申请提供的实施例中,所述计算机可读写存储介质可以包括只读存储器、随机存取存储器、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁存储设备、闪存、U盘、移动硬盘、或者能够用于存储具有指令或数据结构形式的期望的程序代码并能够由计算机进行存取的任何其它介质。另外,任何连接都可以适当地称为计算机可读介质。例如,如果指令是使用同轴电缆、光纤光缆、双绞线、数字订户线(DSL)或者诸如红外线、无线电和微波之类的无线技术,从网站、服务器或其它远程源发送的,则所述同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线电和微波之类的无线技术包括在所述介质的定义中。然而,应当理解的是,计算机可读写存储介质和数据存储介质不包括连接、载波、信号或者其它暂时性介质,而是旨在针对于非暂时性、有形的存储介质。如申请中所使用的磁盘和光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光光盘,其中,磁盘通常磁性地复制数据,而光盘则用激光来光学地复制数据。

综上所述,本申请提供基于科技内容的机构及作者管理系统、方法、终端及介质,本发明利用专利和论文等科技数据,提供了一种用于对机构及作者进行管理的解决方案,适用科学数据领域检索的机构和人才的中英文、外文的信息语料库,利用词频、短语相似度等方法基于专利的同族专利(pct和优先权)的数据来构建语料库,来实现一个名称的全关联和全检所的需求。所以,本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。

本文发布于:2024-09-23 17:10:30,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/69356.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议