基于多源异构的数据存储方法、系统、设备及存储介质与流程



1.本发明涉及数据处理技术领域,更具体地,涉及一种基于多源异构的数据存储方法、系统、设备及存储介质。


背景技术:



2.随着大数据处理技术的不断发展,各类信息系统产生的数据越来越具有关联性,从而形成了信息网络,如社交网络、移动互联网、生物分子关系网络、数字资源以及知识图谱等。在图书情报与档案管理行业中,研究热点主要集中在以数字资源构成的异构信息网络(homogeneous information network),包括数字资源组织、管理、揭示、使用、分析等。此类研究热点的研究目的是为了提高服务质量与服务效率,即从用户检索请求开始到资源/知识获得的整个文献服务流程中,能更快更好更便捷的为读者服务。
3.但是,当前数字资源信息网络呈现如下特征:(1)数据量极其庞大;随着全球信息的爆炸性增长,资源元数据由不同的数字资源提供商所掌控,总量超过百亿条,存储成本高。(2)数据重复率高;由于数字资源提供商间的商业或技术壁垒,导致不同提供商间的资源具有交叉、重合、互补等特性,资源访问质量低。(3)元数据多源异构;各数字资源提供商几乎都有自己特定标准的开放访问方式,存在字段不齐、含义不同、格式不一等情况,知识转化难度大。因此,如何实现多源异构的数据不重复存储是亟待解决的问题。


技术实现要素:



4.本发明针对现有技术中存在的技术问题,提供一种基于多源异构的数据存储方法、系统、设备及存储介质,用以解决如何实现多源异构的数据不重复存储的问题。
5.根据本发明的第一方面,提供了一种基于多源异构的数据存储方法,包括:
6.根据pgsql数据库中的多个元数据获取多个数据源中格式不同的多个文献内容,并获取每个文献内容对应的多个特征值
7.根据simhas本相似度算法和tf-idf词频-逆向文件频率加权算法对每个特征值进行计算,得到每个文献内容对应的指纹值;
8.获取已有文献的指纹值集合,将每个文献内容对应的指纹值与所述指纹值集合中的每一个指纹值进行海明距离比对,得到比对结果;
9.在所述比对结果满足预设条件时,判定所述指纹值对应的文献内容不重复,并将其对应的元数据存入存储系统中。
10.在上述技术方案的基础上,本发明还可以作出如下改进。
11.可选的,所述根据pgsql数据库中的多个元数据获取多个数据源中格式不同的多个文献内容,并获取每个文献内容对应的多个特征值的步骤,包括:
12.获取pgsql数据库中的多个元数据;
13.根据所述多个元数据获取多个数据源中格式不同的多个文献内容;
14.提取每个文献内容中的关键字段作为其对应的多个特征值。
15.可选的,所述关键字段至少包括:标题、作者、署名机构。
16.可选的,所述根据simhas本相似度算法和tf-idf词频-逆向文件频率加权算法对每个特征值进行计算,得到每个文献内容对应的指纹值的步骤,包括:
17.根据每个特征值对应的词频和逆向文件频率,使用tf-idf词频-逆向文件频率加权算法获取每个特征值对应的权重值;
18.根据simhas本相似度算法和所述权重值对每个文献内容的每个特征值计算,得到每个文献内容对应的指纹值。
19.可选的,所述根据每个特征值对应的词频和逆向文件频率,使用tf-idf词频-逆向文件频率加权算法获取每个特征值对应的权重值的步骤,还包括:
20.获取每个文献内容对应的多个特征值对应的权重值;
21.根据齐夫定律对所述多个特征值对应的权重值进行线性拟合,得到拟合函数;
22.根据所述拟合函数对所述多个特征值对应的权重值进行优化,得到优化后的多个特征值对应的权重值。
23.可选的,所述将每个文献内容对应的指纹值与所述指纹值集合中的每一个指纹值进行海明距离比对,得到比对结果的步骤,包括:
24.利用滑动窗口算法将每个文献内容对应的指纹值与所述指纹值集合中的每一个指纹值进行海明距离比对,获取所述指纹值集合中符合差异阈值的比对指纹值集合。
25.可选的,所述在所述比对结果满足预设条件时,判定所述指纹值对应的文献内容不重复的步骤,包括:
26.在所述比对指纹值集合中元素数量等于0时,判定所述比对指纹值集合对应的文献内容的指纹值不重复。
27.根据本发明的第二方面,提供一种基于多源异构的数据存储系统,包括:
28.特征获取模块,用于根据pgsql数据库中的多个元数据获取多个数据源中格式不同的多个文献内容,并获取每个文献内容对应的多个特征值;
29.指纹计算模块,用于根据simhas本相似度算法和tf-idf词频-逆向文件频率加权算法对每个特征值进行计算,得到每个文献内容对应的指纹值;
30.指纹比对模块,用于获取已有文献的指纹值集合,将每个文献内容对应的指纹值与所述指纹值集合中的每一个指纹值进行海明距离比对,得到比对结果;
31.数据存储模块,用于在所述比对结果满足预设条件时,判定所述指纹值对应的文献内容不重复,并将其对应的元数据存入存储系统中。
32.根据本发明的第三方面,提供了一种设备,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现上述第一方面中任一基于多源异构的数据存储方法的步骤。
33.根据本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现上述第一方面中任一基于多源异构的数据存储方法的步骤。
34.本发明提供的一种基于多源异构的数据存储方法、系统、设备及存储介质,方法包括:根据pgsql数据库中的多个元数据获取多个数据源中格式不同的多个文献内容,并获取每个文献内容对应的多个特征值;根据simhas本相似度算法和tf-idf词频-逆向文件频
率加权算法对每个特征值进行计算,得到每个文献内容对应的指纹值;获取已有文献的指纹值集合,将每个文献内容对应的指纹值与上述指纹值集合中的每一个指纹值进行海明距离比对,得到比对结果;在上述比对结果满足预设条件时,判定上述指纹值对应的文献内容不重复,并将其对应的元数据存入存储系统中。本发明方法通过对多个数据源中格式不同的文献内容进行特征值提取,使得多源异构的文献内容可以按照统一特征处理方式进行数据处理,通过利用simhas本相似度算法和tf-idf词频-逆向文件频率加权算法得到每个文献对应的指纹值,使得每个文献通过其多个特征值得到的指纹值更符合预期,进而降低了指纹值计算的复杂度和准确度,并将每个文献的指纹值和已有文献进行的指纹值进行比对得到不重复的文献内容,进而对不重复的文献内容进行存储,从而使得可以快速对多源异构的文献内容进行批量去重和存储,大大的降低了文献去重的复杂度和服务器的计算力要求,提高了多源异构文献的存储效率。
附图说明
35.图1为本发明提供的一种基于多源异构的数据存储方法流程图;
36.图2为本发明改进simhash算法与原simhash算法准确率对比图;
37.图3为本发明改进simhash算法与原simhash算法召回率对比图;
38.图4为本发明改进simhash算法与原simhash算法执行时间对比图;
39.图5为本发明提供的一种基于多源异构的数据存储系统结构示意图;
40.图6为本发明提供的一种可能的设备的硬件结构示意图;
41.图7为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图。
具体实施方式
42.下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
43.图1为本发明提供的一种基于多源异构的数据存储方法流程图,如图1所示,方法包括:
44.步骤s100:根据pgsql数据库中的多个元数据获取多个数据源中格式不同的多个文献内容,并获取每个文献内容对应的多个特征值;
45.需要说明的是,本实施例方法的执行主体可以是具有数据处理、网络通信及程序运行功能的计算机终端设备,例如:电脑、平板电脑等;也可以是具有相同相似功能的服务器设备,还可以是具有相似功能的云服务器,本实施例对此不做限制。为了便于理解,本实施例及下述各实施例将以服务器设备为例进行说明。
46.可以理解的是,上述pgsql数据库是一种对象关系型数据库系统,可以用于存储元数据,本实施例方法中也可以使用其它对象关系型数据库替代pgsql数据库,本实施例对此不作限制。
47.应理解的是,上述元数据可以是用于描述上述文献内容的基本信息以及对应的存储信息的数据,例如:文献名称、文献编号、文献来源、文献类型、文献存放地址等。
48.还需要说明的是,上述每个文献内容都有其对应多个特征值,其特征值可以是每个文献的关键字段,例如:标题、作者、署名机构等字段。
49.还可以理解的是,上述多个文献内容是需要进行去重的待存储文献。
50.还应理解的是,上述多个数据源中格式不同的多个文献内容可以是指上述多个文献的数据来源和格式不一样,例如中文期刊论文、外文会论文、中文学位论文等文献。
51.在具体实现中,获取pgsql数据库中的多个元数据,通过上述多个元数据获取对应的文献内容,并提取每个文献内容对应的多个特征值。
52.步骤s200:根据simhas本相似度算法和tf-idf词频-逆向文件频率加权算法对每个特征值进行计算,得到每个文献内容对应的指纹值;
53.在具体实现中,通过simhas本相似度算法和tf-idf词频-逆向文件频率加权算法对每个文献内容的每个特征值计算得到每个特征值对应的特征指纹值,在对每个文献内容的特征指纹值进行合并累加和降维,得到每个文献内容对应的指纹值。
54.步骤s300:获取已有文献的指纹值集合,将每个文献内容对应的指纹值与所述指纹值集合中的每一个指纹值进行海明距离比对,得到比对结果;
55.需要说明的是,上述已有文献的指纹值集合可以是已经存储在指定位置的全部文献的指纹值。上述指定位置可以是服务器本地,也可以是分布式的存储系统中,本实施例对此不作限制。为了进一步提高数据读取效率,上述已有文献的指纹值可以存储在分布式内存存储器redis中。
56.可以理解的是,上述海明距离是指在信息编码中,两个合法代码对应位上编码不同的位数称为码距,又称海明距离。两个码字对应比特取值不同的比特数称为两个码字的海明距离。例如10101和00110从第一位开始依次有第一位、第四、第五位不同,则海明距离为3。
57.应理解的是,上述海明距离比对具体为:设定待存储的文献内容的指纹值为newhash,已有文献的指纹值为redishash;其中:
58.newhash=x1、x2……
xi,simhash=y1、y2……
yi;
59.海明距离计算公式为:
[0060][0061]
在具体实现中,将每个文献内容对应的指纹值和已有文献的指纹值集合中的每个指纹值进行海明距离比对,得到上述多个文献内容中每一个文献内容与已有文献集合中每一文献的指纹值的海明距离。
[0062]
步骤s400:在所述比对结果满足预设条件时,判定所述指纹值对应的文献内容不重复,并将其对应的元数据存入存储系统中。
[0063]
需要说明的是,上述预设条件可以是根据实际需求设定,其预设条件可以为:在上述多个文献内容中的每一个文献的指纹值与已有文献集合中每个文献的指纹值都小于7时,判定上述指纹值对应的文献内容不重复。
[0064]
可以理解的是,基于背景技术中的缺陷,本发明实施例提出了一种基于多源异构的数据存储方法。方法包括:根据pgsql数据库中的多个元数据获取多个数据源中格式不同的多个文献内容,并获取每个文献内容对应的多个特征值;根据simhas本相似度算法和tf-idf词频-逆向文件频率加权算法对每个特征值进行计算,得到每个文献内容对应的指纹值;获取已有文献的指纹值集合,将每个文献内容对应的指纹值与上述指纹值集合中的每一个指纹值进行海明距离比对,得到比对结果;在上述比对结果满足预设条件时,判定上
述指纹值对应的文献内容不重复,并将其对应的元数据存入存储系统中。本发明方法通过对多个数据源中格式不同的文献内容进行特征值提取,使得多源异构的文献内容可以按照统一特征处理方式进行数据处理,通过利用simhas本相似度算法和tf-idf词频-逆向文件频率加权算法得到每个文献对应的指纹值,使得每个文献通过其多个特征值得到的指纹值更符合预期,进而降低了指纹值计算的复杂度和准确度,并将每个文献的指纹值和已有文献进行的指纹值进行比对得到不重复的文献内容,进而对不重复的文献内容进行存储,从而使得可以快速对多源异构的文献内容进行批量去重和存储,大大的降低了文献去重的复杂度和服务器的计算力要求,提高了多源异构文献的存储效率。
[0065]
在一种可能的实施例方式中,所述根据pgsql数据库中的多个元数据获取多个数据源中格式不同的多个文献内容,并获取每个文献内容对应的多个特征值的步骤,包括:
[0066]
步骤s101:获取pgsql数据库中的多个元数据;
[0067]
步骤s102:根据所述多个元数据获取多个数据源中格式不同的多个文献内容;
[0068]
步骤s103:提取每个文献内容中的关键字段作为其对应的多个特征值。
[0069]
本发明实施例中,通过对多个数据源中格式不同的多个文献内容中的关键字段进行提取,从而使得多源异构的文献内容可以进行统一特征匹配处理,大大的降低了数据处理的复杂度,提高了数据处理的准确度。
[0070]
在一种可能的实施例方式中,所述根据simhas本相似度算法和tf-idf词频-逆向文件频率加权算法对每个特征值进行计算,得到每个文献内容对应的指纹值的步骤,包括:
[0071]
步骤s201:根据每个特征值对应的词频和逆向文件频率,使用tf-idf词频-逆向文件频率加权算法获取每个特征值对应的权重值;
[0072]
步骤s202:根据simhas本相似度算法和所述权重值对每个文献内容的每个特征值计算,得到每个文献内容对应的指纹值。
[0073]
本发明实施例中,通过使用tf-idf词频-逆向文件频率加权算法对每个特征值进行权重值优化,并根据simhas本相似度算法和优化后的权重值对每个文献内容的每个特征值计算指纹值,从而使得计算得到的指纹值更能精准的反应出每个特征值的特征,大大的提升了后续重复数据识别的准确度。
[0074]
在一种可能的实施例方式中,所述根据每个特征值对应的词频和逆向文件频率,使用tf-idf词频-逆向文件频率加权算法获取每个特征值对应的权重值的步骤,还包括:
[0075]
步骤s2011:获取每个文献内容对应的多个特征值对应的权重值;
[0076]
步骤s2012:根据齐夫定律对所述多个特征值对应的权重值进行线性拟合,得到拟合函数;
[0077]
步骤s2013:根据所述拟合函数对所述多个特征值对应的权重值进行优化,得到优化后的多个特征值对应的权重值。
[0078]
本发明实施例中,通过进一步对每个文献内容的多个特征值的权重值进行线性拟合,从而进一步的优化每个特征值对应的权重值,使得每个特征值的权重值更能精准的反应每个特征,进而进一步提升了后续重复数据识别的准确性。
[0079]
在一种可能的实施例方式中,所述将每个文献内容对应的指纹值与所述指纹值集合中的每一个指纹值进行海明距离比对,得到比对结果的步骤,包括:
[0080]
步骤s301:利用滑动窗口算法将每个文献内容对应的指纹值与所述指纹值集合中的每一个指纹值进行海明距离比对,获取所述指纹值集合中符合差异阈值的比对指纹值集合。
[0081]
需要说明的是,上述滑动窗口算法可以是根据文献类型获取该文献首次出现的平台及具体时间,文献类型包括专著、期刊、图书、报纸、会议文献、科技报告、标准文献、专利文献、学位论文以及政府出版物,目前的文献平台通常不会囊括所有的文献,例如专利文献通常以国家知识产权局为主要的公布平台,因此,通过分布式内存中的文件分块将隶属于各个文献平台的文献区分开来,便于滑动窗口算法识别和读取。
[0082]
可以理解的是,上述滑动窗口的算法具体为:按照文献类型,获取该文献首次出现的平台及时间,以该时间为节点或者该平台和时间结合为节点,其中,按照文献类型具体为:遍历分布式内存中该文献首次出现的平台和时间,其中存在该文献不到首次出现的平台或者在多个平台同时出现的情况,若为此类情况,则以时间为节点,往前推进预设的时间年限,选取该时间年限内的指纹值进行匹配,在本实施例中预设的时间年限为5年,例如,若一文献首次出现的时间为2010年,则以2010年为时间节点,遍历分布式内存中2005-2010年之间的文献指纹值;若遍历分布式内存中能够查询到文献首次出现的平台以及时间,则以平台和时间结合为节点,以该文献首次出现平台和首次出现的时间,往前推进一定的时间年限,读取其他同类型平台的文献元数据的指纹值进行匹配,例如,若一文献首次出现的平台为ei,首次出现的时间为2010年,则遍历分布式内存中2005-2010年之间,除ei平台以外的所有文献指纹值。
[0083]
应理解的是,上述差异阈值可以是根据实验得到的一个阈值,也可以是一个阈值范围,上述符合差异阈值可以是上述海明距离小于上述阈值,或者海明距离在上述阈值范围内的指纹值。
[0084]
本发明实施例,通过使用滑动窗口算法对文献的指纹值进行匹配,结合时间维度和空间维度,将指纹值的匹配效率大大提升,同时也减少了服务器的计算压力。
[0085]
在一种可能的实施例方式中,所述在所述比对结果满足预设条件时,判定所述指纹值对应的文献内容不重复的步骤,包括:
[0086]
步骤s302:在所述比对指纹值集合中元素数量等于0时,判定所述比对指纹值集合对应的文献内容的指纹值不重复。
[0087]
需要说明的是,上述比对指纹值集合中的元素数量可以是大于1、等于1或等于0;在上述元素数量大于1时,可以人工干预判定比对指纹值集合对应的文献内容的指纹值与已有文献的指纹值重复;在上述元素等于1时,可以判定比对指纹值集合对应的文献内容的指纹值与待存储的文献中的文献存在重复;在上述元素数量等于0时,则可判定比对指纹值集合对应的文献内容的指纹值不存在重复。
[0088]
在具体实现中,在判定所述比对指纹值集合对应的文献内容的指纹值不重复时,将上述文献内容对应的元数据和该文献存储到分布式的存储系统中,该分布式的存储系统中每个节点由内侧-磁盘组成两层存储;对于元数据操作,将操作类型、操作时间同时存储到分布式的存储系统中,用于每次更新时的(curd)“增删改查”操作。并且更新存储完成一条元数据后,则清理pgsql中该条元数据,从而释放存储空间,降低服务器的计算压力。
[0089]
在一种可能的应用场景中,为了进一步说明本发明实施例的性能和效果的提升,
本实施例还提供了测试环境及测试效果分析,在上述应用场景中,包括本发明方法对应的系统的运行环境为:
[0090]
1、物理环境
[0091]
cpu:i7 16核,内存:64g,三台测试机ip地址分别为:192.168.21.106,192.168.21.107,192.168.21.108。
[0092]
2、网络环境
[0093]
clickhouse(click stream data warehouse列式存储数据库)部署在192.168.21.106,redis部署在192.168.21.107。
[0094]
3、原始数据集存储方式与地址
[0095]
原始数据集存储格式为avro文件,存储地址为192.168.21.108/data/base_data目录下,经过处理过后目前数据集存放在clickhouse的ztdb_base数据库里。
[0096]
4、结果数据集存储方式与地址
[0097]
结果数据集存储在redis db1表里。算法出的重复数据集备份在clickhouse的data_2020数据库的dulp_data表里。海明距离计算结果存储在clickhouse的data_2020数据库的hmd_data表里。
[0098]
上述应用场景中,还包括指标数值,其中数值指标名词解释:tp:true postive,即判断正确,这条记录重复;tn:true negative,即判断正确,这这条记录不重复;fp:false postive,即判断错误,本身与目标simhash值对应的记录不重复,但判定为重复;这条记录实际可能是不重复或者与别的记录重复;fn:false negative,即判断错误,本身与目标simhash值对应的记录重复,但判定为不重复。
[0099]
上述应用场景中,还包括三个测试指标:去重率、查准率和查全率,其中:
[0100]
准确率(accuracy):准确率是指分类正确的样本数与总样本的比值,就本实验而言即预测为重复文献数与总文献数的比值,也称为去重率。
[0101]
精确率(precision):精确率是指分类正确的样本数与分类总样本的比值,就本实验而言即预测正确的重复文献数与预测出的重复文献数的比值,也称为查准率。
[0102]
召回率(recall):召回率是指分类正确的样本数与已知的样本数的比值,就本实验而言即预测正确的重复文献数与已知的重复文献数的比值,也称为查全率。
[0103]
对于结果的准确率(accuracy)、精确率(precision)、召回率(recall)的公式定义如下:
[0104][0105][0106][0107]
在上述应用场景的测试中,还包括数据集的描述:数据集年份为2020年。得到测试结果为:本发明实施例算法预测的文献总数为225277,在预测为重复的文献中选取汉明距离小于等于2的文献总数142950,通过预设规则检查预测正确的文献数为142950,即tp为142926,同时计算fp为24,在预测为不重复的文献中选取汉明距离大于2的文献总数有82327条,通过规则检查有7924个文献重复即fn为7924,同时计算tn为74403。
[0108]
根据上述结果计算得到本次实验的结果为:准确率(去重率)为96.47%、精确率(查准率)为99.98%、召回率(查全率)为94.75%。
[0109]
在上述应用场景的测试中,还可以对中文文献进行测试,从而得出中文文献数据的去重效果,其中实验中中文文献的数据总量为2347285.
[0110]
在上述中文文献测实验中,得到的测试结果为:本发明实施例算法预测测重复文献总数为2347285,在预测为重复的文献中选取汉明距离小于等于2的文献数量为297898,其中通过预设规则检查预测正确的文献数为295716,即tp为295716,同时计算fp为2182,在预测为不重复的文献中选取汉明距离大于2的文献总数有2049387条,通过预设规则检查有46037个文献重复,即fn为46307,同时计算tn为2003350。
[0111]
在上述应用场景中的中文文献测试中,根据上述结果计算得到本次实验的结果为:准确率(去重率)为97.95%、精确率(查准率)为99.27%、召回率(查全率)为86.46%。
[0112]
其中,上述预设规则检查可以是通过人工方式检查的。
[0113]
为了进一步说明本实施例中测试结果中性能和效果的提升,本发明实施还提供了本技术改进simhash算法与原有simhash算法在互联网、教育、ai、医疗、住房五个主题词领域的对比,对比包括准确率、召回率和执行时间,参见图2、图3和图4;根据图2、图3和图4可以清楚的看出来本技术提供的多源异构的数据存储方法相较于现有的simhash算法,在准确率和召回率上有明显提升,并且在执行时间上有明显下降,故而,本技术实施例中提供的多源异构的数据存储方法可以快速实现对多源异构的文献内容进行批量去重和存储,大大的降低了文献去重的复杂度和服务器的计算力要求,提高了多源异构文献的存储效率。
[0114]
请参阅图5,图5为本发明实施例提供的一种基于多源异构的数据存储系统结构图示意图,如图5所示,一种基于多源异构的数据存储系统,包括特征获取模块100、指纹计算模块200、指纹比对模块300和数据存储模块400,其中:
[0115]
特征获取模块100,用于根据pgsql数据库中的多个元数据获取多个数据源中格式不同的多个文献内容,并获取每个文献内容对应的多个特征值;指纹计算模块200,用于根据simhas本相似度算法和tf-idf词频-逆向文件频率加权算法对每个特征值进行计算,得到每个文献内容对应的指纹值;指纹比对模块300,用于获取已有文献的指纹值集合,将每个文献内容对应的指纹值与所述指纹值集合中的每一个指纹值进行海明距离比对,得到比对结果;数据存储模块400,用于在所述比对结果满足预设条件时,判定所述指纹值对应的文献内容不重复,并将其对应的元数据存入存储系统中。
[0116]
可以理解的是,本发明提供的一种基于多源异构的数据存储系统与前述各实施例提供的基于多源异构的数据存储方法相对应,基于多源异构的数据存储系统的相关技术特征可参考基于多源异构的数据存储方法的相关技术特征,在此不再赘述。
[0117]
请参阅图6,图6为本发明实施例提供的设备的实施例示意图。如图6所示,本发明实施例提了一种设备,包括存储器1310、处理器1320及存储在存储器1310上并可在处理器1320上运行的计算机程序1311,处理器1320执行计算机程序1311时实现以下步骤:
[0118]
根据pgsql数据库中的多个元数据获取多个数据源中格式不同的多个文献内容,并获取每个文献内容对应的多个特征值;根据simhas本相似度算法和tf-idf词频-逆向文件频率加权算法对每个特征值进行计算,得到每个文献内容对应的指纹值;获取已有文献的指纹值集合,将每个文献内容对应的指纹值与上述指纹值集合中的每一个指纹值进行
海明距离比对,得到比对结果;在上述比对结果满足预设条件时,判定上述指纹值对应的文献内容不重复,并将其对应的元数据存入存储系统中。
[0119]
请参阅图7,图7为本发明提供的一种计算机可读存储介质的实施例示意图。如图7所示,本实施例提供了一种计算机可读存储介质1400,其上存储有计算机程序1411,该计算机程序1411被处理器执行时实现如下步骤:
[0120]
根据pgsql数据库中的多个元数据获取多个数据源中格式不同的多个文献内容,并获取每个文献内容对应的多个特征值;根据simhas本相似度算法和tf-idf词频-逆向文件频率加权算法对每个特征值进行计算,得到每个文献内容对应的指纹值;获取已有文献的指纹值集合,将每个文献内容对应的指纹值与上述指纹值集合中的每一个指纹值进行海明距离比对,得到比对结果;在上述比对结果满足预设条件时,判定上述指纹值对应的文献内容不重复,并将其对应的元数据存入存储系统中。
[0121]
本发明提供的一种基于多源异构的数据存储方法、系统、设备及存储介质,方法包括:根据pgsql数据库中的多个元数据获取多个数据源中格式不同的多个文献内容,并获取每个文献内容对应的多个特征值;根据simhas本相似度算法和tf-idf词频-逆向文件频率加权算法对每个特征值进行计算,得到每个文献内容对应的指纹值;获取已有文献的指纹值集合,将每个文献内容对应的指纹值与上述指纹值集合中的每一个指纹值进行海明距离比对,得到比对结果;在上述比对结果满足预设条件时,判定上述指纹值对应的文献内容不重复,并将其对应的元数据存入存储系统中。本发明方法通过对多个数据源中格式不同的文献内容进行特征值提取,使得多源异构的文献内容可以按照统一特征处理方式进行数据处理,通过利用simhas本相似度算法和tf-idf词频-逆向文件频率加权算法得到每个文献对应的指纹值,使得每个文献通过其多个特征值得到的指纹值更符合预期,进而降低了指纹值计算的复杂度和准确度,并将每个文献的指纹值和已有文献进行的指纹值进行比对得到不重复的文献内容,进而对不重复的文献内容进行存储,从而使得可以快速对多源异构的文献内容进行批量去重和存储,大大的降低了文献去重的复杂度和服务器的计算力要求,提高了多源异构文献的存储效率。
[0122]
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
[0123]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0124]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0125]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特
定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0126]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0127]
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
[0128]
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

技术特征:


1.一种基于多源异构的数据存储方法,其特征在于,所述方法包括:根据pgsql数据库中的多个元数据获取多个数据源中格式不同的多个文献内容,并获取每个文献内容对应的多个特征值;根据simhas本相似度算法和tf-idf词频-逆向文件频率加权算法对每个特征值进行计算,得到每个文献内容对应的指纹值;获取已有文献的指纹值集合,将每个文献内容对应的指纹值与所述指纹值集合中的每一个指纹值进行海明距离比对,得到比对结果;在所述比对结果满足预设条件时,判定所述指纹值对应的文献内容不重复,并将其对应的元数据存入存储系统中。2.根据权利要求1所述的基于多源异构的数据存储方法,其特征在于,所述根据pgsql数据库中的多个元数据获取多个数据源中格式不同的多个文献内容,并获取每个文献内容对应的多个特征值的步骤,包括:获取pgsql数据库中的多个元数据;根据所述多个元数据获取多个数据源中格式不同的多个文献内容;提取每个文献内容中的关键字段作为其对应的多个特征值。3.根据权利要求2所述的基于多源异构的数据存储方法,其特征在于,所述关键字段至少包括:标题、作者、署名机构。4.根据权利要求1所述的基于多源异构的数据存储方法,其特征在于,所述根据simhas本相似度算法和tf-idf词频-逆向文件频率加权算法对每个特征值进行计算,得到每个文献内容对应的指纹值的步骤,包括:根据每个特征值对应的词频和逆向文件频率,使用tf-idf词频-逆向文件频率加权算法获取每个特征值对应的权重值;根据simhas本相似度算法和所述权重值对每个文献内容的每个特征值计算,得到每个文献内容对应的指纹值。5.根据权利要求4所述的基于多源异构的数据存储方法,其特征在于,所述根据每个特征值对应的词频和逆向文件频率,使用tf-idf词频-逆向文件频率加权算法获取每个特征值对应的权重值的步骤,还包括:获取每个文献内容对应的多个特征值对应的权重值;根据齐夫定律对所述多个特征值对应的权重值进行线性拟合,得到拟合函数;根据所述拟合函数对所述多个特征值对应的权重值进行优化,得到优化后的多个特征值对应的权重值。6.根据权利要求1所述的基于多源异构的数据存储方法,其特征在于,所述将每个文献内容对应的指纹值与所述指纹值集合中的每一个指纹值进行海明距离比对,得到比对结果的步骤,包括:利用滑动窗口算法将每个文献内容对应的指纹值与所述指纹值集合中的每一个指纹值进行海明距离比对,获取所述指纹值集合中符合差异阈值的比对指纹值集合。7.根据权利要求6所述的基于多源异构的数据存储方法,其特征在于,所述在所述比对结果满足预设条件时,判定所述指纹值对应的文献内容不重复的步骤,包括:在所述比对指纹值集合中元素数量等于0时,判定所述比对指纹值集合对应的文献内
容的指纹值不重复。8.一种基于多源异构的数据存储系统,其特征在于,包括特征获取模块,用于根据pgsql数据库中的多个元数据获取多个数据源中格式不同的多个文献内容,并获取每个文献内容对应的多个特征值;指纹计算模块,用于根据simhas本相似度算法和tf-idf词频-逆向文件频率加权算法对每个特征值进行计算,得到每个文献内容对应的指纹值;指纹比对模块,用于获取已有文献的指纹值集合,将每个文献内容对应的指纹值与所述指纹值集合中的每一个指纹值进行海明距离比对,得到比对结果;数据存储模块,用于在所述比对结果满足预设条件时,判定所述指纹值对应的文献内容不重复,并将其对应的元数据存入存储系统中。9.一种设备,其特征在于,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现如权利要求1-7任一项所述的基于多源异构的数据存储方法的步骤。10.一种计算机可读存储介质,其特征在于,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现如权利要求1-7任一项所述的基于多源异构的数据存储方法的步骤。

技术总结


本发明提供一种基于多源异构的数据存储方法、系统、设备及存储介质,方法包括:根据数据库中的多个元数据获取多个文献内容,并获取每个文献内容对应的多个特征值;根据文本相似度算法和词频-逆向文件频率加权算法对每个特征值进行计算,得到每个文献内容对应的指纹值;将每个文献内容对应的指纹值与已有文献的指纹值集合中的每个指纹值进行海明距离比对,得到比对结果;在比对结果满足预设条件时,判定指纹值对应的文献内容不重复,并将其对应的元数据存入存储系统中。通过每个文献的特征值计算其对应的指纹值,并将每个文献的指纹值与已有文献指纹值集合比对,从而得到不重复的文献,进而使得可以快速对多源异构的文献内容进行批量去重和存储。行批量去重和存储。行批量去重和存储。


技术研发人员:

肖芳 罗敏 郭佳璟 樊欣 宋娇 甘早斌 卓应忠

受保护的技术使用者:

重庆维普智图数据科技有限公司

技术研发日:

2022.08.22

技术公布日:

2022/12/8

本文发布于:2024-09-20 13:25:48,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/32660.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:文献   指纹   多个   特征值
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议