发明人:刘文,张土前,王思秀,刘俊霞,付国庆
申请号:CN201811332114.0
申请日:20181109
公开号:CN109492028A
公开日:
20190319
专利内容由知识产权出版社提供
摘要:本发明涉及数据库技术领域,公开了一种在分布式环境下计算海量时间序列数据相似性连接的方法,包括以下步骤:S1、数据预处理,从海量数据集D中随机采样小数据集S;S2、针对采样数据S选取参考点并且建立SJT树,记做SJT;S3、将SJT树扩展为一棵完全树SJT;S4、对完全树SJT 中的叶结点建立分区集合P={G,G,…G,…G};S5、利用分布式计算框架MapReduce计算分区集合P={G,G,…G,…G}中相似性连接的比较数据对,获得海量时间序列数据集D中所有满足阈值的数据对。本发明针对相似性连接计算设计最大的优势在于通过分区信息对海量数据集剪枝,有效降低计算量,提高了计算效率,经过测试,本发明的方法优于Google提出的MAPSS和微软提出的ClusterJoin两种方法。
申请人:新疆工程学院
地址:830031 新疆维吾尔自治区乌鲁木齐市头屯河区艾丁湖路1350号
国籍:CN
代理机构:西安铭泽知识产权代理事务所(普通合伙)
代理人:李振瑞