一种海量时间序列数据相似性连接计算方法[发明专利]

专利名称:一种海量时间序列数据相似性连接计算方法专利类型:发明专利
发明人:刘文,张土前,王思秀,刘俊霞,付国庆
申请号:CN201811332114.0
申请日:20181109
公开号:CN109492028A
公开日:
20190319
专利内容由知识产权出版社提供
摘要:本发明涉及数据库技术领域,公开了一种在分布式环境下计算海量时间序列数据相似性连接的方法,包括以下步骤:S1、数据预处理,从海量数据集D中随机采样小数据集S;S2、针对采样数据S选取参考点并且建立SJT树,记做SJT;S3、将SJT树扩展为一棵完全树SJT;S4、对完全树SJT 中的叶结点建立分区集合P={G,G,…G,…G};S5、利用分布式计算框架MapReduce计算分区集合P={G,G,…G,…G}中相似性连接的比较数据对,获得海量时间序列数据集D中所有满足阈值的数据对。本发明针对相似性连接计算设计最大的优势在于通过分区信息对海量数据集剪枝,有效降低计算量,提高了计算效率,经过测试,本发明的方法优于Google提出的MAPSS和微软提出的ClusterJoin两种方法。
申请人:新疆工程学院
地址:830031 新疆维吾尔自治区乌鲁木齐市头屯河区艾丁湖路1350号
国籍:CN
代理机构:西安铭泽知识产权代理事务所(普通合伙)
代理人:李振瑞

本文发布于:2024-09-20 22:47:10,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/443191.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   计算   海量   相似性   连接   时间   分区   序列
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议