一种基于KPCA和混合相似度的数据异常处理方法


一种基于kpca和混合相似度的数据异常处理方法
技术领域
1.本发明涉及大数据处理领域,特别是涉及一种基于kpca和混合相似度的数据异常处理方法。


背景技术:



2.最近几年,传统工业控制系统和互联网、云平台逐渐连接起来,构成了工业互联网平台。与此同时,随着物联网与5g技术的蓬勃发展,导致移动终端设备产生海量的数据。终端设备收集的所有数据都将会通过网络传输至云端,在云端进行清洗、挖掘等工作。这样不仅会造成网络带宽巨大压力带来长时延,同时会浪费云计算中心的计算资源,因此,在边缘端进行合理的数据清洗处理后,再将干净的数据上传至云端存储和利用是非常有必要的,现有技术中常常包含有关工业数据异常值的检测与清洗,却很少包含有关冗余数据的去重,然而,由于很多冗余数据是可以由其他数据推演出来,因此冗余信息在数据处理时不会起作用,对冗余数据的去重可以有效的减轻数据传输压力以及任务负载。
3.中国发明专利(申请号:201811519395.0,公布号:cn 109635958 a)公开了一种智能电力数据异常检测方法,对有效离线数据样本进行降维,并计算得到时序样本序列,包括:使用pca主成分分析法对有效离线数据样本进行降维处理,去除三维以上的各个维度特征的关联性,得到降维后的离线数据样本;对降维后的离线数据样本进行序列化处理得到时序样本序列。该方案存在的不足之处在于:传统工业数据大多为非线性较强的高维数据,pca算法对于非线性数据处理效果一般,降维后的数据信息保存较差,非线性特征难以获取,导致异常检测后的数据准确性较低。
4.中国发明专利(申请号:201911423436.0,公布号:cn 111275288 a)公开了一种基于xgboost的多维数据异常检测方法与装置,包括:数据采集清洗,对清洗后的数据进行标准化处理,统一不同维度数据之间量纲;特征抽取及降维,构建异常检测模型训练,用xgboost方法对降维数据进行训练,建立设备异常的预测模型;进行异常在线检测,若超过了给定阀值,那么判定发生异常。该方案存在的不足在于只考虑了皮尔逊相关系数只对于关联性关系强的数据集测试效果较好,而对于非线性关系较强的工业数据效果较差,冗余数据的检测精确性不足,导致去重效果不佳。


技术实现要素:



5.为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种基于kpca和混合相似度的数据异常处理方法,其特征在于,包括以下步骤:s1:终端产生任务,并将任务上传至边缘端;s2:边缘端接收所述任务,并将所述任务所涉及的数据按照维度划分为高维数据和低维数据;s3:对所述高维数据和低维数据进行处理;s4:边缘端将处理好的数据上传至云端。
6.进一步的,所述高维数据,为维度》=3的数据;所述低维数据,为维度《3的数据;进一步的,所述对所述高维数据和低维数据进行处理;包括:s31.对所述高维数据和低维数据进行异常检测,得到检测结果;s32. 对所述检测结果进行清洗,得到清洗后的数据集;s33.对所述清洗后的数据集进行冗余数据判断并进行处理。
7.进一步的,所述对所述高维数据和低维数据进行异常检测,得到检测结果,包括:s311.对低维数据采用iforest进行异常检测,得到各个低维数据对应的路径长度与异常分数;s312.将高维数据采用kpca算法转换为特征数据,再对所述特征数据采用iforest进行异常检测,得到各个高维数据对应的路径长度与异常分数;进一步的,所述将高维数据采用kpca算法转换为特征数据,包括:建立高维数据映射数据库,在所述高维数据映射数据库中记录所有原始高维数据以及对应的特征数据。
8.进一步的,所述对所述检测结果进行清洗,包括:s321.获取高维数据和低维数据的路径长度与异常分数,计算平均路径长度;s322. 将所述平均路径长度在0~0.15范围内,且异常分数在 0.85~1范围内的数据作为异常值,进行数据清洗。
9.进一步的,所述对所述检测结果进行清洗,高维数据和低维数据均各自采用上述s31、s32、s33中涉及的方法,分开进行。
10.进一步的,所述对所述清洗后的数据集进行冗余数据判断并进行处理,包括:s331.获取所述平均路径长度和所述异常分数相似的数据,将获取到的数据假定为,则将 视为冗余数据;其中,所述s331步骤中,低维数据与高维数据均采用上述方法,并分开同步进行;s332.分析的数据类型,若为低维冗余数据,则转s333,若为高维冗余数据,转s334;s333.采用皮尔逊相关系数获取所述低维冗余数据的相似度;公式如下:s334.从所述高维数据映射数据库中获取所述对应的原始高维数据,采用混合相似度算法获取所述高维冗余数据的相似度;公式如下:其中为斯皮尔曼相关系数所占权重,为数据的斯皮尔曼相关系数,为的互信息值;s335.将所述或与预设阈值比较,若h1》δ或h2》δ,则表示中存在冗余数据,进行数据清除。
11.进一步的,所述、预设阈值的由人工取值, 范围为0~1,优选取值为0.5, 范围不超过计算出的相似度最大值,优选的,取值设为最大相似度值的90%。
12.进一步的,所述数据清洗,包括:在所述中随机选择一个数据进行删除。
13.本发明提供的技术方案与现有技术相比具有如下优点:本发明提供的一种基于kpca和混合相似度的数据异常处理方法,能够分析终端产生并上传至边缘端的任务,并将所述任务所涉及的数据划分为高维数据和低维数据,对所述高维数据和低维数据进行处理,边缘端将处理好的数据上传至云端。同时,针对工业数据的维度变化较大的特点,本发明将数据类型划分为高维数据和低维数据,对所述高维数据采用kpca 算法进行数据处理,通过特征提取来减少数据集的维度,实现高维数据和低维数据的异常检测;针对工业数据非线性特征难以挖掘的特性,本发明采用皮尔逊相关系数结合混合相似度算法实现冗余数据的检测,其中,对于高维数据的非线性特征以及高维数据之间的相似性存在一定依赖关系,采用斯皮尔曼相关系数结合互信息值方法进行高维数据的相似度计算。如此,本发明提供的数据异常处理方法对数据特征的挖掘具有较高的完整性,提供的数据异常检测与去重的方案具有较高的准确性,进而提升数据集的质量管理水平,促进云端和边缘端对任务的安全稳定优质运行。
附图说明
14.图1是本发明提供的一种基于kpca和混合相似度的数据异常处理方法的流程图。
15.图2是本发明提供的一种基于kpca和混合相似度的数据异常处理方法的高维数据低维数据处理方法流程图。
16.图3是本发明提供的一种基于kpca和混合相似度的数据异常处理方法的异常数据清洗流程图。
具体实施方式
17.下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
18.在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
19.图1是本发明提供的一种基于kpca和混合相似度的数据异常处理方法的流程图,该方法包括:s1:终端产生任务,并将任务上传至边缘端;s2:边缘端接收所述任务,并将所述任务所涉及的数据按照维度划分为高维数据和低维数据;s3:对所述高维数据和低维数据进行处理;s4:边缘端将处理好的数据上传至云端。
20.进一步的,所述高维数据,为维度》=3的数据;所述低维数据,为维度《3的数据;进一步的,参见图2,所述对所述高维数据和低维数据进行处理;包括:s31.对所述高维数据和低维数据进行异常检测,得到检测结果;s32.对所述检测结果进行清洗,得到清洗后的数据集;s33.对所述清洗后的数据集进行冗余数据判断并进行处理。
21.进一步的,所述对所述高维数据和低维数据进行异常检测,得到检测结果,包括:s311.对低维数据采用iforest进行异常检测,得到各个低维数据对应的路径长度与异常分数;s312.将高维数据采用kpca算法转换为特征数据,再对所述特征数据采用iforest进行异常检测,得到各个高维数据对应的路径长度与异常分数;进一步的,所述路径长度的计算公式为:其中,所述为路径长度,为样本数,为欧拉常数;所述异常分数的计算公式为:其中,所述表示异常分数,表示路径长度期望,所述为调和函数, 。
22.所述为数据在所有itree上的路径长度期望,经过iforest算法输出结果为0~1的值。
23.进一步的,所述将高维数据采用kpca算法转换为特征数据,包括:建立高维数据映射数据库,在所述高维数据映射数据库中记录所有原始高维数据以及对应的特征数据;可以理解的是,所述特征数据由所述原始高维数据降维而得,在所述高维数据和低维数据进行异常检测中,高维数据存在非线性特征,因此采用效果较好的kpca算法获取高维数据的特征数据,对所述特征数据进行处理;而在对所述清洗后的数据集进行冗余数据判断并进行处理中,为保证高维数据信息的完整性,因此选择对原始高维数据进行处理;所述高维数据映射数据库构建的目的为保证原始高维数据与特征数据的保存,使方案具备更高的灵活性和可靠性。
24.进一步的,所述对所述检测结果进行清洗,包括:s321.获取高维数据和低维数据的路径长度与异常分数,计算平均路径长度;s322.将所述平均路径长度在0~0.15范围内,且异常分数在 0.85~1范围内的数据作为异常值,进行数据清洗;具体的,范围的确定本领域技术人员可根据数据特征与实际需求设置,此处提供的值可作参考,并不作为限定。
25.进一步的,所述对所述检测结果进行清洗,高维数据和低维数据均各自采用上述s31、s32、s33中涉及的方法,并分开同步进行,其中,所述高维数据各自选取维度相同的数据进行处理,例如,高维数据维度为ni,(i=0,1,

,n)则获取各自维度的ni维数据使用上述方法进行,此处不再赘述。
26.进一步的,参见图3,所述对所述清洗后的数据集进行冗余数据判断并进行处理,包括:s331.获取所述平均路径长度和所述异常分数相似的数据,将获取到的数据假定为,则将视为冗余数据;其中,所述s331步骤中,低维数据与高维数据均采用上述方法,并分开同步进行;
s332.分析的数据类型,若为低维冗余数据,则转s333,若为高维冗余数据,转s334;s333.采用皮尔逊相关系数获取所述低维冗余数据的相似度;公式如下:s334.从所述高维数据映射数据库中获取所述对应的原始高维数据,采用混合相似度算法获取所述高维冗余数据的相似度;公式如下:其中为斯皮尔曼相关系数所占权重, 为数据的斯皮尔曼相关系数,为的互信息值,其中: , 表示数据的联合概率,表示、出现的概率,log的底数通常取为e。
27.例如:=[0,0,1] , =[1,1,0],可得, ,,,而本例的= +=0.6365。
[0028]
在本方案中,互信息是俩数据相互依赖程度的度量,互信息值越大,则表明俩数之间的依赖程度越大; s335.将所述或与预设阈值比较,若h1》δ或h2》δ,则表示中存在冗余数据,进行数据清除。
[0029]
进一步的,所述、预设阈值的取值可视情形而定,优选为0.5。
[0030]
具体的,的确定本领域技术人员可根据数据特征与实际需求设置,优选的,为人为设定的固定阈值为当前相似度上限值的90%,此处提供的值可作参考,并不作为限定。
[0031]
进一步的,所述数据清洗,包括:在所述中随机选择一个数据进行删除。
[0032]
附图中的流程图和框图,图示了按照本发明各种实施例的方法可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0033]
需要说明的是,在本文中,关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

技术特征:


1.一种基于kpca和混合相似度的数据异常处理方法,其特征在于,包括以下步骤:s1:终端产生任务,并将任务上传至边缘端;s2:边缘端接收所述任务,并将所述任务所涉及的数据划分为高维数据和低维数据;s3:对所述高维数据和低维数据进行处理;s4:边缘端将处理好的数据上传至云端。2.如权利要求1所述的一种基于kpca和混合相似度的数据异常处理方法,其特征在于,所述高维数据,为维度>=3的数据;所述低维数据,为维度<3的数据。3.如权利要求1所述的一种基于kpca和混合相似度的数据异常处理方法,其特征在于,所述对所述高维数据和低维数据进行处理,包括:s31.对所述高维数据和低维数据进行异常检测,得到检测结果;s32.对所述检测结果进行清洗,得到清洗后的数据集;s33.对所述清洗后的数据集进行冗余数据判断并进行处理。4.如权利要求3所述的一种基于kpca和混合相似度的数据异常处理方法,其特征在于,所述对所述高维数据和低维数据进行异常检测,得到检测结果,包括:s311.对低维数据采用iforest进行异常检测,得到各个低维数据对应的路径长度与异常分数;s312.将高维数据采用kpca算法转换为特征数据,再对所述特征数据采用iforest进行异常检测,得到各个高维数据对应的路径长度与异常分数。5.如权利要求4所述的一种基于kpca和混合相似度的数据异常处理方法,其特征在于,所述将高维数据采用kpca算法转换为特征数据,包括:建立高维数据映射数据库,在所述高维数据映射数据库中记录所有原始高维数据以及对应的特征数据。6.如权利要求5所述的一种基于kpca和混合相似度的数据异常处理方法,其特征在于,所述对所述检测结果进行清洗,包括:s321.获取高维数据和低维数据的路径长度与异常分数,计算平均路径长度;s322.将所述平均路径长度在0~0.15范围内,且异常分数在 0.85~1范围内的数据作为异常值,进行数据清洗。7.如权利要求4-6任一一项所述的一种基于kpca和混合相似度的数据异常处理方法,其特征在于,所述对所述检测结果进行清洗,高维数据和低维数据均各自采用所述s31、s32、s33中涉及的方法,分开进行,其中,所述高维数据各自选取维度相同的数据进行处理。8.如权利要求6所述的一种基于kpca和混合相似度的数据异常处理方法,其特征在于,所述对所述清洗后的数据集进行冗余数据判断并进行处理,包括:s331.获取所述平均路径长度和所述异常分数相似的数据,将获取到的数据假定为 ,则将视为冗余数据;其中,所述s331步骤中,低维数据与高维数据均采用上述方法,并分开同步进行;s332.分析的数据类型,若为低维冗余数据,则转s333,若为高维冗余数据,转s334;
s333.采用皮尔逊相关系数获取所述低维冗余数据的相似度h1;公式如下:h1=corrs334.从所述高维数据映射数据库中获取所述对应的原始高维数据 ,采用混合相似度算法获取所述高维冗余数据的相似度h2;公式如下:其中μ为斯皮尔曼相关系数所占权重,为数据的斯皮尔曼相关系数,为的互信息值;s335.将所述h1或 h2与预设阈值δ比较,若h1>δ或h2>δ,则表示中存在冗余数据,进行数据清除。9.如权利要求8所述的一种基于kpca和混合相似度的数据异常处理方法,其特征在于,所述μ、预设阈值δ由人工取值,μ范围为0~1,δ范围不超过计算出的相似度最大值。

技术总结


本发明公开了一种基于KPCA和混合相似度的数据异常处理方法,包括:S1:终端产生任务,并将任务上传至边缘端;S2:边缘端接收所述任务,并将所述任务所涉及的数据划分为高维数据和低维数据;S3:对所述高维数据和低维数据进行处理;S4:边缘端将处理好的数据上传至云端。通过上述方式,本发明提供的数据异常处理方法对数据特征的挖掘具有较高的完整性,提供的一种基于KPCA和混合相似度的数据异常处理方法具有较高的准确性,进而提升数据集的质量管理水平,促进云端和边缘端对任务的安全稳定优质运行。运行。运行。


技术研发人员:

马勇 赵从俊 戴梦轩 贺嘉 李博嘉 何兵兵 唐泳

受保护的技术使用者:

江西师范大学

技术研发日:

2022.10.27

技术公布日:

2022/12/6

本文发布于:2024-09-21 22:33:30,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/32394.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   所述   异常   冗余
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议