异常检测基本概念和方法

异常检测基本概念和⽅法
1.异常检测基本概念
异常检测:识别与正常数据不同的数据,与预期⾏为差异⼤的数据。
1.1 异常的类别
点异常:指的是少数个体实例是异常的,⼤多数个体实例是正常的。
条件异常:⼜称上下⽂异常,指的是在1. 异常检测基本概念
林贤贞异常检测:识别与正常数据不同的数据,与预期⾏为差异⼤的数据。
1.1异常的类别
点异常:指的是少数个体实例是异常的,⼤多数个体实例是正常的。
条件异常:⼜称上下⽂异常,指的是在特定情境下个体实例是异常的,在其他情境下都是正常的。
体异常:在体集合中的个体实例出现异常的情况,⽽该个体实例⾃⾝可能不是异常,在⼊侵或欺诈检测等应⽤中,离点对应于多个数据点的序列,⽽不是单个数据点。
1.2 异常检测任务分类
有监督:训练集的正例和反例均有标签
⽆监督:训练集⽆标签
半监督:在训练集中只有正例,异常实例不参与训练
2. 异常检测基本⽅法
2.1.1 基于统计学的⽅法
异常检测的统计学⽅法的⼀般思想是:学习⼀个拟合给定数据集的⽣成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。
利⽤统计学⽅法建⽴⼀个模型,然后考虑对象有多⼤概率可能符合该模型。
2.1.2 线性模型
PCA主成分分析。它的应⽤场景是对数据集进⾏降维。降维后的数据能够最⼤程度地保留原始数据的特征(以数据协⽅差为衡量标准)。其原理是通过构造⼀个新的特征空间,把原数据映射到这个新的
kugoo2013下载低维空间⾥。PCA可以提⾼数据的计算性能,并且缓解"⾼维灾难"。
2.1.3 基于邻近度的⽅法
这类算法适⽤于数据点的聚集程度⾼、离点较少的情况。同时,因为相似度算法通常需要对每⼀个数据分别进⾏相应计算,所以这类算法通常计算量⼤,不太适⽤于数据量⼤、维度⾼的数据。
基于集(簇)的检测,如DBSCAN等聚类算法。
基于距离的度量,如k近邻算法。
基于密度的度量,如LOF(局部离因⼦)算法。
2.2 集成⽅法解释权
集成是提⾼数据挖掘算法精度的常⽤⽅法。集成⽅法将多个算法或多个基检测器的输出结合起来。其基本思想是⼀些算法在某些⼦集上表现很好,⼀些算法在其他⼦集上表现很好,然后集成起来使得输出更加鲁棒。集成⽅法与基于⼦空间⽅法有着天然的相似性,⼦空间与不同的点集相关,⽽集成⽅法使⽤基检测器来探索不同维度的⼦集,将这些基学习器集合起来。
孤⽴森林:
潘海东孤⽴森林假设我们⽤⼀个随机超平⾯来切割数据空间,切⼀次可以⽣成两个⼦空间。然后我们继续⽤随机超平⾯来切割每个⼦空间并循环,直到每个⼦空间只有⼀个数据点为⽌。直观上来讲,那些具有⾼密度的簇需要被切很多次才会将其分离,⽽那些低密度的点很快就被单独分配到⼀个⼦空间了。孤⽴森林认为这些很快被孤⽴的点就是异常点。
2.3 机器学习
在有标签的情况下,可以使⽤树模型(gbdt,xgboost等)进⾏分类,缺点是异常检测场景下数据标签是不均衡的,但是利⽤机器学习算法的好处是可以构造不同特征。
Datawhale五⽉组队学习特定情境下个体实例是异常的,在其他情境下都是正常的。根与芽
体异常:在体集合中的个体实例出现异常的情况,⽽该个体实例⾃⾝可能不是异常,在⼊侵或欺诈检测等应⽤中,离点对应于多个数据点的序列,⽽不是单个数据点。
1.2 异常检测任务分类
有监督:训练集的正例和反例均有标签
⽆监督:训练集⽆标签
半监督:在训练集中只有正例,异常实例不参与训练
2. 异常检测基本⽅法
2.1.1 基于统计学的⽅法
异常检测的统计学⽅法的⼀般思想是:学习⼀个拟合给定数据集的⽣成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。
利⽤统计学⽅法建⽴⼀个模型,然后考虑对象有多⼤概率可能符合该模型。
2.1.2 线性模型
PCA主成分分析。它的应⽤场景是对数据集进⾏降维。降维后的数据能够最⼤程度地保留原始数据的特征(以数据协⽅差为衡量标准)。其原理是通过构造⼀个新的特征空间,把原数据映射到这个新的低维空间⾥。PCA可以提⾼数据的计算性能,并且缓解"⾼维灾难"。
2.1.3 基于邻近度的⽅法
这类算法适⽤于数据点的聚集程度⾼、离点较少的情况。同时,因为相似度算法通常需要对每⼀个数据分别进⾏相应计算,所以这类算法通常计算量⼤,不太适⽤于数据量⼤、维度⾼的数据。
基于集(簇)的检测,如DBSCAN等聚类算法。
陇西秧歌基于距离的度量,如k近邻算法。
基于密度的度量,如LOF(局部离因⼦)算法。
2.2 集成⽅法
集成是提⾼数据挖掘算法精度的常⽤⽅法。集成⽅法将多个算法或多个基检测器的输出结合起来。其基本思想是⼀些算法在某些⼦集上表现很好,⼀些算法在其他⼦集上表现很好,然后集成起来使得输出更加鲁棒。集成⽅法与基于⼦空间⽅法有着天然的相似性,⼦空间与不同的点集相关,⽽集成⽅法使⽤基检测器来探索不同维度的⼦集,将这些基学习器集合起来。
孤⽴森林:
孤⽴森林假设我们⽤⼀个随机超平⾯来切割数据空间,切⼀次可以⽣成两个⼦空间。然后我们继续⽤随机超平⾯来切割每个⼦空间并循环,直到每个⼦空间只有⼀个数据点为⽌。直观上来讲,那些具有⾼密度的簇需要被切很多次才会将其分离,⽽那些低密度的点很快就被单独分配到⼀个⼦空间了。孤⽴森林认为这些很快被孤⽴的点就是异常点。
2.3 机器学习
在有标签的情况下,可以使⽤树模型(gbdt,xgboost等)进⾏分类,缺点是异常检测场景下数据标签是不均衡的,但是利⽤机器学习算法的好处是可以构造不同特征。
Datawhale五⽉组队学习

本文发布于:2024-09-22 21:21:15,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/68548.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   算法   空间   模型   检测   实例
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议