首页 > 学术百科

异常检测基本概念和方法

异常检测基本概念和⽅法

1.异常检测基本概念

异常检测：识别与正常数据不同的数据，与预期⾏为差异⼤的数据。

1.1 异常的类别

点异常：指的是少数个体实例是异常的，⼤多数个体实例是正常的。

条件异常：⼜称上下⽂异常，指的是在1. 异常检测基本概念

林贤贞异常检测：识别与正常数据不同的数据，与预期⾏为差异⼤的数据。

1.1异常的类别

点异常：指的是少数个体实例是异常的，⼤多数个体实例是正常的。

条件异常：⼜称上下⽂异常，指的是在特定情境下个体实例是异常的，在其他情境下都是正常的。

体异常：在体集合中的个体实例出现异常的情况，⽽该个体实例⾃⾝可能不是异常，在⼊侵或欺诈检测等应⽤中，离点对应于多个数据点的序列，⽽不是单个数据点。

1.2 异常检测任务分类

有监督：训练集的正例和反例均有标签

⽆监督：训练集⽆标签

半监督：在训练集中只有正例，异常实例不参与训练

2. 异常检测基本⽅法

2.1.1 基于统计学的⽅法

异常检测的统计学⽅法的⼀般思想是：学习⼀个拟合给定数据集的⽣成模型，然后识别该模型低概率区域中的对象，把它们作为异常点。

利⽤统计学⽅法建⽴⼀个模型，然后考虑对象有多⼤概率可能符合该模型。

2.1.2 线性模型

PCA主成分分析。它的应⽤场景是对数据集进⾏降维。降维后的数据能够最⼤程度地保留原始数据的特征（以数据协⽅差为衡量标准）。其原理是通过构造⼀个新的特征空间，把原数据映射到这个新的

kugoo2013下载低维空间⾥。PCA可以提⾼数据的计算性能，并且缓解"⾼维灾难"。

2.1.3 基于邻近度的⽅法

这类算法适⽤于数据点的聚集程度⾼、离点较少的情况。同时，因为相似度算法通常需要对每⼀个数据分别进⾏相应计算，所以这类算法通常计算量⼤，不太适⽤于数据量⼤、维度⾼的数据。

基于集（簇）的检测，如DBSCAN等聚类算法。

基于距离的度量，如k近邻算法。

基于密度的度量，如LOF（局部离因⼦）算法。

2.2 集成⽅法解释权

集成是提⾼数据挖掘算法精度的常⽤⽅法。集成⽅法将多个算法或多个基检测器的输出结合起来。其基本思想是⼀些算法在某些⼦集上表现很好，⼀些算法在其他⼦集上表现很好，然后集成起来使得输出更加鲁棒。集成⽅法与基于⼦空间⽅法有着天然的相似性，⼦空间与不同的点集相关，⽽集成⽅法使⽤基检测器来探索不同维度的⼦集，将这些基学习器集合起来。

孤⽴森林：

潘海东孤⽴森林假设我们⽤⼀个随机超平⾯来切割数据空间，切⼀次可以⽣成两个⼦空间。然后我们继续⽤随机超平⾯来切割每个⼦空间并循环，直到每个⼦空间只有⼀个数据点为⽌。直观上来讲，那些具有⾼密度的簇需要被切很多次才会将其分离，⽽那些低密度的点很快就被单独分配到⼀个⼦空间了。孤⽴森林认为这些很快被孤⽴的点就是异常点。

2.3 机器学习

在有标签的情况下，可以使⽤树模型（gbdt,xgboost等）进⾏分类，缺点是异常检测场景下数据标签是不均衡的，但是利⽤机器学习算法的好处是可以构造不同特征。

Datawhale五⽉组队学习特定情境下个体实例是异常的，在其他情境下都是正常的。根与芽

1.2 异常检测任务分类

有监督：训练集的正例和反例均有标签

⽆监督：训练集⽆标签

半监督：在训练集中只有正例，异常实例不参与训练

2. 异常检测基本⽅法

2.1.1 基于统计学的⽅法

异常检测的统计学⽅法的⼀般思想是：学习⼀个拟合给定数据集的⽣成模型，然后识别该模型低概率区域中的对象，把它们作为异常点。

利⽤统计学⽅法建⽴⼀个模型，然后考虑对象有多⼤概率可能符合该模型。

2.1.2 线性模型

PCA主成分分析。它的应⽤场景是对数据集进⾏降维。降维后的数据能够最⼤程度地保留原始数据的特征（以数据协⽅差为衡量标准）。其原理是通过构造⼀个新的特征空间，把原数据映射到这个新的低维空间⾥。PCA可以提⾼数据的计算性能，并且缓解"⾼维灾难"。

2.1.3 基于邻近度的⽅法

基于集（簇）的检测，如DBSCAN等聚类算法。

陇西秧歌基于距离的度量，如k近邻算法。

基于密度的度量，如LOF（局部离因⼦）算法。

2.2 集成⽅法

孤⽴森林：

孤⽴森林假设我们⽤⼀个随机超平⾯来切割数据空间，切⼀次可以⽣成两个⼦空间。然后我们继续⽤随机超平⾯来切割每个⼦空间并循环，直到每个⼦空间只有⼀个数据点为⽌。直观上来讲，那些具有⾼密度的簇需要被切很多次才会将其分离，⽽那些低密度的点很快就被单独分配到⼀个⼦空间了。孤⽴森林认为这些很快被孤⽴的点就是异常点。

2.3 机器学习

Datawhale五⽉组队学习

本文发布于:2024-09-22 21:21:15，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/68548.html

上一篇：基于频繁项集挖掘的长周期异常行为检测

下一篇：SPSS中异常值检验的几种方法介绍