HBOS——基于频数直方图的无监督异常点检测算法

天蛾科

HBOS——基于频数直⽅图的⽆监督异常点检测算法

异常点检测是数据挖掘⼀个重要问题，当前的算法可以简单的分为监督、半监督和⽆监督的⽅法。对于存在标签的数据，监督算法是⾸选（能获得很好的效果），此时异常点检测可以等价于⾮平衡数据分类问题。但是，实际应⽤中往往只有正常样本的标签，这时需要⽆监督⽅法⼤显神威。⽆监督⽅法也更符合⼈类的认识⾏为。⽐如，⼀个⼈从来没有见过斑马，但是在⼀马中他也可以很容易辨别出斑马，尽管完全不知道“斑马”是什么物种。

需要注意的是，很多有效的监督⽅法也是通过有机集成⼏种⽆监督⽅法构建。

HBOS（Histogram-based Outlier Score）是⼀种原理简单，且通常很有效的⽆监督算法。该⽅法为每⼀个样本进⾏异常评分，评分越⾼越可能是异常点。评分模型为：

鹤峰人事网假设样本p第 i 个特征的概率密度为，则p的概率密度可以计算为：

两边取对数：

脱氢抗坏血酸

概率密度越⼤，异常评分越⼩，则两边乘以“-1”：

即：

陈露教你学滑冰如何计算概率密度，特别是对于连续型数据？最简单的⽅法是对连续数据进⾏离散化。离散化的基本思想是设置“断点”，将数据分割成若⼲个区间。其中，“断点”的设置可以是静态的，也可以是动态的。

对于样本集D，设置合适的“断点”集合，将特征的取值分割成若⼲个区间。统计区间的样本数，可以构建⼀个频数直⽅图H。假设第 i 个特征分割成m 个区间，每个区间统计的样本个数分别为：

频率（概率）分布表

中国渔业政务网取值区间1区间2......区间m

频率......

明显，根据频数直⽅图H可以计算出所有特征的频率分布。

为什么频率越⼤，异常评分越⼩？

特征c

广州市中小客车总量调控管理办法上图是特征c的样本分布例图。直观上，B样本是异常点，A点是正常点。由于，样本A（样本B）关于特征c的概率密度估计可以⽤特征c在相应区间的频率来近似。显然，特征的取值频率越⼤，样本的关于该特征的异常评分越⼩。

本文发布于:2024-09-23 23:28:06，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/68445.html

上一篇：风电机组异常数据预处理的分类多模型算法

下一篇：基于Spark和小波分析的水上交通异常数据实时检测方法研究

标签：特征监督区间

留言与评论（共有 0 条评论）