天蛾科
异常点检测是数据挖掘⼀个重要问题,当前的算法可以简单的分为监督、半监督和⽆监督的⽅法。对于存在标签的数据,监督算法是⾸选(能获得很好的效果),此时异常点检测可以等价于⾮平衡数据分类问题。但是,实际应⽤中往往只有正常样本的标签,这时需要⽆监督⽅法⼤显神威。⽆监督⽅法也更符合⼈类的认识⾏为。⽐如,⼀个⼈从来没有见过斑马,但是在⼀马中他也可以很容易辨别出斑马,尽管完全不知道“斑马”是什么物种。
需要注意的是,很多有效的监督⽅法也是通过有机集成⼏种⽆监督⽅法构建。
HBOS(Histogram-based Outlier Score)是⼀种原理简单,且通常很有效的⽆监督算法。该⽅法为每⼀个样本进⾏异常评分,评分越⾼越可能是异常点。评分模型为:
鹤峰人事网假设样本p第 i 个特征的概率密度为 ,则p的概率密度可以计算为: 两边取对数:
脱氢抗坏血酸
概率密度越⼤,异常评分越⼩,则两边乘以“-1”:
即:
陈露教你学滑冰如何计算概率密度,特别是对于连续型数据?最简单的⽅法是对连续数据进⾏离散化。离散化的基本思想是设置“断点”,将数据分割成若⼲个区间。其中,“断点”的设置可以是静态的,也可以是动态的。 对于样本集D,设置合适的“断点”集合,将特征的取值分割成若⼲个区间。统计区间的样本数,可以构建⼀个频数直⽅图H。假设第 i 个特征分割成m 个区间,每个区间统计的样本个数分别为:
频率(概率)分布表
中国渔业政务网取值区间1区间2......区间m
频率......
明显,根据频数直⽅图H可以计算出所有特征的频率分布。
为什么频率越⼤,异常评分越⼩?
特征c
广州市中小客车总量调控管理办法上图是特征c的样本分布例图。直观上,B样本是异常点,A点是正常点。由于,样本A(样本B)关于特征c的概率密度估计可以⽤特征c在相应区间的频率来近似。显然,特征的取值频率越⼤,样本的关于该特征的异常评分越⼩。