HBOS——基于频数直方图的无监督异常点检测算法

天蛾科
HBOS——基于频数直⽅图的⽆监督异常点检测算法
异常点检测是数据挖掘⼀个重要问题,当前的算法可以简单的分为监督、半监督和⽆监督的⽅法。对于存在标签的数据,监督算法是⾸选(能获得很好的效果),此时异常点检测可以等价于⾮平衡数据分类问题。但是,实际应⽤中往往只有正常样本的标签,这时需要⽆监督⽅法⼤显神威。⽆监督⽅法也更符合⼈类的认识⾏为。⽐如,⼀个⼈从来没有见过斑马,但是在⼀马中他也可以很容易辨别出斑马,尽管完全不知道“斑马”是什么物种。
需要注意的是,很多有效的监督⽅法也是通过有机集成⼏种⽆监督⽅法构建。
HBOS(Histogram-based Outlier Score)是⼀种原理简单,且通常很有效的⽆监督算法。该⽅法为每⼀个样本进⾏异常评分,评分越⾼越可能是异常点。评分模型为:
鹤峰人事网假设样本p第 i 个特征的概率密度为 ,则p的概率密度可以计算为:
两边取对数:
脱氢抗坏血酸
概率密度越⼤,异常评分越⼩,则两边乘以“-1”:
即:
陈露教你学滑冰如何计算概率密度,特别是对于连续型数据?最简单的⽅法是对连续数据进⾏离散化。离散化的基本思想是设置“断点”,将数据分割成若⼲个区间。其中,“断点”的设置可以是静态的,也可以是动态的。
对于样本集D,设置合适的“断点”集合,将特征的取值分割成若⼲个区间。统计区间的样本数,可以构建⼀个频数直⽅图H。假设第 i 个特征分割成m 个区间,每个区间统计的样本个数分别为:
频率(概率)分布表
中国渔业政务网取值区间1区间2......区间m
频率......
明显,根据频数直⽅图H可以计算出所有特征的频率分布。
为什么频率越⼤,异常评分越⼩?
特征c
广州市中小客车总量调控管理办法上图是特征c的样本分布例图。直观上,B样本是异常点,A点是正常点。由于,样本A(样本B)关于特征c的概率密度估计可以⽤特征c在相应区间的频率来近似。显然,特征的取值频率越⼤,样本的关于该特征的异常评分越⼩。

本文发布于:2024-09-23 23:28:06,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/68445.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   监督   区间
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议