数据挖掘笔记(7)-离点检测

数据挖掘笔记(7)-离点检测为什么植树是义务
离点检测是为了发现数据集中与其它⼤部分数据显著不同的数据点,建模的的时候通常将离点视为噪声丢弃。离点虽然会影响建模的准确率,但是在特定的应⽤中,离点蕴含着更⼤的研究价值,⽐如从银⾏卡刷卡记录数据的离点分析某⽤户是否存在异常刷卡⾏为,再⽐如运动员上场⽐赛前的体能特征数据中离点分析该运动员是否嗑药了。下⾯来介绍⼏种常⽤的离点检测⽅法:
⼀、基于统计模型的离点检测
杭州电子工业学院通过估计概率分布的参数来建⽴⼀个概率分布模型,如果数据点不能很好的拟合该模型,那就意味着它可能不服从该概率分布,那它就可能是⼀个离点。
(1)⼀元正太分布中的离点检测
牡丹江教育云空间正太分布是统计学最常⽤的分布之⼀,对于很多的数据集的某些属性都可以假定它服从正太分布,建⽴正太分布模型来检查离点。正太分布的概率密度如下:
其中总体均值μ和总体标准差σ属于未知参数,可以通过样本信息(给定的数据集)来估计,样本均值是总
体均值μ的⽆偏估计,修正样本⽅差是总计⽅差的⽆偏估计。
得到估计参数μ^ 和 σ^后我们就得到了正太概率分布模型,可以接着利⽤标准化X=(X-μ)/σ将正太概率分布模型变为标准正太分布模型。
对于N(0,1)分布来说,数据点出现在尾部的概率很⼩,通常来讲数据点出现在正负3倍的标准差之外的区域的概率很⼩,仅有0.0027,所以说可以将离均值超过3倍标准差的值视为离点。
(2)混合模型的离点检测
混合模型:
混合模型是⼀种特殊的统计模型,它包含多个概率分布,每⼀个分布对应⼀个簇(数据集中的⼀部分数据),⽽每个分布的参数就是对该簇的相关描述。通常混合模型的概率分布统⼀取正太分布,但是每个分布的参数不同。
混合模型的参数求解:
(⼀般⽤EM算法迭代来求参数集合A,这⾥讲⼀点点原理)
假定混合模型中有K个概率分布,每个概率分布的权重⽤W  (1<= j <=K)表⽰且所有权重之和等于1,每个概率分布的参数⽤α~j ~ 表⽰,A={ α,α,…,α}是所有参数的集合,现有m个样本⽤χ={x ,x ,…,x }表⽰,接下来⽤极⼤似然法求模型参数。
j 12k 12m
① 在所有参数已知的情况下(赋初值),任⼀样本 x 来⾃第 j 个分布的概率为p(x ; α
),则可得任⼀样本 x 来⾃该混合模型的概率为:② 计算样本集χ={x ,x ,…,x
}中的样本都是来⾃该混合模型的概率:
正德皇帝下江南
③ 将过程②中的概率进⾏转化,便于求对数似然。样本集χ={x ,x ,…,x }中的样本都是来⾃该混合模型等价于将样本集分成k个⼦集,每个⼦集对应⼀个概率分布,⽤M  (1<= j <=K)表⽰第k个⼦集,P
(x)表⽰第 j 个⼦集对应的概率分布,所以化简②式的概率公式如下:④ 求对数似然函数
似然函数如下:
对数似然为:
⑤ 使得④式中的对数似然取最⼤值对应的参数集合A就是该混合模型的最佳参数。
⽤于离点检测的混合模型:
⽤于离点检测的混合模型认为数据集χ={x ,x ,…,x }可以分为两个部分,⼀个是M(x)代表⼤多数正常数据的分布,另⼀个是N(x)代表离
点数据的分布,M通常由数据集信息估计得到,N通常取均匀分布。所以⽤于离点检测的混合模型可取如下结构:
⽤于离点检测混合模型的参数求解(最⼤化似然函数):
求出最佳参数集合A之后就得到了较优的混合模型,对数据集中的数据点进⾏测试,那些拟合效果不是很好的数据点可能是离点。
(3)基于统计模型的离点检测的优缺点
在数据集庞⼤并且数据分布已知的情况采⽤基于统计模型的离点检测会⾮常有效⽽且可靠。但是对于数据分布未知或者多维的数据集来说,⽤该⽅法来检验离点可能达不到理想的效果。
⼆、基于邻近度的离点检测
j 12m 12m j Mj 12m
⼆、基于邻近度的离点检测
(1)思想
基于邻近度的离点检测的思想⾮常简单,⼀般来讲离点肯定远离⼤部分正常的数据,通过计算每个数据点的k-最近邻距离来度量该数据点是否远离⼤部分的数据点,并且⽤每个数据点的k-最近邻距离作为该数据点的离点得分,距离越⼤,离点得分越⼤,所以离点的最⼤值是距离函数的能取到的最⼤值,离点的最⼩值则为0。算出每个数据点的k-最近邻距离之后,通过给定的距离阈值就可以筛选出离点。
数据点的k-最近邻距离指的是该数据点与第k个离它最近的数据点的距离,距离的计算⼀般采⽤欧⽒距离。
(2)基于邻近度的离点检测的优缺点
该⽅法虽然理解起来简单,但是⼀般需要O(m )的时间(m为数据点个数),对于⼤型数据集来说代价太⼤。此外,该⽅法的距离阈值使⽤的是全局阈值,对于具有不同密度区域的数据集该⽅法可能会不出局部离点。
如下图:
图中C点是全局离点,因为C点距离两个簇都远,基于邻近度的离点检测肯定会检测出C点。⽽D点离⼀个簇很远,离另⼀个簇很近,所
以它是局部离点,D点的k-最近邻距离肯定⼩于我们给定的距离阈值,所以D点最终不会被视为离点。
三、基于密度的离点检测
(1)思想
基于密度的离点检测认为离点⼀般都来⾃低密度区域,计算每个数据点周围的密度,通过给定密度的阈值检测离点。
(2)计算每个数据点周围的密度
①基于邻近度的密度
该⽅法定义每个数据点周围的密度为它到最近的k个数据点的距离的平均数的倒数,所以距离越⼩,密度越⾼。
公式如下:
N(x,k)为距离数据点x最近的k个数据点的集合,|N(x,k)|为该集合数据元素的个数。
②基于计数的密度
该⽅法定义每个数据点周围的密度为以该数据点为圆⼼,d为半经的圆内包含的数据点的个数。所以d的选择显的尤为重要,如果d太⼩,正常点具有的密度可能很⼩。
③基于相对密度的密度
该⽅法⽤每个数据点的相对密度作为它周围的密度。
每个数据点的相对密度定义为该数据点密度与k个最近邻数据点的平均密度之⽐。
公式如下:
(3)基于密度的离点检测的优缺点
与基于邻近度的离点检测⽅法⼀样,基于密度的离点检测⽅法必然都具有O(m )的时间复杂度,对于⼤型数据集代价太⼤,并且基于邻近度的密度和基于计数的密度对于具有不同密度区域的数据⾥
来说并不适合,基于相对密度的密度给出了数据点是离点程度的定量度量,即使是具有不同密度区域的数据集,该密度也能达到很好度量效果。
22
即使是具有不同密度区域的数据集,该密度也能达到很好度量效果。
四、基于聚类的离点检测
聚类算法可以将内部结构相关的数据点聚集在⼀起形成⼀个簇,所以聚类当然可以出内部结构与其它⼤部分数据点不相关的离点。
(1)思想
①⼀种简单的⽅法
⼀种简单的基于聚类的离点检测⽅法是永远丢弃远离其它簇的⼩簇,这时候需要确定怎样才算是‘远离’,怎样才算是‘⼩簇’。关于’远离’可以定义为如果⼀个簇与它最邻近的簇的距离超过给定的最⼤距离阈值,那么就认为这个簇‘远离’其它的所有簇,关于‘⼩簇’可以定义为如果该簇包含的数据点个数⼩于给定的最⼩簇⼤⼩阈值,那么就认为这个簇是个‘⼩簇’。所以如果⼀个簇被认为是远离其它簇的⼩簇,那么有理由怀疑这个‘⼩簇’内的数据点都是离点。
②⼀种更系统的⽅法
⼀种更系统的基于聚类的离点检测⽅法是先聚类所有数据点,然后评估每个数据点属于簇的程度。该⽅法对基于原型的聚类(⽐如k-means)⽐较适合,因为它可以通过计算数据点到它的簇中⼼的距离度量该数据点属于该簇的程度,也相当于是把数据点到它的簇中⼼的距离作为该数据点的离点得分,距离越⼤,得分越⾼,越被认为是离点。
(2)基于聚类的离点检测需要处理的问题
①评估对象属于簇的程度
该问题⾯向基于原型的聚类,虽然它把数据点到它的簇中⼼的距离作为该数据点的离点得分,但是如果数据集具有不同密度区域,使⽤该⽅法来评估效果不佳,因为⼩密度区域中的数据点的离点得分肯定普遍要⼩。
解决办法:
要采⽤数据点到簇原型的相对距离来度量对象属于簇的程度,这对于具有不同密度区域的数据集同样适合。
簇质⼼: 簇的质⼼与计算距离时采⽤的距离函数有关。
当距离函数采⽤曼哈顿距离,簇的质⼼为簇的中位数
当距离函数采⽤平⽅欧⼏⾥德距离,簇的质⼼为簇的均值。
当距离函数采⽤余弦距离,簇的质⼼为簇的均值。
当距离函数采⽤Bregman 散度,簇的质⼼为簇的均值。
相对距离: 数据点到簇质⼼的距离与簇内所有数据点到簇质⼼的距离的中位数之⽐。
②选择簇的个数
像k-means等这类聚类算法不能⾃动确定簇的个数,所以⽤这类算法来进⾏离点检测必然依赖于簇个数的选择。⽐如有⼀个包含10个数据点的⼩簇,数据点之间挨得很近,当指定的簇个数⽐较少时,这个⼩簇可能作为某个⼤簇的⼀部分,因为⼤簇相对来说密度⼩,数据点之间⽐较分散,所以这个⼩簇很可能被认为是离点簇;当指定的簇个数⽐较多时,这个⼩簇就可能被认为是⼀个正常的簇。
leukemia解决办法:
⽅法⼀:选择不同的簇个数重复分析离点
e学论坛⽅法⼆:出⼤量的⼩簇,因为⼩簇趋向于更加凝聚,如果在存在⼤量⼩簇的情况下⼀个数据点被认为离点,则它多半是真的离点。
(3)基于聚类的离点检测的优缺点
聚类算法是对含有离点的数据集进⾏聚类,由于离点对于聚类形成的簇有很⼤影响,所以⽤聚类形成的簇来分析离点会影响离点的质量。
通过‘⼩簇’的⽅法来离点带有主观⾊彩,最⼩簇⼤⼩阈值和最⼤距离阈值的给定决定了离点的质量。
2
通过衡量数据点属于该簇的程度来离点和基于邻近度检测离点⽅法⼀样,具有O(m)的时间复杂度。

本文发布于:2024-09-22 04:35:18,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/68565.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:离群   数据   模型   检测   距离   密度   混合
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议