首页 > 学术百科

数据中异常值的处理方法-总

数据中异常值的检测与处理方法

一、数据中的异常值

各种类型的异常值：

数据输入错误：数据收集，记录或输入过程中出现的人为错误可能导致数据异常。例如：一个客户的年收入是$ 100,000。数据输入运算符偶然会在图中增加一个零。现在收入是100万美元，是现在的10倍。显然，与其他人口相比，这将是异常值。

测量误差：这是最常见的异常值来源。这是在使用的测量仪器出现故障时引起的。例如：有10台称重机。其中9个是正确的，1个是错误的。

有问题的机器上的人测量的重量将比组中其他人的更高/更低。在错误的机器上测量的重量可能导致异常值。

天才就是非凡的傻劲

实验错误：异常值的另一个原因是实验错误。举例来说：在七名跑步者的100米短跑中，一

名跑步者错过了专注于“出发”的信号，导致他迟到。因此，这导致跑步者的跑步时间比其他跑步者多。他的总运行时间可能是一个离值。高士功放机

故意的异常值：这在涉及敏感数据的自我报告的度量中通常被发现。例如：青少年通常会假报他们消耗的酒精量。只有一小部分会报告实际价值。

这里的实际值可能看起来像异常值，因为其余的青少年正在假报消费量。

数据处理错误：当我们进行数据挖掘时，我们从多个来源提取数据。某些操作或提取错误可能会导致数据集中的异常值。

抽样错误：例如，我们必须测量运动员的身高。错误地，我们在样本中包括一些篮球运动员。这个包含可能会导致数据集中的异常值。

自然异常值：当异常值不是人为的（由于错误），这是一个自然的异常值。例如：保险公司的前50名理财顾问的表现远远高于其他人。令人惊讶的是，这不是由于任何错误。因此，进行任何数据挖掘时，我们会分别处理这个细分的数据。

在以上的异常值类型中，对于房地产数据，可能出现的异常值类型主要有：(1)数据输入错误，例如房产经纪人在发布房源信息时由于输入错误，而导致房价、面积等相关信息的异常；在数据的提取过程中也可能会出现异生殖器官

常值，比如在提取出售二手房单价时，遇到“1室7800元/m 2”，提取其中的数字结果为“17800”，这样就造成了该条案例的单价远远异常于同一小区的其他房源价格，如果没有去掉这个异常值，将会导致整个小区的房屋单价均值偏高，与实际不符。(2)故意的异常值，可能会存在一些人，为了吸引别人来电询问房源，故意把价格压低，比如房屋单价为1元等等；(3)自然异常值。房价中也会有一些实际就是比普通住宅价格高很多的真实价格，这个就需要根据实际请况进行判断，或在有需求时单独分析。

二、数据中异常值的检测

各种类型的异常值检测：

1、四分位数展布法

方法[1]：大于下四分位数加1.5倍四分位距或小于上四分位数减1.5倍。把数据按照从小到

大排序，其中25%为下四分位用FL 表示，75%处为上四分位用FU 表示。

扫频信号源

计算展布为：L U F F F d -=，展布（间距）为上四分位数减去下四分位数。最小估计值（下截断点）：F L d F 5.1-

最大估计值（上截断点）：F U d F 5.1+

数据集中任意数用X 表示，F U F L d F X d F 5.15.1+<<-，

上面的参数1.5不是绝对的，而是根据经验，但是效果很好。计算的是中度异常，参数等于3时，计算的是极度异常。我们把异常值定义为小于下截断点，或者大于上截断点的数据称为异常值。

优点：与方差和极差相比，更加不容易受极端值的影响，且处理大规模数据效果很好。

缺点：小规模处理略显粗糙。而且只适合单个属相的检测。

2、识别不遵守分布或回归方程的值

方法：双变量和多变量离值通常使用影响力或杠杆指数或距离来衡量，像Mahalanobis 的距离和Cook‘s D 这样的流行指数经常被用来检测异常值。在SAS 中，我们可以使用PROC Univariate, PROC SGPLOT ，为了识别异常值和有影响力的观测，我们还研究了STUDENT 、COOKD 、RSTUDENT 等统计指标。

马氏距离法[1]：假设两个变量Xi 和Xj 具有较高的正相关关系，某样本Xk 在这两个变量上的取值为（Xki ，Xkj ），若Xki 远远大于Xi 的平均值，而Xkj 却远小于Xj 的平均值，则这个样品就很可能是异常的。检验这种异常品可以采用马氏平方距离法。主要思想是：把n 个P 维样品看作p 维空间中的n 个点，则第i 个样品所对应的坐标为（Xi1，Xi2，…，Xip ）。样品在空间中的相对位置可通过各样品与总体重心（以各变量均值（X1，X2，…，Xp ）为坐标的点）之间的距离来求得。

设X(1)，X(2)，…，X(p)（其中（Xi1，Xi2，…，Xip ）为来自Np 中的n 个样品，其中1212(,,...,),(,,...,)p k k k nk X X X X X mean x x x ==

则样品X(i)到重心12(,,...,)p X X X 的马氏平方距离定义为

中软冠211221122(,,...,)'(,,...,)i i i ip p i i ip p D x x x x x x x x x x x x -=------∑ 其中∑可由样本协方差阵来估计

'()()1

1(,()())1n i i i S S x x x x n ===---∑∑ 容易证明，当n 较大时，2i D 近似服从2

p x 其临界值true D 可由

2x 分布表来查出、当2i true D D >=时，将第i 个样品判为异常。

稳健马氏距离：

由于异常值的存在会显著影响中心值和协方差矩阵的估计，使一般马氏距离不能正确反映各个观测的偏离程度。对于这类数据，需要通过稳健统计的方法，构建稳定的均值和协方差矩阵统计量。

具体算法：

设数据集为一个n 行p 列的矩阵X n×p ，从中随机抽取h 个样本数据，并计算这个样本数据的样本均值T 1和协方差矩阵S 1。然后通过)()()(d 111'11T x S T x i i i --=-计算这 n 个样本数据到中心T 1的马氏距离，选出这n 个距离中最小的h 个，再通过这个h 个样本计算样本均值T 2和协方差矩阵S 2。根据Rousseeuw,Van Driessen(1999)可以证明 det(S 2)≤ det(S 1)，仅当T 1=T 2时候等号成立。这样子不断迭代下去，当 det(S m )≤ det(S m-1)停止迭代。这时再通过S m 进行加权计算就能求出稳健的协方差矩阵估计量。

(1)确定h 的值。h 值在0.5n 和n 之间，一般来说h 越小，它的抵抗异常值能力越强，但是最小不能少于50%，因为少于50%已经不能分辨哪些是正常值哪些是异常值，所以作为一种折中，h 默认是取h=0.75*n ，而当样本数量比较少时，h 一般取0.9n 。

(2)如果h=n ，这时计算的是整个样本数据的均值向量和协方差矩阵，返回计算结果并停止。

(3)从n 个样本中随机抽取p+1个样本构造协方差矩阵，并计算其行列式，如果行列式为0，再随机加入一个样本直到行列式不为0，这时这个协方差矩阵为初始协方差矩阵S 0，并利用随机选择出来的样本计算初始样本均值 T 0。

(4)当n 值较小(小于600)时，直接从T 0、S 0计算得到T 1、S 1并开始迭代，迭代两次得到S 3。重复 500 次这个过程，得到500个 S 3，从中选取最小的10个继续迭代直到收敛，返回最小行列式值的T 和S ，记为 T mcd 和S mcd 。．

(5)当n 值较大时，由于每次迭代都要把n 个样本的距离计算一次，非常耗时。所以把n 个样本分成几个部分，例如当n 等于900 时，可以把n 分成3个子样本，每个子样本包含300个样本。每个子样本也是从各自 T 0、S 0计算得到 T 1、S 1并开始迭代，迭代两次得到S 3，每个子样本重复500/3=167次，各自

得到167个S 3。每个子样本从中选取最小的 10个S 3。然后把子样本合并重新合成一个整体样本，并也把子样本中的10个S 3合并，得到30个S 3。从这30个S 3迭代两次，保留最小的10个结果并继续迭代下去直到收敛，返回最小行列式值的T 和S ，记为 T mcd 和S mcd 。

(6)根据 T mcd 和S mcd 计算每个样本的稳定马氏距离d (i)。因为计算出来的距离值近似服从一个自由度为p 的卡方分布，假设置信度为97.5%时，当

钋-210

2975.0,)(P i d γ>时，记 W i =0否则W i =1.然后根据 W i 再重新计算。这时< 就是最后所求的稳定协方差矩阵。在此稳健协方差矩阵和稳健样本均值基础上，便能得出稳健的马氏距离。

3、Cook‘s D Cook‘s D :在你的数据资料中,如果某一条数据记录被排除在外,那么由此造成的回归系数变化有多大.显然,如果这个值过大,那么就表明这条数据对回归系数的计算产生了明显的影响,这条数据就是异常数据.

本文发布于:2024-09-22 21:27:38，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/68546.html

上一篇：一种基于公开网络数据集的异常分析系统

下一篇：基于频繁项集挖掘的长周期异常行为检测

标签：数据样本错误计算可能协方差

留言与评论（共有 0 条评论）