数据中异常值的处理方法_总

数据中异常值的检测与处理方法
一、数据中的异常值
各种类型的异常值:中文自修
数据输入错误数据收集,记录或输入过程中出现的人为错误可能导致数据异常。例如:一个客户的年收入是$ 100,000。数据输入运算符偶然会在图中增加一个零。现在收入是100万美元,是现在的10倍。显然,与其他人口相比,这将是异常值。
丝光沸石
测量误差: 中国井矿盐这是最常见的异常值来源。这是在使用的测量仪器出现故障时引起的。例如:有10台称重机。其中9个是正确的,1个是错误的。有问题的机器上的人测量的重量将比组中其他人的更高/更低。在错误的机器上测量的重量可能导致异常值。
实验错误:异常值的另一个原因是实验错误。举例来说:在七名跑步者的100米短跑中,一名跑步者错过了专注于“出发”的信号,导致他迟到。因此,这导致跑步者的跑步时间比其他跑步者多。他的总运行时间可能是一个离值。
故意的异常值: 这在涉及敏感数据的自我报告的度量中通常被发现。例如:青少年通常会假报他们消耗的酒精量。只有一小部分会报告实际价值。这里的实际值可能看起来像异常值,因为其余的青少年正在假报消费量。
数据处理错误:我们进行数据挖掘时,我们从多个来源提取数据。某些操作或提取错误可能会导致数据集中的异常值。
抽样错误:  例如,我们必须测量运动员的身高。错误地,我们在样本中包括一些篮球运动员。这个包含可能会导致数据集中的异常值。
自然异常值: 当异常值不是人为的(由于错误),这是一个自然的异常值。例如:保险公司的前50名理财顾问的表现远远高于其他人。令人惊讶的是,这不是由于任何错误。因此,进行任何数据挖掘时,我们会分别处理这个细分的数据。
在以上的异常值类型中,对于房地产数据,可能出现的异常值类型主要有:(1)数据输入错误,例如房产经纪人在发布房源信息时由于输入错误,而导致房价、面积等相关信息的异常;在数据的提取过程中也可能会出现异常值,比如在提取出售二手房单价时,遇到“1室
7800元/m2”,提取其中的数字结果为“17800”,这样就造成了该条案例的单价远远异常于同一小区的其他房源价格,如果没有去掉这个异常值,将会导致整个小区的房屋单价均值偏高,与实际不符。(2)故意的异常值,可能会存在一些人,为了吸引别人来电询问房源,故意把价格压低,比如房屋单价为1元等等;(3)自然异常值。房价中也会有一些实际就是比普通住宅价格高很多的真实价格,这个就需要根据实际请况进行判断,或在有需求时单独分析。
二、数据中异常值的检测
各种类型的异常值检测:
1、四分位数展布法
方法[1]:大于下四分位数加倍四分位距或小于上四分位数减倍。
把数据按照从小到大排序,其中25%为下四分位用FL表示,75%处为上四分位用FU表示。
计算展布为:,展布(间距)为上四分位数减去下四分位数。
最小估计值(下截断点):
最大估计值(上截断点):
数据集中任意数用表示,
上面的参数不是绝对的,而是根据经验,但是效果很好。计算的是中度异常,参数等于3时,计算的是极度异常。我们把异常值定义为小于下截断点,或者大于上截断点的数据称为异常值。
优点:与方差和极差相比,更加不容易受极端值的影响,且处理大规模数据效果很好。
缺点:小规模处理略显粗糙。而且只适合单个属相的检测。
2、识别不遵守分布或回归方程的值托咪
方法:双变量和多变量离值通常使用影响力或杠杆指数或距离来衡量,像Mahalanobis的距离和Cook‘s D这样的流行指数经常被用来检测异常值。在SAS中,我们可以使用PROC Univariate, PROC SGPLOT,为了识别异常值和有影响力的观测,我们还研究了S寒冷也是一种温暖迟子建
TUDENT、COOKD、RSTUDENT等统计指标。
马氏距离法[1]假设两个变量Xi和Xj具有较高的正相关关系,某样本Xk在这两个变量上的取值为(Xki,Xkj),若Xki远远大于Xi的平均值,而Xkj却远小于Xj的平均值,则这个样品就很可能是异常的。检验这种异常品可以采用马氏平方距离法。主要思想是:把n个P维样品看作p维空间中的n个点,则第i个样品所对应的坐标为(Xi1,Xi2,…,Xip)。样品在空间中的相对位置可通过各样品与总体重心(以各变量均值(X1,X2,…,Xp)为坐标的点)之间的距离来求得。
设X(1),X(2),…,X(p)(其中(Xi1,Xi2,…,Xip)为来自Np中的n个样品,其中
则样品X(i)到重心的马氏平方距离定义为
其中可由样本协方差阵来估计
>预防职务犯罪论文

本文发布于:2024-09-25 01:20:22,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/68432.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   错误   可能   导致   样品
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议