数据预处理—-(数据探索、数据清理、数据集成、数据规约、数据变换)

数据预处理—-(数据探索、数据清理、数据集成、数据规
约、数据变换
数据挖掘概念与技术
定义挖掘⽬标–>数据取样–>数据探索–>数据预处理–>挖掘建模–>模型评价
第⼀章、数据
挖掘的数据类型:时间序列,序列,数据流,时间空间数据,多媒体数据,⽂本数据,图,社会⽹络和web数据;
挖掘:知识类型、使⽤的技术、⽬标应⽤的技术、挖掘任务分类。
衡量取样数据质量的标准:
1. 资料完整⽆缺,各类指标项齐全
2. 数据准确⽆误,反应的都是正常状态下的⽔平
数据抽样操作
1. 随机抽样:数据集中每⼀组观测值都有相同的被抽样的概率。
2. 等距抽样:20,40,60,80,100
3. 分层抽样:样本分成若⼲层次(⼦集),每个层次都有⾃定义的概率被选中
4. 分类抽样:依据某种属性取值来选择数据⼦集。
第⼆章:数据探索
数据对象和属性类型
基本统计数据描述的典型度量:数据可视化⽅法,各种数据相似性,相异性的⽅法。
认识数据:
标称属性:标称属性的值是⼀些符号或事物的名称。每个值代表某种类别、编码、或状态。
⼆元属性:是⼀种标称属性;0或1
序列属性:其可能的值之间具有有意义的序或秩评定,但相继值之间的差是未知的。
数值属性:可度量的定量。区间标度,⽐率标度。
数据的统计描述
中⼼趋势度量:均值、中位数、众数、中列数(最⼤最⼩值的均值)
数据的散布:极差、四分位数等
图形化显⽰:分位数图、直⽅图、散点图—–>数据可视化
度量数据的相似性和相异性
数据矩阵:对象-属性结构 ⽤ ( n * p )形式的矩阵来表⽰n个对象,每个对象p个属性。
相异性矩阵:对象-对象结构 存放两两对象的邻近度 n * n
欧⼏⾥得距离、曼哈顿距离:满⾜⾮负性、同⼀性、对称性、三⾓不等式
闵可夫斯基距离:h–>∞时的上确界距离
余弦相似性:相当于向量的cos
数据质量分析
脏数据:缺失值、异常值、不⼀致的值、重复数据及含有特殊符号(如#¥*)的值。
缺失值分析
因为⽆法获取或遗漏等原因造成某属性值不存在,会导致在建模时丢失有⽤信息,空值数据也会使建模过程造成不可靠的输出。
通过使⽤简单的统计分析,可以得到含有缺失值的属性的个数,以及每个属性的未缺失数、缺失数与缺失率。缺失值处理分为删除、对可能的值插补和不处理
异常值分析
重视异常值,分析其产⽣的原因,常常会成为发现问题进⽽改进决策的契机。
1. 简单统计量分析:最⼤值最⼩值判断,是否超出合理范围。
2. 3σ原则:异常值被定义为⼀组测定值中与平均值的偏差超过3倍标准差的值。距离平均值3σ之外的值概率为P(|x-u|>3σ)<=0.003时属于极个别的⼩概率事件。
3. 箱形图分析:此时异常值被定义为不在此范围 [Ql-1.5IQR ~ Qu+1.5IQR]的值。
1. Ql为下四分位数:表⽰全部观察值中有四分之⼀的数据取值⽐它⼩;
2. Qu为上四分位数,表⽰全部观察值中有四分之⼀的数据取值⽐它⼤;
ccyv23. IQR称为四分位数间距,是上四分位数Qu和下四分卫数Ql之差,之间包含了全部观察值的⼀半。
4. 四分位数具有⼀定的鲁棒性:25%的数据可以变得任意远⽽不会很⼤的扰动四分位数,所以异常值不能对这个标准施加影响。箱形图识别异常值的结果⽐较客观。识别异常值有优越性
三维数据采集4. ⼀致性分析:不⼀致数据的产⽣主要发⽣在数据集成过程中,这可能由于被挖掘数据是来⾃于从不同的数据源、对于重复存放的数据未能进⾏⼀致性更新造成的。
数据特征分析
分布分析
隔离式洗衣机分布分析揭⽰数据分布特征和分布类型。绘制频率分布表、绘制频率分布直⽅图、绘制茎叶图进⾏直观分析;对于定性分类数据,可⽤饼图和条形图直观的显⽰分布情况。
对⽐分析
绝对数⽐较,相对数⽐较
统计量分析
1. 集中趋势度量:均值、中位数、众数
2. 离中趋势度量:极差、标准差、变异系数、四分位数间距
相关性分析
散点图、散点图矩阵、计算相关系数
其他分析
周期性分析、贡献度分析
python画图的包和函数熟悉!
第三章:数据预处理⽅法
自动平开门
数据质量,数据清理,数据集成,数据归纳,数据变换和数据离散化⽅法。
原始数据存在⼤量不完整、不⼀致、有异常的数据,严重影响到数据挖掘建模的执⾏效率,甚⾄可能导致挖掘结果的偏差,因此要数据清洗。
数据清洗完成后接着进⾏或者同时进⾏数据集成、转换、规约等⼀系列的处理,该过程就是数据预处理。⼀⽅⾯提⾼数据的质量,另⼀⽅⾯是要让数据更好的适应特定的挖掘技术或⼯具。这个⼯作占60%!
0、数据清洗
删除原始数据集中的⽆关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题⽆关的数据,处理缺失值、异常值。
⼀、数据预处理主要任务
数据清理:例程通过填写缺失的值,光滑噪声数据,识别或删除离点,并解决不⼀致性来清理数据。
数据集成:在分析中使⽤多个数据源的数据,涉及集成多个数据库、数据⽴⽅体或⽂件。
数据规约:得到数据的简化表⽰。维归约 + 数值规约。
使⽤数据编码⽅案,以便得到原始数据的简化或压缩表⽰。数据压缩技术(⼩波变换,主成分分析)和属性⼦集选择(去掉不相关属性)和属性构造(从原来的属性集导出更有⽤的⼩属性集)
数值规约:
参数模型(回归和对数线性模型)和⾮参数模型(直⽅图,聚类,抽样或数据聚集),⽤较⼩的表⽰取代数据
⼆、数据清理:
试图填充缺失值、光滑噪声并识别离点、纠正数据中的不⼀致。两个步骤:包括偏差检测和数据变换。
缺失值:
忽略元组;⼈⼯填写缺失值;使⽤全局常量填充缺失值;使⽤属性中⼼度量;使⽤与给定元组属性同⼀类的所有样本的属性均值或中位数;使⽤最可能的值填充缺失值。
拉格朗⽇插值法,⽜顿插值法。
异常值:
异常值是否剔除,需视具体情况⽽定
噪声数据:
噪声是被测量的变量的随机误差或⽅差。
⽅法1:分箱—-通过考察数据的近邻来光滑有序数据值。
⽅法2:回归—-可以⽤⼀个函数拟合数据来光滑数据。
⽅法3:离点分析—-通过如聚类检测离点。
数据清理作为⼀个过程
1. 偏差检测。数据类型、定义域、属性可接受的值,数据趋势,编码不⼀致,数据表⽰不⼀致。字段过载。
2. 唯⼀性规则、连续性规则、空值规则。
三、数据集成:
数据挖掘需要的数据往往分布在不同的数据源中,数据集成就是将来⾃多个数据源的数据整合成⼀致的数据存储中的过程。
⼩⼼集成有助于减少结果数据集的冗余和不⼀致,有助于提⾼其后挖掘过程的准确性和速度。
1. 实体识别问题:来⾃多个信息源的现实世界的等价实体匹配问题。模式集成和对象匹配需要技巧。(同名异义、异名同义、单位不统⼀)
2. 冗余和相关分析:⽤相关分析检测冗余。标称数据–卡⽅检测;卡⽅统计检验假设A和B是独⽴的。检验基于显著⽔平。如果可以拒绝该假设,则说A和B统计相关。数值属性–相关系数:计算A和B的相关系数估计这两个属性的相关度。结果为0,则独⽴,不存在相关性。数据集成容易导致冗余:同⼀属性多次出现;同⼀属性命名不⼀致导致重复。仔细整合不同源数据能减少冗余与不⼀致,从⽽提⾼数据挖掘的速度和质量。对于冗余,先分析检测后将其删除
3. 数值数据的协⽅差:对于两个趋向⼀起改变的属性A和B,如果A⼤于A的期望值,B很可能⼤于B的期望值,那么A和B的协⽅差为正。如果相反,那么⼆者协⽅差就为负。
四、数据归约:得到数据的归约表⽰,从⽽使得信息内容的损失最⼩化。
数据规约策略包括:维归约、数量规约、数据压缩。
1. 维归约:减少所考虑的随机变量或属性的个数。⽅法包括⼩波变换、主成分分析(PCA),他们把原数据变换或投影到较⼩的空间。属
性⼦集选择⽅法也是⼀种维归约⽅法,其中不相关、弱相关、或冗余的属性或维被检测和删除。
2. 数量规约:⽤替代的、较⼩的数据表⽰形式替换元数据。参数⽅法:模型估计,⽽不是实际数据。回归和对数-线性模型就是例⼦。存
放数据规约表⽰的⾮参数⽅法包括直⽅图、聚类、抽样和恶数据⽴⽅体聚集。
电机线圈绕线机3. 数据压缩:使⽤变换,以便得到原数据的归约或压缩表⽰。重构与有损。
⼩波变换
⼩波变化可以⽤于多维数据。计算复杂性关于⽴⽅体中单元的个数是线性的。对于稀疏或倾斜数据和具有有序属性的数据。
通过树形合并创建新属性维数,或者直接通过删除不相关的属性来减少数据维数,从⽽提⾼数据挖掘的效率,降低计算成本。出最⼩的属性⼦集,并确保新数据⼦集的概率分布尽可能地接近原来数据集的概率分布。
主成分分析PCA
PCA搜索k个最能代表数据的n维正交向量,其中k<=n。这样,原数据投影到⼀个⼩得多的空间上,导致维归约。
与属性⼦集选择通过保留属性集的⼀个⼦集来减少属性集的⼤⼩不同,PCA通过创建⼀个替换的、较⼩的变量集组合属性的基本要素。原数据可以投影到该较⼩的集合中。
PCA基本过程:
1. 对输⼊数据规范化,使得每个属性都落⼊相同的区间
2. PCA计算k个标准正交向量,作为规范化输⼊数据的基。单位向量
3. 对主成分按“重要性”或强度降序排列。主成分本质上充当数据的新坐标系,提供关于⽅差的重要信息。使得第⼀个坐标轴显⽰数据的最⼤⽅差,第⼆个坐标轴显⽰次⼤⽅差。
4. 因为主成分根据“重要性”降序排列,因此可以通过去掉较弱的成分来归约数据。使⽤最强的主成分,应当能够重构原数据的很好的近似。
霍尔式角度传感器
PCA可以⽤于有序和⽆序的属性,并且可以处理稀疏和倾斜数据。多于⼆维的多维数据可以通过将问题归约为⼆维问题来处理。主成分可以⽤作多元回归和聚类分析的输⼊。与⼩波变换相⽐,PCA能够更好的处理稀疏数据,⽽⼩波变换更适合⾼维数据。
属性⼦集选择
通过删除不相关或冗余的属性(或维)减少数据量。属性⼦集选择的⽬标是出最⼩属性集,使得数据类的概率分布尽可能的接近使⽤所有属性得到的原分布。在缩⼩的属性集上挖掘还有其他优点:减少了出现在发现模式上的属性数⽬,使得模式更易于理解。
对于属性⼦集选择通常使⽤压缩搜索空间的启发式算法。通常,这些⽅法是典型的贪⼼算法,在搜索属性空间时,总是做看上去是最佳的选择,他们的策略是做局部最优选择,期望由此导致全局最优解。
属性构造帮助提⾼准确性和对⾼维数据结构的理解,属性构造可以发现关于数据属性间联系的缺失信息,这对知识发现是有⽤的。
数据⽴⽅体聚集
提供对预计算的汇总数据进⾏快速访问,因此适合联机数据分析和数据挖掘。
五、数据变换与数据离散化:将数据变换成适⽤于挖掘的形式,例如属性数据缩放
数据变换策略概述
光滑:去掉数据中的噪声。分箱、回归和聚类。
属性构造:可以由给定的属性构造新的属性并添加到属性集中,以帮助挖掘过程。
聚集:对数据进⾏汇总或聚集。聚集⽇销售数据,计算⽉和年销售量。这⼀步⽤来为多个抽象层的数据分析构造数据⽴⽅体。
规范化:把属性数据按⽐例缩放,使之落⼊⼀个特定的⼩区间(-1~1,0~1)
离散化:数值属性的原始值⽤区间标签或概念标签替换。这些标签可以递归地组织成更⾼层概念,导致数值属性的概念分层。
通过规范化变换数据
简单函数变换:
⽤来将不具有正态分布的数据变换成具有正态分布的数据。简单的函数变换可能更有必要,利⽤对数
变换对其进⾏压缩是常⽤的⼀种变换处理⽅法
规范化变换数据:
最⼩最⼤规范化
最⼤最⼩规范化保持原始数据值之间的联系。如果今后输⼊实例落在A的原数据值域之外,则该⽅法将⾯临越界错误。
z分数规范化
该标准差可以⽤均值绝对偏差替换!
按⼩数定标规范化
连续属性离散化
⼀些数据挖掘算法,特别是分类算法,要求数据室分类属性形式。常常需要将连续属性变换成分类属性,即连续属性离散化。
常⽤的离散化⽅法:
1. 等宽法:将属性值域分成具有相同宽度的区间,区间的个数由数据本⾝的特点决定,或者由⽤户指定,类似于制作频率分布表。
2. 等频法:将相同数量的记录放进每个区间。
3. 基于聚类分析的⽅法。
通过分箱离散化、通过直⽅图分析离散化、通过聚类、决策树和相关分析离散化、标称数据的概念分层产⽣
属性构造
为了提取有⽤的信息,挖掘更深层次的模式,提⾼挖掘结果的精度,利⽤已有属性集构造出新的属性,加⼊现有属性集合中。
数据预处理总结
1. 数据质量⽤准确性、完整性、⼀致性、时效性、可信性和可解释性定义。质量基于数据的应⽤⽬的评估。
2. 数据清理例程试图填补缺失的值,光滑噪声同时识别离点,并纠正数据的不⼀致性,数据清理通常是⼀个两步的迭代过程,包括偏
差检测和数据变换。
3. 数据集成将来⾃多个数据源的数据整合成⼀致的数据存储。语义异种性的解决、元数据、相关分析、原组重复检测和数据冲突检测都
有助于数据的顺利集成。
4. 数据规约得到数据的规约表⽰,⽽是的信息内容的损失最⼩化。数据规约⽅法包括维归约、数量规约和数据压缩。维归约减少所考虑
的随机变量或维的个数,⽅法包括⼩波变换、主成分分析、属性⼦集选择和属性创建。数量归约⽅法使⽤参数或⾮参数模型。⾮参数⽅法包括直⽅图、聚类、抽样和数据⽴⽅体聚集。数据压缩⽅法使⽤变换,得到原数据的归约或压缩表⽰。如果原数据可以有压缩后的数据重构,⽽不损失任何信息,则数据压缩是⽆损的;否则,它是有损的。
5. 数据变换例程将数据变换成适⽤于挖掘的形式。规范化中,属性数据可以缩放,使得他们可以落在较⼩的区间。
6. 数据离散化通过把值映射到区间或概念标号变换数值数据,这种⽅法可以⽤来⾃动地产⽣数据的概念分层,⽽概念分层允许在多个粒
度层进⾏挖掘。离散化技术包括分箱、直⽅图分析、聚类分析、决策树分析和相关分析。对于标称数据,概念分层可以基于模式定义以及每个属性的不同值个数产⽣。

本文发布于:2024-09-21 19:47:25,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/144919.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   属性   变换   分析   挖掘   集成   缺失
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议