数据预处理——精选推荐

数据预处理（data preprocessing）是指在主要的处理以前对数据进⾏的⼀些处理。如对⼤部分地球物理⾯积性观测数据在进⾏转换或增强处理之前，⾸先将不规则分布的测⽹经过插值转换为规则⽹的处理，以利于计算机的运算。另外，对于⼀些剖⾯测量数据，如地震资料预处理有垂直叠加、重排、加道头、编辑、重新取样、多路编辑等

数据挖掘中的数据预处理

现实世界中数据⼤体上都是不完整，不⼀致的脏数据，⽆法直接进⾏数据挖掘，或挖掘结果差强⼈意。为了提前数据挖掘的质量产⽣了数据预处理技术。数据预处理有多种⽅法：数据清理，数据集成，数据变换，数据归约等。这些数据处理技术在数据挖掘之前使⽤，⼤⼤提⾼了数据挖掘模式的质量，降低实际挖掘所需要的时间。

数据清理

⽤来⾃多个联机事务处理 (OLTP) 系统的数据⽣成数据仓库的进程的

⼀部分。该进程必须解决不正确的拼写、两个系统之间冲突的拼写规则和冲突的数据（如对于相同的部分具有两个编号）之类的错误。

编码或把资料录⼊时的错误，会威胁到测量的效度。数据清理主要解决数据⽂件建⽴中的⼈为误差，以及数据⽂件中⼀些对统计分析结果影响较⼤的特殊数值。常⽤的数据清理⽅法包括可编码式清理和联列式清理。

数据清理例程通过填写缺失的值、光滑噪声数据、识别或删除离点并解决不⼀致性来“清理”数据。主要是达到如下⽬标：格式标准化，异常数据清除，错误纠正，重复数据的清除。

数据集成

人大释法数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，从⽽为企业提供全⾯的数据共享。在企业数据集成领域，已经有了很多成熟的框架可以利⽤。⽬前通常采⽤联邦式、基于中间件模型和数据仓库等⽅法来构造集成的系统，这些技术在不同的着重点和应⽤上解决数据共享和为企业提供决策⽀持。

数据集成例程将多个数据源中的数据结合起来并统⼀存储，建⽴数据仓库的过程实际上就是数据集成。

数据变换体访

通过平滑聚集，数据概化，规范化等⽅式将数据转换成适⽤于数据挖掘的形式。

数据归约

数据挖掘时往往数据量⾮常⼤，在少量数据上进⾏挖掘分析需要很长的时间，数据归约技术可以⽤来得到数据集的归约表⽰，它⼩得多，但仍然接近于保持原数据的完整性，并结果与归约前结果相同或⼏乎相同。⽬前，数据预处理是⽬前数据挖掘⼀个热门的研究⽅⾯，毕竟这是由数据预处理的产⽣背景所决定的－－现实世界中的数据⼏乎都脏数据。

⼀、数据归约基本知识：

对于⼩型或中型数据集，⼀般的数据预处理步骤已经⾜够。但对真正⼤型数据集来讲，在应⽤数据挖掘技术以前，更可能采取⼀个中间的、额外的步骤-数据归约。本步骤中简化数据的主题是维归约，主要问题是是否可在没有牺牲成果质量的前提下，丢弃这些已准备和预处理的数据，能否在适量的时间和空间⾥检查已准备的数据和已建⽴的⼦集。

对数据的描述，特征的挑选，归约或转换是决定数据挖掘⽅案质量的最重要问题。在实践中，特征的数量可达到数百，如果我们只需要上百条样本⽤于分析，就需要进⾏维归约，以挖掘出可靠的模型；另⼀⽅⾯，⾼维度引起的数据超负，会使⼀些数据挖掘算法不实⽤，唯⼀的⽅法也就是进⾏维归约。预处理数据集的3个主要维度通常以平⾯⽂件的形式出现：列（特征），⾏（样本）和特征的值，数据归约过程也就是三个基本操作：删除列，删除⾏，减少列中的值。

邓恩桉在进⾏数据挖掘准备时进⾏标准数据归约操作，我们需要知道从这些操作中我们会得到和失去什么，全⾯的⽐较和分析涉及到如下⼏个⽅⾯的参数：（1）计算时间：较简单的数据，即经过数据归约后的结果，可减少数据挖掘消耗的时间。

（2）预测/描述精度：估量了数据归纳和概括为模型的好坏。

（3）数据挖掘模型的描述：简单的描述通常来⾃数据归约，这样模型能得到更好理解。

数据归约算法特征：

（1）可测性

（2）可识别性

（3）单调性

（4）⼀致性

（5）收益增减

（6）中断性

（7）优先权

⼆、数据归约⽅法：

1、特征归约：

⽤相应特征检索数据通常不只为数据挖掘⽬的⽽收集，单独处理相关特征可以更有效，我们希望选择与数据挖掘应⽤相关的数据，以达到⽤最⼩的测量和处理量获得最好的性能。特征归约处理的效果：

（1）更少的数据，提⾼挖掘效率

（2）更⾼的数据挖掘处理精度

（3）简单的数据挖掘处理结果

（4）更少的特征。

和⽣成归约后的特征集有关的标准任务有两个：

（1）特征选择：基于应⽤领域的知识和挖掘⽬标，分析者可以选择初始数据集中的⼀个特征⼦集。特征排列算法，最⼩⼦集算法

（2）特征构成：特征构成依赖于应⽤知识。

特征选择的⽬标是要出特征的⼀个⼦集，此⼦集在数据挖掘的性能上⽐得上整个特征集。特征选择的⼀种可⾏技术是基于平均值和⽅差的⽐较，此⽅法的主要缺点是特征的分布未知。最优⽅法的近似：

（1）只对有前景的特征⼦集进⾏检查

聚噻吩（2）⽤计算简单的距离度量替换误差度量

（3）只根据⼤量数据的⼦集选择特征。

引⾔

空间数据挖掘是指从空间数据库中提取隐含的但为⼈所感兴趣的空间规则、概要关系或摘要数据特征等。其原始数据具有数据结构不⼀致、数据存在重复或冗余、部分数据属性的缺失或不确定、海最数据和⾼维度的特点。数据预处理是空间数据挖掘前的数据准备⼯作，⼀⽅⾯保证挖掘数据的正确性和有效性，另⼀⽅⾯通过对数据格式和内容的调整，使数据更符合挖掘的需要。其同的在于把⼀些与数据分析、挖掘⽆关的项清除掉，为了给挖掘算法提供更⾼质量的数据。⽬前进⾏的关于数据挖掘的研究⼯作，⼤多着眼于数据挖掘算法的探讨，⽽忽视了对数据预处理的研究。但是⼀些⽐较成熟的算法

对要处理的数据集合⼀般都有⼀定的要求，⽐如数据的完整性要好、数据的冗余少、属性之间的相关性⼩。然⽽，实际系统中的数据⼀般都具有不完整、冗余性和模糊性，很少能直接满⾜数据挖掘算法的要求。另外，海量的实际数据中⽆意义的成分很多，严重影响了数据挖掘算法的执⾏效率，⽽且由于其中的噪声⼲扰还会造成挖掘结果的偏差。因此，对不理想的原始数据进⾏有效的归纳分析和预处理，已经成为空间数据挖掘系统实现过程中必须⾯对的问题。⽬前国内外数据挖掘系统，都侧重于挖掘算法的实现，数据的预处理软件相对较少，功能有限，更没有通⽤的软件。

1 空间数据挖掘的数据预处理⼯作流程

1.1 数据集成阶段

数据集成阶段主要以⼈机交互的⽅式进⾏。

1)消除原始⾼维空间数据结构的不⼀致，统⼀其数据结构；2)将数据分为时间型数据、空间型数据和时空混合型数据三类；3)将这三类数据导⼊数据库，在数据库中分别管理。

1.2 数据清理阶段

对原始数据中的缺失数据、重复数据、异常数据进⾏处理，提⾼数据质量。包括三个步骤：1)填补空缺值纪录。以空缺值纪录所在纪录⾏的前⼀条纪录的该属性值和后⼀条纪录的该属性值的平均值来填

补该空缺值。2)去除莺复纪录。在数据库中对同类别数据进⾏对⽐分析，基于距离的识别算法，即在误差⼀定的情况下研究两个字符串是否等值。3)异常点检测。在⼤规模空间

数据集中，通常存在着不遵循空间数据模型的普遍⾏为的样本。这砦样本和其他残余部分数据有很⼤不问或不⼀致，叫作异常点(Outlier)。异常点可能是由测量误差造成的，也可能是数据固有的可变性的结果。针对时间序列数据，采取基于移动窗⼝和标准羞理论的⽅法实现对异常点的检测；针对空间数据，采取基于移动曲⾯拟合法的⽅法实现对异常点的检测；针对多维数据，采取聚类分析法实现埘异常点的检测。经验证，当对检测出来的异常点判定为测餐误差时，剔除后确实能提⾼数据挖掘算法的效率和准确度。当对检测出来的异常点判定为正常点时，重点分析该点确实能发现其隐含着重要的信息。

1.3 数据转换阶段

数据转换对数据挖掘模犁和输⼊数据集的要求有较强的依赖，针对不同的数据挖掘模型需要进⾏不同类型的数据转换。数据转换阶段主要包含两类数据转换⼯具：

1)数据标准化。

数据标准化包含标准差标准化、极筹标准化和极差正规化。 a．标准差标准化。所谓标准差标准化是将各个纪录值减去纪录值的平均值，再除以纪录值的标准差，即：

其中，xia为平均值，其表达式为：

设Si是标准差，有：

经过标准差标准化处理的所有纪录值的平均值为O，标准差为1。

b．极差标准化。对纪录值进⾏极差标准化变换是将各个纪录值减去纪录值的平均值，再除以纪录值的极差，即：舌尖上的地沟油

经过极差标准化处理后的每个观测值的极筹都等于1。

c．极差正规化。对纪录值进⾏极差正规化变换是将各个纪录值减去纪录值的极⼩值，再除以纪录值的极差，即：

经过极差正规化处理后的每个观测值都在0～1之间。

考古学有什么用2)数据差值。

针对时间序列数据，采取s(t＋1)－s(t)的相对改动来优化s(t＋1)。

3)数据⽐值。

针对时间序列数据，采取s(t＋1)/s(t)的相对改动来优化s(t＋1)。

1.4 数据约简或分区阶段

数据约简或分区阶段主要包括维度约简、数值约简和数据分区三部分，这三部分在这⼀阶段的实施不固定先后顺序，相互间不具备依赖性。每个部分在实⾏前要先从数据库中提取要处理的数据集合。

1)维度约简。对于⾼维度的空间数据，采⽤主成分分析法实现对数据集合的众多变镀的约简。

2)数值约简。对于时序数据，采⽤⼀种改进的快速傅⽴叶变换约简⽅法来实现对时序数据的有效约简。

3)数据分区。数据分区是以时间信息、空间信息为参考轴，不仅实现了对包含时间数据、空间数据、时空混合型数据的⼤规模数据集的分块，同时避免了空数据块的产⽣，还能根据数据挖掘模型对输⼊数据集的要求，分离出⽬标数据集。

2 ⼯程实例应⽤

选取江苏省地区(116°18’N～121°57’N，30°45’E～35。°20’E)，根据江苏省地震前兆台⽹的观测信息，选取地震台的数据和江苏省地区的地震⽬录(见表1)。

表1 前兆数据来源

该⼯作流程实现了⾯向空间数据挖掘的数据预处理模块。结合该⼯程实例验证了：1)上⽂中提到的⽑种异常点检测⽅法的有效性；2)采⽤主成分分析法可以实现在对原始数据信息损失⼩于15％的前提下，对数据集合的有效降维；3)采⽤此种改进的快速傅⽴叶变换约简⽅法，可以在原始信息损失⼩于5％的情况下，约简后数据量可以不⼤于原始数据的10％，实现了对时序数据的有效约简。

3 结语

由于⾼维空间数据的规模巨⼤、数据类型和存取⽅法复杂，所以⾯向空间数据挖掘的数据预处理是⼀个很有挑战的课题。本⽂提出了⼀种⾯向空间数据挖掘的数据预处理⼯作流程，结合具体的⼯程实例发现，具有⼀定的推⼴价值。此外，⾯向空间数据挖掘的数据预处理是空间数据挖掘众多研究问题之⼀。其中，针对时空混合型数据的异常点检测来⾃多个数据源的数据的集成，⾼维空间数据的可视化等专题还有待进⼀步的研究。

本文发布于:2024-09-22 21:30:07，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/68458.html

上一篇：数据分析方法与技术

下一篇：数据挖掘算法之Apriori算法应用实例

标签：数据数据挖掘特征预处理

留言与评论（共有 0 条评论）