机器学习:盘点最常见的7种数据预处理方法和原理

机器学习:盘点最常见的7种数据预处理⽅法和原理
机器学习:盘点最常见的7种数据预处理⽅法和原理
1 数据规范化量纲,指将⼀个物理导出量⽤若⼲基本量的乘⽅之积表⽰出来的表达式。数据的⽐较需要关注两点——绝对数值和量纲,⽽特征间因为量纲的存在导致⽆法直接通过绝对数值⽐较⼤⼩,也就⽆法判断特征间的重要性。例如若某个特征的⽅差⽐其他特征⼤⼏个数量级,那么它就会在学习算法中占据主导位置⽽弱化了其他特征,甚⾄导致模型⽆法收敛。
⽆量纲化(Nondimensionalization)的数据预处理⽅式可以让特征间拥有相同权重——从绝对数值⽐较转换为相对数值⽐较,不再受量纲影响,从⽽提⾼模型精度、稳定性,加快收敛速度。⽆量纲化的主要⽅式是规范化(Standardization),即将不同数值变化范围的分布映射到相同的固定范围。特别地,当映射到0-1区间时称为归⼀化(Normalization)。
1.1 最值归⼀化
核⼼是通过样本特征最值,将特征数值线性映射到0-1区间,且不破坏分布情况,转化函数如下:其特点是:① 算法过程简单直观;② 新数据加⼊可能导致最值变化,需要重新定义;③ 对奇异值(Outlier)⾮常敏感,因为其直接影响最值。故最值归⼀化只适⽤于数据在⼀个范围内分布⽽不会出现Outlier的情况,如⼈的⾝⾼数据、考试成绩数据
referencemanager
图源⽹络 侵删
1.2 Z-Score 规范化
核⼼是将所有数据映射到均值为0,⽅差为1的分布中(但并不限制在 区间内),转化函数如下:
其特点是:① 很好地契合本⾝就服从正态分布的数据;② 即使原数据集中有Outlier,规范化的数据集依然满⾜均值为0,不会形成有偏数据;③ 对Outlier敏感度较低,但在计算⽅差和均值的时候Outliers仍会影响计算。所以在出现Outliers的情况下可能会出现转换后,数据的不同维度分布完全不同的情况。
2 类别平衡化
类别不平衡(class-imbalance)指分类任务中不同类别的训练样本数⽬差别很⼤的情况,例如训练集中有998个反例,但正例只有2个。类别不平衡下训练处的学习器往往没有价值,因为其只需始终判断为⼤样本数的类别就能取得很⼩的训练误差。解决类别不平衡问题的策略主要有:
2.1 阈值移动
X =scale X −X max min
X −X min X =scale σ
X −μ
亦称再平衡(rebalance)或再缩放(rescaling)策略。设训练集中有个正例和个反例,学习器输出预测正例的概率为。假设训练集是真实样本空间的采样,则对于任意测试样本,令
通过⽐较与0.5的⼤⼩来判定正、反例。
2.2 ⽋采样法(undersampling)
核⼼原理是去除样本数较多类别中的部分样例达到类别平衡。⽋采样法因丢失样例⽽减⼩了时间开销,但要注意防⽌⽋拟合。⽋采样的代表性算法是EasyEnsemble。
2.3 过采样法(oversampling)
核⼼原理是增加样本数较少类别中的部分样例达到类别平衡。过采样法因增加样例⽽增⼤了时间开销,
但要注意防⽌过拟合。过采样法的代表性算法是SMOTE。pgm_430mei
3 连续值离散化
连续属性离散化(Discretization of Continuous Attributes)是指将连续数据分段为⼀系列离散化区间,每个区间对应⼀个属性值。连续属性离散化的主要原因如下:① 算法要求,例如分类决策树等基于分类属性的算法;② 提⾼特征在知识层⾯的表达能⼒,例如年龄5岁和65岁两个特征,对于连续型需要进⾏数值层⾯的⼤⼩⽐较,但若将其映射为“幼年”和“⽼年”则更直观;③ 离散化数据对异常离值有更强的鲁棒性,能提⾼模型稳定性。
连续属性离散化的主要⽅法阐述如下。
(1) ⽆监督离散⽅法
① 等距离散化,即将连续属性划分为若⼲有限区间,每个区间长度相等。
② 等频离散化,即将连续属性划分为若⼲有限区间,每个区间样本数相同。
(2) 有监督离散⽅法
① 信息增益法,是⼀种⼆分法(bi-partition),核⼼是以离散前后信息增益最⼤的点为⼆分位点。
4 缺失值处理
侦测成本过⾼、隐私保护、⽆效数据、信息遗漏等情况都会造成实际应⽤时数据集属性缺失,因此缺失值处理不可避免。缺失值处理的主要⽅式阐述如下。
(1) 插值填充,即⽤已有数据的分布来推测缺失值。例如均值填充(主要针对连续型属性)、众数填充(主要针对离散型属性)、回归填充(基于已有属性值建⽴回归⽅程估计缺失值)等。
(2) 相似填充,即⽤和缺失属性样本相似的若⼲样本推测缺失值。例如热卡填充(Hot Deck Imputation),基于某种相似度度量选择数据集中与之最相似的样本属性代替缺失值;聚类填充,基于聚类分析选择数据集中与之最相似的样本⼦集进⾏插值填充。发展业务
(3) C4.5⽅法,直接使⽤缺失属性样本,⽤加权⽅式衡量样本对结果的影响,主要⽤于决策树算法。
决策树算法可参考
5 哑⾔编码
哑⾔编码(Dummy Encode)⾯向离散型特征,是将⼀组定性离散特征的特征值以0-1⽅式向量化、定量化的编码⽅式。哑⾔编码的优势在于:
ftc相变保温材料
① 稀疏化数据,稀疏向量运算速度快,且优化⽅式多;
② 提⾼模型表达能⼒,哑⾔编码相当于为模型引⼊⾮线性环节,提⾼模型容量;
③ ⽆量纲化与定量化,将不同类型特征都量化为0-1向量进⾏形式化表达,便于推理和演算。
m +m −y =×1−y ′y ′1−y y m +
m −
y ′
哑⾔编码的缺点在于:由于不同特征的哑⾔编码相互堆叠,最终形成的特征向量会导致特征空间产⽣维数灾难(The Curse of Dimensionality),因此⼀般可⽤PCA降维配合哑⾔编码。
具体地,哑⾔编码有两种形式,如图1.2.8所⽰采⽤位状态寄存器来对个状态进⾏编码,每个状态都有独⽴的寄存器
位,并且在任意时候只有⼀位有效的编码⽅式称为独热编码(One-Hot Encode),若减少⼀个⾃由度则是⼀般的哑⾔编码。
返老还童的女孩
图源⽹络 侵删
6 正则化正则化(Regularization)是在模型经验风险(empirical risk)最⼩化的基础上引⼊结构风险(structural risk)最⼩化的策略,正则化为引⼊领域先验知识、训练意图提供途径,也是常⽤避免过拟合的惩罚函数⽅法。正则化的⼀般表达式如下:
其中为正则化项,⽤于描述模型 的某些性质以降低结构风险;为经验风险项,⽤于描述模型与训
练数据的契合程度;常数表⽰对结构风险和经验风险的偏好。总结常⽤的正则化⽅式:
6.1 L1正则
由于范数正则下,最优解多出现于正则项的棱边棱⾓处产⽣稀疏性,故 范数正则也称稀疏规则算⼦(Lasso
GOOGLEPATENTRegularization),可引⼊对稀疏参数的偏好,有利于突出重点特征以进⾏特征选择。事实上,范数也可实现特征选择和稀疏化,但其相对范数⽽⾔不易于求解优化,因此实际应⽤中更倾向于使⽤范数。
6.2 L2正则 范数正则也称为权重衰减(Weight Decay),其偏好于保留更多特征,且这些特征更均匀(趋于0)。在回归分析中,范数正则化的代价函数称为岭回归(Ridge Regression)。
N N Ωf +f min λ()ℓf x ,y i =1∑m ((i )i )
Ωf ()ℓf x ,y ∑i =1m ((i )i )λL 1L 0L 1L 1L 2L 1
如图所⽰,仅考虑两个特征。若即正则约束⼩,则正则项圆锥⾼减⼩,正则解趋近于最⼩⼆乘解;若增⼤即正则约束⼤,则正则项圆锥⾼增加,正则解偏离最⼩⼆乘解,解的位置越来越靠近 轴,参数越来越⼩。
7 数据降维主要介绍PCA降维。
如图所⽰,数据点⼤部分都分布在⽅向上,在⽅向上的取值近似相同,那么对于某些问题就可以直接去除坐标,⽽只保留
坐标值即可。
图源⽹络 侵删
但是有些情况下不能直接这样处理,例如图中数据在和⽅向上分布较均匀,任意去除⼀个维度可能对结果都会有很⼤影响。此时需要通过PCA原理,出某个使数据分布最分散——⽅差最⼤的维度,即图中的红⾊坐表系以便达到降维的⽬的。从上⾯的实例中可以归纳出PCA算法的优化⽬标:
(a) 选择的特征维度间相关性要尽可能⼩——降低计算维度,减少计算成本;
(b) 保留的特征维度要尽量反映数据的本质——该维度⽅差最⼤;
λ→0λx 2x 1x 1x 2x 1x 2
这两个优化⽬标可以⽤协⽅差矩阵统⼀起来:
基于此,设为样本中⼼化矩阵,为PCA降维矩阵,为降维后的样本矩阵,、分别为原样本和降维后样本的协⽅差矩阵。因为这⾥考虑不同特征间的相关性,所以将矩阵统⼀写为⾏向量组的形式:,则:
前者体现优化⽬标(a),后者体现优化⽬标(b)。
下⾯简单推导PCA降维矩阵的条件。
由拉格朗⽇乘数法,设则:令导数为0,则即降维矩阵是以原始样本协⽅差矩阵的前 个特征向量为⾏向量组的正交矩阵。C =⎣⎢⎢⎢⎡Cov α,α(11)Cov α,α(21)⋮Cov α,α(n 1)Cov α,α(12)Cov α,α(22)⋮Cov α,α(n 2)⋯⋯⋱⋯Cov α,α(1n )Cov α,α(2n )⋮Cov α,α(n n )⎦⎥⎥⎥⎤降维后理想的协⽅差矩阵⎣⎢⎢⎡δ1δ2⋱δn ⎦⎥⎥⎤X m ×n P r ×m Y =r ×n P X C X C Y Y =
r ×n [β1β2⋯βr ]T max tr C s .t .P P =(Y )T I
max tr C =(Y )max tr P X P X [n −11
()T ]=max tr P C P [X T ]
f P =()
tr P C P +(X T )λP P −I (T )
=∂P ∂f P ()
+∂P
∂tr P C P (X T )λ∂P ∂P P (T )=P C +X T
λP
C P =X T −λP T
P C X r

本文发布于:2024-09-23 05:15:33,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/53847.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   特征   正则   属性   样本   类别
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议