枕头包装>acck
原⽂地址:极值标准化法作者:漂流侠
在数据分析过程中,经常需要对数据进⾏标准化(normalization),即通过将属性数据按照⽐例缩放,使之落⼊⼀个⼩的特定区间,如[-1,+1]、[0,1]等,以进⼀步分析数据的属性。 有许多中数据标准化⽅法,常⽤的有最⼩-最⼤标准化、Z-score标准化和按⼩数定标标准化等。
Min-max 标准化
min-max标准化⽅法是对原始数据的线性变换。设minA和maxA分别为属性A的最⼩值和最⼤值,将A的⼀个原始值v通过min-max标准化映射成在区间[new_minA, new_maxA]中的值v’。
若取值区间是[0,1],则公式可简化为:
min-max标准化⽅法保留了原始数据之间的关系。如果今后输⼊的数据落在A的原数据区外,该⽅法将会⾯临“越界”错误。
例题
例如假定属性income的最⼩与最⼤值分别为$12,000和$98,000。我们想映射income到区间[0,1]。根据min-max标准
化,incom值$73,600将变换为(73,600-12,000)/(98,000-12,000)×(1-0)=0.716。
z-score 标准化
这种⽅法基于原始数据的均值(mean)和标准差(standard deviation)进⾏数据的标准化。将A的原始值v使⽤z-score 标准化到v’。
其中是属性A原始值得均值,是属性A原始值的标准差。标准差即为⽅差的平⽅根。⽅差的计算公式如下:
z-score标准化⽅法适⽤于属性A的最⼤值和最⼩值未知的情况,或有超出取值范围的离数据的情况。
Decimal scaling⼩数定标标准化
同温同压下
这种⽅法通过移动数据的⼩数点位置来进⾏标准化。⼩数点移动多少位取决于属性A的取值中的最⼤绝对值。将属性A的原始值v使⽤decimal scaling标准化到v’的计算⽅法是:
其中,j是满⾜条件的最⼩整数。
例如假定A的值由-986到917,A的最⼤绝对值为986,为使⽤⼩数定标标准化,我们⽤1000(即,j=3)除以每个值,这样,-986被规范化为-0.986。