首页 > 学术百科

一种简单实用且超级牛掰的数据变换方法：BOX-COX变换

⼀种简单实⽤且超级⽜掰的数据变换⽅法：BOX-COX变换Box-Cox变换是统计建模中常⽤的⼀种数据变换，⽤于连续的响应变量不满⾜正态分布的情况。

⽐如在使⽤线性回归的时候，由于残差epsilon不符合正态分布⽽不满⾜建模的条件，这时候要

对响应变量Y进⾏变换，把数据变成正态的。Box-Cox变换，变换之后，可以⼀定程度上减⼩残

差和预测变量的相关性。

Box-Cox变换的形式是:

使⽤这个变换的问题是lambda究竟取多少为好？这个值只能通过估计得到。与BOX-COX变换

相⽐普通的数据变换⽅式坚持正态性假设，通过各种数据转换函数将⾮正态数据转换为正态，

常⽤的变换⽅式有以下⼏种：

（1）对数变换；

（2）平⽅根变换；

（3）倒数变换；

（4）平⽅根后取倒数；

（5）平⽅根后再取反正弦；

（6）幂变换；多哈会议

表1是来⾃某⽤户满意度调查问卷的数据，通过⼤量的重复试验，得到如下规律：P值为0.003视

为平⽅变换的⼀个界点，如果正态性检验得到的P值⼤于0.003，通过平⽅变换⼀般可以实现正

态化转换，否则通过平⽅转换很难实现正态性转换，其他⼏种⽅式也往往达不到正态性转换的

成都理工大学学报

⽬的。

上述问题下，当P值⼩于0.003时，由于普通数据转换⽅法很难使其实现正态化处理，运⽤BOX-

COX变换⽅法对原始数据进⾏正态化处理就表现出巨⼤的价值。当P值⼤于0.003时，两种变换

⽅法均可，但优先考虑普通的平⽅变换。

由上述BOX-COX变换的式⼦可知，BOX-COX变换是对反应变量Y进⾏变换，显然Y的BOX-

COX变换是⼀个变换族，由可变参数lambda决定具体变换的形式。当lambda等于0时，该变换

就是对数变换。对于参数lambda的选择，⼀般是通过参数估计的⽅法得到，这⾥就不详述。这硫脲的缓蚀研究

畜牧兽医学报⾥只讲在软件中如何选择参数lambda，下图是拟合的模型的似然函数的最⼤值随lambda变化的

曲线图，⼀般R软件代码中可以直接给出下图，BOX-COX变换的最优参数lambda的选择即为图

中的最⾼点。从图中可以看出在lambda为0.5左右，似然函数取到最⼤值，即对因变量取平⽅根

变换即可实现正态性转换。

R⾥边的相关函数的函数很多，⼀般可以分成两类，针对（线性）模型的和针对数据的变换。例如：MASS包的boxcox函数

这个函数是针对线性模型计算⼀个最优的lambda ，采取的⽅法是最⼤似然估计。在关

于lambda的对数最⼤似然图像上估计值的95%置信区间。对lambda的搜索的默认范围是[-2,2]，步长0.1。结果会输出⼀张表⽰似然结果的图。当然可以⾃定义搜索的范围或者步长。使⽤这个函数的问题是只能对模型（lm和aov寻最优\lambda，⽽且还得不到 \lambda的估计的精确值。

library(MASS)

library(car)

超市布局设计

library(pander)

l <- lm(volume="" ~="" log(height)="" +="" log(girth),="" data="trees)">

qqPlot(l) #残差的QQ图，不⼤符合正态分布

boxcox(Volume ~ log(Height) + log(Girth), data = trees) #lambda

boxcox(Volume ~ log(Height) + log(Girth), data = trees, lambda = seq(-0.08,

0, length = 10))# 缩⼩寻的范围,⼤约是-0.065(中间的线)

volume <- (trees$volume^(-0.65)="" -="" 1)/(-0.065)="">变换

trees.t <- cbind(trees,="" volume)="">重新拟合模型

l.t <- lm(volume="" ~="" log(height)="" +="" log(girth),="" data="trees.t)">建⽴线性模

型

qqPlot(l.t) #残差可认为是正态了

利⽤原始数据直接分析的结果：

数据变换后的结果：

从结果看，使⽤BOX-COX变换后的数据得到的回归模型优于变换前的模型，变换可以使模型的解释⼒度等性能更加优良，残差可以更好的满⾜正态性、独⽴性等假设前提、降低了伪回归的

概率。⼀般BOX-COX变换都可以保证将数据成功的正态变换，但在⼆分类变量或者较少⽔平的等级变量的情况下，不能成功进⾏变换，此时，我们可以考虑使⽤⼴义线性模型或者数据挖掘⽅法。

进⾏数据变换不⼀定能达到我们的预期⽬标，没有⼀个数学原理保证所做的数据变换能够在各个⽅⾯对原始数据有所改善，更常见的是，仅仅使原始数据的⼀个或者⼏个⽅⾯得到改

雏鹰争章网善。BOX-COX变换的最⼤优势在于对选择变换的问题给出了⼀个系统化的处理⽅法，将寻变换的问题转换为估计参数的过程.

本文发布于:2024-09-22 06:44:37，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/126943.html

上一篇：C语言数据类型转换

下一篇：第六章营运资金管理答案

标签：变换数据正态模型转换函数

留言与评论（共有 0 条评论）