基于稳健估计方法的线性回归研究

DOI:10.16660/jki.1674-098X.2009-5640-6820
基于稳健估计方法的线性回归研究①
王帅帅1  徐凯1  孟凡芳2
(1.青岛卷烟厂  山东青岛  266071;2.青岛黄海学院  山东青岛  266071)
摘  要:基于最小二乘方法的线性回归估计方法,是通过最小化误差平方和寻参数向量最优解,该方法对大的误差点不具稳健性。本文主要针对具有异常点的稳健估计方法,研究在背景噪声下的稳健估计性能,并通过数值仿真证明近似高斯分布,如高斯混合噪声模型下,单调型稳健M估计方法较好;在具有无穷方差的柯西背景噪声下,回降型M估计性能最优。理论和仿真实验均可得到稳健回归方法比最小二乘方法具有更好的稳健性。
关键词:线性回归  最小二乘法  稳健估计  M估计  稳健性
中图分类号:O212.1                          文献标识码:A                  文章编号:1674-098X(2021)01(a)-0072-06 Research of Linear Regression based on Robust Estimation
WANG Shuaishuai1  XU Kai1  MENG Fanfang2
(1.Qingdao Cigarette Factory, Qingdao, Shandong Province, 266071 China;2.Qingdao Huanghai University,
Qingdao, Shandong Province, 266071 China)
Abstract: Based on the least squares estimation method of linear regression aims to find the optimal solution of the parameters by minimizing the sum of squared errors, which is not robust to large error points. Here, we focus on the robust estimation with outliers, investigating the performance of the robust estimation under various background noise. We prove that the monotone M-estimator shows a better performance under Gaussian mixed noise and the redescending M-estimator has a better efficiency under Cauchy noise with infinite variance. Both theory and simulation experiments show that the robust regression method has better robustness than the least square method.
Key Words:Linear regression; Least squares method; Robust estimation; M-estimation; Robustness
线性回归模型是在实际工程建模中应用十分广泛的一类模型,例如无线通信、超声波系统、计算机识别、电力系统、生物医学信号分析等领域[1-3]。常用的估计回归系数的方法是最小二乘法(OLS)[4]。最小二乘估计最大的优点是对输入数据没有任何概率假设,要求偏差平方和最小。当数据服从高斯分
布时,最小二乘估计是最优的估计。然而当数据中存在野值(又称异常值)时,这种估计方法的估计性能变差,因此最小二乘法是不稳健的。而真实观测数据中,异常数据是难以避免的。因此,研究线性模型的稳健估计方法很有必要,也具有实际意义[3]。
最小二乘估计与稳健估计方法的区别是,最小二乘估计赋予样本残差相同的权重,而稳健的估计方法的思想是赋予样本残差不同权重,残差大的样本赋予小的权重,残差小的样本赋予大的权重。相对于最优的估计方法,稳健估计损失了一定的效率,达到了很好的稳健性。本文通过分析在不同的背景误差噪声下,如高斯误差噪声,高斯混合噪声以及具有无穷方差的柯西噪声,稳健估计的性能与最小二乘回归的性能比较,并通过仿真模拟,证明在不同类型的背景噪声下,稳健估计回归方法比最小二乘方法具有更好的稳健性,在实际中能够得到更广泛的应用[3,5-8]。
①作者简介:王帅帅(1987—),女,汉族,硕士,助理工程师,研究方向为模糊控制。
1  线性回归模型
考虑线性回归模型
(1)
式中n 代表样本大小,y i 是响应变量,x i =(x i1,x i 2, …,x ip )T 是预测向量,e i 是相互独立同分布的噪声变量,并且与
x i 相互独立。是待估的未知
参数。
T
这里代表转置。
用矢量或者矩阵表示公式(1)为
y =X θ+e                                                              (2)其中,y =(y 1,y 2,…,y n )T 和e=(e 1,e 2,…,e n )T均为一个
n ×1的列向量,X 是一个n ×p 的预测矩阵,第i行第j列的元素为x ij 。
求解回归系数的经典方法最小二乘法的思想是:使观测值
y i 与其拟合值之差的平方和最小,
义残差,也就是使得残差
的平方和
最小,即
(3)
对公式(3)关于θ求导
(4)
用向量或者矩阵表示,公式(4)等价于
如果预测矩阵X是满秩的,那么可以得到
θ的最小二乘估计量
(5)
假设e i 的均值为E (e i )=0,方差Var(e i )=σ2,预测矩阵
X
是满秩的确定矩阵,
那么可以得到最小二乘估计量的均值与方差分别为
(6)
当观测数据服从相互独立同分布的高斯分布时,最小二乘方法是一种最优的估计方法。从公式(5)可以看出,最小二乘估计是将所有的样本点赋予相同的权重,但是当观测数据中含异常值时,该方法的估计结果受异常值的影响大,而实际观测数据中有可能异常值是不可避免的,因此最小二乘估计稳健性
差。常用的方法是异常值识别并剔除,但并没有一个客观的
标准确定哪些是异常值,易受主观因素影响。另一种常用的策略是采用稳健的回归方法。稳健回归方法通过对不同的样本数据赋予不同的权重来减小异常值对回归带来的影响。加权最小二乘估计是一种比最小
估计值最小二乘估计
稳健回归估计
θ0  3.59.4θ1
-1.0
-1.9
表1  最小二乘估计与稳健回归估计的估值
fifa2003
表2  bisquare估计方法的方差
k Var()Var()0.545.63  1.41  4.800.151.5  2.870.092  2.470.072.5  2.350.073  2.390.073.5  2.470.074 
2.660.084.5  2.970.095  3.170.095.5  3.350.16
3.53
0.1
二乘估计稳健性强的估计方法,其原理是给每一个样本点赋予不同的权重,偏差较大的样本点给予小的权重,偏差小的样本点给予大的权重,而常用的一种稳健回归估计方法为M估计稳健回归,其基本思想是采用迭代加权最小二乘估计回归系数。本文以稳健M回归估计方法为基础,分析不同背景噪声下的稳健M估计的性能。
2  稳健回归分析
M 估计稳健回归是对如下目标函数进行优化
(7)
ρ为影响函数,如果该影响函数ρ(x )=x 2,则为最小二乘估计量,稳健估计中有众多类型的影响函数,
如采用Huber的影响函数
(8)对公式(7)对θ求偏导,
稳健M
估计量为如下等式的解
(9)科学家发现迄今最小恐龙
其中ψ(x )=d ρ/d x 为评价函数,σ为尺度参数。当
ψ(x )=sgn(
x )时,估计量称为L 1估计量,等价于中值估
计量;对于单调Huber估计量的评价函数为
(10)对回降型的bisquare估计量评价函数
(11)当n →∞时,
M
估计量
渐近服从正态分布其中
(12)
公式(9)中,我们假设σ为已知或者能够被准确估
计,另
为标准化残差,那么公式(9)可以改写
blue time为
(13)
图1  存在异常点情况下,最小二乘法拟合直线与稳健回归拟合直线
其中
为第i个样本点的样本权重。将公式(2)代入公式(13),
公式(13)可向量化表示为进一步得到估计量
(14)其中W =diag(W 1,W 2,…,W n )是n ×n 的对角阵。稳健
M 估计的方法是合理的,对于大的标准化残差u i ,应该给予小的权重W i ,权重W i 与评价函数ψ
的形状有关。对于背景噪声方差
随时间变化时,加权矩阵取W =C
1864评价
-
1
=diag
是合适的。因为
越大,
可信度越低,给的权重则应小。
稳健估计量不像最小二乘估计
量有明确的表达
图2  bisquare估计量方差随参数k的变化曲线
图3  最小二乘拟合与bisquare方法拟合直线
式,通常采用迭代加权方法得到最终的估计量,具体的步骤:
1)选取迭代初始估计值
为L 1估计量;
(2)对k =0,1,2,…,计算求得标准
化残差和权重
3)利用公式(12)计算(k+1)
4)当
时,停止迭代。
3  数值模拟中国海警
3.1 考虑一个直线回归模型
(15)
其中x i 和y i 分别是预测变量与响应变量,e i 为随机误差。
令θ0=10,θ1=-2,随机误差e i 为标准高斯分布随机数,样本容量n =10,样本中含有两个异常点。我们分别采用最小二乘估计方法与稳健回归估计方法,得到的关于θ0和θ1的一次的估计值为表1所示。
通过作图,可以看出采用稳健回归的方法,拟合得到的直线更接近真实的直线,如图1所示。
3.2 不同背景噪声下的稳健回归特性考虑公式(15)中的线性回归模型,真实直线的参数设置为θ0=0,θ1=-2,研究在高斯混合噪声以及厚尾柯西噪声下稳健M 估计的性能。
在高斯混合噪声背景下,
其概率密度函数为
(16)关系营销的理论基础是什么
其中
。这里我们采用双高斯混合模型
(17)
采用最小二乘估计方
法,得到估计
估值分别为9.97和-1.99,对应的估计量的方差分别为2.34和0.07。在混合高斯噪声下,采用最小二乘方法,得到了较好的估计性能;相同的条件下,
采用参数k=0.8的huber估计量,可以得到的
的估值分别
为9.99和-2.00,对应方差分别为2.21和0.06,可以看出稳健的huber估计方法的估计性能比最小二乘方法略微好一点,但相差不大。而此背景噪声下,公式(11)中回降型的bisquare估计量反而没能有较好的性能,其性能比最小二乘及huber估计量的性能略微差。
假设背景噪声是具有厚尾分布的柯西噪声,其概
率密度函数为
(18)在此背景噪声下,我们分别采用公式(5)中的最小
二乘估计方法,得到的估计
的估值分别为
7.18和-1.90,对应的估计量的方差分别为1.22×104和
8.02×102,可见通过最小二乘方法得到的估计量的方差很大,性能较差;采用公式(11)的bisquare估计方法,
计算得到不同估计参数k下,估计量
的方差在
表2及图2中展示。由表2可以看出,对一定范围的估计量参数k,得到的估计性能均优于最小二乘方法的估计性能。由图2可以看出,当参数k选择一个特定的非零值,会使得估计量的方差达到最优,因此,可以通过调节参数k ,寻求最优的估计量。
取使得估计量具有较小方差时对应的k =2.5,
得到bisquare估计方法得到的
的估值分别为10.00
和-2.00,做出bisquare估计方法拟合的直线与最小二乘方法拟合的直线的图形,如图3所示。从图3中可以明显看出,最小二乘方法拟合得到的直线偏离真实直线远,而通过bisquare方法得到的直线几乎和真实直线重合。
4  结语
本文基于稳健M回归估计方法,在高斯混合噪声模型及柯西噪声模型下,研究稳健估计方法的性能。对于高斯混合模型,稳健huber估计方法能够具有较好的估计性能,对于具有无穷方差的厚尾柯西噪
声,采用回降型的bisquare估计方法得到的估计性能较好,无论采用何种方法,通过调节稳健估计量的参数,稳健回归估计方法都优于最小二乘法。
参考文献
[1] 毕瑞锋,张发玲.加权最小二乘法线性回归模型
参数的理论推导与计算实例[J ].计量与测试技术,2016,43(2):67-68.
[2] 谷恒明,胡良平.简单线性回归分析及其应用[J].四川精神卫生, 2017(6):494-497.
[3] Zoubir A M, Koivunen V, Chakhchoukh Y, et al. Robust estimation in signal processing: A tutorial-style treatment of fundamental concepts[J]. IEEE Signal Processing Magazine,2012,29(4):61-80.
[4] 陈雨彤.基于最小二乘法的线性回归方程推导与应

本文发布于:2024-09-23 16:27:43,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/645486.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:方法   估计   估计量   回归   得到
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议