曲线拟合最小二乘法优缺点_在进行线性回归时,为什么最小二乘法是最优方法?...

复合纤维
曲线拟合最⼩⼆乘法优缺点_在进⾏线性回归时,为什么最⼩
⼆乘法是最优⽅法?...
最⼩⼆乘法不永远是最优的⽅法。对于不同数据形式和建模需求,需要能⾃⾏选择合适的建模⽅式。本⽂会对⽐最⼩⼆乘法(MSE)和最⼩绝
对值法(MAE)来⽐较两者的性质。
两者定义
中国法医学杂志
我们⾸先来理清楚最⼩⼆乘法和最⼩绝对值法分别是什么。
它们都是⽤来衡量线性回归模型效果的⽅式。不同的是,最⼩⼆乘法(MSE, Mean Square Error)将误差的平⽅求和,⽽最⼩绝对值法(MAE, Mean Absolute Error)则是把误差的绝对值加起来。在每种⽅法下使得总体误差衡量最⼩的被称为最优解。⽤数学表达式可分别被如下表⽰:
预测值、真实值和误差的定义。(请⼤家原谅⼀下我的⼿写体)
更直观⼀些来说,我们可以将单个误差平⽅后和绝对值后的结果通过函数展现出来。可以看到误差平⽅
北理人导航
是⼀条抛物线,随着误差绝对值的增⼤,MSE会加速上升;⽽误差绝对值是两条直线,误差的单位增长会有相同的MAE增长。这个性质也影响到它们解出来的最优模型的性
质。平⽅变换导致误差加速增长,⽽绝对值变换是⼀条直线。
电碳制品
两者差别
正是由于两者对于模型总体误差衡量的差别,导致了两者最终解的不同。
相⽐于最⼩绝对值法,最⼩⼆乘法有以下的优点:最优解唯⼀。对于最⼩⼆乘法⽽⾔,只要⾃变量不是多重共线性的,解就是唯⼀的。但是对于最⼩绝对值法却不是固定的。举例⽽⾔,如果我们没有任何⾃变量(x),⽽只⽤截距去回归。最⼩⼆乘法会⽤平均值作为预测值,⽽最⼩绝对值法会得出中位数,⽽中位数往往是不唯⼀的。例如当数据是两个点:0和2时,最⼩⼆乘法会⽤1作为预测值,但是最⼩绝对值法会⽤0~2的任意值作为预测值。
求解⽅便。对于最⼩⼆乘法⽽⾔,由于误差项是处处可导⽽且导数连续的,所以我们可以写出求解的等式。但是对于最⼩绝对值法⽽⾔,由于在原点不可导,所以求解会⽐较复杂。⽽且由于导数相对恒定(正误差始终为1,负误差始终为-1),所以最⼩绝对值法求解也会有导数过⼤的问题。
有好的解析性质。最⼩⼆乘法在正态分布假设下可以⽤极⼤似然估计(MLE)解释,也可以证明解是最
优线性⽆偏估计。
但之所以最⼩绝对值法也会被使⽤的原因,主要是最⼩⼆乘法的⼀个⼤缺点:受异常值扰动影响⼤。
正因为最⼩⼆乘法会将误差开平⽅,所以当某个预测值和真实值差别过⼤的时候,最⼩⼆乘法会愿意“牺牲”其他本来预测不错的数据点,调节模型使得过差的数据点变得更好⼀些。在⼯业界中,常常会因为数据品质的问题,数据集中被混⼊极端值被影响。⽽最⼩绝对值法认为单个⼤误差⽆所谓,它只在乎误差绝对值的和。因此,在数据存在异常值的时候,最⼩⼆乘法不是⼀个较好的解法。
结合两种⽅法——Huber Loss
在我们⽐较完两者的优劣,你可能意识到:最⼩⼆乘法的缺点主要是对于⼤误差会极度放⼤它的影响。那我们能不能结合最⼩⼆乘法和最⼩绝对值法,得到⼀个综合两个优点的⽅法呢?因此,Huber Loss (SMAE, Smoothed MAE)被提出来,它划定了⼀个范围delta,当误差⼩于delta的时候,⽤最⼩⼆乘的⽅法去算误差,当误差⼤于delta的时候,⽤最⼩绝对值法。⽤数学⽅式可表达如下:
但是这种⽅法的⼀⼤问题就是我们引⼊了另⼀个另⼀个未知参数delta。为了确定最优的delta,我们还需要尝试不同的参数来确定delta的选取。在此就不做展开了。
其他的解法
虽然说我们⽐较了最⼩⼆乘法和最⼩绝对值法,也介绍了两者的结合Huber Loss,但不是说在做线性回归的时候只在这三种之间选择。事实上,这三种也只是解决了某⼀类问题。线性回归还可能遇到其他的问题。例如:⾃变量(x)数量太多,模型容易过拟合。这时候我们就可以通过参数限制来解决这⼀类问题。有兴趣的同学可以看我的其他回答
总结最⼩⼆乘法不永远是最优的⽅法。对于不同数据形式和建模需求,需要能⾃⾏选择合适的建模⽅式。
相⽐于最⼩绝对值法,最⼩⼆乘法的优点在于最优解唯⼀、求解⽅便和有好的解析性质,但缺点在于受异常值扰动影响⼤。
Huber Loss (SMAE, Smoothed MAE)结合最⼩⼆乘法和最⼩绝对值法的优点,但引⼊了另⼀个另⼀个未知参数delta。线性回归还有许多问题不能被最⼩⼆乘法或最⼩绝对值法解决。线性回归⾥没有⼀个永远最优的⽅法。
谢@韦昌明五年前邀。强制循环泵
曼彻斯特编码参考

本文发布于:2024-09-21 14:41:54,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/403387.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:误差   乘法   线性   回归   数据   问题   模型   参数
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议