l2正则化python_L1、L2正则化的区别

l2正则化python_L1、L2正则化的区别
塞内加尔简单读了⼀些⽂章,总结⼀下L1和L2正则化的区别吧,似乎是⾮常容易被问到的⼀个问题。
L1,L2正则化
机器学习中, 损失函数后⾯⼀般会加上⼀个额外项,常⽤的是l1-norm和l2-norm,即l1范数和l2范数。
可以看作是损失函数的惩罚项。正则化项⼀般是模型复杂度的单调递增函数,模型越复杂,正则化值就越⼤。
上⾯的⽬标函数,第⼀项是模型要最⼩化的误差,第⼆项是正则化项,λ>=0调节两者之间关系的系数。
wits正则化项可以取不同的形式。
L0范数
是指正则化项是 参数矩阵W中⾮0元素的个数,也就是说希望W的⼤部分元素都是0,W是稀疏的。
由于L0正则项⾮连续⾮凸不可求导,难以到有效解,转⽽使⽤L1范数。
L1范数
正则化项是向量中各个元素的绝对值之和。
L0和L1范数可以实现让参数矩阵稀疏,让参数稀疏的好处,可以实现对特征的选择(权重为0表⽰对应的特征没有作⽤,被丢掉),也可以增强模型可解释性(例如研究影响疾病的因素,只有少数⼏个⾮零元素,就可以知道这些对应的因素和疾病相关)上海电力学院图书馆
克伦威尔L1⼜称Lasso。
L2范数
功效是解决过拟合问题。当模型过于复杂,就会容易出现过拟合问题。
L2范数是指向量各个元素的平⽅,求和,然后再求平⽅根。
使L2范数最⼩,可以使得W的每个元素都很⼩,都接近于0,但和L1范数不同,L2不能实现稀疏,不会让值等于0,⽽是接近于0。⼀般认为,越⼩的参数,模型越简单,越简单的模型就不容易产⽣过拟合现象。
L2⼜称Ridge,也称岭回归。
⼩结
阿基里斯
公式:
区别:
使⽤L1范数,可以使得参数稀疏化;
使⽤L2范数,倾向于使参数稠密地接近于0,避免过拟合。
利率汇率source
⽂章同步在我的博客
Reference
更多详细的公式,以及解释和分析,可参考

本文发布于:2024-09-22 23:23:22,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/53844.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模型   正则   参数
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议