l2正则化python_L1、L2正则化的区别

塞内加尔简单读了⼀些⽂章，总结⼀下L1和L2正则化的区别吧，似乎是⾮常容易被问到的⼀个问题。

L1,L2正则化

机器学习中，损失函数后⾯⼀般会加上⼀个额外项，常⽤的是l1-norm和l2-norm，即l1范数和l2范数。

可以看作是损失函数的惩罚项。正则化项⼀般是模型复杂度的单调递增函数，模型越复杂，正则化值就越⼤。

上⾯的⽬标函数，第⼀项是模型要最⼩化的误差，第⼆项是正则化项，λ>=0调节两者之间关系的系数。

wits正则化项可以取不同的形式。

L0范数

是指正则化项是参数矩阵W中⾮0元素的个数，也就是说希望W的⼤部分元素都是0，W是稀疏的。

由于L0正则项⾮连续⾮凸不可求导，难以到有效解，转⽽使⽤L1范数。

L1范数

正则化项是向量中各个元素的绝对值之和。

L0和L1范数可以实现让参数矩阵稀疏，让参数稀疏的好处，可以实现对特征的选择(权重为0表⽰对应的特征没有作⽤，被丢掉)，也可以增强模型可解释性(例如研究影响疾病的因素，只有少数⼏个⾮零元素，就可以知道这些对应的因素和疾病相关)上海电力学院图书馆

克伦威尔L1⼜称Lasso。

L2范数

功效是解决过拟合问题。当模型过于复杂，就会容易出现过拟合问题。

L2范数是指向量各个元素的平⽅，求和，然后再求平⽅根。

使L2范数最⼩，可以使得W的每个元素都很⼩，都接近于0，但和L1范数不同，L2不能实现稀疏，不会让值等于0，⽽是接近于0。⼀般认为，越⼩的参数，模型越简单，越简单的模型就不容易产⽣过拟合现象。

L2⼜称Ridge，也称岭回归。

⼩结

阿基里斯

公式：

区别：

使⽤L1范数，可以使得参数稀疏化；

使⽤L2范数，倾向于使参数稠密地接近于0，避免过拟合。

利率汇率source

⽂章同步在我的博客

Reference

更多详细的公式，以及解释和分析，可参考

本文发布于:2024-09-22 23:23:22，感谢您对本站的认可！

标签：模型正则参数

留言与评论（共有 0 条评论）