首页 > 学术百科

优化问题综述（三）在线学习算法

Online learning是指每次来⼀个样本，利⽤⼀个迭代⽅法更新模型，使得当前期望loss最⼩。

梯度下降类的⽅法精度不错，但是简单的在线梯度下降很难产⽣真正稀疏的解，⽽且对于不可微点的迭代会存在⼀些问题。

一大四小SGD：

随机梯度下降法每次⽤⼀部分数据算梯度，然后梯度下降，但是SGD精度低、收敛慢、很难得到需要的正则化设计的解，特别是⼏乎得不到

稀疏解。北京手机充值卡批发

TG算法

简单截断法ezproxy

简单截断法以为窗⼝，当不为整数时采⽤标准的SGD进⾏迭代，当为整数时，更新权重时，把绝对值⼩于阈值的权重置为0。

梯度截断法

简单截断法法简单直观，但是在实际训练过程中，的某个维度为0可能因为该训练不⾜引起的，简单的截断过于简单粗暴，会造成该特征的

广东电大缺失。梯度截断法对对权重的归零和截断处理稍微温柔⼀些，分段处理，绝对值⼩于阈值时，，如果使得变正负号，就把置零。

FOBOS算法

FOBOS(Forward-Backward Splitting)是由John Duchi（Berkeley）和Yoram Singer（google）在2009提出的。FOBOS算法把正则

化的梯度下降问题分成⼀个经验损失梯度下降迭代和⼀个最优化问题。其中第⼆个最优化问题有两项：第⼀项2范数那项表⽰不能离loss损

失迭代结果太远，第⼆项是正则化项，⽤来限定模型复杂度、抑制过拟合和做稀疏化：

由于求和公式中的每⼀项都是⼤于等于0的，所以步骤⼆可以拆解成对特征权重每⼀纬度单独求解。可以看出，L1-FOBOS是TG在特定条

件下的特殊形式，对截断有了⼀定的改进。

RDA算法

Lin Xiao. Dual Averaging Methods for Regularized Stochastic Learning and Online Optimization. Journal of Machine

Learning Research, 2010

RDA是Simple Dual Averaging Scheme的⼀个扩展，由Lin Xiao发表与2010年。RDA特征权重的更新策略为：

其中<script type="math/tex" id="MathJax-Element-34"> </script>表⽰梯度对的积分平均值；为正则项；为⼀个辅助的严格凸函数；

汽车空调

是⼀个⾮负且⾮⾃减序列。

在L1正则化下，令，令，令：

针对特征权重的各个维度将其拆解成N个独⽴的标量最⼩化问题：

可得：

L1-RDA的“截断阈值”是⼀个常数，并不随着⽽变化，因此可以认为L1-RDA⽐L1-FOBOS在截断判定上更加aggressive，这种性质使

江西医学院第二附属医院得L1-RDA更容易产⽣稀疏性；此外，RDA中判定对象是梯度的累加平均值，不同于TG或L1-FOBOS中针对单次梯度计算的结果进⾏判

定，避免了由于某些维度由于训练不⾜导致截断的问题。并且通过调节参数，很容易在精度和稀疏性上进⾏权衡。

FTRL算法

有实验证明，L1-FOBOS这⼀类基于梯度下降的⽅法有较⾼的精度，但是L1-RDA却能在损失⼀定精度的情况下产⽣更好的稀疏性。FTRL

把这两者进⾏了结合：

引⼊L2正则化项并不影响FTRL的稀疏性，仅仅相当于对最优化过程多了⼀个约束，使得结果求解更加平滑。

令可得

针对特征权重的各个维度将其拆解成N个独⽴的标量最⼩化问题，和RDA类似，可得：

总结

简单截断法、TG、FOBOS属于同⼀类，都是梯度下降类的算法，并且TG在特定条件可以转换成简单截断法和FOBOS；RDA属于简单对偶平均的扩展应⽤；FTRL是RDA和FOBOS的结合，同时具备⼆者的优点。⽬前来看，RDA和FTRL是最好的稀疏模型Online Training的算法。FTRL并⾏化处理，⼀⽅⾯可以参考ParallelSGD，另⼀⽅⾯可以使⽤⾼维向量点乘，及梯度分量并⾏计算的思路。

本文发布于:2024-09-22 13:36:58，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/53839.html

上一篇：lasso回归_Lasso回归

下一篇：基于正则化Logistic回归模型的幸福感指数影响因素分析

标签：梯度截断问题权重下降正则迭代特征

留言与评论（共有 0 条评论）