优化问题综述(三)在线学习算法

优化问题综述(三)在线学习算法
Online learning是指每次来⼀个样本,利⽤⼀个迭代⽅法更新模型,使得当前期望loss最⼩。
梯度下降类的⽅法精度不错,但是简单的在线梯度下降很难产⽣真正稀疏的解,⽽且对于不可微点的迭代会存在⼀些问题。
一大四小SGD:
随机梯度下降法每次⽤⼀部分数据算梯度,然后梯度下降,但是SGD精度低、收敛慢、很难得到需要的正则化设计的解,特别是⼏乎得不到
稀疏解。北京手机充值卡批发
TG算法
简单截断ezproxy
简单截断法以为窗⼝,当不为整数时采⽤标准的SGD进⾏迭代,当为整数时,更新权重时,把绝对值⼩于阈值的权重置为0。
梯度截断法
简单截断法法简单直观,但是在实际训练过程中,的某个维度为0可能因为该训练不⾜引起的,简单的截断过于简单粗暴,会造成该特征的
广东电大缺失。梯度截断法对对权重的归零和截断处理稍微温柔⼀些,分段处理,绝对值⼩于阈值时,,如果使得变正负号,就把置零。
FOBOS算法
FOBOS(Forward-Backward Splitting)是由John Duchi(Berkeley)和Yoram Singer(google)在2009提出的。FOBOS算法把正则
化的梯度下降问题分成⼀个经验损失梯度下降迭代和⼀个最优化问题。其中第⼆个最优化问题有两项:第⼀项2范数那项表⽰不能离loss损
失迭代结果太远,第⼆项是正则化项,⽤来限定模型复杂度、抑制过拟合和做稀疏化:
由于求和公式中的每⼀项都是⼤于等于0的,所以步骤⼆可以拆解成对特征权重每⼀纬度单独求解。可以看出,L1-FOBOS是TG在特定条
件下的特殊形式,对截断有了⼀定的改进。
RDA算法
Lin Xiao. Dual Averaging Methods for Regularized Stochastic Learning and Online Optimization. Journal of Machine
Learning Research, 2010
RDA是Simple Dual Averaging Scheme的⼀个扩展,由Lin Xiao发表与2010年。RDA特征权重的更新策略为:
其中<script type="math/tex" id="MathJax-Element-34"> </script>表⽰梯度对 的积分平均值;为正则项; 为⼀个辅助的严格凸函数;
汽车空调
是⼀个⾮负且⾮⾃减序列。
在L1正则化下,令 ,令 ,令 :
针对特征权重的各个维度将其拆解成N个独⽴的标量最⼩化问题:
可得:
L1-RDA的“截断阈值”是⼀个常数,并不随着⽽变化,因此可以认为L1-RDA⽐L1-FOBOS在截断判定上更加aggressive,这种性质使
江西医学院第二附属医院得L1-RDA更容易产⽣稀疏性;此外,RDA中判定对象是梯度的累加平均值,不同于TG或L1-FOBOS中针对单次梯度计算的结果进⾏判
定,避免了由于某些维度由于训练不⾜导致截断的问题。并且通过调节参数,很容易在精度和稀疏性上进⾏权衡。
FTRL算法
有实验证明,L1-FOBOS这⼀类基于梯度下降的⽅法有较⾼的精度,但是L1-RDA却能在损失⼀定精度的情况下产⽣更好的稀疏性。FTRL
把这两者进⾏了结合:
引⼊L2正则化项并不影响FTRL的稀疏性,仅仅相当于对最优化过程多了⼀个约束,使得结果求解更加平滑。
令可得
针对特征权重的各个维度将其拆解成N个独⽴的标量最⼩化问题,和RDA类似,可得:
总结
简单截断法、TG、FOBOS属于同⼀类,都是梯度下降类的算法,并且TG在特定条件可以转换成简单截断法和FOBOS;RDA属于简单对偶平均的扩展应⽤;FTRL是RDA和FOBOS的结合,同时具备⼆者的优点。⽬前来看,RDA和FTRL是最好的稀疏模型Online Training的算法。FTRL并⾏化处理,⼀⽅⾯可以参考ParallelSGD,另⼀⽅⾯可以使⽤⾼维向量点乘,及梯度分量并⾏计算的思路。

本文发布于:2024-09-22 13:36:58,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/53839.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:梯度   截断   问题   权重   下降   正则   迭代   特征
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议