机器学习十大算法——集成方法

机器学习⼗⼤算法——集成⽅法
⽂章⽬录
机器学习⼗⼤算法——集成⽅法
什么是集成⽅法
集成⽅法是先构建⼀组分类器,然后⽤各个分类器带权重的投票来预测新数据的算法。最初的集成⽅法是贝叶斯平均,但最新的算法包括误差纠正输出编码和提升算法。
那么集成模型的原理是什么,以及它为什么⽐独⽴模型的效果好呢?
它们消除了偏置的影响:⽐如把民主党的问卷和共和党的问卷混合,从中得到的将是⼀个不伦不类的偏中⽴的信息。
它们能减⼩预测的⽅差:多个模型聚合后的预测结果⽐单⼀模型的预测结果更稳定。在⾦融界,这被称为是多样化 —— 多个股票的混合产品波动总是远⼩于单个股票的波动。这也解释了为何增加训练数据,模型的效果会变得更好。
它们不容易产⽣过拟合:如果单个模型不会产⽣过拟合,那么将每个模型的预测结果简单地组合(取均值、加权平均、逻辑回归),没有理由产⽣过拟合。
轴流风机启动
高效自吸泵集成学习(ensemble learning)更多的是⼀种组合策略,将多个机器学习模型结合起来,可以称为元算法(meta-algorithm)。
⾯对⼀个机器学习问题,通常有两种策略,⼀种是研发⼈员尝试各种模型,选择其中表现最好的模型做重点调参优化。这种策略类似于奥运会⽐赛,通过强强竞争来选拔最优的运动员,并逐步提⾼成绩。另⼀种重要的策略是集各家之长,如同贤明的君主⼴泛的听取众多谋⾂的建议,然后综合考虑,得到最终决策。后⼀种策略的核⼼,是将多个分类器的结果集成为⼀个统⼀的决策。使⽤这类策略的机器学习⽅法统称为集成学习。其中的每个单独的分类器称为基分类器。
集成学习可以⼤致分为两类:
Boosting:这类⽅法训练基分类器时采⽤串⾏的⽅法,各个基分类器之间有依赖。它的基本思路是将基分类器层层叠加,每⼀层在训练的时候,对前⼀层基分类器分错的样本,给予更⾼的权重。测试时,根据各层分类器的结果的加权得到最终结果。
波特率发生器Bagging:这类⽅法基分类器之间⽆强依赖,可以并⾏。其中很著名的算法之⼀是基于决策树基分类器的随机森林(Random Forest)。为了让基分类器之间互相独⽴,将训练集分为若⼲⼦集(当训练样本数量较少时,⼦集之间可能有交叠)。
基分类器有时⼜称为弱分类器,因为基分类器的错误率要⼤于集成后的分类器。基分类器的错误,是偏差(Bias)和⽅差(Variance)两种错误之和。偏差主要是由于分类器的表达能⼒有限导致的系统性错误,表现在训练误差不能收敛到⼀个⽐较⼩的值。⽅差则是由于分类器对于样本分布过于敏感,导致在训练样本数较少时,产⽣过拟合。
Boosting⽅法通过逐步聚焦于基分类器分错的样本,减⼩集成分类器的偏差。Bagging⽅法则是采取分⽽治之的策略,通过对训练样本多次采样,并分别训练出多个不同模型,然后做综合,来减⼩集成分类器的⽅差。假设每个基分类器出错的概率都是相互独⽴的,在某个测试样本上,⽤简单多数的投票⽅法来集成结果,超过半数基分类器都出错的概率会⼩于每个单独的基分类器的出错概率。⼀个Ba
gging的简单⽰例如下图:
Boosting支撑梁
Boosting 是⼀族可将弱学习器提升为强学习器的算法.这族算法的⼯作机制类似:先从初始训练集训练出⼀个基学习器,再根据基学习器的表现对训练样本分布进⾏调整,使得先前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来训练下⼀个基学习器;如此重复进⾏,直⾄基学习器数⽬达到事先指定的值T , 最终将这T 个基学习器进⾏加权结合.
Boosting算法的典型代表就是Adaboost算法,下图是Adaboost算法步骤。
Boosting 算法要求基学习器能对特定的数据分布进⾏学习,这可通过"重赋权法" (re-weighting)实施,即在训练过程的每⼀轮中,根据样本分布为每个训练样本重新赋予⼀个权重.对⽆法接受带权样本的基学习算法,则可通过"重采样法" (re-sampling)来处理,即在每⼀轮学习中,根据样本分布对训练集重新进⾏采样,再⽤重采样⽽得的样本集对基学习器进⾏训练.
Bagging
Bagging [Breiman, 1996a] 是并⾏式集成学习⽅法最著名的代表.从名字即可看出,它直接基于⾃助采样法(bootstrap sampling)。给定包含m 个样本的数据集,我们先随机取出⼀个样本放⼊采样集中,再把该样本放回初始数据集,使得下次采样时该样本仍有可能被选中,这样,经过m次随机采样操作,我们得到含m 个样本的采样集,初始训练集中有的样本在采样集⾥多次出现,有的则从未出现。初始训练集中约有63.2%的样本出现在来样集中。
与标准AdaBoost 只适⽤于⼆分类任务不间, Bagging 能不经修改地⽤于多分类、回归等任务.
随机森林
随机森林(Random Forest ,简称RF) 是Bagging的⼀个扩展变体.RF在以决策树为基学习器构建Bagging 集成的基础上,进⼀步在决策树的训练过程中引⼊了随机属性选择.具体来说,传统决策树在选择划分属性时是在当前结点的属性集合(假定有d 个属性)中选择⼀个最优属性;⽽在RF 中,对基决策树的每个结点,先从该结点的属性集合中随机选择⼀个包含k个属性的⼦集,然后再从这个⼦集中选择⼀个最优属性⽤于划分。
随机森林简单、容易实现、计算开销⼩,令⼈惊奇的是, 它在很多现实任务中展现出强⼤的性能,被誉为"代表集成学习技术⽔平的⽅法"可以看出,随机森林对Bagging 只做了⼩改动, 但与Bagging 中基学习器的"多样性"仅通过样本扰动(通过对初始训练集采样)⽽来不同,随机森林中基学习器的多样性不仅来⾃样本扰动,还来⾃属性扰动,这就使得最终集成的泛化性能可通过个体学习器之间差异度的增加⽽进⼀步提升.
随机森林的训练效率常优于Bagging,因为在个体决策树的构建过程中, Bagging使⽤的是" 确定型" 决策树?在选择划分属性时要对结点的所有属性进⾏考察,⽽随机森林使⽤的" 随机型"决策树则只需考察-个属性⼦集。
集成⽅法的结合策略
平均法
平均法⼜分为简单平均法和加权平均法。
简单平均法就是求均值。
加权平均法的权重⼀般是从训练数据中学习⽽得,现实任务中的训练样本通常不充分或存在噪声,这将使得学出的权重不完全可靠.尤其是对规模⽐较⼤的集成来说,要学习的权重⽐较多,较容易导致过拟合.因此,实验和应⽤均显⽰出,加权平均法未必⼀起优于简单平均法。⼀般⽽⾔,在个体学习器性能相差较⼤时宜使⽤加权平均
高能镍碳超级电容器法,⽽在个体学习器性能相近时宜使⽤简单平均法。
投票法
投票法常⽤的有 绝对多数投票法,相对多数投票法和 加权投票法。
在不允许拒绝预测的任务中,绝对多数、相对多数投票法统称为"多数投票法"
学习法
当训练数据很多时,⼀种更为强⼤的结合策略是使⽤"学习法",即通过Stacking 本⾝是⼀种著另⼀个学习器来进⾏结合. Stacking 是学习法的典型代表.这⾥我们把个体学习器称为初级学习器,⽤于结合的学习器称为次级学习器或元学习器(meta-learner)。
stacking算法描述如下:
在训练阶段,次级训练集是利⽤初级学习器产⽣的,若直接⽤初级学习器的训练集来产⽣次级训练集,则过拟合风险会⽐较⼤;因此,⼀般是通过使⽤交叉验证或留⼀法这样的⽅式,⽤训练初级学习器未使⽤的样本来产⽣次级学习器的训练样本.
次级学习器的输⼊属性表⽰和次级学习算法对Stacking 集成的泛化性能有很⼤影响.有研究表明,将初级学习器的输出类概率作为次级学习器的输⼊属性,⽤多响应线性回归(Multi-response Linear Regression,简称MLR) 作为次级学习算法效果较好,在MLR 中使⽤不同的属性集更佳。
贝叶斯模型平均(Bayes Model Averaging,简称BMA)基于后验概率来为不同模型赋予权重7 可视为加权平均法的⼀种特殊实现. 对Stacking 和BMA 进⾏了⽐较.理论上来说?若数据⽣成模型怡在当前考虑的模型中,且数据噪声很少,则BMA 不差于Stacking; 然⽽,在现实应⽤中⽆法确保数据⽣成模型⼀定在当前考虑的模型中,甚⾄可能难以⽤当前考虑的模型来进⾏近似,因此, Stacking 通常优于BMA,因为其鲁棒性⽐BMA 更好,⽽且BMA 对模型近似误差⾮常敏感。
集成放法的多样性
误差-分歧分解
增高减肥鞋
个体学习器准确性越⾼、多样性越⼤,则集成越好.上⾯这个分析⾸先由[Krogh and Vedelsby, 1995] 给出,称为"误差⼀分歧分解" (error-ambiguity decomposition).
多样性度量
多样性度量(diversity measure)是⽤于度量集成中个体分类器的多样性,即估算个体学习器的多样化程度.典型做法是考虑个体分类器的两两相似/不相似性.
不合度量 = (b+c)/m, 值越⼤,则多样性越⼤
多样性增强
常见做法主要是对数据样本、输⼊属性、输出表⽰、算法参数进⾏扰动。
集成学习有哪些基本步骤?
集成学习⼀般可分为以下三个步骤:
1. 到误差互相独⽴的基分类器;
2. 训练基分类器;
3. 合并基分类器的结果。
合并基分类器的⽅法有voting和stacking两种。前者是⽤投票的⽅式,将获得最多选票的结果作为最终的结果。后者是⽤串⾏的⽅式,把前⼀个基分类器的结果输出到下⼀个分类器,将所有基分类器的输出结果相加作为最终的输出。

本文发布于:2024-09-22 14:23:02,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/110402.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:学习   分类器   训练   集成   算法   模型
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议