决策树后剪枝——悲观剪枝(PEP)

决策树后剪枝——悲观剪枝(PEP)
悲观剪枝(PEP)
微粒体>双横臂式独立悬架把⼀颗⼦树(具有多个叶⼦节点)的分类⽤⼀个叶⼦节点来替代的话,误判率肯定是上升的(这是很显然的,同样的样本⼦集,如果⽤⼦树分类可以分成多个类,⽽⽤单颗叶⼦节点来分的话只能分成⼀个类,多个类肯定要准确⼀些)。于是我们需要把⼦树的误判计算加上⼀个经验性的惩罚因⼦。
对于⼀颗叶⼦节点,它覆盖了N个样本,其中有E个错误,那么该叶⼦节点的错误率为(E+0.5)/N。这个0.5就是惩罚因⼦,那么⼀颗⼦树,它有L个叶⼦节点,那么该⼦树的误判率估计为:
这样的话,我们可以看到⼀颗⼦树虽然具有多个⼦节点,但由于加上了惩罚因⼦,所以⼦树的误判率计算未必占到便宜。剪枝后内部节点变成了叶⼦节点,其误判个数J也需要加上⼀个惩罚因⼦,变成J+0.5。那么⼦树是否可以被剪枝就取决于剪枝后的错误J+0.5在的标准误差内。对于样本的误差率e,我们可以根据经验把它估计成各种各样的分布模型,⽐如是⼆项式分布,⽐如是正态分布。
学术长青
热波那么⼀棵树错误分类⼀个样本值为1,正确分类⼀个样本值为0,该树错误分类的概率(误判率)为e(e为分布的固有属性,可以通过统计出来),那么树的误判次数就是伯努利分布,我们可以估计出该树的
误判次数均值和标准差:
均值:
标准差:
把⼦树替换成叶⼦节点后,该叶⼦的误判次数也是⼀个伯努利分布,其概率误判率e为(E+0.5)/N,因此叶⼦节点的误判次数均值为:
使⽤训练数据,⼦树总是⽐替换为⼀个叶节点后产⽣的误差⼩,但是使⽤校正后有误差计算⽅法却并⾮如此,当⼦树的误判个数⼤过对应叶节点的误判个数⼀个标准差之后,就决定剪枝:
这个条件就是剪枝的标准。当然并不⼀定⾮要⼤⼀个标准差,可以给定任意的置信区间,我们设定⼀
定的显著性因⼦,就可以估算出误判次数的上下界。
简单来说就是:
1)计算
剪枝前错误率e = (剪枝前的样本错误总数+节点数 x 0.5)/剪枝前样本总数
2)计算
剪枝前误判次数均值E = 样本总数 x e
剪枝前误判次数标准差 var = 根号下样本总数 x e x (1-e)
电信空间
3)计算
剪之后的错误率e(后)
pppd-298剪枝后误判次数均值E = 样本总数 x e(后)
4)判断剪枝条件:
剪枝前误判次数均值E - 剪枝前误判次数标准差 var > 剪枝后误判次数均值E
成⽴则剪枝

本文发布于:2024-09-22 09:59:27,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/33097.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:误判   剪枝   节点   次数   样本
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议