决策树后剪枝——悲观剪枝（PEP）

悲观剪枝(PEP)

微粒体>双横臂式独立悬架把⼀颗⼦树（具有多个叶⼦节点）的分类⽤⼀个叶⼦节点来替代的话，误判率肯定是上升的（这是很显然的，同样的样本⼦集，如果⽤⼦树分类可以分成多个类，⽽⽤单颗叶⼦节点来分的话只能分成⼀个类，多个类肯定要准确⼀些）。于是我们需要把⼦树的误判计算加上⼀个经验性的惩罚因⼦。

对于⼀颗叶⼦节点，它覆盖了N个样本，其中有E个错误，那么该叶⼦节点的错误率为（E+0.5）/N。这个0.5就是惩罚因⼦，那么⼀颗⼦树，它有L个叶⼦节点，那么该⼦树的误判率估计为：

这样的话，我们可以看到⼀颗⼦树虽然具有多个⼦节点，但由于加上了惩罚因⼦，所以⼦树的误判率计算未必占到便宜。剪枝后内部节点变成了叶⼦节点，其误判个数J也需要加上⼀个惩罚因⼦，变成J+0.5。那么⼦树是否可以被剪枝就取决于剪枝后的错误J+0.5在的标准误差内。对于样本的误差率e，我们可以根据经验把它估计成各种各样的分布模型，⽐如是⼆项式分布，⽐如是正态分布。

学术长青

热波那么⼀棵树错误分类⼀个样本值为1，正确分类⼀个样本值为0，该树错误分类的概率（误判率）为e（e为分布的固有属性，可以通过统计出来），那么树的误判次数就是伯努利分布，我们可以估计出该树的

误判次数均值和标准差：

均值：

标准差：

把⼦树替换成叶⼦节点后，该叶⼦的误判次数也是⼀个伯努利分布，其概率误判率e为(E+0.5)/N，因此叶⼦节点的误判次数均值为：

使⽤训练数据，⼦树总是⽐替换为⼀个叶节点后产⽣的误差⼩，但是使⽤校正后有误差计算⽅法却并⾮如此，当⼦树的误判个数⼤过对应叶节点的误判个数⼀个标准差之后，就决定剪枝：

这个条件就是剪枝的标准。当然并不⼀定⾮要⼤⼀个标准差，可以给定任意的置信区间，我们设定⼀

定的显著性因⼦，就可以估算出误判次数的上下界。

简单来说就是：

1)计算

剪枝前错误率e = （剪枝前的样本错误总数+节点数 x 0.5）/剪枝前样本总数

2)计算

剪枝前误判次数均值E = 样本总数 x e

剪枝前误判次数标准差 var = 根号下样本总数 x e x (1-e)

电信空间

3)计算

剪之后的错误率e(后)

pppd-298剪枝后误判次数均值E = 样本总数 x e（后）

4)判断剪枝条件：

剪枝前误判次数均值E - 剪枝前误判次数标准差 var > 剪枝后误判次数均值E

成⽴则剪枝

本文发布于:2024-09-22 09:59:27，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/33097.html

上一篇：蠓虫分类论文

下一篇：决策树的剪枝（MEP,REP,PEP,CCP）

标签：误判剪枝节点次数样本

留言与评论（共有 0 条评论）