半监督分类算法简述,self-trainning,co-trainning

半监督分类算法简述，self-trainning，co-trainning

超导失超本⽂主要就是随便谈谈⾃⾝对半监督算法的理解，这⾥主要谈半监督分类。

⾸先是为什么使⽤半监督学习算法？

⼀般⽽⾔，当训练数据量过少时，监督学习得到的模型效果不能满⾜需求，因此⽤半监督学习来增强效果。训练样本少，会导致两个问题，⼀⽅⾯是样本的分布不能真正代表真实数据的分布特征，另⼀⽅⾯是数据量过少不能满⾜训练学习的要求，“只能remember，不能learn”。这两个原因都会导致训练数据得到的模型会出现不能正确到真实数据的分类边界问题。半监督学习解决了两个问题，⼀个是利⽤现有数据模拟出真实数据在特征空间的分布特点，⼆是在此基础上确定分类边界，即确定P(X) 和P(Y|X)。

关于半监督学习的算法？

得到训练

上⾯提到了半监督学习的⽬的，因此对应有很多算法，包括半监督SVM，⾼斯模型，KNN模型等都提供了对应的解决办法。这些算法都有基于相应的假设，给出了相应的办法。⽐如，KNN在此处就假设最近的K个带标签的样本中样本数量最多的类别就是该样本的类别。半监督SVM则假设分类边界通过的⼀定是最样本分布最稀疏的部分。。等等，不再细谈。因为以上算法在实际应⽤中可操作性太低，结果也很难以把控。g蛋

全桥整流基于KNN的有⼀个标签传播算法，它假设距离样本点最近的数据点的标签就是该样本点的标签，需要经过迭代，每次迭代只赋予⼀个样本点标签。该算法受离点和偶然性因素影响太⼤，效果不佳。

主要谈⼀下self-trainning 和co-trainning两种算法。

self-trainning的假设是利⽤现有训练数据得到的模型，对⽆标签数据进⾏预测，置信度⾼的数据更可能被正确赋予了标签，所以可以⽤于加⼊训练集。所以算法的流程就是：

1，利⽤现有训练数据训练模型，预测⽆标签数据

2，将置信度⽐较⾼的⼀部分⽆标签数据和它们被模型赋予标签⼀起加⼊训练集

3，如果满⾜训练集和模型符合要求，则输出当前的训练集和模型，否则，回到1

未载入sso模块

很显然，这是⼀个迭代的过程，同时也是⼀个开放的过程，3⾥的要求其实就是操作者⾃⾝的主观意愿，⽽且模型的选取也是⽆限制的（SVM，RM，LR等等都可以）。这⾥主要给出⼏个建议。

选取样本的时候不但要考虑置信度，还要考虑置信度的差值，只有样本在某⼀类别的置信度明显⾼于其他所有类别的置信度时，才能选取到训练集中去。

聚氨酯墙板迭代的过程中需要不断增强对新样本选取的要求。

此过程需要很谨慎，因为不当的操作会使得加⼊的新训练样本有很⼤的错误，不会得到应有的结果。self-trainning算法是基于⾃⾝不断迭代学习的，所以很容易出现“⾛偏”的情况。

co-trainning算法：

这是针对self-trainning缺陷⽽来的⼀个算法，这⾥不再是⾃学习，⽽且互相学习。在每次迭代中都得到两个模型，⽽且各⾃有独⽴的训练集。

算法过程不再赘述，和上⾯⼀样，只是它有两个训练集（基于原始训练集⽽来，随机划分得到的，互补），每次迭代各⾃训练出⼀个模型，并将置信度⾼的样本加⼊到对⽅的训练集中。注意，是加⼊到对⽅的训练集，不是⾃⼰的！下次迭代依然是基于各⾃的训练集再训练得到模型。

可以看出，两个模型起到了相互校正的效果，⼀定程度上防⽌了半监督的“⾛偏”，但是，这是有前提条件的训练模型所⽤的特征集合需要时不同的特征集合！！不然是⽆效的。⾄于模型的选取也是⽆所谓的，甚⾄在两个训练集上可以选取不同的算法来训练模型。

最后，很重要的⼀点

半监督的结果好坏不能再单单⽤监督学习的那些指标来鉴定了。

很奇怪吧。。其实也没什么

⼤部分情况下验证集数据的选取其实都是来源于最初的有标签的数据，所以训练集的问题，验证集⼀般同样存在，⽐如，量过少（缺乏代表性，具有偶然性），分布不均衡。这样的话，使⽤验证集来评价半监督学习的结果本⾝是存在问题的。当然，如果你的验证集建⽴的很完善，那就完全是可以的。

个⼈觉得半监督学习的结果难以评估也是制约它发展的⼀个重要原因。

先写到这⾥吧

本文发布于:2024-09-23 03:16:00，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/2/337924.html

上一篇：forecast函数原理

下一篇：拳击教练个人工作总结_体育教练个人工作总结

标签：训练监督模型数据学习算法样本

留言与评论（共有 0 条评论）