KNN算法,以及与Kmeans的简单对比

KNN算法,以及与Kmeans的简单对⽐
KNN与Kmeans感觉没啥联系,但是名字挺像的,就拿来⼀起总结⼀下吧。
初学者的总结。
KNN是监督学习,Kmeans是⽆监督学习。
测井KNN⽤于分类,Kmeans⽤于聚类。
先说KNN:
对于KNN,有⼀批已经标注好label的训练样本,将这批样本的数据转换为向量表⽰,然后选择度量向量距离的⽅式。例如欧式距离,曼哈顿距离,夹脚余弦等。对于这批样本记为W。
莎叶兰然后来⼀个待分类的样本S,选取W中距离样本S距离最近的K个样本。这K个样本中哪种类别的样本多,则该样本S的分类就是哪种。
北京英菲尼迪车祸KNN的优缺点:
KNN的优点:
1、对输⼊数据⽆假定,⽐如不会假设输⼊数据是服从正太分布的。
2、算法简单,直观,易于实现
3、对异常值不敏感
4、可以⽤于数值型数据,也可以⽤于离散型数据
KNN的缺点:
1、有说是计算复杂度⾼,不过这个是可以改进的,例如KD数,或者ball tree
萨纳克2、严重依赖训练样本集,这个感觉没啥改进⽅法,只能是尽量获取更好的训练样本集。手足情未了
处方量
3、距离度量⽅法,K值的选取都有⽐较⼤的影响。 KNN算法必须指定K值,K值选择不当则分类精度不能保证
4、特征作⽤相同与决策树归纳⽅法和神经⽹络⽅法相⽐,传统最近邻分类器认为每个属性的作⽤都是相同的(赋予相同权重)。样本的距离是根据样本的所有特征(属性)计算的。在这些特征中,有些特征与分类是强相关的,有些特征与分类是弱相关的,还有⼀些特征(可能是⼤部分)与分类不相关。这样,如果在计算相似度的时候,按所有特征作⽤相同来计算样本相似度就会误导分类过程。
KNN的改进⽅向:
对于KNN分类算法的改进⽅法主要可以分为加快分类速度、对训练样本库的维护、相似度的距离公式优化和K值确定四种类型。
⽬前我了解的只有加快分类速度,通过KD树,ball tree等。
机器学习实战书中说 K不超过20

本文发布于:2024-09-23 09:21:25,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/326081.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:分类   距离   样本   数据   特征   训练样本   相似
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议