首页 > 学术百科

KNN算法，以及与Kmeans的简单对比

KNN算法，以及与Kmeans的简单对⽐

KNN与Kmeans感觉没啥联系，但是名字挺像的，就拿来⼀起总结⼀下吧。

初学者的总结。

KNN是监督学习，Kmeans是⽆监督学习。

测井KNN⽤于分类，Kmeans⽤于聚类。

先说KNN:

对于KNN，有⼀批已经标注好label的训练样本，将这批样本的数据转换为向量表⽰，然后选择度量向量距离的⽅式。例如欧式距离，曼哈顿距离，夹脚余弦等。对于这批样本记为W。

莎叶兰然后来⼀个待分类的样本S，选取W中距离样本S距离最近的K个样本。这K个样本中哪种类别的样本多，则该样本S的分类就是哪种。

北京英菲尼迪车祸KNN的优缺点：

KNN的优点：

1、对输⼊数据⽆假定，⽐如不会假设输⼊数据是服从正太分布的。

2、算法简单，直观，易于实现

3、对异常值不敏感

4、可以⽤于数值型数据，也可以⽤于离散型数据

KNN的缺点：

1、有说是计算复杂度⾼，不过这个是可以改进的，例如KD数，或者ball tree

萨纳克2、严重依赖训练样本集，这个感觉没啥改进⽅法，只能是尽量获取更好的训练样本集。手足情未了

处方量

3、距离度量⽅法，K值的选取都有⽐较⼤的影响。 KNN算法必须指定K值，K值选择不当则分类精度不能保证

4、特征作⽤相同与决策树归纳⽅法和神经⽹络⽅法相⽐，传统最近邻分类器认为每个属性的作⽤都是相同的（赋予相同权重）。样本的距离是根据样本的所有特征（属性）计算的。在这些特征中，有些特征与分类是强相关的，有些特征与分类是弱相关的，还有⼀些特征（可能是⼤部分）与分类不相关。这样，如果在计算相似度的时候，按所有特征作⽤相同来计算样本相似度就会误导分类过程。

KNN的改进⽅向：

对于KNN分类算法的改进⽅法主要可以分为加快分类速度、对训练样本库的维护、相似度的距离公式优化和K值确定四种类型。

⽬前我了解的只有加快分类速度，通过KD树，ball tree等。

机器学习实战书中说 K不超过20

本文发布于:2024-09-23 09:21:25，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/326081.html

上一篇：KNN和LOF两种算法对比

下一篇：【python】KNN（K近邻算法）实现及可视化