knn算法的最佳k值_KNN(k-NearestNeighbor)算法笔记

knn算法的最佳k值_KNN(k-NearestNeighbor)算法笔记本博⽂主要参考来源:
体育课件忆臻:⼀⽂搞懂k近邻(k-NN)算法(⼀)z huanlan.zhihu
⼀.KNN算法的核⼼思想:
算法的核⼼思想是,即是给定⼀个训练数据集,对新的输⼊实例,在训练数据集中到与该实例最邻近的K个实例,这K个实例的多数属于
更通俗说⼀遍算法的过程,来了⼀个新的输⼊实例,我们算出该实例与每⼀个训练点的距某个类,就把
该输⼊实例分类到这个类中。更通俗说⼀遍算法的过程,来了⼀个新的输⼊实例,我们算出该实例与每⼀个训练点的距离(这⾥的复杂度为0(n)⽐较⼤,所以引出了下⽂的kd树等结构(以图搜图系统中的特征库也是根据KD-Tree来划分特征向量,加快检索速度!)),然后到前k个,这k个哪个类别数最多,我们就判断新的输⼊实例就是哪类!
⼆.距离的度量:
欧式距离(Euclidean distance),公式如下:与该实例最近邻的k个实例,这个最近邻的定义是通过不同距离函数
距离函数来定义,我们最常⽤的是欧式距离(Euclidean distance),公式如下:
汽车智能防盗系统
备注:有空可以看下怎么根据数据的特性来选择距离函数
三.特征归⼀化的必要性:
归⼀化,如果不进⾏归⼀化会使得所选择的特征间的重要性不同,从⽽使得模型对会为了保证每个特征同等重要性,我们这⾥对每个特征进⾏归⼀化
除以最⼤值减最⼩值.
偏向某些特征,计算出来的结果就不正确了,⼀般的操作是除以最⼤值减最⼩值.
与龙同行
四.KNN算法中的K值选择:
实验调参来得到,李航⽼师书上讲到,我们⼀般选取⼀个较⼩
KNN算法中是根据通过实验调参中国同学录
K-means算法中的K选择是⼀般是根据⼿肘法
⼿肘法来确定,KNN
K-means正气歌序
交叉验证法来选取最优的k值.土壤固化剂
的数值,通常采取交叉验证法
KNN算法选取过⼩的k值
过拟合,学习到的类别⼀般是噪声点,当选择过⼤的k值
过⼤的k值,会使得模型变得简单,相当于模型过⼩的k值,会使得模型变得复杂,容易过拟合
⽋拟合.
没有进⾏训练,可以理解为⽋拟合.
利⽤参考博客中⼤佬提供的图,k值的最佳选择是在红⾊圆边界之间范围内是最好的.

本文发布于:2024-09-21 17:23:22,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/326069.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:实例   算法   距离   特征   训练
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议