没有合适的资源?快使用搜索试试~ 我知道了~
首页knn算法knn算法knn算法
knn算法knn算法knn算法
需积分: 50 267 浏览量
更新于2023-05-24
评论
收藏 723KB PDF 举报
邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。 kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时,只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,kNN方法较其他方法更为适合。
资源详情
资源评论
资源推荐

2018/10/12 5_knn
http://www.huaxiaozhuan.com/%E7%BB%9F%E8%AE%A1%E5%AD%A6%E4%B9%A0/chapters/5_knn.html 1/5
k 近邻法
一、k 近邻算法
1. 近邻法( k-Nearest Neighbor:kNN )是一种基本的分类与回归方法。
分类问题:对新的样本,根据其 个最近邻的训练样本的类别,通过多数表决等方式进行预测。
回归问题:对新的样本,根据其 个最近邻的训练样本标签值的均值作为预测值。
2. 近邻法不具有显式的学习过程,它是直接预测。它是“惰性学习”( lazy learning )的著名代表。
它实际上利用训练数据集对特征向量空间进行划分,并且作为其分类的"模型"。
这类学习技术在训练阶段仅仅将样本保存起来,训练时间开销为零,等到收到测试样本后再进行处理。
那些在训练阶段就对样本进行学习处理的方法称作“急切学习”( eager learning )。
3. 近邻法是个非参数学习算法,它没有任何参数( 是超参数,而不是需要学习的参数)。
近邻模型具有非常高的容量,这使得它在训练样本数量较大时能获得较高的精度。
它的缺点有:
计算成本很高。因为需要构建一个 的距离矩阵,其计算量为 ,其中 为训练样本
的数量。
当数据集是几十亿个样本时,计算量是不可接受的。
在训练集较小时,泛化能力很差,非常容易陷入过拟合。
无法判断特征的重要性。
4. 近邻法的三要素:
值选择。
距离度量。
决策规则。
1.1 k 值选择
1. 当 时的 近邻算法称为最近邻算法,此时将训练集中与 最近的点的类别作为 的分类。
2. 值的选择会对 近邻法的结果产生重大影响。
若 值较小,则相当于用较小的邻域中的训练样本进行预测,"学习"的偏差减小。
只有与输入样本较近的训练样本才会对预测起作用,预测结果会对近邻的样本点非常敏感。
若近邻的训练样本点刚好是噪声,则预测会出错。即: 值的减小意味着模型整体变复杂,易发生过拟
合。
优点:减少"学习"的偏差。
缺点:增大"学习"的方差(即波动较大)。
若 值较大,则相当于用较大的邻域中的训练样本进行预测。
这时输入样本较远的训练样本也会对预测起作用,使预测偏离预期的结果。
即: 值增大意味着模型整体变简单。
优点:减少"学习"的方差(即波动较小)。


















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0