KNN算法详解：原理、超参数与应用

74 浏览量更新于2024-08-31 收藏 866KB PDF 举报

"这篇博客主要介绍了KNN（K最近邻）分类算法的原理、超参数调整及实际应用。KNN是一种基于实例的学习方法，属于懒惰学习，无需显式的训练过程，通过计算新样本与已有样本的距离来决定新样本的类别。文章详细讲述了算法概述、举例、加深理解、算法原理、超参数（如K值的选择、距离度量方式和权重计算）、算法步骤、KNN在分类和回归任务中的实现、超参数调整、KD树的应用以及总结。" KNN（K最近邻）分类算法是一种简单而有效的机器学习方法，尤其适用于分类问题。算法的核心思想是利用新样本与其周围最近的k个训练样本的距离关系来确定新样本的类别。这里的k是一个正整数，通常通过交叉验证来选择最优值。KNN算法有以下几个关键点： 1. **算法概述**： - KNN是一种非参数（non-parametric）方法，因为它不假设数据分布的具体形式。 - 它属于懒惰学习，因为模型在预测时才进行计算，没有显式的训练阶段。 - KNN使用特征空间中的距离度量来判断样本间的相似性。 2. **举例**：通过一个简单的二维数据集，可以直观地展示KNN的工作方式。例如，将学生的学习成绩（语文和数学）作为特征，根据成绩划分“好”、“中”、“差”三个类别。KNN会找到新样本在特征空间中最接近的k个邻居，并根据这些邻居的类别进行预测。 3. **算法原理**： - 确定一个合适的距离度量，如欧氏距离或曼哈顿距离，用于衡量样本间的相似性。 - 选取k值，表示要考虑的最近邻居的数量。 - 计算新样本与所有训练样本的距离。 - 选择距离最近的k个样本，统计它们的类别出现频率。 - 将新样本分配给出现次数最多的类别。 4. **算法超参数**： - **K值**：较大的k值可以减少噪声影响，但可能掩盖样本间的类别差异；较小的k值更敏感，可能导致过拟合。 - **距离度量**：不同的度量方式会影响结果，如欧式距离、曼哈顿距离、余弦相似度等。 - **权重计算**：可以考虑使用距离加权，离得越近的邻居权重越大。 5. **算法步骤**： - 计算测试样本与训练集中每个样本的距离。 - 找出k个最近邻。 - 根据邻居的类别和权重（如果适用）进行预测。 6. **使用KNN实现分类**： - 建模预测时，使用KNN算法对新样本进行分类。 - 超参数对模型的影响显著，需要通过网格搜索或随机搜索等方法优化。 - 调整K值和其他超参数以提高模型性能。 7. **使用KNN回归预测**： - 类似于分类，但预测连续值而非类别。 - 数据标准化可以消除特征尺度的影响，提高预测准确性。 - 使用流水线（pipeline）可以将预处理和模型训练整合在一起，简化流程。 8. **KD树**： - KD树是一种数据结构，用于高效地存储和检索高维空间中的数据，能加速KNN的查找过程。总结来说，KNN算法是一种直观且实用的机器学习算法，适用于小规模数据集或低维空间。然而，随着数据量和维度增加，其计算复杂度会显著上升，这时可以利用数据结构（如KD树）进行优化。理解KNN的基本原理并熟练掌握超参数调整，有助于在实际问题中有效地应用这一算法。

KNN（（K最近邻）分类算法最近邻）分类算法_糖潮丽子的博客糖潮丽子的博客

我们本篇博客来学习KNN算法的原理，超参数调整，以及KNN算法应用。

kNN算法：算法：K最近邻最近邻(kNN，，k-NearestNeighbor)分类算法。分类算法。

KNN算法算法1、算法概述2、举例3、加深理解4、算法原理5、算法超参数5.1 K值5.2 关于K的取值5.3 距离度量方式5.4 权重计算方式6、算法步骤7、使用KNN实现分类7.1 建模预测7.2

超参数对模型的影响7.3 超参数调整8、使用KNN回归预测8.1 建模预测8.2 数据标准化8.3 流水线9、KD树10、总结

1、算法概述、算法概述

邻近算法，或者说K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最

接近的k个邻居来代表。KNN是一种分类(classification)算法，它输入基于实例的学习（instance-based

learning），属于懒惰学习（lazy

learning）即KNN没有显式的学习过程，也就是说没有训练阶段，数据集事先已有了分类和特征值，待收到新样本后直接进行处理。与急切学习（eager

learning）相对应。

KNN是通过测量不同特征值之间的距离进行分类。

思路：如果一个样本在特征空间中的k个最邻近的样本中的大多数属于某一个类别，则该样本也划分为这个类别。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定

类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

目标：

熟知KNN算法的基本原理

能够使用KNN算法实现分类与回归任务

能够调整算法的超参数

熟知KD树的构建与邻居选择

2、举例、举例

在讲解KNN之前，我们来看如下的数据集：

语文语文数学数学学生学生

95 93 好

90 92 好

91 96 好

85 82 中

83 87 中

80 84 中

61 69 差

66 63 差

72 65 差

83 77 ？

我们将以上数据映射到空间中，进行绘制。因为数据具有两个特征，因此，每条数据对应二维空间中的一个点。

import numpy as np

import matplotlib.pyplot as plt

plt.rcParams["font.family"] = "SimHei"

plt.rcParams["axes.unicode_minus"] = False

plt.rcParams["font.size"] = 12

good = np.array([[95, 93], [90, 92], [91, 96]]) #good 好学生

medium = np.array([[85, 82], [83, 87], [80, 84]]) #中等学生

bad = np.array([[61, 69], [66, 63], [72, 65]]) #差学生

unknown = np.array([[83, 77]]) #未知

plt.scatter(good[:, 0], good[:, 1], color="r", label="优等生")

plt.scatter(medium[:, 0], medium[:, 1], color="g", label="中等生")

plt.scatter(bad[:, 0], bad[:, 1], color="b", label="差等生")

plt.scatter(unknown[:, 0], unknown[:, 1], color="orange", label="未知")

plt.legend()

上图中橙色的点（样本），最可能的类别是（ B ）。

A 优等生

B 中等生

C 差等生

D 三种可能概率均等

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38701156

粉丝: 5
资源: 957

KNN算法详解：原理、超参数与应用

Python实现KNN最近邻分类算法详解

KNN最近邻分类算法的Matlab实现

K最近邻分类算法详解与应用实践

kNN.rar_K._UNL_knn_k最近邻分类算法_近邻分类

KNN.zip_分类_最近邻_最近邻分类器_机器学习算法_简单分类器

knn.zip_K._java KNN_knn、KNN、邻近算法_knn算法

knn.rar_KNN java_KNN算法 java_knn算法_knn算法java实现

kNN_pred.zip_改进KNN_改进K近邻_改进的KNN算法_最近邻预测_混沌 预测

n02_KNN_IRIS_Ma_irisKNN_iris_KNN分类算法_knn分类_knniris_

knn分类算法_knn_k近邻_K._数据集分类_近邻分类_源码

最新资源

kNN_pred.zip_改进KNN_改进K近邻_改进的KNN算法_最近邻预测_混沌预测