Python实现kNN算法详细解析

python

python函数

10 浏览量更新于2023-05-04 1 收藏 161KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

本文介绍如何使用Python实现k-近邻(kNN)分类算法，该算法是一种基于实例的学习方法，通过计算新样本与已有样本集的距离，确定其最接近的k个邻居，从而预测其类别。文章中提到的数据集来自UCI，包含1055个样本，每个样本具有41个数值属性和一个二分类标签（RB和NRB）。作者选择了800个样本作为训练集，剩余样本用于测试。给出的`kNNClassify`函数实现了kNN算法，接收输入属性、训练集路径等参数，并返回预测的类标签。在Python实现kNN算法的过程中，首先需要读取训练数据，对数据进行预处理。预处理通常包括数据清洗、归一化等步骤，确保不同属性在同一尺度上比较。在示例代码中，`dataNorm`函数被用来找出所有属性的最大值和最小值，以便进行归一化处理，使得所有属性的值都在0到1之间，这有助于减少距离计算时的偏差。接下来，算法的核心是计算输入样本与训练集中的每个样本的距离。常见的距离度量有欧几里得距离、曼哈顿距离或余弦相似度等。在kNN算法中，通常选择欧几里得距离。在Python中，可以利用numpy库的数学函数来高效地完成这些计算。找到距离最近的k个邻居后，算法通过统计这k个样本的类别出现频率来决定输入样本的类别。频率最高的类别即为预测结果。在`kNNClassify`函数中，`refSamples`变量存储了选取的参考样本，通过投票机制确定最终的类标签。为了优化kNN算法，可以考虑以下几个方面： 1. **选择合适的k值**：k值的大小会影响分类结果的稳定性。较小的k值可能导致过拟合，较大的k值则可能引入噪声。通常，k值会选择一个介于1和样本总数之间的小数，如sqrt(n)，n为样本总数。 2. **距离权重**：可以对距离进行加权，离输入样本更近的邻居权重更大，这样可以降低离得较远样本的影响。 3. **剪枝策略**：对于大规模数据集，可以在计算距离之前先进行粗略筛选，避免不必要的计算。 4. **缓存计算**：对于静态数据集，可以预先计算并存储距离矩阵，以提高预测速度。 5. **降维处理**：对于高维数据，可以考虑使用主成分分析(PCA)或其他降维技术减少特征空间的维度，降低计算复杂度并可能改善性能。 6. **异常值检测**：识别和处理异常值，它们可能对距离计算产生很大影响。 kNN算法虽然简单直观，但在实际应用中需要结合数据特点进行适当的优化，以达到良好的分类效果。Python提供了丰富的库支持，使得实现和调优变得更加便捷。

资源详情

资源推荐

使用使用python实现实现kNN分类算法分类算法

k-近邻算法是基本的机器学习算法，算法的原理非常简单：

输入样本数据后，计算输入样本和参考样本之间的距离，找出离输入样本距离最近的k个样本，找出这k个样本中出现频率最高

的类标签作为输入样本的类标签，很直观也很简单，就是和参考样本集中的样本做对比。下面讲一讲用python实现kNN算法的

方法，这里主要用了python中常用的numpy模块，采用的数据集是来自UCI的一个数据集，总共包含1055个样本，每个样本有

41个real的属性和一个类标签，包含两类（RB和NRB）。我选取800条样本作为参考样本，剩下的作为测试样本。

下面是分类器的python代码：

'''

kNNClassify(inputAttr, trainSetPath = '', lenOfInstance = 42, startAttr = 0, stopAttr = 40, posOfClass = 41, numOfRefSamples = 5)函数

参数：

inputAttr：输入的属性向量

trainSetPath：字符串，保存训练样本的路径

lenOfInstance：样本向量的维数

startAttr：属性向量在整个样本向量中的起始下标

stopAttr：属性向量在整个样本向量中的终止下标

posOfClass：类标签的在整个样本向量中的下标

numOfClSamples:选出来进行投票的样本个数

返回值：

类标签

'''

def kNNClassify(inputAttr, trainSetPath = '', lenOfInstance = 42, startAttr = 0, stopAttr = 40, posOfClass = 41,

numOfRefSamples = 5):

fr = open(trainSetPath)

strOfLine = fr.readline()

arrayOfLine = numpy.array([0.] * lenOfInstance)

refSamples = numpy.array([[-1., 0.]] * numOfRefSamples)

#找出属性中的最大值和最小值，用于归一化

maxAttr, minAttr = kNNFunction.dataNorm(trainSetPath = trainSetPath, lenOfInstance = lenOfInstance)

maxAttr = maxAttr[(numpy.array(range(stopAttr - startAttr + 1))

+ numpy.array([startAttr] * (stopAttr - startAttr + 1)))] minAttr = minAttr[(numpy.array(range(stopAttr - startAttr + 1))

+ numpy.array([startAttr] * (stopAttr - startAttr + 1)))] attrRanges = maxAttr - minAttr

inputAttr = inputAttr[(numpy.array(range(stopAttr - startAttr + 1))

+ numpy.array([startAttr] * (stopAttr - startAttr + 1)))] inputAttr = (inputAttr - minAttr) / attrRanges #归一化

#将字符串转换为向量并进行计算找出离输入样本距离最近的numOfRefSamples个参考样本

while strOfLine != '' :

strOfLine = strOfLine.strip()

strOfLine = strOfLine.split(';')

abandonOrNot = False

for i in range(lenOfInstance) :

if strOfLine[i] == 'RB' :

arrayOfLine[i] = 1.0

elif strOfLine[i] == 'NRB' :

arrayOfLine[i] = 0.0

elif strOfLine[i] != '?' : #没有发现缺失值

arrayOfLine[i] = float(strOfLine[i])

abandonOrNot = False

else : #发现缺失值

abandonOrNot = True

break

if abandonOrNot == True :

strOfLine = fr.readline()

continue

else :

attr = arrayOfLine[(numpy.array(range(stopAttr - startAttr + 1))

+ numpy.array([startAttr] * (stopAttr - startAttr + 1)))] attr = (attr - minAttr) / attrRanges #归一化

classLabel = arrayOfLine[posOfClass] distance = (attr - inputAttr) ** 2

distance = distance.sum(axis = 0)

distance = distance ** 0.5

disAndLabel = numpy.array([distance, classLabel])

refSamples = kNNFunction.insertItem(refSamples, numOfRefSamples, disAndLabel)

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38516956

粉丝: 6
资源: 973

会员权益专享

Python实现kNN算法详细解析

基于python实现KNN分类算法

KNN实现水果分类的数据集

UCI机器学习数据集

python分类算法_用Python实现KNN分类算法

使用python实现knn算法_使用python实现KNN算法

python实现knn分类_KNN分类算法的python实现

python运用sklearn实现knn分类算法

Python实现knn算法

knn聚类算法python实例

python实现knn算法文档附录

Python实现KNN算法检验分类

python实现knn算法案例_Python实现的knn算法示例

python实现knn算法鸢尾花代码

python 实现KNN算法

用python实现KNN算法

python实现knn算法案例

python实现knn算法

用python实现KNN

用iris在python实现KNN算法

如何用python实现KNN算法

会员权益专享

最新资源