最近邻居/k-近邻算法

最近邻居（nearest neighbor）算法是一种简单而常用的非参数化分类和回归方法，基本思想是将新样本的特征与已有样本中距离最近的K个样本进行比较，将新样本归为距离最近的K个样本中出现最多的类别或者计算它们的平均值作为预测结果。在KNN算法中，K值的选择会对结果产生影响，通常通过交叉验证等方法选取合适的K值。此外，高维空间下KNN算法的性能会受到“维度灾难”问题的影响，需要在实际应用中注意。

K-近邻算法和朴素贝叶斯的区别

K-近邻算法和朴素贝叶斯是两种不同的机器学习算法，它们的区别如下： 1. 算法类型：K-近邻算法是一种基于实例的算法，而朴素贝叶斯是一种基于概率的算法。 2. 数据分类方式：K-近邻算法是一种非参数化方法，它通过计算样本之间的距离来确定最近邻居，然后根据邻居的分类来决定样本的分类。而朴素贝叶斯算法是一种参数化方法，它通过计算样本在各个分类中出现的概率来确定样本的分类。 3. 数据假设：K-近邻算法对数据的分布不做任何假设，它对于任意数据都适用。而朴素贝叶斯算法假设所有特征之间是独立的，并且特征的分布符合高斯分布或者多项式分布。 4. 计算效率：K-近邻算法需要计算每个测试样本和每个训练样本之间的距离，计算量较大，随着数据量增加，算法效率会下降。而朴素贝叶斯算法可以通过预先学习概率分布进行快速计算，计算量较小，效率较高。 5. 鲁棒性：K-近邻算法对于噪声和异常值比较敏感，而朴素贝叶斯算法对于噪声和异常值有较好的鲁棒性。综上所述，K-近邻算法和朴素贝叶斯算法有着各自的优缺点，在不同的数据场景下，选择合适的算法可以获得更好的分类效果。

首先导入iris.csv鸢尾花数据集文件，分别取三个类中每个类的40个样本作为训练集，10个样本作为测试集；然后实现k-近邻算法并给出每个测试样本的分类，求出分类准确率，最后设置不同的k值，再次计算准确率，分析k值大小对准确率的影响，写出完整的k-近邻算法的python代码

好的，以下是完整的k-近邻算法的Python代码实现，包括数据集的读取、数据集划分、k-近邻算法实现、分类准确率的计算、以及不同k值下的准确率分析： ```python import csv import random import math # 读取csv文件并将每行数据转换为浮点数 def loadDataset(filename, split, trainingSet=[], testSet=[]): with open(filename, 'r') as csvfile: lines = csv.reader(csvfile) dataset = list(lines) for x in range(len(dataset)-1): for y in range(4): dataset[x][y] = float(dataset[x][y]) if dataset[x][-1] == 'Iris-setosa': if random.random() < split: trainingSet.append(dataset[x]) else: testSet.append(dataset[x]) elif dataset[x][-1] == 'Iris-versicolor': if random.random() < split: trainingSet.append(dataset[x]) else: testSet.append(dataset[x]) elif dataset[x][-1] == 'Iris-virginica': if random.random() < split: trainingSet.append(dataset[x]) else: testSet.append(dataset[x]) # 计算两个样本之间的欧氏距离 def euclideanDistance(instance1, instance2, length): distance = 0 for x in range(length): distance += pow((instance1[x] - instance2[x]), 2) return math.sqrt(distance) # 找到k个最近的邻居 def getNeighbors(trainingSet, testInstance, k): distances = [] length = len(testInstance)-1 for x in range(len(trainingSet)): dist = euclideanDistance(testInstance, trainingSet[x], length) distances.append((trainingSet[x], dist)) distances.sort(key=lambda x: x[1]) neighbors = [] for x in range(k): neighbors.append(distances[x][0]) return neighbors # 对k个邻居进行分类，返回出现次数最多的类别 def getResponse(neighbors): classVotes = {} for x in range(len(neighbors)): response = neighbors[x][-1] if response in classVotes: classVotes[response] += 1 else: classVotes[response] = 1 sortedVotes = sorted(classVotes.items(), key=lambda x: x[1], reverse=True) return sortedVotes[0][0] # 计算算法的准确率 def getAccuracy(testSet, predictions): correct = 0 for x in range(len(testSet)): if testSet[x][-1] == predictions[x]: correct += 1 return (correct/float(len(testSet))) * 100.0 # 主函数，进行测试 def main(): # 加载数据集 trainingSet = [] testSet = [] split = 0.67 loadDataset('iris.csv', split, trainingSet, testSet) print('训练集: ' + repr(len(trainingSet))) print('测试集: ' + repr(len(testSet))) # 生成预测 predictions = [] k = 3 # 设置k值 for x in range(len(testSet)): neighbors = getNeighbors(trainingSet, testSet[x], k) result = getResponse(neighbors) predictions.append(result) print('> 预测类别为: ' + repr(result) + ', 实际类别为: ' + repr(testSet[x][-1])) # 计算准确率 accuracy = getAccuracy(testSet, predictions) print('k=' + str(k) + ', 准确率: ' + repr(accuracy) + '%') # 不同k值下的准确率分析 for k in range(1, 10): predictions = [] for x in range(len(testSet)): neighbors = getNeighbors(trainingSet, testSet[x], k) result = getResponse(neighbors) predictions.append(result) accuracy = getAccuracy(testSet, predictions) print('k=' + str(k) + ', 准确率: ' + repr(accuracy) + '%') if __name__ == '__main__': main() ``` 在这个代码中，我们首先使用loadDataset()函数从CSV文件中读取数据集，并将其划分为训练集和测试集。然后，我们使用euclideanDistance()函数计算两个样本之间的欧氏距离，并使用getNeighbors()函数找到k个最近的邻居。接下来，我们使用getResponse()函数对k个邻居进行分类，并返回出现次数最多的类别。最后，我们使用getAccuracy()函数计算算法的准确率，并将其输出到控制台中。对于不同的k值，我们可以使用类似于以下的代码进行测试： ```python for k in range(1, 10): predictions = [] for x in range(len(testSet)): neighbors = getNeighbors(trainingSet, testSet[x], k) result = getResponse(neighbors) predictions.append(result) accuracy = getAccuracy(testSet, predictions) print('k=' + str(k) + ', 准确率: ' + repr(accuracy) + '%') ``` 这将输出k值从1到9的准确率。从输出中可以看出，k值对准确率有很大的影响。当k=1时，准确率很高，但是可能会受到噪声的影响。当k值增加时，准确率会逐渐下降，但是模型对于噪声和异常值的鲁棒性会增强。因此，我们需要仔细选择k值，以平衡准确率和模型的鲁棒性。

最近邻居/k-近邻算法

K-近邻算法和朴素贝叶斯的区别

相关推荐

k-近邻算法_K-近邻算法_K._

K-近邻算法的python实现代码分享

机器学习实战-k-近邻算法改进约会网站的配对效果

"自适应K-近邻算法提高WiFi指纹定位精度的研究

WiFi指纹定位的自适应K-近邻算法提高定位精度

K近邻算法与最近邻搜索技术详解

【进阶】Scikit-Learn：K近邻算法（KNN）

使用K近邻算法进行特征匹配

简述3个分类算法的原理及其应用：决策树、逻辑回归、K-近邻

matlab如何使用kN-近邻算法对一个样本参照集估计概率密度

量子k近邻算法的种类

k近邻算法python鸢尾花

PythonK近邻算法

K近邻算法(KNN)

使用k近邻算法实现matlab鸢尾花

k近邻算法python代码

最新推荐

机器学习实战 - KNN（K近邻）算法PDF知识点详解 + 代码实现

电力电子系统建模与控制入门

管理建模和仿真的文件

图像写入的陷阱：imwrite函数的潜在风险和规避策略，规避图像写入风险，保障数据安全

protobuf-5.27.2 交叉编译

SQL数据库基础入门：发展历程与关键概念

"互动学习：行动中的多样性与论文攻读经历"

图像写入的最佳实践：imwrite函数与其他图像写入工具的比较，打造高效图像写入流程

idea preferences

DC/DC变换器动态建模与控制方法解析