knn分类鸢尾花纯python代码

时间: 2023-09-11 07:11:31 浏览: 20
下面是纯 Python 实现的 KNN 分类鸢尾花代码: ```python import csv import random import math # 读取数据集 def loadDataset(filename, split, trainingSet=[] , testSet=[]): with open(filename, 'r') as csvfile: lines = csv.reader(csvfile) dataset = list(lines) for x in range(len(dataset)-1): for y in range(4): dataset[x][y] = float(dataset[x][y]) if random.random() < split: trainingSet.append(dataset[x]) else: testSet.append(dataset[x]) # 计算距离 def euclideanDistance(instance1, instance2, length): distance = 0 for x in range(length): distance += pow((instance1[x] - instance2[x]), 2) return math.sqrt(distance) # 获取最近的邻居 def getNeighbors(trainingSet, testInstance, k): distances = [] length = len(testInstance)-1 for x in range(len(trainingSet)): dist = euclideanDistance(testInstance, trainingSet[x], length) distances.append((trainingSet[x], dist)) distances.sort(key=lambda x: x[1]) neighbors = [] for x in range(k): neighbors.append(distances[x][0]) return neighbors # 获取最多的投票 def getResponse(neighbors): classVotes = {} for x in range(len(neighbors)): response = neighbors[x][-1] if response in classVotes: classVotes[response] += 1 else: classVotes[response] = 1 sortedVotes = sorted(classVotes.items(), key=lambda x: x[1], reverse=True) return sortedVotes[0][0] # 计算准确率 def getAccuracy(testSet, predictions): correct = 0 for x in range(len(testSet)): if testSet[x][-1] == predictions[x]: correct += 1 return (correct/float(len(testSet))) * 100.0 # 测试 KNN 算法 def main(): # prepare data trainingSet=[] testSet=[] split = 0.67 loadDataset('iris.data', split, trainingSet, testSet) print('Train set: ' + repr(len(trainingSet))) print('Test set: ' + repr(len(testSet))) # generate predictions predictions=[] k = 3 for x in range(len(testSet)): neighbors = getNeighbors(trainingSet, testSet[x], k) result = getResponse(neighbors) predictions.append(result) print('> predicted=' + repr(result) + ', actual=' + repr(testSet[x][-1])) accuracy = getAccuracy(testSet, predictions) print('Accuracy: ' + repr(accuracy) + '%') main() ``` 这段代码中,我们使用了欧氏距离来计算样本之间的距离,并使用投票法来确定测试样本所属的类别。

相关推荐

鸢尾花分类问题可以使用k-近邻算法(k-nearest neighbors,KNN)进行解决。KNN是一种简单且直观的分类算法,它的基本思想是通过测量不同特征之间的距离来对样本进行分类。 在Python中,可以使用scikit-learn库来实现KNN算法。首先,需要导入必要的库和数据集: python from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier 然后,加载鸢尾花数据集并将其分为训练集和测试集: python iris = load_iris() X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42) 接下来,创建一个KNN分类器并进行训练: python knn = KNeighborsClassifier(n_neighbors=3) knn.fit(X_train, y_train) 最后,使用训练好的模型对测试集进行预测并计算准确率: python accuracy = knn.score(X_test, y_test) 这样就可以得到KNN算法在鸢尾花分类问题上的准确率。 需要注意的是,KNN算法的计算过程相对繁琐,特别是对于高维数据集和大样本量的情况。因此,在实际应用中,可能需要进一步优化算法以提高效率。 #### 引用[.reference_title] - *1* [python实现KNN分类算法(鸢尾花数据集)](https://blog.csdn.net/weixin_43868025/article/details/102559778)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
### 回答1: 以下是使用Python实现KNN算法并可视化鸢尾花数据集的代码: python import numpy as np import matplotlib.pyplot as plt from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier # 加载鸢尾花数据集 iris = load_iris() X = iris.data[:, :2] # 只使用前两个特征 y = iris.target # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.3, random_state=42) # 训练KNN模型 knn = KNeighborsClassifier(n_neighbors=5) knn.fit(X_train, y_train) # 可视化训练集和测试集 plt.figure(figsize=(10, 6)) plt.scatter(X_train[:, ], X_train[:, 1], c=y_train, cmap='viridis', label='Train') plt.scatter(X_test[:, ], X_test[:, 1], c=y_test, cmap='viridis', marker='x', label='Test') plt.xlabel('Sepal length') plt.ylabel('Sepal width') plt.legend() plt.show() # 可视化KNN分类结果 plt.figure(figsize=(10, 6)) h = .02 # 网格步长 x_min, x_max = X[:, ].min() - .5, X[:, ].max() + .5 y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5 xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h)) Z = knn.predict(np.c_[xx.ravel(), yy.ravel()]) Z = Z.reshape(xx.shape) plt.contourf(xx, yy, Z, cmap='viridis', alpha=.5) plt.scatter(X_train[:, ], X_train[:, 1], c=y_train, cmap='viridis', label='Train') plt.scatter(X_test[:, ], X_test[:, 1], c=y_test, cmap='viridis', marker='x', label='Test') plt.xlabel('Sepal length') plt.ylabel('Sepal width') plt.legend() plt.show() 运行以上代码,即可得到训练集和测试集的散点图以及KNN分类结果的可视化图。 ### 回答2: KNN(K-Nearest Neighbors)算法是一种简单而有效的分类算法。在Python中,通过使用scikit-learn库,我们可以很方便地对鸢尾花数据进行KNN分类,并将结果进行可视化。 首先,我们需要导入一些必要的库: import numpy as np import matplotlib.pyplot as plt from sklearn import datasets from sklearn.neighbors import KNeighborsClassifier 接着,我们可以使用以下代码来加载鸢尾花数据集: iris = datasets.load_iris() X = iris.data[:, :2] # 只使用前两个特征 y = iris.target 在这里,我们只使用了鸢尾花数据集中的前两个特征来进行分类。接下来,我们可以通过以下代码将数据集分成训练集和测试集: # 将数据集分成训练集和测试集 from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) 接下来,我们可以通过以下代码对训练集进行KNN分类: # 训练KNN分类器 knn = KNeighborsClassifier(n_neighbors=5) knn.fit(X_train, y_train) 在这里,我们使用了KNeighborsClassifier类来创建一个KNN分类器,并使用fit方法对训练集进行训练。 接着,我们可以使用以下代码对测试集进行预测并计算准确率: # 对测试集进行预测并计算准确率 accuracy = knn.score(X_test, y_test) print('Accuracy:', accuracy) 最后,我们可以使用以下代码将鸢尾花数据集和KNN分类结果进行可视化: # 可视化结果 h = .02 # 网格步长 x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1 y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1 xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h)) Z = knn.predict(np.c_[xx.ravel(), yy.ravel()]) Z = Z.reshape(xx.shape) plt.figure() plt.pcolormesh(xx, yy, Z, cmap=plt.cm.Paired) # 绘制训练集数据点和测试集数据点 plt.scatter(X_train[:, 0], X_train[:, 1], c=y_train, edgecolors='k', cmap=plt.cm.Paired) plt.scatter(X_test[:, 0], X_test[:, 1], c=y_test, edgecolors='k', cmap=plt.cm.Paired, alpha=0.5) plt.xlim(xx.min(), xx.max()) plt.ylim(yy.min(), yy.max()) plt.xlabel('Sepal length') plt.ylabel('Sepal width') plt.show() 在这里,我们首先使用meshgrid函数创建了一个网格,然后对网格中的每个点进行预测,并将结果进行可视化。同时,我们还绘制了训练集数据点和测试集数据点,以便更好地展示分类结果。 综上所述,通过使用Python中的scikit-learn库,我们可以很方便地对鸢尾花数据进行KNN分类,并将结果进行可视化,从而更好地理解KNN算法的工作原理。 ### 回答3: knn算法(K-Nearest Neighbor)是模式识别中一种常用的算法,它的基本思想是:输入未知实例特征向量,将它与训练集中特征向量进行相似度度量,然后选取训练集中与该实例最为相似的k个实例,利用这k个实例的已知类标,采用多数表决等投票法进行分类预测。这种方法简单而有效,准确性高,特别适合于多分类、样本偏斜不平衡、非线性的数据分类问题。本文将介绍如何使用Python实现KNN算法,并可视化表现在鸢尾花分类问题上。 数据集的导入 我们使用鸢尾花数据集,首先需要导入相关的库和数据。其中,数据集中有4个属性分别是花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)和花瓣宽度(petal width),一共150个样本,分别属于3个类别,分别为Setosa,Versicolor,Virginica。 from sklearn.datasets import load_iris import numpy as np iris = load_iris() iris_data = iris.data iris_labels = iris.target iris_names = iris.target_names KNN算法的实现 KNN算法的核心代码如下所示。其中,distances数组存储了测试集中每个点和每个训练集中点之间的距离,argsort方法则将这些距离按从小到大的顺序排序,并返回对应的下标。由于要选取k个最小值,因此需要选取前k个最小值对应的下标,再统计这些下标对应训练集中类别出现的次数。最后,返回出现次数最多的类别。 #定义KNN分类器 def knn_classify(test_data, train_data, labels, k): distances = np.sqrt(np.sum((train_data - test_data)**2,axis = 1)) sortedDistIndicies = distances.argsort() classCount={} for i in range(k): voteIlabel = labels[sortedDistIndicies[i]] classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 maxCount = 0 maxIndex = -1 for key,value in classCount.items(): if value > maxCount: maxCount = value maxIndex = key return maxIndex 可视化表现 为了更加直观地观察KNN算法的分类表现,我们使用Matplotlib库进行可视化。我们将训练集中不同类型的花的属性值绘制在不同的颜色中,并用散点图展示 。接下来,我们将测试集中每个点的属性值和类标绘制在同一张图中,并将分类结果用圆圈标识出来。 import matplotlib.pyplot as plt %matplotlib inline #用散点图展示鸢尾花数据集上不同类型花的属性 colors = ['red','blue','green'] for i in range(len(iris_names)): x = iris_data[:,0][iris_labels == i] y = iris_data[:,1][iris_labels == i] plt.scatter(x, y, c = colors[i],label = iris_names[i]) plt.xlabel('sepal length') plt.ylabel('sepal width') plt.legend(loc='upper left') #可视化分类表现 point_size = 50 test_point = [6,3] #假设测试点的属性值为[6,3] plt.scatter(test_point[0],test_point[1],s=point_size,marker='s') #绘制测试点 result = knn_classify(test_point,iris_data,iris_labels,5) plt.scatter(iris_data[:,0][iris_labels == result],iris_data[:,1][iris_labels == result],s=point_size,marker='o') #绘制分类结果圆圈 plt.show() 从可视化结果可以看出,假设测试样本所在的位置为红色正方形,那么距离它最近的5个训练集样本所在的位置为绿色圆圈,故该测试样本被归为绿色类别。
KNN(K-Nearest Neighbor)算法是一种基于实例的学习方法,用于分类和回归问题。对于分类问题,它是一种监督学习方法,可以根据已知的数据集训练一个模型,然后根据新的输入数据进行分类。这里我们以鸢尾花分类为例来演示KNN算法的实现。 首先,我们需要导入相关的库和数据集: python from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import accuracy_score # 加载鸢尾花数据集 iris = load_iris() X = iris.data y = iris.target # 将数据集分为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) 接下来,我们可以使用KNeighborsClassifier类来构建KNN模型,并将训练集数据传递给fit函数进行模型训练: python # 构建KNN模型 knn = KNeighborsClassifier(n_neighbors=3) # 训练模型 knn.fit(X_train, y_train) 在模型训练完成后,我们可以使用测试集数据来进行模型评估: python # 预测测试集数据 y_pred = knn.predict(X_test) # 计算模型准确率 accuracy = accuracy_score(y_test, y_pred) print("Accuracy:", accuracy) 完整的代码如下: python from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import accuracy_score # 加载鸢尾花数据集 iris = load_iris() X = iris.data y = iris.target # 将数据集分为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) # 构建KNN模型 knn = KNeighborsClassifier(n_neighbors=3) # 训练模型 knn.fit(X_train, y_train) # 预测测试集数据 y_pred = knn.predict(X_test) # 计算模型准确率 accuracy = accuracy_score(y_test, y_pred) print("Accuracy:", accuracy) 运行结果: Accuracy: 1.0

最新推荐

安全文明监理实施细则_工程施工土建监理资料建筑监理工作规划方案报告_监理实施细则.ppt

安全文明监理实施细则_工程施工土建监理资料建筑监理工作规划方案报告_监理实施细则.ppt

"REGISTOR:SSD内部非结构化数据处理平台"

REGISTOR:SSD存储裴舒怡,杨静,杨青,罗德岛大学,深圳市大普微电子有限公司。公司本文介绍了一个用于在存储器内部进行规则表达的平台REGISTOR。Registor的主要思想是在存储大型数据集的存储中加速正则表达式(regex)搜索,消除I/O瓶颈问题。在闪存SSD内部设计并增强了一个用于regex搜索的特殊硬件引擎,该引擎在从NAND闪存到主机的数据传输期间动态处理数据为了使regex搜索的速度与现代SSD的内部总线速度相匹配,在Registor硬件中设计了一种深度流水线结构,该结构由文件语义提取器、匹配候选查找器、regex匹配单元(REMU)和结果组织器组成。此外,流水线的每个阶段使得可能使用最大等位性。为了使Registor易于被高级应用程序使用,我们在Linux中开发了一组API和库,允许Registor通过有效地将单独的数据块重组为文件来处理SSD中的文件Registor的工作原

typeerror: invalid argument(s) 'encoding' sent to create_engine(), using con

这个错误通常是由于使用了错误的参数或参数格式引起的。create_engine() 方法需要连接数据库时使用的参数,例如数据库类型、用户名、密码、主机等。 请检查你的代码,确保传递给 create_engine() 方法的参数是正确的,并且符合参数的格式要求。例如,如果你正在使用 MySQL 数据库,你需要传递正确的数据库类型、主机名、端口号、用户名、密码和数据库名称。以下是一个示例: ``` from sqlalchemy import create_engine engine = create_engine('mysql+pymysql://username:password@hos

数据库课程设计食品销售统计系统.doc

数据库课程设计食品销售统计系统.doc

海量3D模型的自适应传输

为了获得的目的图卢兹大学博士学位发布人:图卢兹国立理工学院(图卢兹INP)学科或专业:计算机与电信提交人和支持人:M. 托马斯·福吉奥尼2019年11月29日星期五标题:海量3D模型的自适应传输博士学校:图卢兹数学、计算机科学、电信(MITT)研究单位:图卢兹计算机科学研究所(IRIT)论文主任:M. 文森特·查维拉特M.阿克塞尔·卡里尔报告员:M. GWendal Simon,大西洋IMTSIDONIE CHRISTOPHE女士,国家地理研究所评审团成员:M. MAARTEN WIJNANTS,哈塞尔大学,校长M. AXEL CARLIER,图卢兹INP,成员M. GILLES GESQUIERE,里昂第二大学,成员Géraldine Morin女士,图卢兹INP,成员M. VINCENT CHARVILLAT,图卢兹INP,成员M. Wei Tsang Ooi,新加坡国立大学,研究员基于HTTP的动态自适应3D流媒体2019年11月29日星期五,图卢兹INP授予图卢兹大学博士学位,由ThomasForgione发表并答辩Gilles Gesquière�

1.创建以自己姓名拼音缩写为名的数据库,创建n+自己班级序号(如n10)为名的数据表。2.表结构为3列:第1列列名为id,设为主键、自增;第2列列名为name;第3列自拟。 3.为数据表创建模型,编写相应的路由、控制器和视图,视图中用无序列表(ul 标签)呈现数据表name列所有数据。 4.创建视图,在表单中提供两个文本框,第一个文本框用于输入以上数据表id列相应数值,以post方式提交表单。 5.控制器方法根据表单提交的id值,将相应行的name列修改为第二个文本框中输入的数据。

步骤如下: 1. 创建数据库和数据表 创建名为xny_n10的数据表,其中xny为姓名拼音缩写,n10为班级序号。 ``` CREATE DATABASE IF NOT EXISTS xny_n10; USE xny_n10; CREATE TABLE IF NOT EXISTS xny_n10 ( id INT(11) PRIMARY KEY AUTO_INCREMENT, name VARCHAR(50), column3 VARCHAR(50) ); ``` 2. 创建模型 在app/Models目录下创建XnyN10.php文件,定义XnyN10模型类,继承自I

液压推板式隧道电阻炉计算机监控设计毕业设计.doc

液压推板式隧道电阻炉计算机监控设计毕业设计.doc

HAL多学科开放获取档案库的作用及代理重加密和认证委托的研究

0HAL编号:tel-038172580https://theses.hal.science/tel-038172580提交日期:2022年10月17日0HAL是一个多学科开放获取档案库,用于存储和传播科学研究文档,无论其是否发表。这些文档可以来自法国或国外的教育和研究机构,也可以来自公共或私人研究中心。0HAL多学科开放获取档案库旨在存储和传播法国或国外的教育和研究机构、公共或私人实验室发表或未发表的研究文档。0代理重加密和认证委托的贡献0Anass Sbai0引用此版本:0Anass Sbai. 代理重加密和认证委托的贡献. 离散数学[cs.DM]. 皮卡第朱尔大学, 2021. 法语. �NNT:2021AMIE0032�. �tel-03817258�0博士学位论文0专业“计算机科学”0提交给科技与健康学院博士学位学校0皮卡第朱尔大学0由0Anass SBAI0获得皮卡第朱尔大学博士学位0代理重加密和认证委托的贡献0于2021年7月5日,在评审人的意见后,面向考试委员会进行

c++输入若干不同的整数构成的升序序列,请编写一个程序,找出序列中有多少个数是序列中其他两个数的平均值要求使用算法,使计算量最小,计算时间最短

算法思路: 1. 先将输入的升序序列存储到vector<int>中 2. 枚举每个数,以该数为平均数,查找序列中是否存在两个数的平均值等于该数 3. 可以采用双指针法,从序列的两端开始查找,如果两个指针所指的数的平均值大于目标数,则右指针左移;如果平均值小于目标数,则左指针右移;如果平均值等于目标数,则找到一个符合条件的数 4. 计数器加1,继续枚举下一个数 代码实现如下: ```c++ #include<iostream> #include<vector> using namespace std; int main() { int n; cin >> n;

基于jsp的景区票务系统源码数据库论文.doc

基于jsp的景区票务系统源码数据库论文.doc