分别采用网格搜索和随机搜索方法对KNN模型中的k值进行优化,具体解决鸢尾花分类问题,k取1到20之内的所有奇数。最后输出最优的模型、k值和多分类的各项性能指标、PR 曲线和 ROC 曲线

时间: 2024-03-24 09:38:03 浏览: 12
好的,我会根据您的要求来回答这个问题。 首先,我们需要导入所需的库和数据集: ```python from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier from sklearn.model_selection import GridSearchCV, RandomizedSearchCV from sklearn.metrics import classification_report from sklearn.metrics import precision_recall_curve, roc_curve import matplotlib.pyplot as plt # 加载鸢尾花数据集并进行数据集划分 iris = load_iris() X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=42) ``` 接下来,我们可以使用网格搜索和随机搜索来优化KNN模型中的k值,具体代码如下: ```python # 定义需要搜索的参数空间 param_grid = {'n_neighbors': range(1, 20, 2)} # 网格搜索 grid_search = GridSearchCV(KNeighborsClassifier(), param_grid, cv=5) grid_search.fit(X_train, y_train) print("网格搜索最优参数:", grid_search.best_params_) # 随机搜索 random_search = RandomizedSearchCV(KNeighborsClassifier(), param_grid, cv=5, n_iter=10) random_search.fit(X_train, y_train) print("随机搜索最优参数:", random_search.best_params_) ``` 在上述代码中,我们首先定义了一个参数空间,即需要搜索的k值范围。然后我们分别使用GridSearchCV和RandomizedSearchCV来进行搜索,其中GridSearchCV会枚举所有可能的参数组合,而RandomizedSearchCV则会从给定的参数空间中随机采样一定数量的参数组合进行搜索。最后,我们输出了两种搜索方法得到的最优参数。 接下来,我们可以使用最优参数来训练KNN模型,并在测试集上进行预测和性能评估。 ```python # 使用网格搜索得到的最优参数训练模型 best_k_grid = grid_search.best_params_['n_neighbors'] knn_grid = KNeighborsClassifier(n_neighbors=best_k_grid) knn_grid.fit(X_train, y_train) # 使用随机搜索得到的最优参数训练模型 best_k_random = random_search.best_params_['n_neighbors'] knn_random = KNeighborsClassifier(n_neighbors=best_k_random) knn_random.fit(X_train, y_train) # 在测试集上进行预测和性能评估 y_pred_grid = knn_grid.predict(X_test) y_pred_random = knn_random.predict(X_test) print("网格搜索KNN模型性能报告:") print(classification_report(y_test, y_pred_grid)) print("随机搜索KNN模型性能报告:") print(classification_report(y_test, y_pred_random)) ``` 在上述代码中,我们使用了两种搜索方法得到的最优参数来分别训练了两个KNN模型,并在测试集上进行了预测和性能评估。我们使用了classification_report函数来输出多分类的各项性能指标。 最后,我们可以绘制PR曲线和ROC曲线来评估模型性能。 ```python # 绘制PR曲线 y_score_grid = knn_grid.predict_proba(X_test) y_score_random = knn_random.predict_proba(X_test) precision_grid, recall_grid, _ = precision_recall_curve(y_test, y_score_grid[:, 1]) precision_random, recall_random, _ = precision_recall_curve(y_test, y_score_random[:, 1]) plt.figure() plt.step(recall_grid, precision_grid, color='b', alpha=0.2, where='post') plt.fill_between(recall_grid, precision_grid, step='post', alpha=0.2, color='b') plt.step(recall_random, precision_random, color='g', alpha=0.2, where='post') plt.fill_between(recall_random, precision_random, step='post', alpha=0.2, color='g') plt.xlabel('Recall') plt.ylabel('Precision') plt.ylim([0.0, 1.05]) plt.xlim([0.0, 1.0]) plt.title('PR curve') plt.legend(['GridSearchCV', 'RandomizedSearchCV']) plt.show() # 绘制ROC曲线 fpr_grid, tpr_grid, _ = roc_curve(y_test, y_score_grid[:, 1]) fpr_random, tpr_random, _ = roc_curve(y_test, y_score_random[:, 1]) plt.figure() plt.plot([0, 1], [0, 1], 'k--') plt.plot(fpr_grid, tpr_grid, color='b', alpha=0.2) plt.fill_between(fpr_grid, tpr_grid, alpha=0.2, color='b') plt.plot(fpr_random, tpr_random, color='g', alpha=0.2) plt.fill_between(fpr_random, tpr_random, alpha=0.2, color='g') plt.xlabel('False positive rate') plt.ylabel('True positive rate') plt.title('ROC curve') plt.legend(['Random guessing', 'GridSearchCV', 'RandomizedSearchCV']) plt.show() ``` 在上述代码中,我们使用了precision_recall_curve和roc_curve函数来分别计算PR曲线和ROC曲线的各项指标,并使用matplotlib库来绘制曲线图。最后,我们使用legend函数来添加图例,以便比较两种搜索方法得到的模型的性能。 这样,我们就完成了对KNN模型中的k值进行优化,并绘制了PR曲线和ROC曲线的全部操作。

相关推荐

zip
python大作业基于pyqt5框架设计的音乐播放器项目源码+超详细注释(带GUI界面).zip 【优质项目推荐】 1.项目代码功能经验证ok,确保稳定可靠运行。欢迎下载使用!在使用过程中,如有问题或建议,请及时私信沟通,帮助解答。 2.项目主要针对各个计算机相关专业,包括计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网等领域的在校学生、专业教师或企业员工使用。 3.项目具有丰富的拓展空间,不仅可作为入门进阶,也可直接作为毕设、课程设计、大作业、项目初期立项演示等用途。 4.如果基础还行,或热爱钻研,可基于此项目进行二次开发,DIY其他不同功能。 python大作业基于pyqt5框架设计的音乐播放器项目源码+超详细注释(带GUI界面).zippython大作业基于pyqt5框架设计的音乐播放器项目源码+超详细注释(带GUI界面).zippython大作业基于pyqt5框架设计的音乐播放器项目源码+超详细注释(带GUI界面).zippython大作业基于pyqt5框架设计的音乐播放器项目源码+超详细注释(带GUI界面).zippython大作业基于pyqt5框架设计的音乐播放器项目源码+超详细注释(带GUI界面).zippython大作业基于pyqt5框架设计的音乐播放器项目源码+超详细注释(带GUI界面).zippython大作业基于pyqt5框架设计的音乐播放器项目源码+超详细注释(带GUI界面).zippython大作业基于pyqt5框架设计的音乐播放器项目源码+超详细注释(带GUI界面).zippython大作业基于pyqt5框架设计的音乐播放器项目源码+超详细注释(带GUI界面).zippython大作业基于pyqt5框架设计的音乐播放器项目源码+超详细注释(带GUI界面).zip python大作业基于pyqt5框架设计的音乐播放器项目源码+超详细注释(带GUI界面).zip
zip
基于python大数据分析与可视化的疫情信息发布平台源码(含前端、后端、数据库).zip基于python大数据分析与可视化的疫情信息发布平台源码(含前端、后端、数据库).zip基于python大数据分析与可视化的疫情信息发布平台源码(含前端、后端、数据库).zip 【优质项目推荐】 1.项目代码功能经验证ok,确保稳定可靠运行。欢迎下载使用!在使用过程中,如有问题或建议,请及时私信沟通,帮助解答。 2.项目主要针对各个计算机相关专业,包括计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网等领域的在校学生、专业教师或企业员工使用。 3.项目具有丰富的拓展空间,不仅可作为入门进阶,也可直接作为毕设、课程设计、大作业、项目初期立项演示等用途。 4.如果基础还行,或热爱钻研,可基于此项目进行二次开发,DIY其他不同功能。 基于python大数据分析与可视化的疫情信息发布平台源码(含前端、后端、数据库).zip基于python大数据分析与可视化的疫情信息发布平台源码(含前端、后端、数据库).zip基于python大数据分析与可视化的疫情信息发布平台源码(含前端、后端、数据库).zip基于python大数据分析与可视化的疫情信息发布平台源码(含前端、后端、数据库).zip基于python大数据分析与可视化的疫情信息发布平台源码(含前端、后端、数据库).zip基于python大数据分析与可视化的疫情信息发布平台源码(含前端、后端、数据库).zip基于python大数据分析与可视化的疫情信息发布平台源码(含前端、后端、数据库).zip基于python大数据分析与可视化的疫情信息发布平台源码(含前端、后端、数据库).zip基于python大数据分析与可视化的疫情信息发布平台源码(含前端、后端、数据库).zip基于python大数据分析与可视化的疫情信息发布平台源码(含前端、后端、数据库).zip基于python大数据分析与可视化的疫情信息发布平台源码(含前端、后端、数据库).zip基于python大数据分析与可视化的疫情信息发布平台源码(含前端、后端、数据库).zip基于python大数据分析与可视化的疫情信息发布平台源码(含前端、后端、数据库).zip基于python大数据分析与可视化的疫情信息发布平台源码(含前端、后端、数据库).zip 基于python大数据分析与可视化的疫情信息发布平台源码(含前端、后端、数据库).zip

最新推荐

recommend-type

grpcio-1.14.0-cp36-cp36m-macosx_10_7_intel.whl

Python库是一组预先编写的代码模块,旨在帮助开发者实现特定的编程任务,无需从零开始编写代码。这些库可以包括各种功能,如数学运算、文件操作、数据分析和网络编程等。Python社区提供了大量的第三方库,如NumPy、Pandas和Requests,极大地丰富了Python的应用领域,从数据科学到Web开发。Python库的丰富性是Python成为最受欢迎的编程语言之一的关键原因之一。这些库不仅为初学者提供了快速入门的途径,而且为经验丰富的开发者提供了强大的工具,以高效率、高质量地完成复杂任务。例如,Matplotlib和Seaborn库在数据可视化领域内非常受欢迎,它们提供了广泛的工具和技术,可以创建高度定制化的图表和图形,帮助数据科学家和分析师在数据探索和结果展示中更有效地传达信息。
recommend-type

哈尔滨工程大学825经济学2020考研专业课初试大纲.pdf

哈尔滨工程大学考研初试大纲
recommend-type

hack-10万密码.txt

hack-10万密码
recommend-type

ASP“辅导员之家”网站设计与开发(源代码+论文)【ASP】.zip

ASP“辅导员之家”网站设计与开发(源代码+论文)【ASP】
recommend-type

大作业基于python+tkinter学生成绩管理系统带登录界面完整源代码.zip

学生成绩管理系统 一个简单的学生课程系统,可以创建学生,课程,成绩,以及计算最高对分。 代码流程: (1)通过创建一个CSV文件对学生信息进行存储 (2)通过对CSV文件的访问对数据进行修改和读取 (3)通过TKINTER做出界面与代码进行对接 (4)通过Pandas和numpy对数据进行分析、归类 (5)通过Matplotlib对已处理的数据进行可视化处理并与界面对接。 需求分析: (1)创建一个登陆界面,并拥有管理员权限进行数据访问。 (2)通过创建一个ENTRY读取交互界面的数据。 (3)创建一个学生类,包含学号,姓名,性别,对信息进行存取。 (4)创建一个学生信息删除类,对学生信息的删除。 (5)创建一个学生课程成绩类,包含学生类成员和课程类数组成员,并对成绩进行修改。 (6)可以生成学生,并且为学生创建课程成绩。 (7)输出指定科目分数最高和最低的学生课程成绩信息。 (8)输出指定学生的科目分数最高和最低分。 (9)对整体单科成绩的一个可视化分析。
recommend-type

zigbee-cluster-library-specification

最新的zigbee-cluster-library-specification说明文档。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

MATLAB结构体与对象编程:构建面向对象的应用程序,提升代码可维护性和可扩展性

![MATLAB结构体与对象编程:构建面向对象的应用程序,提升代码可维护性和可扩展性](https://picx.zhimg.com/80/v2-8132d9acfebe1c248865e24dc5445720_1440w.webp?source=1def8aca) # 1. MATLAB结构体基础** MATLAB结构体是一种数据结构,用于存储和组织相关数据。它由一系列域组成,每个域都有一个名称和一个值。结构体提供了对数据的灵活访问和管理,使其成为组织和处理复杂数据集的理想选择。 MATLAB中创建结构体非常简单,使用struct函数即可。例如: ```matlab myStruct
recommend-type

详细描述一下STM32F103C8T6怎么与DHT11连接

STM32F103C8T6可以通过单总线协议与DHT11连接。连接步骤如下: 1. 将DHT11的VCC引脚连接到STM32F103C8T6的5V电源引脚; 2. 将DHT11的GND引脚连接到STM32F103C8T6的GND引脚; 3. 将DHT11的DATA引脚连接到STM32F103C8T6的GPIO引脚,可以选择任一GPIO引脚,需要在程序中配置; 4. 在程序中初始化GPIO引脚,将其设为输出模式,并输出高电平,持续至少18ms,以激活DHT11; 5. 将GPIO引脚设为输入模式,等待DHT11响应,DHT11会先输出一个80us的低电平,然后输出一个80us的高电平,
recommend-type

JSBSim Reference Manual

JSBSim参考手册,其中包含JSBSim简介,JSBSim配置文件xml的编写语法,编程手册以及一些应用实例等。其中有部分内容还没有写完,估计有生之年很难看到完整版了,但是内容还是很有参考价值的。