分别采用网格搜索和随机搜索方法对KNN模型中的k值进行优化,具体解决鸢尾花分类问题,k取1到20之内的所有奇数。最后输出最优的模型、k值和多分类的各项性能指标、PR 曲线和 ROC 曲线
时间: 2024-03-24 18:38:03 浏览: 55
简单粗暴理解与实现机器学习之K-近邻算法(十):交叉验证,网格搜索(模型选择与调优)API、鸢尾花案例增加K值调优
5星 · 资源好评率100%
好的,我会根据您的要求来回答这个问题。
首先,我们需要导入所需的库和数据集:
```python
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
from sklearn.metrics import classification_report
from sklearn.metrics import precision_recall_curve, roc_curve
import matplotlib.pyplot as plt
# 加载鸢尾花数据集并进行数据集划分
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=42)
```
接下来,我们可以使用网格搜索和随机搜索来优化KNN模型中的k值,具体代码如下:
```python
# 定义需要搜索的参数空间
param_grid = {'n_neighbors': range(1, 20, 2)}
# 网格搜索
grid_search = GridSearchCV(KNeighborsClassifier(), param_grid, cv=5)
grid_search.fit(X_train, y_train)
print("网格搜索最优参数:", grid_search.best_params_)
# 随机搜索
random_search = RandomizedSearchCV(KNeighborsClassifier(), param_grid, cv=5, n_iter=10)
random_search.fit(X_train, y_train)
print("随机搜索最优参数:", random_search.best_params_)
```
在上述代码中,我们首先定义了一个参数空间,即需要搜索的k值范围。然后我们分别使用GridSearchCV和RandomizedSearchCV来进行搜索,其中GridSearchCV会枚举所有可能的参数组合,而RandomizedSearchCV则会从给定的参数空间中随机采样一定数量的参数组合进行搜索。最后,我们输出了两种搜索方法得到的最优参数。
接下来,我们可以使用最优参数来训练KNN模型,并在测试集上进行预测和性能评估。
```python
# 使用网格搜索得到的最优参数训练模型
best_k_grid = grid_search.best_params_['n_neighbors']
knn_grid = KNeighborsClassifier(n_neighbors=best_k_grid)
knn_grid.fit(X_train, y_train)
# 使用随机搜索得到的最优参数训练模型
best_k_random = random_search.best_params_['n_neighbors']
knn_random = KNeighborsClassifier(n_neighbors=best_k_random)
knn_random.fit(X_train, y_train)
# 在测试集上进行预测和性能评估
y_pred_grid = knn_grid.predict(X_test)
y_pred_random = knn_random.predict(X_test)
print("网格搜索KNN模型性能报告:")
print(classification_report(y_test, y_pred_grid))
print("随机搜索KNN模型性能报告:")
print(classification_report(y_test, y_pred_random))
```
在上述代码中,我们使用了两种搜索方法得到的最优参数来分别训练了两个KNN模型,并在测试集上进行了预测和性能评估。我们使用了classification_report函数来输出多分类的各项性能指标。
最后,我们可以绘制PR曲线和ROC曲线来评估模型性能。
```python
# 绘制PR曲线
y_score_grid = knn_grid.predict_proba(X_test)
y_score_random = knn_random.predict_proba(X_test)
precision_grid, recall_grid, _ = precision_recall_curve(y_test, y_score_grid[:, 1])
precision_random, recall_random, _ = precision_recall_curve(y_test, y_score_random[:, 1])
plt.figure()
plt.step(recall_grid, precision_grid, color='b', alpha=0.2, where='post')
plt.fill_between(recall_grid, precision_grid, step='post', alpha=0.2, color='b')
plt.step(recall_random, precision_random, color='g', alpha=0.2, where='post')
plt.fill_between(recall_random, precision_random, step='post', alpha=0.2, color='g')
plt.xlabel('Recall')
plt.ylabel('Precision')
plt.ylim([0.0, 1.05])
plt.xlim([0.0, 1.0])
plt.title('PR curve')
plt.legend(['GridSearchCV', 'RandomizedSearchCV'])
plt.show()
# 绘制ROC曲线
fpr_grid, tpr_grid, _ = roc_curve(y_test, y_score_grid[:, 1])
fpr_random, tpr_random, _ = roc_curve(y_test, y_score_random[:, 1])
plt.figure()
plt.plot([0, 1], [0, 1], 'k--')
plt.plot(fpr_grid, tpr_grid, color='b', alpha=0.2)
plt.fill_between(fpr_grid, tpr_grid, alpha=0.2, color='b')
plt.plot(fpr_random, tpr_random, color='g', alpha=0.2)
plt.fill_between(fpr_random, tpr_random, alpha=0.2, color='g')
plt.xlabel('False positive rate')
plt.ylabel('True positive rate')
plt.title('ROC curve')
plt.legend(['Random guessing', 'GridSearchCV', 'RandomizedSearchCV'])
plt.show()
```
在上述代码中,我们使用了precision_recall_curve和roc_curve函数来分别计算PR曲线和ROC曲线的各项指标,并使用matplotlib库来绘制曲线图。最后,我们使用legend函数来添加图例,以便比较两种搜索方法得到的模型的性能。
这样,我们就完成了对KNN模型中的k值进行优化,并绘制了PR曲线和ROC曲线的全部操作。
阅读全文