sklearn cross_val_score实现交叉验证详解与实例

版权申诉

90 浏览量更新于2024-09-11 收藏 132KB PDF 举报

"这篇教程介绍了如何使用Python的机器学习库scikit-learn（sklearn）中的`cross_val_score`函数进行交叉验证，并结合K近邻（K-Nearest Neighbors, KNN）算法来选择最佳参数。" 在机器学习中，交叉验证是一种评估模型性能的有效方法，它能帮助我们避免过拟合并充分利用有限的数据。sklearn库提供的`cross_val_score`函数实现了这一功能。该函数将数据集分成多个子集（或称为“折”），依次用其中一部分作为测试集，其余部分作为训练集，从而多次训练和评估模型。通过这种方式，可以得到更稳定和可靠的模型性能估计。交叉验证的核心思想是通过多次训练和测试来平均模型的表现，减少由于随机性导致的评估误差。在本例中，作者提到了10折交叉验证（k=10），意味着数据集会被划分为10个相等的部分，每次用9/10的数据训练模型，剩下的1/10作为测试集。这个过程重复10次，每次选择不同的子集作为测试集。最终，`cross_val_score`会返回这10次得分的平均值。交叉验证的优点包括： 1. **降低过拟合风险**：通过多次验证，可以更准确地估计模型在未见数据上的表现，从而减少因过拟合导致的错误估计。 2. **提高数据利用效率**：在有限的数据集上，交叉验证能更好地利用所有样本，提高模型泛化能力。在选择模型参数时，我们可以结合交叉验证进行参数调优。例如，对于KNN模型，关键参数是`n_neighbors`（即K值）。通过设置不同的K值，使用`cross_val_score`评估每个K值对应的模型性能，选择得分最高的K值作为最佳参数。以下是一个简单的代码示例： ```python # 加载数据 iris = datasets.load_iris() X = iris.data y = iris.target # 划分数据 train_X, test_X, train_y, test_y = train_test_split(X, y, test_size=0.2) # 定义模型 knn = KNeighborsClassifier() # 定义参数网格 k_values = range(1, 31) # 尝试1到30的K值 scores = [] # 交叉验证并计算得分 for k in k_values: knn.set_params(n_neighbors=k) scores.append(cross_val_score(knn, X, y, cv=10).mean()) # 使用10折交叉验证 # 绘制得分与K值的关系图 plt.plot(k_values, scores) plt.xlabel('Number of Neighbors (K)') plt.ylabel('Cross Validation Score') plt.title('KNN Model Performance with Varying K') plt.show() # 找到最高得分的K值 best_k = k_values[np.argmax(scores)] print(f'Best K value is {best_k}') ``` 这段代码展示了如何使用`cross_val_score`在KNN模型中选择最佳的`n_neighbors`。通过绘制得分与K值的图形，可以直观地看到哪个K值对应的最佳模型性能。这样的方法被称为网格搜索（Grid Search），是一种常见的参数调优策略。 `sklearn`的`cross_val_score`函数是实现交叉验证的重要工具，对于模型选择和参数调优具有重要意义。通过结合不同的模型和参数，我们可以更有效地构建和优化机器学习模型。

使用使用sklearn的的cross_val_score进行交叉验证实例进行交叉验证实例

今天小编就为大家分享一篇使用sklearn的cross_val_score进行交叉验证实例，具有很好的参考价值，希望对大家有所帮

助。一起跟随小编过来看看吧

在构建模型时，调参是极为重要的一个步骤，因为只有选择最佳的参数才能构建一个最优的模型。但是应该如何确定参数的值呢？所以这

里记录一下选择参数的方法，以便后期复习以及分享。

（除了贝叶斯优化等方法）其它简单的验证有两种方法：（除了贝叶斯优化等方法）其它简单的验证有两种方法：

1、通过经常使用某个模型的经验和高超的数学知识。

2、通过交叉验证的方法，逐个来验证。

很显然我是属于后者所以我需要在这里记录一下

sklearn 的 cross_val_score：

我使用是cross_val_score方法，在sklearn中可以使用这个方法。交叉验证的原理不好表述下面随手画了一个图：

（我都没见过这么丑的图）简单说下，比如上面，我们将数据集分为10折，做一次交叉验证，实际上它是计算了十次，将每一折都当做一

次测试集，其余九折当做训练集，这样循环十次。通过传入的模型，训练十次，最后将十次结果求平均值。将每个数据集都算一次

交叉验证优点：交叉验证优点：

1：交叉验证用于评估模型的预测性能，尤其是训练好的模型在新数据上的表现，可以在一定程度上减小过拟合。

2：还可以从有限的数据中获取尽可能多的有效信息。

我们如何利用它来选择参数呢？

我们可以给它加上循环，通过循环不断的改变参数，再利用交叉验证来评估不同参数模型的能力。最终选择能力最优的模型。

下面通过一个简单的实例来说明：（下面通过一个简单的实例来说明：（iris鸢尾花）鸢尾花）

from sklearn import datasets #自带数据集

from sklearn.model_selection import train_test_split,cross_val_score #划分数据交叉验证

from sklearn.neighbors import KNeighborsClassifier #一个简单的模型，只有K一个参数，类似K-means

import matplotlib.pyplot as plt

iris = datasets.load_iris() #加载sklearn自带的数据集

X = iris.data #这是数据

y = iris.target #这是每个数据所对应的标签

train_X,test_X,train_y,test_y = train_test_split(X,y,test_size=1/3,random_state=3) #这里划分数据以1/3的来划分训练集训练结果测试集测试结果

k_range = range(1,31)

cv_scores = [] #用来放每个模型的结果值

for n in k_range:

knn = KNeighborsClassifier(n) #knn模型，这里一个超参数可以做预测，当多个超参数时需要使用另一种方法GridSearchCV

scores = cross_val_score(knn,train_X,train_y,cv=10,scoring='accuracy') #cv：选择每次测试折数 accuracy：评价指标是准确度,可以省略使用默认值，具体使用参考下面。

cv_scores.append(scores.mean())

plt.plot(k_range,cv_scores)

plt.xlabel('K')

plt.ylabel('Accuracy') #通过图像选择最好的参数

plt.show()

best_knn = KNeighborsClassifier(n_neighbors=3) # 选择最优的K=3传入模型

best_knn.fit(train_X,train_y) #训练模型

print(best_knn.score(test_X,test_y)) #看看评分

最后得分0.94

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38671819

粉丝: 2
资源: 931

sklearn cross_val_score实现交叉验证详解与实例

sklearn cross_val_score调参实例：避免过拟合的优化策略

Keras与scikit-learn兼容的多层感知器实现

通过k折交叉验证确定KNN模型的最优k值

掌握如何使用cross_val_predict进行模型预测

cross_val_score怎样使用

cross_val_score中的参数

#线性回归 from sklearn.linear_model import LinearRegression #训练集交叉验证，得到平均值 #from sklearn.cross_valid

sklearn和keras的数据切分与交叉验证的实例详解

使用Python的sklearn库进行交叉验证方法介绍

最新资源