详解python实现交叉验证法与留出法_yolov8如何解决样本不均衡的问题 - CSDN文库

183 浏览量更新于2023-05-04 评论 1 收藏 119KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

详解详解python实现交叉验证法与留出法实现交叉验证法与留出法

在机器学习中，我们经常在训练集上训练模型，在测试集上测试模型。最终的目标是希望我们的模型在测试集上有最好的表

现。

但是，我们往往只有一个包含m个观测的数据集D，我们既要用它进行训练，又要对它进行测试。此时，我们就需要对数据集

D进行划分。

对于数据集D的划分，我们尽量需要满足三个要求：

训练集样本量充足

训练模型时的计算量可以忍受

不同的划分方式会得出不同的训练集和测试集，从而得出不同的结果，我们需要消除这种影响

我们将分别介绍留出法、交叉验证法，以及各自的python实现。自助法(bootstrapping)将在下篇中加以介绍。

1.留出法留出法

留出法是最常用最直接最简单的方法，它直接将数据集D拆分成两个互斥的集合，其中一个作为训练集R，另一个作为测试集

T。即

在使用留出法时，需要注意：

要有足够的样本量，以保证训练模型的效果

在划分时注意保证数据分布的一致性（如：500个样本中正例和反例的比为2:3，则在训练集和测试集中正例和反例的比也要

求为2:3），只需要采用随机分层抽样即可

为了减弱随机划分的影响，重复划分训练集和测试集，对得到的多次结果取平均作为最后的结果

一般训练集和测试集的比例在8:2或者7:3

当然留出法的缺点也非常明显，即它会损失一定的样本信息；同时需要大样本它会损失一定的样本信息；同时需要大样本。

python实现留出法，只需要使用sklearn包就可以

from sklearn.model_selection import train_test_split

#使用train_test_split划分训练集和测试集

train_X , test_X, train_Y ,test_Y = train_test_split(

X, Y, test_size=0.2,random_state=0)

'''

X为原始数据的自变量，Y为原始数据因变量；

train_X，test_X是将X按照8:2划分所得；

train_Y，test_Y是将X按照8:2划分所得；

test_size是划分比例；

random_state设置是否使用随机数

'''

2.交叉验证法交叉验证法

交叉验证法(cross validation)可以很好地解决留出法的问题，它对数据量的要求不高，并且样本信息损失不多。

交叉验证法先将数据集D划分为k个大小相似的互斥子集，即

为了保证数据分布的一致性，从D中随机分层抽样即可。

之后，每次都用k-1个子集的并集作为训练集，余下的那个子集作为测试集，这样我们就可以获得k组训练/测试集，从而进行k

次训练和测试，最终返回这k组测试的均值。

具体说来，我们以k=10为例：

第一次我们选取第10份数据为测试集，前9份为训练集；

第二次我们选取第9份数据为测试集，第1-8和10为训练集；

…

第十次我们选取第1份数据为测试集，第2-9为训练集；

由此，我们共获得10组训练集和测试集，进行10次训练和测试，最终返回10次测试结果的均值。

显然，交叉验证法结果的稳定性和保真性很大程度取决于k的选择，为了强调这一点，交叉验证法也称作“k折交叉验证法”，k

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余2页未读，立即下载

评论0

weixin_38640072

粉丝: 3
资源: 930

会员权益专享

图片转文字

全年可省5，000元立即开通

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈