在模型做网格搜索法之前在一个样本上划分了训练集和验证集,之后在模型开发的时候重新在同一个样本上划分训练集和测试集,样本重叠了,但是样本是随机的不一样,相互独立,这样会不会造成数据泄露,如果可以的话,获得的最优参数在新的训练集和测试集中是不是最优的呢
时间: 2023-05-30 07:05:45 浏览: 75
简单粗暴理解与实现机器学习之K-近邻算法(十):交叉验证,网格搜索(模型选择与调优).zip
在同一个样本上进行重复划分训练集和测试集可能会导致数据泄露,因为模型可能会从测试集中学习到一些信息,从而在测试集上表现更好。这可能会导致最优参数在新的数据集上不再是最优的。
为了避免数据泄露,应该在一个样本上进行一次划分,然后使用交叉验证来评估模型的性能和选择最优参数。这种方法可以确保模型在整个数据集上进行了训练和测试,从而减少了数据泄露的风险。
阅读全文