没有合适的资源?快使用搜索试试~ 我知道了~
首页Python sklearn KFold 生成交叉验证数据集的方法
资源详情
资源评论
资源推荐
Python sklearn KFold 生成交叉验证数据集的方法生成交叉验证数据集的方法
今天小编就为大家分享一篇Python sklearn KFold 生成交叉验证数据集的方法,具有很好的参考价值,希望对大
家有所帮助。一起跟随小编过来看看吧
源起:源起:
1.我要做交叉验证,需要每个训练集和测试集都保持相同的样本分布比例,直接用sklearn提供的KFold并不能满足这个需求。
2.将生成的交叉验证数据集保存成CSV文件,而不是直接用sklearn训练分类模型。
3.在编码过程中有一的误区需要注意:
这个这个sklearn官方给出的文档官方给出的文档
>>> import numpy as np
>>> from sklearn.model_selection import KFold
>>> X = ["a", "b", "c", "d"]
>>> kf = KFold(n_splits=2)
>>> for train, test in kf.split(X):
... print("%s %s" % (train, test))
[2 3] [0 1]
[0 1] [2 3]
我之前犯的一个错误是将train,test理解成原数据集分割成子数据集之后的子数据集索引。而实际上,它就是原始数据集本身
的样本索引。
源码:源码:
# -*- coding:utf-8 -*-
# 得到交叉验证数据集,保存成CSV文件
# 输入是一个包含正常恶意标签的完整数据集,在读数据的时候分开保存到datasetBenign,datasetMalicious
# 分别对两个数据集进行KFold,最后合并保存
from sklearn.model_selection import KFold
import csv
def writeInFile(benignKFTrain, benignKFTest, maliciousKFTrain, maliciousKFTest, i, datasetBenign, datasetMalicious):
newTrainFilePath = "E:\hadoopExperimentResult\5KFold\AllDataSetIIR10\dataset\ImbalancedAllTraffic-train-%s.csv" % i
newTestFilePath = "E:\hadoopExperimentResult\5KFold\AllDataSetIIR10\dataset\IImbalancedAllTraffic-test-%s.csv" % i
newTrainFile = open(newTrainFilePath, "wb")# wb 为防止空行
newTestFile = open(newTestFilePath, "wb")
writerTrain = csv.writer(newTrainFile)
writerTest = csv.writer(newTestFile)
for index in benignKFTrain:
writerTrain.writerow(datasetBenign[index])
for index in benignKFTest:
writerTest.writerow(datasetBenign[index])
for index in maliciousKFTrain:
writerTrain.writerow(datasetMalicious[index])
for index in maliciousKFTest:
writerTest.writerow(datasetMalicious[index])
newTrainFile.close()
newTestFile.close()
def getKFoldDataSet(datasetPath):
# CSV读取文件
# 开始从文件中读取全部的数据集
datasetFile = file(datasetPath, 'rb')
datasetBenign = []
datasetMalicious = []
readerDataset = csv.reader(datasetFile)
for line in readerDataset:
if len(line) > 1:
curLine = []
curLine.append(float(line[0]))
curLine.append(float(line[1]))
curLine.append(float(line[2]))
curLine.append(float(line[3]))
curLine.append(float(line[4]))
curLine.append(float(line[5]))
curLine.append(float(line[6]))
curLine.append(line[7])
if line[7] == "benign":
datasetBenign.append(curLine)
weixin_38631182
- 粉丝: 8
- 资源: 954
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0