# 划分区间 # 训练集历史区间、中间区间、标签区间 train_history_field = off_train[ off_train['date_received'].isin(pd.date_range('2016/3/2', periods=60))] # [20160302,20160501) train_middle_field = off_train[off_train['date'].isin(pd.date_range('2016/5/1', periods=15))] # [20160501,20160516) train_label_field = off_train[ off_train['date_received'].isin(pd.date_range('2016/5/16', periods=31))] # [20160516,20160616) # 验证集历史区间、中间区间、标签区间 validate_history_field = off_train[ off_train['date_received'].isin(pd.date_range('2016/1/16', periods=60))] # [20160116,20160316) validate_middle_field = off_train[ off_train['date'].isin(pd.date_range('2016/3/16', periods=15))] # [20160316,20160331) validate_label_field = off_train[ off_train['date_received'].isin(pd.date_range('2016/3/31', periods=31))] # [20160331,20160501) # 测试集历史区间、中间区间、标签区间 test_history_field = off_train[ off_train['date_received'].isin(pd.date_range('2016/4/17', periods=60))] # [20160417,20160616) test_middle_field = off_train[off_train['date'].isin(pd.date_range('2016/6/16', periods=15))] # [20160616,20160701) test_label_field = off_test.copy() # [20160701,20160801)

时间: 2023-06-16 17:07:19 浏览: 114

这段代码是用来划分训练集、验证集和测试集的。其中，训练集的历史区间、中间区间和标签区间分别是从2016年3月2日到2016年5月1日、从2016年5月1日到2016年5月16日、从2016年5月16日到2016年6月16日；验证集的历史区间、中间区间和标签区间分别是从2016年1月16日到2016年3月16日、从2016年3月16日到2016年3月31日、从2016年3月31日到2016年5月1日；测试集的历史区间、中间区间和标签区间分别是从2016年4月17日到2016年6月16日、从2016年6月16日到2016年7月1日、从2016年7月1日到2016年8月1日。这里的"off_train"和"off_test"是指原始数据集。

# 划分区间 # 训练集历史区间、中间区间、标签区间 train_history_field = off_train[off_train['date_received'].isin(pd.date_range('2016/3/2', periods=60))] # [20160302,20160501) train_middle_field = off_train[off_train['date'].isin(pd.date_range('2016/5/1', periods=15))] # [20160501,20160516) train_label_field = off_train[off_train['date_received'].isin(pd.date_range('2016/5/16', periods=31))] # [20160516,20160616) # 验证集历史区间、中间区间、标签区间 validate_history_field = off_train[off_train['date_received'].isin(pd.date_range('2016/1/16', periods=60))] # [20160116,20160316) validate_middle_field = off_train[off_train['date'].isin(pd.date_range('2016/3/16', periods=15))] # [20160316,20160331) validate_label_field = off_train[off_train['date_received'].isin(pd.date_range('2016/3/31', periods=31))] # [20160331,20160501) # 测试集历史区间、中间区间、标签区间 test_history_field = off_train[off_train['date_received'].isin(pd.date_range('2016/4/17', periods=60))] # [20160417,20160616) test_middle_field = off_train[off_train['date'].isin(pd.date_range('2016/6/16', periods=15))] # [20160616,20160701) test_label_field = off_test.copy() # [20160701,20160801)将其改为一个函数

可以将这段代码封装成一个函数，以便在需要时可以直接调用。以下是一个可能的实现： ```python import pandas as pd def split_dataset(off_train, off_test): # 划分区间 # 训练集历史区间、中间区间、标签区间 train_history_field = off_train[off_train['date_received'].isin(pd.date_range('2016/3/2', periods=60))] # [20160302,20160501) train_middle_field = off_train[off_train['date'].isin(pd.date_range('2016/5/1', periods=15))] # [20160501,20160516) train_label_field = off_train[off_train['date_received'].isin(pd.date_range('2016/5/16', periods=31))] # [20160516,20160616) # 验证集历史区间、中间区间、标签区间 validate_history_field = off_train[off_train['date_received'].isin(pd.date_range('2016/1/16', periods=60))] # [20160116,20160316) validate_middle_field = off_train[off_train['date'].isin(pd.date_range('2016/3/16', periods=15))] # [20160316,20160331) validate_label_field = off_train[off_train['date_received'].isin(pd.date_range('2016/3/31', periods=31))] # [20160331,20160501) # 测试集历史区间、中间区间、标签区间 test_history_field = off_train[off_train['date_received'].isin(pd.date_range('2016/4/17', periods=60))] # [20160417,20160616) test_middle_field = off_train[off_train['date'].isin(pd.date_range('2016/6/16', periods=15))] # [20160616,20160701) test_label_field = off_test.copy() # [20160701,20160801) return (train_history_field, train_middle_field, train_label_field, validate_history_field, validate_middle_field, validate_label_field, test_history_field, test_middle_field, test_label_field) ``` 调用该函数时，需要传入 `off_train` 和 `off_test` 两个数据集作为参数，函数将返回九个数据集，分别对应训练集、验证集和测试集的历史区间、中间区间和标签区间。

dataset1 = off_train[(off_train.date_received>='20160414')&(off_train.date_received<='20160514')] feature1 = off_train[(off_train.date>='20160101')&(off_train.date<='20160413')|((off_train.date=='null')&(off_train.date_received>='20160101')&(off_train.date_received<='20160413'))] 请将以上代码按以下方式划分 # 测试集历史区间、中间区间、标签区间 test_history_field = off_train[ off_train['date_received'].isin(pd.date_range('2016/4/17', periods=60))] # [20160417,20160616) test_middle_field = off_train[off_train['date'].isin(pd.date_range('2016/6/16', periods=15))] # [20160616,20160701) test_label_field = off_test.copy() # [20160701,20160801)

以上代码中，dataset1是标签区间，feature1是历史区间+中间区间。因此，可以按以下方式划分： - 测试集历史区间：feature1中的历史区间，即off_train[(off_train.date>='20160101')&(off_train.date<='20160413')|((off_train.date=='null')&(off_train.date_received>='20160101')&(off_train.date_received<='20160413'))]； - 测试集中间区间：test_middle_field，即off_train[off_train['date'].isin(pd.date_range('2016/6/16', periods=15))]； - 测试集标签区间：test_label_field，即off_test.copy()。

阅读全文

相关推荐

titanic_train.zip_python学习文件_titanic train_titanic数据集_train_trai

svm.zip_matlab svm train_svm train_svm_train matlab_train

train_data.rar_BP 识别_train_人脸朝向_人脸识别 BP_数据训练 matlab

function_for_train_tree.zip_curvegcf_train_随机森林_随机森林Train_随机森林训练

tf_train_神经网络_train_tensorflow训练示例_

train_目标检测_深度学习_train_训练策略_数据增强_

train.rar_finallylne_pulse train _train_脉冲串

AicPhoto_train_train_智能相框_

tf_classification_mulitiGPU_train_分类_train_

train_en_train_英语学习_源码

Train-Ticket-2.zip_opengl train_train_train-tickets

train_pytorch_salemml_pytorchLSTM_pytorch_train_LSTM_源码.zip

train_pytorch_图像分类/pytorch_train_

train_pytorch_salemml_pytorchLSTM_pytorch_train_LSTM.zip

train_C4_5.zip_C4.5_matlab_c4.5_c4.5 matlab_matlab train_train

train_BP网络_数字识别_train_BP神经网络_

train_judge_eye.zip_ELM_train_眼睛 matlab_眼睛 开闭

一种改进的自适应短时傅里叶变方法-基于梯度下降 算法运行环境为Jupyter Notebook，执行一种改进的自适应短时傅里叶变方法-基于梯度下降，附带参考 算法可迁移至金融时间序列，地震 微震信号

大家在看

毕业论文jsp529图书借阅管理系统(sqlserver).doc

思源字体不显示.rar

iometer使用指南

glibc.i686 + redhat7.9

Launcher3原理及二次开发

最新推荐

解决keras,val_categorical_accuracy:,0.0000e+00问题

解决Tensorflow2.0 tf.keras.Model.load_weights() 报错处理问题

在keras中model.fit_generator()和model.fit()的区别说明

pytorch之inception_v3的实现案例

pandas中read_csv的缺失值处理方式

降低成本的oracle11g内网安装依赖-pdksh-5.2.14-1.i386.rpm下载

管理建模和仿真的文件

云计算术语全面掌握：从1+X样卷A卷中提炼精华

. 索读取⼀幅图像，让该图像拼接⾃身图像，分别⽤⽔ 平和垂直 2 种。要求运⾏结果弹窗以⾃⼰的名字全拼命名。

Java基础实验教程Lab1解析

train_judge_eye.zip_ELM_train_眼睛 matlab_眼睛开闭

一种改进的自适应短时傅里叶变方法-基于梯度下降算法运行环境为Jupyter Notebook，执行一种改进的自适应短时傅里叶变方法-基于梯度下降，附带参考算法可迁移至金融时间序列，地震微震信号

. 索读取⼀幅图像，让该图像拼接⾃身图像，分别⽤⽔平和垂直 2 种。要求运⾏结果弹窗以⾃⼰的名字全拼命名。