时间外划分测试集python代码
时间: 2023-10-04 14:05:53 浏览: 117
以下是一种可能的时间外划分测试集的Python代码:
```
import pandas as pd
from sklearn.model_selection import train_test_split
# 读取数据集
data = pd.read_csv('data.csv')
# 将时间列转换为日期类型
data['date'] = pd.to_datetime(data['date'])
# 确定训练集和测试集的时间范围
train_end_date = pd.to_datetime('2020-01-01')
test_start_date = pd.to_datetime('2020-01-02')
# 按时间排序数据集
data = data.sort_values(by='date')
# 划分数据集
train_data = data[data['date'] <= train_end_date]
test_data = data[data['date'] >= test_start_date]
# 将划分后的数据集输出到文件
train_data.to_csv('train_data.csv', index=False)
test_data.to_csv('test_data.csv', index=False)
```
这段代码假设数据集中有一列名为“date”的列,其中包含数据点的时间戳。首先,代码将这一列转换为日期类型。然后,它设置了训练集的结束时间和测试集的开始时间。接下来,它按时间对数据集进行排序,并将数据集划分为训练集和测试集。最后,它将划分后的数据集输出到文件。请注意,这段代码假设数据集已经被清洗和处理,并且准备好用于机器学习模型的训练和测试。
阅读全文