按日期划分训练集与测试集的代码
时间: 2023-09-22 16:08:02 浏览: 169
商品条形码及生产日期识别数据集
按日期划分训练集和测试集可以使用`train_test_split`库中的`train_test_split`函数结合`datetime`库实现。以下是一个示例代码:
```python
# 导入必要的库
import pandas as pd
from sklearn.model_selection import train_test_split
from datetime import datetime
# 读取数据集
data = pd.read_csv("data.csv")
# 转换日期格式为datetime
data["date"] = pd.to_datetime(data["date"])
# 按日期升序排序
data = data.sort_values("date")
# 划分训练集和测试集
test_size = 0.2
split_index = int(len(data) * (1 - test_size))
train_data = data[:split_index]
test_data = data[split_index:]
# 查看划分结果
print("训练集日期范围:", train_data["date"].min(), "-", train_data["date"].max())
print("测试集日期范围:", test_data["date"].min(), "-", test_data["date"].max())
```
在这个示例代码中,我们首先将日期字符串转换为`datetime`格式,并按日期升序排序。然后,根据指定的测试集比例计算出划分的索引位置,将数据集分成训练集和测试集。最后,我们输出训练集和测试集的日期范围以进行检查。
阅读全文