划分数据集成训练集、验证集和测试集python代码
时间: 2024-10-11 21:02:23 浏览: 37
在Python中,划分数据集通常使用sklearn库中的train_test_split函数来进行。这是一个简单的过程,下面是一个例子:
```python
from sklearn.model_selection import train_test_split
# 假设你有一个名为df的数据框,其中包含特征X和目标变量y
X = df['features_column']
y = df['target_column']
# 将数据划分为训练集(70%)、验证集(15%)和测试集(15%)
X_train, X_rest, y_train, y_rest = train_test_split(X, y, test_size=0.3, random_state=42) # 首先分割成训练集和剩余部分
# 再次从剩余部分中切分出验证集和测试集
X_val, X_test, y_val, y_test = train_test_split(X_rest, y_rest, test_size=0.5, random_state=42)
print("Train set:", X_train.shape, y_train.shape)
print("Validation set:", X_val.shape, y_val.shape)
print("Test set:", X_test.shape, y_test.shape)
```
在这个例子中,`test_size`参数指定了每一步分割后的数据比例,`random_state`用于保证结果的可重复性。你可以根据实际需求调整这两个参数。
阅读全文