在CSV文件中划分训练集、验证集和测试集代码
时间: 2024-12-28 20:06:35 浏览: 8
在Python中,我们通常使用pandas库来处理CSV文件,并且scikit-learn库提供了一些方便的功能来划分数据集。以下是一个简单的例子,假设你有一个名为"data.csv"的CSV文件,包含特征(X)和标签(y):
```python
import pandas as pd
from sklearn.model_selection import train_test_split
# 加载数据
data = pd.read_csv('data.csv')
# 假设'feature_column'是你的特征列,'target_column'是目标列
X = data['feature_column']
y = data['target_column']
# 划分数据集 - 80%训练集,10%验证集,剩下的10%作为测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 再从训练集中划出一部分作为验证集
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.25, random_state=42)
# 现在你有了四个DataFrame:X_train, X_val, X_test, y_train, y_val 分别对应训练集、验证集和测试集的数据
```
在这个代码中,`train_test_split`函数用于随机划分数据,`test_size`参数指定了测试集占总数据的比例,`random_state`用于保持结果的可复现性。
阅读全文