机器学习过程中怎么把一个文件的数据划分为训练集、测试集、验证集代码
时间: 2024-05-15 21:19:23 浏览: 68
python 划分数据集为训练集和测试集的方法
以下是一个Python代码示例,用于将一个文件的数据划分为训练集、测试集和验证集:
```python
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
# 从文件中读取数据
data = pd.read_csv("data.csv")
# 划分训练集、测试集和验证集
train_data, test_data, train_labels, test_labels = train_test_split(data.iloc[:, :-1], data.iloc[:, -1], test_size=0.2, random_state=42)
train_data, validation_data, train_labels, validation_labels = train_test_split(train_data, train_labels, test_size=0.2, random_state=42)
# 输出数据的形状
print("训练数据形状:", train_data.shape)
print("测试数据形状:", test_data.shape)
print("验证数据形状:", validation_data.shape)
```
这段代码首先使用Pandas库读取一个名为“data.csv”的CSV文件中的数据。然后,使用Scikit-learn库中的“train_test_split”函数将数据划分为训练集、测试集和验证集。在此示例中,训练集占总数据集的64%,测试集占总数据集的20%,验证集占总数据集的16%。最后,输出每个数据集的形状以进行检查。
阅读全文