pytorch代码,读取5维数据集data.csv,转换为np格式,前4列是特征数据集,最后一列是标签数据集,将其按0.7:0.2:0.1的比例划分为测试集,验证集和测试集
时间: 2024-03-24 11:36:34 浏览: 69
使用PyTorch将文件夹下的图片分为训练集和验证集实例
3星 · 编辑精心推荐
以下是一个将5维CSV文件转换为NumPy数组并划分为训练集、验证集和测试集的示例代码。假设您的CSV文件名为`data.csv`,有五列数据,前四列是特征数据,最后一列是标签数据:
```python
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
# 读取CSV文件
df = pd.read_csv('data.csv')
# 将输入和目标数据分别存储在NumPy数组中
features_np = df.iloc[:, :4].to_numpy()
labels_np = df.iloc[:, 4].to_numpy()
# 划分数据集为训练集、验证集和测试集
X_train, X_test, y_train, y_test = train_test_split(features_np, labels_np, test_size=0.2, random_state=42)
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.125, random_state=42)
# 打印数据集大小
print("训练集大小:", X_train.shape, y_train.shape)
print("验证集大小:", X_val.shape, y_val.shape)
print("测试集大小:", X_test.shape, y_test.shape)
```
在这个例子中,我们使用了Pandas库的`read_csv()`方法来读取CSV文件,并将其存储在名为`df`的数据框中。然后,我们使用`.iloc[]`方法将数据框中的前四列(即特征数据)和最后一列(即标签数据)分别存储在名为`features_np`和`labels_np`的NumPy数组中。接下来,我们使用scikit-learn库的`train_test_split()`方法将数据集按照0.7:0.2:0.1的比例划分为训练集、验证集和测试集。最后,我们打印出各个数据集的大小。
阅读全文