将csv文件划分为测试集,验证集, 训练集的代码
时间: 2024-04-29 09:27:13 浏览: 115
划分数据集为测试集、验证集、训练集
可以使用Python pandas库中的sample方法随机抽样,根据需要的比例分配到不同的文件中。以下是一个示例代码:
```python
import pandas as pd
import numpy as np
# 读取csv文件
data = pd.read_csv("data.csv")
# 随机抽样,将数据分成训练集、验证集、测试集
train_data = data.sample(frac=0.7, random_state=0) # 70%训练集
val_data = data.drop(train_data.index).sample(frac=0.5, random_state=0) # 剩下30%中的一半为验证集
test_data = data.drop(train_data.index).drop(val_data.index) # 剩下30%为测试集
# 保存到文件
train_data.to_csv("train.csv", index=False)
val_data.to_csv("val.csv", index=False)
test_data.to_csv("test.csv", index=False)
```
其中frac参数表示抽取的比例,random_state参数为随机种子,保证每次运行结果一致。index参数为False表示不保存索引。
阅读全文