用 Pandas 的 DataFrame将csv文件合理的划分测试集和训练集
时间: 2024-02-19 16:02:52 浏览: 146
用pandas划分数据集实现训练集和测试集
5星 · 资源好评率100%
可以使用 Pandas 的 sample 方法随机划分测试集和训练集。具体操作如下:
1. 读取 csv 文件为 DataFrame:
```python
import pandas as pd
df = pd.read_csv('your_file_name.csv')
```
2. 随机划分测试集和训练集:
```python
train_df = df.sample(frac=0.8, random_state=123) # 随机划分训练集,占比为 80%
test_df = df.drop(train_df.index) # 测试集为剩余部分
```
其中,`frac` 参数指定训练集占总数据量的比例,`random_state` 参数为随机种子,保证每次划分结果一致。
3. 可以将训练集和测试集保存为新的 csv 文件:
```python
train_df.to_csv('train.csv', index=False) # 不保存行索引
test_df.to_csv('test.csv', index=False)
```
以上操作将 DataFrame 划分为测试集和训练集,并将它们保存为新的 csv 文件。
阅读全文