python根据csv一列中的数据来重新划分数据集
时间: 2023-06-23 22:08:21 浏览: 185
python中如何实现将数据分成训练集与测试集的方法
可以使用 pandas 库来读取 csv 文件,并根据其中一列的数据来重新划分数据集。以下是一个示例代码:
```python
import pandas as pd
from sklearn.model_selection import train_test_split
# 读取 csv 文件
data = pd.read_csv('data.csv')
# 根据一列数据划分数据集
train_data, test_data = train_test_split(data, test_size=0.2, stratify=data['label'])
# stratify 参数表示按照指定列的值进行分层抽样,保证训练集和测试集中该列的比例相同
```
在以上代码中,我们使用了 `train_test_split` 函数来划分数据集,其中 `test_size` 参数表示测试集所占比例,可以根据实际情况进行调整。最后的 `stratify` 参数表示按照指定列的值进行分层抽样,保证训练集和测试集中该列的比例相同。
阅读全文