将猫的数据集CatInfo.csv拆分成训练集和测试集。
时间: 2024-04-30 21:24:49 浏览: 142
可以使用Python中的pandas和sklearn库来将数据集拆分成训练集和测试集。
首先,我们需要导入必要的库和数据集:
```python
import pandas as pd
from sklearn.model_selection import train_test_split
# 读取数据集
cat_info = pd.read_csv('CatInfo.csv')
```
接下来,我们可以使用train_test_split函数将数据集拆分成训练集和测试集。这个函数需要传入数据集、测试集占比、随机数种子等参数。在这里,我们将测试集占比设置为0.2,随机数种子设置为42,以确保每次运行时拆分结果一致。
```python
# 拆分数据集
train, test = train_test_split(cat_info, test_size=0.2, random_state=42)
```
现在,我们已经成功将数据集拆分成了训练集和测试集。可以使用以下代码验证拆分的结果:
```python
# 打印训练集和测试集的大小
print('训练集大小:', len(train))
print('测试集大小:', len(test))
```
输出结果应该类似于:
```
训练集大小: 80
测试集大小: 20
```
最后,我们可以将训练集和测试集保存为新的csv文件,以便后续使用:
```python
# 保存训练集和测试集为csv文件
train.to_csv('CatInfo_train.csv', index=False)
test.to_csv('CatInfo_test.csv', index=False)
```
阅读全文