用 Pandas 的 DataFrame将csv文件合理的划分测试集和训练集
时间: 2024-02-19 10:02:52 浏览: 140
可以使用 Pandas 的 sample 方法随机划分测试集和训练集。具体操作如下:
1. 读取 csv 文件为 DataFrame:
```python
import pandas as pd
df = pd.read_csv('your_file_name.csv')
```
2. 随机划分测试集和训练集:
```python
train_df = df.sample(frac=0.8, random_state=123) # 随机划分训练集,占比为 80%
test_df = df.drop(train_df.index) # 测试集为剩余部分
```
其中,`frac` 参数指定训练集占总数据量的比例,`random_state` 参数为随机种子,保证每次划分结果一致。
3. 可以将训练集和测试集保存为新的 csv 文件:
```python
train_df.to_csv('train.csv', index=False) # 不保存行索引
test_df.to_csv('test.csv', index=False)
```
以上操作将 DataFrame 划分为测试集和训练集,并将它们保存为新的 csv 文件。
相关问题
用 Pandas 的 DataFrame将csv文件按照7:3划分测试集和训练集
可以使用 Pandas 的 sample 方法随机划分测试集和训练集。具体操作如下:
1. 读取 csv 文件为 DataFrame:
```python
import pandas as pd
df = pd.read_csv('your_file_name.csv')
```
2. 随机划分测试集和训练集:
```python
train_df = df.sample(frac=0.7, random_state=123) # 随机划分训练集,占比为 70%
test_df = df.drop(train_df.index) # 测试集为剩余部分
```
其中,`frac` 参数指定训练集占总数据量的比例,`random_state` 参数为随机种子,保证每次划分结果一致。这里设置为 0.7:0.3,即训练集占 70%,测试集占 30%。
3. 可以将训练集和测试集保存为新的 csv 文件:
```python
train_df.to_csv('train.csv', index=False) # 不保存行索引
test_df.to_csv('test.csv', index=False)
```
以上操作将 DataFrame 划分为测试集和训练集,并将它们保存为新的 csv 文件。
csv文件划分训练集和测试集
要将CSV文件划分为训练集和测试集,可以按照以下步骤进行操作:
1. 导入CSV文件并将其转换为pandas DataFrame。
```python
import pandas as pd
data = pd.read_csv('data.csv')
```
2. 将数据集随机划分为训练集和测试集。
```python
from sklearn.model_selection import train_test_split
train_data, test_data = train_test_split(data, test_size=0.2, random_state=42)
```
其中,test_size表示测试集所占比例,random_state为随机种子,确保每次划分结果一致。
3. 将划分后的数据集保存为CSV文件。
```python
train_data.to_csv('train_data.csv', index=False)
test_data.to_csv('test_data.csv', index=False)
```
其中,index=False表示不保存索引列。
此时,就可以得到划分好的训练集和测试集CSV文件。
阅读全文