写一段python代码依次读取多个Excel文件并按8:2的比例划分为训练集和测试集
时间: 2024-04-29 19:23:49 浏览: 105
python 划分数据集为训练集和测试集的方法
以下是一段Python代码,可以依次读取多个Excel文件并按8:2的比例划分为训练集和测试集:
```python
import glob
import pandas as pd
from sklearn.model_selection import train_test_split
# 定义文件夹路径和Excel文件扩展名
folder_path = 'path/to/folder'
extension = 'xlsx'
# 获取所有符合条件的文件路径
files = glob.glob(folder_path + '/*.' + extension)
# 初始化训练集和测试集
train_data = pd.DataFrame()
test_data = pd.DataFrame()
# 依次读取每个Excel文件,并按8:2的比例划分为训练集和测试集
for file in files:
df = pd.read_excel(file)
train, test = train_test_split(df, test_size=0.2)
train_data = pd.concat([train_data, train])
test_data = pd.concat([test_data, test])
# 输出训练集和测试集的数量
print('训练集数量:', len(train_data))
print('测试集数量:', len(test_data))
```
这段代码首先使用`glob`模块获取指定路径下所有扩展名为`.xlsx`的Excel文件路径,然后依次读取每个Excel文件,并使用`train_test_split`函数将数据集按8:2的比例划分为训练集和测试集。最后将所有训练集和测试集拼接起来,并输出它们的数量。
阅读全文