写一段python代码依次读取Excel文件并按8:2的比例划分为训练集和测试集
时间: 2024-06-11 19:10:00 浏览: 98
以下是一个示例代码,假设Excel文件只有一列数据(即只有一个特征):
```python
import pandas as pd
# 读取Excel文件
df = pd.read_excel('data.xlsx', header=None)
# 划分训练集和测试集
train_size = int(len(df) * 0.8)
train_set = df.iloc[:train_size, :]
test_set = df.iloc[train_size:, :]
# 输出训练集和测试集的大小
print(f'Train set size: {len(train_set)}')
print(f'Test set size: {len(test_set)}')
```
其中,`pandas` 库提供了 `read_excel` 函数用于读取Excel文件,`iloc` 函数用于按行索引进行划分。`train_size` 记录了训练集的大小,即总数据量的 80%。`iloc[:train_size, :]` 选择了前 `train_size` 行作为训练集,`iloc[train_size:, :]` 则选择了后面的行作为测试集。最后输出了训练集和测试集的大小。
阅读全文