手动实现train_test_split函数
时间: 2023-10-13 14:10:47 浏览: 110
数据集分割train和test程序
好的,train_test_split函数的主要作用是将数据集随机划分为训练集和测试集,通常用于机器学习模型的训练和测试。下面是手动实现的代码:
```python
import random
def train_test_split(data, test_size=0.2):
"""
data: 数据集,可以是numpy数组、pandas DataFrame或python list
test_size: 测试数据集所占比例,默认为0.2
"""
# 计算测试数据集的数量
test_num = int(len(data) * test_size)
# 对数据集进行随机打乱
random.shuffle(data)
# 划分为训练集和测试集
train_data = data[:-test_num]
test_data = data[-test_num:]
return train_data, test_data
```
这个函数接受一个数据集,并根据给定的测试集比例将数据集分为训练集和测试集。打乱数据集的顺序是为了保证每次运行时都会获得不同的数据集拆分,从而保证模型的泛化能力。
阅读全文