train_test_split函数作用及返回值
时间: 2024-01-07 15:23:45 浏览: 28
train_test_split函数是机器学习中常用的函数,用于将数据集分割为训练集和测试集。它的作用是为了评估模型的性能和泛化能力。该函数的返回值是四个数组,分别是训练集的特征数据、测试集的特征数据、训练集的标签数据和测试集的标签数据。
以下是train_test_split函数的示例代码:
```python
from sklearn.model_selection import train_test_split
# 假设X和y是特征数据和标签数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 输出分割后的数据集大小
print("训练集的特征数据大小:", X_train.shape)
print("测试集的特征数据大小:", X_test.shape)
print("训练集的标签数据大小:", y_train.shape)
print("测试集的标签数据大小:", y_test.shape)
```
这段代码将数据集X和y按照指定的比例(test_size=0.2)分割为训练集和测试集,并且设置了随机种子(random_state=42)以保证每次运行结果的拆分方式都是相同的。