train_test_split的用法
时间: 2023-10-13 09:25:05 浏览: 84
数据集分割train和test程序
train_test_split是一种常用的数据集划分方法,它可以将数据集随机划分成训练集和测试集两部分,通常用于机器学习中的模型训练和评估。train_test_split函数位于sklearn.model_selection模块中,其用法如下:
```python
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
train_test_split函数的参数说明:
- X:特征矩阵,即要划分的数据集的自变量部分;
- y:目标变量,即要划分的数据集的因变量部分;
- test_size:测试集的比例,可以是小数或整数。当为小数时,表示测试集占总样本的比例;当为整数时,表示测试集的样本数量;
- random_state:随机种子,用于保证每次划分的结果相同。
函数的返回值:
- X_train:训练集的特征矩阵;
- X_test:测试集的特征矩阵;
- y_train:训练集的目标变量;
- y_test:测试集的目标变量。
train_test_split函数会将原始数据集随机划分成训练集和测试集两部分,其中训练集用于模型训练,测试集用于模型评估。划分的比例可以通过test_size参数控制,也可以通过random_state参数设置随机种子,保证每次划分的结果相同。
阅读全文