train_test_split函数
时间: 2023-09-07 11:17:37 浏览: 106
数据集分割train和test程序
train_test_split函数是Scikit-learn中的一个函数,用于将数据集随机划分成训练集和测试集。该函数可以很方便地帮助我们评估机器学习模型的性能,同时避免过拟合。
train_test_split函数的语法如下:
```
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
其中,X为特征矩阵,y为目标变量向量,test_size表示测试集占总数据集的比例,random_state表示随机种子,用于固定随机数生成器的状态,确保每次运行程序得到的结果相同。
train_test_split函数的输出包含四个变量:
- X_train:训练集的特征矩阵
- X_test:测试集的特征矩阵
- y_train:训练集的目标变量向量
- y_test:测试集的目标变量向量
通过将数据集随机划分成训练集和测试集,我们可以在训练集上训练模型,然后在测试集上评估模型的性能。这样可以避免模型在训练集上过拟合,同时也可以检验模型在新数据上的泛化能力。
阅读全文