train_test_split的解析
时间: 2023-11-22 11:48:01 浏览: 111
数据集分割train和test程序
train_test_split()函数是机器学习中用于分割数据集(训练集和测试集)的函数。它可以将数据集随机分成训练集和测试集两部分,以便我们可以使用训练集来训练模型,使用测试集来评估模型的性能。train_test_split()函数的参数包括X、y、test_size、train_size、random_state、shuffle和stratify等。其中,X和y是数据集的特征和标签,test_size和train_size是测试集和训练集的大小,random_state是随机数种子,shuffle是是否打乱数据集,stratify是按照标签进行分层抽样。train_test_split()函数的返回值包括X_train、X_test、y_train和y_test四个部分,分别表示训练集的特征、测试集的特征、训练集的标签和测试集的标签。下面是一个train_test_split()函数的例子:
```python
from sklearn.model_selection import train_test_split
X = [[0, 1], [2, 3], [4, 5], [6, 7], [8, 9]]
y = [0, 1, 2, 3, 4]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=0)
print(X_train)
print(X_test)
print(y_train)
print(y_test)
```
这个例子中,我们将一个包含5个样本的数据集X和对应的标签y分成了训练集和测试集两部分,其中测试集的大小为40%。运行上述代码,我们可以得到以下输出:
```
[[4, 5], [0, 1], [6, 7]]
[[2, 3], [8, 9]]
[2, 0, 3]
[1, 4]
```
这里,X_train、X_test、y_train和y_test分别表示训练集的特征、测试集的特征、训练集的标签和测试集的标签。我们可以使用这些数据来训练和评估模型的性能。
阅读全文