首页train_test_split的解析

train_test_split的解析

时间: 2023-11-22 09:48:01 浏览: 119

train_test_split()函数是机器学习中用于分割数据集（训练集和测试集）的函数。它可以将数据集随机分成训练集和测试集两部分，以便我们可以使用训练集来训练模型，使用测试集来评估模型的性能。train_test_split()函数的参数包括X、y、test_size、train_size、random_state、shuffle和stratify等。其中，X和y是数据集的特征和标签，test_size和train_size是测试集和训练集的大小，random_state是随机数种子，shuffle是是否打乱数据集，stratify是按照标签进行分层抽样。train_test_split()函数的返回值包括X_train、X_test、y_train和y_test四个部分，分别表示训练集的特征、测试集的特征、训练集的标签和测试集的标签。下面是一个train_test_split()函数的例子： ```python from sklearn.model_selection import train_test_split X = [[0, 1], [2, 3], [4, 5], [6, 7], [8, 9]] y = [0, 1, 2, 3, 4] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=0) print(X_train) print(X_test) print(y_train) print(y_test) ``` 这个例子中，我们将一个包含5个样本的数据集X和对应的标签y分成了训练集和测试集两部分，其中测试集的大小为40%。运行上述代码，我们可以得到以下输出： ``` [[4, 5], [0, 1], [6, 7]] [[2, 3], [8, 9]] [2, 0, 3] [1, 4] ``` 这里，X_train、X_test、y_train和y_test分别表示训练集的特征、测试集的特征、训练集的标签和测试集的标签。我们可以使用这些数据来训练和评估模型的性能。

阅读全文