sklearn.model_selection的train_test_split函数怎么用
时间: 2023-10-13 09:20:59 浏览: 95
一个线性回归模型实例,我们使用train-test-split函数将数据集拆分为训练集和测试集
`train_test_split` 函数是 `sklearn.model_selection` 模块中的一个函数,用于将数据集拆分为训练集和测试集。它的用法如下:
```python
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
```
其中,`X` 是特征矩阵,`y` 是标签向量。`test_size` 是测试集占总数据集的比例(默认为 0.25),`random_state` 是随机数种子,用于保证每次拆分结果相同(默认为 None)。
此函数的返回值是一个长度为 4 的元组,分别为训练集的特征矩阵 `X_train`,测试集的特征矩阵 `X_test`,训练集的标签向量 `y_train`,测试集的标签向量 `y_test`。
例如:
```python
import numpy as np
from sklearn.model_selection import train_test_split
X = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])
y = np.array([0, 1, 0, 1])
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
print(X_train)
print(X_test)
print(y_train)
print(y_test)
```
输出结果为:
```
[[7 8]
[1 2]
[3 4]]
[[5 6]]
[1 0 1]
[0]
```
阅读全文