sklearn划分训练集和测试集代码
时间: 2023-10-04 20:01:37 浏览: 67
在使用sklearn库对数据进行训练和测试集划分时,我们可以使用train_test_split()函数。该函数可以将数据集划分为训练集和测试集,并返回划分后的数据。
以下是使用sklearn库划分训练集和测试集的代码示例:
```python
from sklearn.model_selection import train_test_split
# 假设我们有一个特征数组X和一个目标变量数组y
# X的形状为(n_samples, n_features),y的形状为(n_samples,)
# 将数据划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
在上述代码中,我们首先通过`from sklearn.model_selection import train_test_split`导入`train_test_split`函数。
然后,我们假设我们有一个特征数组`X`和一个目标变量数组`y`。`X`的形状为`(n_samples, n_features)`,`y`的形状为`(n_samples,)`。
接下来,我们使用`train_test_split(X, y, test_size=0.2, random_state=42)`对数据进行划分。其中,`X`和`y`是我们要进行划分的特征数组和目标变量数组,`test_size`表示测试集占整个数据集的比例(这里为20%),`random_state`是一个随机种子,用于确保每次运行代码时生成的随机划分结果是一致的。
最后,划分结果会返回4个数组,即`X_train`、`X_test`、`y_train`和`y_test`。`X_train`和`y_train`即为训练集的特征数组和目标变量数组,`X_test`和`y_test`即为测试集的特征数组和目标变量数组。
这样,我们就完成了使用sklearn库划分训练集和测试集的操作。