from sklearn.model_selection import train_test_split功能
时间: 2024-01-23 11:15:28 浏览: 94
`from sklearn.model_selection import train_test_split` 是一个用于数据集划分的函数。它可以将给定的数据集划分为训练集和测试集,以便进行机器学习模型的训练和评估。
这个函数的参数包括:
- `*arrays`:要划分的数据集,可以是一个或多个数组。
- `test_size`:测试集的大小,可以是一个浮点数(表示比例)或一个整数(表示样本数量)。
- `train_size`:训练集的大小,可以是一个浮点数(表示比例)或一个整数(表示样本数量)。
- `random_state`:随机种子,用于控制数据集的随机划分。
- `shuffle`:是否在划分之前对数据进行洗牌。
- `stratify`:用于分层抽样的标签数组,确保训练集和测试集中的类别比例相同。
下面是一个示例演示如何使用`train_test_split`函数划分数据集:
```python
from sklearn.model_selection import train_test_split
import numpy as np
# 创建一个示例数据集
X = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])
y = np.array([0, 1, 0, 1])
# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 打印划分后的数据集
print("训练集 X:", X_train)
print("测试集 X:", X_test)
print("训练集 y:", y_train)
print("测试集 y:", y_test)
```
这将输出:
```
训练集 X: [[1 2]
[7 8]
[3 4]]
测试集 X: [[5 6]]
训练集 y: [0 1 1]
测试集 y: [0]
```
阅读全文