train_test_split()参数设置
时间: 2023-11-08 07:05:04 浏览: 80
train_test_split()函数是用于将数据集划分为训练集和测试集的函数。它的参数设置包括:
1. `arrays`:待划分的数据集,可以是一个数组(例如:numpy数组),也可以是多个数组组成的列表或元组。
2. `test_size`:测试集的大小,可以是一个浮点数(表示测试集占总数据集的比例),也可以是整数(表示测试集的样本数量)。默认值为0.25(即25%)。
3. `train_size`:训练集的大小,与`test_size`相反,可以是一个浮点数或整数。如果`test_size`未指定并且`train_size`也未指定,则默认为0.75(即75%)。
4. `random_state`:随机种子,用于控制数据集的划分方式。设定一个固定的随机种子能够确保每次划分得到相同的结果。默认为None,表示不使用随机种子。
5. `shuffle`:是否在划分前对数据进行洗牌(随机打乱),默认为True。如果设置为False,则按照原始顺序划分数据。
6. `stratify`:是否按照类别进行分层划分。如果设置为True,并且数据集包含类别标签(y),则会按照类别比例划分样本。
- 注意:仅当`arrays`参数只包含一个数组(例如:X)时,才能使用`stratify`。如果`arrays`参数包含多个数组,则不能使用`stratify`。
示例代码如下:
```python
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
阅读全文