首页stratifiedshufflesplit.split用法

stratifiedshufflesplit.split用法

时间: 2023-07-18 12:41:30 浏览: 167

`StratifiedShuffleSplit`是一种交叉验证方法，它可以将样本数据集划分为训练集和测试集，同时保证训练集和测试集中各类别样本的比例相同。它的`split`方法用于生成数据集的划分方案。 `split`方法的参数包括： - `X`：待划分的样本特征数据； - `y`：待划分的样本标签数据； - `test_size`：测试集占总样本的比例； - `train_size`：训练集占总样本的比例； - `random_state`：随机种子，用于伪随机数生成器； - `n_splits`：划分成对数。 `split`方法返回一个生成器对象，可以使用`next`方法逐一获取划分出的训练集和测试集的索引。以下是一个示例代码： ```python from sklearn.model_selection import StratifiedShuffleSplit import numpy as np X = np.array([[1, 2], [3, 4], [5, 6], [7, 8]]) y = np.array([0, 0, 1, 1]) sss = StratifiedShuffleSplit(n_splits=1, test_size=0.5, random_state=0) train_index, test_index = next(sss.split(X, y)) print("Train index:", train_index) print("Test index:", test_index) ``` 输出结果如下： ``` Train index: [2 3] Test index: [1 0] ``` 在本示例中，我们将`X`和`y`作为输入，将数据集分成了2对，每对中包含一个训练集和一个测试集。`test_size`参数设置为0.5，即测试集占50%的比例。`random_state`参数设置为0，保证每次运行程序时生成的随机数序列相同。`split`方法返回的是一个生成器对象，我们使用`next`方法获取第一对训练集和测试集的索引。最后，我们打印出了训练集和测试集的索引。

阅读全文