过采样代码
时间: 2023-07-03 12:21:55 浏览: 76
过采样(Oversampling)是一种解决不平衡数据问题的方法之一,它通过对少数类样本进行复制或合成新样本的方式来增加少数类的样本数量,从而达到平衡数据的目的。下面是一个 Python 实现的过采样代码示例:
```python
from imblearn.over_sampling import RandomOverSampler
# X:特征矩阵,y:标签向量
ros = RandomOverSampler(random_state=0)
X_resampled, y_resampled = ros.fit_resample(X, y)
```
其中 `imblearn.over_sampling.RandomOverSampler` 是 imbalanced-learn 库提供的过采样方法,它通过在少数类样本中随机采样并对其进行复制来增加样本数量。`fit_resample` 方法接受特征矩阵 `X` 和标签向量 `y`,并返回过采样后的新特征矩阵 `X_resampled` 和新标签向量 `y_resampled`。
需要注意的是,过采样可能会导致模型过拟合,因此在使用过采样时需要注意调整模型参数或采用其他的解决不平衡数据问题的方法。
阅读全文