利用sklearn库随机生成数据集
时间: 2023-07-25 15:16:20 浏览: 99
随机数据生成器
4星 · 用户满意度95%
sklearn库提供了很多生成数据集的函数,其中make_classification函数可以用于生成分类问题的数据集。下面是一个示例代码:
```python
from sklearn.datasets import make_classification
# 生成100个样本,每个样本有5个特征,2个类别,不平衡比例为1:2
X, y = make_classification(n_samples=100, n_features=5, n_classes=2, weights=[0.33, 0.67], random_state=42)
# 输出数据集的形状和标签的分布
print('X shape:', X.shape)
print('y distribution:', {i: np.sum(y == i) for i in np.unique(y)})
```
该代码随机生成100个样本,每个样本有5个特征,分为2个类别,不平衡比例为1:2。输出结果为:
```
X shape: (100, 5)
y distribution: {0: 33, 1: 67}
```
可以看到,生成的数据集中1类别的样本数量是0类别的两倍。可以使用weights参数来控制不平衡比例。
阅读全文