sklearn 的 make_classification详解
时间: 2023-10-21 08:14:10 浏览: 231
make_classification是scikit-learn中的一个函数,用于生成分类数据集。它可以根据指定的参数生成多类、二分类或多标签分类的数据集。
函数的常用参数如下:
- n_samples:生成样本数。
- n_features:样本特征数。
- n_informative:生成数据集中有信息的特征数。
- n_redundant:生成数据集中冗余特征数。
- n_repeated:生成数据集中重复特征数。
- n_classes:生成数据集中的类别数,默认为2。
- n_clusters_per_class:每个类别中的簇数。
- weights:每个类别的权重。
下面是一个使用make_classification生成二分类数据集的例子:
```python
from sklearn.datasets.samples_generator import make_classification
import matplotlib.pyplot as plt
# 生成二分类数据集
X, y = make_classification(n_samples=100, n_features=2, n_informative=2, n_redundant=0, n_clusters_per_class=1)
# 绘制数据集
plt.scatter(X[:, 0], X[:, 1], marker='o', c=y, s=25, edgecolor='k')
plt.show()
```
该代码生成了一个包含100个样本,每个样本有2个特征,其中有2个特征具有信息,没有冗余特征,每个类别中有1个簇的二分类数据集,并将其绘制出来。
make_classification函数的灵活性很高,可以通过调整参数生成不同种类的数据集,可以用于分类模型的测试和演示。
阅读全文