sklearn库中有什么二维线性可分数据集
时间: 2024-02-21 10:59:06 浏览: 67
基于SVM的乳腺癌数据集分类的设计与实现.doc
在sklearn库中,可以使用`make_classification`函数生成二维线性可分数据集。这个函数可以生成具有指定数量样本和特征的数据集,可以通过参数控制数据集的线性可分程度、噪声、类别个数等等。其中,`n_classes`参数控制数据集的类别个数,默认为2,即二分类问题;`n_features`参数控制数据集的特征数,这里可以设为2,生成二维数据;`n_informative`参数控制数据集中有用的特征数,建议设置为2,这样生成的数据集就是线性可分的。下面是一个例子:
```python
from sklearn.datasets import make_classification
import matplotlib.pyplot as plt
X, y = make_classification(n_samples=100, n_features=2, n_informative=2, n_redundant=0, n_clusters_per_class=1, random_state=42)
plt.scatter(X[:, 0], X[:, 1], c=y)
plt.show()
```
这段代码生成了100个二维样本点,其中两个特征是有用的特征,数据集是线性可分的。可以通过可视化观察数据点的分布情况。
阅读全文