sklearn中的乳腺癌数据集介绍
时间: 2024-02-12 12:06:34 浏览: 270
id3决策树,实现sklearn乳腺癌数据集分类,并可视化展示
5星 · 资源好评率100%
在Scikit-learn中,乳腺癌数据集被称为Breast Cancer Wisconsin (Diagnostic)数据集,也是一个用于分类任务的数据集。该数据集与威斯康星大学医学院的乳腺癌数据集相同,都包含了乳腺组织的数字化图像,并且每个图像都有一个二元标签,分别表示该组织为恶性或良性。该数据集共有569个样本,其中212个为恶性,357个为良性。
每个样本包含30个数值型特征,这些特征与威斯康星大学医学院的乳腺癌数据集相同,包括半径、纹理、周长、面积、光滑度、紧凑度、对称性、分形维度等。在Scikit-learn中,该数据集可以通过以下方式进行加载:
```python
from sklearn.datasets import load_breast_cancer
data = load_breast_cancer()
X = data.data # 特征矩阵
y = data.target # 标签
```
其中,`data.data`表示特征矩阵,`data.target`表示标签。
阅读全文