datasets.load_breast_cancer()
时间: 2024-10-16 19:22:20 浏览: 18
breast_cancer:sklearn乳腺癌数据集的机器学习练习
5星 · 资源好评率100%
`datasets.load_breast_cancer()` 是scikit-learn库中的一个功能,它允许用户直接加载经典的 Breast Cancer Wisconsin (Diagnostic) 数据集。这个数据集是用于机器学习和数据挖掘领域的监督学习示例,主要用于二分类任务,即区分良性(benign)乳腺肿瘤和恶性(malignant)乳腺肿瘤。该数据集包含了569个样本,每个样本有30个特征,如形状、纹理等,以及一个对应的标签(0表示良性,1表示恶性)。
当你调用`load_breast_cancer()`时,它会返回一个`Bunch`对象,其中包含以下几个重要的属性:
- `data`: 训练样本数据,是一个二维数组。
- `target`: 标签数组,对应于数据中的类别信息。
- `feature_names`: 每个特征的名称。
- ` DESCR`: 对数据集的描述文本,包含数据来源和详细信息。
下面是如何使用这个函数的一个简单例子:
```python
from sklearn.datasets import load_breast_cancer
cancer_data = load_breast_cancer()
X = cancer_data.data # 特征矩阵
y = cancer_data.target # 标签
feature_names = cancer_data.feature_names # 特征名称
```
你可以使用这个数据集来训练和评估各种分类算法。在使用前,记得进行数据预处理和分割(比如划分训练集和测试集),以便进行模型训练和性能验证。
阅读全文