威斯康辛乳腺癌数据集
时间: 2024-06-22 08:03:33 浏览: 351
威斯康星大学的乳腺癌数据集
威斯康星乳腺癌数据集(Wisconsin Breast Cancer Dataset),也被称为WDBC,是一个著名的用于机器学习和数据挖掘的经典数据集。它最初由伊丽莎白·布里格斯·沃德豪斯(Elizabeth W.布莱希斯)等人在1990年代初期为了乳腺癌研究而创建。这个数据集包含了来自乳腺活组织切片图像的一些特征,以及是否为恶性(癌症)的标签。
数据集包含了一系列描述肿瘤细胞的属性,如形状、纹理、大小等,这些属性通常被表示为数值特征。每个样本都有两个类别标签:恶性(Malignant)和良性(Benign)。这些特征通过统计方法(例如均值、标准差、频率分布等)得出,而非直接从图像中提取。
对于机器学习和数据分析人员来说,这个数据集是一个很好的实践案例,可以帮助学习和验证分类算法,比如支持向量机(SVM)、决策树、随机森林等模型的表现。同时,它也被广泛用于解释和可视化数据预处理、特征选择和模型评估的过程。
阅读全文