breast cancer wisconsin (diagnostic) data set
时间: 2023-04-14 19:02:03 浏览: 480
乳腺癌威斯康星州(诊断)数据集是一个医学数据集,包含了乳腺癌患者的诊断结果和相关指标,如肿块大小、形状、边缘、质地、细胞核大小、细胞核形状等。这个数据集被广泛用于机器学习和数据挖掘领域,用于预测乳腺癌的恶性程度和诊断结果。
相关问题
UCI Machine Learning Repository中的Breast Cancer Wisconsin (Diagnostic) Data Set数据集怎么导入
您可以使用如下代码来导入Breast Cancer Wisconsin (Diagnostic) Data Set数据集:
```python
import pandas as pd
# 从UCI Machine Learning Repository下载Breast Cancer Wisconsin (Diagnostic) Data Set数据集
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data"
df = pd.read_csv(url, header=None)
# 将数据集分为特征和目标变量
X = df.iloc[:, 2:].values
y = df.iloc[:, 1].values
# 将目标变量进行编码,M(恶性)为1,B(良性)为0
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
y = le.fit_transform(y)
```
这里我们使用`pandas`库来读取UCI Machine Learning Repository中的Breast Cancer Wisconsin (Diagnostic) Data Set数据集,然后将数据集分为特征和目标变量。最后,使用`LabelEncoder`来编码目标变量,将M(恶性)编码为1,将B(良性)编码为0。
请解释Wisconsin breast cancer diagnostic data set 中的每一个变量
Wisconsin breast cancer diagnostic data set 中的每一个变量如下:
1. ID号: 此项为患者的ID号
2. Diagnosis: 诊断结果,M = 恶性肿瘤,B = 良性肿瘤
3. radius_mean: 半径的平均值
4. texture_mean: 纹理的平均值
5. perimeter_mean:周长的平均值
6. area_mean: 面积的平均值
7. smoothness_mean: 光滑度的平均值
8. compactness_mean: 紧密度的平均值
9. concavity_mean: 凹度的平均值
10. concave points_mean: 凹点的平均值
11. symmetry_mean: 对称性的平均值
12. fractal_dimension_mean: 分形维数的平均值
13. radius_se: 半径的标准误差
14. texture_se: 纹理的标准误差
15. perimeter_se: 周长的标准误差
16. area_se: 面积的标准误差
17. smoothness_se: 光滑度的标准误差
18. compactness_se: 紧密度的标准误差
19. concavity_se: 凹度的标准误差
20. concave points_se: 凹点的标准误差
21. symmetry_se: 对称性的标准误差
22. fractal_dimension_se: 分形维数的标准误差
23. radius_worst: 最大半径值
24. texture_worst: 最大纹理值
25. perimeter_worst: 最大周长值
26. area_worst: 最大面积值
27. smoothness_worst: 最大光滑度值
28. compactness_worst: 最大紧密度值
29. concavity_worst: 最大凹度值
30. concave points_worst: 最大凹点值
31. symmetry_worst: 最大对称性值
32. fractal_dimension_worst: 最大分形维数值。
阅读全文