威斯康星乳腺癌数据库 (Wisconsin Breast Cancer Database)分类分析python代码
时间: 2024-09-09 19:09:49 浏览: 58
breast-cancer-wisconsin.data.zip_breast_breast cancer_cancer_分类数
威斯康星乳腺癌数据库(Wisconsin Breast Cancer Database, WBCD)是一个广泛用于机器学习的医学数据集,它包含了关于乳腺癌肿块的特征信息,这些数据可用于构建分类器来预测肿瘤的良恶性。
以下是使用Python进行WBCD数据集分类分析的一个简单示例。在这个示例中,我们将使用scikit-learn库来导入数据、进行数据预处理、建立分类模型,并评估模型的性能。
首先,确保安装了必要的库:
```python
pip install numpy pandas scikit-learn matplotlib
```
然后,编写Python代码:
```python
import numpy as np
import pandas as pd
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import classification_report, accuracy_score
# 加载数据集
data = datasets.load_breast_cancer()
X = data.data
y = data.target
# 将数据集划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
# 数据标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
# 建立SVM分类器
clf = SVC(kernel='linear')
clf.fit(X_train, y_train)
# 预测测试集
y_pred = clf.predict(X_test)
# 输出分类报告和准确率
print(classification_report(y_test, y_pred))
print('Accuracy:', accuracy_score(y_test, y_pred))
```
这段代码首先加载了WBCD数据集,然后将其分为训练集和测试集。接着对数据进行标准化处理,以便更好地配合SVM分类器。之后,训练了一个线性核的SVM模型,并在测试集上进行预测,最后输出了分类报告和准确率。
阅读全文