乳腺癌数据集聚类分析代码
时间: 2023-09-16 14:11:27 浏览: 216
机器学习决策树代码,采用乳腺癌数据集
以下是使用K-means算法进行乳腺癌数据集聚类分析的示例代码:
```python
import pandas as pd
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
# 加载乳腺癌数据集
data = pd.read_csv('breast_cancer.csv')
# 查看数据集信息
print(data.info())
# 删除无用列
data.drop(['id', 'diagnosis', 'Unnamed: 32'], axis=1, inplace=True)
# 数据标准化
data_std = (data - data.mean()) / data.std()
# 聚类分析
kmeans = KMeans(n_clusters=2, random_state=0).fit(data_std)
# 聚类结果可视化
plt.scatter(data_std.iloc[:, 0], data_std.iloc[:, 1], c=kmeans.labels_)
plt.xlabel('Radius Mean')
plt.ylabel('Texture Mean')
plt.show()
```
在上述代码中,我们首先加载了乳腺癌数据集,并且删除了无用的列。然后对数据进行了标准化处理,以确保所有特征具有相同的权重。接下来,我们使用K-means算法对数据进行聚类分析,并且通过散点图对聚类结果进行可视化展示。在本示例中,我们将数据集聚类为两个簇。
阅读全文