分裂聚类函数实现鸢尾花数据集聚类并实现可视化
时间: 2023-08-09 09:10:39 浏览: 128
模式识别作业__ISODATA聚类算法 用MATLAB实现鸢尾花公开数据集
5星 · 资源好评率100%
好的,我们可以使用分裂聚类算法(Bisecting K-Means)来实现鸢尾花数据集的聚类,并可视化聚类结果。首先,我们需要导入必要的库和数据集:
```python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
```
然后,我们可以定义一个分裂聚类函数,该函数将输入数据集、聚类数和最大迭代次数,并返回一个包含每个样本所属聚类的标签的向量。
```python
from sklearn.cluster import KMeans
def bisecting_kmeans(X, n_clusters, max_iter):
# 初始化所有数据为同一个聚类
labels = np.zeros(X.shape[0])
# 对整个数据集进行聚类
kmeans = KMeans(n_clusters=1)
kmeans.fit(X)
centroids = kmeans.cluster_centers_
# 设置当前聚类数为1
current_clusters = 1
# 循环迭代,将数据集分裂为n_clusters个聚类
while current_clusters < n_clusters:
# 找到最大SSE的聚类进行分裂
max_sse = -1
max_cluster_index = -1
for i in range(current_clusters):
cluster_data = X[labels==i]
# 对当前聚类进行K-Means聚类
kmeans = KMeans(n_clusters=2, max_iter=max_iter)
kmeans.fit(cluster_data)
# 计算SSE(误差平方和)
sse = np.sum(np.square(cluster_data-kmeans.cluster_centers_[kmeans.labels_]))
# 记录最大SSE的聚类
if sse > max_sse:
max_sse = sse
max_cluster_index = i
max_cluster_labels = kmeans.labels_
max_cluster_centroids = kmeans.cluster_centers_
# 更新标签
labels[labels==max_cluster_index] = max_cluster_labels + current_clusters
# 更新质心
centroids[max_cluster_index] = max_cluster_centroids[0]
centroids = np.vstack([centroids, max_cluster_centroids[1]])
current_clusters += 1
return labels
```
接下来,我们可以使用该函数对鸢尾花数据集进行聚类,并将结果可视化。
```python
# 将数据集聚类为3个类别
labels = bisecting_kmeans(X, 3, 100)
# 绘制聚类结果
plt.scatter(X[:, 0], X[:, 1], c=labels)
plt.xlabel('Sepal Length')
plt.ylabel('Sepal Width')
plt.title('Iris Clustering with Bisecting K-Means')
plt.show()
```
这将生成一个散点图,其中每个点的颜色表示其所属的聚类标签。
![iris_bisecting_kmeans](https://user-images.githubusercontent.com/57250843/135741881-9c2d7a2c-5e9c-41d0-8ed4-5236d8567b4e.png)
这就是使用分裂聚类函数实现鸢尾花数据集聚类并可视化的过程。希望这可以帮助你解决问题。
阅读全文