python实现从excel表格中使用第二列第三列中的前六个数据为聚合类中心,同时只对通过IDLE中输入的多组二维数据进行聚类,将聚类后的点模糊判断断到前六个点中某个聚合类中心的k-means聚合类,并根据聚合类的类给出对表格中第四列和第五列的数据,并使用其可视化的算法
时间: 2024-02-22 18:55:46 浏览: 54
好的,这是一个比较复杂的问题,需要分步骤来实现。下面是大致的实现思路:
1. 首先需要安装 openpyxl 库,用于读取 Excel 表格中的数据。
2. 读取 Excel 表格中的第二列和第三列数据,取前六个数据作为聚类中心。
3. 编写 k-means 算法,对输入的二维数据进行聚类。由于要模糊判断到前六个点中某个聚类中心,需要将每个点计算到每个聚类中心的距离,选择距离最小的那个聚类中心作为该点所属的类别。
4. 根据聚类的类别,从 Excel 表格中取出对应的第四列和第五列数据。
5. 将聚类后的点和聚类中心可视化,可以使用 matplotlib 库实现。
下面是一个简单的实现示例:
```
import openpyxl
import matplotlib.pyplot as plt
import numpy as np
# 读取 Excel 表格中的数据
wb = openpyxl.load_workbook('data.xlsx')
ws = wb.active
data = []
for row in ws.iter_rows(min_row=2, values_only=True):
data.append(row[1:3])
# 取前六个数据作为聚类中心
centroids = np.array(data[:6])
# 定义 k-means 算法函数
def kmeans(data, centroids):
k = centroids.shape[0]
labels = np.zeros(len(data))
for i, d in enumerate(data):
distances = np.linalg.norm(centroids - d, axis=1)
labels[i] = np.argmin(distances)
new_centroids = np.zeros_like(centroids)
for i in range(k):
new_centroids[i] = np.mean(data[labels == i], axis=0)
return new_centroids, labels
# 输入多组二维数据进行聚类
while True:
try:
x, y = input('请输入二维数据,以逗号分隔:').split(',')
x, y = float(x), float(y)
data.append([x, y])
centroids, labels = kmeans(data, centroids)
print('该点所属的类别为:', int(labels[-1]))
print('对应的第四列和第五列数据为:', ws.cell(row=labels[-1]+1, column=4).value, ws.cell(row=labels[-1]+1, column=5).value)
# 可视化
plt.clf()
plt.scatter(centroids[:, 0], centroids[:, 1], marker='^', s=100, c='r')
plt.scatter(data[:-1, 0], data[:-1, 1], c=labels[:-1], cmap='viridis', alpha=0.5)
plt.scatter(data[-1, 0], data[-1, 1], marker='x', s=100, c='k')
plt.show()
except KeyboardInterrupt:
break
```
注意:上述代码中的 `data.xlsx` 是一个包含数据的 Excel 表格文件,其中第二列和第三列是二维数据,第四列和第五列是对应的标签和数值。在运行代码时,需要在 IDLE 中输入多组二维数据,以逗号分隔。可视化结果会在每次输入后显示出来,按 `Ctrl+C` 可以退出程序。
阅读全文