import numpy as np import matplotlib.pyplot as plt import pandas as pd def kmeans(data, k): # 手动指定聚类中心 centers = np.array([[21.0, 1.0], [-1.0, 20.0], [0.0, 0.0],[-1.0, -8.0]]) # 记录每个数据点所属的簇 clusters = np.zeros(len(data)) # 聚类迭代次数 max_iter = 100 for i in range(max_iter): # 计算每个数据点到聚类中心的距离 distances = np.sqrt(((data - centers[:, np.newaxis])**2).sum(axis=2)) # 将每个数据点分配到最近的聚类中心所在的簇 clusters = np.argmin(distances, axis=0) # 更新聚类中心 for j in range(k): centers[j] = data[clusters == j].mean(axis=0) return clusters, centers # 生成数据集 data = pd.read_excel('allindex2.xlsx') # 聚类 clusters, centers = kmeans(data, 4) # 绘制结果 plt.scatter(data[:, 0], data[:, 1], c=clusters) plt.scatter(centers[:, 0], centers[:, 1], marker='x', s=200, linewidths=3, color='r') plt.show()ValueError: Unable to coerce to Series/DataFrame, dimension must be <= 2: (4, 1, 2)
时间: 2023-12-08 14:06:44 浏览: 119
Matplotlib.pyplot 三维绘图的实现示例
这个错误是因为在绘制散点图时,使用了一个二维的数据集,而数据集实际上是三维的。这是因为在 `kmeans` 函数中,我们使用了一个三维的数组来存储数据点的坐标,其中第一维是数据点的编号,第二维和第三维是数据点的坐标。
要解决这个问题,我们需要在调用 `plt.scatter` 函数时,只传入前两维的数据。具体来说,可以使用 `data[:, 0]` 和 `data[:, 1]` 来分别表示数据点的 x 坐标和 y 坐标,然后将它们传递给 `plt.scatter` 函数即可。修改后的代码如下所示:
```python
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
def kmeans(data, k):
# 手动指定聚类中心
centers = np.array([[21.0, 1.0], [-1.0, 20.0], [0.0, 0.0],[-1.0, -8.0]])
# 记录每个数据点所属的簇
clusters = np.zeros(len(data))
# 聚类迭代次数
max_iter = 100
for i in range(max_iter):
# 计算每个数据点到聚类中心的距离
distances = np.sqrt(((data - centers[:, np.newaxis])**2).sum(axis=2))
# 将每个数据点分配到最近的聚类中心所在的簇
clusters = np.argmin(distances, axis=0)
# 更新聚类中心
for j in range(k):
centers[j] = data[clusters == j].mean(axis=0)
return clusters, centers
# 生成数据集
data = pd.read_excel('allindex2.xlsx').values
# 聚类
clusters, centers = kmeans(data, 4)
# 绘制结果
plt.scatter(data[:, 0], data[:, 1], c=clusters)
plt.scatter(centers[:, 0], centers[:, 1], marker='x', s=200, linewidths=3, color='r')
plt.show()
```
这样就可以正确绘制出散点图了。
阅读全文