聚类分析python代码
时间: 2023-10-04 11:06:59 浏览: 43
聚类分析在Python中可以使用scikit-learn库来实现。其中,k-means算法是最常用的聚类算法之一。下面是一个基本的k-means聚类分析的Python代码示例:
```
# 导入所需的库
from sklearn.cluster import KMeans
import numpy as np
# 准备数据
X = np.array([[1, 2], [1, 4], [1, 0], [4, 2], [4, 4], [4, 0]])
# 创建KMeans模型并进行聚类
kmeans = KMeans(n_clusters=2)
kmeans.fit(X)
# 输出每个样本所属的簇
labels = kmeans.labels_
print("样本所属的簇:", labels)
# 输出聚类中心点的坐标
centers = kmeans.cluster_centers_
print("聚类中心点的坐标:", centers)
```
在这个例子中,我们创建了一个包含6个样本的数据集X。然后,我们使用KMeans类创建了一个k-means模型,并指定要聚类成2个簇。接下来,我们使用fit方法对数据进行聚类。最后,我们可以通过labels_属性获取每个样本所属的簇,通过cluster_centers_属性获取聚类中心点的坐标。
相关问题
聚类分析python代码演示
好的,下面是一个简单的聚类分析Python代码演示:
```python
# 导入所需的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
# 读取数据集
data = pd.read_csv('data.csv')
# 查看数据集
print(data.head())
# 将数据集转换为数组
X = np.array(data)
# 设置聚类数量
kmeans = KMeans(n_clusters=2)
# 训练模型
kmeans.fit(X)
# 获取聚类标签
labels = kmeans.labels_
# 获取聚类中心点
centroids = kmeans.cluster_centers_
# 绘制散点图
colors = ['r', 'g']
for i in range(len(X)):
plt.scatter(X[i][0], X[i][1], c=colors[labels[i]])
plt.scatter(centroids[:, 0], centroids[:, 1], marker='x', s=200, linewidths=3, color='b')
plt.show()
```
该代码演示了如何使用KMeans算法对一个二维数据进行聚类分析,并将结果绘制为散点图。首先,我们读取数据集并将其转换为数组。然后,我们使用KMeans算法设置聚类数量并训练模型。接下来,我们获取聚类标签和聚类中心点,并使用不同颜色的散点图可视化聚类结果。
层次聚类分析python代码
层次聚类分析是一种常用的聚类方法,它可以将数据集中的样本分成不同的类别。下面是一个简单的层次聚类分析的Python代码实现:
```python
import numpy as np
from scipy.cluster.hierarchy import dendrogram, linkage
import matplotlib.pyplot as plt
# 生成随机数据
np.random.seed(4711)
a = np.random.multivariate_normal([10, 0], [[3, 1], [1, 4]], size=[100,])
b = np.random.multivariate_normal([0, 20], [[3, 1], [1, 4]], size=[50,])
X = np.concatenate((a, b),)
# 生成距离矩阵
Z = linkage(X, 'ward')
# 绘制树状图
plt.figure(figsize=(25, 10))
plt.title('Hierarchical Clustering Dendrogram')
plt.xlabel('sample index')
plt.ylabel('distance')
dendrogram(Z, leaf_rotation=90., leaf_font_size=8.)
plt.show()
```
这段代码首先生成了一个随机数据集,然后使用`linkage`函数生成距离矩阵,最后使用`dendrogram`函数绘制树状图。其中,`ward`表示使用Ward方差最小化算法进行聚类。
如果你想对自己的数据进行层次聚类分析,只需要将数据集替换掉上面的随机数据即可。