kmeans聚类算法python实现文档聚类
时间: 2024-04-02 22:30:40 浏览: 95
K-means聚类算法是一种常用的无监督学习算法,用于将数据集划分为K个不同的类别。下面是使用Python实现K-means聚类算法的步骤:
1. 导入所需的库:
```python
import numpy as np
from sklearn.cluster import KMeans
```
2. 准备数据集:
```python
# 假设我们有一个包含n个样本的数据集X,每个样本有m个特征
X = np.array([[x1, x2, ..., xm], [x1, x2, ..., xm], ..., [x1, x2, ..., xm]])
```
3. 创建K-means模型并进行训练:
```python
# 创建K-means模型,设置聚类的簇数K
kmeans = KMeans(n_clusters=K)
# 对数据集进行聚类训练
kmeans.fit(X)
```
4. 获取聚类结果:
```python
# 获取每个样本所属的簇标签
labels = kmeans.labels_
```
5. 获取聚类中心:
```python
# 获取每个簇的中心点
centers = kmeans.cluster_centers_
```
6. 进行预测:
```python
# 对新的样本进行预测,返回其所属的簇标签
new_samples = np.array([[x1, x2, ..., xm], [x1, x2, ..., xm], ..., [x1, x2, ..., xm]])
predictions = kmeans.predict(new_samples)
```
7. 可视化聚类结果(可选):
```python
import matplotlib.pyplot as plt
# 绘制数据点
plt.scatter(X[:, 0], X[:, 1], c=labels)
# 绘制聚类中心
plt.scatter(centers[:, 0], centers[:, 1], marker='x', color='r')
plt.show()
```
以上是使用Python实现K-means聚类算法的基本步骤。你可以根据自己的数据集和需求进行相应的调整和扩展。
阅读全文