k-means聚类算法python代码
时间: 2023-03-29 17:04:00 浏览: 120
以下是 k-means 聚类算法的 Python 代码:
```python
from sklearn.cluster import KMeans
import numpy as np
# 生成随机数据
data = np.random.rand(100, 2)
# 聚类数为3
kmeans = KMeans(n_clusters=3)
# 训练模型
kmeans.fit(data)
# 预测聚类结果
labels = kmeans.predict(data)
# 打印聚类中心
print(kmeans.cluster_centers_)
```
希望对你有帮助!
相关问题
可以导入房价数据的k-means聚类算法python代码
以下是一个简单的 Python 代码示例,用于将房价数据导入并使用 K-Means 聚类算法进行聚类:
```python
import numpy as np
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
# 读入数据
house_prices = pd.read_csv('house_prices.csv')
# 选择需要聚类的特征
features = ['LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF', 'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd']
# 对特征进行标准化
scaler = StandardScaler()
scaled_features = scaler.fit_transform(house_prices[features])
# K-Means 聚类
kmeans = KMeans(n_clusters=3, random_state=0)
kmeans.fit(scaled_features)
# 打印每个聚类的样本数量
print(pd.Series(kmeans.labels_).value_counts())
# 将聚类结果添加到原始数据集中
house_prices['Cluster'] = kmeans.labels_
# 输出聚类结果
print(house_prices.groupby('Cluster')[features].mean())
```
在此示例中,我们从一个名为“house_prices.csv”的文件中加载数据,并选择要聚类的特征。然后,我们使用 `StandardScaler` 对特征进行标准化,以便在执行 K-Means 聚类算法时归一化所有特征值。接下来,我们使用 `KMeans` 类定义一个 K-Means 聚类模型,并将其与标准化的特征数据进行拟合。我们使用 `value_counts()` 函数打印每个聚类的样本数量,并将聚类结果作为一个新的列添加到原始数据集中。最后,我们输出每个聚类的平均特征值,以便更好地了解聚类结果。
请注意,此示例仅用于说明如何使用 K-Means 聚类算法进行聚类,并且可能需要根据您的具体数据集进行更改。
K-Means聚类算法python代码,和轮廓系数,CHI,CH系数
以下是K-Means聚类算法的Python代码:
```python
import numpy as np
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score, calinski_harabasz_score, davies_bouldin_score
# 生成随机数据
X = np.random.rand(100, 2)
# 初始化KMeans模型
kmeans = KMeans(n_clusters=3, random_state=0)
# 训练模型
kmeans.fit(X)
# 预测结果
labels = kmeans.predict(X)
# 计算轮廓系数
silhouette_score = silhouette_score(X, labels)
print('轮廓系数:', silhouette_score)
# 计算CHI系数
chi_score = calinski_harabasz_score(X, labels)
print('CHI系数:', chi_score)
# 计算CH系数
ch_score = davies_bouldin_score(X, labels)
print('CH系数:', ch_score)
```
其中,`X`为输入数据,`n_clusters`为聚类簇数,`silhouette_score`为轮廓系数,`calinski_harabasz_score`为CHI系数,`davies_bouldin_score`为CH系数。
阅读全文
相关推荐










