Kmeans用户画像python实现
时间: 2023-06-29 08:07:32 浏览: 199
K-means 是一种聚类算法,可以将数据集分成多个簇,每个簇内的数据点相似度较高,不同簇之间的数据点相似度较低。K-means 用户画像是将用户数据按照某些特征进行聚类,以便于对用户进行分类和分析。
下面是使用 Python 实现 K-means 用户画像的示例代码:
```python
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.preprocessing import MinMaxScaler
# 读取用户数据
data = pd.read_csv('user_data.csv')
# 特征选择
features = ['age', 'gender', 'income']
# 数据预处理
scaler = MinMaxScaler()
data[features] = scaler.fit_transform(data[features])
# 聚类分析
kmeans = KMeans(n_clusters=3, random_state=0).fit(data[features])
# 输出聚类结果
labels = kmeans.labels_
data['cluster'] = labels
print(data)
```
其中,`user_data.csv` 是用户数据文件,包含 `age`、`gender` 和 `income` 等特征。`features` 列表是需要进行聚类分析的特征。`MinMaxScaler` 对特征进行了归一化处理,将特征值缩放到 [0,1] 范围内。`KMeans` 是 sklearn 库中的 K-means 算法实现,`n_clusters` 参数指定聚类的簇数。`labels` 变量保存了聚类结果,`cluster` 是新添加的一列,表示每个用户所属的簇。
执行完上述代码后,即可得到用户数据的聚类结果。
阅读全文