python代码实现k-means聚类分析的思路(不使用现成聚类库)_kmeans聚类算法代码python - CSDN文库

92 浏览量更新于2023-03-16 评论收藏 62KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

python 代码实现代码实现k-means聚类分析的思路聚类分析的思路(不使用现成聚类库不使用现成聚类库)

一、实验目标一、实验目标

　　　　1、使用 K-means 模型进行聚类，尝试使用不同的类别个数 K，并分析聚类结果。

　　　　2、按照 8:2 的比例随机将数据划分为训练集和测试集，至少尝试 3 个不同的 K 值，并画出不同 K 下的聚类结果，

及不同模型在训练集和测试集上的损失。对结果进行讨论，发现能解释数据的最好的 K 值。二、算法原理

　　　　首先确定k，随机选择k个初始点之后所有点根据距离质点的距离进行聚类分析，离某一个质点a相较于其他质点最近

的点分配到a的类中，根据每一类mean值更新迭代聚类中心，在迭代完成后分别计算训练集和测试集的损失函数SSE_train、

SSE_test，画图进行分析。

伪代码如下：

num=10 #k的种类

for k in range(1,num):

随机选择k个质点

for i in range(n): #迭代n次

根据点与质点间的距离对于X_train进行聚类

根据mean值迭代更新质点

计算SSE_train

计算SSE_test

画图

　算法流程图：

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

三、代码实现三、代码实现

1、导入库

import pandas as pd

import matplotlib.pyplot as plt

import numpy as np

from sklearn.model_selection import train_test_split

2、计算距离

def distance(p1,p2):

return np.sqrt((p1[0]-p2[0])**2+(p1[1]-p2[1])**2)

3、计算均值

def means(arr):

return np.array([np.mean([p[0] for p in arr]),np.mean([p[1] for p in arr])])

4、二维数据处理

#数据处理

data= pd.read_table('cluster.dat',sep=' ',header=None)

data.columns=['x'] data['y']=None

for i in range(len(data)): #遍历每一行

column = data['x'][i].split( ) #分开第i行，x列的数据。split()默认是以空格等符号来分割，返回一个列表

data['x'][i]=column[0] #分割形成的列表第一个数据给x列

data['y'][i]=column[1] #分割形成的列表第二个数据给y列

list=[] list1=[] for i in range(len(data)):

list.append(float(data['x'][i]))

list.append(float(data['y'][i]))

list1.append(list)

list=[] arr=np.array(list1)

print(arr)

5、划分数据集和训练集

#按照8：2划分数据集和训练集

X_train, X_test = train_test_split(arr,test_size=0.2,random_state=1)

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余2页未读，立即下载

评论0

weixin_38526823

粉丝: 5
资源: 946

会员权益专享

图片转文字

全年可省5，000元立即开通

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈