import numpy as np import matplotlib.pyplot as plt import pandas as pd def kmeans(data, k): # 手动指定聚类中心 centers = np.array([[21.0, 1.0], [-1.0, 20.0], [0.0, 0.0],[-1.0, -8.0]]) # 记录每个数据点所属的簇 clusters = np.zeros(len(data)) # 聚类迭代次数 max_iter = 100 for i in range(max_iter): # 计算每个数据点到聚类中心的距离 distances = np.sqrt(((data - centers[:, np.newaxis])**2).sum(axis=2)) # 将每个数据点分配到最近的聚类中心所在的簇 clusters = np.argmin(distances, axis=0) # 更新聚类中心 for j in range(k): centers[j] = data[clusters == j].mean(axis=0) return clusters, centers # 生成数据集 data = pd.read_excel('allindex2.xlsx') # 聚类 clusters, centers = kmeans(data, 4) # 绘制结果 plt.scatter(data[:, 0], data[:, 1], c=clusters) plt.scatter(centers[:, 0], centers[:, 1], marker='x', s=200, linewidths=3, color='r') plt.show()ValueError: Unable to coerce to Series/DataFrame, dimension must be <= 2: (4, 1, 2)

Python数据挖掘：Numpy, Pandas与Matplotlib基础教程

"这篇教程介绍了Python中的Numpy、Pandas和Matplotlib这三个重要数据分析和可视化库的基础知识。文章以一个电力用户数据集为例，数据集包含用户A、用户B、用户C共21天的用电量。" 在数据处理和分析领域，Python的...

Python数据可视化：matplotlib与pandas画图实战

首先，我们导入所需的库：pandas用于数据处理，numpy用于数值计算，matplotlib.pyplot作为matplotlib的接口，方便进行绘图操作。在示例代码中，创建了一个包含随机数的DataFrame（df），并使用cumsum()函数计算每一...

import random import numpy as np import matplotlib.pyplot as plt 生成随机坐标点 def generate_points(num_points): points = [] for i in range(num_points): x = random.uniform(-10, 10) y = random.uniform(-10, 10) points.append([x, y]) return points 计算欧几里得距离 def euclidean_distance(point1, point2): return np.sqrt(np.sum(np.square(np.array(point1) - np.array(point2)))) K-means算法实现 def kmeans(points, k, num_iterations=100): num_points = len(points) # 随机选择k个点作为初始聚类中心 centroids = random.sample(points, k) # 初始化聚类标签和距离 labels = np.zeros(num_points) distances = np.zeros((num_points, k)) for i in range(num_iterations): # 计算每个点到每个聚类中心的距离 for j in range(num_points): for l in range(k): distances[j][l] = euclidean_distance(points[j], centroids[l]) # 根据距离将点分配到最近的聚类中心 for j in range(num_points): labels[j] = np.argmin(distances[j]) # 更新聚类中心 for l in range(k): centroids[l] = np.mean([points[j] for j in range(num_points) if labels[j] == l], axis=0) return labels, centroids 生成坐标点 points = generate_points(100) 对点进行K-means聚类 k_values = [2, 3, 4] for k in k_values: labels, centroids = kmeans(points, k) # 绘制聚类结果 colors = [‘r’, ‘g’, ‘b’, ‘y’, ‘c’, ‘m’] for i in range(k): plt.scatter([points[j][0] for j in range(len(points)) if labels[j] == i], [points[j][1] for j in range(len(points)) if labels[j] == i], color=colors[i]) plt.scatter([centroid[0] for centroid in centroids], [centroid[1] for centroid in centroids], marker=‘x’, color=‘k’, s=100) plt.title(‘K-means clustering with k={}’.format(k)) plt.show()import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.cluster import KMeans from sklearn.datasets import load_iris 载入数据集 iris = load_iris() X = iris.data y = iris.target K-means聚类 kmeans = KMeans(n_clusters=3, random_state=0).fit(X) 可视化结果 plt.scatter(X[:, 0], X[:, 1], c=kmeans.labels_) plt.xlabel(‘Sepal length’) plt.ylabel(‘Sepal width’) plt.title(‘K-means clustering on iris dataset’) plt.show()对这个算法的结果用SSE，轮廓系数，方差比率准则，DBI几个指标分析

import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.cluster import KMeans from sklearn.datasets import load_iris from sklearn.metrics import silhouette_score from ...

import numpy as np import pandas as pd from sklearn.cluster import KMeans from sklearn.preprocessing import StandardScaler from scipy.spatial.distance import cdist import matplotlib.pyplot as plt from pandas import DataFrame from sklearn.decomposition import PCA plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签 plt.rcParams['axes.unicode_minus']=False #用来正常显示负号 pd.set_option('display.max_rows', None)#显示全部行 pd.set_option('display.max_columns', None)#显示全部列 np.set_printoptions(threshold=np.inf) pd.set_option('display.max_columns', 9000) pd.set_option('display.width', 9000) pd.set_option('display.max_colwidth', 9000) df = pd.read_csv(r'附件1.csv',encoding='gbk') X = np.array(df.iloc[:, 1:]) X=X[0:,1:] k=93 kmeans_model = KMeans(n_clusters=k, random_state=123) fit_kmeans = kmeans_model.fit(X) # 模型训练 #查看聚类结果 kmeans_cc = kmeans_model.cluster_centers_ # 聚类中心 print('各类聚类中心为：\n', kmeans_cc) kmeans_labels = kmeans_model.labels_ # 样本的类别标签 print('各样本的类别标签为：\n', kmeans_labels) r1 = pd.Series(kmeans_model.labels_).value_counts() # 统计不同类别样本的数目 print('最终每个类别的数目为：\n', r1) # 输出聚类分群的结果 # cluster_center = pd.DataFrame(kmeans_model.cluster_centers_, # columns=[ str(x) for x in range(1,94)]) # 将聚类中心放在数据框中 # cluster_center.index = pd.DataFrame(kmeans_model.labels_). \ # drop_duplicates().iloc[:, 0] # 将样本类别作为数据框索引 # print(cluster_center)代码解释

import matplotlib.pyplot as plt from pandas import DataFrame from sklearn.decomposition import PCA 2. 读取数据集 python df = pd.read_csv(r'附件1.csv',encoding='gbk') X = np.array(df.iloc[:, 1...

a.程序功能：读入“housing.csv”文件，按注释要求对某地区收入中位数进行聚类，以展示该地区的收入情况。聚类需要使用数据集中的三列元素：longitude（经度）；latitude（纬度）；median_income（收入中位数）。 b.原始程序如下图所示： # fillblank_2.py import matplotlib.pyplot as plt from 【1】 import KMeans # 导入聚类库 import pandas as pd import numpy as np plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False # 加载数据集并提取数据 data_ori = 【2】 # 读取housing.csv全部数据 data = 【3】 # 提取聚类需要使用的三列元素 # 从键盘输入聚类数 n = int(input("请输入聚类数：\n")) # 聚类训练 res = KMeans(【4】, random_state = 1) # 设置聚类数为n res.fit(data) # 展示结果 centers = 【5】 # 获取所有簇中心 print(centers)

import matplotlib.pyplot as plt from sklearn.cluster import KMeans # 导入聚类库 import pandas as pd import numpy as np plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] ...

代码改进：import numpy as np import pandas as pd import matplotlib as mpl import matplotlib.pyplot as plt from sklearn.datasets import make_blobs def distEclud(arrA,arrB): #欧氏距离 d = arrA - arrB dist = np.sum(np.power(d,2),axis=1) #差的平方的和 return dist def randCent(dataSet,k): #寻找质心 n = dataSet.shape[1] #列数 data_min = dataSet.min() data_max = dataSet.max() #生成k行n列处于data_min到data_max的质心 data_cent = np.random.uniform(data_min,data_max,(k,n)) return data_cent def kMeans(dataSet,k,distMeans = distEclud, createCent = randCent): x,y = make_blobs(centers=100)#生成k质心的数据 x = pd.DataFrame(x) m,n = dataSet.shape centroids = createCent(dataSet,k) #初始化质心,k即为初始化质心的总个数 clusterAssment = np.zeros((m,3)) #初始化容器 clusterAssment[:,0] = np.inf #第一列设置为无穷大 clusterAssment[:,1:3] = -1 #第二列放本次迭代点的簇编号，第三列存放上次迭代点的簇编号 result_set = pd.concat([pd.DataFrame(dataSet), pd.DataFrame(clusterAssment)],axis = 1,ignore_index = True) #将数据进行拼接，横向拼接，即将该容器放在数据集后面 clusterChanged = True while clusterChanged: clusterChanged = False for i in range(m): dist = distMeans(dataSet.iloc[i,:n].values,centroids) #计算点到质心的距离（即每个值到质心的差的平方和） result_set.iloc[i,n] = dist.min() #放入距离的最小值 result_set.iloc[i,n+1] = np.where(dist == dist.min())[0] #放入距离最小值的质心标号 clusterChanged = not (result_set.iloc[:,-1] == result_set.iloc[:,-2]).all() if clusterChanged: cent_df = result_set.groupby(n+1).mean() #按照当前迭代的数据集的分类，进行计算每一类中各个属性的平均值 centroids = cent_df.iloc[:,:n].values #当前质心 result_set.iloc[:,-1] = result_set.iloc[:,-2] #本次质心放到最后一列里 return centroids, result_set x = np.random.randint(0,100,size=100) y = np.random.randint(0,100,size=100) randintnum=pd.concat([pd.DataFrame(x), pd.DataFrame(y)],axis = 1,ignore_index = True) #randintnum_test, randintnum_test = kMeans(randintnum,3) #plt.scatter(randintnum_test.iloc[:,0],randintnum_test.iloc[:,1],c=randintnum_test.iloc[:,-1]) #result_test,cent_test = kMeans(data, 4) cent_test,result_test = kMeans(randintnum, 3) plt.scatter(result_test.iloc[:,0],result_test.iloc[:,1],c=result_test.iloc[:,-1]) plt.scatter(cent_test[:,0],cent_test[:,1],color = 'red',marker = 'x',s=100)

import matplotlib.pyplot as plt from sklearn.datasets import make_blobs from scipy.spatial.distance import cdist def randCent(dataSet, k): """ 随机生成k个质心 """ n = dataSet.shape[1] # 列数 ...

from future import print_function from pandas import DataFrame,Series import pandas as pd datafile='/root/dataset/air_customer_Data/air_data.csv' data=pd.read_csv(datafile,encoding='utf-8') cleanedfile='cleaned.csv' data1=data[data['SUM_YR_1'].notnull() & data['SUM_YR_2'].notnull()] data1 index1=data['SUM_YR_1']!=0 index2=data['SUM_YR_2']!=0 index3=data['SEG_KM_SUM']>0 data1 = data1[(index1 | index2) & index3] data1.to_csv(cleanedfile) data2=data1[['LOAD_TIME','FFP_DATE','LAST_TO_END','FLIGHT_COUNT','SEG_KM_SUM','avg_discount']] data2.to_csv('datadecrese.csv') 3 import numpy as np data=pd.read_csv('datadecrese.csv') data['L']=pd.to_datetime(data['LOAD_TIME'])-pd.to_datetime(data['FFP_DATE']) data['L'] =data['L'].astype("str").str.split().str[0] # 去除数据中的days字符，只输出数字，再转化为数值型数据 data['L'] = data['L'].astype("int") / 30 data.drop(columns=['LOAD_TIME','FFP_DATE'], inplace=True) data.rename(columns = {'LAST_TO_END':'R','FLIGHT_COUNT':'F','SEG_KM_SUM':'M','avg_discount':'C'},inplace=True) data.drop(columns=['Unnamed: 0'], inplace=True) 4 data.describe() 5 P108 data=(data-data.mean())/data.std() 6 import pandas as pd from pandas import DataFrame,Series from sklearn.cluster import KMeans k=5 kmodel=KMeans(n_clusters=k,random_state=3) kmodel.fit(data) 7 import matplotlib import matplotlib.pyplot as plt clu=kmodel.cluster_centers_ x=[1,2,3,4,5] plt.rcParams['font.sans-serif'] = 'SimHei' plt.rcParams['axes.unicode_minus'] = False for i in range(5): plt.plot(x,clu[i]) plt.show

这段代码是用Python的Pandas和Scikit-learn库进行数据预处理和聚类分析的。首先，从一个csv文件中读取数据，然后进行数据清洗，去除缺失值和异常值，再将数据保存为新的csv文件。接着，读取新的csv文件，对数据进行...

import pandas as pd from sklearn.cluster import KMeans import matplotlib.pyplot as plt import numpy as np from sklearn.preprocessing import StandardScaler from sklearn import metrics beer=pd.read_csv('data.txt',encoding='gbk',sep='') X=beer[["calories","sodium","alcohol","cost"]] km=KMeans(n_clusters=3).fit(X) beer['cluster']=km.labels_ centers=km.cluster_centers_ plt.rcParams['font.size']=14 colors=np.array(['red','green','blue','yellow']) plt.scatter(beer["calories"], beer["alcohol"], c=colors[beer["cluster"]]) plt.scatter(centers[:,0], centers[:,2], linewidths=3,marker='+',s=300,c='black') plt.xlabel("Calories") plt.ylable("Alcohol") plt.suptitle("Calories and Alcohol") pd.plotting.scatter_matrix(beer[["calories", "sodium","alcohol","cost"]],s=100,alpha=1,c=colors[beer["cluster"]],figsize=(10,10)) plt.suptitle("original data") scaler=StandardScaler() X_scaled=scaler.fit_transform(X) km=KMeans(n_clusters=3).fit(X_scaled) beer["scaled_cluster"]=km.labels_ centers=km.cluster_centers_ pd.plotting.scatter_matrix(X, c=colors[beer.scaled_cluster],alpha=1,figsize=(10,10),s=100) plt.suptitle("standard data") score_scaled=metrics.silhouette_score(X, beer.scaled_cluster) score=metrics.silhouette_score(X, beer.cluster) print("得分为",score_scaled,score) scores=[] for k in range(2,20): labels=KMeans(n_clusters=k).fit(X).labels_ score=metrics.silhouette_score(X, labels) scores.append(score) for i in range(len(scores)): print((i+2,scores[i])) print(max(scores[i])) plt.figure() plt.plot(list(range(2,20)), scores,"ro") plt.xlabel("Number of Clusters Initialized") plt.ylabel("Sihouette Score") plt.suptitle("K parameter optimize") plt.show() scores=[] for k in range(2,20): labels=KMeans(n_clusters=k).fit(X_scaled).labels_ score=metrics.silhouette_score(X_scaled, labels) scores.append(score) for i in range(len(scores)): print((i+2,scores[i]))

首先，它导入了一些必要的库，包括pandas用于数据处理，sklearn.cluster.KMeans用于聚类分析，matplotlib.pyplot用于数据可视化，numpy用于数值计算，以及sklearn.preprocessing.StandardScaler和sklearn...

实验目的：会用Python创建KMeans聚类分析模型；使用KMeans模型对航空公司客户价值进行聚类分析；会对聚类结果进行分析。实验内容：使用sklearn.cluester的KMeans类对航空公司客户数据进行聚类分析，把乘客分到不同的类别中。数据集：air_data.csv 数据集大小：62052条不重复数据原数据有40个属性，为了大家训练模型方便，本实验使用预处理后的标准化数据，该数据有5个属性。数据说明： ZL：入会至当前时长，反应可能的活跃时间 ZR：最近消费时间间隔，反应最近一段时间活跃程度 ZF：消费频次，反应客户忠诚度 ZM：消费里程总额，反应客户对乘机的依赖程度 ZC：舱位等级对应折扣系数，一般舱位等级越高，折扣系数越大载入训练数据、显示读入数据的前5行训练KMeans聚类模型，把数据聚成5类 from sklearn.cluster import KMeans k = 5 model = … KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300, n_clusters=5, n_init=10, n_jobs=None, precompute_distances='auto',random_state=None, tol=0.0001,verbose=0) 检查每个聚类类别样本数、每个聚类类别中心点，统计聚类个数及中心点画出5个聚类中心点在每个维度上的散点图，并按统一类别把聚类中心用线连接起来分析聚类结果

import matplotlib.pyplot as plt from sklearn.cluster import KMeans from sklearn.preprocessing import StandardScaler # 载入数据 data = pd.read_csv('air_data.csv') # 数据预处理 data = data[['ZL', 'ZR'...

sale_customers.csv数据集为我们提供了6类商品（分别为Fresh，Milk，Grocery，Frozen，Detergents_Paper和Delicassen）的客户年度支出数据，共有440组客户年度支出样本。运行下面的单元格读取数据，并对数据做K-Means聚类。代码示例： # 读取数据 sale= pd.read_csv("sale_customers.csv", delimiter=",") print(sale)

import matplotlib.pyplot as plt # 读取数据 sale = pd.read_csv("sale_customers.csv", delimiter=",") print(sale) # 取出6类商品的支出数据 X = sale.iloc[:, 2:].values # 将支出数据进行归一化处理 from ...

已经安装了numpy、pandas、matplotlib、scikit-learn这些库的基础上，使用k-means算法对鸢尾花数据进行聚类分析 1）导入鸢尾花数据集 2）输出数据的前5行 3）用TSNE进行数据的降维,降维到3维空间中 4）使用肘方法搜索合适的聚类数目，输出肘方法的可视化图 5）使用k-means方法进行聚类 6）输出“每簇包含的样本数量”、“每个簇的聚类中心”和“聚类效果V测度” 7）在3D空间中可视化聚类后的数据空间分布，并可视化聚类中心

import matplotlib.pyplot as plt inertias = [] for k in range(1,11): kmeans = KMeans(n_clusters=k, random_state=42).fit(X) inertias.append(kmeans.inertia_) plt.plot(range(1,11), inertias, 'bo-') plt...

python进行kmeans聚类分析

import matplotlib.pyplot as plt from sklearn.cluster import KMeans from sklearn.datasets import make_blobs # 生成随机数据 X, y = make_blobs(n_samples=1000, centers=4, random_state=42) 2.确定最佳...

python做kmeans聚类并画图

import matplotlib.pyplot as plt from sklearn.cluster import KMeans # 导入数据 data = pd.read_csv('data.csv') 2.数据预处理 python # 数据标准化 data = (data - data.mean()) / data.std() 3....

相关推荐

Python数据挖掘：Numpy, Pandas与Matplotlib基础教程

Python数据可视化：matplotlib与pandas画图实战

python中使用k-means聚类.zip_k-means聚类算法_python_python 用kmeans_聚类_聚类 P

KMeans聚类算法+代码

实现kmeans聚类的Python代码

文本挖掘中的KMeans聚类算法：解锁文本数据的隐藏价值

【kmeans聚类实战】：掌握案例分析，深化结果解读与决策

【kmeans聚类全解析】：从零基础到算法优化，提升你的数据处理能力

python进行kmeans聚类分析

python做kmeans聚类并画图

最新推荐

【中国房地产业协会-2024研报】2024年第三季度房地产开发企业信用状况报告.pdf

JHU荣誉单变量微积分课程教案介绍

管理建模和仿真的文件

【实战篇：自定义损失函数】：构建独特损失函数解决特定问题，优化模型性能

如何在ZYNQMP平台上配置TUSB1210 USB接口芯片以实现Host模式，并确保与Linux内核的兼容性？

Naruto爱好者必备CLI测试应用

"互动学习：行动中的多样性与论文攻读经历"

【强化学习损失函数探索】：奖励函数与损失函数的深入联系及优化策略

如何在Springboot后端项目中实现前端的多人视频会议功能，并使用Vue.js与ElementUI进行界面开发？

Android应用显示Ignaz-Taschner-Gymnasium取消课程概览