plt.rcParams['font.sans-serif']=['SimHei'] pd.set_option('display.max_columns', None) t = data['label'].value_counts() t.plot(kind = 'bar')

这段代码使用了matplotlib和pandas两个库，目的是将数据集中不同标签的数量进行可视化展示。第一行代码`plt.rcParams['font.sans-serif']=['SimHei']` 是用来设置matplotlib的字体为中文字体，这里设置的是SimHei。第二行代码`pd.set_option('display.max_columns', None)` 是用来设置pandas在控制台输出时，显示所有列，不省略。第三行代码`t = data['label'].value_counts()` 是用来统计数据集中不同标签的数量，返回一个Series类型的对象t，其中每个标签作为索引，对应的数量作为值。第四行代码`t.plot(kind = 'bar')` 是用来将Series对象t进行可视化展示，这里使用了柱状图(kind='bar')。

import numpy as np import pandas as pd from sklearn.cluster import KMeans from sklearn.preprocessing import StandardScaler from scipy.spatial.distance import cdist import matplotlib.pyplot as plt from pandas import DataFrame from sklearn.decomposition import PCA plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签 plt.rcParams['axes.unicode_minus']=False #用来正常显示负号 pd.set_option('display.max_rows', None)#显示全部行 pd.set_option('display.max_columns', None)#显示全部列 np.set_printoptions(threshold=np.inf) pd.set_option('display.max_columns', 9000) pd.set_option('display.width', 9000) pd.set_option('display.max_colwidth', 9000) df = pd.read_csv(r'附件1.csv',encoding='gbk') X = np.array(df.iloc[:, 1:]) X=X[0:,1:] k=93 kmeans_model = KMeans(n_clusters=k, random_state=123) fit_kmeans = kmeans_model.fit(X) # 模型训练 #查看聚类结果 kmeans_cc = kmeans_model.cluster_centers_ # 聚类中心 print('各类聚类中心为：\n', kmeans_cc) kmeans_labels = kmeans_model.labels_ # 样本的类别标签 print('各样本的类别标签为：\n', kmeans_labels) r1 = pd.Series(kmeans_model.labels_).value_counts() # 统计不同类别样本的数目 print('最终每个类别的数目为：\n', r1) # 输出聚类分群的结果 # cluster_center = pd.DataFrame(kmeans_model.cluster_centers_, # columns=[ str(x) for x in range(1,94)]) # 将聚类中心放在数据框中 # cluster_center.index = pd.DataFrame(kmeans_model.labels_). \ # drop_duplicates().iloc[:, 0] # 将样本类别作为数据框索引 # print(cluster_center)代码解释

这段代码主要是使用KMeans算法对一个数据集进行聚类分析，并输出聚类结果。下面是代码的解释： 1. 导入所需的库 ```python import numpy as np import pandas as pd from sklearn.cluster import KMeans from sklearn.preprocessing import StandardScaler from scipy.spatial.distance import cdist import matplotlib.pyplot as plt from pandas import DataFrame from sklearn.decomposition import PCA ``` 2. 读取数据集 ```python df = pd.read_csv(r'附件1.csv',encoding='gbk') X = np.array(df.iloc[:, 1:]) X=X[0:,1:] ``` 3. 使用KMeans算法进行聚类分析 ```python k=93 kmeans_model = KMeans(n_clusters=k, random_state=123) fit_kmeans = kmeans_model.fit(X) ``` 4. 输出聚类结果 ```python kmeans_cc = kmeans_model.cluster_centers_ print('各类聚类中心为：\n', kmeans_cc) kmeans_labels = kmeans_model.labels_ print('各样本的类别标签为：\n', kmeans_labels) r1 = pd.Series(kmeans_model.labels_).value_counts() print('最终每个类别的数目为：\n', r1) ``` 上述代码中，kmeans_cc表示各个类别的聚类中心，kmeans_labels表示每个样本所属的类别，r1表示每个类别的样本数目。 5. 将聚类中心放在数据框中 ```python # cluster_center = pd.DataFrame(kmeans_model.cluster_centers_, # columns=[ str(x) for x in range(1,94)]) # 将聚类中心放在数据框中 # cluster_center.index = pd.DataFrame(kmeans_model.labels_). \ # drop_duplicates().iloc[:, 0] # 将样本类别作为数据框索引 # print(cluster_center) ``` 这段代码是将聚类中心放在数据框中，并以样本类别作为索引。但是，这段代码被注释掉了，因此不会被执行。

调试并运行下述案例代码，给代码做注释。在此基础上补充票房 TOP10 的柱状图展示。 import pandas as pd import numpy as np from matplotlib import pyplot as plt from matplotlib.ticker import MultipleLocator datas = pd.read_csv(r'2015-2020.txt', index_col=0) datas = datas.sort_index(ascending=False) datas = pd.DataFrame(datas.values, index=range(1, 11), \ columns=datas.columns) data2020 = pd.read_csv(r'2020.txt') def drawLines(): ax = plt.subplot(131) for date in datas.columns: plt.plot([10 - i for i in range(datas.shape[0])], \ datas[date], label=date) plt.ylim(0, 600000) ymajorLocator = MultipleLocator(50000) xmajorLocator = MultipleLocator(1) ax.yaxis.set_major_locator(ymajorLocator) ax.xaxis.set_major_locator(xmajorLocator) plt.title('2015-2020 年度票房 Top10 折线图') plt.xlabel('票房名次') plt.grid() plt.legend() def drawPie(): plt.subplot(233) plt.pie(datas['2019'], autopct='%1.1f%%') plt.title('2019 年度票房 Top10 饼图') plt.subplot(236) plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['font.family'] = 'sans-serif' plt.pie(data2020['boxoffice'], autopct='%1.1f%%', \ labels=data2020['name']) plt.title('2020 年度票房 Top10 饼图') if name == 'main': plt.subplots(figsize=(20, 8)) drawLines() drawPie() plt.show()

```python # 导入 pandas, numpy, pyplot 和 MultipleLocator 库 import pandas as pd import numpy as np from matplotlib import pyplot as plt from matplotlib.ticker import MultipleLocator # 读取数据并按照时间降序排序 datas = pd.read_csv(r'2015-2020.txt', index_col=0) datas = datas.sort_index(ascending=False) # 将数据转换为 DataFrame 格式，索引是票房排名，列是年份 datas = pd.DataFrame(datas.values, index=range(1, 11), columns=datas.columns) # 读取 2020 年数据 data2020 = pd.read_csv(r'2020.txt') # 绘制 2015-2020 年度票房 Top10 折线图 def drawLines(): ax = plt.subplot(131) # 创建子图 for date in datas.columns: # 循环每年的票房数据 plt.plot([10 - i for i in range(datas.shape[0])], datas[date], label=date) # 绘制折线图 plt.ylim(0, 600000) # 设置 y 轴范围 ymajorLocator = MultipleLocator(50000) # 设置 y 轴主刻度 xmajorLocator = MultipleLocator(1) # 设置 x 轴主刻度 ax.yaxis.set_major_locator(ymajorLocator) # 设置 y 轴主刻度 ax.xaxis.set_major_locator(xmajorLocator) # 设置 x 轴主刻度 plt.title('2015-2020 年度票房 Top10 折线图') # 设置标题 plt.xlabel('票房名次') # 设置 x 轴标签 plt.grid() # 显示网格线 plt.legend() # 显示图例 # 绘制 2019 年度票房 Top10 饼图和 2020 年度票房 Top10 饼图 def drawPie(): plt.subplot(233) # 创建子图 plt.pie(datas['2019'], autopct='%1.1f%%') # 绘制饼图 plt.title('2019 年度票房 Top10 饼图') # 设置标题 plt.subplot(236) # 创建子图 plt.rcParams['font.sans-serif'] = ['SimHei'] # 设置字体 plt.rcParams['font.family'] = 'sans-serif' plt.pie(data2020['boxoffice'], autopct='%1.1f%%', labels=data2020['name']) # 绘制饼图 plt.title('2020 年度票房 Top10 饼图') # 设置标题 if __name__ == '__main__': plt.subplots(figsize=(20, 8)) # 创建画布 drawLines() # 绘制折线图 drawPie() # 绘制饼图 plt.show() # 显示图形 ``` 补充票房 TOP10 的柱状图展示如下： ```python import pandas as pd import numpy as np from matplotlib import pyplot as plt # 读取数据并按照时间降序排序 datas = pd.read_csv(r'2015-2020.txt', index_col=0) datas = datas.sort_index(ascending=False) datas = pd.DataFrame(datas.values, index=range(1, 11), columns=datas.columns) # 绘制柱状图 plt.subplots(figsize=(20, 8)) plt.bar(datas.index, datas['2020']) plt.xticks(datas.index, datas.index) plt.title('2020 年度票房 Top10 柱状图') plt.xlabel('票房排名') plt.ylabel('票房（万元）') plt.show() ``` 柱状图展示如下：注意：柱状图只显示了 2020 年的数据。如果需要同时显示所有年份的数据，可以将 `datas` DataFrame 中的数据按照年份分组，再分别绘制柱状图，并将柱状图放在同一张图中。

阅读全文

plt.rcParams['font.sans-serif']=['SimHei'] pd.set_option('display.max_columns', None) t = data['label'].value_counts() t.plot(kind = 'bar')

相关推荐

Matplotlib不能显示中文 — Font family [‘sans-serif’] not found警告

matplotlib-3.5.2-cp311-cp311-win_amd64.zip

基于Andorid的音乐播放器项目改进版本设计.zip

uniapp-machine-learning-from-scratch-05.rar

game_patch_1.30.21.13250.pak

【毕业设计-java】springboot-vue计算机学院校友网源码（完整前后端+mysql+说明文档+LunW）.zip

机器学习-特征工程算法

吸烟数据集 991张原始图片，平均识别率在88.3% coco json格式标注

大家在看

ClientTCP.rar

NPPExport_0.3.0_32位64位版本.zip

关键词双标题生成软件，文章双标题生成

新建 360压缩 ZIP 文件 (2).zip_wind turbine_zip_风电塔

TI C2000 DSP反汇编工具源程序.zip

最新推荐

基于Andorid的音乐播放器项目改进版本设计.zip

uniapp-machine-learning-from-scratch-05.rar

game_patch_1.30.21.13250.pak

Cyclone IV硬件配置详细文档解析

【WinCC与Excel集成秘籍】：轻松搭建数据交互桥梁（必读指南）

华为模拟互联地址配置

Java游戏开发简易实现与地图控制教程

【超市销售数据深度分析】：从数据库挖掘商业价值的必经之路

在ubuntu中安装ros时出现updating datebase of manual pages...怎么解决

Laravel Monobullet Monolog处理与Pushbullet API通知集成