(1）用 pandas 库读取 PRSA data 2010.1.1-2014.12.31. csv 文件，查看前3行、后2行。(2）删除列 DEWP 、 TEMP 、 PRES 、 cbwd 、 Iws 、 Is 、 Ir ，并将剩余列用 pandas 数据预处理模块将缺失值丢弃处理，导出到新的 csv 文件pm25_ data _2010.1.1-2014.12.31. csv 。 (3）利用 pandas 库读取新的数据集pm25_ data _2010.1.1-2014.12.31. csv ，并选择字段pm2.5大于300的所有数据集，导出为文本文件pm25_ hazardous _ data _2010.1.1-2014.12.31.txt，要求数据之间用逗号分隔，每行末尾包含换行符。 (4）读取文本文件pm25_ hazardous _ data _2010.1.1-2014.12.31. txt 并转存到 Excel 文件pm25hazadous2010.1.1-2014.12.31. xsx 。(5）重新读取文本文件读取文本文件pm25 hazardous data 2010.1.1-2014.12.31. txt ,示。要求包括图例、图标题， x 、 y 轴均显示刻度值，柱状图填充颜色分别为红色、绿色、分别统计出现最多的 month 、 day 、 hour ，并将 month 、 day 、 hour 的出现频次用柱状图显pm25_ hazardous _ month _ day _ hour . png . 蓝色；并将结果保存为 png 图片保存，分辨率为400 dpi , png 图片命名分别为pm25_hazardous_month_day_hour.png

时间: 2024-02-11 21:04:04 浏览: 232

很抱歉，作为一个AI语言模型，我无法执行文件处理的任务，但我可以提供一些Python代码示例来解决你的问题。以下是使用pandas库来完成你的任务的Python代码示例： ```python import pandas as pd # 1. 读取并查看数据集 data = pd.read_csv('PRSA_data_2010.1.1-2014.12.31.csv') print('前3行：\n', data.head(3)) print('后2行：\n', data.tail(2)) # 2. 删除列并丢弃缺失值，导出新数据集 data = data.drop(['DEWP', 'TEMP', 'PRES', 'cbwd', 'Iws', 'Is', 'Ir'], axis=1) data = data.dropna() data.to_csv('pm25_data_2010.1.1-2014.12.31.csv', index=False) # 3. 选择pm2.5大于300的数据并导出为文本文件 data = pd.read_csv('pm25_data_2010.1.1-2014.12.31.csv') hazardous_data = data[data['pm2.5'] > 300] hazardous_data.to_csv('pm25_hazardous_data_2010.1.1-2014.12.31.txt', index=False, sep=',', line_terminator='\n') # 4. 读取文本文件并存为Excel文件 hazardous_data = pd.read_csv('pm25_hazardous_data_2010.1.1-2014.12.31.txt', sep=',') hazardous_data.to_excel('pm25hazadous2010.1.1-2014.12.31.xlsx', index=False) # 5. 统计出现频次并绘制柱状图 hazardous_data = pd.read_csv('pm25_hazardous_data_2010.1.1-2014.12.31.txt', sep=',') hazardous_data['datetime'] = pd.to_datetime(hazardous_data['year'].astype(str) + '-' + hazardous_data['month'].astype(str) + '-' + hazardous_data['day'].astype(str) + ' ' + hazardous_data['hour'].astype(str) + ':00:00') hazardous_data['month'] = hazardous_data['datetime'].dt.month hazardous_data['day'] = hazardous_data['datetime'].dt.day hazardous_data['hour'] = hazardous_data['datetime'].dt.hour month_count = hazardous_data['month'].value_counts() day_count = hazardous_data['day'].value_counts() hour_count = hazardous_data['hour'].value_counts() month_count.plot(kind='bar', color='red') plt.title('Month Frequency') plt.xlabel('Month') plt.ylabel('Frequency') plt.xticks(rotation=0) plt.savefig('pm25_hazardous_month.png', dpi=400) day_count.plot(kind='bar', color='green') plt.title('Day Frequency') plt.xlabel('Day') plt.ylabel('Frequency') plt.xticks(rotation=0) plt.savefig('pm25_hazardous_day.png', dpi=400) hour_count.plot(kind='bar', color='blue') plt.title('Hour Frequency') plt.xlabel('Hour') plt.ylabel('Frequency') plt.xticks(rotation=0) plt.savefig('pm25_hazardous_hour.png', dpi=400) ```

阅读全文

相关推荐

pandas-0.21.1-cp36-cp36m-win-amd64.whl

如何使用pandas解析数据并存储，再利用matplotlib画图------data1.csv

Python数据分析与建模库-03数据分析处理库Pandas-1.数据读取

基于PRSA_data_2010.1.1-2014.12.31.csv的代码

PRSA_data_2010.1.1-2014.12.31.csv数据集的PM2.5预测基于模型源代码

使用PyTorch构建3层1D CNN LSTM Attention网络模型 ，实现风速预测

对该链接中的csv文件进行数据可视化分析

写一段python代码加载帕德博恩轴承数据集

时间序列公开数据集的解释

解决Python中pandas读取*.csv文件出现编码问题

pandas玩转excel码源.zip

详解pandas库pd.read_excel操作读取excel文件参数整理与实例

CSV数据-Pandas-Tests-IO-Data-CSV-Tips-2024-01-09.zip

Python库 | pandas-1.0.1.tar.gz

Python库 | pandas_multi-2018.8.18-py3-none-any.whl

大家在看

电法正反演方法和软件使用介绍(“反演”文档)共33张.pptx

饿了么后端项目+使用VUE+Servlet+AJAX技术开发前后端分离的Web应用程序。

微软--项目管理软件质量控制实践篇（一）（二）（三）

chfenger-Waverider-master0_乘波体_

840D的PLC功能块FB2和FB3读写NC系统变量

最新推荐

浅谈pandas.cut与pandas.qcut的使用方法及区别

python实现在pandas.DataFrame添加一行

python读取.mat文件的数据及实例代码

pandas读取csv文件提示不存在的解决方法及原因分析

pandas数据选取：df[] df.loc[] df.iloc[] df.ix[] df.at[] df.iat[]

CentOS 6下Percona XtraBackup RPM安装指南

【K-means与ISODATA算法对比】：聚类分析中的经典与创新

jupyter notebook没有opencv

QandAs问卷平台：基于React和Koa的在线调查工具

RLE编码与解码原理：揭秘BMP图像处理的关键步骤，提升解码效率

使用PyTorch构建3层1D CNN LSTM Attention网络模型，实现风速预测