(1)用 pandas 库读取 PRSA data 2010.1.1-2014.12.31. csv 文件,查看前3行、后2行。(2)删除列 DEWP 、 TEMP 、 PRES 、 cbwd 、 Iws 、 Is 、 Ir ,并将剩余列用 pandas 数据预处理模块将缺失值丢弃处理,导出到新的 csv 文件pm25_ data _2010.1.1-2014.12.31. csv 。 (3)利用 pandas 库读取新的数据集pm25_ data _2010.1.1-2014.12.31. csv ,并选择字段pm2.5大于300的所有数据集,导出为文本文件pm25_ hazardous _ data _2010.1.1-2014.12.31.txt,要求数据之间用逗号分隔,每行末尾包含换行符。 (4)读取文本文件pm25_ hazardous _ data _2010.1.1-2014.12.31. txt 并转存到 Excel 文件pm25hazadous2010.1.1-2014.12.31. xsx 。(5)重新读取文本文件读取文本文件pm25 hazardous data 2010.1.1-2014.12.31. txt ,示。要求包括图例、图标题, x 、 y 轴均显示刻度值,柱状图填充颜色分别为红色、绿色、分别统计出现最多的 month 、 day 、 hour ,并将 month 、 day 、 hour 的出现频次用柱状图显pm25_ hazardous _ month _ day _ hour . png . 蓝色;并将结果保存为 png 图片保存,分辨率为400 dpi , png 图片命名分别为pm25_hazardous_month_day_hour.png
时间: 2024-02-11 07:08:26 浏览: 68
北京pm2.5数据PRSA_data_2010.1.1-2014.12.31.csv
好的,以下是代码实现:
```python
# (1) 读取 PRSA data 2010.1.1-2014.12.31. csv 文件,查看前3行、后2行
import pandas as pd
df = pd.read_csv('PRSA_data_2010.1.1-2014.12.31.csv')
print(df.head(3)) # 查看前3行
print(df.tail(2)) # 查看后2行
# (2) 删除列 DEWP、TEMP、PRES、cbwd、Iws、Is、Ir,丢弃缺失值并导出到新的 csv 文件
df.drop(columns=['DEWP', 'TEMP', 'PRES', 'cbwd', 'Iws', 'Is', 'Ir'], inplace=True)
df.dropna(inplace=True)
df.to_csv('pm25_data_2010.1.1-2014.12.31.csv', index=False)
# (3) 选择 pm2.5 大于 300 的数据集并导出到文本文件
df = pd.read_csv('pm25_data_2010.1.1-2014.12.31.csv')
df_hazardous = df[df['pm2.5'] > 300]
df_hazardous.to_csv('pm25_hazardous_data_2010.1.1-2014.12.31.txt', index=False, sep=',', line_terminator='\n')
# (4) 读取文本文件并转存到 Excel 文件
df_hazardous = pd.read_csv('pm25_hazardous_data_2010.1.1-2014.12.31.txt', sep=',')
df_hazardous.to_excel('pm25hazardous2010.1.1-2014.12.31.xlsx', index=False)
# (5) 绘制柱状图并保存为 png 文件
import matplotlib.pyplot as plt
df_hazardous = pd.read_csv('pm25_hazardous_data_2010.1.1-2014.12.31.txt', sep=',')
month_counts = df_hazardous['month'].value_counts()
day_counts = df_hazardous['day'].value_counts()
hour_counts = df_hazardous['hour'].value_counts()
fig, axs = plt.subplots(3, 1, figsize=(8, 12), sharex=True)
fig.suptitle('PM2.5 Hazardous Data 2010.1.1-2014.12.31', fontsize=16)
axs[0].bar(month_counts.index, month_counts.values, color='r')
axs[0].set_ylabel('Count')
axs[0].set_title('Month')
axs[1].bar(day_counts.index, day_counts.values, color='g')
axs[1].set_ylabel('Count')
axs[1].set_title('Day')
axs[2].bar(hour_counts.index, hour_counts.values, color='b')
axs[2].set_xlabel('Hour')
axs[2].set_ylabel('Count')
axs[2].set_title('Hour')
plt.xticks(range(1, 25))
plt.savefig('pm25_hazardous_month_day_hour.png', dpi=400)
```
注意,以上代码中的文件路径需要根据实际情况修改。
阅读全文