(1)对某市空气质量检测数据的读取及处理(45分) ①使用Pandas的DataFrame类对象读取数据;(5分) ②过滤数据中的缺失值、重复值和异常值;(5分) ③在生成的DataFrame中增加两列“年份”、“月份”,并使用apply函数和lambda表达式从“日期”列中获取相应的值;(10分) ④根据月份生成相应的季度标志变量;(10分) 对空气质量指数AQI分组,获得对应的空气质量等级;(15
时间: 2024-01-25 10:02:36 浏览: 87
好的,下面是代码实现:
```python
import pandas as pd
# 读取数据
df = pd.read_csv('air_quality_data.csv')
# 过滤缺失值和重复值
df.dropna(inplace=True) # 过滤缺失值
df.drop_duplicates(inplace=True) # 过滤重复值
# 过滤异常值
df = df[df['AQI'] >= 0]
# 增加年份和月份列
df['年份'] = df['日期'].apply(lambda x: int(x.split('-')[0]))
df['月份'] = df['日期'].apply(lambda x: int(x.split('-')[1]))
# 根据月份生成季度标志变量
df['季度'] = df['月份'].apply(lambda x: (x-1)//3+1)
# 根据AQI分组获取空气质量等级
bins = [-1, 50, 100, 150, 200, 300, 500]
labels = ['优', '良', '轻度污染', '中度污染', '重度污染', '严重污染']
df['空气质量等级'] = pd.cut(df['AQI'], bins=bins, labels=labels)
# 打印处理后的DataFrame
print(df.head())
```
上述代码将读取名为"air_quality_data.csv"的文件,并将其存储到名为"df"的DataFrame对象中。然后,我们使用dropna()函数和drop_duplicates()函数过滤缺失值和重复值。接着,我们过滤了AQI小于0的异常值。接下来,我们使用apply()函数和lambda表达式从日期列中获取相应的年份和月份,并将其添加为新的列。然后,我们使用apply()函数和lambda表达式根据月份生成季度标志变量。最后,我们使用cut()函数根据AQI分组获取对应的空气质量等级,并将其添加为新的列。
阅读全文