python数据分析实战之数据分析实战之AQI分析分析
文章目录文章目录1、数据分析的基本流程2、明确需求和目的2.1 需求和目的3、数据收集4、数据预处理4.1 数据整合4.1.1 加载相关库和数
据集4.1.2 数据总体概览4.2 数据清洗4.2.1 缺失值的处理4.2.2 异常值的处理4.2.3 重复值的处理5、数据分析5.1 描述性统计分析
(1)哪些城市的空气质量较好/较差?(2)对城市的空气质量按照等级划分,每个等级城市数量分布情况如何?(3)空气质量在
地里位置分布上,是否具有一定的规律性?5.2 推断统计分析(1)临海城市的空气质量是否有别于内陆城市?(2)全国城市空气
质量普遍处于何种水平?5.3 相关系数分析(1)空气质量主要受哪些因素影响?6、编写报告
1、数据分析的基本流程、数据分析的基本流程
明确需求和目的
数据收集(内部数据、购买数据、爬取数据、调查问卷、其它收集)
数据预处理(数据整合、数据清洗、数据转换等)
数据分析(描述分析、推断分析、数据建模、数据可视化等)
编写报告
2、明确需求和目的、明确需求和目的
AQI:空气质量指数,用来衡量空气清洁或污染的程度,值越小,表示空气质量越好。
2.1 需求和目的需求和目的
运用数据分析的相关技术,对全国城市空气质量进行研究和分析,解决以下问题:
哪些城市的空气质量较好/较差?(描述性统计分析)
对城市的空气质量按照如下等级划分,每个等级城市数量分布情况如何?(描述性统计分析)
空气质量在地里位置分布上,是否具有一定的规律性?(描述性统计分析)
临海城市的空气质量是否有别于内陆城市?(推断统计分析)
全国城市空气质量普遍处于何种水平?(推断统计分析)
空气质量主要受哪些因素影响?(相关系数分析)
3、数据收集、数据收集
2015年空气质量指数(AQI)数据集,该数据集包含全国主要城市的相关数据以及空气质量指数。
4、数据预处理、数据预处理
4.1 数据整合数据整合