Python数据分析：AQI预测模型构建与异常值处理

版权申诉

5星 · 超过95%的资源 142 浏览量更新于2024-09-11 12 收藏 194KB PDF 举报

"这篇Python数据分析实战文章主要关注的是如何利用机器学习预测空气质量指数（AQI）。作者通过一系列步骤，包括数据加载、数据处理、特征选择、异常值处理和残差图分析，构建了一个基础的预测模型。文中使用了Python中的pandas、numpy、matplotlib、seaborn和sklearn等库，基于2015年的AQI数据集进行操作。" 在数据分析和预测任务中，首先需要导入必要的库来处理和可视化数据。在本案例中，使用了pandas进行数据管理，numpy用于数值计算，matplotlib和seaborn则用于数据可视化，而sklearn则是实现机器学习模型的核心库。数据集是2015年的空气质量指数数据，这通常包含多种与空气质量相关的指标，如PM2.5、PM10、二氧化硫、二氧化氮等。在数据处理阶段，作者首先处理了缺失值，用中位数填充了"降水量"列的空值，并删除了重复行，确保数据的完整性和唯一性。接着，对于类别变量（如“是否沿海”），将其转化为离散变量（如1代表"是"，0代表"否"），以便于机器学习算法进行处理。建立基模型时，作者选择了一个简单的线性回归模型（LinearRegression）作为起点。线性回归是一种基础的预测模型，它假设因变量（这里是AQI）与自变量之间存在线性关系。这个基模型可以提供一个基准，后续的特征选择和优化操作将在这个基础上进行。特征选择是一个关键步骤，这里使用了递归特征消除配合交叉验证（RFECV）方法。RFECV通过不断尝试减少特征数量，同时评估模型性能，以找到最佳特征子集。这种方法有助于减少过拟合风险，提高模型泛化能力。异常值处理是数据预处理的重要环节。文中提到了两种方法：一是使用临界值填充异常值，这可能是基于统计学上的定义（如Z-score或IQR方法）；二是进行分箱离散化，将连续数值分到不同区间，从而降低异常值的影响。最后，通过残差图分析模型的残差，可以检查模型的异方差性（误差项的方差是否随预测值变化而变化）和是否存在离群点。如果发现异方差性，可能需要进行数据转换或者选择更适应异方差性的模型；离群点的检测可以帮助识别并处理可能影响模型准确性的极端值。这篇实战文章详细展示了使用Python进行数据分析和建立预测模型的过程，从数据预处理到模型建立，再到模型优化，提供了全面的步骤指南，对于初学者和经验丰富的数据分析师都是有价值的参考。

python数据分析实战之数据分析实战之AQI预测预测

前言：上一篇对AQI进行了分析，这一篇根据对以往的数据，建立一个模型，可以将模型应用于未知的数据，来进行AQI的预

测。

文章目录文章目录1、加载相关库和数据集2、数据处理和转换2.1 简单的数据处理2.2 数据转换3、建立基模型4、特征选择4.1 RFECV4.2

使用RFECV进行特征选择5、异常值处理5.1 使用临界值进行填充5.2 分箱离散化6 、残差图分析6.1 异方差性6.2 离群点

1、加载相关库和数据集、加载相关库和数据集

使用的库主要有：pandas、numpy、matplotlib、seaborn、sklearn

使用的数据集：2015年空气质量指数（AQI）数据集

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

import warnings

sns.set(style="darkgrid")

plt.rcParams["font.family"] = "SimHei" # 设置可以显示中文字体

plt.rcParams["axes.unicode_minus"] = False

warnings.filterwarnings("ignore") # 忽略警告信息

data = pd.read_csv("AQI_data.csv") # AQI历史数据集

2、数据处理和转换、数据处理和转换

2.1 简单的数据处理简单的数据处理

# 空值、重复值处理

data.fillna({"Precipitation": data["Precipitation"].median()}, inplace=True)

data.drop_duplicates(inplace=True)

2.2 数据转换数据转换

对于模型来说，内部进行的都是数学上的运算，所以在进行建模之前，我们需要对类别变量进行数据转换，变成离散变量。

# 将类别变量（是，否）转成离散变量（1，0）

data["Coastal"] = data["Coastal"].map({"是": 1, "否": 0})

data["Coastal"].value_counts()

3、建立基模型、建立基模型

不进行任何处理，建立一个基模型，后续的操作都可以在此基础上进行改进。

from sklearn.linear_model import LinearRegression

from sklearn.model_selection import train_test_split

X = data.drop(["City","AQI"], axis=1) # 城市名称对结果不会有影响，所以去除城市列

y = data["AQI"] # 切分训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)

lr = LinearRegression()

lr.fit(X_train, y_train) # 使用训练集训练模型

print("训练集R^2：",lr.score(X_train, y_train))

print("测试集R^2：",lr.score(X_test, y_test))

------------------------

训练集R^2： 0.4685357478390665

测试集R^2： 0.3075998035417721

y_hat = lr.predict(X_test)

plt.figure(figsize=(15, 5))

plt.plot(y_test.values, "-r", label="真实值", marker="o")

plt.plot(y_hat, "-g", label="预测值", marker="D")

plt.legend(loc="upper left")

plt.title("线性回归预测结果", fontsize=20)

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38681082

粉丝: 5
资源: 958

Python数据分析：AQI预测模型构建与异常值处理

Python实现基于MLR多元线性回归的AQI预测模型（完整源码和数据）

python获取空气质量指数

本溪市大气污染物浓度预测

python数据分析实战之AQI分析

Python实战：通过AQI&PM2.5指数学习数据分析与建模

python实战：空气质量情况分析-AQI&PM2.5指数日历.zip

Python实战_空气质量指数爬取（网络爬虫+数据可视化）.zip

ELM时间序列预测（Python完整源码和数据）

基于Python实现随机森林分类模型(RandomForestClassifier)项目实战

Python爬虫与数据可视化：空气质量指数项目案例

最新资源