首页多元线性回归处理空气污染数据集的代码

多元线性回归处理空气污染数据集的代码

时间: 2023-10-08 14:14:31 浏览: 52

以下是使用Python的sklearn库进行多元线性回归处理空气污染数据集的代码： ```python # 导入必要的库 import numpy as np import pandas as pd from sklearn.linear_model import LinearRegression from sklearn.model_selection import train_test_split from sklearn.metrics import mean_squared_error # 读取数据集并进行预处理 data = pd.read_csv('air_pollution.csv') X = data.drop('AQI', axis=1) y = data['AQI'] # 将数据集分为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 创建线性回归模型并进行训练 model = LinearRegression() model.fit(X_train, y_train) # 输出模型的系数和截距项 print('Coefficients:', model.coef_) print('Intercept:', model.intercept_) # 使用测试集进行预测并计算均方误差 y_pred = model.predict(X_test) mse = mean_squared_error(y_test, y_pred) print('MSE:', mse) ``` 在这段代码中，我们首先读取了名为"air_pollution.csv"的数据集，并将自变量保存在X中，因变量保存在y中。然后我们使用train_test_split函数将数据集分为训练集和测试集。接着，我们创建了一个线性回归模型，并使用fit函数对训练集进行拟合。通过输出模型的系数和截距项，我们可以了解到每个自变量对因变量的影响程度，以及当所有自变量为0时，因变量的基础值。最后，我们使用测试集进行预测并计算均方误差，以评估模型的性能。