用python写一个数据挖掘大作业关于城市pm2.5预测分析的代码
时间: 2024-02-23 14:59:29 浏览: 93
好的,以下是一个简单的Python代码实现过程,供参考:
```python
# 导入必要的库
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt
# 读取数据
data = pd.read_csv('pm25.csv')
# 数据清洗和预处理
data = data.dropna() # 去除缺失值
data = data.drop_duplicates() # 去除重复值
# 特征选择和特征工程
X = data.iloc[:, :-1] # 取出除了pm2.5之外的特征
y = data.iloc[:, -1] # 取出pm2.5特征
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0) # 划分训练集和测试集
# 模型训练和预测
lr = LinearRegression() # 创建线性回归模型
lr.fit(X_train, y_train) # 训练模型
y_pred = lr.predict(X_test) # 预测测试集
# 模型评估和可视化
mse = mean_squared_error(y_test, y_pred) # 计算均方误差
rmse = np.sqrt(mse) # 计算均方根误差
print('均方根误差: %.2f' % rmse)
plt.scatter(y_test, y_pred) # 绘制散点图
plt.plot([0, 100], [0, 100], '--r') # 绘制对角线
plt.xlabel('真实值')
plt.ylabel('预测值')
plt.title('城市pm2.5预测分析')
plt.show()
```
其中,pm25.csv是数据文件名,需要根据具体情况进行修改。此代码使用的是线性回归模型进行预测,可以根据需要选择其他机器学习算法进行模型训练和预测。
阅读全文