使用波士顿数据集1. 加载或调用数据集 2. 检查数据是否有缺失及缺失值处理 3. 离群值检测及处理 4. 描述性统计分析 5. 绘图展示数据分布 6. 使用每个案例下描述的方法进行对应数据的分类或者预测研究，体现分类或预测度量指标结果。 7. 与其他模型进行比较评估与实验结果分析，通过柱形图或者拟合曲线对实验结果进行可视化。8.使用随机森林进行变量选择，建立回归预测模型，通过各因素指标来预测房价代码python

时间: 2024-03-22 21:42:07 浏览: 63

boston 房价数据集预测多种回归方法 python 有报告

5星 · 资源好评率100%

以下是使用波士顿数据集进行数据分析的代码： ```python # 导入必要的库 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from sklearn.datasets import load_boston from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression from sklearn.tree import DecisionTreeRegressor from sklearn.ensemble import RandomForestRegressor from sklearn.metrics import mean_squared_error, r2_score # 加载数据集 boston = load_boston() # 将数据集转换为DataFrame格式 df = pd.DataFrame(boston.data, columns=boston.feature_names) df['target'] = boston.target # 检查数据是否有缺失 print(df.isnull().sum()) # 离群值检测及处理 sns.boxplot(df['target']) plt.show() df = df[df['target'] < 50] # 描述性统计分析 print(df.describe()) # 绘图展示数据分布 sns.pairplot(df, x_vars=boston.feature_names, y_vars='target') plt.show() # 分离自变量和因变量 X = df[boston.feature_names] y = df['target'] # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 线性回归模型 lr = LinearRegression() lr.fit(X_train, y_train) y_pred_lr = lr.predict(X_test) mse_lr = mean_squared_error(y_test, y_pred_lr) r2_lr = r2_score(y_test, y_pred_lr) print('线性回归模型MSE：', mse_lr) print('线性回归模型R2 Score：', r2_lr) # 决策树回归模型 dt = DecisionTreeRegressor(random_state=42) dt.fit(X_train, y_train) y_pred_dt = dt.predict(X_test) mse_dt = mean_squared_error(y_test, y_pred_dt) r2_dt = r2_score(y_test, y_pred_dt) print('决策树回归模型MSE：', mse_dt) print('决策树回归模型R2 Score：', r2_dt) # 随机森林回归模型 rf = RandomForestRegressor(random_state=42) rf.fit(X_train, y_train) y_pred_rf = rf.predict(X_test) mse_rf = mean_squared_error(y_test, y_pred_rf) r2_rf = r2_score(y_test, y_pred_rf) print('随机森林回归模型MSE：', mse_rf) print('随机森林回归模型R2 Score：', r2_rf) # 可视化比较各模型的预测结果 models = ['Linear Regression', 'Decision Tree', 'Random Forest'] mse = [mse_lr, mse_dt, mse_rf] r2 = [r2_lr, r2_dt, r2_rf] df_results = pd.DataFrame({'Model': models, 'MSE': mse, 'R2 Score': r2}) df_results.plot(x='Model', y=['MSE', 'R2 Score'], kind='bar') plt.show() # 随机森林进行变量选择 feat_importances = pd.Series(rf.feature_importances_, index=boston.feature_names) feat_importances.nlargest(5).plot(kind='barh') plt.show() # 建立随机森林回归预测模型 X_new = df[['RM', 'LSTAT', 'PTRATIO', 'TAX', 'DIS']] y_new = df['target'] X_train_new, X_test_new, y_train_new, y_test_new = train_test_split(X_new, y_new, test_size=0.2, random_state=42) rf_new = RandomForestRegressor(random_state=42) rf_new.fit(X_train_new, y_train_new) y_pred_new = rf_new.predict(X_test_new) mse_new = mean_squared_error(y_test_new, y_pred_new) r2_new = r2_score(y_test_new, y_pred_new) print('新的随机森林回归模型MSE：', mse_new) print('新的随机森林回归模型R2 Score：', r2_new) ``` 注：以上代码中的可视化部分可能需要修改才能在一些环境中运行。

阅读全文

相关推荐

波士顿房价预测数据集，可以用来学习

波士顿房价数据集 预测房价

汽车价格离群值检测数据集

汽车离群值检测.ipynb

汽车价格离群值检测.zip

异常检测使用数据集.zip

Datum2D.m:使用（可选）自动离群值将任意阶线性最小二乘方程拟合到 xy 数据...-matlab开发

eda_utils_py:该软件包专注于处理离群值和缺失值，缩放和关联可视化的任务

数据清洗技术：离群值检测与处理

如何使用python读取一个csv文件，通过应用 3σ 离群值检测来识别异常值，并删除超过平均值三个标准差的值，之后采用三次埃米尔特插值法填补缺失值，最后让csv文件里的数据集完整且合理

给定了UCI宫颈癌的数据集，对这个数据集进行离群值检测，并对其进行处理，用python写其代码

根据课程资料/数据预处理/北京地区信息.csv和..//天津地区信息.csv中的数据进行预处理操作，包括：（1）检查重复数据，（2）检查缺失值，（3）检查异常值

最新推荐

python数据预处理之数据标准化的几种处理方式

python:删除离群值操作(每一行为一类数据)

数据挖掘实战–二手车交易价格预测（二）数据探索性分析（EDA）

python数据分析实战之AQI分析

Python数据分析实战【第三章】3.12-Matplotlib箱型图【python】

深入浅出：自定义 Grunt 任务的实践指南

管理建模和仿真的文件

数据可视化在缺失数据识别中的作用

ABB机器人在自动化生产线中是如何进行路径规划和任务执行的？请结合实际应用案例分析。

网络物理突变工具的多点路径规划实现与分析

波士顿房价数据集预测房价