首页#建模分析 import pandas as pd import numpy as np import statsmodels.api as sm from sklearn.model_selection import train_test_split from sklearn.metrics import mean_squared_error from sklearn.ensemble import GradientBoostingRegressor # 去除异常值 diabetes = diabetes[(diabetes['bmi'] > 10) & (diabetes['HbA1c_level'] < 15)] # 划分训练集和测试集 train, test = train_test_split(diabetes, test_size=0.3, random_state=42) # 构建线性回归模型 xtrain, ytrain = train.drop('diabetes', axis=1), train['diabetes'] xtest, ytest = test.drop('diabetes', axis=1), test['diabetes'] Xtrain = sm.add_constant(xtrain) Xtest = sm.add_constant(xtest) print(diabetes.info()) reg = sm.OLS(ytrain, Xtrain).fit() print(reg.summary()) # 计算线性回归的预测误差 ypred = reg.predict(Xtest) mse = mean_squared_error(ytest, ypred) rmse = np.sqrt(mse) print('Linear Regression RMSE:', rmse) # 构建GBDT模型 gbdt = GradientBoostingRegressor(learning_rate=0.3).fit(xtrain, ytrain) print('GBDT R^2:', gbdt.score(xtrain, ytrain)) # 计算GBDT的预测误差 ypred = gbdt.predict(xtest) mse = mean_squared_error(ytest, ypred) rmse = np.sqrt(mse) print('GBDT RMSE:', rmse)

#建模分析 import pandas as pd import numpy as np import statsmodels.api as sm from sklearn.model_selection import train_test_split from sklearn.metrics import mean_squared_error from sklearn.ensemble import GradientBoostingRegressor # 去除异常值 diabetes = diabetes[(diabetes['bmi'] > 10) & (diabetes['HbA1c_level'] < 15)] # 划分训练集和测试集 train, test = train_test_split(diabetes, test_size=0.3, random_state=42) # 构建线性回归模型 xtrain, ytrain = train.drop('diabetes', axis=1), train['diabetes'] xtest, ytest = test.drop('diabetes', axis=1), test['diabetes'] Xtrain = sm.add_constant(xtrain) Xtest = sm.add_constant(xtest) print(diabetes.info()) reg = sm.OLS(ytrain, Xtrain).fit() print(reg.summary()) # 计算线性回归的预测误差 ypred = reg.predict(Xtest) mse = mean_squared_error(ytest, ypred) rmse = np.sqrt(mse) print('Linear Regression RMSE:', rmse) # 构建GBDT模型 gbdt = GradientBoostingRegressor(learning_rate=0.3).fit(xtrain, ytrain) print('GBDT R^2:', gbdt.score(xtrain, ytrain)) # 计算GBDT的预测误差 ypred = gbdt.predict(xtest) mse = mean_squared_error(ytest, ypred) rmse = np.sqrt(mse) print('GBDT RMSE:', rmse)

时间: 2024-02-07 13:04:16 浏览: 134

这段代码是一个用于糖尿病数据集的建模分析，主要使用了线性回归和GBDT（梯度提升决策树）两种模型进行预测。在代码中，首先通过去除异常值的方法对数据进行预处理，然后将数据集划分为训练集和测试集。接着，使用Statsmodels库中的OLS函数构建线性回归模型，并计算线性回归的预测误差。同时，使用sklearn库中的GradientBoostingRegressor函数构建GBDT模型，并计算GBDT的预测误差。最后，输出线性回归和GBDT模型的预测误差。

阅读全文

相关推荐

开通CSDN年卡参与万元壕礼抽奖

海量 VIP免费资源千本正版电子书商城会员专享价千门课程&专栏

全年可省5,000元立即开通全年可省5,000元立即开通

最新推荐

相关推荐

python数据分析与可视化 import pandas as pd import numpy as np import m

pd_split_train_test.rar_pandas_pandas对数据分类_pd.split_split_数据分类

import pandas as pd.docx

金融数据分析：Pandas在金融领域的应用

NumPy与Pandas的交互使用：数据处理最佳实践的8大步骤

【基础】使用Pandas进行数据分析

Python与Pandas在金融数据分析中的应用：揭秘分析高手的技巧

Pandas 高级技巧：解锁数据分析新境界，探索数据更深处

时空数据分析与数学建模

【Python数学建模】：Stat库背后的统计分析数学原理

【实战指南】：时间序列分析从数据清洗到建模的终极教程

Python中的时间序列数据建模

Python在医疗研究中的统计建模和假设检验

掌握Python回归分析：7个步骤助你成为数据分析师

【统计学数据分析利器】：高中统计知识在数据分析中的实用技巧

数据挖掘中的回归分析：变量之间关系的理解，让数据分析更精确！

【数据分析与洞察】：解读成绩趋势，优化参赛表现的运动会系统分析

【南方idata大数据分析指南】：从数据到洞察的6大分析工具与方法

时间序列分析速成

时间序列分析必备工具

最新推荐

java毕设项目之ssm基于SSM的高校共享单车管理系统的设计与实现+vue(完整前后端+说明文档+mysql+lw).zip

Java毕业设计项目：校园二手交易网站开发指南

管理建模和仿真的文件

【MVC标准化：肌电信号处理的终极指南】：提升数据质量的10大关键步骤与工具

能否提供一个在R语言中执行Framingham数据集判别分析的详细和完整的代码示例？

Blaseball Plus插件开发与构建教程

"互动学习：行动中的多样性与论文攻读经历"

【天线性能提升密籍】：深入探究均匀线阵方向图设计原则及案例分析

C#怎么把图片存入名为当前日期的文件夹里

Deno Express：模仿Node.js Express的Deno Web服务器解决方案