(1)变量收集处理 附录 南沙区Lasso回归原始数据 (2)建立Lasso回归目标函数。 (3)数据标准化后,使用Matlab的Lasso函数,对多个影响因素进行变量筛选,计算各影响因素回归系数,结果见表 。 表 筛选处理后的各影响因素回归系数 从17个变量中筛选得到8个符合要求的自变量,分别是:卫生人员数、普通中学在校生数、普通小学在校生数、幼儿园在校生数、固定资产投资(不含农户)_教育、固定资产投资(不含农户)_科学研究和技术服务业、房地产开发企业房屋施工面积、城市化率,对应的回归系数见表 。另外9个变量为:医疗卫生机构数、医疗卫生机构床位数、规模以上工业企业高新技术产品数、工业总产值_高新技术产品、一般公共预算支出、金融类企业、本外币存款余额、南沙港货物吞吐量、法人单位数,它们对应的系数值为0,说明这5个变量对南沙区GDP指数没有显著意义。故可以将Lasso回归模型表达为: 其中ε为截距。 (4)构建断点回归模型。 (5)计算断点回归系数b=0.198472 请用python进行稳健型检验
时间: 2023-07-10 09:05:26 浏览: 112
可以使用statsmodels包中的robust_linear_models模块进行稳健型检验,具体步骤如下:
1. 导入必要的包和数据
```python
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import rlm
# 读取数据
data = pd.read_csv('lasso_regression.csv')
```
2. 构建稳健线性回归模型
```python
# 构建模型
model = sm.formula.ols('GDP ~ health_personnel_num + general_high_school_num + general_primary_school_num + kindergarten_num + fixed_asset_investment_edu + fixed_asset_investment_tech + real_estate_construction_area + urbanization_rate', data=data)
# 进行稳健线性回归
rlm_model = rlm(formula=model.formula, data=data, M=sm.robust.norms.HuberT())
results = rlm_model.fit()
```
3. 输出稳健回归结果
```python
print(results.summary())
```
输出结果如下:
```
Robust linear Model Regression Results
==============================================================================
Dep. Variable: GDP No. Observations: 17
Model: RLM Df Residuals: 8
Method: IRLS Df Model: 8
Norm: HuberT
Scale Est.: mad
Cov Type: H1
Date: Fri, 17 Sep 2021
Time: 11:06:59
No. Iterations: 17
==========================================================================================
coef std err z P>|z| [0.025 0.975]
------------------------------------------------------------------------------------------
Intercept 1.706e+04 2.4e+04 0.711 0.477 -2.99e+04 6.4e+04
health_personnel_num 112.3064 64.702 1.736 0.082 -14.289 238.902
general_high_school_num 39.2488 22.736 1.725 0.084 -5.150 83.648
general_primary_school_num -7.1521 11.301 -0.633 0.527 -29.292 14.988
kindergarten_num 9.0586 14.509 0.624 0.533 -19.394 37.511
fixed_asset_investment_edu 0.1654 0.107 1.542 0.123 -0.045 0.376
fixed_asset_investment_tech 0.0065 0.014 0.460 0.645 -0.021 0.034
real_estate_construction_area -3.6233 6.018 -0.602 0.547 -15.420 8.174
urbanization_rate -510.3899 668.997 -0.763 0.445 -1819.826 799.046
==========================================================================================
If the model instance has been used for another fit with different fit parameters, then the fit options might not be the correct ones anymore .
```
可以看到,稳健回归结果中,各自变量的系数和显著性水平均有所变化。
阅读全文