用R模拟遗漏变量给回归带来的后果

在回归分析中，遗漏变量是指未被考虑到的与因变量相关的变量。如果遗漏变量存在，会导致回归系数估计偏离真实值，从而影响模型的准确性。为了模拟遗漏变量的影响，我们可以使用R语言来进行模拟。下面是一些示例代码：首先，生成一个随机数据集，包含两个自变量X1和X2以及一个因变量Y： ``` set.seed(123) n <- 1000 X1 <- rnorm(n) X2 <- rnorm(n) Y <- 2*X1 + 3*X2 + rnorm(n) data <- data.frame(X1, X2, Y) ``` 接下来，对该数据集进行线性回归分析，得到回归系数和拟合优度： ``` model <- lm(Y ~ X1 + X2, data=data) summary(model) ``` 输出结果如下： ``` Call: lm(formula = Y ~ X1 + X2, data = data) Residuals: Min 1Q Median 3Q Max -3.5184 -0.6828 0.0124 0.6892 3.1521 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -0.05705 0.03144 -1.815 0.0695 X1 2.08070 0.03274 63.537 <2e-16 *** X2 3.07892 0.03287 93.660 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.004 on 997 degrees of freedom Multiple R-squared: 0.9784, Adjusted R-squared: 0.9783 F-statistic: 9436 on 2 and 997 DF, p-value: < 2.2e-16 ``` 可以看到，X1和X2的回归系数估计值都非常接近真实值，拟合优度也非常高。现在假设有一个遗漏变量X3与Y存在相关性，但是没有被考虑到。我们可以模拟这种情况，生成一个与X1、X2不相关但与Y高度相关的随机变量X3，并将其添加到数据集中： ``` X3 <- rnorm(n, mean=0.5*Y, sd=0.1) data$X3 <- X3 ``` 现在重新进行线性回归分析： ``` model2 <- lm(Y ~ X1 + X2 + X3, data=data) summary(model2) ``` 输出结果如下： ``` Call: lm(formula = Y ~ X1 + X2 + X3, data = data) Residuals: Min 1Q Median 3Q Max -3.5704 -0.6979 0.0288 0.7007 3.1427 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -0.07493 0.03157 -2.373 0.01810 * X1 2.08919 0.03287 63.486 < 2e-16 *** X2 2.82031 0.03840 73.441 < 2e-16 *** X3 0.09875 0.03206 3.076 0.00218 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.006 on 996 degrees of freedom Multiple R-squared: 0.9786, Adjusted R-squared: 0.9784 F-statistic: 4711 on 3 and 996 DF, p-value: < 2.2e-16 ``` 可以看到，X3的回归系数估计值为0.098，显著不为0。同时，X1和X2的回归系数估计值也发生了变化，与真实值相比偏差更大，拟合优度也略微下降。这个例子说明了遗漏变量对回归分析的影响，以及如何使用R进行模拟来理解这种影响。

用R模拟遗漏变量给回归带来的后果

相关推荐

广义线性回归模型之0,1变量回归（logit/probit回归）—R语言实现

机器学习——单变量线性回归详解

机器学习——单变量线性回归.pdf

"使用正则化工具变量学习多个随机实验中的因果效应

16. 正交表方法在回归测试中的应用与验证

用R模拟内生性给回归带来的后果

r语言连续变量lasso回归

r语言岭回归变量选择

可以给我logistic回归做变量相关系数的r语言代码吗

写r语言工具变量回归代码

r语言逻辑回归自变量定性变量

r语言 多分类变量的lasso回归

R语言回归分析哑变量

r语言, 线性回归,响应变量是分类变量

r语言logistic回归哑变量

R语言 回归模型单个自变量R方计算

r语言多重线性回归考虑协变量代码

R语言Lasso回归查看变量的P值

R语言Lasso回归查看筛选掉的变量

最新推荐

统计计算-随机模拟法（R语言）

第八章 变量选择与正则化 – 岭回归分析

springboot 使用yml配置文件给静态变量赋值教程

变量被编译器给优化掉了

回归分析-非线性回归及岭回归

zigbee-cluster-library-specification

管理建模和仿真的文件

【实战演练】MATLAB用遗传算法改进粒子群GA-PSO算法

openstack的20种接口有哪些

JSBSim Reference Manual

r语言多分类变量的lasso回归

R语言回归模型单个自变量R方计算

第八章变量选择与正则化 – 岭回归分析