逐步回归分析在大数据中的应用与原则

版权申诉

147 浏览量更新于2024-09-07 收藏 277KB DOC 举报

"逐步回归分析是多元线性回归模型中的一种方法，用于从大量可能相关的自变量中筛选出对因变量有显著影响的变量。在处理包含40至60个甚至更多自变量的情况时，逐步回归成为有效的选择。这种方法通过增加或剔除单一变量，依据误差平方和缩减量、偏相关系数或F统计量的准则，逐步构建回归模型。基本思路是引入显著的变量并剔除不显著的变量，以得到最终的最优变量子集。在每一步中，有一个F水平（Fin和Fout），用于决定变量的进出标准。如果剔除某变量导致RSS减少不足MSE的Fout倍，该变量将被剔除；反之，如果引入某变量能使RSS增加超过MSE的Fin倍，该变量会被引入。此过程持续直至没有符合条件的变量可被添加或剔除。" 详细说明：逐步回归分析是一种统计学方法，主要用于解决在多元线性回归中如何从众多可能的自变量中挑选出对因变量影响显著的变量问题。在实际应用中，当自变量数量庞大时，手动筛选变得困难，逐步回归提供了自动化解决方案。 1. **逐步引入变量**：逐步回归首先会检查每个未被纳入模型的自变量，如果它对因变量的贡献显著（通常通过检验如F统计量），则将其引入模型。引入的条件是该变量的偏回归平方和在统计上显著。 2. **变量剔除**：每次引入新变量后，会重新评估已存在于模型中的每个自变量。如果某个已选变量对模型的贡献不再显著，即其F统计量不再满足预设的标准（如Fout），则会从模型中剔除该变量，以保持模型的精简和有效性。 3. **F水平和决策标准**：在Efroymson的程序中，Fin和Fout是两个关键的F水平。Fin用于决定是否引入新变量，Fout用于决定是否剔除已有变量。引入新变量的门槛较高（F比需大于Fin），而剔除现有变量的门槛较低（F比小于等于Fout）。 4. **最优变量子集**：逐步回归的目标是找到一个最优的变量子集，其中包含的所有变量都在统计意义上显著。这个过程可能需要多次迭代，直到没有变量满足添加或删除的条件为止。 5. **专业判断与数学工具**：虽然逐步回归提供了一种数值方法，但选择自变量仍需依赖于专业知识。统计方法在此起到辅助作用，帮助从专业知识提出的候选变量中筛选出最佳组合。 6. **程序流程**：逐步回归的程序通常会按顺序检查变量，如果没有任何变量满足添加或删除的条件，程序就会停止，得出的模型即为当前条件下最优的变量子集。在应用逐步回归时，需要注意几个重要的点：一是要谨慎设置Fin和Fout的值，以防止过拟合或欠拟合；二是尽管逐步回归能节省计算工作，但可能会忽视某些重要的交互效应或非线性关系；三是结果解释应结合领域知识，不能完全依赖统计测试。

raw.doc

商务数据分析

电子商务系列

如果在某一步时，已有个变量被引入到回归方程中，不妨设为，即已

得回归方程

(33.1)

并且有平方和分解式

(33.2)

显然，回归平方和及残差平方和均与引入的变量相关。为了使其意义更清楚

起见，将其分别设为 RSS（）及 ESS（）。下面我们来考

虑，又有一个变量（l<i≤k）被引入回归方程中，这时对于新的回归方程所对应的平方

和分解式为

TSS = RSS（，）+ ESS （ , ）

(33.3)

当变量 X

引入后，回归平方和从 RSS （）增加到 RSS （

，）,而相应的残差平方和却从 ESS（）降到 ESS（

, )，并有

RSS

(

RSS

( )

= ESS( )-ESS( , )

(33.4)

记

它反映了由于引入后，

对回归平方和的贡献，也等价于引入后残差平方和所减少的量，称其为对因变量

的方差贡献，故考虑检验统计量

(33.5)

其中为样本量，是已引入回归方程的变量个数，这时若有

，

则可以考虑将

自变量引入回归方程，否则不能引入。

实际上大于 F

的变量开始时可能同时有几个，那么是否将它们都全部引入呢？实际编

程序时并不是一起全部引入，而是选其最大的一个引入回归方程。

关于剔除变量，如果已有个变量被引入回归方程，不失一般性，设其为

，所对应的平方和分解公式为：

上海财经大学经济信息管理系IS/SHUFE

Page 3 of 13

剩余12页未读，继续阅读

普通网友

粉丝: 13w+

逐步回归分析在大数据中的应用与原则

SAS系统讲义-一元线性回归分析.doc

SAS系统讲义-SAS系统简介.doc

SAS系统讲义-非线性回归分析.doc

kmod-megaraid_sas-07.717.02.00_el8

proc nlin data=wrn.rrd; parms b1=7.880227 b2=0.009068 b3=-0.129705 b4=0.196458 b5=-0.00005 b6=-0.000608 b7=0.000708 b8=-0.000171 b9=-0.000953 b10=-0.000587; model y=b1+b2*x1+b3*x2+b4*x3+b5*x1*x1+b6*x1*x2+b7*x2*x2+b8*x1*x3+b9*x2*x3+b10*x3*x3; run;请解释上述代码含义

Statistical knowledge outline

fama-macbecth回归的SAS代码

帮我找一些可以安装在mac上的消费者行为分析预测系统，附带网址

最新资源

proc nlin data=wrn.rrd; parms b1=7.880227 b2=0.009068 b3=-0.129705 b4=0.196458 b5=-0.00005 b6=-0.000608 b7=0.000708 b8=-0.000171 b9=-0.000953 b10=-0.000587; model y=b1+b2x1+b3x2+b4x3+b5x1x1+b6x1x2+b7x2x2+b8x1x3+b9x2x3+b10x3*x3; run;请解释上述代码含义