多元线性回归分析原理与最小二乘法

版权申诉

5星 · 超过95%的资源 12 浏览量更新于2024-07-18 收藏 794KB DOC 举报

"SAS系统讲义-多元线性回归分析" 在统计学和数据分析中，多元线性回归分析是一种常用的方法，用于研究一个或多个自变量（独立变量）与一个因变量（依赖变量）之间的关系。SAS系统是执行此类分析的强大工具。本讲义深入探讨了多元线性回归的基本概念、模型构建以及参数估计方法。首先，多元回归模型通过公式 `(Y = β0 + β1X1 + β2X2 + ... + βkXk + ε)` 来表示，其中 `Y` 是因变量，`β0` 是截距项，`β1, β2, ..., βk` 是各自变量的系数，`X1, X2, ..., Xk` 是自变量，而 `ε` 表示随机误差项。模型的矩阵形式为 `Y = XB + ε`，其中 `B` 是未知参数向量，`X` 是包含常数项的自变量矩阵，`ε` 是误差向量。对于经典线性回归模型，有以下假设： 1. 模型的形式遵循 `(Y = XB + ε)`。 2. `X` 矩阵的元素是固定的，且其秩为 `(k+1)`，其中 `k` 为自变量数量，`N` 为观测样本数，确保没有完全的多重共线性。 3. 误差项 `ε` 遵循正态分布，均值为0，方差为 σ²，且误差项之间无相关性，即 `E(ε) = 0`，`Cov(εi, εj) = 0`，其中 `I` 是单位矩阵。最小二乘法是多元线性回归中最常用的参数估计方法，其目标是找到一组参数 `B` 使得残差平方和最小。残差 `e` 是实际观察值 `Y` 与预测值 `Y^` 之差，即 `e = Y - Y^`。通过求解残差平方和 `RSS = e'e` 的最小值来确定参数 `B`。通过微分并令偏导数为0，我们可以得到最小二乘估计的闭式解，即 `B = (X'X)^{-1}X'Y`。这里，`(X'X)^{-1}` 是“交叉乘积矩阵”或称“协方差矩阵”，其非奇异性的假设保证了解的存在性和唯一性。最小二乘法的残差还有一个重要的性质，即自变量与残差的点积之和为0，这意味着残差不依赖于自变量的线性组合，从而增强了模型的解释力。这一特性对于检验模型的假设和进行残差分析非常有用。在实际应用中，SAS系统提供了一套完整的工具，从数据预处理到模型建立，再到结果解读，支持用户进行有效的多元线性回归分析，帮助研究者理解复杂的数据结构和变量间的关系。通过SAS的统计输出，可以评估模型的拟合度、系数的显著性以及交互效应等，从而为决策提供科学依据。

raw.doc

商务数据分析

电子商务系列

YYTSS

ESS













ˆˆ

(32.24)

若因变量不具有 0 平均值，我们必须改进一下的定义。这样，

由此可以得出：

(32.25)

和

(32.26)

注意到一个数学上的事实：随着模型中增添新的变量，

必定会增加，从而只要给模

型增添越来越多的新因素，就可能使得

人为地增大。在一元回归时已经指出

较大常指

模型与数据拟合得较好，在多元回归时很容易错误地去寻找一个极大化

的回归模型。我

们应该知道一个好的多元回归模型，应具有合理个数的有意义自变量的简单模型。为了解决

这个问题，提出了修正

，使得只有当新增变量确实对因变量有所作用时修正

才会增

加。我们定义

为修正的

，它是校正拟合优度对自由度的依赖关系，如下式如示：

(32.27)

现在就可以考虑对回归系数集的统计检验。最通常利用的检验是







, 这个联合假设的检验。合适的 F 统计量为：

(32.28)

为分布，具有

和

－

自由度。较大的值，可使我们否定原假设。

伍、reg 回归过程

在 SAS/STAT 中有多个进行回归的过程，如 reg、glm 等，常用于进行一般线性回归模

型分析的为 reg 过程。

1. proc reg 过程

Reg 过程一般由下列语句控制：

数据集集名选项列表;

因变量自变量名列选项列表；

上海财经大学经济信息管理系IS/SHUFE

Page 5 of 26

raw.doc

商务数据分析

电子商务系列

变量列表；

数据集名选项列表

绘图表达式选项列表；

!"关键字列；

#!$变量；

%&变量；

'(变量；

)!方程 ，方程  ， ；

)方程 ，方程  ，；

"

其中 model 语句是必需要有的，其他语句都是可选的。

2. proc reg 语句中的<选项列表>。

 outest=SAS 数据集——将有关模型的参数估计和选择的统计量输出到指定的 SAS

数据集中。

 outsscp=SAS 数据集——要求把平方和及叉积矩阵输出到 type=sscp 的数据集中。

 all——屏幕输出所有内容。

 usscp——对用在该过程中的所有变量输出平方和及叉积矩阵。

 noprint——不在屏幕输出任何内容。

3. model 语句中的<选项列表>。

1) 确定变量筛选办法的选择项。

依次表示全部变量进入法 none 、前进法 forward 、后退法 backward 、逐步筛选法

stepwise（前进法与后退法的结合）、最大 R

增量法 maxr、最小 R

增量法 minr、R

选择法

rsquare、Mallow's Cp 选择法 cp、修正 R

选择法 adjrsq。

2) 其他选择项

见表 3.2 所示是可在 model 语句中选用的其他选项。

表 32.2 model 语句中的其他选项

acov xpx spec pcorr1

slentry

＝

details

aic

covb i stb pcorr2

slstay

＝

lackt

sbc

corrb p cli scorr1

start

＝

collin

ss1

mse r clm scorr2

best

＝

collinoint

ss2

sse b jp adjrsq

include

＝

inuence

vif

seqb dw rmse gmsep

stop

＝

partial

tol

all pc sp noint

sigma

＝

noprint

bic

其中一些选择项的意义如下：

 acov——存在异方差时，输出参数估计量的渐近协方差阵的估计。

 spec——进行关于方差异性的检验。

 slentry | sle =显著性水平——规定入选变量进人方程的显著性水平。

 slstay | sls=剔除水平——规定从方程中剔除变量的显著性水平。

上海财经大学经济信息管理系IS/SHUFE

Page 6 of 26

剩余25页未读，继续阅读

普通网友

粉丝: 13w+
资源:
9195

多元线性回归分析原理与最小二乘法

SAS系统讲义-非线性回归分析.doc

SAS系统讲义-一元线性回归分析.doc

SAS系统讲义-平稳时间序列分析.doc

SAS系统讲义-逐步回归分析.doc

SAS系统讲义-主成份分析.doc

SAS系统讲义-典型相关分析.doc

SAS系统讲义-判别分析.doc

SAS系统讲义-非平稳序列的确定性分析.doc

matlab讲义.docx

主成份分析原理与SAS系统应用

最新资源