多元线性回归模型计算公式
时间: 2025-01-01 16:13:46 浏览: 16
### 多元线性回归模型计算公式
多元线性回归用于建立多个自变量 \(X_1, X_2,\ldots,X_n\) 和一个因变量 \(Y\) 之间的关系。其一般形式可以表示为:
\[ Y = \beta_0 + \beta_1X_1 + \beta_2X_2+\cdots+ \beta_pX_p +\epsilon \]
其中,
- \(Y\) 是被解释变量(或称为响应变量)
- \(X_i(i=1,...,p)\) 表示各个解释变量(也叫特征或输入变量),\(p\) 代表解释变量的数量
- \(\beta_0\) 称为截距项,它是在没有任何其他因素影响下对 \(Y\) 的平均估计值
- \(\beta_i(i=1,...,p)\) 是对应于各解释变量的偏斜率参数,它们衡量当其它所有条件不变时单位变化所带来的期望改变量
- \(\epsilon\) 是随机误差项,通常假定服从均值为零、同方差且相互独立的标准正态分布[^1]。
为了求解上述公式的未知参数向量 \(\boldsymbol{\beta}=(\beta_0,\beta_1,…,\beta_p)^T\) ,常用的方法是最小二乘法(LSM),通过最小化残差平方和来获得最优解:
\[ SSE=\sum_{i=1}^{n}(y_i-\hat{y}_i)^2=\sum_{i=1}^{n}\left(y_i-(b_0+b_1x_{i1}+...+b_px_{ip})\right)^2 \]
这里的目标是找到一组最佳权重使得预测值尽可能接近实际观测值,在实践中可以通过矩阵运算快速得到闭式解:
\[ \hat{\boldsymbol{\beta}}=(\mathbf{X}^\mathrm{T}\mathbf{X})^{-1}\mathbf{X}^\mathrm{T}\mathbf{y} \]
此处 \(\mathbf{X}\) 是设计矩阵,包含了所有的样本点以及附加的一列全为1的数据用来表征常数项;而 \(\mathbf{y}\) 则是由目标变量组成的列向量[^3]。
```python
import numpy as np
from sklearn.linear_model import LinearRegression
# 构造一些简单的二维数据作为例子
np.random.seed(0)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)
# 创建并训练模型
lin_reg = LinearRegression()
lin_reg.fit(X, y)
print(f'Intercept: {lin_reg.intercept_[0]}')
for idx, coef in enumerate(lin_reg.coef_[0]):
print(f'Coefficent of feature {idx}: {coef}')
```
阅读全文