分别用常见微积分、线性代数、概率统计课程的思路推导一遍最小二乘法
时间: 2023-05-27 11:02:21 浏览: 61
最小二乘法(Least Square Method)是一种数学优化方法,用于寻找一组参数,使得给定的一组数据点的残差平方和最小。在各个学科中,都有不同的理解和应用,下面分别用微积分、线性代数、概率统计课程的思路推导一遍最小二乘法。
1. 微积分课程的思路:
设模型函数为 $y=f(x;\theta)$,其中 $\theta = (\theta_1, \theta_2, ..., \theta_m)^T$ 是 $m$ 个参数的向量。给定 $n$ 个数据点 $(x_i, y_i)$,我们希望找到一组参数 $\hat{\theta}=(\hat{\theta}_1, \hat{\theta}_2, ..., \hat{\theta}_m)^T$,使得残差 $r_i = y_i - f(x_i; \hat{\theta})$ 的平方和最小。
令残差平方和为 $S = \sum_{i=1}^n r_i^2$,则优化问题可以表达为:
$$\min_{\theta} S = \min_{\theta} \sum_{i=1}^n (y_i - f(x_i; \theta))^2.$$
为了求解最小二乘问题,需要对 $S$ 求偏导数并令其等于零,得到:
$$\frac{\partial S}{\partial \theta_j} = -2\sum_{i=1}^n r_i \frac{\partial f}{\partial \theta_j}(x_i; \theta) = 0, \ \ j=1,2,...,m,$$
即:
$$\sum_{i=1}^n r_i \frac{\partial f}{\partial \theta_j}(x_i; \hat{\theta}) = 0, \ \ j=1,2,...,m.$$
这是一个 $m$ 元非线性方程组,可以用迭代法求解。其中,每次迭代需要计算残差 $r_i$ 和函数的导数 $\frac{\partial f}{\partial \theta_j}(x_i; \theta)$。
2. 线性代数课程的思路:
将模型函数 $f(x; \theta)$ 写成参数向量 $\theta$ 和特征向量 $x$ 的线性组合,即:
$$f(x; \theta) = \theta_1 x_1 + \theta_2 x_2 + ... + \theta_m x_m = x^T \theta,$$
其中 $x=(x_1, x_2, ..., x_m)^T$。将 $n$ 个数据点表示为 $(x_1^T, y_1)^T, (x_2^T, y_2)^T, ..., (x_n^T, y_n)^T$,可以将它们表示为矩阵形式:
$$X = \begin{bmatrix} x_1^T \\ x_2^T \\ \vdots \\ x_n^T \end{bmatrix}, \ \ Y = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix}.$$
则优化问题可以表达为:
$$\min_{\theta} \lVert Y - X\theta \rVert_2^2.$$
该问题的解为 $\hat{\theta} = (X^TX)^{-1}X^TY$,其中 $(X^TX)^{-1}$ 表示 $X^TX$ 的逆矩阵。
3. 概率统计课程的思路:
假设模型函数 $f(x;\theta)$ 满足高斯分布的假设,即:
$$y_i \sim N(f(x_i;\theta), \sigma^2),$$
其中 $\sigma^2$ 是误差的方差。则对于一组观测数据点 $(x_i, y_i)$,其联合概率密度函数为:
$$P(Y|X,\theta) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi}\sigma} \exp\left\{-\frac{(y_i - f(x_i;\theta))^2}{2\sigma^2}\right\}.$$
最小二乘法可以看作是对参数向量 $\theta$ 的最大似然估计,即使得观测数据集的似然函数 $P(Y|X,\theta)$ 最大化。取对数后,可以得到最小二乘问题的等价问题:
$$\min_{\theta} \frac{1}{2\sigma^2} \sum_{i=1}^n (y_i - f(x_i; \theta))^2,$$
其中 $2\sigma^2$ 表示误差的方差。其解为 $\hat{\theta} = (X^TX)^{-1}X^TY$,与线性代数课程中的解相同。