利用极大似然思想证明多维高斯分布下的样本均值和样本协方差的最优估计形式
时间: 2023-06-17 14:08:21 浏览: 120
假设有 $n$ 个 $d$ 维样本 $x_1, x_2, ..., x_n$,它们服从多维高斯分布,即:
$$
p(x) = \frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}}\exp\left(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right)
$$
其中,$\mu$ 是 $d$ 维均值向量,$\Sigma$ 是 $d \times d$ 协方差矩阵,$|\Sigma|$ 表示 $\Sigma$ 的行列式。
样本均值的最优估计形式可以通过极大似然估计来得到。假设样本均值为 $\hat{\mu}$,则样本的似然函数为:
$$
L(\mu) = \prod_{i=1}^n p(x_i) = \prod_{i=1}^n \frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}}\exp\left(-\frac{1}{2}(x_i-\mu)^T\Sigma^{-1}(x_i-\mu)\right)
$$
取对数,得到对数似然函数:
$$
\begin{aligned}
\ln L(\mu) &= \ln \prod_{i=1}^n \frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}}\exp\left(-\frac{1}{2}(x_i-\mu)^T\Sigma^{-1}(x_i-\mu)\right) \\
&= \sum_{i=1}^n \ln \frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}} - \frac{1}{2}(x_i-\mu)^T\Sigma^{-1}(x_i-\mu) \\
&= -\frac{n}{2}\ln(2\pi) -\frac{n}{2}\ln|\Sigma| -\frac{1}{2}\sum_{i=1}^n (x_i-\mu)^T\Sigma^{-1}(x_i-\mu)
\end{aligned}
$$
对 $\mu$ 求导数,令导数为 $0$,得到:
$$
\begin{aligned}
\frac{\partial \ln L(\mu)}{\partial \mu} &= \frac{1}{2}\sum_{i=1}^n 2\Sigma^{-1}(x_i-\mu) \\
&= \Sigma^{-1}\sum_{i=1}^n (x_i - \mu) = 0
\end{aligned}
$$
解得:
$$
\hat{\mu} = \frac{1}{n}\sum_{i=1}^n x_i
$$
即,样本均值的最优估计为样本的算术平均值。
接下来利用极大似然思想证明多维高斯分布下的样本协方差的最优估计形式。
假设样本协方差矩阵为 $\hat{\Sigma}$,则样本的似然函数为:
$$
L(\Sigma) = \prod_{i=1}^n p(x_i) = \prod_{i=1}^n \frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}}\exp\left(-\frac{1}{2}(x_i-\mu)^T\Sigma^{-1}(x_i-\mu)\right)
$$
取对数,得到对数似然函数:
$$
\begin{aligned}
\ln L(\Sigma) &= \ln \prod_{i=1}^n \frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}}\exp\left(-\frac{1}{2}(x_i-\mu)^T\Sigma^{-1}(x_i-\mu)\right) \\
&= \sum_{i=1}^n \ln \frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}} - \frac{1}{2}(x_i-\mu)^T\Sigma^{-1}(x_i-\mu) \\
&= -\frac{n}{2}\ln(2\pi) -\frac{n}{2}\ln|\Sigma| -\frac{1}{2}\sum_{i=1}^n (x_i-\mu)^T\Sigma^{-1}(x_i-\mu)
\end{aligned}
$$
对 $\Sigma$ 求导数,令导数为 $0$,得到:
$$
\begin{aligned}
\frac{\partial \ln L(\Sigma)}{\partial \Sigma} &= -\frac{n}{2}\frac{1}{|\Sigma|}\frac{\partial |\Sigma|}{\partial \Sigma} - \frac{1}{2}\sum_{i=1}^n \frac{\partial}{\partial \Sigma}[(x_i-\mu)^T\Sigma^{-1}(x_i-\mu)] \\
&= -\frac{n}{2}\Sigma^{-1} + \frac{1}{2}\sum_{i=1}^n (x_i - \mu)(x_i - \mu)^T \Sigma^{-2} \\
&= 0
\end{aligned}
$$
解得:
$$
\hat{\Sigma} = \frac{1}{n}\sum_{i=1}^n (x_i - \hat{\mu})(x_i - \hat{\mu})^T
$$
即,样本协方差矩阵的最优估计为样本的协方差矩阵。
阅读全文