请证明$H(\Theta \given \Theta^t)$满足以下性质: \begin{align*} \Theta^t = \operatorname{\arg \max}{\Theta} H(\Theta \given \Theta^t). \end{align*} (提示: 使用Jensen不等式) 其中$H(\Theta \given \Theta^t) = \sum{\bds{Z}} P(\bds{Z} \given \X, \Theta^t) \ln P(\bds{Z} \given \X, \Theta)$, $$Q(\Theta|\Theta^t) = \sum_Z P(Z| \X,\Theta^t)\ln P(\X,Z|\Theta)$$
时间: 2023-07-03 17:33:24 浏览: 162
Jensen不等式及其证明
3星 · 编辑精心推荐
我们可以使用Jensen不等式来证明这个性质。Jensen不等式指出,对于一个凸函数$f(x)$,有$f(\mathbb{E}[x]) \leq \mathbb{E}[f(x)]$,其中$x$是一个随机变量,$\mathbb{E}[x]$是$x$的期望。这里,我们将$f(x) = \ln{x}$。
首先,我们注意到$log$是一个凸函数。然后我们使用Jensen不等式,得到:
$$\ln \sum_{\bds{Z}} P(\bds{Z} \given \X, \Theta) = \ln 1 = 0 \leq \sum_{\bds{Z}} P(\bds{Z} \given \X, \Theta) \ln \frac{P(\bds{Z} \given \X, \Theta)}{\sum_{\bds{Z}} P(\bds{Z} \given \X, \Theta)}$$
对于任意的$\Theta$都成立,因此:
$$\ln \sum_{\bds{Z}} P(\bds{Z} \given \X, \Theta) \leq \sum_{\bds{Z}} P(\bds{Z} \given \X, \Theta) \ln P(\bds{Z} \given \X, \Theta)$$
接下来,我们将证明,对于给定的$\Theta^t$,$H(\Theta \given \Theta^t)$在$\Theta^t$处取得最大值。我们有:
\begin{align*} & H(\Theta^t \given \Theta^t) - H(\Theta \given \Theta^t) \\ &= \sum_{\bds{Z}} P(\bds{Z} \given \X, \Theta^t) \ln P(\bds{Z} \given \X, \Theta^t) - \sum_{\bds{Z}} P(\bds{Z} \given \X, \Theta^t) \ln P(\bds{Z} \given \X, \Theta) \\ &= \sum_{\bds{Z}} P(\bds{Z} \given \X, \Theta^t) \ln \frac{P(\bds{Z} \given \X, \Theta^t)}{P(\bds{Z} \given \X, \Theta)} \end{align*}
因为$H(\Theta^t \given \Theta^t)$是一个常数,所以我们只需要考虑$H(\Theta \given \Theta^t)$的值。为了使$H(\Theta \given \Theta^t)$最大化,我们需要最小化$\sum_{\bds{Z}} P(\bds{Z} \given \X, \Theta) \ln \frac{P(\bds{Z} \given \X, \Theta^t)}{P(\bds{Z} \given \X, \Theta)}$。我们可以看作是最小化KL散度$D_{KL}(P(\bds{Z} \given \X, \Theta^t) || P(\bds{Z} \given \X, \Theta))$。因此,当$\Theta = \Theta^t$时,$H(\Theta \given \Theta^t)$取得最小值。这证明了$H(\Theta \given \Theta^t)$在$\Theta^t$处取得最大值。
因此,我们有:
\begin{align*} \Theta^t = \operatorname{\arg \max}{\Theta} H(\Theta \given \Theta^t). \end{align*}
阅读全文