请证明$H(\Theta \given \Theta^t)$满足以下性质: \begin{align*} \Theta^t = \operatorname{\arg \max}{\Theta} H(\Theta \given \Theta^t). \end{align*} (提示: 使用Jensen不等式) 其中$H(\Theta \given \Theta^t) = \sum{\bds{Z}} P(\bds{Z} \given \X, \Theta^t) \ln P(\bds{Z} \given \X, \Theta)$, $$Q(\Theta|\Theta^t) = \sum_Z P(Z| \X,\Theta^t)\ln P(\X,Z|\Theta)$$
时间: 2023-07-03 21:33:19 浏览: 140
首先,我们根据条件熵的定义,可以将 $H(\Theta \given \Theta^t)$ 改写为:$$H(\Theta \given \Theta^t) = -\sum_{\Theta} \sum_{\bds{Z}} P(\Theta, \bds{Z} \given \X, \Theta^t) \ln \frac{P(\Theta, \bds{Z} \given \X, \Theta^t)}{P(\bds{Z} \given \X, \Theta^t)}$$
接下来,我们使用 Jensen 不等式:对于凸函数 $f(x)$,有 $f(\mathbb{E}[x]) \leq \mathbb{E}[f(x)]$。
我们设 $f(x) = \ln x$,则 $f''(x) = -\frac{1}{x^2} \leq 0$,即 $f(x)$ 是凸函数。因此,对于任意的分布 $Q(x)$,都有:$$f(\mathbb{E}_Q[x]) \leq \mathbb{E}_Q[f(x)]$$
我们将上式应用到 $P(\Theta, \bds{Z} \given \X, \Theta^t)$ 上,得到:$$\ln P(\Theta, \bds{Z} \given \X, \Theta^t) \geq \mathbb{E}_{P(\bds{Z} \given \X, \Theta^t)}[\ln P(\Theta, \bds{Z} \given \X, \Theta^t)]$$
将上式代入 $H(\Theta \given \Theta^t)$ 的定义式中,得到:$$H(\Theta \given \Theta^t) \leq -\sum_{\Theta} \sum_{\bds{Z}} P(\bds{Z} \given \X, \Theta^t) P(\Theta \given \bds{Z}, \X, \Theta^t) \ln P(\Theta, \bds{Z} \given \X, \Theta^t)$$
我们将 $P(\Theta \given \bds{Z}, \X, \Theta^t)$ 称为 $Q(\Theta)$,则上式可以写成:$$H(\Theta \given \Theta^t) \leq -\sum_{\Theta} Q(\Theta) \ln \frac{P(\Theta, \bds{Z} \given \X, \Theta^t)}{Q(\Theta)}$$
右侧是 $Q(\Theta)$ 和 $P(\Theta, \bds{Z} \given \X, \Theta^t)$ 的 KL 散度,因此可知右侧的值最小为 0,当且仅当 $Q(\Theta) = P(\Theta \given \bds{Z}, \X, \Theta^t)$ 时取得最小值。因此,我们有:$$H(\Theta \given \Theta^t) \leq -\sum_{\Theta} P(\Theta \given \bds{Z}, \X, \Theta^t) \ln P(\Theta, \bds{Z} \given \X, \Theta^t)$$
右侧是 $P(\Theta \given \bds{Z}, \X, \Theta^t)$ 和 $P(\Theta, \bds{Z} \given \X, \Theta^t)$ 的交叉熵,对于任意分布 $P$ 和 $Q$,交叉熵 $H(P, Q)$ 都满足 $H(P, Q) \geq H(P, P)$,等号成立当且仅当 $P=Q$。因此,我们有:$$H(\Theta \given \Theta^t) \leq H(P(\Theta \given \bds{Z}, \X, \Theta^t), P(\Theta, \bds{Z} \given \X, \Theta^t))$$
当 $P(\Theta \given \bds{Z}, \X, \Theta^t) = \operatorname{\arg \max}{\Theta} P(\Theta \given \bds{Z}, \X, \Theta^t)$ 时,$H(P(\Theta \given \bds{Z}, \X, \Theta^t), P(\Theta, \bds{Z} \given \X, \Theta^t))$ 取得最小值。因此,我们有:$$H(\Theta \given \Theta^t) \leq H(\Theta^*, P(\Theta, \bds{Z} \given \X, \Theta^t))$$
其中 $\Theta^* = \operatorname{\arg \max}{\Theta} P(\Theta \given \bds{Z}, \X, \Theta^t)$。我们可以将 $H(\Theta^*, P(\Theta, \bds{Z} \given \X, \Theta^t))$ 看作是一个关于 $\Theta^*$ 的函数,因此当 $\Theta^* = \operatorname{\arg \max}{\Theta} H(\Theta \given \Theta^t)$ 时,$H(\Theta^*, P(\Theta, \bds{Z} \given \X, \Theta^t))$ 取得最小值。综上所述,我们有:$$H(\Theta \given \Theta^t) \leq H(\Theta^*, P(\Theta, \bds{Z} \given \X, \Theta^t)) \leq H(\operatorname{\arg \max}{\Theta} H(\Theta \given \Theta^t), P(\Theta, \bds{Z} \given \X, \Theta^t))$$
因此,我们证明了 $H(\Theta \given \Theta^t)$ 满足以下性质:$$\Theta^t = \operatorname{\arg \max}{\Theta} H(\Theta \given \Theta^t)$$
阅读全文