熵、共熵、条件熵和平均互信息量的定义、性质、关系(文氏图)以及计算例题)
时间: 2023-09-01 14:11:20 浏览: 66
好的,让我逐一解答你的问题。
1. 熵:熵是信息论中用来衡量信息量的一个指标,表示信息的不确定性或者信息的随机性。对于一个离散随机变量X,其熵的定义为:$H(X)=-\sum_{i=1}^{n}P(x_i)\log P(x_i)$,其中$n$是样本空间中不同的取值个数,$P(x_i)$是变量X取值为$x_i$的概率,$\log$是以2为底的对数。
2. 共熵:共熵是指两个随机变量的信息熵之和减去这两个随机变量的联合熵。对于两个离散随机变量X和Y,其共熵的定义为:$H(X,Y)=H(X)+H(Y)-H(X,Y)$。
3. 条件熵:条件熵是指在已知随机变量Y的条件下,随机变量X的不确定性。对于两个离散随机变量X和Y,其条件熵的定义为:$H(X|Y)=\sum_{j=1}^{m}P(y_j)H(X|Y=y_j)$,其中$m$是Y的不同取值个数,$P(y_j)$是Y取值为$y_j$的概率,$H(X|Y=y_j)$是在Y取值为$y_j$的条件下,X的熵。
4. 平均互信息量:平均互信息量是指在已知随机变量Y的条件下,随机变量X与Y之间的关联程度。对于两个离散随机变量X和Y,其平均互信息量的定义为:$I(X;Y)=\sum_{i=1}^{n}\sum_{j=1}^{m}P(x_i,y_j)\log\frac{P(x_i,y_j)}{P(x_i)P(y_j)}$,其中$P(x_i,y_j)$是X和Y同时取值为$(x_i,y_j)$的概率,$P(x_i)$和$P(y_j)$分别是X和Y的概率。
5. 性质和关系:在信息论中,熵和条件熵具有以下性质和关系:
(1)熵和条件熵的值都是非负数。
(2)当X和Y独立时,$H(X|Y)=H(X)$,$I(X;Y)=0$。
(3)当X和Y完全相关时,$H(X|Y)=0$,$I(X;Y)=H(X)=H(Y)$。
(4)根据条件熵的定义,可以得到熵的链式法则:$H(X_1,X_2,...,X_n)=\sum_{i=1}^{n}H(X_i|X_1,X_2,...,X_{i-1})$。
(5)根据平均互信息量的定义,可以得到以下关系:$I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)$。
6. 计算例题:假设有两个二进制随机变量X和Y,其概率分布如下表所示:
| X\Y | 0 | 1 |
| --- | --- | --- |
| 0 | 0.2 | 0.3 |
| 1 | 0.4 | 0.1 |
则有:
(1)X的熵:$H(X)=-\sum_{i=1}^{2}P(x_i)\log P(x_i)=-0.6\log 0.6 - 0.4\log 0.4\approx 0.971$
(2)Y的熵:$H(Y)=-\sum_{j=1}^{2}P(y_j)\log P(y_j)=-0.3\log 0.3 - 0.7\log 0.7\approx 0.881$
(3)X和Y的联合熵:$H(X,Y)=-\sum_{i=1}^{2}\sum_{j=1}^{2}P(x_i,y_j)\log P(x_i,y_j)=-0.2\log 0.2 - 0.3\log 0.3 - 0.4\log 0.4 - 0.1\log 0.1\approx 1.846$
(4)共熵:$H(X,Y)=H(X)+H(Y)-I(X;Y)$,因此$I(X;Y)=H(X)+H(Y)-H(X,Y)\approx 0.006$
(5)条件熵:$H(X|Y)=\sum_{j=1}^{2}P(y_j)H(X|Y=y_j)=-0.5\log 0.5 - 0.5\log 0.5\approx 1$
(6)平均互信息量:$I(X;Y)=\sum_{i=1}^{2}\sum_{j=1}^{2}P(x_i,y_j)\log\frac{P(x_i,y_j)}{P(x_i)P(y_j)}\approx 0.085$