给定收益矩阵m*n,证明二人零和博弈的混合策略均衡等价于一个线性规划问题以及对应对偶问题
时间: 2024-03-30 14:34:27 浏览: 104
对于一个二人零和博弈,我们可以通过收益矩阵来表示游戏的规则。其中,矩阵中的每个元素表示在不同的策略下,第一个玩家可以获得的收益,同时也等于第二个玩家损失的收益。
我们可以通过混合策略来表示每个玩家在每个可行的策略中选择的概率分布。这些概率的组合构成了一个概率向量,可以表示为一个n维向量。因此,我们可以将两个玩家的策略向量表示为$p$和$q$。
假设$p$和$q$是混合策略均衡,那么$p$和$q$满足以下条件:
1. 对于所有的$i$,$p_i\geq0$且$\sum_{i=1}^np_i=1$
2. 对于所有的$j$,$q_j\geq0$且$\sum_{j=1}^nq_j=1$
3. 对于任意的$i$和$j$,有$m_{ij}\cdot p_i+(1-m_{ij})\cdot(1-p_i)=m_{ji}\cdot q_j+(1-m_{ji})\cdot(1-q_j)$
其中,$m_{ij}$表示在第一个玩家选择第$i$个策略,第二个玩家选择第$j$个策略时的收益。
我们可以将这个问题转化为一个线性规划问题,其中我们需要最大化第一个玩家的收益。我们可以将第一个玩家的收益表示为$p^T\cdot M\cdot q$,其中$M$表示收益矩阵,$p^T$表示$p$的转置。同时,我们需要保证$p$和$q$满足上述3个条件。
因此,我们可以定义以下线性规划问题:
$$
\begin{aligned}
\max_{p,q} \quad & p^T\cdot M\cdot q \\
s.t. \quad & \sum_{i=1}^np_i=1 \\
& \sum_{j=1}^nq_j=1 \\
& p_i\geq0, \quad q_j\geq0 \\
& m_{ij}\cdot p_i+(1-m_{ij})\cdot(1-p_i)=m_{ji}\cdot q_j+(1-m_{ji})\cdot(1-q_j), \quad \forall i,j \\
\end{aligned}
$$
同时,我们也可以定义对偶问题,通过对偶问题来证明混合策略均衡等价于线性规划问题。
对偶问题的定义如下:
$$
\begin{aligned}
\min_{\lambda,\mu} \quad & \lambda^T\cdot \mathbf{1} + \mu^T\cdot \mathbf{1} \\
s.t. \quad & \lambda_i+\mu_j\geq M_{ij}, \quad \forall i,j \\
& \lambda_i\geq0, \quad \mu_j\geq0 \\
\end{aligned}
$$
其中,$\lambda$和$\mu$分别表示第一个和第二个玩家的对偶变量,$\mathbf{1}$表示全1向量,$M$表示收益矩阵。
通过线性规划的对偶性定理,我们可以证明混合策略均衡等价于线性规划问题以及对应的对偶问题。具体而言,我们可以证明:
1. 如果$p$和$q$是混合策略均衡,则存在一组对偶变量$\lambda$和$\mu$,满足$\lambda_i+\mu_j\geq M_{ij}$,同时$p_i=\frac{1}{\sum_{j=1}^n \mu_j}\cdot \mu_i$,$q_j=\frac{1}{\sum_{i=1}^n \lambda_i}\cdot \lambda_j$。
2. 如果存在一组对偶变量$\lambda$和$\mu$,满足$\lambda_i+\mu_j\geq M_{ij}$,则$p_i=\frac{1}{\sum_{j=1}^n \mu_j}\cdot \mu_i$和$q_j=\frac{1}{\sum_{i=1}^n \lambda_i}\cdot \lambda_j$构成一个混合策略均衡。
因此,我们可以通过线性规划问题和对偶问题来求解二人零和博弈的混合策略均衡。
阅读全文