带有公式的描述一下maddpg算法的训练过程
时间: 2024-05-26 14:18:34 浏览: 20
MADDPG算法是一种基于深度强化学习的多智能体协同决策算法,用于解决多智能体协同决策问题。其训练过程如下:
1.初始化:
对于每个智能体 $i$,初始化本地actor网络 $Actor_{\theta_i}$ 和本地critic网络 $Critic_{\phi_i}$,并且初始化目标actor网络 $Actor_{\theta_i}^{-}$ 和目标critic网络 $Critic_{\phi_i}^{-}$。设置经验回放缓冲区 $D$ 为空。
2.收集经验数据:
通过与环境交互,每个智能体 $i$ 收集到经验数据 $(s_t, a_{i,t}, r_{i,t}, s_{t+1})$,其中 $s_t$ 是当前状态,$a_{i,t}$ 是智能体 $i$ 在当前状态下的动作,$r_{i,t}$ 是智能体 $i$ 在执行动作 $a_{i,t}$ 后所获得的奖励,$s_{t+1}$ 是下一个状态。
将经验数据 $(s_t, \{a_{j,t}\}, r_{i,t}, s_{t+1})$ 存储到经验回放缓冲区 $D$ 中。
3.更新参数:
从经验回放缓冲区 $D$ 中随机采样一批经验数据 $(s, a, r, s')$,其中 $a = \{a_{i}\}$,$r = \{r_{i}\}$。
利用目标critic网络计算目标Q值 $y_i = r_i + \gamma Q_{\phi_i}^{-}(s', \{Actor_{\theta_j}^{-}(s')\})$,其中 $\gamma$ 是折扣因子。
利用本地critic网络计算当前状态下的Q值 $Q_i(s, a)$。
计算critic网络的损失函数 $L(\phi_i) = \frac{1}{N} \sum_{i=1}^{N} (y_i - Q_i(s, a))^2$,其中 $N$ 是采样的经验数目。
利用损失函数更新本地critic网络参数 $\phi_i$。
对于每个智能体 $i$,利用本地actor网络计算该智能体在当前状态下的动作 $a_i = Actor_{\theta_i}(s)$。
计算actor的梯度 $\nabla_{\theta_i} J = \frac{1}{N} \sum_{i=1}^{N} \nabla_{a_i} Q_i(s, a)|_{a_i=Actor_{\theta_i}(s)} \nabla_{\theta_i} Actor_{\theta_i}(s)$,其中 $J$ 是该智能体的目标收益函数。
利用梯度下降算法更新本地actor网络参数 $\theta_i$。
4.更新目标网络:
对于每个智能体 $i$,更新目标critic网络参数 $\phi_i^{-} \leftarrow \tau \phi_i + (1-\tau) \phi_i^{-}$,其中 $\tau$ 是软更新系数。
对于每个智能体 $i$,更新目标actor网络参数 $\theta_i^{-} \leftarrow \tau \theta_i + (1-\tau) \theta_i^{-}$。
重复步骤2-4,直到达到预定的训练轮数或者达到目标收益函数。
相关推荐
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)