连续动作空间的PPO算法
时间: 2023-11-10 17:55:41 浏览: 99
连续动作空间的PPO算法使用两个网络结构。PPO算法是一种on-policy的强化学习算法,用于解决连续动作空间的强化学习问题。它的网络结构由论文《Proximal Policy Optimization Algorithms》中描述的两个部分组成。其中,状态价值函数v(s)和动作优势函数A(s, a)是通过一个critic网络输出得到的。在PPO算法中,与TD3算法的单步TD不同,PPO算法使用多步TD,因此需要在完整的轨迹结束后开始计算各个状态的累积回报和动作的优势。具体来说,状态价值v(s)和动作优势A(s, a)的计算是通过首先计算δ0 = r1 - v(s0),然后使用折扣因子γλ去计算动作优势A(s0, a0)。详细的计算公式可以在论文中的公式(11)中找到。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* *2* *3* [强化学习之图解PPO算法和TD3算法](https://blog.csdn.net/qq_41773233/article/details/118226629)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 100%"]
[ .reference_list ]
相关推荐
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)