policy gradient
时间: 2023-12-07 07:04:08 浏览: 40
答案: Policy gradient是一种强化学习算法,用于训练一个能够输出动作或动作概率的神经网络。通过输入当前的状态,神经网络可以输出在该状态下采取每个动作的概率。为了实现最终的收敛,我们使用梯度下降来训练神经网络,但由于强化学习中无法知道动作的正确与否,只能通过奖励值来判断动作的相对好坏。因此,Policy gradient的思想是,如果一个动作得到的奖励多,就增加其出现的概率;如果一个动作得到的奖励少,就减小其出现的概率。\[3\] Policy gradient算法中还引入了衰减因子γ,用于降低前面动作对后面动作的影响。此外,为了区分不同组合的权重,还可以使用Advantage function来对每个组合的权重进行区分。\[2\]
#### 引用[.reference_title]
- *1* *2* *3* [Policy gradient(策略梯度详解)](https://blog.csdn.net/ygp12345/article/details/109009311)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item]
[ .reference_list ]
相关推荐
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)