ppo 添加baseline
时间: 2023-08-01 18:09:50 浏览: 99
在深度强化学习中,PPO(Proximal Policy Optimization)是一种常用的算法之一。在PPO中,为了减少方差,我们可以添加一个baseline来估计每个状态的价值。引用\[3\]中提到了计算轨迹发生概率的公式,我们可以在这个公式中添加一个baseline项来计算每个状态的价值。具体来说,我们可以将每个状态的概率乘以该状态的价值函数的估计值,然后再进行概率的乘积计算。这样可以帮助我们更准确地估计每个状态的优势值,从而提高训练的效果。
#### 引用[.reference_title]
- *1* *3* [强化学习从基础到进阶-案例与实践[5]:梯度策略、添加基线(baseline)、优势函数、动作分配合适的分数...](https://blog.csdn.net/sinat_39620217/article/details/131384681)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item]
- *2* [强化学习--PPO(近端策略优化)](https://blog.csdn.net/qq_44430026/article/details/125947354)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item]
[ .reference_list ]
阅读全文