确定性策略与随机策略有什么区别
时间: 2023-12-04 10:03:50 浏览: 150
确定性策略与随机策略在选择动作的方式上有所不同。确定性策略是在给定状态下,直接输出一个确定的动作。也就是说,对于相同的状态,确定性策略总是选择相同的动作。这种策略可以通过建立一个神经网络,输入状态,输出一个确定的动作来实现。\[3\]
而随机策略则是在给定状态下,根据一定的概率分布随机选择一个动作。随机策略可以根据动作是连续的还是离散的进行分类。对于离散动作,随机策略称为分类策略,它可以从可穷举的动作集合中随机选择一个动作。而对于连续动作,随机策略称为对角高斯策略,它可以从连续的动作空间中按照高斯分布随机选择一个动作。\[2\]
因此,确定性策略和随机策略的区别在于选择动作的方式,确定性策略总是选择相同的动作,而随机策略根据概率分布随机选择动作。
#### 引用[.reference_title]
- *1* [on-policy与off-policy;确定性策略与随机策略](https://blog.csdn.net/weixin_43483381/article/details/118114149)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item]
- *2* *3* [强化学习之确定性策略网络和随机策略网络](https://blog.csdn.net/weixin_43897187/article/details/111822903)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item]
[ .reference_list ]