off-policy应用举例
时间: 2023-04-02 15:00:51 浏览: 107
一种基于Off-Policy的无模型输出数据反馈H∞ 控制方法.docx
off-policy的应用举例包括:Q-learning、SARSA、Deep Q-Network等强化学习算法中的经验回放机制,以及基于策略梯度的算法中的重要性采样等。此外,在推荐系统中,off-policy也可以用于评估不同推荐策略的效果,以及在广告推荐中进行在线学习和优化。
阅读全文
一种基于Off-Policy的无模型输出数据反馈H∞ 控制方法.docx