off-policy举例
时间: 2023-04-02 08:00:46 浏览: 165
一种基于Off-Policy的无模型输出数据反馈H∞ 控制方法.docx
off-policy 是一种强化学习算法中的策略评估方法,它可以在不同的策略下学习和评估价值函数。举例来说,如果我们想要评估一个策略,但是只有另一个策略的数据可用,那么我们可以使用 off-policy 方法来评估这个策略的价值函数。一个常见的 off-policy 算法是 Q-learning。
阅读全文
一种基于Off-Policy的无模型输出数据反馈H∞ 控制方法.docx