没有合适的资源?快使用搜索试试~ 我知道了~
首页Q-Learning更新公式
Q-Learning更新公式
需积分: 29 1.7k 浏览量
更新于2023-05-28
评论 1
收藏 9KB DOC 举报
强化学习的参数更新公式。Q-Learning更新公式: Qnew(st-1,at-1)=(1-α)‧Q(st-1,at-1)+α(rt+γ‧maxQ(st,a)) 其中maxQ(st,a)用于查找st 下期望回报最好的行为。α∈(0,1],γ∈[0,1],rt 是t时刻的奖赏。
资源详情
资源评论
资源推荐


















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0