值函数强化学习-DQN、DDQN和Dueling DQN算法公式推导分析

DQN算法是一种基于Q-learning的深度强化学习算法，其目标是学习一个Q函数，使得该函数能够最大化累积奖励。DDQN算法是对DQN算法的改进，通过解决DQN算法中过高估计Q值的问题，提高了算法的性能。Dueling DQN算法则是在DDQN算法的基础上，提出了一种新的神经网络结构，使得算法的学习效率更高。下面是DQN算法的公式推导分析： 1. Q-learning的更新公式为：$Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha(r_{t+1} + \gamma \max_{a} Q(s_{t+1},a) - Q(s_t,a_t))$ 2. DQN算法使用了深度神经网络来逼近Q函数，将更新公式改为：$Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha(r_{t+1} + \gamma \max_{a} Q(s_{t+1},a; \theta^-) - Q(s_t,a_t; \theta))$，其中$\theta$为当前网络的参数，$\theta^-$为目标网络的参数，$\max_{a} Q(s_{t+1},a; \theta^-)$表示在下一个状态$s_{t+1}$中，选择动作$a$所得到的最大Q值。 3. DDQN算法在DQN算法的基础上，使用了双网络结构，解决了DQN算法中过高估计Q值的问题。更新公式为：$Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha(r_{t+1} + \gamma Q(s_{t+1},\arg\max_{a} Q(s_{t+1},a; \theta); \theta^-) - Q(s_t,a_t; \theta))$，其中$\arg\max_{a} Q(s_{t+1},a; \theta)$表示在下一个状态$s_{t+1}$中，选择动作$a$所得到的最大Q值对应的动作。 4. Dueling DQN算法在DDQN算法的基础上，提出了一种新的神经网络结构，使得算法的学习效率更高。具体来说，Dueling DQN算法的输出包括两个分支，分别是该状态的状态价值V(标量)和每个动作的优势值A(与动作空间同维度的向量)。网络结构如下图所示： [Dueling DQN网络结构](https://img-blog.csdn.net/20170727145756345?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvY2hlbnhpYW9fYmFpZHUx/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/q/80) 更新公式为：$Q(s_t,a_t) \leftarrow V(s_t) + (A(s_t,a_t) - \frac{1}{|\mathcal{A}|} \sum_{a} A(s_t,a))$，其中$V(s_t)$表示状态$s_t$的价值，$A(s_t,a_t)$表示在状态$s_t$下选择动作$a_t$的优势值，$\frac{1}{|\mathcal{A}|} \sum_{a} A(s_t,a)$表示所有动作的平均优势值。

值函数强化学习-DQN、DDQN和Dueling DQN算法公式推导分析

相关推荐

基于LunarLander登陆器的DQN、DDQN、Dueling-DQN、Dueling-DDQ强化学习（含PYTHON工程）

莫烦老师 走迷宫 智能强化学习DQN算法实现，开箱即用

强化学习算法-基于python的深度强化学习double-dqn算法实现

double-dqn 算法

ddqn和dqn的算法伪代码

dnn和强化学习结合之后与dqn算法有什么区别

RA-DQN算法是什么意思

dueling DQN算法

DQN算法是强化学习还是深度强化学习

强化学习算法DQN的具体流程

强化学习中DQN算法的原理是什么？

各类基于值函数的深度强化学习算法

强化学习DQN算法代码

Averaged-DQN

请帮我写一段基于值函数的深度强化学习算法

dqn系列梳理_强化学习：DQN与Double DQN讨论

DDQN算法与DQN算法有什么不同之处？

PER-DQN是什么

APF-DQN路径规划

最新推荐

RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz

管理建模和仿真的文件

：YOLOv1目标检测算法：实时目标检测的先驱，开启计算机视觉新篇章

ActionContext.getContext().get()代码含义

c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf

"互动学习：行动中的多样性与论文攻读经历"

：YOLO目标检测算法的挑战与机遇：数据质量、计算资源与算法优化，探索未来发展方向

设计一个算法，输出在顺序表｛3，6，2，10，1，8，5，7，4，9｝中采用顺序方法查找关键字5的过程。

建筑供配电系统相关课件.pptx

关系数据表示学习

莫烦老师走迷宫智能强化学习DQN算法实现，开箱即用