图解DQN/DDQN
时间: 2023-10-04 12:03:10 浏览: 207
DDQN信号
DQN和DDQN是深度强化学习算法中常用的两种方法。在DQN中,选择动作的过程中总是选择Target Q网络的最大输出值作为预测动作的Q值。而在DDQN中,首先从Q网络中找到最大输出值对应的动作,然后再通过Target Q网络找到该动作对应的Q值。下面是图解DQN和DDQN的过程:
<DQN>
1. 使用当前状态st作为输入,通过Q网络得到每个动作的Q值。
2. 根据贪婪策略,选择具有最大Q值的动作at。
3. 使用at作为输入,通过Target Q网络得到该动作对应的Q值。
4. 使用预测值Q(st, at)和实际值rt+1 + γ * maxQ(st+1, a)计算误差,并进行误差反向传播。
<DDQN>
1. 使用当前状态st作为输入,通过Q网络得到每个动作的Q值。
2. 根据贪婪策略,选择具有最大Q值的动作at。
3. 使用st+1作为输入,通过Q网络得到每个动作的Q值。
4. 根据贪婪策略,选择具有最大Q值的动作at+1。
5. 使用at+1作为输入,通过Target Q网络得到该动作对应的Q值。
6. 使用预测值Q(st, at)和实际值rt+1 + γ * Q(st+1, at+1)计算误差,并进行误差反向传播。
需要注意的是,在DDQN中,选择最大Q值的动作是在Q网络中进行,而获取该动作对应的Q值是在Target Q网络中进行的。这样可以减少Q值的过估计,提高算法的稳定性和收敛性。
阅读全文