确定性策略梯度算法评估行为值函数的相容近似函数证明过程
时间: 2023-12-15 09:03:16 浏览: 29
确定性策略梯度算法中使用相容函数的方法评估行为值函数,可以通过相容函数的近似来实现。这里我们给出相容函数的近似证明过程。
我们需要证明的是,对于任意的状态 $s$ 和动作 $a$,都有:
$$Q(s,a) = H(s,a) + \mathcal{O}(\epsilon)$$
其中,$\epsilon$ 表示相容函数的近似误差。具体地,我们需要找到一个相容函数 $H(s,a)$,使得该函数能够近似地评估行为值函数 $Q(s,a)$,即:
$$H(s,a) \approx Q(s,a)$$
为了找到相容函数 $H(s,a)$,我们考虑使用二次近似函数。具体地,我们用一个二次函数来近似相容函数 $H(s,a)$,即:
$$H(s,a) \approx Q(s,\mu(s)) + (\nabla_a Q(s,a)|_{a=\mu(s)})^T (a - \mu(s)) + \frac{1}{2} (a - \mu(s))^T \nabla_a^2 Q(s,a)|_{a=\mu(s)} (a - \mu(s))$$
其中,$\mu(s)$ 表示策略函数在状态 $s$ 下的输出,即 $\mu(s) = \arg\max_{a} Q(s,a)$。
我们可以将上式中的 $a$ 替换为 $\mu(s) + \epsilon$,其中 $\epsilon$ 是一个小量,即 $a = \mu(s) + \epsilon$。然后,将该式子代入行为值函数 $Q(s,a)$ 中,得到:
$$Q(s,a) = Q(s,\mu(s)) + (\nabla_a Q(s,a)|_{a=\mu(s)})^T \epsilon + \frac{1}{2} \epsilon^T \nabla_a^2 Q(s,a)|_{a=\mu(s)} \epsilon + \mathcal{O}(\epsilon^3)$$
我们将上式中的第一项和第二项合并,得到:
$$Q(s,a) = H(s,a) + \frac{1}{2} \epsilon^T \nabla_a^2 Q(s,a)|_{a=\mu(s)} \epsilon + \mathcal{O}(\epsilon^3)$$
因此,我们可以将相容函数定义为:
$$H(s,a) = Q(s,\mu(s)) + (\nabla_a Q(s,a)|_{a=\mu(s)})^T (a - \mu(s))$$
这样,我们就得到了一个相容函数的近似,即:
$$Q(s,a) = H(s,a) + \mathcal{O}(\epsilon)$$
证毕。