强化学习与机器人：Policy Gradient详解及实践

版权申诉

117 浏览量更新于2024-06-19 收藏 4.97MB PDF 举报

"机器学习与机器人_38" 这篇资源主要涵盖了多个关于机器学习和机器人领域的主题，特别是强化学习的深度探讨。强化学习是人工智能的一个关键分支，它通过与环境的交互来学习最优策略，以最大化长期奖励。下面将详细讨论资源中的主要内容。 1. **强化学习的基本概念** - **On-Policy与Off-Policy的区别**：在强化学习中，On-Policy是指在学习过程中使用的是当前策略来选择行动，而Off-Policy则是根据不同的策略（可能是以前学习到的或固定的策略）来收集经验数据。这两种方法各有优缺点，On-Policy通常更稳定，但可能探索性不足，Off-Policy则允许更灵活的数据利用。 2. **Q-learning与Sarsa** - Q-learning是一种离策略的强化学习算法，它通过更新Q值表来预测每个状态动作对的未来奖励。Sarsa是一种在线的On-Policy算法，它更新的是实际执行的动作的Q值。两者的核心区别在于对未来的估计方式和策略的更新机制。 3. **Policy Gradient方法** - Policy Gradient是一种直接优化策略函数的方法，分为上、中、下三个部分详细讲解，旨在帮助读者理解其背后的思路和数学推导。 4. **基于人类演示和强化学习的夹爪训练** - BAIR项目展示了如何使用人类演示和强化学习结合来训练夹爪机器人，强调了这种方法的高效性、通用性和低成本。 5. **Python与Matlab Engine的集成** - 在Ubuntu 18.04中，介绍了如何在Python的虚拟环境中使用Matlab Engine，这对于数据处理和科学计算很有帮助。 6. **CUDA和PyTorch的安装** - 提供了在Ubuntu 18.04上安装NVIDIA驱动、CUDA 10.2以及PyTorch的详细步骤，这对深度学习的实践者至关重要。 7. **强化学习算法的实践** - 包含了DQN（Deep Q-Network）的简易代码实现分析，以及Udacity的深度强化学习课程笔记和项目报告，这些都是实际应用强化学习的实例。 8. **PPO算法的介绍** - PPO（Proximal Policy Optimization）是强化学习中的一种先进算法，它在优化策略时平衡了探索与利用，避免了策略更新的剧烈波动。 9. **机器人环境的搭建** - 展示了如何使用PyBullet、Gym和Stable Baselines3库创建机器人（如机械臂）的强化学习环境，这对于研究和实验是基础步骤。 10. **双臂机器人双手任务** - 讨论了如何通过仿真学习让新型双臂机器人执行复杂的双手任务，这涉及到了多智能体和协调学习的问题。这些内容为学习者提供了强化学习的理论基础，实践经验以及机器人应用的综合指导，适合于有一定背景知识的开发者或研究人员深入学习。

图a，假设已知黄色状态下只有两个动作可选：灰动作和黑动作，并且在第k-1次更新 Q

时，（通过人为设置获取，不纳入更新迭代次数k），已知灰动(S=yellow,A) Q_{1}(S_t,a_t)

作价值比黑动作大，即有

Q_{m}(yellow,gray)>Q_{n}(yellow,black )

其中m,n为对应动作价值已迭代更新的次数，k为更新的次数，所以有Q_{k}(yellow,action)

m+n= k。

图b，在某个回合（episode）中，在时间步为t的时候（time step = t），所处状态为黄色，又

已知灰动作价值比黑动作大，即基于 ε-greedy的行为策略选择动作，会出现情况①或②：

① 有的可能性选择当前最大价值Q的灰动作：(1- ε )+ ε /2=1- ε /2 a_n Q_{m+1}(s_t,

a_t)=Q_m(s_t,a_t)+\alpha[R_{t+1}+maxQ_i(s_{t+1},A_{t+1})-Q_m(s_t,a_t)]

而另一黑动作没有更新。

其中，。s_t=yellow

② 有的可能性选择当前较小价值Q的黑动作：ε /2 a_n'

Q_{n+1}(s_t,a_t')=Q_n(s_t,a_t')+\alpha[R_{t+1}+maxQ_j(s_{t+1}',A_{t+1}')-Q_n(s_t,

a_t')]

而另一灰动作没有更新

其中，。s_t=yellow

在此假设图b发生②的情况，则。s_{t+1}'=green

图c通过选取下的最大价值动作来更新图f的目标策略。green a_j(red)

在第k+1次更新中，我们通过取最大值（即greedy思想），选取Q值最大的动作来更新目标策略

（target policy）：\pi

Q_{k+1}^{\pi}(S=yellow,A)=max\left \{Q_{m}(S,gray),Q_{n+1}(S,black)\right \}

比如，基于上述已发生的，再发生图f的情况，则在下一次更新时，Q_{k+1}^{\pi}(S=yellow,A)

黄色状态下的黑动作变为最优动作（颠覆了灰色动作有最大Q值的地位）。

（实际上无论发生情况①或是②，黄色状态下的灰动作与黑动作的价值的大小关系都可能发生变

化！！）

四、另一个栗子

强化学习2：Q-learning与Saras？流程图逐步解释

第 14 页 /共

124 页

强化学习3：逐步掌握Policy Gradient思脉（上）

前言：

Policy Gradient （下文简称PG）对于很多入门RL的童鞋来说是一个比较晦涩难懂的算法体系，

主要原因是其所利用的求得最优策略的思路，相比于基于直梯度法（Gradient descent/ascent）

接不断逼近、拟合每个动作（Action）的价值进行Greedy思想找到最优策略的思路，并没有那么

直观。另外一个原因是不少教材开篇便说表现（Performance）与动作价值没有直接关系，但其后

还是利用动作价值的某种形式与表现函数关联起来，让不熟悉PG算法逻辑思路和微积分中梯度法

的童鞋摸不着头脑。因此，笔者希望通过自己的角度，逻辑清晰地讲述PG背后的数学原理（实际

上是非常简单的入门级微分学）、算法思路，以及利用PG学习（Learning）隐含在数据中的规律

的效果。

为了达到逐步建立PG的算法思想脉络，笔者分为三个部分讲述：在简单的单回合问题（Bandit）

中使用PG（上），连续状态空间的Monte Carlo过程下的PG（中），Time Differential法下的

PG。

RL算法中，一种学习方法基于Greedy思想来找到最优策略，即不断还原、逼近每个动作的价值然

后取其最大；，即：而另一种学习方法则是利用梯度找到最优策略

x\leftarrow x+\alpha\frac{d y}{dx}

这里先求出目标函数关于自变量（参数）的梯度（斜率），得到目标函数上升的方向，y x y

每一次更新都按着梯度的方向前进一个步长，就可以实现目标函数的上升（优化）。这个步长

又称为学习速率。\alpha

若目标函数中有多个参数，则利用偏导数有：\theta

\theta \leftarrow \theta+\alpha\frac{\partial y}{\partial \theta}

以上就是梯度法的基本思想。

在RL中，通常是定义关于一个关于每个动作表现（performance）的策略表现函数。其H(a) J

中表现用来衡量一个动作的好坏（某动作表现越好，则选择的概率就越H(a) a a \pi(a)

大），函数用来衡量基于上面动作表现所采取的策略后，我们最终得到回报的大小。J 通过根据

。也就是说如果我们可以找到或构造出以下映动作的表现来调整动作的概率，使得最终回报最大

射关系：

H\overset{g}{\rightarrow} \pi\overset{f}\rightarrow J

就可以利用梯度法求得函数的最优值。注意：是对于每一个动作的表现评价，则是对于f H J

策略的表现评价。前者具体可以用数学符号表示为。H=h(s,a,\theta)

1. 构造

H(a)\overset{g}{\rightarrow} \pi(a)

对于第一个映射关系，是为了使得某动作表现越好则选择的概率就越\pi(a) =g[H(a)] a a

大。那为了达到这个效果，我们可以利用简单的softmax分布法来定义这个映射关系：

强化学习3：逐步掌握Policy Gradient思脉（上）

第 17 页 /共

124 页

\pi(a) =g[H(a)]\doteq \frac{e^{H(a)}}{\sum_{b=1}^{k}e^{H(b)}}

其中下标t表示在时刻t所发生的对应事情，比如表示选择动作的概率。\pi(a) a

在这个关系式中我们可以看到，都某个动作的表现越好（即越大），其输出的越a H(a) \pi(a)

大。

2. 构造 \pi(a)\overset{f}\rightarrow J

那么对于最终回报的大小，，我们该如何表达或者定义呢？J=f(\pi)

在Bandit问题中，我们可以用对于所采用的动作价值期望作为，即 f(\pi)

J=f(\pi)=E[R]

（Note：Bandit问题是单状态问题，即选取一个动作后就有回报结果并结束回合，也就是说每个

回合的bandit问题相互独立，比如说抛硬币，每一次实验后正反面的可能性和其结果都是相互独

立的）

E[R]=\sum_{x}^{A}{\pi(x)q(x)}

其中为可以采取的动作集合，表示可以采取的动作，两者关系为。而表示动A x x\in A q(x)

作的真实价值。（Note ：与采样中采取动作后的即时回报的关系为： x q(x) x R E[R|x]=q

）(x)

因此，我们可以获得关于与的映射关系。\pi(a) J f

至此，我们完成了开篇所希望构建的一个关系：关于一个动作表现（performance）的函数 H J

，即

H\leftarrow H+ \alpha \frac{\partial J}{\partial H}

接着，我们就可以用梯度法来完成求最优策略（使好的动作概率最大，坏的动作概率最小），学

习公式（Update Rule）为

H(a)\leftarrow H(a)+ \alpha \frac{\partial E[R]}{\partial H(a)}

但在实际问题中我们不知道的值，即我们不知道每个动作真实价值是多少。但我们E[R] q(x)

可以通过多次采样R来逼近，因此再化简一下，可以得到含有采样的即时回报R的学习公式

H(a)\leftarrow H(a)+ \alpha (R_t- \overline{R})(1-\pi_t(a))

其中是一个先验值，是人为根据对动作价值的预先判断而设置的，这样有利于收\overline{R}

敛，减少方差。这种技巧称为。Baseline

以下内容为上述倒数第二项公式转化为倒数第一项公式的推导过程，若果不钟意看数学推导过程

。的童鞋可以跳过，直接接受上面的结论即可

强化学习3：逐步掌握Policy Gradient思脉（上）

第 18 页 /共

124 页

剩余125页未读，继续阅读

北极象

粉丝: 1w+
资源: 401

强化学习与机器人：Policy Gradient详解及实践

Learn.zip_8组解_DH 机器人_LeArm机器人_机器DH_机器人逆解

deep_rl_for_swarms-master.zip_python_python 机器人_python机器人_机器学习_深

智能机器人传感技术_机器人控制_人工智能_机器人_控制_

yiyuyanyuanma.rar_QQ机器人_QQ群机器人_qq消息_qq消息机器人_聊天机器人

IMAQ-Create.zip_IMAQ_LabVIEW 机器人_labview_六 机器人_工业机器

类脑计算芯片与类脑智能机器人发展现状与思考_类脑计算芯片与类脑智能机器人_机器人_仿人控制_仿人智能控制_仿人智能_

xiaohuangji.rar_聊天 机器人_聊天机器_聊天机器人

1_机器手正向运动学matlab函数_机器人导论_机器人运动学_机器人_

Florczyk.Robot.Vision.2005.rar_国外_机器人_机器人视觉_机器视觉_视觉

Python机器学习项目开发实战_打造聊天机器人_编程案例解析实例详解课程教程.pdf

最新资源

IMAQ-Create.zip_IMAQ_LabVIEW 机器人_labview_六机器人_工业机器

xiaohuangji.rar_聊天机器人_聊天机器_聊天机器人