基于深度强化学习的非连续多目标重排策略

41 浏览量更新于2023-12-05 收藏 1.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

仿生智能与机器人2（2022）100047基于深度强化学习的分层策略的非连续多目标重排白凡a，孟飞a，刘建邦a，王建坤b，马克斯Q。H. Menga，b，c，a，1，2a新界沙田香港中文大学电子工程学系，中国香港b中国深圳南方科技大学电子电气工程系c香港中文大学深圳研究院，中国深圳A R T I C L E I N F O关键词：重排强化学习蒙特卡罗树搜索A B S T R A C T非约束多物体重排是指规划可行路径并将多个物体转移到预定义的目标位姿而无需抓取的机器人任务。它必须考虑每个物体如何到达目标和物体移动的顺序，大大增加了问题的复杂性。因此，在本发明中，我们提出了一种基于深度强化学习的分层策略，用于非随机多对象重排。我们使用模仿学习和强化学习来训练推出策略。在高级策略中，策略网络指导蒙特卡罗树搜索算法有效地寻找几个项目的理想重排序列。在低层策略中，机器人根据路径基元的顺序规划路径，并操纵物体逐个接近目标位姿。在实验中显示gvp所提出的方法比现有技术的方法具有更高的成功率、更少的步骤和更短的路径长度。1. 介绍非约束多目标重排是指机器人在非结构化环境中将多个目标按预定义的目标位姿进行操作。通常，任务空间被限制为一个桌子和机器人只能执行非可移动的动作，如推动[1]、滑动[2，3]和击球[4]，而不使用拾取和放置动作。与抓取的重排任务[5-由于机器人在NPMO重排中不能拾取物体，因此物体不会由于非平行动作而离开桌子。因此，在操作过程中物体不会掉落，并且确保了操作的安全性。NPMO重排可用于各种情况，例如重新定位难以保持、大、重或易碎的以前的非碰撞重排研究主要集中在规划一条无碰撞的路径来重排单个物体[9以前的研究与传统的路径规划算法非常相似，例如， [13]和RRT [14]。然而，在NPMO重排问题中，机器人需要为多个对象中的每个对象规划重排路径，∗ 通讯作者。电子邮件地址：mengqh@sustech.edu.cn（M.Q.- H. Meng）。对象并确定遵循什么顺序，这被称为NP难问题。例如，如图1所示，如果机器人首先沿着绿色路径2移动物体，则它将阻挡期望的蓝色路径。1，从而增加了对象路径的总长度最近，研究人员开始使用搜索方法[15]，特别是蒙特卡洛树搜索（MCTS）[16]，来解决NPMO重排中遵循什么顺序的长期决策问题。然而，这些方法存在某些缺点。因此，所寻找的动作和对象的数量极大地影响了搜索步骤的数量，导致步骤的指数增加。一个糟糕的推出策略会破坏搜索性能。因此，本研究提出一种基于深度强化学习（RL）的分层策略来解决NPMO重排问题，同时提高搜索效率并增强MCTS算法的长期决策能力。我们的方法的流程图如图1所示。在低层策略中，机器人直接使用路径基元规划路径，包括一些基本的运动序列，以稳定地将物体推向目标。与单步离散动作[16，17]相比，设计的路径原语减少了搜索树的深度和宽度，以提高搜索效率。在高层策略中，我们设计了一个新的使用IL和RL训练的铺开策略来指导MCTS算法进行编排1 鉴于他作为这本杂志的主编，马克斯Q。H.孟没有参与这篇文章的同行评审，也没有获得信息关于它的同行评审这篇文章的编辑过程的全部责任被委托给教授。李一斌2 IEEE Fellowhttps://doi.org/10.1016/j.birob.2022.100047接收日期：2022年3月23日;接收日期：2022年5月6日;接受日期：2022年5月18日2022年6月9日在线发布2667-3797/©2022作者。由Elsevier B.V.代表山东大学出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表仿生智能与机器人学期刊主页：www.elsevier.com/locate/birobF. Bai，F.Meng，J.Liu等人仿生智能与机器人2（2022）1000472Fig. 1. 分层策略过程的说明。给定对象的初始和目标姿态，机器人使用高级策略首先选择对象和路径基元行动上然后机器人使用低级策略操纵该对象以实现路径原语。这些路径原语，并获得最优的重排策略。实验结果表明，该策略提供了一个强大的启发式搜索，缩短了搜索步骤，提高了搜索效率，增强了搜索能力。本工作的贡献总结如下：(1) 我们对NPMO重排任务进行建模，并使用分层策略解决它。(2) 在高层次的政策，我们提出了一个新的推出政策训练使用IL和RL指导MCTS。(3) 在底层策略中，我们构造包含运动序列的路径原语来控制机器人完成重排任务。2. 相关工作NPMO重排：与其他重排任务不同，在NPMO重排任务中，机器人需要在不抓取物体的情况下将物体从初始位姿重排到目标位姿。因为抓取是被禁止的，机器人通常会重新排列物体虽然这些操作增加了任务的难度，但由于其安全性，吸引了越来越多的机器人特殊场景的现实意义。目前国家项目办的对象整理可分为两部分：如何去和遵循什么顺序。如何去做已经被充分研究过了。以前的研究[7，9-这些方法只研究每个对象的重排路径，而忽略了多个对象之间的相互作用.对于多个对象，遵循什么顺序的问题更为关键。最近的一些方法[7，8，16]使用搜索算法来有效地解决遵循什么顺序的问题。例如，Song等人。[16]提出使用MCTS来执行排序任务，将属于不同类别的对象分离到同质的唯一聚类中。然而，在搜索中，动作空间往往涉及离散的单步动作。通常，在路径中搜索对象（一系列单步操作）需要构建深度树，并且多个对象的搜索深度呈指数级增长相反，我们的方法结合了如何去和什么顺序遵循的问题，使用分层的政策。在高级策略中，搜索树的动作空间包括表示多步运动序列而不是单个步骤的路径基元，从而大大减少了搜索树的深度和搜索步骤的数量。在低层策略中，我们不使用RL或搜索方法，而是直接使用稳定高效的A* 算法生成运动序列来解决怎么走的问题。MCTS与推出政策：NPMO重排可以表示为一个顺序决策问题，然后可以表示为马尔可夫决策过程。MCTS是求解序列决策问题的有力工具。在 MCTS，推出在仿真期间生成累积值的策略对于实现良好的判定性能是特别重要的。目前用于解决NPMO重排问题的所有方法[7，8，16相反，受AlphaGo [20]的启发，我们使用基于学习的方法来训练比以前的研究更有效的推出策略。文[21]中提出的场景重组与我们的工作类似.尽管如此，仍然存在一些差异。首先，IL和RL依次用于训练我们的政策，指导MCTS提供更好的性能。代替[21]中的深度Q网络，我们采用了一个策略网络，可以直接用于模仿学习（IL）以使用专家标记的动作数据。机器人NPMO重排问题在问题规范方面更为复杂。这不仅需要考虑非连续操作的顺序决策，而且需要考虑机器人控制。此外，我们的路径原语要求机器人规划和实现路径。我们将在第4节详细介绍我们的方法。IL和RL：最近，RL已被大量用于决策任务[20，22，23]，由于其不断发展，甚至超越人类的表现。然而，通过RL进行训练需要进行多次试验和错误实验。此外，还存在轨迹采样效率低、奖励过于稀疏、陷入局部最优以及难以开发任务设计奖励函数等问题。人工智能可以直接利用专家数据进行监督仿真和训练.行为克隆是一种将IL模型的状态和动作分布与专家数据分布直接匹配的方法。该方法具有良好的性能在决策中，例如自动驾驶[24]和游戏[20]。虽然它可以训练专家级的智能体，但它无法超越专家，并且在专家无法做出理性决策的情况下表现不佳。因此，我们将IL和RL同时训练策略网络。第一，使代理人能够到达专家层次的信息融合，利用专家的先验信息和数据进行信息融合。然后，随着物体数量的增加，仅使用IL难以实现最佳性能，因为随着难度的增加，人类难以做出正确的决定。最后，通过RL进一步改进策略网络，以预测超过专家的性能F. Bai，F.Meng，J.Liu等人仿生智能与机器人2（2022）1000473∑⟨ ⟩ ⟨⟩⟨⟩图二. 非易失性操作工具及其执行。粗糙的橙色末端接触对象，按压和滑动对象。3. 问题定义3.1. 任务和假设在这项研究中，我们假设机器人配备了一个nonprehensile操作工具，如图所示。2，其可以执行诸如推动的非预紧运动，但不能执行拾取和放置动作。我们的目标是找到动作序列，并指导机器人将所有物体从初始姿势推到目标姿势，同时避免碰撞。这个过程可以看作是一个准静态过程，其中由于摩擦力的作用，任何惯性力都可以忽略不计。由于本研究更侧重于解决遵循什么顺序，而淡化了如何走而不失一般性，因此我们假设操纵工具与物体之间的摩擦力大于物体与桌面之间的摩擦力，导致物体被工具力移动而忽略桌面阻力。对象之间的冲突也被忽略，因为分层策略生成无冲突路由。3.2. 问题公式化我们可以将NPMO重排任务视为一个顺序决策问题，其中机器人感知对象的初始状态和目标状态的一个其目的是规划出具有动作序列的从目标到目标的 A =（1，2，��同时，我们最大化的累积奖励和最小化的移动长度L和步骤移动多个对象。形式上，目标函数表示累积的重新-ward可以写为��arg max（，），（1）��表1奖励的种类奖励奖励移动-1到达4成功50休假−4��} ∈A. 前四个低层路径基元意味着沿着上、下、左、右方向移动，直到发生碰撞，最后一个由A_∞算法生成。一对��=��，��表示路径基元，其中��∈是所选择的受试者，以由坐标和方向组成的移动路径��=（��1，��1，��1，��2��，��2，��...）致动��。奖励：根据当前观察状态和动作构造奖励函数（，）∶（，A）→，如表1所示。��Eps：一个eps由一系列的状态、动作A和奖励组成。��对于每个事件，时间步长的数量��= 1，2，��完成：只有成功和失败才能导致一个完整的插曲。一个插曲是一个完整的发挥代理与环境中的一般RL设置。如果机器人将所有物体从初始姿势推到目标的姿态在两个月内如果时间步长达到1000，则任务为没有实现，这一集也是因为结束而做的4. 具有深度RL的4.1. 高级别政策在高级策略中，机器人专注于遵循什么顺序。我们提出了一个通过IL和RL训练的推出策略，指导MCTS算法。该过程的流程图如图所示。四、4.1.1. 通过监督学习进行如果我们使用无监督RL直接训练策略值网络，在训练开始时，机器人代理将执行多次试错实验，这将需要相当多的时间，并且使得网络难以表现出良好的决策性能。因此，我们首先使用监督学习使策略网络能够模仿专家的决策行为A=1数据集：专家不断地执行一个基于式中，1=，��+1=。��∈和∈ A，（，）∈是每个时间步的奖励。��环境状态跟踪，与环境交互以获得回报，直到任务结束。在[21]中，作者训练了他的网络观察状态空间：观察状态空间�� ∈ 是一个× ×（2 + 1）矩阵，其中意味着我们离散化了通过深度Q学习算法，我们可以直接使用这个模型作为专家数据与环境进行交互，避免复杂的环境图像到×网格中。在2 + 1通道中，通道表示可移动对象，并且1通道包含不可移动对象。每个对象的初始和目标姿态使用独热编码进行掩蔽在仿真中，我们直接生成离散的仿真环境，并获得离散的观察。然而，在真实场景中，我们需要对真实图像进行离散化。具体来说，图。3，我们通过OTSU二值化将RGB彩色图像转换为二值图像[25]。为了保证物体之间的适当距离在对对象进行计数和排序后，离散化的环境可以作为观测值输入策略值网络，并运行A* 算法进行低层规划。移动动作空间：为了缩短搜索的宽度和深度，我们选择了路径基元作为动作空间{路径基元，移动动作��空间，移动动作空间。��手动注释。我们可以获得一个包含状态和动作对的数据集，通过收集数千个事件来训练我们的策略网络训练：模仿时，状态数据作为网络输入，动作数据A作为标签，监督训练。使用策略网络来近似专家策略函数ε：S→ A。策略网络表示策略网络，策略网络表示网络的权重。我们证明了A_（）= A_（），这可以通过我们之前收集的训练数据集来学习。在为网络提供输入信息和相应的专家动作A之后，我们应用交叉熵损失函数L，使得��=argmaxL（A��（二）��在这里，我们使用Adam优化器来更新参数。F. Bai，F.Meng，J.Liu等人仿生智能与机器人2（2022）1000474|��（图三. 图像离散化与仿真环境生成。见图4。训练和推理过程的图示。在训练中，我们在仿真环境中用IL和RL训练策略价值网。在推理中，我们使用经过训练的策略网对MCTS进行高层策略引导，并在离散化环境状态后进行低层策略路径4.1.2. 通过RL专家们发现，当对象数量增加时，对NPMO重排做出最佳决策具有挑战性。然而，强化学习可以通过多次试验和错误发现比专家选择的策略更好的策略。因此，仅仅模仿专家是不够的，我们必须使用强化学习来改善策略网络的性能，使其能够超越专家。因此，我们的目标是学习一个先进的政策网络。策略网络可以基于环境的状态来预测每个动作被选择的概率。我们可以通过概率分布对动作进行采样，以便在RL设置中与环境进行交互。我们使用分类分布，因为五个离散的路径基元。政策和价值的函数近似为：��(��,��)=[��,��],��（（三）根据邻近策略优化（PPO）算法，网络必须根据以下组合目标函数进行更新，该组合目标函数在每次迭代中被最大化在状态上，是超参数，= 0.2，并且（（），1 −，1 +）通过裁剪概率比来修改代理目标。��在这里，我们使用Adam优化器来更新参数和。��通过这种方式，我们使用PPO算法来训练我们的策略价值网络，并学习超越专家的高级策略。4.1.3. 引导MCTS我们的高级策略使用经过训练的策略网络来指导MCTS找到最有效的动作序列来实现目标。为每个状态开发搜索树以生成动作。当前的状态树由该树的根节点表示。该树的每个节点表示一个状态变量，并存储一个值变量，该值变量指的是价值网络的当前估计值，并在模拟中累积奖励。��在当前状态下完成的树需要四个过程的几次迭代：选择，扩展，模拟和反向传播，如图所示。四、选择：在这一步中，MCTS使用策略“选择”来从根节点遍历到叶节点。��选择最大值节点��基于UCB：L++（）=[L（）−1L（）+2[]（）]，（4）��（�� ）的情况）哪里�� = arg max(��(��) −��+��（7）��L1和L2是关于L��并且，表示��−��1 +（中）熵奖金，以确保充分的探索，和L和L（）��其中，值函数（f）被最小值归一化为[0，1]，损失函数由下式给出：最大的。（）和（）是次数��L（）=（（）−）2（5）��L（��）=[��（��（��）A��，��（��（��），1-��，1+��）A��）]，（6）其中��（��）=��（��，��）表示概率比，A（��，��）（，）−��F. Bai，F.Meng，J.Liu等人仿生智能与机器人2（2022）1000475表示当前状态的节点和父节点的访问次数代表州议会。��是一个关于访问次扩展：如果所选节点的状态不是目标，我们使用“扩展”策略展开子节点并存储新状态。��更��表示优势函数，具体地，我们使用通过策略网络估计的策略值函数，��F. Bai，F.Meng，J.Liu等人仿生智能与机器人2（2022）1000476∑⟨��⟩��⟨ ⟩ ⟨⟩图五. 策略值神经网络的图解。该网络的主要结构包括卷积层（Conv）、全连接层（FC）、具有隐藏特征的长短期记忆层（LSTM）和跳过连接。finished标记表示独热编码，该独热编码将1分配给已达到的位置，将0分配给其他未达到的位置。岗位此外，预操作是一个独热向量，记录前一步的操作以通过将表示状态变量的所选节点作为输入来预测动作变量。�� ∼�� (��,��).（八）随后，我们获得与状态k（0）相关的扩展节点，其中��（0）=��上标0表示模拟中的初始布局仿真：在节点扩展过程之后，进行仿真.移动动作序列{n（0），n（1），��(��) ∼�� (��(��),��)(9)根据来自策略网络的策略选择，直到达到目标状态或最大步数��（0）的节点值�� 是用累积在模拟过程中。��（=0其中表示模拟步骤。如果达到目标或最大步数，则模拟停止。反向传播：通过模拟生成的值用于备份和更新从扩展节点到根节点的路径上的所有祖先节点。通过以下步骤更新与状态向量相关的节点的估计节点值：��∗= arg max�� (��(��,��)),(11)��4.2. 低级政策搜索效率和策略网络是高层策略的关键。因此，代替五个单步运动，我们构建了五个路径基元（一个基元表示一条路径，即，一系列单步移动）并指导机器人执行动作。该方法减少了搜索树的宽度和深度，以提高搜索效率，并专注于遵循什么顺序。此外，该模型使得RL很容易训练策略网络以表现出良好的性能。4.2.1. 路径基元为了降低搜索的复杂度，我们设计了五个路径原语来表示对象��低级策略的前四个路径原语是指沿上、下、左、右方向移动，直到发生碰撞，最后一个路径原语由A/D算法生成4.2.2. 推动实现路径为了规划路径，我们直接使用机器人的原始控制器。与直接应用于实时控制的RL方法相比，该控制器使机器人更加安全稳定，没有异常的控制信号。控制过程大大简化，因为我们的操作工具是在一个压滑的方式操作低级策略的这些路径原语可以表示为��（（）=（）+1。（十三）经过四个步骤的几轮迭代，在第七次迭代时生成一棵以当前状态为根节点的树。��我们的高级策略使用生长的树来选择当前��-对，其中，所述选择的对象是利用包括路径点，坐标和取向的移动路径来致动的对象，所述移动路径��我们将每条路径转换为机器人框架，并使用MoveIt将三维路径点传输到控制器以规划路径。每次高级策略预测一个操作时，低级策略推送所选对象��州议会。��以实现目标路径。��∗= arg max�� (��(��,��)).（十四）5. 实验��4.1.4. 政策价值网我们使用卷积神经网络来开发具有局部共享参数的策略值网络，以预测策略和值。我们的政策价值网络的具体结构如图所示。五、输入是使用不同通道编码的对象的初始和目标状态。主干是与长短期记忆（LSTM）相结合的剩余结构，用于嵌入历史信息并防止过拟合。考虑到NPMO重排问题的复杂性，我们将每个对象的完成标志和之前的动作作为特征添加到中间层。最后，多层感知器对LSTM输出进行编码，以提供动作的概率分布向量和预测值。5.1. 实验平台及装置我们使用[21]中报告的模拟技术作为我们的训练和测试环境，它可以在网格中生成各种对象。在训练中，所有算法都在具有NVIDIA 2080TiGPU的计算机上运行。在现实世界的配置中，如图所示。6、我们在UR3机器人的手腕上安装了一个Realsense SR300深度摄像头，它接收RGB和深度信息。摄像机和机器人的配置参数的先验知识指导我们进行精确的控制和规划。通过摄像机与机器人的标定，利用摄像机来理解机器人F. Bai，F.Meng，J.Liu等人仿生智能与机器人2（2022）1000477表2不同方法的性能比较。↑和↓分别表示越高越好和越低越好。SR代表成功率。方法PPO DQN [21] IL PPO与ILMCTS随机DQN [21] PPOOursRewards−18.6 −11.2 45.8 59.2 −37.5 59.8 57.4 61.05-物镜。10-物镜。15-物镜。20-物镜。步骤34.0 14.0 14.2 6.4 47.9 6.2 8.4 5.0（%）80 80 100 100 20 100 100奖励−104.8 −78.8 2.5 23.3 −42.6 −4.3 37.9 41.3步进50.0 42.0 34.9 26.3 50.0 26.7 31.3 22.1总人口（%）0 20 50 70 0 60 80 70奖励−107.2 −123.2 −35.8 −6.5 −31.6 −19.0 23.3 64.1步进50.0 50.0 50.0 44.9 50.0 40.6 40.7 29.9（%）0 0 0 20 0 30 50 90奖金−110.8 −125.0 12.0 −20.8 −28.4 −26.6 21.8 51.6步数50.0 50.0 47.4 50.0 50.0 50.0 46.6 43.4（%）0 0 20 0 0 30 60平均奖励↑ −85.35 −84.55 6.13 13.78 −35.00 2.48 35.1054.50平均步数↓ 46.00 39.00 36.63 31.90 49.48 30.88 31.7525.10平均SR（%）↑ 20.0 25.0 42.5 47.5 5.0 47.5 65.080.0见图6。在真实机器人实验中算法执行的定性结果。根据初始状态和目标状态，机器人完成NPMO重排任务，序列见图7。当MCTS的对象数量增加时动作序列的长度。在每个框中，黑色数据点在深色中的平均值的1.96标准误差（95%置信区间）和浅色中的一个标准偏差上分层。红线代表序列长度的平均值非结构化环境。在平面工作表面上检查不同形状和大小的多个刚性物体。我们运行分层策略，控制真正的机器人，并在配备Intel i7- 8750 HCPU和NVIDIA 1050Ti GPU的笔记本电脑上重新安排。5.2. 总体评价5.2.1. 不同方法为了比较不同重排策略的性能，我们比较了非搜索策略（PPO，DQN [21]，IL和PPO与IL）和MCTS与不同的推出政策（随机，DQN[21]，PPO和我们的）。MCTS，随机展开是一种传统的非启发式搜索方法。MCTS与DQN [21]是最接近我们的方法作为基线的启发式搜索算法。我们的方法是一个分层的策略与MCTS，它训练的推出策略使用IL和RL与PPO算法。为了比较我们的方法与其他方法的性能，我们对每个方法进行了10次测试，并在每次测试中随机生成5、10、15和20个对象来重置环境。最后，如表2所示，我们计算了平均奖励、步骤和成功率。在模仿过程中使用了相同RL中的模型通过PPO进行了8，000次迭代训练，28个工人，学习率为0.0002，演员系数为1，评论家系数为0.5，熵系数为0.001。DQN模型的训练方式与[21]中的训练方式相同。我们可以从表2首先，基于MCTS的方法比其他方法具有更高的成功率，除了MCTS +随机。由于MCTS +随机方法的扩展和模拟采用随机策略，难以处理多目标的复杂序列决策任务，因此该方法的性能较差。第二，很明显，IL在奖励、步骤和成功率方面都有很好的效果。如果我们将PPO与IL结合起来，平均奖励达到13.78，成功率达到47.5%，步数仅为31.90。第三，使用DQN，PPO和我们的方法训练的策略网络的MCTS可以很好地执行。特别是，我们的方法的平均回报和成功率分别达到54.50%和80.0%。我们的方法在各个方面都超过了基线[21]。最后，随着测试对象数量的增加，任务变得越来越困难;奖励和准确性变得更低，移动步骤增加。无论如何，我们F. Bai，F.Meng，J.Liu等人仿生智能与机器人2（2022）1000478见图8。不同模仿水平对强化学习的影响。IL-nk意味着策略网络通过模仿学习训练nk个时期，然后执行强化学习。IL-0 k代表没有模仿学习的强化学习。方法始终提供最佳性能，更适合复杂的任务。我们的方法5.2.2. 不同方法中增加对象数对动作序列长度的影响我们比较了MCTS + DQN [21]，MCTS + PPO和我们的方法;对于三种基于学习的铺开方法，随着对象数量的增加，它们的动作序列长度会发生变化，如图所示。第七章动作序列的长度将随着项目的数量而增加。图7.即使任务变得更复杂，使用我们的方法的序列的平均长度总是小于其他方法。与其他方法相比，该方法稳定性好，数据分布集中与其他方法相比，我们的方法可以稳定和出色地应付不同难度的任务5.2.3. IL的影响为了使策略网络快速收敛并首先达到专家性能，我们使用专家数据对策略网络进行监督IL。IL的实验参数设置与之前相同。我们测试了不同模仿水平（不同训练时期：IL-0，IL-1 k，IL-3 k，IL-6 k，IL-8 k和IL-9 k）对RL的影响，示于图八、图结果表明，不同模仿水平的影响是显著的。如果我们不使用模仿学习（IL-0）而只使用RL，则性能最差。训练奖励是-46.83，测试平均步长为47.27。结合IL和RL的最佳模型（IL-3 k）的训练奖励为357.83，测试平均步长为31.13，平均步长减少了16.14。我们发现，高模仿水平并不能提高RL的水平。例如，我们发现IL-6 k、IL-8 k和IL-9k的表现比IL-3 k差。显然，当模仿水平太高或太低时，不能获得良好的性能。因此，我们得出结论，适当的模仿水平可以帮助通过强化学习的训练，但过高或过低的模仿水平会导致性能下降。同时，模型6. 结论在这项研究中，我们提出了一个层次的政策与RL的NPMO重排。使用MCTS与我们的推出政策，策略解决了如何进行的问题，而高级策略解决了遵循什么顺序的问题，这提高了搜索性能。通过大量的对比实验证明了该方法的优异性能，其成功率更高，步骤更少，路径长度更短。我们的工作在服务机器人、仓储物流、工程流水线等场景中具有实际意义。关于缺点，基于MCTS的方法仍然需要很长时间，特别是当对象的数量很大时。在今后的工作中，搜索算法必须进一步优化，以适应机器人的实时性要求。此外，改进操作工具以使重排操作更加灵活和适应性将是至关重要的。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作致谢本项目由深圳市机器人感知与智能重点实验室（ZDSYS 202008 -10171800001）、香港研究资助局CRF资助C4063- 18 G、香港研究资助局GRF资助# 14211420及香港研究资助局GRF资助# 14200618资助，并由Max Q.H. 孟附录A. 补充数据与本文相关的补充材料可以在网上找到上https://doi.org/10.1016/j.birob.2022.100047。引用[1] K.M. 林奇，M.T. 梅森，稳定推动：力学，可控性和规划，国际。 J. 机器人Res. 15（6）（1996）533[2]T.H. Vose，P. Umbanhowar，K.M.林奇，振动引起的摩擦力场在刚性板上，在：2007 IEEE机器人国际会议论文集和Automation，IEEE，2007，pp. 660-667[3]Y. Maeda，T.中村T.张文，机器人指尖的运动规划，于2004年，国立成功大学机械工程研究所硕士论文。诉讼ICRA'04。2004年，第3卷，IEEE，2004年，pp.2951-2956年。[4]R.L.安德森，机器人乒乓球运动员：实时智能控制实验，麻省理工学院出版社，1988年。[5]A. Krontiris ， K. Bekris ，处理对象重排的困难问题， 2015 ，http://dx.doi.org/10.15607/RSS.2015.XI.045。F. Bai，F.Meng，J.Liu等人仿生智能与机器人2（2022）1000479[6]M. Danielczuk ， A. 穆萨维安角 Eppner ， D. Fox ， Object rearrangementusinglearnedimplicitcollisionfunctions ， in ： 2021IEEEInternationalConference onRobotics and Automation，ICRA，IEEE，2021，pp. 6010-6017[7]B. Huang，S.D. Han，J.Yu，A. Boularias，从杂乱中检索对象的视觉预见树，2021，arXiv预印本arXiv：2105.02857。[8]Y. Labbé，S.扎戈鲁伊科岛卡莱瓦季赫岛作者：J. Aubry，J. Sivic，Monte-Carlo tree search for efficient visual-guided rearrangement planning ， IEEERobot. 自动Lett. 5（2）（2020）3715[9]J.A.Haustein ， J.King ， S.S.Srinivasa 、 T.Asfour ， Kinodynamicrandomizedrearrangementplanningviadynamictransitionsbetweenstatically stable states，in：2015 IEEE International Conference on Roboticsand Automation，ICRA，IEEE，2015，pp. 3075-3082[10] J.A.豪斯坦岛Arnekvist，J. Stork，K.杭，D. Kragic，具有学习的操纵状态和动作的非可伸缩后距规划，在：智能机器人和系统国际会议（IROS 2018）上的“机器人运动规划中的机器学习”研讨会，2018年10月1日至5日，西班牙马德里。[11] J.E. King，J.A. Haustein，S.S. Srinivasa、T. Asfour，物理流形上的非线性全臂重排规划，在：2015 IEEE机器人与自动化国际会议，ICRA，IEEE，2015年，pp。2508-2515[12] J.E. 金， M 。 Cognetti ， S.S. Srinivasa ， Rearrangement planning using object-centricandrobot-centricactionspaces ， in ： 2016IEEEInternationalConferenceon Robotics and Automation，ICRA，IEEE，2016，pp. 3940-3947。[13] P. Hart，N.尼尔森湾张文，最小代价路径的一种形式化算法，北京交通大学学报，2001。赛博恩4（2）（1968）100http://dx.doi.org/10.1109/tssc.1968.300136[14] S.M. LaValle等人，快速探索随机树：一种新的路径规划工具，艾姆斯，IA，美国，1998。[15] E. Huang，Z. Jia，M.T.梅森，大规模多对象重排，在：2019年国际机器人与自动化会议，ICRA，IEEE，2019年，pp。2 1 1 -218[16] H. Song，J.A. Haustein，W. Yuan，K.挂，M. Y。Wang，中国山杨D.克拉吉奇，J.A.Stork，使用Monte Carlo树搜索的多对象重排：平面非线性排序的案例研究，2019，arXiv预印本arXiv：1912.07024。[17] W. Yuan，J.A. Stork，D. M.Y.克拉吉奇Wang，K. Hang，使用深度强化学习进行非线性操作的重排，在：2018 IEEE机器人与自动化国际会议，ICRA，IEEE，2018年，pp。270 -277[18] F. Ruggiero ， V. Lippiello ， B. Siciliano， Nonobjectile dynamic manipulation ：Asurvey，IEEE Robot。自动Lett. 3（3）（2018）1711[19] W. Yuan，K. 杭，D. M.Y.克拉吉奇王，J.A. Stork，端到端非预hensile重排与深度强化学习和模拟到现实转移，机器人。奥顿 119 （ 2019 ） 119http://dx.doi.org/10。1016/j.robot.2019.06.007，URLhttps://www.sciencedirect.com/science/article/pii/S0921889018304913。[20] D. Silver，A.作者：Huang，C.J.盖兹湖Sifre，G. Van Den Driessche，J. 施里特维泽岛作者：Antonoglou，V. Lanctot等人，Masteringthe game of go withdeep neural networks and tree search，Nature 529（7587）（2016）484-489.[21] H. Wang， W.梁湖，澳 -地F. Yu， Scene mover：automatic move planning forscenearrangement by deep reinforcement learning，ACM Trans. Graph. 39（6）（2020）1-15。[22] D. Zha，J.Xie，W.马，S. Zhang，X. Lian，X. Hu，J.Liu，DouZero：MasteringDouDizhu with self-play deep reinforcementlearning ， 2021 ， arXivpreprintarXiv：2106.06135.[23] D.- O. Won，K.- R. Müller，S.- W. Lee，自适应深度强化学习框架使冰壶机器人在现实世界条件下具有类似人类的性能，Science Robotics 5（46）（2020）。[24] M. 博贾斯基， D. Del 泰斯塔， D. Dworakowski， B. 费纳 B. 弗利普， P.Goyal，L.D. Jackel，M.蒙福特大学Muller，J.Zhang，等人，End-to-end learning forself-driving cars，2016，arXiv preprintarXiv：1604.07316.[25] N. Otsu，一种基于灰度直方图的阈值选择方法，IEEE Trans. Cybern系统9（1）（1979）62-66.

下载后可阅读完整内容，剩余1页未读，立即下载