没有合适的资源?快使用搜索试试~ 我知道了~
5219面向无干扰的视觉移动操作Tianwei Ni1,2, Kiana Ehsani2Luca Weihs2,<$ Jordi Salv ador2,<$1Uni versite'deMontre' alMilatianwei.ni @ mila.quebec{kidney,lucaw,jordis}@wwwallenai.org*工作主要是在AI2的实习期间完成的。摘要深度强化学习已经在仿真中的大量机器人任务上显示出有希望的结果,包括视觉导航和操纵。以前的工作一般旨在建立体现代理,尽快解决他们分配的任务,而在很大程度上忽略了在交互过程中与对象碰撞所造成的问题。这种缺乏优先顺序的情况是可以理解的:破坏虚拟对象没有固有的成本。因此,在本文中,我们研究的问题,训练代理完成任务的视觉移动操作在ManipulaTHOR环境中,同时避免不必要的碰撞(干扰)与对象。我们将干扰避免公式化为奖励函数中的惩罚项,但发现直接使用这种惩罚性奖励进行训练相反,我们提出了一个两阶段的训练课程,代理人首先允许自由探索和建立基本的能力,而不惩罚,之后引入干扰惩罚,以完善代理人测试场景的结果表明,我们的课程不仅避免了这些可怜的局部最优值,但也导致了10%的绝对收益的成功率没有干扰,相比我们的国家的最先进的基线。此外,我们的课程比安全的RL算法(将碰撞避免作为约束)的性能要高得多。最后,我们提出了一种新的干扰预测辅助任务,加速学习。11. 介绍针对实体代理的深度强化学习(RL)的进展已经导致视觉导航[61,108,100,80,96,10,104]和操纵方面的重大进展。第43章,.在本文中,我们重点研究视觉移动操作的相对较新的嵌入式AI问题[54,83,101],特别是Ehsani等人提出的ArmPoint- Nav任务。[16]设置在模拟的移动操作框架ManipulaTHOR中在Arm- PointNav中,目标是将对象带到目标位置。智能体必须通过导航到感兴趣的对象,使用其连接的6-DOF机械臂拾取对象,然后将对象携带到目标位置来联合执行导航和操纵结合导航和管理,特别是当代理预计generalize到新的场景和对象,是一个具有挑战性的,但重要的一步,建设一般有能力的家庭机器人代理。类似地,对于其他嵌入式AI任务,RL方法在ArmPoint- Nav中获得了可观的性能,基线成功率为62%[16]。然而,ArmPointNav相对较高的成功率带来了一个重要的警告:成功仅要求代理设法将对象带到目标,并且完全忽略代理在交互期间是否与其他对象碰撞。在测量成功时忽略碰撞避免并非ArmPointNav独有,而是在纯导航[96,104,14],纯操纵[52,43]和移动操纵[87,92]任务中普遍存在,即使相关模拟器[88,83]中有碰撞检测功能。此外,流行的SPL度量(成功按路径长度加权)[4]甚至可能鼓励碰撞,因为它奖励代理采取可能导致碰撞的捷径。随着移动操作的引入,智能体有更多的机会与物体相互作用,碰撞的灾难性影响变得太明显而不容忽视:图1示出了一个原型示例,其中智能体“成功地”完成了Arm-PointNav任务,但干扰了场景中的许多对象。事实上,Ehsaniet al.只有30%的成功率没有干扰(碰撞)与其他对象。这意味着,即使是(相对)高的成功率也不会让人相信政策可以安全地部署在现实世界中。1项目页面处于https://sites.google.com/view/不像在机器人领域,安全和避免碰撞的重要性是根深蒂固的[20,无干扰的47,106, 24, 98, 35, 21, 72]5220代理开始发作在拿起银壶后,代理人当代理移动时,它将咖啡机和烤面包机推离桌子代理人“成功地”完成了一集自我中心观俯视图(仅可视化)图1. 成功与干扰一个机器人ManipulaTHOR[16]代理试图完成一个ArmPointNav任务,它必须拿起一个物体并将其从厨房的一侧移动到另一侧。一个训练有素的代理(白色)成功地将目标对象(银锅)从源位置(炉子燃烧器)移动到目标位置(餐桌)。尽管如此,智能体在移动手臂和身体时会干扰几个物体(包括咖啡机和烤面包机)。咖啡机和烤面包机都被推下了台面,咖啡机又被推到了厨房的另一边,这在现实世界中是一个灾难性的结果图中显示了RGB自我中心和自上而下的视图,而智能体只能访问自我中心的观察。51,69],在模拟的具体AI任务中忽略碰撞的动机是明确的:(1)在模拟中没有碰撞的固有成本,(2)准确的碰撞检测器在计算上是昂贵的,因此,由于速度是模拟的最大优势之一,环境经常简化或完全忽略碰撞的影响[80,47]。 随着算法的改进和任务成功率的提高,这种忽略碰撞的做法将阻止现实世界的部署,其中破坏物体,损坏机器人和伤害人类的成本是不可接受的。在本文中,为了实现真实机器人的安全部署,我们建议训练具体的代理,同时优先考虑我们所谓的干扰避免:即,我们要求代理避免移动任何与代理目标不直接相关的对象为了灵活性,我们只考虑场景开始和结束时的对象位置例如,这允许代理暂时移动对象,否则将阻止它到达其目标。虽然避免碰撞和避免干扰起初似乎是同义词,但避免碰撞的问题严格来说比避免干扰更困难。要看到这一点,请注意,并不是所有的碰撞都需要导致对象的位置发生变化。例如,一个智能体可能会撞到一堵墙(碰撞),但由于这堵墙没有被碰撞移动,因此场景没有受到干扰。实际上,干扰避免可以被认为是“可见碰撞避免”:不会导致环境中的视觉变化的碰撞被忽略。我们研究干扰避免,而不是碰撞避免,有三个原因:(1)干扰可以在仿真中有效地测量,因为它只需要检查物体的姿态如何在时间步长之间变化,而碰撞检测需要测量接触力;(2)我们的代理采取的是-纯粹以自我为中心的视觉输入,因此对他们无法直接观察的现象的学习能力有限;(3)干扰避免允许物体的瞬时运动,只要它们最终被移回它们的原始位置,这对于某些任务是实际需要的。在RL代理中鼓励安全行为的标准方法是简单地惩罚不安全行为[41,77,89,53];在这种情况下,我们通过引入对象扰动的惩罚来修改标准ArmPointNav奖励结构。也许令人惊讶的是,在实践中,使用这种新的奖励结构从头开始训练代理会导致非常不稳定的学习。事实上,在许多情况下,用这种奖励结构训练的智能体通过提前终止而不达到目标来学习不干扰任何对象:一个糟糕的局部最优值我们假设,这种对象干扰惩罚阻碍了早期探索,从而导致一个高度次优的政策。受这一经验发现的启发,我们提出了一个简单但有效的两阶段训练课程:我们首先用原始奖励(没有惩罚)训练代理,然后用惩罚奖励微调代理。在第一阶段,Agent有足够的探索自由度,可以学习解决有干扰的任务;在第二阶段,Agent可以学习调整自己的行为,以避免解决任务时的干扰。在下文中,我们首先关注原始的ArmPoint- Nav任务及其原始的奖励和成功标准。对于这项任务,我们展示了几个关键的设计决策如何导致现有最先进技术的显着改进[16]:在20M训练帧后,使用新对象(以下相同的评估设置)测试场景的成功率(SR)绝对增加11.1%。45 M列车-5221方法导航?操纵?避免碰撞?框架[377MDP[377POMDP[373监督[52,[40,39]70、91、64、107][65、66]43、106、24、84][58个][53,98][92,87][16个]我们377773333733333333373733773MDP受监督受监督MDPPOMDPMDPPOMDPPOMDP表1. 用于视觉导航和管理的数据驱动方法。我们根据所研究的问题(导航、操纵或两者兼而有之,即,移动操作),它们是否学会避免碰撞(干扰),以及它们采用的算法框架(监督学习,MDP [6]和POMDP [5])。对于帧,我们的改进模型进一步达到82.7%的成功率,但关键的是,在没有干扰的情况下(SRwoD)仅达到35.5%的成功率然后,我们转向我们的主要焦点:ArmPointNav.我们发现,在相同的45 M帧预算下,我们的两阶段训练比从头开始训练更有效,SR中为80.1% vs 18.0%,SR-woD中为46.5% vs 10.5%。换句话说,两阶段训练避免了性能下降,并实现了比使用原始目标的改进基线更高的SRwoD它在SRwoD中的性能也优于PPO-Lagrangian[76],这是一种流行的安全RL算法,超过30%。最后,我们提出了一个新的监督辅助任务,要求代理预测其行为将如何干扰环境,并表明与辅助任务的协同训练相比,使用无(或自我监督)辅助任务可以加速学习并提高最终性能总之,在本文中,我们提出了以下贡献:(1)我们提出了一个干扰避免目标的体现RL代理,(2)我们 介 绍 了 一 个 国 家 的 最 先 进 的 模 型 , 为 原 来 的ArmPointNav任务与广泛的消融实验,(3)我们提供了强有力的经验证据,我们的两阶段课程可以导致代理,避免干扰,同时保持高成功率,和(4)我们提供了一种新的辅助干扰预测任务,它加速了学习。2. 相关工作视觉导航和操作。对于使用固定臂的(固定)桌面操作[45,74,36],纯粹的具体导航,[61,108]和移动操作[102,46,97,32,86,62,54]。许多先前的工作,特别是传统的操作方法[81,71,8,44,73,75,9,15,60,38,85],需要对象和环境(如它们的几何形状)的地面实况知识数据驱动的方法放宽了这些假设,使代理人能够根据视觉输入采取行动.我们从几个角度总结了表 1 中 的 数 据 驱 动 相 关 工 作 。 我 们 的 工 作 重 点 是ArmPointNav[16],这是一种视觉移动操纵任务,智能体必须在Manipu- laTHOR环境中导航以找到对象,使用附加的手臂拾取对象,然后将对象带到新的位置。ManipulaTHOR环境由一组视觉上复杂的场景组成,支持移动机器人导航,并允许通过杂乱的6自由度手臂进行对象操作。ArmPointNav遵循更通用的POMDP框架,该框架仅具有以自我为中心的深度观测和3D目标传感器,而没有其他状态信息。我们的方法建立在由ManipulaTHOR提供的循环无模型RL基线上,并专注于下面讨论的干扰避免。避免碰撞/干扰。在安全关键领域,避免碰撞极其重要。运动规划中的经典方法[20,51,69,59,13]以及提供安全保证的路径规划[44,33,11]数据驱动方法学习如何避免与特权信息较少的数据发生冲突(参见表1中的可以从环境内的相互作用中学习碰撞避免的深度RL方法可以分为无模型和基于模型的方法。无模型方法简单地在奖励函数中引入碰撞惩罚,当面临碰撞时以常数的形式[89,57,98,53,18]或与到最近障碍物的距离成比例[42,79,17,39]。基于模型的方法[41,40,39]显式地学习碰撞预测模型并将其用于策略搜索。我们的工作研究扰动,碰撞的一个子集,其中一个物体移动了一定的距离,因为扰动是更容易计算的模拟和允许暂时的位移。我们首先考虑无模型设置(添加干扰惩罚),并表明它可以在与我们的两阶段训练课程配对时表现良好。然后,我们添加一个基于模型的组件(一个扰动预测辅助任务)来加速学习。受约束的MDP和安全RL。冲突避免的另一种公式是在策略优化期间将避免定义为约束(而不是奖励中的固定惩罚),即, 将问题框定为受约束的MDP [3]。求解有约束MDP的算法是安全强化学习领域中的一个常用算法。这一领域的一种流行方法是在各种RL算法中采用拉格朗日乘子[76,55,90,29],允许对不需要的行为进行自适应的周期化。尽管适应性很108]27,61, 96, 104]77][5222≥t=0不t=0t=0不不t=0不t-1不P和不可知的奖励规模,拉格朗日方法已被证明是敏感的乘数的初始化[1]。在我们的实验中,我们发现我们的方法比基于拉格朗日的安全RL基线更具性能。强化学习中的迁移与课程学习。迁移学习广泛用于深度学习,将知识从源域迁移到目标域[31,22,105]。迁移学习在RL中也很流行[43],例如连续RL设置[78,37]。我们的两阶段训练方法将单一任务学习(无干扰的成功)重新定义为我们表明,这种课程的制定是更有效的比直接学习的最后(硬)的任务,学习早期的任务是更容易和引导学习的最后任务。RL中的辅助任务。辅助任务与主任务(最大化总奖励)在共享模型权重上共同训练,已被证明具有提高视觉RL中的样本效率和渐近性能的潜力。监督辅助任务通过外部信号为策略提供额外信息,例如深度图[61,94]和游戏内部状态[48],而自监督/无监督辅助任务使用现有信息作为信号,例如自动编码器[49,28,103],正向[23]和反向动态[68],奖励预测[34]和对比学习[25,26,104,50]。我们的工作介绍了一个监督辅助任务,预测我们现在描述我们的模型架构的ArmPoint- Nav的基础上提出的Ehsani等人的原始基线。[16]第10段。在一个时间步t0,模型取为输入当前以自我为中心的深度观察ot,它通过修改后的ResNet18[30,96]进行处理。求出嵌入zt=ResNet(ot)。然后,该模型将该嵌入zt与到目标gt的距离的嵌入、先前动作at-1的编码以及来 自 先 前 时 间 步 的信念状态bt-1一起传递到单层GRU [12],以产生当前信念状态bt=GRU(bt-1,ResNet(ot),gt,at-1)。最后,遵循行动者-批评者公式化,将线性层应用于信念状态bt以产生代理切换动作)和代理的当前状态V(b t)的值的估计图2显示了此体系结构的摘要,与原始基准相比,我们所做的设计选择。该代理使用PPO算法[82,96]进行训练,最大化折扣累积奖励Ttrt,其中=0。99和T =200。 奖励函数rt是在Eq中定义。1在[16]中。3.2. 干扰避免的公式化现在我们专注于训练能够避免干扰的代理的目标。在强化学习中阻止不必要行为的最简单策略之一我们可以将惩罚添加到原始奖励函数rt(等式2)。[16]中的1)来定义新的奖励函数rt0:r10的 =rt+ λdisturb(d个对象-d个对象),(1)“disturbance distance”, namely, how greatly ant-1t会扰乱环境。由于这个干扰距离是我们的奖励的一个组成部分,这个任务可以被视为向代理提取奖励组成的知识3. 迈向无干扰的手臂点Nav其中,λdisturb>0是控制干扰惩罚的大小的系数,并且d对象是所有对象(除了目标对象)在时间t处距其初始位置的3D欧几里得距离的总和。无干扰目标现在被定义为这些新奖励的贴现累积和:作为初步的iminaries,我们首先介绍我们的模型architec-真(Sec.3.1)用于ArmPointNav。然后我们用公式表示XTtr0=XTtr+(% d个对象- % d个对象)。(二)干扰避免的概念以及一个新的cor-注意,如果ω= 1,则上述总和可以简单地响应,用于ArmPointN a v(第 3.2)。equal(PTrt)-λdisturbdobjects. 因此,直到贴现,接下来,我们定义了一个新的辅助任务,干扰预测,它可以提高训练中的样本效率(第二节)。3.3)。最后,我们讨论了新目标的训练技术,并介绍了我们的两阶段训练课程(第二节)。3.4)这对最终性能至关重要3.1. 准备工作:模型架构对于ArmPointNav的任务,只给出以自我为中心的深度观测和目标坐标,智能体必须与其环境交互,以便用其手臂拾取目标更多详情见附录A无干扰目标可以被解释为具有对最终总干扰距离的软约束的原始ArmPointNav目标。这个新的目标讨论了智能体结束事件时物体离开其原始位置,但允许智能体暂时移动物体,只要智能体最终将它们移回其原始位置。这种行为出现在训练中(见第二节)。4.2)。3.3. 作为辅助任务的扰动预测除了通过无模型方法间接传递知识(即,如在Eq中的干扰惩罚。(2),im-打扰52232⇡⇡电话+1L不图2. 我们的ArmPointNav模型架构。我们对现有的SoTA基线进行了几项改进[16]。这些改进包括:用ResNet18替换现有的浅CNN,添加先前操作的嵌入, 2A到智能体的输入,并使用极坐标,而不是笛卡尔,目标坐标g t R 3。 这些变化大大提高了性能(见第二节)。4.1)。在叶等人的工作基础上。[104],我们还支持训练任意自我监督辅助任务,当前样本效率的置信度bt。 最后,我们为新的下一步扰动预测任务添加了一个特定的辅助任务头ct+12R|一|.证明样本效率,我们还考虑了一个基于模型的方法,明确要求代理预测对象干扰作为辅助任务。从形式上讲,考虑到它目前对环境的信念和它所采取的行动,为了制定,代理人必须预测以下概率ct+1目前的行动扰乱了环境。 生产这种概率估计在实践中,我们使用MLP表示为打扰:定义导致干扰的行为类型,而我们的新目标鼓励智能体避免此类行为。3.4. 两阶段培训课程扰动(bt,at)=ct+12[0,1]。(3)得到了地面真实二值扰动信号通过对干扰距离的当前变化进行阈值化来计算ct+1=dobt-dobjects≥db2{0,1},(4)图3. 我们的两阶段培训课程。 rt和rt0(等式第一章其中,0的情况。001在我们的情况下由于座席在训练期间采取的大多数(90%)行动-如果没有导致干扰,则对于该任务制定存在显著的类不平衡。为了减轻这种不平衡,我们利用了焦点损失[56],这是一种为类别不平衡预测而设计的改进的交叉熵损失。对于训练中的每一步t,我们计算我们的代理的总损失,作为通常的演员,评论家和熵损失的总和从PPO以及辅助干扰预测损失Focal(ct,ct).我们的辅助任务与我们的新目标协同工作-目的:我们的辅助任务可以直接教智能体识别-模型是指辅助任务以外的模型组件与辅助任务的联合训练是可选的。我们使用RL在无干扰对象上训练代理(等式2)。2),具有共同训练任何辅助任务的选项(例如,秒3.3)。从头开始直接训练以优化新目标是简单的,但在实践中,由于一些“训练”模型的成功率接近于零,因此存在极端的不稳定性(见第二节)。4.2)。由于干扰惩罚阻碍了智能体与对象的交互,我们假设它也可能阻止智能体在采取保守方法之前充分探索潜在策略:中途放弃分别是原始的和新的奖励函数。 主要5224| | | | | |一一以避免潜在的物体干扰受课程学习的经验发现和工作的启发,我们提出了一个两阶段的培训课程,用于无干扰目标的学习(见图1)。(3)第三章。在第一阶段,智能体使用原始奖励函数rt进行训练(可能与辅助任务共同训练)。由于代理不会因造成干扰而受到惩罚,因此允许代理自由探索,因此,正如我们在实验中所示,使代理能够以高成功率学习策略。在第二阶段中,我们使用新的奖励函数rt0(等式1)从第一阶段中先前学习的模型中微调代理。①的人。在这个阶段,智能体学习改进其行为,以更好地避免干扰,而不牺牲性能。直观地,我们将无干扰目标r0分解为任务序列,第一个任务是r,第二个任务是r0。第一个任务更容易从头开始学习,它的目标与第二个任务密切相关。4. 实验我们在AI 2-THOR模拟器[47]中设置的操纵框架ManipulaTHOR [16]内的ArmPointNav任务上评估了我们的方法。 在[16]之后,在所有实验中,我们在19个训练场景中训练我们的代理,在5个验证场景中调整模型超参数(并报告消融研究结果),最后在5个测试场景中报告我们的最佳验证模型结果。每个场景有720个数据点(情节)。由于空间限制,我们在主论文中报告了面对新对象(360个数据点)时的代理性能,并在App中报告了挑战性较小的可见对象子集的结果。D.有关ManipulaTHOR环境的详细信息,请参阅应用程序。A.我们专注于两个主要的指标,成功率(SR)和成功率无干扰(SRwoD)2,分别测量原始目标和无干扰目标。对于每一集,如果成功且最终干扰距离dobjects小于阈值,则认为它是无干扰的视觉 标准化前一个目标编码器优势?行动?坐标SR SRwoD(%)(%)CNN37笛卡尔55.812.3CNN77笛卡尔59.916.7CNN73笛卡尔52.812.7CNN33极性68.918.3CNN77极性64.218.3CNN73极性66.515.3ResNet37笛卡尔60.213.1ResNet77笛卡尔62.414.3ResNet73笛卡尔63.615.9ResNet33极性58.413.3ResNet77极性67.714.6ResNet73极性73.618.1表2.在验证场景中验证我们改进的基线。使用ResNet18视觉编码器、非标准化优势、极坐标目标以及添加先前的动作,可以显著提高具有新对象的验证场景的基线性能报告的指标包括成功率(SR)和无干扰成功率(SRwoD)。最终改进的基线(最后一行)优于[16]中的原始基线(第一行)。4.1. 改进了ArmPointNav如第3.1,我们改进和扩展了原有的ArmPointNav架构下面是我们的决策选择的细节。首先,受最近的作品[96,95,104,61]的启发,我们用修改后的ResNet18[30]替换了简单的视觉编码器,在PPO[82]中使用未归一化的优势估计,3并将先前的动作作为输入添加到GRU模型中。此外,我们用极坐标(x,y,z)4代替ArmPoint中的原始无符号笛卡尔坐标(x,y,z)作为相关的3D目标坐标。表2显示了这些不同的设计决策如何影响验证集上的模型性能。按照Ehsani等人的方法,所有模型都经过20M模拟步骤的训练。结合所有上述修改,我们获得了一个新的基线模型(最后一行),在相同的训练设置中,该模型在SR中的绝对点大大超过了之前的SoTA(第1行)5(2000年)01不m)的长度。我们使用AllenAct[93]作为我们的训练框架-4.2. 无干扰环境工作我们在App中提供了更多的实现细节,例如超参数。B. 所有训练代码和模型权重都将开源。定性视频可以在补充材料中找到。节中4.1,我们评估了几个小但关键的设计决策,使我们能够显着提高SR的在移动到我们的主要结果的无干扰设置,我们描述了一个额外的设计决策:我们已经扩大了原来的动作空间小ArmPoint导航到大,以便包括相机和手臂旋转动作。我们以这种方式扩大了行动空间,因为在对模型故障的定性分析中,我们发现代理人Ehsaniet al.节中4.2我们...记录我们的两阶段培训方法。3.4允许SRwoD中的大增益,而不会牺牲最终无干扰设置中的SR。[2]请注意,该度量在原始论文中缩写为SRwD。然而,我们发现3请参考[95]中的批量归一化优势。其中x=cossin,y=sinsin,z=cos,遵循标准坐标转换。5由于我们使用更新的、物理上更准确的AI 2- THOR版本[47]和更小的批量,我们重新实现的基线结果略低于原始论文中的结果(SR:61.7% v.s. 62.1%; SRwoD:29.8% v.s. 32.7%)。5225一一阶段奖励初始帧辅助任务SR(%)平均IQMSRwoD(%)平均IQM我R划痕20M无(原件)61.7-29.8-我R划痕20M无(新)73.3-31.7-我我RR划痕划痕20M20M中共|[25,104]第25话动力学[68,104]74.1-76.8-31.9-35.0-我R划痕20M骚扰(我们的)78.3-34.0-我R划痕45M无(新)82.782.135.535.3我我RR划痕划痕45M45M中共|一Inv. 动力学81.467.881.680.936.229.436.934.9我R划痕45M打扰83.582.737.236.4我r10的划痕45M无(新)18.04.810.53.0我我r10的r10的划痕划痕45M45M中共|一Inv. 动力学18.230.43.625.911.118.42.115.6我r10的划痕45M打扰1.41.30.90.8PPO-Lagrange[76](λ0= 1. 0)45M无(新)30.836.615.218.3PPO-Lagrangian(λ0= 15. 0)45M 无(新)0.00.00.00.0IIr10的finetune20M+25M无(新)80.179.946.545.9IIIIr10的r10的finetunefinetune20M+25M20M+25M中共|一Inv. 动力学79.179.678.979.846.746.946.647.1IIr10的finetune20M+25M打扰81.381.447.146.6表3. 测试场景的主要结果与新的对象使用大动作空间大。每一种方法都被标记为我们课程中的阶段(图1)。3.4),其所获得的奖励(r为原始奖励;r0表示新奖励)、权重初始化(从头开始或微调)、训练帧的数量以及它使用了什么辅助任务。对于无辅助任务,“新”是指我们改进的变体。“Mean” column shows the averages over 5 random seeds while “IQM” column shows the averages over 6对于具有置信区间的图经常出现干扰物体,部分原因是(1)他们的手臂运动缺乏自由度,以及(2)不能改变他们的相机我们也在App中删除了这个决定。D并发现它确实对性能有影响。表3总结了我们在使用新对象测试场景时评估模型的主要结果(使用大)我们考虑4个训练场景,对应于表中的4个主要块:(块1)对于20 M帧,利用原始目标r从头开始训练;(框3)对于45 M帧,利用新目标r0从头开始训练;以及(框5)对于25 M帧,利用r 0从框1进行微调(总共45 M)。每一行显示了5粒种子的繁殖率的平均结果在块3和块5中,我们使用固定惩罚系数λdisturbance=15。在验证集上调谐后,r 0为0(参见应用程序D)。 我们还运行了一个常见的安全RL基线,PPO-Lagrange [76]( Block 4 ) , 具 有 两 个 初 始 乘 数 值 λ0 ( 参 见App.1)。C详细信息)。辅助任务可提高采样效率(Block1和2)。 为了比较,我们考虑三种不同的辅助任务:我们提出的干扰预测任务(第二节)。3.3)和两个自我监督任务,逆动力学预测[68,104]和对比CPC|一5226|方法[25,104]。通过检查块1中的结果(显示了20M训练步骤后的结果)可以看出,当与CPC A和我们的任务共同训练时,样本效率得到了提高。然而,在45M训练步骤之后,样本效率的这种增益并没有使用我们的干扰预测任务的代理在这两种机制中表现最好,尽管在45M训练步骤后优势较窄。这表明辅助任务确实可以提高样本效率,但不一定是渐近性能。在我们最初的实验中,我们发现组合多个辅助任务并不能有意义地改善结果,因此我们只使用一个辅助任务。从头开始的训练学习早期停止,成功率很低(块2和3)。现在我们进入无干扰设置。训练避免干扰的代理的最简单的方法是直接用新的奖励r0训练策略(等式1)。1)从头开始(即,块3)。然而,即使在共同训练辅助任务时,智能体也无法在大多数种子中学习合理的策略,与Block 2(使用r训练)相比,平均SR(以及SRwoD)要差得多事实上,在Block 3中的20次试验中,有16次完全失败,其中10%的SR。我们调查了这些失败的试验,发现这些代理人在94.1%的事件中拾取了目标对象,但只是选择短暂终止事件5227⇠⇡不⇡在7.1步内拾取后(回想一下总水平线T=200)。这意味着这些智能体学习了一个糟糕的局部最优:拿起目标对象以获得拾取奖励奖金,然后立即终止情节以避免任何干扰惩罚。SR的这种退化可以解释为第2.2节中所建议的干扰避免的副作用。三点四分。两阶段训练在不牺牲SR的情况下实现了更高的SRwoD(块2、3和5),并且比PPO-拉格朗日(块4)好得多,具有令人印象深刻的鲁棒性。我们的两阶段训练课程(第5块)允许代理避免SR退化,与从头开始训练(第3块)相比,同时与原始奖励训练(第2块)相比,在类似SR的情况下,还实现了高得多的SR-woD10%。它也比安全RL基线PPO-拉格朗日法(对初始系数敏感)性能显著更好。在附录Fig.6我们表明,我们的方法对不同的种子也比从头开始训练或使用PPO拉格朗日更鲁棒。请注意,所有代理都接受了45M帧的培训。我们提出的课程是高效和健壮的,易于实施,并可以与辅助任务合作培训。由于这些优势,随着人工智能任务开始更加认真地避免干扰以实现现实世界的部署,我们预计我们的方法的简单性和鲁棒性将成为其巨大的优势:任何嵌入式AI的研究人员都可以轻松地利用我们的训练方法来避免模型中的干扰。出现临时流离失所现象。如前所述,我们的奖励结构r0允许代理干扰对象,只要他们最终将这些对象移回其原始位置(近似)。 也许令人惊讶的是,我们发现这种行为出现在测试场景中:在定量分析中,我们发现在5%的事件中,块5(表3)中的智能体学会暂时移动其他对象(然后恢复它们的位置) 。各种干扰阈值下的成功率。为了显示干扰距离和成功率之间关系的详细结果,我们在图中绘制了无干扰的成功曲线。4为我们最好的表现模式。我们可以看到,块5代理确实优于块2代理在所有干扰距离阈值小于2.5米,当干扰距离阈值小于1米或最多干扰2个物体时,成功率达到80%左右定 性 结 果 。 图 5 显 示 了 我 们 的 无 干 扰 方 法 如 何 在ArmPointNav任务上实现更好性能的示例。更多定性结果请参见我们的补充材料。5. 结论本文强调了避免干扰(碰撞)对体现人工智能的重要性,重点是视觉图4. 无干扰曲线的成功率。每种方法都由其训练设置(块2或5)和它使用的辅助任务标记,所有这些都是用45M帧训练的。左图中的x轴是干扰距离(doobjects,简称DD),y轴是干扰事件的百分比两者都是成功的,并且具有低于x值的DD交叉口DD = 0处的垂直线。01,每条曲线都是SRwoD。同样,右图使用受干扰对象的数量作为其x轴。基线无干扰代理(我们的)图5. 质量改进。任务是从炉子开始拿起桌子上的杯子。我们的无干扰代理观察椅子并相应地计划以避免干扰场景。它成功地将物体捡起来。相比之下,我们的基线智能体用身体干扰椅子,用手臂干扰桌子上的碗。它与物体碰撞的步骤阻止了它在剧集结束前捡起杯子。移动操作。我们首先形式化RL代理的干扰避免目标,然后提供广泛的证据表明,我们的两阶段训练课程比从头开始训练更有效和鲁棒,从而在ArmPointNav任务中实现了最先进的成功率而没有干扰。此外,我们提出了一个新的辅助任务的干扰预测,以提高采样效率。虽然由于缺乏基准测试,我们只在ArmPointNav任务中评估了我们的方法,但我们相信我们方法的所有组成部分,包括无干扰目标,两阶段训练课程和新的辅助任务,都是通用的,并且可以应用于其他任务,以加速机器人在现实世界中的安全部署。确认我们感谢Aniruddha Kembhavi和Roophih Mottaghi对论文初稿的深刻反馈t=0t=74t=39t=14t=23初始对象位置任务:初始座席位置52284、15332,第1、3条引用[1]Joshua Achiam,David Held,Aviv Tamar,and PieterAbbeel.受约束的策略优化。在第34届国际机器学习会议论文集日。[2]Rishabh Agarwal , Max Schwarzer , Pablo SamuelCastro,Aaron C Courville,and Marc Bellemare.在统计悬崖的边缘进行深度控制学习。神经信息处理系统进展,34,2021。七、十六[3]艾坦·阿尔特曼约束马尔可夫决策过程,第7卷。CRCPress,1999. 三、十四[4]彼得·安德森天使X Chang,Devendra Singh Chap- lot,Alexey Dosovitskiy,Saurabh Gupta,Vladlen Koltun,Jana Kosecka , Jitendra Malik , Roophih Mottaghi ,Manolis Savva,and Amir Roshan Zamir.嵌入式导航代理的评价arXiv预印本arXiv:1807.06757,2018。1[5]卡尔·约翰·A. 状态信息不完全的马尔可夫过程的最优控制。数学分析与应用杂志,10:174[6]理 查 德 · 贝 尔 曼 马 尔 可 夫 决 策 过 程 Journal ofMathematics and Mechanics,6(5):679-684,1957.3[7]你是本我, 我是罗拉杜,罗南·科洛伯特,杰森·韦斯顿。课程学习。第26届机器学习国际年会集,第41-48页,2009年。4[8]Dmitry Berenson,Rosen Diankov,Koichi Nishiwaki,Satoshi Kagami,and James Kuffner.在复杂场景中把握规划。2007年11月29日至12月1日在美国宾夕法尼亚州匹兹堡举行的第七届IEEE-RAS类人机器人国际。3[9]奥利弗·布洛克和乌萨马·哈提卜。移动操作:无碰撞路径修改和运动协调。第二届国际计算机工程系统应用会议论文集。引自《预言家》,1998年。3[10]Devendra Singh Chaplot , Ruslan Salakhutdinov ,Abhinav Gupta,and Saurabh Gupta.用于视觉导航的神经拓扑SLAM。2020年IEEE/CVF计算机视觉与模式识别会议,CVPR 2020,西雅图,2020年6月13日至19日,美国华盛顿州。1[11]AndreaCherubini和Fran C.ChauboisChaubitt。 视觉视觉与避障。2011年IEEE/RSJ智能机器人和系统国际会议,IROS 2011,美国加利福尼亚州旧金山,2011年9月25日至30日。3[12]Jun n youngChung , C.Gu? l c? hre , KyungHyunCho ,andYoonge Bengio.门控递归神经网络在序列建模中的实证评估。arXiv预印本arXiv:1412.3555,2014。4[13]放大图片作者:Sam Zeng,J.安德鲁·巴涅尔和马提尔·赫伯特。内省知觉:学习预测视觉系统的故障。2016年IEEE/RSJ智能机器人与系统国际会议,IROS2016,韩国大田,2016年10月9日至14日。[14]Matt Deitke、Winson Han、Alvaro Herrasti、AniruddhaKembhavi 、 Eric Kolve 、 Roozbeh Mottaghi 、 JordiSalvador、Dustin Schwenk、Eli VanderBilt、MatthewWallingford 、 Luca Weihs 、 Mark Yatskar 和 AliFarhadi。Robothor:一个开放的模拟到真实的嵌入式AI平台。2020年IEEE/CVF计算机视觉和模式识别会议,CVPR 2020,美国华盛顿州西雅图,2020年6月13日至19日。1[15]作者:Mehmet Remzi Dogar,Siddhartha S.斯里尼瓦萨一个在杂乱中进行推抓取的框架。在机器人:科学与系统七,南加州大学美国加利福尼亚州洛杉矶,2011年6月27日至30日,2011年。3[16]Kiana Ehsani , Winson Han , Alvaro Herrasti , EliVander-Bilt , Luca Weihs , Eric Kolve , AniruddhaKembhavi,and Rooseveh Mottaghi.操纵者:一个视觉对象操作的框架。在IEEE计算机视觉和模式识别会议上,CVPR 2021,虚拟,2021年6月19日至日。[17]Michael Everett,Yu Fan Chen和Jonathan P.怎么做使用深度强化学习避免在富含神经元的环境中发生碰撞IEEE Access,2021。3[18]Shu
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功