RL-CycleGAN：无监督域转换实现模拟与现实之间的任务感知翻译

180 浏览量更新于2023-10-23 收藏 1.35MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1RL-CycleGAN：强化学习感知仿真到真实Kanishka Rao1，Chris Harris1，Alex Irpan1，Sergey Levine1，2，Julian Ibarz1，and MohiKhansari31 Google Brain，Mountain View，USA2加州大学伯克利分校，伯克利，美国3X，The Moonshot Factory，山景城，美国{kanishkarao，ckharris，alexirpan，slevine，julianibarz} @ google.com，khansari@x.team图1. RL-CycleGAN训练CycleGAN，将模拟器（左）的图像映射到现实图像（中），联合训练的RL任务确保这些图像对特定任务有用。在测试时，RL模型可以被转移到真实的机器人（右）。摘要基于深度神经网络的强化学习（RL）可以学习用于复杂任务的适当视觉表示，如基于视觉的机器人抓取，而不需要手动工程或预先学习感知系统。然而，RL的数据是通过在期望的环境中运行代理来收集的，并且对于像机器人这样的应用，在现实世界中运行机器人可能非常昂贵和耗时。模拟训练提供了一个有吸引力的选择，但确保在模拟训练的政策可以有效地转移到现实世界需要额外的机制。模拟可能与现实不匹配，通常弥合模拟与现实之间的差距需要领域知识和特定任务的工程。我们可以通过采用生成模型将模拟图像转换为真实图像来自动化这一过程然而，这种翻译通常是任务不可知的，因为翻译后的图像可能不会保留与任务相关的所有特征在本文中，我们介绍了RL场景一致性损失的图像翻译，这确保了翻译操作是不变的，相对于与图像相关联的Q值这使我们能够学习任务感知的翻译。将这种损失转化为无监督的域转换，我们获得了RL-CycleGAN，这是一种新的模拟到现实世界的转换方法，用于重新生成非正式学习在两个基于视觉的机器人抓取任务的RL-CycleGAN的评估中，我们表明，RL-CycleGAN提供了一个实质性的改进，比一些现有的方法，模拟到真实的传输，实现了出色的现实世界的性能，只有少量的现实世界的观察。1. 介绍强化学习（RL）可用于训练深度神经网络模型，以通过图像观察直接抓取物体[32，26]，或直接根据机载传感器读数[10]使用移动机器人执行导航然而，这种与任务控制器一起端到端学习视觉表示的能力通常会在样本复杂性方面付出高昂的代价。由于RL所需的数据通常是特定于任务和策略的，因此在策略训练的循环中收集此数据可能特别困难。一个有吸引力的替代方案是使用RL在模拟中训练策略，然后将这些策略转移到现实世界的系统中。为了获得与任务相关的视觉表示，模拟中的训练是次优的，因为它导致模拟环境的表示，这可能不适用于真实环境。这种模拟到现实的差距已经在以前的工作中以各种方式得到了解决，从采用修改模拟的1115711158训练图像自动[3]随机化模拟环境，希望这种随机化将提高学习的表示的可转移性[27，29，18，24，17]。然而，这些方法的目标函数通常是任务不可知的。这通常需要通过手动修改使这些方法适应每个单独的任务。传统上，研究人员要么增加他们的多样性（如域自适应），要么直接修改他们的方法，使其看起来更真实（如像素级域自适应）。我们提出了一种方法来自动转移基于视觉的策略从模拟的目标是任务感知，但仍然是自动化的，在这个意义上说，它不需要特定于任务的工程。为了避免产生随机模拟环境所需的人工工程，我们通过生成对抗网络（GAN）自动将模拟观察转化为现实观察。我们假设可以访问真实经验的非策略数据集，这些数据集通常是随机收集的或使用低性能的探索策略收集的，并且我们不假设可以访问成对的模拟数据。我们采用循环一致性方法来训练这个模型，遵循CycleGAN方法[34]。这为模拟图像提供了像素级的域自适应，允许我们在模拟中对类似于策略在现实世界中看到在GAN训练期间强制执行循环然而，保留哪些属性并不强制。为了对RL有用，GAN适配保留可能影响RL结果的所有属性是非常重要的。例如，在机器人抓取中，GAN可以改变照明和物体纹理，但不能改变机器人手臂或物体的位置。在抓取的情况下，我们可以构建保留场景几何结构的额外损失[3]，然而，这种解决方案是特定于任务的。为了以与任务无关的方式解决这一挑战，我们引入了RL场景一致性损失，这强制要求由RL训练的Q函数预测的Q值在Cy cleGAN变换下应该是不变的这种损失是普遍的，因为它可以用于任何强化学习问题，并且我们根据经验发现，我们提出的RL-CycleGAN大大提高了与任务无关的标准CycleGAN的传输性能。基于视觉的任务特别适合于测试视觉模拟到真实的方法，但由于模拟动力学不佳，可能无法解决基于物理的模拟到真实的差距。我们的方法，它适应一个单一的状态（在这种情况下的图像），并没有解决物理差距。我们研究了基于视觉的抓取任务的模拟到真实，这两个不同的机器人系统都是用强化学习方法QT-Opt学习的[20]。在现实生活中，真实的-如果世界情节与脚本策略或先前训练的模型一起收集，则它们被认为是非策略的。如果使用最新政策收集，则将Epperiment视为政策内对非策略事件的训练明显更实用，因为相同的数据可以在不同的训练运行中重复使用因此，非常希望有一种学习系统，其不需要任何政策上的真实世界试验，因为这样的系统可以完全从模拟数据和记录的真实数据中训练，而在训练运行期间没有任何附加的我们主要在只有非策略真实数据可用的情况下进行实验，但也提供了如何将RL-CycleGAN与策略真实世界训练一起使用的比较贡献我们引入了RL-CycleGAN，它能够通过基于视觉的强化学习策略的 RL 场景一致性损失约束的CycleGAN实现RL感知模拟到真实。通过我们的方法，CycleGAN损失鼓励对输入图像的一些保留，而RL场景一致性损失特别关注对当前RL训练的Q函数最关键的那些特征。我们展示了我们的RL感知模拟到真实的可以用来训练政策与模拟数据，只利用域自适应技术，修改mphoff政策的真实数据。RL-CycleGAN不需要每个任务的手动工程，不像几种利用随机化或特定于任务的损失的相关方法。我们在两个现实世界的机器人抓取任务上展示了我们的方法，表明 RL-CycleGAN在现实世界中实现了高效的传输，具有非常高的最终性能，并且大大优于一系列先前的方法。2. 相关工作用Oracle标签生成大量仿真数据相对容易，这使得仿真中的模型描述特别有吸引力。然而，这样的模型往往表现不佳，在真实的机器人上进行评估我们专注于视觉模拟到真实的差距，其中模拟图像可能具有不现实的纹理，照明，颜色或对象。为了弥补视觉模拟与真实的差距，最近的各种作品使用随机模拟环境[29，24，18，28]来随机化纹理，照明，裁剪和摄像机位置。这些模型在转移到真实机器人时更加健壮，因为它们在不同的数据上进行训练，并且真实世界可能在所使用的随机化分布范围内然而，这样的随机化需要手动定义模拟器的哪些方面要随机化。例如，对于抓握，如果观察到模拟的物体纹理不同于现实世界中的那些，则应用随机11159i=1i=1对这些纹理的量化可以导致具有改进的真实世界性能的纹理鲁棒模型。我们提出的方法不需要手动检测模拟器，并且可以被视为直接从真实图像的数据集学习的视觉域适应技术[25]。领域自适应方法旨在使用来自源域（仿真）的许多示例和来自目标域（现实）的少量示例来现有方法可以分为特征级自适应，其中它们学习域不变特征[14，6，22，12]，以及像素级自适应，其中它们对源图像中的像素进行调节并将其重新设计为目标域中的图像[4，31，16，15]。当我们没有配对数据时，像素级自适应是一项特别具有挑战性的图像翻译任务。现有技术使用生成对抗网络（GAN）[13，33，5]来解决这个问题我们的技术基于CycleGAN像素级自适应方法，具有额外的RL特定损失。一种相关的像素级方法是RCAN [19]，它学习一个模型，将图像从随机模拟映射到规范模拟。机器人抓取模型在来自RCAN生成器的规范模拟图像上进行训练，并且在推理时，生成器将真实图像映射到规范模拟器。这种方法仍然需要手动定义特定于任务的规范场景组件和相应的模拟器随机化。像RCAN这样的实时仿真方法还需要在推理时调整真实世界的图像，当RCAN生成器的参数比任务模型多得多时，这在计算上可能是不允许的。使用GAN进行模拟到真实传输的主要挑战是，通过设计，GAN学习从可能不对应于输入模拟图像的真实分布生成任何图像。对于模拟到真实，我们需要输入模拟图像的真实版本，而不仅仅是任何真实图像。GraspGAN [3]通过使GAN再现模拟图像的分割掩模作为辅助任务来解决机器人抓取的问题，其中包括机器人手臂、物体和箱子。GraspGAN通过强制执行特征级域对抗损失来进一步约束GAN。我们表明，RL和CycleGAN一致性损失让我们在不使用特定于任务的语义分割或特征级域自适应的情况下优于最近，CycleGAN [34]被提出用于域之间的不成对图像到图像的翻译这涉及两个GAN，一个从源适应到目标域，另一个从目标适应到源。循环一致性损失确保连续应用的GAN重新创建原始图像，这鼓励保留原始图像的各个方面，因为它们必须复制。这对于模拟到真实的差距特别有吸引力，我们希望适应视觉差异，但保留与RL任务相关的语义。然而，Cycle-GAN可以学习在适配的图像中隐藏信息，而不是显式地保留语义[8]，或者可以以确定性的方式改变它们，而另一个生成器则相反。我们通过联合训练RL模型来减轻这些不受欢迎的CycleGAN行为，该模型通过在所有输入和生成的图像上强制RL一致性损失来通知GAN图像的哪些组件与RL相关我们评估我们的机器人抓取方法。抓取是最基本的机器人问题之一，并已产生了大量的各种研究。在[2]中可以找到一个全面的调查。最近最先进的结果来自基于深度学习的方法[21，23]，这些方法利用手标记的抓取位置或预测RL设置中的抓取结果。在这项工作中，我们考虑闭环抓- ING抓预测过程中不断作出预测。我们考虑如[20]中所述的基于视觉的抓取模型，通过Q学习，使用以RGB图像和所提出的动作为条件的深度神经网络。3. 预赛我们的方法是基于CycleGAN与Q学习任务模型的结合我们将简要介绍这两种技术。3.1. CycleGANCycleGAN是一种用于从不成对的示例{xi}N∈X和{yi}M∈Y学习两个图像域X和Y之间的映射的技术。对于模拟到真实，X和Y分别是模拟和真实。根据[ 34 ]中的符号， CycleGAN 涉及学习两个生成器：Sim2Real、G：X→Y和Real2Sim，F：Y-X。两个对抗性鉴别器DX和DY区分模拟图像{x}与适应模拟{F（y）}和来自适应的实数{G（x）}的实数图像{y}。对抗性损失被应用于两个映射。为Sim2Real，损失是：LGAN（G，DY，X，Y）=EyY[logDY（y）]+Ex<$X[log（1−DY（G（x）））]（一）Sim2Real生成器G旨在通过针对试图最大化该目标的对手DY最小化该目标来产生真实图像，给出更新 minGmaxDYLGAN （ G ， DY ， X ， Y ）。Real2Sim训练类似地，与minFmaxDXLGAN（F，DX，Y，X）.CycleGAN 进一步施加循环一致性损失，鼓励x→G（x）→F（G（x））≈x和y→F（y）→G（F（y））≈y。11160XyXy实数XXxXxXLcyc（G，F）=Ex <$Dsimd（F（G（x）），x）+Ey <$Dreald（G（F（y）），y）（二）和{y，F（y），G（F（y）}被传递给Qsim和Qreal，给出6个Q值。（x，a）Dsim，（y，a）Dreal这里，d是一个距离度量。我们用均方qx =Qsim（x，a）错误.这种周期一致性防止了′=Q房（G（x），a）所产生的，作为原始场景必须是可恢复的，”[8]这是一个很好的解释，但也可能是另一个解释。q′′=Q SIM（F（G（x）），a）一致性损失qy=Qreal（y，a）q′=QSIM （F（y），a）3.2. Q学习给定状态{s}、动作{a}、奖励的环境{r}和下一个状态{s′}，Q学习是一种学习Q函数Q（s，a）的强化学习技术，表示总的预期未来奖励[30]。对于基于视觉的任务，s是输入图像，a是候选动作.Q函数被更新以最小化时间差异。q′′=Q（G（F（y）），a）这些q表示各种图像的Q值。三元组{x，G（x），F（G（x））}和{y，F（y），G（F（y））}应各自表示相同的场景，并且RL-场景con-i通过鼓励三元组内的类似Q值来施加阻抗损失TD损失，定义为LRL−场景（G，F）=d（q，q′）+d（q，q ′）+d（q′，q′）′+d（q，q′）+d（q，q′）+d（q′，q′）d（Q（s，a），r+γV（s））（3）其中V（s′）是下一个状态值的估计yyyyyy（四）折扣因子，并且d是距离度量。关于Pol-冰π（a|s）则由argmaxaQ（s，a）定义。为了估计V（s′），我们使用Clipped Double-Q Learning [11]。RL-CycleGAN与CycleGAN联合训练Q函数，使用所学习的Q值来增加额外的一致性损失。4. RL-CycleGAN一个有用的模拟到真实模型的关键是使模拟图像适应真实图像，同时还保留与RL任务相关的原始语义。例如，对于抓取，模拟到真实的模型可能会产生非常同样，d是某种距离度量，我们使用均方错误.这种损失惩罚Q值的变化，进一步鼓励在自适应期间保留RL场景。由于在模拟和现实中抓取的视觉特征可能会有很大的不同，我们训练了两个不同的Q网络Qsim，Qreal来计算模拟图像和真实图像的Q值。这些Q网络通过标准TD损失在所有原始和生成的图像{x，F（G（x）），F（y）}对于Qsim，{G（x），y，G（F（y））}对于Qreal。在计算TD损失之前，将每个生成器或生成器对应用于当前图像x和下一图像x′′逼真的图像，但在此过程中，如果不容易将某些对象转换为逼真的版本，则可能会从图像中删除这样的改变大大改变了抓取结果，对RL任务是有害的。不影响任务的风格（照明、纹理等）和影响任务的语义（机器人和对象位置）之间的区别并不总是清晰的，并且随任务而变化。我们引入了RL-CycleGAN，它训练一个GAN，鼓励它通过一个联合训练的RL模型来进行这种风格语义区分。直觉，RLLRL（Q）=E（x，a，r，x′）d（Q（x，a），r+γV（x））其全部目标是：LRL−CycleGAN（G，F，DX，DY，Q）=λGANLGAN（G，DY）+λGANLGAN（F，DX）+λcycleLcyc（G，F）+λRL−scenceLRL −scene（G，F）+λRLLRL（Q）其中λ是相对损失权重。（五）（六）模型RL任务模型是一个深度Q学习网络Q（s，a）。对Q11161于基于视觉的任务，s是输入图像，并且a是可以指定的动作。Qsim（s，a）和Qreal（s，a）分别表示在模拟和真实（s，a）上训练的RL-CycleGAN联合训练RL模型与Cy-cleGAN，其中6个图像{x，G（x），F（G（x））}RL-CycleGAN 的示意图如图 2 所示。所有 RL-CycleGAN神经网络都使用分布式Q学习QT-Opt算法从头开始联合训练。模拟的（s，a）是从模拟器生成的，而真实的（s，a）是从模拟器生成的（s，a）是从非政策事件读取的。在RL之后-CycleGAN是学习的，Qreal学习可以用于最后的现实世界的政策，但我们发现，我们得到了最好的性能冻结Sim2Real生成器和重新训练一个Q（s，a）从头开始。11162图2. RL-CycleGAN涉及用RL场景一致性约束的CycleGAN。Sim2Real GAN对抓取的模拟状态（左上图）进行了调整，使其更加逼真（上中图），Real2Sim GAN（右上图）需要进行进一步的循环调整，以匹配原始模拟输入。sim Q网络在原始（左上）和循环（右上）模拟图像上进行训练，并通过TD损失模拟动作。另一个真实的Q网络是用真实的图像（顶部中心）和模拟动作训练的最后，GAN生成器受到RL场景一致性的约束，这需要为所有三幅图像生成相同的Q值在最下面的一行中，需要相同的神经网络来满足真实图像和相应动作的相同5. 任务设置我们评估我们的方法在两个现实世界的机器人抓-ING设置，使用不同的物理机器人，对象，箱子，和模拟环境。机器人1我们的目标是证明我们的方法独立于机器人和任务，并且不为任何一种设置定制RL-CycleGAN。这两个任务都执行动态闭环抓取[2，7]，其中感测和控制在每个阶段紧密交错，并如[20]中所述进行训练。观测由单目RGB相机图像组成。动作直接在四个维度（xyz和自上而下旋转）中命令机器人夹持器，以及夹持器关闭/打开和事件终止命令。5.1. 机器人1设置我们使用Kuka IIWA机器人从金属箱中抓取各种物体[20]。通过运行脚本策略或先前学习使用训练对象的模型。该任务的模拟环境也使用Bullet物理模拟器构建[9]，其中包含机器人手臂，垃圾箱和待抓取的物体。为了概括具有不同形状的抓取物体，我们在模拟中使用程序生成的随机几何形状[3]。模拟图像看起来并不真实（见图4中最左边的图像），纯粹在模拟中训练的模型在真实机器人上的表现非常差使用4个机器人进行评估，每个机器人有一组6个看不见的物体。每个机器人执行102抓取并将任何成功抓取的物体放回箱子中。抓取成功率报告为所有抓取的平均百分比。5.2. 机器人2设置我们用机器人从三个垃圾桶里抓取垃圾样的东西。为了从三个垃圾箱的所有区域抓取，机械臂安装在移动底座上。该基础不受策略控制，并且在整个抓取事件中保持固定，但随机定位在11163(a) 单箱抓取评价设置：所有的机器人都被放置在中央箱的前面，中央箱包含所有6个物体。表1. 使用模拟训练的各种模型的机器人1抓取性能。前两个是在模拟器中使用和不使用视觉随机化训练的模型。接下来的四个模型利用各种GAN来调整模拟图像，使其看起来更逼真，所有GAN都使用580，000个真实场景进行训练。(b) 多箱抓取评价设置：一些机器人以箱为中心，（i）以左箱为中心，（iii）&（iv）以中心箱为中心，以及（vi）以右箱为中心，而（v）和（ii）是偏移的。每个设置包含6个对象。图3. 机器人2上的评估设置。每一集的开始。一个学习的策略必须推广到从所有三个箱子中抓取各种相机角度。通过使用脚本策略收集真实的机器人情节，其中机器人随机驱动到三个箱子前面的工作空间内的位置还为该机器人设置构建了一个模拟器，当模型在没有适应的情况下训练时，模拟与真实的视觉差距很大（见图2我们考虑两种类型的评估，如图3b所示。单仓抓取：每个机器人都被放置在包含6个物体的中心箱的前面（参见图3a）。这评估了从单个基本位置形成单个箱的抓取性能。多仓抓取：为了评估从具有变化的基本位置的所有箱子的抓取，机器人相对于箱子以一定的偏移放置，其中物体也放置在不同的箱子中。在这两种类型的评估中，6个机器人被允许6次抓取并成功地所抓取的物体被放置在储物箱的外部。该程序重复3次，共108次抓取，抓取成功率报告为平均百分比。6. 实验我们评估了机器人抓取的模拟到真实的方法，在这种情况下，离线政策的真实世界的数据是可用的，但可能是有限的，以及相对便宜的模拟经验。从完全不符合政策的地方已知真实世界数据本身导致比按策略微调更差的性能[20]。我们实验的目的是了解RL-CycleGAN是否可以通过利用模拟实验来弥合性能上的这一差距，以及它是否可以进一步减少良好性能所需的真实世界数据量我们还将RL-CycleGAN与机器人抓取任务的最先进的模拟到真实的方法相性能是根据前一节中描述的两种机器人抓取系统的抓取成功率进行评估的。RL-CycleGAN在三组实验中进行评价在第一组中，我们训练了各种GAN方法，然后单独使用模拟训练RL抓取模型，但将GAN应用于模拟图像。这调查了他们如何解决视觉模拟到现实的差距，为抓取任务。在第二组实验中，我们重用用于训练RL- CycleGAN的真实非策略数据来训练抓取模型，将其与GAN适应的策略模拟数据混合。我们比较了包含RL-CycleGAN的改进与不同数量的真实数据。在最后的实验中，我们进一步用真实机器人微调抓取模型的策略，同时仍然使用额外的GAN适应的策略模拟数据。由于机器人训练是可用的，在这些最终的实验中，我们限制 RL-CycleGAN训练使用非常有限的非策略真实数据。6.1. 用于RL的我们首先建立一个基线，用于在没有任何真实数据或域适应的情况下将模拟转移到真实如表1所示，我们的标准模拟器在没有任何调整的情况下，在现实世界中只能实现21%的抓取成功这表明模拟与真实存在很大差距。将随机化结合到手臂、物体、箱和背景的视觉外观中[19]将这一百分比提高到37%，但仍然存在很大的差距。接下来，我们比较了不同的基于GAN的自适应模型，包括我们方法的消融为了评估GAN对RL的有用性，我们仅使用模拟器训练抓取模型，但应用了预训练的GAN模拟到真实模型机器人1抓取成功仅限模拟[19]百分之二十一[19]第十九话百分之三十七GAN百分之二十九CycleGAN百分之六十一GraspGAN百分之六十三RL-CycleGAN百分之七十（一）（二）（三）（iv）（v）（vi）11164模拟图像GAN CycleGAN GraspGAN RL-CycleGAN图4. 在两幅模拟图像上显示的四个模型的模拟到真实的示例（左）。GAN单独产生的图像很差，对象被删除或添加，机器人夹持器位置不清楚（用红色圆圈显示）。CycleGAN在复制对象和机器人方面做得更好，但是仍然可以看到一些对象删除。GraspGAN保留了物体，但整体图像质量很差，特别是对于机器人手臂和夹具。虽然仍然可以看到一些伪影，但RL-CycleGAN可以生成最好的图像，在生成逼真图像的同时保留所有RL任务信息。在一些示例中可以看到一个有趣的冲突，其中对象是在生成的机器人线的顶部生成的。到模拟图像。各种模型的示例和定性讨论如图4所示。表1显示了使用CycleGAN的改进性能，61%的成功率，而常规GAN的成功率为29%。循环一致性鼓励保持物体和手臂的位置，然而，仍然观察到偶尔的反对删除和GraspGAN的性能与CycleGAN相当（63%的成功率），因为抓取特定掩蔽损失避免了对象删除或添加，但总体图像质量不太真实，尤其是机器人手臂。一个假设是GraspGAN使用的域对抗损失可能会限制生成图像的真实性，然而，我们在这里没有测试。使用RL-CycleGAN 训练的抓取模型表现最好（ 70% 成功）。RL-CycleGAN保存任务突出信息并产生逼真的图像，并且这样做具有直接基于Q值的相似性的通用一致性损失，而不需要手动识别任务突出属性（例如，对象几何体）。6.2. 混合真实数据和仿真我们研究了如何通过混合真实的非策略数据和模拟器来训练RL模型，在这个实验中，我们测量了性能如何随着实际数据量而变化。首先，RL-CycleGAN模型使用可用的真实数据进行训练，如前一节所述。然后，在最终RL模型的训练过程中重复使用相同的真实数据。通过这种方式，RL过程受益于真实的非策略数据，将RL- CycleGAN应用于模拟数据后生成的真实策略数据。对于基线，我们只使用机器人1的真实离线数据训练抓取模型，并使用机器人2的真实离线和模拟在线数据的混合对于机器人1，表2显示了RL-CycleGAN的显著改进：仅使用5，000次真实世界试验来训练GAN和RL过程，将抓取成功率从15%提高到75%。这里需要注意的是，真实数据以两种方式使用：训练GAN和RL。即使有580，000个真实世界试验的大数据集这与[20]描述的最先进的性能（96%）相当，后者需要长时间的机器人微调。RL-CycleGAN能够仅通过先前收集的政策外试验来实现这一性能，从而使培训过程更加简单和实用。通过RL-CycleGAN进行的仿真到真实的转换在表3中看到了机器人2的类似显著改进。只有3，000个真实事件，我们看到性能从13%提高到72%。使用RL-CycleGAN训练的模型具有80，000个真实事件，达到了最先进的性能，抓取成功率为95%在93%的抓取成功率下，对于具有随机基础位置的多箱抓取，可以看到类似的性能，这表明RL-CycleGAN可以很好地推广到不同的抓取位置和相机角度。11165表2.机器人1在不同数量的真实数据下的成功把握以及包括模拟到真实方法的模拟的相应改进： GraspGAN 和 RL-CycleGAN。Episode机器人1抓取成功表4.通过策略微调，RL-CycleGAN和RCAN在Robot 1上取得成功。虽然RCAN在零真实数据的情况下实现了不错的性能，但RL-CycleGAN不需要域随机化，并且在策略训练之后执行类似于RCAN。Eppery Domain Robot 1表 3. 通过使用模拟和不同数量的真实事件与使用 RL-CycleGAN来适应模拟图像的模型来掌握Robot 2设置的成功。Robot 2 Grasp SuccessSim+Real RL-CycleGAN单仓抓取，居中3,000百分之十三百分之七十二5,000百分之十二百分之七十六10,000百分之十百分之八十四80,000百分之三十六百分之九十五多箱抓取，随机定位80，000 33%93%6.3. 关于机器人微调如前一节所述训练的抓取模型可以通过机器人训练进一步微调。在微调期间，来自机器人的真实策略数据与使用RL- CycleGAN适配的策略模拟数据混合。为了与RCAN [ 19 ]等模拟到真实的方法进行比较，RCAN [19]只使用策略上的真实数据而不使用策略外的数据，我们将用于训练RL-CycleGAN的策略外真实数据的数量限制为5，000次抓取，比在真实数据上训练的最先进方法所需的数量级少约两个数量级[20]。在没有真实数据的情况下，RCAN允许以70%的抓取成功率将零发射转移到真实世界，这显著优于单独的随机化。然而，需要对28，000次发作进行真正的政策微调，RCAN才能达到94%的抓取成功率。我们发现，RL-CycleGAN只需几千集就可以可靠地训练。在5，000个非策略事件的情况下，RL-CycleGAN实现了75%的把握成功率，当微调超过10，000个策略事件时，RL-CycleGAN实现了与RCAN相同的94%的性能（表4）。7. 结论我们已经提出了RL-CycleGAN来解决视觉模拟与真实的差距，并通过两种不同的抓取设置显着改善了现实世界中基于视觉的机器人。将RL场景一致性损失与CycleGAN损失一起排除，提供了风格的自然分离，可以进行调整以使其看起来更真实，以及必须保存。这消除了对特定于任务的特征工程的需求，例如为GraspGAN生成场景分割掩码或为RCAN定义规范场景和RL-CycleGAN只解决了视觉上的差距，而不是任何基于物理的模拟与真实的差异。处理这些情况需要扩展RL-CycleGAN以适应事件的整个状态-动作轨迹，而不是一个单一的国家形象，这是留给未来的工作。在这项工作中提出的GAN是确定性的，因为没有随机噪声被采样，并且相同的输入模拟图像总是适应相同的现实版本。RL- CycleGAN可以通过结合最近的作品（如Augmented- CycleGAN [1]或BicycleGAN [34]）中的对于这两种机器人抓取设置，我们看到通过结合与RL-CycleGAN适配的策略模拟器数据获得了很大的性能增益。对于Robot 1，我们需要使用RL-CycleGAN将实际抓取次数减少20倍（28，000次），以获得使用580，000次实际抓取的性能当使用所有580，000次实际抓取时，RL-CycleGAN（94%成功率）与最先进的（96%）相当，但不需要昂贵的机器人培训。我们在Robot 2中看到了更大的改进，其中RL-CycleGAN在中心单箱抓取时实现了72%的抓取成功率通过80，000次抓取，RL-CycleGAN训练模型实现了最先进的结果，从随机位置居中的单箱抓取成功率为95%，多箱抓取成功率为93%8. 确认我们要感谢Ivonne Fajardo、Noah Brown和BenjaminSwanson 监督机器人操作， Paul Wohlhart 和Konstantinos Bousmalis 就图像生成进行了宝贵的讨论，Anthony Brohan和Yao Lu在培训基础设施方面提供了帮助，Chad Richards、Vincent Vanhoucke和MrinalKalakrishnan对论文提出了仅限实数GraspGANRL-CycleGAN5,000百分之十五-百分之七十五28,000百分之十六-百分之八十六模型关-政策在-政策随机的把握成功RCAN [19]--✓百分之七十RCAN [19]-5,000✓百分之九十一RL-CycleGAN5,0005,000✗百分之九十11166引用[1] Amjad Almahairi、Sai Rajeswar、Alessandro Sordoni、Philip Bachman和Aaron Courville。增强的循环根：从非配对数据学习多对多映射。2018年02月。8[2] Jeannette Bohg 、 Antonio Morales 、 Tamim Asfour 和Danica Kragic。数据驱动的抓取综合研究综述。IEEETransactions on Robotics，30：289-309，2013。三、五[3] Konstantinos Bousmalis 、Alex Irpan、 Paul Wohlhart、Yunfei Bai 、 Matthew Kelcey 、 Mrinal Kalakrishnan 、Laura Downs 、 Julian Ibarz 、 Peter Pastor 、 KurtKonolige、Sergey Levine和Vincent Vanhoucke。利用仿真和领域自适应提高机器人深抓取效率。2018 IEEE机器人与自动化国际会议，第4243-4250页，2017年。二三五[4] Konstantinos Bousmalis 、 Nathan Silberman 、 DavidDohan、Dumitru Erhan和Dilip Krishnan。无监督像素级域自适应生成对抗网络。2017年IEEE计算机视觉和模式识别会议，第95-104页，2016年。3[5] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练ArXiv，abs/1809.11096，2018。3[6] Rui Cascados，Joao F Henriques，Pedro Martins，andJorge Batista.超越最短路径：通过沿样条流采样子空间的无监督域自适应。在IEEE计算机视觉和模式识别会议论文集，第3846-3854页，2015年。3[7] Nikhil Chavan-Dafle和Alberto Rodriguez。稳定的前推：交替粘贴触点的手操作。第254-261页，2018年5月。5[8] Casey Chu，Andrey Zhmoginov，and Mark Sandler. Cy-clegan隐写术大师。ArXiv，abs/1712.02950，2017年。三、四[9] 欧文·库曼斯子弹物理模拟。在ACM SIG中-GRAPH 2015课程，第7页。ACM，2015. 5[10] 作者： Anthony Francis ， Aleksandra Faust ， Hao-TienLewis Chi-ang，Jasmine Hsu，J.蔡斯·邱，马雷克·费瑟，和李曾伟。使用PRM的远程室内导航-RL. CoRR，abs/1902.09458，2019。1[11] 斯科特·藤本，赫克·范霍夫，大卫·梅格。演员-评论家方法中的广告函数逼近误差。2018. 4[12] Yaroslav Ganin 、 Evgeniya Ustinova 、 Hana Ajakan 、PascalGermain、HugoLarochelle、FrancçoisLa violette、Mario Marchand和Victor Lempitsky。神经网络的领域对抗机器学习研究杂志，17（1）：2096-2030，2016。3[13] Ian J. Goodfellow，Jean Pouget-Abadie，Mehdi Mirza，Bing Xu，David Warde-Farley，Sherjil Ozair，Aaron C.Courville和Yoshua Bengio。生成对抗网络。ArXiv，abs/1406.2661，2014年。3[14] Raghuraman Gopalan，Ruonan Li，and Rama Chellappa.用于对象识别的Do- main适配：无人监督的方法。2011年国际计算机视觉会议，第999-1006页。IEEE，2011年。3[15] Judy Hoffman 、 Eric Tzeng 、 Taesung Park 、 Jun-YanZhu、Phillip Isola、Kate Saenko、Alexei Efros和TrevorDarrell。苏铁：周期一致的对抗域适应。2017年11月。3[16] Xinru Hua，Davis Rempe，and Haotian Zhang.无监督跨域图像生成。2017. 3[17] Stephen James，Michael Bloesch，and Andrew J.大卫-儿子。用于少量模仿学习的任务嵌入式控制网络InCoRL，2018. 2[18] 斯蒂芬·詹姆斯，安德鲁·J。戴维森和爱德华·约翰斯。将端到端视觉运动控制从模拟转移到现实世界的多阶段任务。ArXiv，abs/1707.02267，2017年。2[19] Stephen James，Paul Wohlhart，Mrinal Kalakrishnan，Dmitry Kalashnikov，Alex Irpan，Julian Ibarz，SergeyLevine，Raia Hadsell，and Konstantinos Bousmalis.通过模拟对模拟实现模拟对真实：通过随机到规范适应网络的数据高效机器人抓取。在CVPR，2018年。三六八[20] Dmitry Kalashnikov ，Alex Irpan ，Peter Pastor， JulianIbarz，Alexander Herzog，Eric Jang，Deirdre Quillen，EthanHolly，MrinalKalakrishnan，VincentVanhoucke，and Sergey Levine.基于视觉的机器人操作的可扩展深度强化学习。 InCoRL，2018.二、三、五、六、七、八[21] Ian Lenz，Honglak Lee，和Ashutosh Saxena.用于检测机器人抓取的深度I. J. 机器人研究所，34：7053[22] Mingsheng Long ， Yue Cao ， Jianmin Wang ， andMichael I Jordan.使用深度适应网络学习可转移特征。arXiv预印本arXiv：1502.02791，2015年。3[23] Jeffrey Mahler， Jacky Liang ， Sherdil Niyaz ， MichaelLaskey，Richard Doan，Xinyu Liu，Juan Apari

下载后可阅读完整内容，剩余1页未读，立即下载