增强数据多样性的Task-awareLipschitz数据增强在视觉强化学习中的有效性与样本效率

97 浏览量更新于2024-02-04 收藏 5.87MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文Don’t Touch What Matters: Task-Aware Lipschitz Data Augmentationfor Visual Reinforcement袁哲成1人，马国正1人，姚牧2人，夏波1人，袁波1人，王学谦1人，罗平2人，徐华哲3人1清华大学2香港大学3斯坦福大学网址：yuanzc20@mails.tsinghua.edu.cn，huazhexu@stanford.edu摘要视觉强化学习（RL）的关键挑战之一是学习可以推广到不可见环境的策略。最近，旨在增强数据多样性的数据增强技术在提高学习策略的泛化能力方面表现出了良好的性能。然而，由于RL训练的敏感性，天真地应用数据增强（其以任务不可知的方式变换每个像素）可能会遭受不稳定性并损害样本效率，从而进一步恶化泛化性能。这种现象的核心是面对增强图像时的发散动作分布和高方差值估计。为了缓解这个问题，我们提出了 Task-aware 的 Lipschitz数据增强（TLDA）的视觉RL，它明确地识别任务相关的像素与大Lipschitz常数，只增加任务无关的像素。为了验证TLDA的有效性，我们对DeepMind Control套件、CARLA和DeepMind Manipulation任务进行了大量实验，结果表明TLDA在训练时间和测试时间上都提高了样本效率。它优于以前的国家的最先进的方法在3个不同的视觉控制基准1。1介绍来自视觉观察的深度强化学习（DRL）已经在许多领域开辟了辉煌的道路，例如视频游戏（ Mnih et al. ， 2015 ）、机器人操作（ Kalashnikov et al. ， 2018 ）和视觉导航（Zhu et al. ，2017年）。然而，由于过拟合，在具有视觉变化的不同环境中获得可推广的策略仍然具有挑战性（Zhang et al. ，2018年）。第1https://sites.google.com/view/algotlda/home图1：以任务不可知的方式（在中间）增加观察会分散Agent的决策，因此会损害Agent的渐近性能。这个问题可以通过任务感知数据增强（在底部）来缓解。数据增强（Shorten和Khoshgoftaar，2019）和领域随机化（Tobin等人，，2017）的方法被广泛用于学习可概括的视觉表示。然而，最近的工作（Hansen et al. ，2021）发现，在视觉强化学习中，存在一个困境：大量的数据增强对于更好的泛化至关重要，但它会导致样本效率和训练稳定性的显着下降主要原因之一是数据扩充传统上执行像素级图像变换，其中每个像素以任务不可知的方式变换。然而，在视觉RL中，观察中的每个像素与任务和奖励函数具有不同的因此，在视觉强化学习的新背景下重新思考数据增强为了更好地理解可视化强化学习中数据增强的效果，我们在图2中可视化了使用各种数据增强选项训练的策略的动作分布输出。我们发现，代理人具体而言，当应用诸如移位之类的弱增强时，动作分布仍然更接近于arXiv：2202.09982v1 [cs.CV] 2022年2月+v：mala2277获取更多论文不含8月强螺旋40 20 0 20 40不含8月TLDA（我40 20 0 20 40t-SNE二聚t-SNE二聚4040402020200002020204040 40t-SNE二聚体1（一）t-SNE二聚体1（b）第（1）款t-SNE二聚体1（c）第（1）款图2：动作分布。我们使用t-SNE来显示同一代理所采用的高维动作。灰点是在没有增强（w/o aug）的情况下给定观测值的动作;蓝点（a）和橙点（c）分别是在强（随机conv）和弱增强（随机移位）下给定相同观测值的动作。可视化结果表明，强增广条件下，策略的动作分布发生了显著的变化，而弱增广条件下，策略的动作分布更接近于初始分布。红点（b）是强增强下的TLDA，这产生了与灰点相似的动作分布。没有增强的原始分布（图2（c））;然而，当强增强时，应用随机卷积时，动作离散度急剧变化（图2（a）），并且Q估计产生与未增强数据的差异，如图3所示。该算法揭示了在不知道任务信息的情况下盲目应用数据扩充时在这项工作中，我们提出了一种视觉RL中的任务感知数据增强方法，该方法学习增强与任务相关性较低的像素，即 Task-awareLipschitz DataA ugmentation（TLDA），如图1所示。这种方法的一个理想的质量是，它保持一个稳定的政策输出，即使在增强的意见。根据这一见解，我们引入了Lipschitz常数，该常数测量像素与任务之间的相关性，然后指导增强策略。具体地，我们首先对某个像素施加扰动，并通过扰动前后的策略变化来计算该像素然后，为了避免发生剧烈的策略变化，我们将具有较大Lipschitz常数的像素视为任务相关像素，并避免对其进行扩增。因此，输出可以更稳定，同时保持扩增数据的多样性。我们在3个基准上进行实验：DMControlGeneralizationBenchmark（DMC-GB）（Hansen和Wang，2021），CARLA（Doso-vitskiy et al. ，2017）和DMControl操纵任务（Tunyasuvunakool et al. ，2020年）。我们在一个固定的环境中训练智能体，并评估它们在训练过程中看不到的环境中大量的实验表明，TLDA优于现有的国家的最先进的方法，ODS由于更稳定和有效的训练和鲁棒的泛化性能。我们的主要贡献总结如下：• 我们提出了 Task-aware Lipschitz DataAugmentation（TLDA），它可以在任何下游视觉RL算法上轻松实现，而无需添加辅助对象或额外的可学习参数。• 理论分析和实验结果表明，TLDA能有效地缓解动作分布漂移和高方差Q估计问题• 在3种不同的基准测试中，TLDA的采样效率和泛化能力都优于2相关工作RL中的泛化。研究人员已经从各种角度研究了强化学习泛化，例如不同的视觉外观（Cobbeet al. ，2019），动力学（Packer etal. ，2018）和环境结构（Cobbe et al. ，2020年）。在本文中，我们专注于推广不同的视觉外观。两个流行的范式提出了解决当前视觉RL研究中的过拟合问题第一种方法是把泛化看作是一个表征学习问题。例如，双模拟度量（Ferns et al. ，2011）来学习鲁棒的表示特征（Zhang et al. ，2020年）。另一种范式就是设计辅助任务。SODA（Hansen和Wang，2021 ）增加了一个 BYOL 样（ Grill et al. ，2020）架构，并引入了辅助损失，其鼓励表示对于不含8月随机移位40 20 0 20 40t-SNE二聚+v：mala2277获取更多论文≥→ X··2∈∈ S·|不不不t=1πP环境中与任务无关的属性。与以前的努力相比，我们的方法不需要采用特定的度量来学习表示，也不需要引入额外的模块。RL的数据增强。数据扩充是提高可视化强化学习通用性的有效方法. RAD（Laskin etal. ，2020）比较了不同的数据增强方法，揭示了不同的增强方法对强化学习任务的益处是不一样的。SE-CANT（Fan et al. ，2021）提到弱增广可以提高样本效率，但不能提高泛化能力。简单地使用强增广器虽然提高了泛化能力，但容易引起训练在（Raileanu et al. 2021年），以更好地利用数据增强。我们提倡这一范式，并认为提高样本效率和泛化能力的一个关键因素在于数据扩充的设计，即如何在保持输出不变性的我们展示了强增强如何影响动作分布的变化并导致Q估计的高方差，并说明我们的方法在缓解这两个问题方面是有效的。3预赛方法φ：O → OJ作为最优不变变换，如果φ（o）∈ O，a∈ A，φ（o）∈ OJ，其中OJ是一个新的观测集，满足：Q（o，a）= Q（φ（o），a）π（·|o）= π（·|φ（o））（一）数据扩充的理想质量是满足最优不变状态变换的形式，而失真或干扰噪声被添加到观察。3.2Lipschitz常数Lipschitz常数常被用来衡量模型的鲁棒性，本文引入了策略的Lipschitz连续性。函数f：RnRm是Lipschitz连续的，如果存在一个非负常数K0，≤K，对于所有x，y∈X（2）最小的这样的K称为Lipschitz con，f的常数（Pauli et al. ，2021年）。定义2（策略的Lipschitz常数）假设状态空间配备有距离度量d（，）。在一定的增广方法φ下，策略π的Lipschitz常数定义如下：我们考虑学习在一马尔可夫决策K= sup D TV（π（·|φ（s））π（·|（s））（三）元组表示的子进程（MDP）πs∈Sd（φ（s），s）S，A，r，P，γ，其中S 是状态空间，A是作用空间，r：S× A ›→ R是其中D TV（P ||Q）= 1a∈A |是|is奖励函数，（s转换函数，电话+1|s t，a t）是国分布之间的总变异距离如果Kπ是有限的，则策略π是Lipschitz连续的。γ[0，1）是折现因子。我们的目标是学习一个政策ππ最大化预期累积收益率π=对于某个模型，较小的Lipschitz常数通常表示较高的稳定性，argmaxπEaπ（·|s），s PTγt r（st，at）<$，输入的方差（Finlay et al. ，2018年）。的下面的命题说明，从初始状态s0开始，策略πθ（st），由一组可学习参数θ参数化。同时，Q值的误差可以由Lipschitz常数限制：我们期望学习的策略πθ 可以很好命题1我们考虑一个MDPM，一个pol.将其推广到新的环境，新的环境具有与原始MDP相同的结构和定义，但是具有从相同的状态空间S构造的不同的观测空间O。3.1数据扩充Iceπ和一种增广方法φ。假设报酬由r max有界，状态空间配备有距离度量d（·，·），使得εa∈ A，εs∈ S，|r（s，a）|≤r max，则以下不等式成立，其中φd（φ）φ∞=sups∈Sd（φ（s），s）：定义1（最优不变状态转换）给定一个MDPM，我们定义一个增广|Q(s, a) − Q （φ（s），a）|≤ 2rmax（Kπd（φ）∞+ 1）1−γ（4）π+v：mala2277获取更多论文强螺旋TLDA（我们的）不含8月强螺旋TLDA（我们的）不含8月·|·|IJKπ∈ⓈⓈ −Ⓢ··K：M=.ππK=1401201008060402000.060.050.040.030.020.01猎豹快跑Conv覆盖切口1201008060402000.060.050.040.030.020.01Cartpole摇摆Conv覆盖切口25201510500.70.60.50.40.30.20.1Ball_in_cup接球Conv覆盖切口201510500.200.160.120.080.04沃克看台Conv覆盖切口807060504030201000.250.200.150.100.05步行道Conv覆盖切口0.000 100 2003000.004005006007008003803853903954004054100.003603703803904000.00330340350360370380图3：Q估计误差。上图：我们测量了不同增广观测与非增广观测的Q估计均方误差。蓝色条和红色条分别是强增强数据和TLD增强数据与非增强数据结果表明，TLDA可以显著减小Q估计误差，缓解高方差估计问题。下图：Q估计的分布。TLDA提出了一个更接近的Q估计分布与原来的。正式声明和证明见附录A。这一命题表明，如果在一个特定的增广条件下得到一个较小的Lipschitz常数，那么在实施数据增广时，我们将得到一个方差较小的Q值估计的紧4方法为了保持训练的稳定性和提高泛化能力，我们提出： Task-aware Lipschitz 数据增强（TLDA），一种有效的和通用的任务感知数据增强方法，用于视觉RL。其中，分子可以解释为两个作用分布之间的距离：π（Φ（o，i，j）），π（o），分母是原始观测值和扰动观测值之间的距离。然后，我们利用每个像素的Lipschitz常数，构造出能够反映任务相关性信息的矩阵，并应用于整个观察。通过将Kπ排列成具有与等式（7）中的0相同大小的矩阵，我们将该矩阵表示为K矩阵：π π πK11K12···K1n4.1构造K矩阵我们首先从扰动的输入图像计算Lipschitz常数。通过使用内核来扰动πK矩阵，21M122···K2n.. . ..m2···Kmn中国（7）原始图像ORH×W，我们得到了每-表示为A（o）的湍流图像。接下来，我们选择以A（o）的位置（i，j）为中心的像素，如等式（5）中所示，表示为Φ（o，i，j）。具体来说，我们使用Hadamard乘积来选择位置（i，j）周围的扰动像素，通过图像掩码M（i，j）∈（0，1）H×W：Φ（o，i，j）=o（1M（i，j））+A（o）M（i，j）（五）为了导出Lipschitz常数，我们使用符号d（Φ（o，i，j），o）来表示在度量d（，）下输入o和Φ（o，i，j）之间的距离。如在定义2中，对于给定的观测o，可以计算像素（i，j）的Lips-chitz常数我们的目标是捕捉与任务相关的位置与大Lipschitz常数往往会导致高方差的政策/值输出在同一水平的扰动。4.2使用K矩阵的任务感知Lipschitz增强直觉上，数据扩充操作不应修改由大Lipschitz常数指示的任务相关像素。我们遵循这种直觉，并提出了一个简单而有效的方法来决定哪些领域可以修改。我们使用K矩阵的平均值作为阈值，并通过以下方式对K矩阵进行二值化，其中N是像素数（H×W），K平均值=如下所示1×ijπIJ .1，如果 Kπ≥K均值πD TV（π（·|Φ（o，i，j））<$π（·|（6）ijd（Φ（o，i，j），o）K ijij0，否则（八）强螺旋TLDA（我们的）AugW/OTLDA（o不含8月urs）八月stronstrong augTLDA（我们的）w/oaugQ误差Q密度KKπKπN+v：mala2277获取更多论文k矩阵政策政策安排值内核政策TLDA（我们的）FFBIJIJ←−·|·|LLRJIJQ不不不不行动q值观察强增强图4：TLDA概述。该图显示了TLDA的两个示例和实现它的管道。智能体为堆叠帧生成K矩阵，然后在强增强下保留较大的Lipschitz常数区域。保留的区域在K矩阵中突出显示。算法1任务感知Lipschitz数据增强站（TLDA）1：将网络参数表示为θ、θ第二章：表示动量系数τ，批量N，强增强，重放缓冲区3：对于每个更新迭代，4：从N中抽取一批观测值5：对于i = 1，2，. . . N是否6：实现强增广：oJi=（oi）7：对于每个像素，8：基于π（Φ（oi，i，j））、π（oi）9：结束10：将Kπ排列成K矩阵第11章：得到的保存位置由掩模基于等式（8）12：基于等式（9）获取TLDA输出13：结束14：优化Q（θ）w.r.t. θ15：更新<$（1 τ）<$+τθ16：结束政策和价值网络的输出。因此，它与定义1中的最优不变状态变换相呼应。图4 展示了TLDA的总体框架。在训练过程中，K矩阵是针对增强观测的每个训练步骤动态计算的。以图4中的剪切（向图像添加黑色斑块）为例，由于相应的K矩阵显示机器人身体的上部与此相反，TLDA保留了由K-矩阵表示的原始观测的关键部分。它可以帮助保持动作/值输出的稳定性。4.3使用TLDA的强化学习我们使用软演员评论（SAC）作为基本的再学习算法TLDA。类似于以前的工作，我们还包括一个正则化项Q（θ）的SAC批评家损失Q（θ）来处理增广数据。我们的临界损失 Q（θ）如下，其中saug由等式（9）计算，并且所获得的掩模M_K用于决定哪个掩模M_K是可以增加像素对于任何数据扩充方法oJ=Aug（o），我们应用以下运算：Q（st，at）=r（st，at）+γEst+1<$P[V（st+1）]：LQ（θ）=JQ（θ）+λRQ（θ）（10）与o=M Ko+（1−M K）oJ（9）我们注意到，输出o仅在JQ（θ）=E（st，at）<$D2001年。2Qθ（st，at）−Qθ（st，at）Σ2Σ与任务相关性低的区域R（θ）=E2001年。Q2（saug，a）−Q<$（s，a）<$2<$服务于具有大Kπ的像素，并且仅增加与小K π相关联的像素，这增加了隐式约束以保持稳定实例化的RL算法在算法1中，更多的实现细节在附录B中总结。堆叠B如上所述，我们的方法倾向于预-（st，at）Dθ+v：mala2277获取更多论文Cartpole Swingup（随机Conv）800700600500400300200球入杯接球（随机转换）10008006004002000800600400200Walker Walk（RandomConv）贴片随机--（我们SVEATLDA1000900800700600500400300步行者站立（随机转换）TLDA（我们的）贴片随机--Svea4003002001000猎豹跑（随机转换）（我们的）TLDA随机--SveaCartpole Swingup（随机叠加）Ball_in_cup Catch（随机叠加）Walker Walk（随机叠加）1000800步行者站（随机叠加）1000900猎豹跑（随机叠加）50070060050040030020010 20 30 4050帧数（×104）8006004002000 10 20 30 4050帧数（×104）80060040020010 20 30 4050帧数（×104）80070060050040010 20 30 4050帧数（×104）40030020010010 20 30 40 50帧数（×104）图5：训练环境中的样本效率。我们比较了TLDA，SVEA，和随机补丁下的两种增强。顶行和底行分别对应于事件返回的随机Conv和随机叠加训练曲线。TLDA（红线）显示了训练周期上更好的样本效率。5次运行的平均值和标准差。5实验在本节中，我们将探讨TLDA如何影响代理的样本效率和泛化性能。我们将我们的方法与其他基线进行了广泛的任务比较，包括DeepMind 控制套件， CARLA 模拟器以及DeepMind操作任务。我们还消融TLDA，并研究其对动作分布和价值估计的影响5.1DeepMind Control Suite设置。我们用SAC实现我们的方法，基本算法。卷积神经网络用于图像输入。我们在附录B中详细描述了所有超参数和架构。为了进行比较，我们主要考虑在现有技术方法中应用的两种增强方式：随机卷积（使输入通过随机卷积层）和随机叠加（将观测o与额外图像I线性组合，φ（o）=αo+（1−α）I）。基线。我们基准 TLDA针对以下现有技术方法：（1）DrQ（Kostrikov etal. ，2020）：具有弱增强的SAC（随机移位）;（2）PAD（Hansenet al. ，2020）：添加用于适应看不见的环境的辅助任务;（3）SODA（Hansen和Wang，2021）：通过采用类似BYOL的（Grill等人，2021）最大化潜在表示之间的相互信息。，2020）架构;（4）SVEA（Hansen et al. ，2021）：修改Q-target的形式。我们运行5个随机种子，并报告事件奖励的平均值和标准差强增广条件下的采样效率。通过与SVEA算法的采样效率比较，验证了TLDA算法的有效性.我们还包括另一个基线，它保留了来自未增强观测的随机补丁，而不是保留任务相关部分的TLDA我们称之为基线随机补丁。相比之下，SVEA只使用强增强方法，但不保留原始像素。图5表明，TLDA在训练环境中实现了比DM控制套件上的基线更好或相当的渐近性能，同时具有更好的样本效率。研究结果还表明，随机补丁在某些任务中会影响我们认为，由于随机补丁不具有任何像素到任务的相关性知识，它不可避免地破坏了图像因此，盲目地保留原始观测它是保留具有较大Lipschitz常数的区域，而不是随机的原始区域，这提高了训练代理的样本效率。泛化性能。我们在DMControl-GB（Hansen和Wang，2021）的两个设置上评估了智能体的泛化能力：（i）背景和智能体的随机颜色;（ii）动态视频背景。结果示于表1中。TLDA在10个实例中有7个用TLDA训练的智能体能够在不同的未知环境中获得良好的鲁棒同时，我们注意到，现有的方法对不同的_补丁随机（我们的）TLDASvea（我们的）贴片TLDA随机--Svea（我们的）贴片TLDA随机--Svea（我们的）贴片TLDA随机--Svea贴片随机--（我们的）TLDASvea贴片随机--（我们的）SVEATLDA贴片随机--（我们的）SVEATLDA剧集回归剧集回归+v：mala2277获取更多论文（conv）表1：DMC-GB泛化性能。我们在测试环境中报告了事件返回。代理在固定的环境中进行训练，并在两个看不见的测试环境中进行评估，即，随机颜色（底部）和视频背景（顶部）。我们的方法在10个任务中有7个任务具有竞争力或更好的性能设置DMControl DrQ PADSVEASvea（重叠）苏打（conv）苏打（重叠）TLDA（conv）TLDA（重叠）卡特波尔摇摆沃克站立沃克在杯子里走抓住猎豹，快跑卡特波尔摇摆沃克站立沃克在杯子里走抓住猎豹，快跑485±105 521±76606±85782±27474±143758±62607±74671±57873 ±83935 ±20795 ±70961 ±8903 ±56955 ±13962 ±15973±6682 ±89717 ±79 612 ±144819 ±71635 ±48768 ±38 873±34868 ±63318 ±157436 ±55659±110 871±106 539±111875±56887±58855±56102 ±30206 ±34292 ±32249 ±20229 ±29223 ±32 356±52336 ±57586 ±52630 ±63 837±23832 ±23831 ±21805 ±28748 ±40760 ±60770 ±71797 ±46942 ±26933 ±24930 ±12893 ±12919 ±24 947±26520 ±91468 ±47 760 ±145749 ±61697 ±66692 ±68753 ±83 823±58365±210 563±50961±7959±5892±37949±19932±32930±40100 ±27159 ±28264 ±51273 ±23294 ±34238 ±28 371±51358 ±25各种各样的增强，这使得它们的测试性能差异很大。相反，我们的方法与任务意识的观察是更稳定的，不容易受到这个问题。TLDA的定性结果如图6所示，从测试环境上的K矩阵来看，由TLDA训练的代理将在机器人的身体上给出更大的 Lipschitz 常数，而SVEA代理倾向于关注照明视觉背景。我们的方法能够学习影响性能的主要因素，并忽略阻碍泛化的无关区域。对动作分布和Q估计的影响。在本节中，我们分析TLDA如何影响政策和价值网络的输出。给定一个在原始环境中训练的DrQ代理，我们评估了不同增强下的Q值估计和动作分布。为了更好地理解这个问题，我们可视化了不同增强方法下代理的动作分布，如图2所示。对于弱增强，尽管其动作分布最接近未增强的动作分布（图2（c）），但它不能改善泛化，如表1（DrQ）所示。另一方面，强扩增将导致明显的分布变化（图2（a）），从而严重阻碍培训过程。我们发现TLDA有一个更接近的作用分布-Cheetah Run Walker Walk Ball_in_cup接球图6：概化中K矩阵的可视化。在泛化过程中，我们可视化了关于SVEA（底行）和TLDA（顶行）的K矩阵（红色）的相同观察框架。结果表明，SVEA计算的K矩阵将突出视频背景，而TLDA仍然关注机器人身体。比简单地应用强增强（图2（b）），通过使用Lipschitz常数来识别和保留任务感知区域。此外，如图3所示，我们发现TLDA的Q估计比单纯应用强增广的Q估计具有更低的方差这两个结果说明TLDA有潜力在训练中实现更高的样本效率，并学习更稳健的策略以在未知环境中表现良好。SveaTLDA（我们+v：mala2277获取更多论文5.2CARLA的自动驾驶评价为了进一步评估TLDA的性能，我们将这种方法应用于具有更真实观察结果的任务：CARLA模拟器中的自动驾驶。在我们的实验中，我们使用一个摄像头作为驾驶任务的输入观察，智能体的目标是在1000个时间步长内沿着弯曲的道路行驶，而不会与移动的车辆，行人和障碍物发生碰撞。我们调整了奖励函数，并在天气条件下训练了一个智能体，其设置与非正式工作相同（Zhang et al. ，2020年）。训练结果如图7所示。我们发现，我们的方法达到了最佳的训练样本效率。为了推广，CARLA提供了不同的天气条件和内置参数。我们在不同光照条件、真实降雨和湿滑的四种天气条件下对我们的方法进行了评估。结果如表2所示，其中我们选择达到100米距离的成功率作为驾驶评估指标。TLDA在样本效率和泛化能力上都优于所有的其他结果见附录D.3。表2：卡拉驾驶。我们报告了在250集中，在看不见的天气下，每种天气下5颗种子达到100米距离的成功率。(50每一个种子）。trol（Tunyasuvunakool et al. ，2020）提供了一组具有机器人Jaco臂和卡扣在一起的砖块的可配置操纵任务。我们考虑两个实验任务：到达和推。更多详情见附录C.3。所有的智能体都是在默认的背景下训练的，并在不同颜色的武器和平台上进行评估。训练结果和泛化性能见附录D.2和表3。结果表明，该方法能更好地适应未知环境 .ModifiedPlatform和Modified Both设置对于智能体从嘈杂的背景中辨别目标对象具有挑战性。强数据增强下的SVEA存在训练不稳定和发散的问题，而TLDA可以以任务感知的方式增强像素，从而进一步保持训练的稳定性。尽管DrQ显示出更好的训练性能，但它几乎不能推广到具有不同视觉布局的环境。总之，样本效率和泛化性能有助于显示所提出的算法的优越性。表3：DMC操作任务。我们在不同的修正（M）视觉设置中评估事件返回。设置栏中的M表示：已修改。TLDA能在嘈杂的彩色背景中更好地聚焦目标任务设置DrQ SVEA Ours0.000万美元8%1. 百分之六百分之二0.00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000百分之五。2% 12%200175推米平台培训141±4742±40109±27M组88±52 21±1660±43M平台4±134±2895±33M均5±132±2056±421501251007550250 2 4648106结论在本文中，我们提出了Task-aware LipschitzDataA ugmentation（TLDA）用于视觉RL，它可以可靠地识别和增强与学习任务不密切相关的像素，同时保持与任务相关的像素不变。这个技术-帧数（×10）图7：CARLA培训绩效。我们在5个种子上评估了3个算法。TLDA（红线）在采样效率方面比SVEA（蓝线）和DrQ（绿线）实现了更好的性能5.3 DMC操纵任务机器人操作是视觉强化学习的另一组复杂而有意义的任务。DM con-nique旨在提供一种原则性的机制，以提高RL代理的泛化能力，并可以无缝地集成到各种现有的可视化RL框架中。在三个具有挑战性的基准上的实验结果证实，与基线相比，TLDA不仅具有更高的采样效率，而且有助于智能体更好地泛化到未知环境。Svea我们的DrQ剧集回归设置DRQSvea我们培训136±2049±48124±32中午训练SoftRain中午百分之二十四0的情况。百分之八0的情况。百分之四百分之四十九8 .第八条。百分之八1 .一、百分之二百分之五十二百分之十八7 .第一次会议。6%ReachM臂两者都是68±200的情况。8±1。31±221±2524±2513±1455±2189±4036±25+v：mala2277获取更多论文引用卡尔·科布，克里斯·黑塞，雅各布·希尔顿和约翰·舒曼。2020年。利用程序生成来基准强化学习。在机器学习国际会议上，第2048-2056页。PMLR。Karl Cobbe、Oleg Klimov、Chris Hesse、TaehoonKim和John Schulman。2019.强化学习中的量化泛化。国际机器学习，第1282PMLR。AlexeyDosovitskiy ， GermanRos ， FelipeCodevilla ， Antonio Lopez 和 Vladlen Koltun 。2017.卡拉：一个开放的城市驾驶模拟器。在机器人学习会议上，第1-16页。PMLR。Linxi Fan，Guanzhi Wang，De-An Huang，ZhidingYu，Li Fei-Fei，Yuke Zhu，and Anima Anandku-2021年3月。割线：用于视觉策略的零射击概括的自专家克隆。 arXiv 预印本 arXiv ：2106.09678。诺姆·弗恩斯，普拉卡什·帕南加，多伊娜·普雷卡普。2011.连续马尔可夫决策过程的互模拟度量。 SIAM Journal on Computing ， 40 （ 6 ）：1662-1714.Chris Finlay ， Jeff Calder ， Bilal Abbasi 和 AdamOber-man。2018年。Lipschitz正则化深度神经网络具有泛化性和对抗鲁棒性。 arXiv 预印本arXiv：1808.09540。Jean-BastienGrill ， FlorianStrub ， FlorentAltche' ，Corentin Tallec ， Pierre H Richemond ， ElenaBuchatskaya ， Carl Doersch ， Bernardo AvilaPires ， ZhaohanDanielGuo ， MohammadGheshlaghi Azar，et al. 2020.Bootstrap Your OwnLatent ： A New Approach to Self-SupervisedLearning. arXiv预印本arXiv：2006.07733。Nicklas Hansen ， Rishabh Jangir ， Yu Sun ，GuillemAlen ya` ，PieterAbbeel，Alex eiAEfros，LerrelPinto， and Xiaolong Wang.2020. 部署期间的自我监督策略自适应。arXiv预印本arXiv：2007.04309。Nicklas Hansen，Hao Su，and Xiaolong Wang. 2021.在数据增强下使用convnets和vision transformers稳定深度q学习。arXiv电子版，第arXiv尼可拉斯·汉森和王小龙。2021.通过软数据扩充实现强化学习的一般化。2021年IEEE机器人与自动化国际会议（ICRA），第13611- 13617页。美国电气与电子工程师学会。Dmitry Kalashnikov，Alex Irpan，Peter Pastor，Ju-lian Ibarz ， Alexander Herzog ， Eric Jang ，DeirdreQuillen，EthanHolly，MrinalKalakrishnan，Vincent Vanhoucke，et al. 2018.基于视觉的机器人操作的可扩展深度强化学习机器人学习会议，第651-673页。PMLR。Ilya Kostrikov Denis Yarats和Rob Fergus 2020.图像增强就是你所需要的：从像素中正则化深度强化学习。arXiv预印本arXiv：2004.13649。Misha Laskin ， Kimin Lee ， Adam Stooke ，LerrelPinto，Pieter Abbeel，and Aravind Srinivas. 2020.用增强的数据再学习。神经信息处理系统的进展，33。Volodymyr Mnih ， Koray Kavukcuoglu ， DavidSilver ， Andrei A Rusu ， Joel Veness ， Marc GBellemare ， Alex Graves ， Martin Riedmiller ，Andreas K Fidje- land ， Georg Ostrovski ， et al.2015.通过深度强化学习实现人类水平的控制nature，518（7540）：529-533.Charles Packer，Katelyn Gao，Jernej Kos，PhilippK raühenbuühl ，VladlenKoltun和D a wnSong。2018年在深度强化学习中评估泛化。arXiv预印本arXiv：1810.12282。帕特丽夏·泡利，安妮·科赫，朱利安·伯贝里，保罗·科勒，弗兰克·奥尔高尔。2021.用Lipschitz边界训练鲁棒神经网络。IEEE控制系统通讯。Roberta Raileanu 、 Maxwell Goldstein 、 DenisYarats、Ilya Kostrikov和Rob Fergus。2021.强化学习中用于泛化的自动数据扩充。神经信息处理系统的进展，34。作者声明：John M. 2019.用于深度学习的图像数据增强研究综述。Journal of Big Data，6（1）：1Josh Tobin ， Rachel Fong ， Alex Ray ， JonasSchneider，Wojciech Zaremba，and Pieter Abbeel.2017.用于将深度神经网络从模拟转移到现实世界的随机化。InIROS，pages 23-30. 美国电气与电子工程师学会。Saran Tunyasuvunakool ， Alistair Muldal ， YotamDoron，Siqi Liu，Steven Bohez，Josh Merel，Tom Erez，Timothy Lillicrap，Nicolas Heess，and Yuval Tassa. 2020. dm control：用于连续控制的软件和任务。软件影响，6：100022。AmyZhang ， RowanMcAllister ， RobertoCalandra，Yarin Gal和Sergey Levine。 2020. 学习-使用不变量表示进行强化学习而无需重建。arXiv预印本arXiv：2006.10742。Chiyuan Zhang，Oriol Vinyals，Remi Munos，andSamy Bengio. 2018.关于过拟合的研究深度强

下载后可阅读完整内容，剩余1页未读，立即下载