没有合适的资源?快使用搜索试试~ 我知道了~
12123基于可迁移元技能的无监督强化学习李俊成1王欣2唐思亮1史海洲1吴飞1庄月婷1王阳21浙江大学2加州大学圣巴巴拉分校{军成利,司良,石海洲,吴飞,于庄}@ zju.edu.cn,{xwang,william}@ cs.ucsb.edu摘要视觉导航是通过智能地导航到目标对象(例如,电视)。当前深度强化学习模型的一个关键挑战在于需要大量的训练数据。构建用目标对象信息注释的足够的3D合成环境是极其昂贵的在本文中,我们专注于低资源环境中的视觉导航,在那里我们只有少数的训练环境中标注了对象信息。我们提出了一种新的无监督强化学习方法来学习可转移的元技能(例如,绕过障碍物,直行)从无注释的环境中,没有任何监督信号。然后,当视觉导航指定的奖励被提供时,智能体可以通过学习高级主策略来组合这些Meta技能来快速适应视觉导航。实验结果表明,我们的方法显着优于基线的53。34%,进一步的定性分析表明,我们的方法学习可转移的运动基元的视觉导航。1. 介绍视觉导航是训练一个具体的代理的任务除了作为计算机视觉和人工智能的基本科学目标之外,3D环境中的导航对于具体化代理来说是一项至关重要的技能。这一任务可能有利于许多实际应用,在这些实际应用中,智能体可以改善生活质量,唐思良为通讯作者。能力,如家庭机器人,个人助理和危险消除机器人。最近,各种深度强化学习(DRL)方法[44,26,42,41,33,46,47,13,23,48,21]已经提出了改进导航模型的方法。然而,它们通常是数据效率低下的,并且需要大量的训练数据。为了训练这些深度模型,我们需要构建足够数量的3D合成环境并注释对象信息,这在现实世界的应用中是非常昂贵,耗时甚至是不可能的。此外,它是很难的训练体现代理转移到不同的环境。值得注意的是,当人类遇到新任务时,他们可以通过转移一生中在各种任务中学到的元技能来快速学习解决它。这与《论语》中的“仁”形成了鲜明的对比--租用基于深度强化学习的导航方法,其中策略网络是从头开始学习的。相反,人类有一种内在的能力,可以跨任务转移知识并交叉利用他们的知识,这减轻了大量训练样本的负担受这一事实的启发,我们寻求Meta学习[28,9]和迁移学习[39,43]的帮助,元学习[28,9]使用少量数据快速学习,迁移学习[39,43]通过从已经学习的相关任务中转移知识来加速学习新任务在我们的工作中,我们将低资源视觉导航框架为元学习问题。在Meta训练阶段,环境没有用对象信息进行注释,并且我们假设可以访问我们称为元训练任务的一组任务从这些任务中,具体化的代理(我们称之为元学习者)然后学习一组可转移的子策略,其中每个子策略对应于特定的元技能(也称为运动原语,例如,绕过障碍物,直行)通过执行一系列原始动作。在元测试阶段,一些-12124用于元训练的未注释场景用于元测试的图1:我们的ULTRA框架概述。左边的蓝色部分是我们的对抗训练过程, 任务生成器自动提出一个越来越具有挑战性的任务的课程,元学习者学习完成它们。从这些任务中,元学习器学习一组可转移的子策略。然后,在右边的部分,元学习者可以快速适应视觉导航,只需学习一个新的主策略,给定特定于任务的外部奖励。θk对应于第k个子策略的参数。提供了具有用于视觉导航的手指定奖励的标注环境。如图1所示,在从元训练场景中学习可转移的子策略之后,代理只需要学习一个新的主策略来组合子策略,这样它就可以快速适应视觉导航。在元训练期间,主策略是特定于任务的,并且子策略被跨场景的所有任务共享。主策略确定子策略的执行顺序,并被优化以快速适应每个元训练任务。使用基于梯度的元学习算法优化子策略以实现跨任务的性能[28,9]。分层架构[11,37,3,10]将整个策略分为任务特定部分和任务不可知部分,也可以避免元过拟合:典型的基于梯度的元学习算法很容易导致过拟合,因为整个网络仅在几个样本上更新。然而,典型的元学习方法[28,9]需要足够数量的手动设计任务进行元训练,这对于具体的代理来说是不实际的。在本文中,我们提出了一种新的无监督强化学习方法,可以自动生成课程没有手动任务定义的任务。在我们的非监督强化学习可转移元技能(ULTRA)框架中,智能体可以有效地学习可转移元技能,从而在进入新环境时通过利用元技能快速适应新任务。该框架的主体是我们所谓的基于知识的对抗训练过程,其中一个代理(任务生成器)生成难度越来越大的任务课程。另一个智能体(元学习者)通过完成生成的任务来学习元技能。在这种无监督的对抗训练过程之后,Meta学习者可以通过学习新的主策略来组合所学习的元技能来快速适应新的视觉导航任务。我们的实验结果表明,我们的方法显着优于基线的大幅度,进一步的消融研究证明了每个组件的有效性。此外,定性分析表明,一致的行为的子政策。总之,我们的贡献主要有四个方面:• 我们提出了一种新的ULTRA框架,通过无监督强化学习来学习.........基于课程的对抗训练对抗训练中的奖励:元学习者vs任务生成器元学习者任务生成器y熊元学习元学习快速适应特定任务外部奖励元学习=可转让元技能...子策略统括保单泰德无监督强化学习视觉导航任务1任务2任务n12125• 元学习者的分层策略将整个策略分为任务特定部分和任务不可知部分,降低了元学习者学习的概率过拟合并保证更快的收敛。• 我们提出了一种新的基于神经网络的对抗性训练策略,而不是手动设计任务,其中任务生成器自动地向元学习者提出越来越难的任务。此外,我们定义了一个多样性的措施,以鼓励任务生成器生成更多样化的任务。• 我们在低资源环境下进行了实验,实验结果表明,我们的方法显著优于基线53。34%相对SPL,只需要三分之一的迭代收敛,与基线相比。2. 相关工作视觉导航。传统的导航方法[4,6,16,18,22,38]通常采用几何推理,环境的给定占用图。它们执行路径规划[5,15,20]以决定机器人执行哪些动作。最近,已经提出了许多深度强化学习(DRL)方法[44,26,33,46,47,13,23,48]。虽然这些方法取得了很大的改进,但由于这些DRL方法需要大量的训练片段和注释的环境信息,这是耗时且非常昂贵的,因此难以将它们应用于现实世界的场景。在我们的工作中,我们专注于在低资源环境中开发一种无监督的强化学习方法。元学习。元学习,也被称为学习学习,优化了快速有效地学习新任务的能力,利用学习多个任务的经验,任务有三种常见类型的方法:1)基于度量的方法[34,36,40],学习有效的距离度量; 2)基于内存的方法[24,27,29,32],学习使用外部或内部内存存储经验;以及3)基于梯度的方法[28,9,14,31,11]明确地为快速学习建模参数。我们的方法依赖于一种基于梯度的元学习算法,称为Reptile [28]。Reptile算法的目标是在元训练过程中学习一个好的参数初始化,其中提供了大量的相关任务。因此,在元测试过程中,该模型可以实现良好的性能后,只有几个梯度更新的新任务。一个重要的区别是,我们的方法在元训练阶段不需要大量手工设计的任务。基于内在动机的探索。心理学家所称的内在动机或好奇心已被广泛用于训练智能体在没有外部监督的情况下探索环境和创造环境先验。那里主要有两类内在奖励:1)激励代理人探索Sukhbaatar等人 [35]介绍了一种对抗训练一种无监督探索的方法,其中一个模型提出任务,另一个模型学习完成任务。在他们的工作中,用于完成任务的模型在训练期间共享整个参数,并使用这些参数作为下游任务的初始化。然而,我们的工作有所不同,因为我们将对抗训练过程视为一系列独立的元训练任务,每个任务都有独立的任务特定参数。此外,两个代理之间没有通信,而在我们的工作中,生成器将目标观察发送给Meta学习器,其中包含任务信息。Gupta等人。 [12]提出了一种无监督的元学习方法基于最近提出的无监督勘探技术[8]。他们使用启发式方法来定义内在奖励(即随机奖励,基于熵的方法),这使得元训练期间的任务生成过程自动化。相反,我们的工作引入了一种对抗性训练策略,这种策略更具可解释性和有效性。很有效率3. 方法在本节中,我们首先定义视觉导航的元学习设置。然后我们描述我们的ULTRA框架.最后,我们讨论了如何将元技能转移到视觉导航。3.1. 问题设置我们的目标是在无监督的情况下学习元技能,然后将获得的元技能转移到新的任务中(即,视觉导航)。如图1所示,我们的方法有两个阶段:1)在元训练阶段,智能体通过无监督的约束学习来学习可转移的元技能,而不需要人类指定的奖励函数。我们使用基于知识的对抗训练策略来自动生成Meta训练任务的课程。2)在元测试阶段,要求智能体利用学习到的元技能快速转换到视觉导航任务。这个阶段的训练是完全监督的,但只有少量的训练数据可用。请注意,自动生成的元训练任务与元测试阶段的视觉导航不同在元训练期间,学习目标是根据自我中心RGB观察和任务生成器给出的图像(称为图像驱动导航)恢复代理的x,y和视角不同的目标对应不同的任务。而在元测试期间,对代理的输入不是图像,而是语言命令(例如, 微波)。代理人须─12126第二十七号任务任务三第16章任务任务一第15号任务任务七任务八第二十一章任务任务二图2:任务生成器的图形说明。 发电机从同一位置(用蓝色机器人图标)并生成元训练的任务难度水平(由道路的黑暗度表示)随着训练过程而增加。忍受各种语言命令,并在看不见的场景中导航到由命令指定的对象(称为语义视觉导航)。3.2. 概述如图1所示,我们的ULTRA框架主要由三个组件组成:基于知识的对抗训练策略、共享分层策略和Meta强化学习。在基于任务的对抗训练过程中,任务生成器自动提出任务课程,并且元学习者学习完成这些任务。具体地说,元学习器的体系结构在每个主时间步,主策略首先选择要激活的子策略,然后选择的子策略执行原始操作。主策略是为每个任务从头开始学习的,并对特定于任务的信息进行编码。 The sub-policies are shared and encapsulate meta-skills that can betransferred across all tasks.对于任务生成器生成的每个任务,元学习器首先重新初始化主策略,并学习组合子策略以完成任务。在使主策略适应新任务之后,应用元强化学习算法来优化子策略,以在任务之间获得优异的性能3.3. 基于课程的对抗训练在这种情况下,我们有两个代理:任务生成器和元学习器。在每次迭代中,任务生成器从初始状态s0开始,执行一系列操作,最后在状态sT停止。然后,它把它的自我中心主义任务生成器提出新任务,Meta学习器重复上述过程。我们的目标是自动生成多样化任务的课程任务生成器的奖励功能由三个部分组成:基于成功率的最终奖励、惩罚任务生成器采取太多步骤的中间奖励、以及测量任务多样性的多样性度量。成功率:我们使用元学习者在多次事件后的成功率来衡量任务的难度,并给生成器一个最终的奖励。最终奖励定义为:Rf=k<$(1−r)(1)其中k是比例因子,r是成功率。步骤效率:在每个时间步,任务生成器将收到一个负的常数中间奖励。我们惩罚任务生成器采取太多的步骤,这鼓励它生成元学习者无法完成的最简单的任务在最初的几次迭代中,任务生成器可以通过执行少量步骤来提出任务。然后,随着元学习者能力的提高,将采取更多的步骤来生成更困难的任务(图2中的定性示例)。任务多样性:为了让我们的元学习者探索更广阔的状态空间,以建立对环境的更好的视觉和物理理解,我们添加了一个额外的 项在任务生成器的奖励功能中形式上,设π表示现行政策,π′表示以前的政策。多样性度量D可以写为:在最后状态sT观察到元学习者。给定Σ ΣD=D(π′(·|个)||π(·||(2)在最终状态sT处观察oT,Meta学习者的目标是从s0到达sT,我们称之为任务。我们在状态s初始化元学习器,让它在这个任务上学习多个片段,并计算成功率r。后KL t tst∈τπ′∈τ其中τ是当前事件的轨迹,τ是先验策略的集合我们保留了以前的政策核心-12127iµµ对最后四集的回应。我们使用KL-散度来衡量当前政策与以前政策之间的差异。任务多样性旨在激励任务生成器生成覆盖环境的更大状态空间的更多样的任务。形式上,任务生成器算法1无监督强化学习1:随机初始化θ、φ、µ2:←−[]第三章: 而不收敛4:s0←−ei.起始状态5:收集卷展栏τ G(s0,s1,..., s T)使用π G6:s←−sT7:o←−oTΣ ΣR=k<$(1−r)−λ <$n+η<$ D(π′(·|个)||π(·||s))8:set taskτi=SetTask(s0,s1,o2)G KL tst∈τπ′∈τ不(三)9:对于w= 0,1,. W(预热期)10:使用πM收集卷展栏τwi φi,θ其中λ和η是权重超参数,并且n是11:φi←−φi+α<$φJ(τw,πM)任务生成器执行的操作数。12:结束i φi,θ对于元学习者,我们使用共享的层次化策略,十三:θ=θ冰冷我们使用演员-评论家方法[25]来训练它,激励它达到目标的功能。14:对于j = 0,1,. J(联合更新期)15:使用πM收集卷展栏τjiφi,θ3.4. 共享分层策略16:φi<$−φi+α<$φJ(τj,πM<$)iφi,θ十七:θ←−θ+α<$θJ(τj,πM<$)共享分层策略将长期规划到两个不同的时间尺度。在主时间步,主策略从一组子策略中选择特定的子策略,然后将控制权交给子策略。如[11]所示,子策略在将控制返回给主策略之前 执行 固定 的 N个时 间步 长的 原始 动作 ( 例如MoveAhead,RotateLeft形式上,令φ表示主策略的参数,并且θ={θ1,θ2,.,θ K}表示K个子策略的参数。φ是特定于任务的参数,它是针对每个任务从头开始学习的。θ在所有任务之间共享,并由特定于任务的主策略在它们之间切换。cies。对于在对抗训练过程中由任务生成器生成的每个任务,φ首先被随机初始化,然后被优化以在给定固定的共享参数θ的情况下最大化多个情节的总奖励。在对任务的特定于任务的参数φ进行微调(称为预热期)之后,我们采取联合更新期,iφi,θ18:结束19:θ←−θ+β(θ−θ)二十:根据公式3计算RG并更新πG21:如果len(n)==4,则22:第一次(0)23:如果结束二十四:.append(µ)第25章:结束时Reptile算法重复对任务进行采样,对其进行训练,并将初始化移向该任务的训练形式上,设θ表示网络的参数,τ表示采样任务,对应于损失Lτ,并且θτ表示在Lτ上梯度下降K步之后更新的参数。 Reptile算法的更新规则如下其中θ和φ都被更新。针对当前任务优化特定任务φ,但优化共享θ如下所示:θ←−θ+β(θ−θ)(4)到使用基于梯度的元学习算法的跨任务的出色性能。细节在第3.5节中讨论。3.5. 基于建议任务的Meta强化学习受元学习算法[28,9,14,31,11]的启发,该算法利用许多任务的经验快速有效地学习新任务,我们的方法自动从元训练任务的课程中学习元技能基于元学习的学习方法:我们的方法受到先前关于一阶基于梯度的元学习算法(称为Reptile)的工作的启发[28]。爬虫算法的目的是学习神经网络模型的初始化,从而快速适应新的任务。其中(θ−θ)可以被视为梯度,包括来自Lτ的二阶和高阶导数的重要项。因此,爬行动物收敛到一个非常不同于联合训练的解决方案。对于视觉导航,我们的目标是让智能体从无监督的对抗训练过程中学习可转移的元技能。因此,我们应用爬行动物算法更新元学习器的层次策略。与原始的Reptile算法计算二阶和高阶导数来更新整个参数不同,我们只是应用它来更新子参数并在测试过程中修复它们此外,我们处理(θ−θ)并使用SGD来更新它。算法1详细介绍了我们的ULTRA,它由四个阶段组12128成。首先,任务生成器提出一个任务。秒-12129µφ,θi我φ,θiiφ,θiiφi,θiφi,θ其次,元学习者加入预热期以微调主策略。第三,元学习器采取联合更新周期,其中主策略和子策略都被更新。最后,基于元学习者的成功率更新任务生成器,并重复上述过程。形式上,让πG表示由μ参数化的任务生成器的策略,πM表示由任务特定参数φi参数化的元学习器的策略以及共享参数θ ={θ1,θ2,..., θ K}。首先,我们运行任务生成器并收集轨迹τ G(s0,s1,...,s T)。然后,我们通过初始状态s0、最终状态sT和最终状态的观察值oT为元学习者设置任务τi。其次,我们使用共享子策略和随机初始化主策略。然后我们运行一个预热期来微调主策略。更具体地说,我们运行W集的元学习器,并使用收集的W轨迹来更新主策略φi,如下所示:所有L≥5成功SPL成功SPL随机8.21 3.74 0.24 0.09A3C(从头开始学习)19.20 7.48 9.43 4.13电话:+86-021 - 8888888货币21.07 8.51 10.31 4.37我们的- ULTRA27.74 11.47 20.57 8.04表1:定量结果。我们将我们的方法与测试数据的基线进行比较。此外,我们报告的最佳路径长度至少为5(L≥5)的轨迹的结果 我们的ULTRA显著优于基线,特别是L≥5,表明我们长期规划的方法。奖励每一步。最后,我们评估了看不见的场景的性能。4. 实验φi←−φi+α<$φJ(τw,πM)(5)在我们的实验中,我们的目标是(1)评估智能体是否可以快速转移到视觉导航的机器人,哪里 J(τw,πM) 是 的 目的 功能 任何只需要几次培训,数据,(2)确定ULTRA是否比基于梯度的强化学习,使用w-th由策略πM产生的任务τi的轨迹,以更新主策略φi。在我们的工作中,我们使用异步优势演员-评论家(A3C)[25,45]。在预热期间,共享子策略θ的参数是固定的。微调主策略后,我们进入联合更新期,在此期间,我们运行J集的分层策略,并将φi和θ更新为其他无监督的基于RL的方法[8,12,30],(3)确定分级策略是否承诺更好的传输,以及(4)深入了解我们的无监督UL-TRA如何工作。4.1. 实验装置我们在AI 2-THOR [17]模拟如下所示:φi←−φi+α<$φJ(τj,πM<$)(6)θ←−θ+α<$θJ(τj,πM<$)(7)环境,这是一个用于室内场景的照片级逼真的可定制环境,包含120个场景,覆盖四种不同的房间类别:厨房,客厅iφi,θ更具体地说,我们在联合更新周期之前保存θ的值。经过J次迭代,我们得到更新后的参数θ,然后我们计算梯度(θ−θ),使用爬行算法更新共享子策略θ最后,我们根据成功率r、步骤效率和多样性计算任务生成器的最终奖励。3.6.转向语义视觉导航在元测试阶段,我们修复了从元训练过程中学习到的子策略,并采用异步优势Actor-Critic(A3 C)[25,45]在一些新场景上训练新的主策略的输入是当前状态的自我中心观察和目标对象的词嵌入(例如,微波)。在该阶段,用于视觉导航的人类指定的奖励功能如果智能体在一定数量的步骤内到达目标对象,则智能体接收正的最终奖励。此外,它还接收负中间体12130卧室和浴室我们选择60个场景进行Meta训练,60个场景进行元测试。对于60个Meta测试场景,我们进一步将它们分为三个部分(即. 20个场景用于监督训练,20个场景用于验证,20个场景用于测试)。在元训练期间,对象信息和用于视觉导航的手指定的奖励不可访问,并且代理执行无监督的再强化学习以学习可转移的元技能。在元测试期间,所有模型都是在训练集上从头开始微调或学习的,并最终在测试集上进行评估。我们选择与[44]相同的一组导航目标对象类,并且训练奖励是特定的,因为人类注释的标签是可用的 。 动 作 集 合 A 由 六 个 唯 一 动 作 组 成 ( 例 如 ,MoveAhead 、 RotateLeft 、 RotateRight 、 LookDown 、LookUp、Done)。任务和评估指标:我们使用训练过程中评估任务的平均奖励来评估学习速度,使用成功率来评估导航性能,并使用路径长度加权成功12131A3cDIAYN随机Ni=1max(pi,li)所有的成功 SPLL≥5成功SPL4A3C(Learn From Scratch)19.207.489.434.13A3C +随机发生器19.737.129.314.473A3C +手工制作发电机20.578.0410.264.28超超27.7411.4720.578.04100 50000 100000 150000 200000迭代图3:学习曲线。我们报告了元测试期间10个评估任务的平均奖励。(SPL)1[1]评价导航效率。如[44]所述,我们报告了所有轨迹和轨迹上的性能,其中最佳路径长度至少为5(L≥5)。基线: 我们将我们的方法与以下方法进行基线:(1)随机策略:智能体在每个时间步随机执行一个动作;(2)A3 C(从零开始学习):建筑和我们的一样。然而,没有ULTRA过程,整个分层策略-在元测试阶段通过视觉导航指定的奖励直接从头开始学习icing我们还比较了最先进的无监督RL方法:(3)好奇心:[30]智能体学习由好奇心奖励激励的技能,好奇心奖励是一种内在奖励,是智能体预测其自身行为在视觉特征中的后果的能力中的错误。通过自监督逆动力学模型学习的空间(4)DIAYN:[8,12]多样性驱动方法假设在代理状态分布背后存在一个潜在变量(控制不同的技能)然后,他们将无监督的技能获取(通过DIAYN)与MAML[9]结合起来。他们训练一个判别器来从观察到的状态预测潜在变量。作为我们的ULTRA,DIAYN和Curtain首先在元训练场景上进行非监督强化学习,然后在训练场景上进行微调,以进行元测试,并提供视觉导航指定的奖励。4.2. 结果我们在表1中总结了我们的ULTRA和基线的结果。此外,我们在图3中报告了元测试期间10个评估任务的平均奖励。我们观察到,我们的方法可以快速适应视觉导航-表2:消融结果。我们比较了我们的方法的变化与A3C基线增强随机generator和手工制作的发电机。gation,不仅在学习速度上,而且在性能上都明显优于所有基线我们的ULTRA收敛所需的迭代次数约为基线的三分之一。此外,我们的方法实现了最佳的成功率和SPL,特别是当trajec-存储长度L≥5,表明该方法在长期规划方面的优越性。DIAYN分解为视觉导航-由于不同的初始状态可以通过不同的技能达到相同的状态,这使得鉴别器的执行具有偶然性。此外,与A3C(从头开始学习)相比,好奇心方法的改进有限我们认为,这种现象的原因是由于视觉导航环境的复杂性和多样性,其状态空间总是大于以前的任务。4.3. 消融研究单个组件的影响:我们进行了一项消融研究,以说明表2中各组分的作用。我们从最终的ULTRA模型开始,分别删除分层策略、元RL算法和对抗训练。此外,我们使用随机生成器和手工生成器对元训练场景进行预训练来增强基线[19]。增强的A3C基线首先在用于元训练的场景上使用随机生成器或手工制作的生成器进行预训练,然后在用于元测试的训练场景上进行微调。随机发生器采样随机位置作为目标,而手工生成器首先采样更接近目标的初始状态,并逐渐增加初始状态和目标状态之间的距离。扩展基线将不同目标视为统一任务下的不同事件,并采用A3C学习策略。增强的基线对应于典型的预训练方法,其在源任务(图像驱动导航)上进行预训练,并通过微调参数来转移到目标任务(语义视觉导航)。通过图像预训练增强基线-1SPL定义为1NSili,其中N是数量-驱动导航所提出的随机生成器或手工制作的生成器,我们注意到,没有显着对于事件的成功率,Si是事件i中成功的二元指标,最短路径距离,pi是路径长度。改进,性能比Curvature差。奖励2Curriculum24.2710.5414.135.61-23.5711.0314.025.4912132子政策3图4:子策略的可视化。结果表明,图像驱动导航并不能直接促进语义视觉导航。我们没有分层策略的变体使用典型的LSTM-A3 C策略,该策略在对抗性元训练期间更新整个网络。我们注意到,成功率下降了3.47个点,SPL下降了0.93个点,这表明在每个元训练任务的一些训练样本上更新整个策略会导致较差的可移植性。然后,我们验证了元RL al-出租的强度。作为预训练基线,我们将不同的目标视为同一任务的不同片段,并迭代地更新参数。显然,元RL更新通过将不同的目标视为不同的元训练任务并通过Reptile更新子策略来改进基线。此外,最后一行的结果(在无监督强化学习期间作为元训练任务的样本随机位置)验证了基于神经网络的对抗训练的优越性。删除子策略的数量:为了探索不同数量的子策略的影响,我们修改了子策略的数量。如图5所示,成功率和SPL保持增加,子策略从4个增加到7个。当我们继续增加子策略的数量时,不仅成功率没有显著提高,而且SPL降低,因为太多的子策略会导致混乱。为了保证性能和降低计算复杂度,我们将子策略的数量设置为7。4.4. 定性分析任务生成器的可视化:图2显示了三个定性示例。在每个场景中,任务都是通用的-图5:子策略数量的消融研究。从同一地点出发。我们可以看到,任务的难度,对应于生成的轨迹的长度,随着任务序列号的增加而增加。此外,我们可以看到,在每个场景中生成的trajec-tories是在不同的方向,这表明我们的任务生成器提出了不同的元训练任务。子策略的行为:我们在不同的场景中分别执行子策略,以可视化学习到的Meta技能。在图4中,每行中示出的轨迹表示在不同场景中初始化的相同子策略,并且每列中示出的轨迹表示相同位置中的不同子策略。如图4所示,相同的子策略在不同的场景中显示了一致的行为。子策略1总是绕过障碍物并直行,子策略2总是右转,子策略3总是左转。子策略的一致性表明我们的ULTRA已经学会了有意义的元技能。5. 结论在本文中,我们介绍了一种新的ULTRA框架,使代理学习可转让的元技能在无监督的方式。实验表明,该方法能快速过渡到语义视觉导航,并能大幅度地超出基线。此外,我们发现,子策略显示一致的运动原语。ULTRA框架提供了一种新的视角,以更易于理解的方式融合了元学习和迁移学习,未来我们计划将元技能迁移到其他任务(即视觉和语言导航[2],隐藏问题分类[7]等)。).确认本 工 作 得 到 了 国 家 重 点 研 究 发 展 计 划( SQ2018AAA010010 ) 、 国 家 自 然 科 学 基 金(No.61751209,U1611461)、海康威视-浙江大学联合研究中心、浙江大学-同盾科技人工智能联合实验室、浙江大学科大讯飞联合研究中心、中国工程科技知识中心(CKCEST)、教育部数字图书馆工程研究中心。UCSB的作者不受上述任何项目的支持。子策略1子政策212133引用[1] PeterAnderson , AngelChang , DevendraSinghChaplot,Alexey Dosovitskiy,Saurabh Gupta,VladlenKoltun , Jana Kosecka , Jitendra Malik , RoozbehMottaghi,Manolis Savva,et al.嵌入式导航代理的评价。arXiv预印本arXiv:1807.06757,2018。[2] Peter Anderson,Qi Wu,Damien Teney,Jake Bruce,MarkJohnson,NikoSünderhauf,IanReid,StephenGould,and Anton van den Hengel.视觉和语言导航:在真实环境中解释视觉基础的导航指令。在IEEE计算机视觉和模式识别会议论文集,第3674- 3683页[3] Pierre-Luc Bacon,Jean Harb,and Doina Precup.选择-批判架构。2017年第31届AAAI人工智能会议[4] 迈克尔·伯劳施,斯蒂芬·韦斯,D·维德·斯卡拉穆扎,罗兰·西格沃特。在未知和非结构化环境中基于视觉的微型飞行器导航。在2010年IEEE机器人和自动化国际会议上,第21- 28页。IEEE,2010。[5] 约翰·坎尼。机器人运动规划的复杂性。麻省理工学院出版社,1988年。[6] 马克·康明斯和保罗·纽曼。基于概率出现的导航和闭环。在2007年IEEE机器人和自动化国际会议论文集,第2042-2048页IEEE,2007年。[7] Abhishek Das、Samyak Datta、Georgia Gkioxari、StefanLee、Devi Parikh和Dhruv Batra。具身问答。在IEEE计算机视觉和模式识别研讨会会议论文集,第2054[8] Benjamin Eysenbach , Abhishek Gupta , Julian Ibarz ,and Sergey Levine.多样性是你所需要的:没有奖励功能的学习技能。arXiv预印本arXiv:1802.06070,2018。[9] Chelsea Finn,Pieter Abbeel,Sergey Levine.用于深度网络快速适应的模型不可知元学习。第34届国际机器学习会议论文集-第70卷,第1126-1135页。JMLR。org,2017.[10] Carlos Florensa,Yan Duan,and Pieter Abbeel. 用于分层强化学习的随机神经网络。arXiv预印本arXiv:1704.03012,2017。[11] Kevin Frans,Jonathan Ho,Xi Chen,Pieter Abbeel和John Schulman。Meta学习共享层次结构。arXiv预印本arXiv:1710.09767,2017。[12] Abhishek Gupta,Benjamin Eysenbach,Chelsea Finn,and Sergey Levine.用于强化学习的无监督元学习。arXiv预印本arXiv:1806.04640,2018。[13] Saurabh Gupta,James Davidson,Sergey Levine,RahulSuk-thankar,and Jitendra Malik.视觉导航的认知映射和规划:补充材料,2017年。[14] Sepp Hochreiter,A Steven Younger和Peter R Conwell。学习使用梯度下降。国际人工神经网络会议,第87-94页。Springer,2001.[15] Lydia E Kavraki,Petr Svestka,J-C Latombe,and MarkH Overmars. 高维位形空间中路径规划的概率路线图IEEE transactions on Robotics and Automation , 12(4):566[16] Kiyosumi Kidono,Jun Miura,and Yoshiaki Shirai.使用人类引导经验的移动机器人的自动视觉导航Roboticsand Autonomous Systems,40(2- 3):121[17] Eric Kolve 、 Roozbeh Mottaghi 、 Winson Han 、 EliVanderBilt 、 Luca Weihs 、 Alvaro Herrasti 、 DanielGordon、Yuke Zhu、Ab-hinav Gupta和Ali Farhadi。AI2-THOR:一个用于视觉AI的交互式arXiv,2017.[18] Kurt Konolige , Motilal Agrawal , Robert C Bolles ,Cregg Cowan,Martin Fischler和Brian Gerkey。户外地图-平和导航使用立体视觉。实验机器人,第179-190页。Springer,2008.[19] 约翰·阿的儿子,埃里克·德尔内,蒂姆·德·布鲁因和罗伯特·巴布斯·阿尼卡。使用深度强化学习的视觉导航2019年欧洲移动机器人会议(ECMR),第1-8页。IEEE,2019。[20] 史蒂文·M·拉瓦勒。规划算法。剑桥大学出版社,2006。[21] Juncheng Li , Siliang Tang , Fei Wu , and YuetingZhuang.与心同行:心象增强具身质构。第27届ACM国际多媒体会议论文集,第1211-1219页。ACM,2019年。[22] Larry Matthies和Stevena Shafer立体导航中的误差建模。IEEE Journal on Robotics and Automa- tion,3(3):239[23] PiotrMirowski,Razvan Pascanu ,Fabio Viola,HubertSoyer , Andrew J Ballard , Andrea Banino , MishaDenil , RossGoroshin , LaurentSifre , KorayKavukcuoglu,et al.学习在复杂环境中导航。arXiv预印本arXiv:1611.03673,2016年。[24] Nikhil Mishra , Mostafa Rohaninejad , Xi Chen , andPieter Abbeel.一个简单的神经专注元学习者。arXiv预印本arXiv:1707.03141,2017。[25] Volodymyr Mnih , Adria Puigdomenech Badia , MehdiMirza,Alex Graves,Timothy Lillicrap,Tim Harley,David Silver,and Koray Kavukcuoglu.深度强化学习的异步方法。在机器学习国际会议上,第1928-1937页[26] Arsalan Mousavian、Alexander Toshev、Marek Fiser、Jana Kosecka、Ayzaan Wahid和James Davidson。用于语义目标驱动导航的视觉表示。arXiv预印本arXiv:1805.06066,2018。[27] Tsendsuren Munkhdalai和Hong Yu。Meta网络。第34届国际机器学习会议论文集-第70卷,第2554-2563页。JMLR。org,2017.[28] Alex Nichol,Joshua Achiam,and John Schulman.一阶元学习算法。arXiv预印本arXiv:1803.02999,2018。[29] 鲍里斯·奥列什金、帕·罗德·雷格斯·洛佩斯和艾尔·亚历山大·拉科斯特.Tadam:Task Dependent Adaptive Metricfor Improved Few-Shot Learning。神经信息处理系统的进展,第721-731页,2018年12134[30] Deepak Pathak、Pulkit Agrawal、Alexei A Efros和TrevorDarrell。通过自我监督预测的好奇心驱动的探索在IEEE计算机视觉和模式识别研讨会会议集,第16[31] 萨钦·拉维和雨果·拉罗谢尔。优化作为一个模型的少镜头学习。2016年。[32] Adam Santoro,Sergey Bartunov,Matthew Botvinick,Daan Wierstra,and Timothy Lillicrap.使用记忆增强神经网络的元学习。在机器学习国际会议上,第1842-1850页[33] Manolis Savva,Angel X Chang,Alexey Dosovitskiy,Thomas Funkhouser,and Vladlen Koltun. Minos:用于复杂环境中导航的多模态室内模拟器. arXiv预印本arXiv:1712.03931,2017。[34] 杰克·斯内尔凯文·斯沃斯基和理查德·泽梅尔用于少量学习的原型网络。神经信息处理系统进展,第40
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功