没有合适的资源?快使用搜索试试~ 我知道了~
Mitchell Wortsman1, Kiana Ehsani2, Mohammad Rastegari1, Ali Farhadi1,2, Roozbeh Mottaghi11 PRIOR @ Allen Institute for AI, 2 University of WashingtonIn this paper, we study the problem of learning to learnand adapt at both training and test time in the context ofvisual navigation; one of the most crucial skills for any vi-sually intelligent agent. The goal of visual navigation is tomove towards certain objects or regions of an environment.A key challenge in navigation is generalizing to a scene thathas not been observed during training, as the structure ofthe scene and appearance of objects are unfamiliar. In thispaper we propose a self-adaptive visual navigation (SAVN)model which learns to adapt during inference without anyexplicit supervision using an interaction loss (Figure 1).Formally, our solution is a meta-reinforcement learn-ing approach to visual navigation, where an agent learnsto adapt through a self-supervised interaction loss.Ourapproach is inspired by gradient based meta-learning al-gorithms that learn quickly using a small amount of data[13]. In our approach, however, we learn quickly using a67500学习如何学习:使用元学习的自适应视觉导航0摘要0学习是一种内在连续的现象。当人类学习一项新任务时,训练和推理之间没有明确的区别。当我们学习一项任务时,我们在执行任务的同时不断学习。我们学习的内容和学习方式在学习的不同阶段是不同的。学会如何学习和适应是一种关键特性,使我们能够轻松地推广到新的环境中。这与传统的机器学习设置形成了对比,在该设置中,在推理过程中训练好的模型被冻结。在本文中,我们研究了在视觉导航的训练和测试阶段都能够学习如何学习的问题。导航中的一个基本挑战是泛化到未见过的场景。在本文中,我们提出了一种自适应视觉导航方法(SAVN),它能够在没有任何显式监督的情况下适应新的环境。我们的解决方案是一种元强化学习方法,代理学习了一种自监督的交互损失,以鼓励有效的导航。我们在AI2-THOR框架中进行的实验显示,在新场景中的视觉导航的成功率和SPL都有显著提高。我们的代码和数据可在以下网址找到:https://github.com/allenai/savn。01. 引言0学习是一种内在连续的现象。我们通过与环境的交互来进一步学习已经学过的任务,并学会适应新的环境。在学习和执行任务的过程中,训练和测试阶段之间没有明确的硬性边界:我们在执行任务的同时学习。这与许多现代深度学习技术形成鲜明对比,这些技术在推理过程中冻结网络。我们学习的内容和学习方式在学习的不同阶段是不同的。为了学习一个新的任务,我们通常依赖于显式的外部监督。在学习一个任务之后,我们通过与环境的交互进一步学习以适应新的环境。这种适应不一定需要显式的监督;我们经常通过与环境的交互来实现。0图1.传统的导航方法在推理过程中冻结模型(上排);这可能导致难以泛化到未见过的环境。在本文中,我们提出了一种元强化学习方法,用于导航,代理在自监督的方式下学会适应(下排)。在这个例子中,当代理与物体碰撞一次后,它学会了适应并正确地执行任务。相比之下,标准解决方案(上排)在执行任务时会多次犯同样的错误。67510在视觉导航中,即使没有访问任何奖励函数或正面示例,也可以进行适应。随着代理的训练,它学习了一个自监督损失,鼓励有效的导航。在训练过程中,我们鼓励自监督损失引起的梯度与我们从监督导航损失中获得的梯度相似。因此,当没有明确的监督可用时,代理能够在推理过程中进行适应。总之,在训练和测试期间,代理在执行导航时修改其网络。这种方法与传统的强化学习不同,传统强化学习在训练后冻结网络,与监督元学习相反,我们在推理过程中学习如何适应新环境,而没有奖励。我们使用AI2-THOR[23]框架进行实验。代理的目标是仅使用视觉观察导航到给定对象类别的实例(例如,微波炉)。我们展示了SAVN在成功率(40.8 vs 33.0)和SPL(16.2 vs14.7)方面优于非自适应基线。此外,我们证明了学习自监督损失相比手工设计的自监督损失有所改进。此外,我们展示了我们的方法优于增强记忆的非自适应基线。02. 相关工作0导航的深度模型。传统的导航方法通常在给定环境的地图上进行规划,或者在探索过程中构建地图[26, 40, 21, 24, 9,4]。最近,基于学习的导航方法(例如,[50, 15,27])因为它们能够从头到尾地隐含地执行定位、建图、探索和语义识别而变得流行。Zhu等人[50]解决了给定目标图片的目标驱动导航问题。[15]引入了联合映射器和规划器。[27]使用辅助任务(如闭环)加速导航的强化学习训练。我们的方法与众不同,因为我们动态地适应新场景。[37]提出了使用拓扑地图进行导航的方法。他们在测试环境中进行长时间的探索以填充内存。在我们的工作中,我们学习在没有探索阶段的情况下进行导航。[20]提出了一种用于导航的自监督深度强化学习模型。然而,它没有考虑语义信息。[31]基于目标检测器和语义分割模块学习导航策略。我们不依赖于高度监督的检测器,并从有限数量的示例中学习。[46,44]将语义知识纳入模型以更好地推广到未知场景。这两种方法都动态更新其手动定义的知识图。然而,我们的模型学习在导航过程中应该更新哪些参数以及如何更新它们。学习-0在其他应用程序的背景下,已经探索了基于地图的导航,如自动驾驶(例如,[7]),基于地图的城市导航(例如,[5])和游戏玩法(例如,[43])。各种研究已经探索了使用语言指令进行导航的方法[3, 6, 17, 47,29]。我们的目标不同,因为我们专注于使用元学习来更有效地使用目标的类标签导航新场景。元学习。元学习,或学习如何学习,一直是机器学习研究中持续关注的话题[41,38]。最近,各种元学习技术推动了低样本问题在不同领域的最新进展[13, 28,12]。Finn等人[13]介绍了模型无关的元学习(MAML),它使用SGD更新快速适应新任务。这种基于梯度的元学习方法也可以解释为学习一个良好的参数初始化,使得网络在仅进行几次梯度更新后表现良好。[25]和[48]改进了MAML算法,使其使用一个域中的监督来适应另一个域。我们的工作不同,因为我们不使用监督或标记的示例来进行适应。Xu等人[45]使用元学习来加快训练速度,鼓励探索演员策略所不确定的状态空间。此外,[14]使用元学习来通过结构化噪声增强代理策略。在推理时,由于这些情节的可变性,代理能够更好地适应少数情节。我们的工作强调在执行单个视觉导航任务时的自监督适应。这两项工作都没有考虑到这个领域。Clavera等人[8]考虑了使用元学习学习适应意外扰动的问题。我们的方法类似,因为我们也考虑了学习适应的问题。然而,我们考虑的是视觉导航的问题,并通过自监督损失进行适应。[18]和[48]都学习了一个目标函数。然而,[18]使用进化策略而不是元学习。我们学习损失的方法受到[48]的启发并类似。然而,我们在相同的领域内进行适应,没有明确的监督,而他们则使用视频演示在不同领域进行适应。自监督。文献中已经探索了不同类型的自监督[1, 19, 11, 42,49, 36, 34,32]。一些工作旨在最大化未来状态表示的预测误差[33,39]。在这项工作中,我们学习了一个自监督目标,鼓励有效的导航。03. 自适应导航0在本节中,我们首先正式介绍任务和我们的基本模型,而不进行适应性。然后我们解释如何整合适应性并在这个设置中进行训练和测试。…$ =$ = *Pointwise ConvPointwise Conv01 2$67520LSTM0向左转0向下看0向前移动0图像特征0ResNet18(冻结)0当前观察0手套嵌入0平铺0$ = # 连接的策略和隐藏状态 &×(()* + ,)0()*×.×. ,/×.×.0,/×.×.0目标对象类0导航-梯度(仅训练)前向传递交互-梯度(训练和推断)01D 时间卷积0LSTM LSTM0图2.模型概述。我们的网络优化两个目标函数,1)自监督交互损失Lφint和2)导航损失Lnav。每个时间t的网络输入是当前位置的自我中心RGB图像和目标对象类的词嵌入。网络输出一个策略πθ(st)。在训练过程中,交互和导航梯度通过网络进行反向传播,并且自监督损失的参数在每个episode结束时使用导航梯度进行更新。在测试时,交互损失的参数保持不变,而网络的其余部分使用交互梯度进行更新。请注意,图中的绿色表示中间和最终输出。03.1. 任务定义0给定一个目标对象类,例如微波炉,我们的目标是仅使用视觉观察导航到该类对象的一个实例。形式上,我们考虑一组场景S = {S1,...,Sn}和目标对象类O ={o1,...,om}。一个任务τ∈T由场景S,目标对象类o∈O和初始位置p组成。因此,我们用元组τ =(S,o,p)表示每个任务τ。我们为训练任务Ttrain和测试任务Ttest考虑不相交的场景集合。我们将导航任务的试验称为一个episode。代理只能使用自我中心RGB图像和目标对象类(目标对象类以Glove嵌入[35]的形式给出)进行导航。在每个时间t,代理从动作集合A中选择一个动作a,直到代理发出终止动作。如果在一定步数内,代理在给定目标类的对象足够接近和可见时发出终止动作,则认为episode成功。如果在其他任何时间发出终止动作,则episode结束,代理失败。03.2. 学习0在讨论我们的自适应方法之前,我们先概述我们的基本模型,并讨论传统意义上的深度强化学习导航。我们将时间t时代理的自我中心RGB图像表示为st。给定st和目标对象类,网络(由θ参数化)返回一个动作分布,我们将其表示为πθ(st),和一个标量vθ(st)。分布πθ(st)被称为代理的策略,而vθ(st)是状态的值。最后,我们将π(a)θ(st)表示为0注意代理选择动作a的概率。我们使用传统的监督式演员-评论家导航损失,如[50,27]中所示,我们将其表示为Lnav。通过最小化Lnav,我们最大化一个奖励函数,该函数惩罚代理在采取步骤时,同时激励代理达到目标。损失函数是一个关于代理的策略、价值、动作和奖励的函数,在整个episode中都有效。网络架构如图2所示。我们使用在ImageNet上预训练的ResNet18[16]来提取给定图像的特征图。然后,我们获得一个由图像和目标信息组成的联合特征图,并进行逐点卷积。然后将输出展平,并作为输入提供给一个长短期记忆网络(LSTM)。在本文的剩余部分,我们将LSTM隐藏状态和代理的内部状态表示互换使用。在应用了额外的线性层之后,我们获得策略和价值。在图2中,我们没有显示我们在整个过程中使用的ReLU激活函数,也没有提及值vθ(st)。03.3. 学习如何学习0在视觉导航中,代理与环境进行交互有充分的机会学习和适应。例如,代理可能学习如何处理最初无法避免的障碍物。因此,我们提出了一种代理通过交互学习如何适应的方法。我们方法的基础是最近提出的基于梯度的元学习算法的工作。梯度元学习的背景。我们依赖于MAML算法详细介绍的元学习方法[13]。MAML算法优化了对新任务的快速适应。如果训练和测试任务的分布足够相似,那么使用MAML训练的网络应该能够快速适应新的测试任务。MAML假设在训练过程中我们可以访问一个大型的任务集Ttrain,其中每个任务τ∈Ttrain都有一个小的元训练数据集Dtrτ和元验证集Dvalτ。例如,在k-shot图像分类问题中,τ是一组图像类别,Dtrτ包含每个类别的k个示例。目标是在Dvalτ中为每个图像正确分配一个类别标签。测试任务τ∈Ttest由未见过的类别组成。MAML的训练目标由以下给出:which mirrors the MAML objective from Equation (1).However, we have replaced the small training set Dtrτ fromminθ�τ∈TtrainLnav (θ, Dnavτ )− α�∇θLint�θ, Dintτ�, ∇θLnav (θ, Dnavτ )�,(3)where ⟨·, ·⟩ denotes an inner product.We are thereforelearning to minimize the navigation loss while maximiz-ing the similarity between the gradients we obtain from theself-supervised interaction loss and the supervised naviga-tion loss. If the gradients we obtain from both losses aresimilar, then we are able to continue “training” during in-ference when we do not have access to Lnav. However, itmay be difficult to choose Lint which allows for similar gra-dients. This directly motivates learning the self-supervisedinteraction loss.3.4. Learning to Learn How to LearnWe propose to learn a self-supervised interaction objec-tive that is explicitly tailored to our task. Our goal is forthe agent to improve at navigation by minimizing this self-supervised loss in the current environment.During training, we both learn this objective and learnhow to learn using this objective. We are therefore “learn-ing to learn how to learn”. As input to this loss we usethe agent’s previous k internal state representations concate-nated with the agent’s policy.Formally, we consider the case where Lint is a neural net-work parameterized by φ, which we denote Lφint. Our train-ing objective then becomesminθ,φ�τ∈TtrainLnav�θ − α∇θLφint�θ, Dintτ�, Dnavτ�(4)and we freeze the parameters φ during inference. There isno explicit objective for the learned-loss. Instead, we sim-ply encourage that minimizing this loss allows the agent tonavigate effectively. This may occur if the gradients from67530如果训练和测试任务的分布足够相似,那么使用MAML训练的网络应该能够快速适应新的测试任务。MAML假设在训练过程中我们可以访问一个大型的任务集Ttrain,其中每个任务τ∈Ttrain都有一个小的元训练数据集Dtrτ和元验证集Dvalτ。例如,在k-shot图像分类问题中,τ是一组图像类别,Dtrτ包含每个类别的k个示例。目标是在Dvalτ中为每个图像正确分配一个类别标签。测试任务τ∈Ttest由未见过的类别组成。MAML的训练目标由以下给出:0minθ0τ∈TtrainL(θ−α�θL(θ, Dtrτ), Dtrτ, Dvalτ), (1)0其中损失L是一个数据集和网络参数θ的函数。此外,α是步长超参数,�表示微分算子(梯度)。其思想是学习参数θ,使其为快速适应测试任务提供良好的初始化。形式上,方程(1)在在Dtrτ上进行梯度步骤后,优化Dvalτ上的性能。在推理Dvalτ时,我们使用经过调整的参数θ−α�θL(θ,Dtrτ)。在实践中,可以使用多个SGD更新来计算经过调整的参数。导航的训练目标。我们的目标是使代理在与环境交互时不断学习。与MAML一样,我们使用SGD更新进行适应。这些SGD更新修改代理的策略网络,使代理能够适应场景。我们建议这些更新应该与Lint相关,我们称之为交互损失。最小化Lint应该有助于代理完成其导航任务,并且可以学习或手工制作。例如,手工制作的变体可能会惩罚代理访问相同位置两次。为了使代理在推理过程中能够访问Lint,我们使用自监督损失。因此,我们的目标是学习一个良好的初始化θ,使得代理在使用Lint进行几次梯度更新后能够有效地在环境中导航。为了清晰起见,我们首先在一个简化的设置中正式介绍我们的方法,在该设置中,我们允许对Lint进行单次SGD更新。对于导航任务τ,我们让Dintτ表示代理轨迹的前k步的动作、观察和内部状态表示(在第3.2节中定义)。此外,让Dnavτ表示代理轨迹的剩余部分的相同信息。我们的训练目标形式上给出如下:0minθ0τ∈TtrainLnav(θ−α�θLint(θ, Dintτ), Dintτ,Dnavτ), (2)0具有交互阶段的MAML。我们的目标直觉如下:首先我们与环境进行交互,然后我们对其进行调整。更具体地说,代理使用参数θ与场景进行交互。经过k步后,使用自监督损失对适应参数θ−α�θLint(θ,Dintτ)进行SGD更新。在领域自适应元学习中,使用两个单独的损失函数从一个领域适应到另一个领域[25,48]。[48]使用类似于方程(2)的目标进行一次性模仿观察人类。我们的方法不同之处在于我们通过自监督交互学习如何在同一领域中进行适应。与[25]一样,一阶泰勒展开为我们的训练目标提供了直觉。方程(2)通过以下方式近似:Algorithm 1 SAVN-Training(Ttrain, α, β1, β2, k)1: Randomly initialize θ, φ.2: while not converged do3:for mini-batch of tasks τi ∈ Ttrain do4:θi ← θ5:t ← 06:while termination action is not issued do7:Take action a sampled from πθi(st)8:t ← t + 19:if t is divisible by k then10:θi ← θi − α∇θiLφint�θi, D(t,k)τ�11:θ ← θ − β1�i ∇θLnav(θi, Dτ)12:φ ← φ − β2�i ∇φLnav(θi, Dτ)13: return θ, φboth losses are similar. In this sense we are training theself-supervised loss to imitate the supervised Lnav loss.As in [48], we use one dimensional temporal convolu-tions for the architecture of our learned loss. We use twolayers, the first with 10×1 filters and the next with 1×1. Asinput we concatenate the past k hidden states of the LSTMand the previous k policies. To obtain the scalar objectivewe take the ℓ2 norm of the output. Though we omit the ℓ2norm, we illustrate our interaction loss in Figure 2.Hand Crafted Interaction Objectives. We also experi-ment with two variations of simple hand crafted interactionlosses which can be used as an alternative to the learnedloss. The first is a diversity loss Ldivint which encourages theagent to take varied actions. If the agent does happen toreach the same state multiple times it should definitely notrepeat the action it previously took. Accordingly,Ldivint�θ, Dintτ�=�i
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功