没有合适的资源?快使用搜索试试~ 我知道了~
1)的方式具身智能的好奇表征学习杜一伦MIT庄干MIT-IBM Watson AI实验室菲利普·伊索拉麻省理工学院摘要近年来,自监督表示学习取得了通过颠覆对监督标签的需求,这种方法能够利用存在于互联网和摄影数据集中的大量未标记图像但要制造真正的智能体,好奇心驱动的探索学习视觉表示强化学习模仿学习图像识别我们必须构建表征学习算法不仅可以从数据集学习,还可以从环境中学习。自然环境中的代理通常不会被馈送策划数据。相反,它必须探索其环境以获取它将从中学习的数据。我们提出了一个框架,好奇表示学习(CRL),共同学习强化学习策略和视觉表示模型。该策略被训练以最大化表示学习器的错误,并且在这样做的过程中被激励去探索其环境。与此同时,随着政策提供越来越难的数据来学习,学习的代表性变得越来越强。我们学习到的表示能够很好地转移到下游导航任务,在完全不使用任何监督的情况下,表现得比ImageNet预训练更好或相当此外,尽管在模拟中进行了训练,但我们学习的表示可以在真实图像上获得可解释的结果代码可在https://yilundu.github.io/crl/上获得。1. 介绍与生物制剂类似,自监督代理在没有明确监督标签的情况下学习表示[38]。令人印象深刻的是,这些方法可以超越基于监督学习的方法[12]。然而,最成功的方法也偏离了生物学习,因为它们依赖于一个精心策划的观察数据集来学习。与此形成鲜明对比的是,生物视觉中的学习涉及对环境的积极物理探索。婴儿没有被赋予现有的视觉经验,而是必须探索以从周围环境中获得这种经验通过玩玩具,通过推、抓、吸或戳等动作,婴儿能够获得质地、材料和物理的经验[19]。好奇表征学习(CRL)图1:当我们置身于一个新的世界,没有明确的任务或目标,我们仍然能够积极探索并与周围环境互动。我们的框架,CRL,使代理学习视觉表示从互动没有任何监督,只使用好奇心驱动的探索,代理寻求观察,引起高错误的表示模型下。所得到的表示使智能体能够在下游强化和模仿学习任务中表现良好,并且进一步能够转移到真实图像的识别。通过爬进新房间,幼儿获得布局和几何的经验这种设置增加了学习视觉表示的额外挑战。算法现在必须有选择地探索和确定环境的哪个部分将允许视觉体验的最有用的增加。此外,算法还必须适应恒定的域移位;在任何时间点,唯一观察到的视觉体验是特定房间的视觉体验,或者是与之交互的特定对象的视觉体验。给定一个交互式环境,没有先前的数据或任务,我们如何获得一个良好的视觉表示?这是一个具有挑战性的问题,需要代理回答几个子问题。特别是,我们如何学习有效地探索和感知周围的世界?而且,我们如何将每种不同的体验整合在一起,以获得尽可能好的表现?在本文中,我们提出了一个统一的框架来解决这些任务。一种方法是在交互式环境中训练基于视觉的强化学习代理直观地说,当智能体学会在周围环境中交互时,其底层视觉系统也必须学会理解周围环境。然而,一个核心困难是强化学习所需的噪声和稀疏监督1040810409提供,抑制强视觉系统的形成因此,一种替代方法是利用自监督表示学习技术来学习体现环境中的表示为了收集数据以学习表示,可以使用单独的探索算法。然而,这种方法带来了额外的挑战.给定一个新的具身环境,我们如何学习有效地我们如何不断地收集图像,使其在视觉上对我们的算法保持突出?为了解决这些问题,我们提出了一个统一的框架,好奇表示学习(CRL图1)。我们的主要思想是通过训练强化学习(RL)来最大化等于自监督表示学习模型的损失的奖励,从而自动学习给定自监督表示学习技术然后,我们通过最小化由探索策略获得的图像的损失来训练我们的自监督模型。通过以这种方式定义我们的探索策略的奖励,它可以作为视觉新颖性的自然衡量标准,因为只有在不熟悉的图像上损失才会很大。因此,我们的政策学会探索周围的环境,并获得与过去所看到的图像在视觉上不同的图像。同时,我们的自监督模型受益于不同的图像,特别是获得保持视觉突出的模型。给定一个具体的视觉表示,我们进一步研究如何将其用于下游的交互式任务。通过强化学习或行为克隆的交互式学习的特征在于稀疏和噪声反馈。来自个体动作的反馈跨时间延迟并且取决于任务完成,其中在任务失败的情况下反馈包含很少的信息,并且当其他动作影响任务完成时给出冲突的结果这样的噪声可以快速地破坏学习的视觉表示。我们发现,为了实现良好的下游交互传输,在传输之前冻结视觉网络权重是至关重要的我们观察到,我们的方法可以显着提高语义导航性能的RL政策和视觉语言导航使用模仿学习。我们在本文中的贡献是三方面的。首先,我们介绍CRL作为一种方法,体现表示学习,其中的表示学习模型发挥极大极小游戏的探索政策。其次,我们表明,学习的视觉表征可以帮助在各种具体的任务,它是至关重要的冻结表示,使良好的性能。最后,我们表明,我们的表示,而完全在模拟训练,可以获得真实照片上的可解释的结果。2. 相关工作自我监督视觉表征学习:非监督表示学习已经引起了越来越多的关注近年来[6,18,23,50]。非监督学习的方法包括对图像进行着色[50],预测图像旋转[18]和几何变换[15],解决拼图[27]和对抗性推理[13]。最近,基于最大化互信息的方法已经取得了成功[4,10,20,22,23,28,43]。 虽然以前的方法已经考虑在静态数据集中学习视觉表示,我们认为在交互式环境中,代理必须积极地获取数据,它是训练获得- ING视觉表示的独特问题。我们提供了一个框架,用于学习不同的下游交互式任务的任务不可知表示。基于好奇心的学习:我们的方法也与好奇心的现有工作有关。好奇心在过去几年中也被广泛研究[5,8,14,24,29,34,35],作为探索的激励以及实现紧急复杂行为的手段最近的工作已经将好奇心制定为依赖于学习模型的奖励,例如逆动力学模型[29],VAE中的学习特征[7]以及来自随机网络的特征[8]。 在这些工作,往往依赖于启发式的设计选择,以选择每个任务的奖励相比,我们构建好奇心作为一个通用的表示学习算法和强化学习策略之间的极大极小博弈。然后,该公式允许我们将现有的表示学习算法替换为基于好奇心的公式,使我们能够结合表示学习和基于好奇心的探索的进步具体表征学习:平托等人[30]机器人中物理交互作用的研究表示。与我们的工作相反,交互是手动设计的。Agrawal等[1]研究了从机器人中戳出的紧急物理表示。然而,交互是随机生成的并且仅限于戳。总的来说,我们的工作重点是学习互动和在交互式环境中的表示,并进一步侧重于重用它们的下游应用程序。RL中的表示学习:最近,使用无监督/自监督表示学习方法来提高RL中的样本效率和/或性能已经越来越受欢迎[2,25,37,39,40]。与专注于合成游戏环境的先前工作相比,我们研究了真实感3D环境中的表示学习[16,33,48]。也许与我们的工作最相关的是Ye [49]的工作,他们表明使用辅助任务可以改善Gibson环境中的PointGoal导航结果[47]。与他们不同的是,我们主要研究我们是否可以以自我监督的方式学习一个通用的和任务无关的表示,可以重用于下游的交互式任务。与我们的工作同时,Ramakrishnanet al. [31]还研究了通过环境预测编码学习环境级表示,并展示了10410不--不LKΣΣKNΣNexp(sim(z~1,z~2)/τ)ΣΣ对于一组N个图像,Xkk=1…N,我们采样2N不同的增强,并应用两个单独的增强。以获得增强图像对{x~1,x~2}k=1…N. 对于给定图像X,我们获得潜在的通过应用z=Normalize(gψ(M(x)表示z,其中我们L2归一化投影头的输出。然后,我们利用InfoNCE损失[28]训练我们的对比损失,其中包括N1 2L对比度=−1Σlogexp(sim(z~i,z~i)/τ)i=1j,k=1K(一)图2:CRL(好奇表示学习)概述。我们联合训练RL策略和视觉表示学习模型,以在交互式环境中学习视觉表示。强化学习策略和视觉表征学习模型参与了一个最小-最大博弈,其中策略最大化奖励,该奖励被设置为表征学习模型其中sim(zi,zi)对应于潜伏期zi和zi之间的点积。我们利用τ=0。07并定义为由水平翻转、随机调整大小的裁剪和颜色饱和度,使用[10]中的默认参数。3.2. 从内在动机学习表征当将表示学习应用于静态数据集时,训练模型M以最小化表示学习rep目标(其中目标等式1对应于对比表征学习)对观察到的图像x,其中图像是从数据分布p_data中绘制的自己的损失。对于表示学习模型,我们使用对比学习方法SimCLR [10]。在图中,我们仅示出了第一帧的完整对比设置,但请注意,它minϕExp数据[Lre p(M,x)].(二)应用于每个帧。下游视觉探索任务。然而,目前还不清楚这些学习的表示是否可以帮助更具有挑战性的导航任务。相比之下,在我们的交互式设置中,数据中的图像现在必须由代理主动选择分发。我们利用强化学习策略πθ来表示我们的代理,其中策略被训练以最大化在每个时间步长t3. 好奇表征学习我们的目标是研究如何获得一个通用的,任务不变的表示下游的互动学习在一个具体的环境中,没有任务或外在的奖励Maxθ角Exπθ不t=0 rtΣ.(三)规范.我们提出了好奇表征学习(CRL),学习视觉表征的统一框架。我们首先回顾了一些背景知识的对比表示学习框架,然后描述CRL,它扩展了任何通用的表示学习目标的交互式环境。然后,我们描述了我们的整体策略和模型优化过程,并评估协议,并在附录中提供伪代码在我们的设置中,我们没有访问底层任务的或者奖励,所以我们需要隐式地定义奖励。在CRL中,我们注意到,我们可以直接使用公式2来定义每个时间步长的奖励函数,以训练我们的强化学习策略。具体来说,我们使用表征学习标准的损失作为我们的奖励,因此我们的强化学习目标现在是:3.1. 对比表征学习为了学习表征,我们利用对比学习最大Eθ角xπθ不t=0Lrep(M,x)Σ.(四)[4、10、20、28、43、46]。在[10]之后,我们的对比学习设置由表示学习模型M和2层MLP投影头gψ以及一系列数据组成增强T.然后,这个目标鼓励我们的策略找到M在其上产生高损失的图像,从而为我们的策略提供自然的激励,以获得有趣的数据来训练我们的表示学习模式的1一个2政策✓✓强化学习(最大化)R1模型L重复1对比损失R2L重复2对比损失R3L重复3对比损失M$M$M$M$M$表示学习(最小化)(负正对J10411LLL--LL不×个ΣΣ此外,请注意,虽然等式2使用M最小化rep,但等式4使用M最大化rep。rep使用πθ,导致整体最小-最大博弈目标具体化的表示,然后我们的协议验证的实用性学习具体化的表示下游的任务。代表性预培训。 要预训练表示,最大最小Eθ xπθ不t=0Lrep(M,x)Σ.(五)我们使用Matterport3D数据集[9]在Habitat模拟器上训练CRL进行1000万次交互,保留Gibson数据集[47]用于实验验证。我们训练探员这个最小最大的游戏可以被看作是一个协同的方式改进策略和表示学习模型。这一新目标鼓励我们的策略πθ学习复杂的导航和感知模式,以便可以有效地获得图像以使表示学习模型M惊讶。同时,这也允许我们的表示学习模型学习抵抗从策略πθ中找到的样本的良好表示。我们的CRL的制定类似于以前的工作intrin-in-好奇心和好奇心[29]这些论文鼓励强化学习代理通过给予代理奖励等于一些预测损失来探索。通过将表示学习损失解释为预测损失,CRL因此可以被视为好奇心模型。然而,虽然过去的不同论文已经提出了预测误差的单独目标,例如随机特征[8]和逆动力学[29],但CRL提供了一个通用框架,通过利用不同的表示学习模型来进一步构建不同的好奇心目标,自动化传统的手工设计过程。此外,CRL允许我们将现有的好奇心目标重新解释为不同的方法,以获得对世界的潜在表示。3.3. 模型与策略优化当训练我们的策略时,我们发现直接按照等式1定义我们的奖励会导致失败的情况,其中可以通过让代理站在空间中来最大化对比度损失(因为所有相同的图像观察都最大化了对比度的分母)。为了解决这个问题,我们将策略的奖励定义为仅是对比度的分子,rt=sim(x1,x2)。我们进一步将一个常数1加到所有奖励,以确保在每个观察到的图像处的奖励是非阴性此外,在[7]之后,我们通过过去观察到的奖励的标准差来规范化奖励,以确保奖励幅度不会发生显着变化。给定计算的奖励rγ,我们使用邻近策略优化(PPO)[36],以训练我们的策略并优化目标L(θ)=E[min(ct(θ)At,clip(ct(θ),1-ε,1+ε)At],其中裁剪比ct=πθ(at|(一)和先进的。πθold(at|t)使用值函数V(st)来计算时间A t。我们使用从PPO收集的小批量数据来优化π θ和M。伪代码请参见附录3.4. 实验方案在这里,我们描述的协议用于我们的实证实验。首先,我们讨论我们的学习协议16个环境并行。我们的观察空间仅由256个256个RGB观察值组成,而我们的动作空间由向前移动0.25米、左转30◦、右转30◦、向上看10◦和向下看10 ◦的动作组成。10◦,最大发作长度为500步。下游评价。 我们评估预训练的代表性-语义导航、视觉语言导航和真实图像理解的下游任务上的语句。对于语义导航,我们使用Gibson数据集上的Habitat模拟器和使用Habitat Matterport3D数据集的对象导航(由于Gibson中缺乏对象注释)来对于视觉语言导航,我们在Matterport3D数据集上利用模仿学习代理,并在真实图像上利用Places数据集。我们在Habitat[33]中使用两者的默认环境设置。我们使用ResNet50的最后一个最终平均池化层的特征,在不同的任务中使用相同的表示。为了实现有效的交互式下游传输,我们发现,由于交互式任务的梯度的噪声性质,冻结视觉表示至关重要这样的技术也被注意到在少量学习中是有用的[44]。模型架构。对于表示学习模型M和策略πθ,我们利用ResNet50[21]图像编码器。为了实现稳定的强化学习,我们替换使用组归一化的批归一化层。为了训练M,我们使用2层投影头,投影维度为128维。4. 实验我们定量和定性地表明,CRL可以学习通用的,任务不可知的视觉表示的下游交互任务。我们在4.1节讨论了我们的实验装置。接下来我们在4.2节中分析CRL的交互行为。使用一个统一的预训练模型,我们可以在4.3节中提高RL的语义导航性能,在4.4节中使用模仿学习提高视觉语言导航性能,并在4.5节中进一步实现对真实图像的识别。最后,我们将讨论如何在附录中的真实生物环境中获得表征4.1. 实验装置为了预训练表示,我们使用Matterport3D数据集在Habitat模拟器上训练了不同的模型1010412×个8060402000 2 4 6 8步骤(M)图3:在不同强化学习代理的不同环境中探索的平均瓷砖数量的图。为了收集具有高对比度损失的图像,CRL有效地探索周围环境,优于RND和PointNav代理,并且执行类似于明确鼓励最大化瓦片探索的学习5432基于学习计数的探索方法[42]。电子游戏方法。 与我们的工作同时,最近的工作探索了静态视频游戏环境中强化学习的学习状态表示。这些作品假定存在静态收集的经验数据集,并且被定制为非现实视频游戏设置。我们与一种这样的最新方法进行比较,增强时间对比(ATC)[40],其中我们利用CRL的探索策略来探索周围的环境,并利用ATC来学习收集的图像上的表示好奇心目标。在CRL下,我们可以将其他现有的基于好奇心的强化学习方法解释为表征学习目标。因此,我们与一个这样的目标进行比较,即随机网络蒸馏(RND)[8],它训练模型来回归冻结网络的表示。我们使用RND来激励探索,以及学习场景的表示。基于策略的表示。获得表示的替代方法是利用强化学习策略来学习环境的表示。因此,我们比较与表示学习的PointNav政策训练的Matterport训练分裂。ImageNet预训练我们还可以使用现有的大规模视觉数据集来获得我们的模型。因此,我们提供0 2 4 6 8 10步骤(M)图4:使用不同探索方法的对比损失随时间的图。通过将图像收集过程视为对抗性过程,CRL可以获取不同的图像,从而导致更大的对比度损失。一 个 比 较 研 究 , 我 们 使 用 在 ImageNet 上 预 训 练 的ResNet50初始化我们的模型。所有模型都在Pytorch中使用PPO和Adam优化器训练了1000万帧。补充中提供了表示预训练和下游评估的超参数4.2. 视觉探索我们首先评估每种方法积极探索周围环境的能力。我们报告的平均数为0。010. 01在给定场景中探索的图块(如通过模拟器中的x,y位置测量的随机探索(LPIPS多样性0.708)学习计数(LPIPS多样性0.717)CRL(LPIPS多样性0.728)图3中的训练。我们发现CRL学习探索得很好,表现优于随机策略和我们的好奇心图5:在4个不同环境上利用随机代理、学习计数代理或CRL进行对比训练所获取的数据的图示。由随机代理收集的数据表现出有限的多样性,而由学习计数收集的数据是多样的,但在视觉上不是有趣的(由黑色背景指示)。CRL收集的数据是多种多样的。百万互动除了CRL之外,我们考虑以下一组基线方法来获得表示:勘探战略。在CRL中,我们依靠内在动机的策略来探索周围的世界,以训练我们的对比模型。我们进一步比较使用其他ap-proaches从周围环境中收集数据。我们考虑要么使用随机动作来探索,要么使用基线(RND )以及被 明确训练以在 环境中导航的PointNav策略我们发现CRL在探索方面与基于学习计数的探索方法类似,但注意,明确鼓励基于学习计数的探索周围环境,使用学习的散列图保持探索的瓦片的计数,而CRL鼓励策略收集用于表示学习的各种数据。接下来,我们评估CRL收集不同数据以训练我们的对比模型的能力我们比较利用随机探索,基于学习计数的方法或CRL来获取数据以训练对比模型。在图4中,我们绘制了通过利用每种方法收集的数据获得的对比损失曲线。我们发现由于CRL是经过训练的学习计数随机CRLPointNavRND学习计数随机CRL损失#瓷砖10413表1:体现导航与学习的交互式表示的比较的完整结果平均跨越5个单独的种子(括号中为标准误差策略在ImageNav和ObjectNav任务的测试集上进行评估,并在每个环境中针对1000万帧进行训练我们报告了3种不同种子的平均值,并报告了补充剂中单个运行的结果。我们考虑从头开始训练RL代理,利用现有的表示学习方法(ATC [40],RND [8]和对比学习)或利用监督权重(PointNav Policy,ImageNet Initialization)。从预训练的权重初始化的RL代理具有冻结的表示,而从头开始的RL代理中的所有权重都被训练。环境类别方法SPL↑软SPL↑成功↑目标距离↓从头0.0207(0.0012)0.173(0.007)0.039(0.003)4.85(0.04)公司简介随机探索0.0285(0.0014)0.195(0.010)0.054(0.003)4.68(0.04)对比学习学习计数[42]0.0277(0.0030)0.183(0.011)0.057(0.003)4.54(0.08)CRL(我们的)0.0324(0.0018)0.219(0.005)0.058(0.002)4.55(0.04)监督PointNav政策0.0254(0.0021)0.187(0.020)0.048(0.002)4.66(0.03)ImageNet初始化0.0193(0.0042)0.143(0.022)0.050(0.007)4.61(0.01)从头0.0010(0.0006)0.037(0.008)0.003(0.002)7.94(0.44)产品介绍随机探索0.0042(0.0007)0.076(0.010)0.011(0.002)7.39(0.19)对比学习学习计数[42]0.0079(0.0013)0.110(0.008)0.026(0.004)7.49(0.17)CRL(我们的)0.0144(0.0046)0.119(0.007)0.040(0.019)7.33(0.13)监督PointNav政策0.0390(0.0011)0.094(0.005)0.007(0.002)7.29(0.08)ImageNet初始化0.0064(0.0021)0.062(0.004)0.010(0.003)7.91(0.10)0.400.350.300.250.200.150.100.050.000 2 4 6 8 10步骤(M)图6:在强化学习中,与其他视觉表示学习方法相比,在CRL的训练步骤上训练SoftSPL的图。CRL执行显着优于从头开始的初始化,并优于Gibson中ImageNav上的所有其他方法。为了对抗性地生成用于对比模型的数据,在训练的后期阶段,总体对比损失显著更高我们进一步可视化从图5中的不同方法收集的图像数据批次,观察通过CRL收集的数据中的高度视觉多样性我们利用LPIPS多样性度量[51]定量观察到更大的多样性,详细信息见第?.4.3. 使用RL进行接下来,我们将研究如何利用第4.1节中的每个学习到的表示来学习有效的强化学习策略从头CRLRNDPointnav政策ATCImageNet initSoftSPL其他表示RND [8]0.0158(0.0027)0.124(0.013)0.029(0.004)5.29(0.08)学习算法ATC [40]0.0268(0.0029)0.172(0.013)0.059(0.004)4.63(0.04)其他表示RND [8]0.0000(0.0000)0.007(0.001)0.000(0.000)7.96(0.13)学习算法ATC [40]0.0020(0.0014)0.058(0.013)0.003(0.002)8.32(0.27)10414×个0.300.250.200.150.100.050.000 2 4 6 8 10步骤(M)图7:在强化学习中,与其他视觉表示学习方法相比,SoftSPL在CRL的训练步骤上的图,跨5个单独的种子。CRL的性能明显优于从头开始的初始化,并且优于Matterport3D中ObjectNav上的所有其他方法用于在数据高效设置中进行语义导航Setup. 我们使用Gibson环境中的标准ImageNav任务和Habi- tat [33]中包含的Matterport 3D环境中的Object-Nav任务来由于我们的目标是验证学习的视觉表示的有效性,因此我们仅使用256 256 RGB输入来训练强化学习因此,该设置比[33]中通常评估的设置更具挑战性,因为我们假设不存在通常给出的深度或机器人定位信息。从头CRLRNDPointnav政策ATCImageNet initSoftSPL104150.160.140.120.100.080.060.040.020.000 1 2 3 4 5步骤(M)图8:当CRL的视觉表示被冻结或未冻结时,ObjectNav上强化学习代理的SoftSPL图。由于噪声梯度更新,当CRL的权重不被冻结时,性能显著恶化。指标. 我们报告的视觉导航的标准指标。我们报告了任务成功,成功加权路径长度(SPL)[3],软SPL(成功加权路径长度[11],但具有较软的成功标准)和距离目标。我们使用[33]中定义的默认标准。基线。我们将学习策略与第4.1节中描述的每种方法的表示进行比较。我们考虑利用通过不同的探索策略(随机,学习计数)生成的表示,使用视频游戏方法(ATC),改变由RL策略(PointNav)提取的潜在好奇心目标(RND),以及从ImageNet初始化的权重。在每个设置中,我们冻结卷积权重,我们发现这对良好的性能至关重要我们进一步比较了完全从头开始(从头开始)训练的端到端我们发现冻结从头开始策略的权重会显著降低性能(下降超过0.07 SoftSPL)。结果我们在3个不同的随机种子上运行每个单独的表示学习方法,表1中报告了每个指标的平均性能。在[3]之后,我们建议主要关注SPL和SoftSPL作为性能指标。在ImageNav和ObjectNav上,我们发现CRL的性能最好。总的来说,我们发现,通过对比学习学习的表示导致最好的强化学习性能。随后,我们发现PointNav权重或ATC的权重比从头开始训练策略的性能更好。令人惊讶的是,我们发现利用ImageNet似乎并没有显着提高强化学习的性能。我们在图6中跨ImageNav和图7中跨ObjectNav可视化训练SoftSPL。与我们报告的指标类似,我们发现CRL导致SoftSPL的早期增长最高在此之后,我们发现,与随机初始化的策略相比,使用来自训练的PointNav策略或ImageNet预训练策略的我们注意到,虽然我们的结果值很低,但它们0.50.40.30.20.10.00 2 4 6 8 10步骤(M)图9:当随机网络的卷积权重被冻结或未被冻结时,强化学习代理在Point- Nav上的SPL图。令人惊讶的是,我们发现在PointNav中,每个设置之间没有差异(我们在ObjectNav和ImageNav任务中观察到很大的我们的研究结果表明,视觉表示可能是不够有效的PointNav任务,以显示在有限的数据制度,我们研究的性能增益与2020年人居导航挑战*中发现的一致。此外,我们注意到,我们研究了两个语义导航任务的更难版本分离渐变的重要性。我们在图8中进一步消除了冻结表示的影响。我们考虑在对象导航任务上训练强化学习策略,有或没有冻结强化学习策略的权重。我们发现,在不冻结卷积网络权重的情况下,SoftSPL的增长速度明显较慢。表征学习对什么没有帮助?Habitat [33]中最常见的评估任务是使用指南针的Point- Nav导航任务,其中指示具体策略导航到特定位置偏移。令人惊讶的是,我们发现学习表示在PointNav中并不重要。特别地,在图9中,我们从头开始初始化两个单独的策略,并冻结一个策略的卷积编码器的权重。在这两种设置中,我们发现PointNav SPL的整体性能是相同的。我们假设在PointNav中,在我们的数据高效实验设置中,视觉对于获得良好的性能并不重要,因为策略被赋予了指南针,但请注意,在大规模RL设置中[45]显示视觉确实有助于导航。4.4. 基于模仿学习的教学导航接下来,我们将研究如何利用4.1节中的不同表示学习 方 法 , 通 过 模 仿 学 习 来 帮 助 视 觉 语 言 导 航(VLN)。Setup. 我们使用[26]中介绍的视觉语言教学基准来评估模仿学习。对于sim-* 网址:https://aihabitat.org/challenge/2020/无分离分离软SPL无分离分离SPL10416表2:在看不见的验证室中评价后,每个预培训代表在指令上的性能比较表3:当转移到Places数据集时,Habitat中预训练的体现表示的比较。学习目标表示精度公司简介4.3115.27--ImageNet预训练--54.5985.15为了简单起见,我们利用[26]中的基本模型和损失设置,对应于训练具有或不具有Dagger的Seq2Seq代理[41][32]。我们使用作者指标. 我们使用第4.3节中定义的同一组指标。我们在[26]中报告了与不可见房间对应的值-不可见分割的SPL、成功和目标距离,并在附录中报告了值-可见设置的结果。基线。 我们比较了从CRL查询图像随机最近邻查询图像CRL最近邻使用ATC或RND学习的人我们进一步-从CRL中削减表示,以利用来自监督ImageNet模型的权重。结果我们在表2中比较了应用于模仿学习时的每个学习表示。在行为克隆和匕首设置,我们发现,利用CRL获得更好的性能比利用随机,RND,或ATC权重。我们进一步发现CRL获得了与Imagenet监督模型相当的性能。4.5. 转移到真实图像识别最后,我们调查在多大程度上我们学到的embodied表示,尽管完全是在模拟学习,实际上可以转移到真正的摄影场景。Setup. 为了评估如何表示转移到现实的图像,我们利用的地方数据集。 我们在Places中选择了59个类别的子集,这些类别对应于室内房间场景(附录中有选定的 类 别 在 [50] 之 后 , 我 们 然 后 通 过 对 我 们 训 练 的ResNet50模型的最终平均合并特征微调线性分类器来基线。我们与4.4节中的同一组基线进行比较。对于学习RL策略和模型的方法,我们评估两者的表示。为了评 估 RL 策 略 的 表 示 学 习 , 我 们 还 将 从 HabitatMatterport3D数据集上训练的PointNav策略中学习到的表示进行了比较。结果我们在表3中报告了来自线性微调的定量结果。总的来说,我们发现CRL学习最好地转移到真实图像的表示,优于其他方法。在我们剩下的方法中,我们观察到图10:在Places中房间场景上CRL和随机网络的表示空间最近邻居的比较说明ATC学习第二好的表示。我们进一步发现,图像编码器的政策学习不好的representations,不转移到真实的图像,与视觉编码器的CRL政策学习的最佳表示。虽然我们的结果比ImageNet监督模型的结果更差,但我们强调,这在我们的任务中仍然具有很强的性能,因为我们的方法完全在模拟中训练,没有任何监督。定性地,我们通过在学习的表示空间中找到图10中的Places数据集中不同图像的最近邻居来可视化CRL的表示。与随机网络相比,我们找到了更多视觉上相似的邻居。5. 结论在本文中,我们提出了一个通用的框架,学习任务无关的视觉表征体现环境。我们学习的表示使有希望的下游语义和语言引导的导航任务的转移,并进一步可以转移到真实照片的视觉识别。我们希望我们提出的框架能够激发未来的工作,以学习更好的任务不可知表示并转移到更复杂的具体任务[17]。致谢。我们感谢MIT-IBM对这个项目的支持。 YilunDu由NSF研究生研究奖学金资助。 我们感谢DhruvBatra对手稿提出了有益的评论设置方法SPL↑成功↑目标 距离↓从头0.1380.1529.17RND [8]0.1410.1499.12行为克隆ATC [40]0.1470.1569.06CRL(我们的)0.1570.1698.77ImageNet0.1520.1648.91从头0.1920.2068.32RND [8]0.1870.2008.23匕首ATC [40]0.1920.2057.99CRL(我们的)0.1990.2188.21ImageNet0.2060.2228.07策略准确性Top 1 Top 5型号精度Top 1Top 5随机初始化--9.2227.59RND2.6110.135.9818.03ATC--14.8340.61CRL(我们的)4.6818.3221.2248.7810417引用[1] Pulkit Agrawal 、 Ashvin Nair 、 Pieter Abbeel 、Jitendra Malik和Sergey Levine。学习戳戳:直观物理学的经验学习。在NIPS,2016年。二个[2] Ankesh Anand , Evan Racah , Sherjil Ozair ,Yoshua Bengio,M a rc-Al e xandreC ot e´,andRD ev onHjelm.Atari中的无监督状态表示学习,2020。2[3] Peter Anderson , Angel Chang , Devendra SinghChap-lot,Alexey Dosovitskiy,Saurabh Gupta,VladlenKoltun,Jana Kosecka,Jitendra Malik,RoozbehMot- taghi,Manolis Savva,and Amir R.扎米尔关于嵌入式导航代理的评估,2018年。七个[4] Philip Bachman , R Devon Hjelm , and WilliamBuch-Walter. 通过最大化跨视图的互信息来学习表示神经信息处理系统的进展,第15509-15519页,2019年二、三[5] MarcBellemare 、 SriramSrinivasan 、 GeorgOstrovski 、 Tom Schaul 、 David Saxton 和 RemiMunos。将基于计数的探索和内在动机相统一。神经信息处理系统进展,第1471-1479页,2016年。二个[6] Yoshua Bengio Aaron Courville和Pascal Vincent表 征 学 习 : 回 顾 与 展 望 。 IEEE TPAMI , 35(8):1798-1828,2013. 二个[7] Yuri Burda,Harri Edwards,Deepak Pathak,AmosStorkey,Trevor Darrell,and Alexei A Efros.好奇心驱动学习的大规模研究arXiv预印本arXiv:1808.04355,2018。二、四[8] 尤里·布尔达,哈里森·爱德华兹,阿莫斯·斯托奇,还有奥列格·克里莫夫通过随机网络蒸馏进行探索arXiv预印本arXiv:1810.12894,2018。二四五六、八[9] 张安琪、戴安琪、托马斯·芬克豪瑟、马雪杰·哈尔伯、马蒂亚斯·尼斯纳、马诺利斯·萨瓦、宋淑然、曾安迪、张茵达。Matter- port3d:从室内环境 中 的 rgb-d 数 据 学 习 。 arXiv 预 印 本 arXiv :1709.06158,2017。四个[10] TingChen , SimonKornblith , MohammadNorouzi,and杰弗里·辛顿视觉表征对比学习的一个简单框架。arXiv预印本arXiv:2002.05709,2020。二、三[11] Samyak Datta Oleksandr Maksymets Judy HoffmanStefan Lee Dhruv Batra和Devi Parikh整合自我为中心的定位更现实的点目标导航代理。arXiv预印本arXiv:2009.03231,2020。七个[12] 雅各布·德夫林,张明伟,肯顿·李,还有克里斯蒂娜·图坦诺娃Bert:用于语言理解的深度双 向 转 换 器 的 预 训 练 arXiv 预 印 本 arXiv :1810.04805,2018。一个[13] 文森特·杜穆兰 伊斯梅尔·贝尔加齐 本·普尔10418OlivierMastropietro , AlexLamb , MartinArjovsky 和 Aaron Courville 。 逆 向 学 习 推 理 。arXiv预印本arXiv:1606.00704,2016。二个[14] Chuang Gan,Xiaoyu Chen,Phillip Isola,AntonioTor-ralba和Joshua B Tenenbaum。噪声代理:通过预测听觉事件进行自我监督探索。arXiv预印本arXiv:2007.13729,2020。二个[15] 庄干、伯庆公、刘昆、郝苏、和列奥尼达斯·吉巴斯。用于自监督视频表示学习的几何引导卷积神经网络。在CVPR中,第5589-5597页,2018年。二个[16] Chuang Gan,Jeremy Schwartz,Seth Alter,MartinSchrimpf,James Traer,Julian De Freitas,JonasKu- bilius,Abhishek Bhandwaldar,Nick Haber,Megumi Sano,et al.三界:交互式多模态物理仿真平台。arXiv预印本arXiv:2007.04954,2020。二个[17] Chuang Gan,Siyuan Zhou,Jeremy Schwartz,SethAl-ter , Abhishek Bhandwaldar , Dan Gutfreu
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功