基于源任务的统一模块化迁移学习模型的视觉导航

116 浏览量更新于2023-10-25 收藏 937KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17031零经验要求：用于语义视觉导航的SanthoshK.Ramakrishnan1，2Kristen Grauman1，21德克萨斯大学奥斯汀分校2Meta AI网址：ziadlhlh@gmail.com，srama@cs.utexas.edu，网址：www.example.com，grauman@cs.utexas.edu摘要在视觉导航的强化学习中，通常会为每个新任务开发一个模型，并在3D环境中从头开始训练该模型。然而，这个过程是昂贵的;大量的相互作用需要模型很好地推广。此外，当任务类型或目标模态发生变化时，我们提出了一个统一的方法，使用一种新的模块化迁移学习模型的视觉导航。我们的模型可以有效地利用其来自一个源任务的经验，并将其应用于多个目标任务（例如，ObjectNav、Room-Nav、ViewNav）与各种目标模态（例如，图像、草图、音频、标签）。此外，我们的模型使零射击经验学习，从而它可以解决目标任务，而无需接收任何特定于任务的交互式训练。我们在多个真实感数据集和具有挑战性的任务上的实验表明，我们的方法学习速度更快，泛化能力更好，并且比 SoTA 模型表现更好。项目页面：https://vision.cs。utexas.edu/projects/zsel/1. 介绍在视觉导航中，智能体必须在不熟悉的环境中智能地移动以达到目标，使用其以自我为中心的相机来避开障碍物并决定下一步去哪里。作为人工智能的基础研究问题，视觉导航有许多潜在的应用-例如家庭或工作场所的服务机器人，移动搜索和救援机器人，视觉障碍者的辅助技术，以及帮助人们导航或寻找物体的增强现实系统计算机视觉的最新研究从许多不同的方面探索视觉导航。在PointNav中，代理被要求前往未映射环境中的特定位置（例如，（x，y））[6，56，57]。在ObjectNav中，代理必须通过名称（例如，去最近的电视台寻找：寻找：盆栽即插即用模块化迁移学习滴水客厅图1.我们新的模块化迁移学习方法用于语义视觉导航，通过查找环境中随机采样的图像视图来学习通用语义搜索策略（顶部然后，利用这种经验来搜索以前看不见的目标和搜索任务类型（底部）。我们的方法使零射击经验学习（即，在不接收任何新体验的情况下执行目标任务），并且它使用更少的特定于目标的交互来更快地调整其策略。电话）[6，9]。在RoomNav中，代理必须找到一个房间（例如，去厨房（49，56，67）。在AudioNav中，代理必须找到一个探测目标（例如，电话铃声（16，28）在ImageNav中，代理必须前往拍摄给定照片的地方[14，55，75]。每个案例都向代理人提出了一个不同的目标。因此，研究人员一直在寻求特定于任务的模型来处理每一个，通常是使用深度强化学习（RL）来训练尽管取得了令人兴奋的进展，但学习特定任务的导航策略具有固有的局限性。对于每一个新的任务，从零开始训练成熟的代理，并依赖于特殊用途的架构和先验知识（例如，RoomNav的房间布局图、Object-Nav的对象共现先验需要反复进入训练环境，以收集新的代理人前，17032在每个任务的上下文中的经验，极大地阻碍了采样效率。即使使用当今此外，通过孤立地跟踪每个变量，代理无法捕获任务之间的共同点。最后，一些任务需要人工注释，例如3D空间中的对象标签，这自然限制了它们可以被训练的范围。在这项工作中，我们挑战的假设，不同的导航任务需要不同的政策。直觉上，为一个导航任务找到一个好的策略应该有助于其他任务。例如，如果我们知道如何找到微波炉，那么找到厨房也应该很容易;如果我们知道如何通过名称找到一个物体，那么根据手绘草图或它发出的声音找到它也应该是可能的。简而言之，学习一项导航任务，然后将积累的经验应用于许多任务应该是有益的。为此，我们提出了一个模块化的迁移学习方法，语义视觉导航，使零杆经验学习。见图1首先，我们开发了一个通用的语义搜索策略。具体来说，使用一种新的奖励和任务增强策略，我们为图像目标任务训练了一个源策略，其中智能体接收在环境中某个位置的某个未知相机姿势拍摄的照片，并且必须旅行才能找到它。接下来，我们开发了一个离线训练的联合目标嵌入（即，没有交互代理经验）以将各种目标类型与图像目标相关联。最后，我们解决目标下游任务的零杆传输没有新的代理经验，或通过微调与有限的代理经验的目标任务。传统上，零触发学习专注于监督任务，如图像识别[5，38，69]，其中模型放弃使用新类别的标记样本。相反，提出的零触发经验学习（ZSEL）专注于强化学习任务，其中模型放弃使用物理环境中的交互来执行新的导航任务。ZSEL对于终身学习很重要，智能体一旦部署就将面临新的任务，并且必须在不使用或很少使用训练集的情况下解决这些任务。使用来自Mat-terport 3D [12]，Gibson [68]和HM 3D[52]的数百个多房间环境，我们展示了我们的方法，用于四个具有挑战性的任务和目标，并使用五种不同的模式-图像，类别名称，音频，手绘草图和边缘图。我们的ImageNav结果推进了最先进的技术，我们的模块传输方法优于基于自我监督，监督和RL的最佳现有传输方法。最后，我们在5个语义导航任务上的ZSEL性能相当于从头开始学习的特定于任务的策略所需的5.072. 相关工作视觉导航视觉导航中的传统方法通常依赖于绘制3D空间，然后规划其运动[8，27，63]。然而，在快速模拟器[35，57]和大规模照片级数据集[12，16，52，68]的推动下，基于学习的导航方法[14，17，50]取得了巨大进步，从而为点目标导航[65]等任务提供了近乎完美的代理在这项工作中，我们考虑语义视觉导航，其中代理被给予目标的语义描述（例如，object- goal[6，9，51]，image-goal [14，75]，room-goal [67]，audio-goal [15，16]），但是，与point-goal不同，目标位置是未知的。因此，智能体需要利用学习到的场景先验来有效地探索环境，以找到并导航到目标。目前的方法分别处理每个导航任务：为每个任务和每个目标模态训练新模型[9，14，15，67]，其具有上述缺点相比之下，我们提出了一个统一的方法来语义视觉导航，其中一个单一的训练策略可以处理不同的任务和目标模式。导航中的迁移学习预先学习来自大规模图像数据集的表示[21，43]并将其转移到下游任务被证明对于视觉识别非常成功[10，18，19，29，73]。我们观察到一个类似的趋势，体现导航，其中预先学习良好的表示三维环境[47，48，53，70，74]或原始技能[25，30，42，65]帮助智能体在使用较少训练样本的同时更好地学习下游任务最近的方法集中在预先训练代理的观察编码器，无论是在监督[30，39，58，62，72]或自我监督[19，22]的方式。虽然这导致目标任务的性能得到改善，但对于每个任务，新的策略仍然是相比之下，我们的方法使一个完整的传输范例，所有的代理的组件可以有效地重用下游任务。先前的工作表明，将强点目标策略转移到非目标驱动的任务（例如，[65]《明史》：“君子之道，焉可诬也？因此，我们建议学习和转移一个通用的语义搜索策略。我们的政策可以找到语义目标提出了不同的方式为一组不同的目标驱动的导航任务。在多个任务之间共享知识可以在多任务学习设置[13，64]中实现，其中所有任务都以监督的方式联合学习，或者通过元RL [26，66]，其中从任务分布中学习的元策略在目标上进行微调。与这些方法不同的是，我们的策略是从一个不需要手动注释的任务中学习的，并且可以在零触发设置中传输，其中策略不接收目标上的任何Zero-Shot Learning（Zero-Shot Learning）可以被视为迁移学习的一个极端情况，17033∈目标任务没有训练样本。以前的学习方法主要集中在监督学习上，图像分类[4，5，24，38，40，54，69]。相比之下，提出的零触发经验学习（ZSEL）设置学习行为而不是分类器;在源任务上学习的策略需要执行一组目标任务，而不接收目标上的任何新的交互式体验。此外，不像[60]，其中构建了合成环境的世界模型，并且控制策略在“想象”情节上训练，我们考虑了无模型方法和现实环境中的ZSEL设置，既不是想象的，也不是真实的）。据我们所知，我们首先提出了一个ZSEL模型体现导航。3. 即插即用模块化迁移学习我们介绍了一种新的迁移学习方法的视觉导航。我们的模型有三个主要组成部分：1) 我们首先使用新的奖励和任务增强来学习图像目标的语义搜索策略（图12）。2a）;2) 我们利用图像目标编码器来学习用于不同目标模态的联合目标嵌入空间（图2）。2b）;最后，3）我们以即插即用的方式将学习到的代理模块转移到下游任务（图3）。2c）。在下文中，我们考虑具有3个主要模块的智能体：1）对从环境接收到的观测进行编码的观测编码器（fO）;2）对任务的目标进行编码的目标编码器（fG）3.1. 图像目标该策略是现代端到端视觉导航代理中的关键组件。它指导智能体解决给定一组顺序观察和目标的任务。这种策略通常是通过强化学习（RL）来学习的，在强化学习中，智能体与其环境（通过移动）进行交互如果代理成功地尝试，那么它将获得奖励，以鼓励将来从策略中采取这种行为。这种学习范式的一个主要挑战是，该策略需要与环境进行大量的交互，以便找到解决任务的适当方法这通常相当于数千万[44，45]甚至数十亿[65]的交互，相应地需要数天或数周的GPU集群时间。此外，对于每个新任务，通常从头开始学习策略，这进一步大大增加了学习成本。我们建议学习一个通用的语义搜索策略，可以转移和执行各种导航任务。我们的想法是学习这样的政策与图像目标的任务，其中代理收到一张图片在环境中的某个地方以某个未知的相机姿态拍摄，并且必须旅行以找到它。它不需要人工注释，并且图像目标可以在训练环境中的任何地方自由采样因此，政策可以在大规模的经验（例如，从部署在各种环境中的一队机器人收集），这可以提高其对新任务和领域的推广。此外，图像目标鼓励学习的策略捕获语义先验，以便在3D空间中找到事物。例如，通过寻找沙发和椅子的图像，智能体隐式地学习利用这些对象任务定义在图像目标导航的情节中，智能体从未探索场景中的随机位置p0开始，并且它的任务是找到给定在pG处用相机采样的图像IG的某个位置pG。智能体在每个步骤t接收RGB观测值ot，并且需要执行最佳动作序列at{向前移动，左转，右转，停止}，这将使其在最大步骤数S内到达目标。与目标位置已知的公共点目标任务不同[6]，这里pG是未知的，智能体需要利用学习到的语义先验来搜索并找到IG可能是从哪里采样的。我们的设置与ImageNav中最近的方法不同，其中需要全景360° FoV传感器[14，37，45]。在这里，我们考虑智能体视图的标准90虽然具有完整的FoV传感器简化了定位，但这种强烈的要求通常在常见的机器人平台中不可用[1-这降低了不同代理配置对此类方法的可扩展性和采用。此外，我们的任务设置允许我们的模型以即插即用的方式转移到一组不同的语义导航任务，而不需要修改目标任务（文献中没有使用全景图像）。查看奖励通常使用到目标的减少的距离来奖励智能体更接近pG，以及在pG的小距离ds内找到并停止的成功奖励。然而，虽然这种奖励被证明是非常成功的导航任务，如点目标，我们认为它不太适合像图像这样的语义目标。由于奖励不携带关于语义目标本身的信号，代理可能失败或需要更多的经验，以便捕获目标和目标距离奖励（DTG）之间的隐含关系。例如，如果目标显示了一个烤箱的图像，智能体可能会靠近并停在附近，同时看着柜台上的一本书，尽管如此，仍然会收到一个完整的成功奖励。这可能导致捕获目标和代理的观察之间的琐碎或不连贯的关联17034编码器编码目标编码器编码器音频-进球室图像-R EGG·G客厅（一）嵌入空间（b）寻找：即插即用模块化传输类型：（c）第（1）款图2.我们的方法（a）首先学习语义搜索策略，使用一种新的奖励函数在3D场景中找到随机图像视图。然后，（b）我们学习各种目标模态的联合目标嵌入空间，其中学习由图像目标编码器引导。最后，（c）我们以即插即用的方式将我们的模型转移到一个新的目标任务中，在这个任务中，它可以开箱即用（zero-shot），或者使用目标任务上的一些经验进行微调。为了鼓励智能体利用目标描述IG中提供的信息，有效地捕获可能有助于其寻找pG的有用语义先验，我们提出了一个新的奖励函数，该函数奖励智能体在接近pG时查看IG，从而更好地绘制其ot与IG之间的关联。具体来说，我们在步骤t将奖励函数定义为：rt=rd（dt，dt−1）+[dt≤ds]rα（αt，αt−1）−γ，（一）其中，r d是从当前位置到目标的距离相对于前一个位置的减小值，r α是从当前视图到目标视图的角度相对于前一个视图的减小值（以弧度为单位），[ ]是指示函数，γ=0。01是鼓励效率的宽松奖励注意，这个奖励将鼓励智能体在接近目标时看IG，因为它被奖励以减小其当前视图vt和目标视图vG之间的角度（参见图2a）。最后，如果智能体到达目标并在距离pG为ds和距离vG为αs的距离内停止，则它将获得最大成功奖励10：Rs=5×（[dt≤ds]+[dt≤dsandα t≤α s]）. （2）我们设置ds=1 m（任务的成功距离），αs=25°，以允许vt和vG并使代理能够绘制其对象之间的关联我的目标是。视图增强除了上面介绍的视图奖励之外，我们还提供了一种简单的任务增强方法，通过增加呈现给智能体的目标的多样性来促进泛化对于每个训练片段，而不是具有固定的IG，我们从位置pG处的随机角度采样视图，并将来自采样视图的关联IG作为目标描述符提供给智能体这对模型阳离子pG固定在训练片段中而不是IG，这鼓励代理捕获事物的隐式空间语义先验，这些事物通常在从pG观察时彼此靠近出现。例如，智能体将了解到，当从门上窥视时看到的椅子的图像可能与当前图像目标（显示餐桌）处于相同位置，因为智能体之前经历了相同的情节，但IG显示椅子，因此促使智能体探索餐厅。策略训练我们使用强化学习（RL）来训练我们的策略，图2a。对于每个训练片段，我们从pG中采样图像目标IG。代理用fO 编码其当前观测值ot（RGB图像），用fI编码图像目标，并将这些编码传递给策略π。该策略进一步编码这些信息以及迄今为止的观测历史，以产生状态嵌入。行动者-批评者网络利用st来预测状态值ct和代理基于代理1和等式2）。该模型使用PPO进行端到端训练[59]。3.2. 联合目标嵌入学习在学习了语义搜索策略之后，我们现在可以将我们的模型转移到下游任务。具体来说，我们考虑下游导航任务，其中目标是对象类别（ObjectNav [9]），房间类型（Room-Nav [67]）或视图编码（ViewNav），它们可以通过标签名称，草图，音频剪辑或边缘图的形式来表达;参见第二节。四点二。使用RGB图像目标学习语义搜索策略的一个关键优点是这些目标包含关于目标视觉外观和上下文的丰富信息。此外，为了解决图像目标导航任务，我们的模型学习通过图像目标编码器fI产生的紧凑密集表示来编码这些视觉提示。学习;代理将不太可能过度适应，因为我们的想法是利用fI学习联合嵌入每次代理经历一个given目标时改变目标描述。此外，对于起始p0和目标lo-不同任务的不同目标模式的空间。换句话说，我们提升了图像目标嵌入空间观察编码器语义搜索策略演员评论家观察报告图像目标编码器剂图像-目标成功领域奖励函数环境房间编码器电视共同目标电视声音对象语义搜索策略素描-目标编码器观察编码器Finetune（少数经验）零射击体验17035--GG···GGGIMGmax（0， cos（fI（x），fM（g），如果y=− 1作为一个联合目标嵌入空间，在图像和不同的目标形式（如草图、类别名称和音频）之间建立关联（图10）。（见第2段b）。这一步可以非常有效地执行，并使用离线数据集。例如，为了了解用标签表示的对象目标（例如，一把椅子），我们只需要用椅子来注释一组图像。然后，我们训练一个对象目标编码器，以产生一个类似于图像目标编码器的嵌入，在我们的实验中，我们使用大小为20K图像或更小的离线数据集，其中这比训练目标特定策略通常所需的交互量（数千万到数亿）小几个数量级[44，71]。形式上，令D=（xi，gi）是图像xi和它们的相关联的目标gi的集合，其中gi可以是任何目标模态（例如，音频、草图、图像、类别名称、边缘贴图）这取决于下游任务规范。我们通过最小化损失来学习联合目标嵌入空间：最后，我们的模型可以很容易地为下游任务进行微调，以捕捉特定于任务的任何额外线索，从而达到更好的性能。与文献中仅预训练和转移fO的常见方法不同[22，30，58，74]，这里将完整模型转移到目标任务。这会带来更高的初始性能、更快的收敛速度和更好的整体性能，我们将在第2节中介绍。4.第一章4. 评价在下面的实验中，我们首先评估我们的语义搜索策略在源任务（图像目标导航）中的性能，并与最先进的方法（第二节）进行比较。4.1）;然后我们展示了我们的模型如何转移到一组不同的下游导航任务（第4.1节）。4.2）。为了公平比较，我们为模型和所有RL基线采用相同的架构和训练管道，我们在相应的部分中注意到与此共享设置我们使用.1−cos（fI（xi），fM（gi）），如果yi=+1GG（三）a ResNet9 [32，61]forf嵌入大小和两层的GRU [20]，其中fM（i）是模态M的新目标编码器，cos（i）是两个嵌入之间的余弦相似性，并且yi指示该对（xi，gi）是否相似，如从离线注释导出的（例如，椅子和椅子的图片是相似的;电视的音频和电视的图片是相似的）。在目标嵌入学习期间，我们冻结fI并学习fM使用等式3使得fM学习编码其目标sim-一个ResNet9编码图像，草图，边缘映射和音频目标形式。我们将音频片段转换为频谱图，然后用fG对其进行编码。如果目标是一个类别名称，我们对fG使用2层MLP。我们使用DD-PPO [65]训练策略，并为所有模型分配相同的计算资源。我们在训练过程中使用输入增强（随机裁剪和颜色抖动）来提高RL方法的稳定性和性能[36，41，45]。看到类似于从fI嵌入的相应图像。3.3. 迁移与零触发体验学习在学习了语义搜索策略和联合目标嵌入之后，现在我们可以将我们的模型转移到下游导航任务（图2c）。为此，我们只需要将fI替换为任务的合适目标编码器，使得：a t<$π（fO（ot），fG（g））.（四）我们的即插即用模块化传输方法具有多方面的优势。由于所有模块都相互兼容，这意味着模型可以开箱即用地执行目标任务，即，它不需要任何进一步的任务特定交互来解决目标任务。我们将这种设置称为零拍摄体验学习（ZSEL）。使用现代RL框架的训练策略是模型学习中最昂贵的部分，而使用ZSEL，我们设法绕过了这一要求。此外，由于我们的方法的模块化性质，很容易推广到各种各样的任务和目标模式。对于一个新的任务，只有相应的目标编码器用离线数据集训练，然后以即插即用的方式集成到完整的模型中。更多细节。我们采用基于端到端RNN的RL，因为它是一种常见的[22，30，45，58，65，74，75]，通用架构，不需要手工制作的模块，在真实数据上表现出良好的性能[11，46]，并且在sim中学习有可能很好地推广到真实[34]。然而，我们的贡献与所使用的RL架构正交。智能体配置智能体的动作空间包括向前移动25 cm、左右旋转30 °和停止。该代理仅使用128×128分辨率和90°FoV传感器的RGB观测。4.1. 图像-目标导航任务设置我们采用第二节中定义的图像目标任务。第3.1条我们设S=1000，ds=1 m，从pG开始。数据集我们使用Habitat simulator [57]和Gibson [68]环境来训练我们的模型。我们使用[45]中的数据集。训练分割包含从72个训练场景中的每一个中采样的9K集。根据[45]的设置，所有RL模型都在训练分割上训练了50 K更新（5亿帧）。测试拆分为4。从14个不相交的（看不见的）场景中均匀采样的2K集。为了与[31]进行直接比较，我们还在[ 31 ]提供的第二次分裂（“分裂B”）上测试了我们的模型。L（xi，gi）=O我我我128π 对于目标编码器fG，我们使用17036×MP3D [12]HM3D [52]模型成功SPL成功SPL模仿学习5.35.12.01.9Zhu等[75个]9.87.94.42.7Mezghani等人[45]带90° FoV6.93.93.51.9DTG-RL11.09.05.53.7Hahn等人[三十一]9.35.26.64.3我们14.610.89.66.3表1. Gibson上的图像目标导航结果[68]。它有3K集，结构与[45]中的测试分割（基线我们将我们的图像目标模型与以下基线和SoTA方法进行比较：1）模仿学习：该模型的策略使用监督学习进行训练，以预测在给定其当前观察的情况下2) Zhu等[75]：该模型使用f O和f G之间共享的ResNet50，在ImageNet上预训练并冻结。3 ）Mezghani等人。[45]：这是SoTA全景图像目标导航模型。它使用ResNet18用于fO和fG，2层LSTM [33]用于π，以及专门的情节记忆。我们将此模型适应于ot和IG的90°FoV ，并使用作者的代码对其进行训练4）DTG-RL：该模型使用共享架构以及公共距离来实现训练的密集奖励5）Hahn et al. [31]：该模型从Gibson训练场景中收集的被动视频数据集学习，并使用基于拓扑图的自定义架构（详细信息请参见[31]）。结果和分析表1报告了在3个随机种子上的平均成功率（Succ）和通过反向路径长度（SPL）加权的成功率方面的总体性能。我们的模型在图像目标导航方面的表现明显优于强基线和在分裂A中，我们的模型增益+6。6%的成功和+2。SPL超过最佳基线的6%。为全景传感器设计的方法[45]在这种具有挑战性的环境中往往表现不佳。当使用360°和90° FoV时，我们看到Succ分别从69% [45]下降到9%，因为这些方法严重依赖于360° FoV进行准确定位。在分割B中，我们的模型在Succ中获得+9%和+11。SPL超过[31]的2%。值得注意的是，[31]中的模型使用了比我们的方法更完整的传感器配置（姿态传感器，480 640分辨率的RGB和深度传感器，以及120° FoV），并且它是从模拟器采样的被动视频中离线训练的。尽管如此，我们的模型在很大程度上优于[31]，这表明端到端RL模型的交互式学习仍然比启发式和被动式方法具有表2.跨域评估设置中MP3D和HM3D上的图像目标导航结果。为了验证我们的贡献，从证券交易委员会。3.1，我们测试了我们的模型在移除视图奖励或视图增强时的性能如表1所示，我们看到当这些组件中的一个被移除时，性能降低，并且当它们串联工作时实现最大增益。此外，我们测试我们的模型下噪声驱动。虽然分裂A中的方法不提供噪声条件下的结果，[31]。在[31]的设置之后，我们使用 [14] 的噪声模型，模拟从Locobot [3]学习的动作。我们的模型显示出对噪声的鲁棒性，并保持了其相对于基线的优势（表1底部）。跨域泛化接下来，我们在Matterport3D（MP3D）[12]和HM3D [52]的数据集上测试在Gibson上训练的模型。除了这些数据集之间的视觉域差距之外，MP3D具有比Gibson更复杂和更大的场景，并且HM3D在场景类型方面具有高度多样性。这构成了一个非常有挑战性的跨域评估设置。每个数据集的测试分割分别从HM3D和MP3D的100和18个场景表2示出了结果。总的来说，我们看到在这个具有挑战性的设置中，所有型号的性能都有所下降，尤其是HM3D，因为100个测试场景中存在高度多样性尽管如此，我们的模型在两个数据集上的表现都优于所有基线，这表明我们的贡献通过鼓励智能体更密切地关注目标提供的语义信息来实现4.2. 转移到下游任务任务我们考虑3个目标任务和4个目标模式：1) ObjectNav：智能体被要求从目标指定的6个类别（床、椅子、沙发、盆栽、厕所和电视）中找到一个最近的实例。我们扩展了标准ObjectNav规范[9]，其中目标由其标签给出（例如，找到一把椅子），该类别的手绘草图，或由该对象产生的音频（例如，电视的声音在一集的开头，代理从随机类别中获得标签、草图或4秒的如果智能体在目标1 m内停止，同时使用小于S=500步，则事件成功对于草图，我们使用来自Sketch数据集的对象类别的图像[23]。用于音频模型分裂成功SPL模仿学习一9.99.5Zhu等[75个]一19.614.5Mezghani等人[45]带90° FoV一9.06.0DTG-RL一22.618.0我们一29.221.6我们的（查看8月仅）一22.018.8我们的（仅查看奖励）一24.417.3Hahn等人[三十一]B24.012.4我们B33.023.6Hahn等人[31]带噪声驱动B20.38.8我们的驱动噪音B25.917.617037ObjectNav（草图）25201510500 5 10 1520步长×106RoomNav（标签）3025201510500 5 10 1520步长×106ViewNav（边缘贴图）10864200 5 10 15 20步长×106表3.下游语义导航任务的迁移学习成功率。剪辑我们从[15]中的音频数据集中采样声音并且由代理听到的音频被缩放到目标的距离（即，更远的目标具有更微弱的声音）。而对于标签目标，类别名称在训练和测试期间是相同的，对于音频和草图，训练期间使用的目标实例与测试中使用的目标实例不相交。这对代理提出了另一个具有挑战性的维度，除了看不见的测试场景之外，还要进行泛化。2) RoomNav：代理的任务是找到6种类型的最近的房间：客厅，厨房，卧室，办公室，浴室和餐厅。目标是一个标签（找到一个-s），如果智能体进入房间，最大事件长度S=500，则事件成功[49]。3) ViewNav：该任务类似于上述图像目标导航任务，但不同的模态（边缘图）表示目标。这有助于量化目标任务中的模型性能，这些目标任务与源任务更加一致，但具有实质性不同的目标模态。在每个场景中，智能体从场景中的随机视图中接收到一个边缘图，需要找到目标并在1 m范围内停止才能成功。我们设S=1000，代理人有足够的时间来完成这项具有挑战性的任务。数据集对于所有目标任务，我们使用来自Gibson [68]具有语义注释[7]的微小集合的24个训练/5个测试场景。这些场景与SEC中使用的场景不相交。4.1.我们在目标任务上训练了多达2000万步的所有方法，并报告了3个随机种子的平均评估性能详情请参见Supp。为了在Object-Nav和RoomNav中训练模态的目标嵌入，我们从训练场景中采样了14K对象图像和20我们使用由[7]中的模型生成的对象标签来绘制图像和每个模态之间对于ViewNav，我们从训练场景中采样了170K视图，并使用边缘纹理模型生成了它们的edgemap [73]。离线最大值的样本数量由训练场景中每个目标类型的可用实例驱动。虽然房间和对象的数量有限，但我们可以从场景中的任何位置自由采样视图。图3.下游导航任务的迁移学习和ZSEL性能。所有任务和模态见Supp。基线我们将我们的模型与迁移学习中的一组基线和SoTA模型进行比较：1）任务专家，它从下游任务从头开始学习。 2 ） MoCo v2[19] 在 ImageNet（IMN）上或从Gibson（Gib.）随机采样的一组图像上使用MoCo训练。训练场景3）CRL [22]使用基于好奇心的探索和自监督学习的组合来预训练f O（ResNet50）。我们从作者提供的预训练模型初始化fO4）Visual Pri-ors [58]使用一组4个ResNet 50 s预训练编码器作为f O。编码器以监督的方式训练以预测4个特征（例如，语义分割、表面法线），为下游导航任务提供最大覆盖范围[58]。5）Zhou et al.[74]传输2个预训练的ResNet 50用于深度预测和语义分割;然而，与[58]不同的是，这些都与从头开始训练的RGB编码器（ResNet 9）一起使用。6）SplitNet[30]使用6个辅助任务（运动和视觉任务）和点目标导航的混合来预训练fO（定制CNN）我们从作者提供的预训练模型初始化fO7）DD-PPO（PN）[65]预训练模型以实现点目标导航（PN），并且f0和π都被转移。迁移学习表3显示了结果。我们的方法远远优于所有基准。有趣的是，自监督方法[19]达到了与那些依赖于密集注释（如语义分割和地面真实深度）的可用性进行监督表示学习的方法[58，74]竞争的性能此外，学习基于好奇心的表示（CRL [22]）或通过辅助任务和RL（Split-Net [30]）的方法不会像SSL和SL方法那样传输。此外，与强大的DD-PPO [65]方法相比，该方法在与我们的策略相同的数据上进行训练，但对于PointNav任务，我们的模型在所有任务中的成功率（从+5%到+14%这表明，与PointNav策略相比，我们的语义搜索策略更适合于转移到不同的下游任务。此外，当查看与我们的最佳转移方法相比的训练过程中的测试性能时（图3），我们注意到我们的方法具有更高的起点，并且更快地提高到更好的性能。我们的模型达到了最高性能的最佳竞争对手12快5倍成功率%L）我们的（ZSE我们（PN）al.DD-PPOZhou etrt（IMN任务ExpeMoCo v2成功率%成功率%模型源任务产品介绍标签草图音频房间Nav标签公司简介边缘贴图任务专家-8.06.76.68.90.8[19]第19话：我的世界SSL10.59.98.89.31.0[19]第SSL7.812.711.59.71.3[58]第五十八话SL9.39.99.113.10.6Zhou等[74个国家]SL15.67.69.610.30.7[22]第二十二话RL1.90.51.01.20.0[30]第三十话RL9.06.58.87.70.6美国（公告牌）[65] RL13.913.612.913.91.717038ObjectNav（标签）ZSEL成功%×251211201015满完整（ZSEL）9ObjectNav（草图）25201510RoomNav（标签）3025201510ViewNav（边缘贴图）1086410fO+fO仅8552只5fG仅7过户登记手续00100200300400 500步长×10600100200300400 500步长×10600100200300400 500步长×10600 5 10 15 20步长×1066100 200 300 400 500ImageNav步长×106图5.长期的专家培训。请参阅所有任务的补充。图4.我们的模块化转移（左）和可扩展性（右）消融模型。Zero-Shot Experience Learning我们的方法的一个独特之处是它能够执行下游任务而不接收任何新的经验。我们的模型在具有挑战性的ZSEL设置下表现出出色的性能。我们的ZSEL模型在5个任务中的4个任务中优于任务专家，尽管在目标上没有获得任何新经验，甚至在训练任务专家多达2000万步之后（表3中的Ours-ZSEL）。此外，我们在图3中看到，大多数迁移学习模型都很难达到我们的ZSEL性能。请注意，我们的模型在架构方面没有任何优势，这与其他模型共享。因此，高ZSEL 性能归因于我们的模块化传输方法。在ObjectNav和RoomNav中，最好的竞争对手需要200万到1600万步以达到我们的ZSEL性能，除了ObjectNav-Audio竞争对手在这一水平上几乎没有什么改进在ViewNav中，我们注意到没有一条基线能够达到我们的ZSEL水平.这可以归因于具有挑战性的目标模态，其中难以估计成功停止的距离，并且该任务与我们的语义策略最熟悉的源ImageNav任务非常接近。模块化转移消融图4（左）显示了我们在ObjectNav-Label任务上的方法的模块化消融单独传输单个模块对性能的影响是混合虽然仅转移fG和π并不比“无转移”情况改善这是预期的，因为在该模型中，fO是具有最大部分参数的深度CNN。对该组件进行良好的初始化是有益的。尽管如此，当将这些模块与我们的即插即用模块化方法结合在一起时，我们看到了巨大的收益。我们的完整模型展示了最佳性能并启用了ZSEL，从而验证了我们的贡献。可扩展性我们根据在源任务上收集的经验来评估模型的扩展能力。我们发现在源任务上收集的经验与下游任务上的ZSEL性能之间存在很强的相关性。随着我们的语义搜索策略在源任务（ImageNav）上获得更多的经验，它在目标任务上的ZSEL性能变得更好（图11）。4右）。这是重要的-因为我们的源任务不需要注释，并且可以轻松扩展到更多场景和大型数据集。有关我们模型中所用传感器的分析，请参见Supp.长期任务专家培训我们在上面看到，当在源任务上收集更多的经验时，我们的模型可以很好地扩展，并且其传输得到改善。然而，如果一个任务专家只是在目标任务上接受更长时间的训练，他会变得有竞争力吗？这个模型要多久才能赶上我们的方法？为了找到答案，我们针对每个目标任务对任务专家进行了高达500M步的培训。图5显示结果。任务专家要求在AV-在 ObjectNav 和 RoomNav 上移动超过 22M 步，在ViewNav上移动高达416M步（在5个任务中总共移动507M步），以达到我们的ZSEL性能。当我们的模型在目标任务上进行微调时，它永远不会达到我们模型的最佳性能。此外，我们的模型达到了任务专家34的最佳性能。7更快任务专家需要具有任务特定的经验和任务特定的标注，这可能是昂贵的，并且限制了可用的训练数据。相比之下，我们的模型在源任务中使用更多样化的目标进行学习，这些目标可以从（未注释的）场景中随机采样，从而更有效地扩展其他结果和讨论请参见Supp以获得定性结果、失败案例分析以及我们方法的局限性和社会影响的讨论。5. 结论我们引入了一个即插即用模块化迁移学习方法，为具有不同目标模式的语义视觉导航任务提供了一个统一的模型。我们的语义搜索策略在图像目标导航的源任务中优于SoTA，在视觉导航的迁移学习中也优于SoTA。此外，我们的模型能够有效地执行这是未来工作的垫脚石，特别是对于具有高成本训练数据的任务。能够做ZSEL并从很少的经验中学习是开放世界和终身学习环境中的代理的关键技能。致谢： UT Austin 部分由 DARPA L2M ， UT AustinIFML NSF AI Institute和FRL Cog Sci Consortium提供支持。K.G是Meta AI的研究科学家。感谢Lina Mezghani提供对数据和代码的访问。任务专家我们的（ZSEL）我们成功率%成功率%成功率%成功率%17039引用[1] 你好，机器人。 https://hello-robot.com/ 网站。[联机]。3[2] 乌龟机器人https://www.turtlebot.com/网站。[联机]。3[3] Locobot ：开源低成本机器人。 http ： //www.locobot.org，2019年。[联机]。三、六[4] Ziad Al-Halah和Rainer Stiefelhagen。千类语义属性的自动发现、关联估计与学习.在CVPR，2017年。3[5] ZiadAl-Halah ， MakarandTapaswi ， andRainerStiefelhagen.恢复缺失的链接：预测无监督零次学习的类属性在CVPR，2016年。二、三[6] PeterAnderson ， AngelChang ， DevendraSinghChaplot，Alexey Dosovitskiy，Saurabh Gupta，Vladl

下载后可阅读完整内容，剩余1页未读，立即下载