没有合适的资源?快使用搜索试试~ 我知道了~
街道导航:一种跨视图策略学习方法
8100用于街道导航的交叉视图策略学习李昂1岁 Huiyi Hu1 Piotr Mirowski2 Mehrdad Farajtabar11DeepMind,Mountain View,CA2DeepMind,英国{anglili,clarlett,piotrmirowski,farajtabar}@google.com摘要在不熟悉的环境中通过视觉观察进行导航的能力是智能代理的核心组成部分,也是深度强化学习(RL)的持续挑战。街景可以成为这种RL代理的一个明智的测试平台,因为它提供了真实世界的照片图形图像在地面上,与不同的街道外观;它被制作成一个名为StreetLearn的交互式环境,用于导航研究。然而,目标驱动的街道导航代理到目前为止还没有能够转移到看不见的地区,而没有前,图1.街道导航代理观察地面和再培训,依靠模拟不是一个规模。解决方案由于航空图像是很容易和全球访问,我们建议,而不是训练地面和空中视图的多模式政策,然后通过利用鸟瞰图观察转移地面视图政策看不见的(目标)城市的部分。我们的核心思想是将地面视图与鸟瞰图配对,并学习可跨视图传输的联合策略。我们通过学习两个视图的相似嵌入空间,提取视图之间的策略我们进一步将迁移学习范式重新表述为三个阶段:1)当代理最初在多个城市区域上被训练时的跨模态训练,2)当代理仅使用容易获得的鸟瞰图来适应于保留区域时的仅鸟瞰图适应于新区域,以及3)当代理在没有鸟瞰图像的情况下在看不见的地面视图上的导航任务上被测试时的仅地面视图转移。实验结果表明,所提出的跨视图策略学习能够更好地泛化代理,并允许更有效地转移到看不见的环境。1. 介绍1916 年 4 月 24 日 , 欧 内 斯 特 · 沙 克 尔 顿 ( ErnestShackleton)、弗兰克·沃斯利(Frank Worsley)和他们的船员在“耐力”号探险船失事后被困在大象岛(Elephant Island)上,试图冒险进行一次720英里的飞行。*同等贡献在训练阶段的鸟瞰图。代理学习视图不变策略来关联两个视图。一旦学习了策略,代理就能够用可互换的观点进行持续训练。当被转移到看不见的区域时,代理仅使用容易访问的鸟瞰图观察来进行调整。然后将代理转移到地面视图环境(不访问鸟瞰图像)进行测试。图片:谷歌地图和街景。一英里的无船之旅去南乔治亚岛他们利用航海地图对弹道进行了适当的研究,但后者冻结了,变得难以辨认。只有通过他们非凡的导航技能,记忆力,并通过将从俯视图中获得的知识转移到他们航行时的视觉和指南针观察中,他们最终在两周后到达了南乔治亚海岸这样的壮举被引用为人类在未知环境中复杂空间导航的主要例子[10]:他们掌握了利用地图和海平面观测进行导航的专业知识,可以通过研究地图来适应未知的环境,然后将这些知识转移到新的旅程中。在熟悉和陌生环境中导航的能力是动物和人工智能的核心组成部分人工智能体导航的研究可以应用于现实世界的领域,从哺乳动物的网格和位置细胞的神经科学[3,9]到室内和室外移动机器人的自主性[49,39,31,38,45,32]。空中地面空中地面视图火车适应转移8101我们专注于视觉导航任务,训练代理在特定区域导航,通过使用单一的感官模态,整合视觉感知和决策过程,通常不依赖于地图。 一个令人困惑的问题出现了:如何有效地将代理转移到新的或以前看不见的区域? 在没有额外信息的情况下,现有的解决方案通常需要在那个看不见的区域上重新训练智能体,这在计算上是昂贵的[6]。或者,可以简化导航任务,以便不需要本地知识[49]或依赖于广告导航指令[8,15]。通过将导航作为一个一次性学习任务,在简单和程序生成的环境中使用辅助记忆[43,47],或者通过为更复杂的环境构建复杂的模拟器[31,39],可以实现对未知环境的然而,构建用于离线再训练的模拟器是昂贵的(特别是在不受约束的户外环境的情况下),并且收集街道级图像是昂贵的,因为人们必须到处开车拍摄全景照片。因此,使智能体能够在看不见的位置导航,而无需从头开始完全重新训练它,仍然是一个具有挑战性的问题。受人类可以通过阅读地图快速适应新城市的观察的启发,我们探索了将可比的自上而下的视觉信息纳入导航代理的训练过程的想法我们没有使用人工绘制的地图,而是选择了空中图像,因为它在世界各地都很容易获得此外,一旦人类熟悉了一个环境,他们就可以很容易地摆脱地图。这种人类的多功能性激励了我们训练灵活的RL代理的工作,这些代理可以使用第一人称和自顶向下的视图来执行。我们提出了一种新的解决方案,以改善城市视觉导航的迁移这些航拍图像是针对源(训练)和目标(看不见或隐藏)区域收集的,并且它们基于其地理坐标与地面(街道或第一人称)视图我们将传输任务分解为三个阶段:对源区域中的地面视图和空中视图观测进行训练,仅使用目标区域中的空中视图观测进行适应,以及仅使用地面视图观测将代理转移到目标区域。请注意,我们的目标仍然是训练智能体从地面观察导航.因此,RL代理应该仅在第一(训练)和第二( 适 应 ) 阶 段 期 间 访 问 鸟 瞰 图 , 而 不 是 在 第 三(transfer)阶段期间,当它被部署在目标区域中时。我们的解决方案的要点是转移代理到一个看不见的地区使用一个辅助环境建立在一个不同的,但容易访问的方式这就要求代理人在培训时间灵活,依赖于可互换的观察结果我们提出了一个跨视图框架来学习一个对不同视点(地面视图和鸟瞰图)不变的策略。学习视图不变策略依赖于三个主要成分:(a)L2距离损失,以最小化两个视图之间的嵌入距离,(b)双路径,每个路径具有其自己的策略,在策略日志上具有Kullback-Leibler(KL)损失,其迫使这两个策略相似,以及(c)称为视图丢弃的丢弃模块,其从任一视图随机选择策略日志以选择动作。所提出的架构自然地与可互换的观察一起工作,并且对于联合使用两个视图或一次仅使用视图进行训练是灵活的这使得它成为一个灵活的模型,可以在迁移学习的三个阶段中共享。我们通过将[29]中提出的RL代理扩展为对应于两个视图的双流模型来构建我们的跨视图策略架构我们的代理由三个模块组成:负责视觉感知的卷积网络[22],用于捕获特定位置特征的本地递归神经网络( RNN ) 或 长 短 期 记 忆 ( LSTM ) [17]( localeLSTM ) , 以 及 产 生 动 作 分 布 的 策 略 RNN(policyLSTM)。我们在StreetLearn之上建立了我们的测试平台,称为StreetAir(据我们所知,这是第一个多视图室外街道环境),StreetLearn是一个基于全景街景照片的交互式第一人称街道环境[27]。我们在与[29]相同的任务上评估它,即目标驱动导航或信使任务,其中代理仅被给予目标目的地的纬度和经度坐标,而不被给予其当前位置,并学习定位自己并计划到达目的地的轨迹。我们的研究结果表明,所提出的方法将代理转移到看不见的区域,与单视图(地面视图)代理相比,具有更高的零拍摄奖励(在地面视图环境中没有训练的转移)和更好的整体性能(在转移过程中持续训练)。贡献 我们的贡献如下。1. 我们建议通过利用基于易于访问的鸟瞰图像的配对环境来在区域2. 我们提出了一个跨视图的政策学习框架,以鼓励通过代表级和政策级协会的观察模式之间的转移,和一个新的视图辍学,迫使代理是灵活的,并使用地面和空中视图互换。3. 我们提出了一个三阶段的程序作为迁移学习的一般处方:跨通道训练、使用辅助通道的适应和主通道的迁移。4. 我们在StreetAir上实现和评估我们的代理,StreetAir是一个现实主义的多视图街道导航环境,扩展了StreetLearn[27]。81022. 相关工作2.1. 视觉导航Zhu等[49]提出了一个行动者-批评者模型,其策略是目标和当前状态的函数深度再联想学习的后续工作集中在隐式目标驱动的视觉导航[28,7,39,46],并通过隐式[33,43]或显式[47,36]地图表示来解决不可见环境中的泛化问题。Gupta等人[13]引入了基于地标和地图的导航,使用空间表示进行路径规划,并使用目标驱动的闭环控制器执行规划。在[46]中提出了一种基于后继特征的深度RL算法,该算法可以学习将知识从先前掌握的导航任务然而,上述工作要么依赖于模拟器,要么在简单、不现实或有限的室内环境中实现导航。人们对使用复杂的模拟器[21,38]或逼真的室内环境[31]进行建筑和基准视觉导航越来越感兴趣相比之下 , 我 们 的 工 作 建 立 在 一 个 现 实 的 环 境StreetLearn[29,27]之上,由谷歌街景图像和谷歌地图街道连接制成。2.2. 交叉视图匹配匹配街道视点与航拍图像一直是一个具有挑战性的计算机视觉问题[23,20,25,34]。最近的方法包括基于几何的方法和深度学习。Li等将提取街道和正交视图图像之间的地面几何结构,并通过匹配其线性结构来测量模态之间的相似性[23]。Bansal等人[4]建议在建筑物的外墙上Lin等提出使用街景和鸟瞰图之间的深度神经网络来学习联合所有这些工作的目的是利用交叉视图匹配来实现基于图像的地理定位,具体地说,在一定的嵌入空间中,找到查询街道图像和数据库中所有地理参考航空图像之间的最近邻居。我们的工作是密切相关的跨视图匹配,但不是超监督学习,我们研究如何跨视图学习可以提高基于RL的导航任务。2.3. 多模式学习我们的工作通常也与多模态学习有关,因为街景和鸟瞰图不是从同一类型的相机拍摄的;它们基本上来自两种不同的模式。许多现有的多模态学习作品集中在合并语言和视觉信息。在视觉导航领域,Hermannet al.建立在StreetLearn环境[29]之上,具有来自语言指令的额外输入,以训练代理导航在一个城市里,按照文字的指示[15]。 Anderson等人提出了基于室内环境的视觉和语言导航(VLN)任务[1]。Wang等人[42]提出从成对的轨迹和指令中学习一个跨模态的批评者,该批评者为策略提供内在的奖励,并利用自我监督的模仿学习。2.4. 知识蒸馏我们的工作与网络蒸馏[16,2]及其许多扩展[30,24,48,37]有关,作为转移知识的一种方式。一个学生网络试图通过在它自己的和老师的软化逻辑之间施加Kullback-Leibler(KL)损失来间接地从老师网络学习,即。,试图模仿老师的行为。在[14] Guptaet al.通过最小化对象和动作检测的L2[18]中的幻觉网络在现有模态上进行训练,以使用L2损失回归缺失的模态,并利用多个此类损失进行多个任务。这项工作已经由Garciaet al.通过添加L2损失来重建深度网络的所有层,并为缺失网络添加交叉熵蒸馏损失[12]。最后,Luoetal. [26]学习了模态之间的蒸馏方向,考虑余弦蒸馏损失和表征损失。我们的工作在三个方面有所不同:首先,蒸馏已被应用于分类或对象/活动检测,而我们的工作重点是通过蒸馏图像表示和RL策略来转移控制问题中的知识。第二,蒸馏到目前为止已经从教师网络应用到学生网络,而我们选择在辅助任务(鸟瞰图)和主任务(街景)之间转移,共享网络中的本地和策略模块第三,我们采用了一种新的视图丢弃,以进一步提高可移植性。2.5. 迁移学习我们的工作与视觉领域的迁移学习有关[35]迁移学习的最基本方法是对现有领域或任务进行预训练,并对目标领域或任务进行微调。Luo等人[26]提出了一种跨域传输多模式特权信息的方法,用于动作检测和分类。Chaplot等人[6]研究了预训练和微调的有效性,用于在3D导航的各种环境之间传输知识。Kansky等人[19]提出了模式网络,将经验从一个场景转移到其他类似的场景,展示可重复的结构和子结构。Bruce等[5]利用从环境的单次遍历构建的交互式世界模型、预先训练的视觉特征编码器和随机环境增强,来演示在真实世界环境变化下的成功转移而无需微调。8103=γ r地面logits空中logitsKL图2.跨视图策略学习概述:地面视图和空中视图输入被传递到单独的卷积神经网络中进行嵌入。使用L2嵌入损失来约束两个潜在空间之间的相似性。嵌入被传递给一个locale LSTM(特定于区域)和一个全局策略LSTM(在所有区域共享)。这两个LSTM在两个视图中共享。KL策略损失用于约束两个视图之间的策略逻辑View dropout(门控)选择两个视图中的任何一个,并根据logits上的多项分布对最终操作进行采样该图显示了用于训练的n个区域(灰色框)和用于转移的一个目标区域(红色框)目标由纬度/经度坐标表示a、r分别表示动作和奖励3. 方法:跨视角政策学习导航代理的完整模型如图2所示。地面和鸟瞰图图像 都 被 馈 送 到 相 应 的 表 示 网 络 , 卷 积 神 经 网 络(CNN)[22],而无需在两种模式之间共享权重然后,CNN输出的图像嵌入被传递到特定于区域的LSTM中,然后将其输出与视觉嵌入一起馈送到策略LSTM策略LSTM在动作上产生多项分布的logits。由于存在具有两组策略逻辑的两个路径(用于地面视图和空中视图),因此额外的门控函数决定从其采样动作的最终逻辑组(通过选择或合并两个策略)。为了绑定这两个视图,并允许学习一个在视图之间可互换的策略,我们建议将三个要素作为这个跨视图策略学习框架的一部分:嵌入损失、策略提取损失和视图丢失,我们将在后续部分中详细介绍。3.1. 强化学习我们遵循[29]并采用策略梯度方法来训练导航代理,学习最大化预期奖励E[R]的策略π。在这项工作中 , 我 们 使 用 了 一 种 REEQUINFORCE[44]advantageactor-criticalal.租mEat<$πθ [ t <$θlogπ(a t|s t,g;θ)(Rt− Vπ(s t))],对于预先确定的地标,我们直接使用纬度和经度坐标。我们专门使用IMPALA [11]训练代理,IMPALA是RL的分布式异步演员-评论家实现,单区域有256个演员,多区域实验有512个演员,依赖于通过重要性抽样重新加权的非策略小批量。课程学习和奖励形成在代理培训的早期阶段使用,以平滑学习过程,类似于[29]。3.2. 关节多视图嵌入我们需要学习两个视图之间的联合表示以利用辅助鸟瞰图的原因有两个。首先,学习联合嵌入使我们能够在传输时用鸟瞰图代替地面视图,一旦我们只使用鸟瞰图将代理适应于看不见的其次,强制嵌入相似可能会使模型训练更快,更健壮。原始的表示只能通过与环境的交互来学习,因此理想情况下,当使用来自不同模态的信号时,这种表示不应该是不同的。出于这些动机,我们引入了嵌入损失,强制学习两个视图之间的联合嵌入空间:embed=其中RtT−tjj=0t+j,rt是t时刻的奖励,γ是贴现因子,T是剧集长度。 在这工作,而不是用距离来表示目标g,其中fg和fa是对应于以下的CNN模块:地面和鸟瞰图输入。目标区域a、1convEMBL22convEMBn不…政策下降810412…n t政策EMBEMB下降logitlogit1212下降下降空中地面空中地面空中地面L2KL(a) 培训(b) 适应(c) 转移图3.迁移学习过程包括训练、适应和迁移三个阶段智能体在训练城市区域中使用地面和空中视图观测进行训练代理的一部分是适应的城市地区,只使用鸟瞰观察。智能体被转移到目标城市区域,并仅使用地面视图观察进行持续训练。3.3. 政策蒸馏简单地最小化嵌入之间的L2距离可能是不够的,因为在实践中,不可能精确地匹配一个与另一个。两种表示之间的小误差可能会随着它们传播到策略网络中而急剧放大。因此,我们进一步提出匹配两种模式的政策输出之间的logits。换句话说,尽管两种模式之间的嵌入可能略有不同,但策略应始终尝试在最后生成相同的操作具体地说,Kullback-Leibler发散损失被添加到总损失中,即,其中RRL是强化学习损失。λ和γ分别是它们可以根据一些先验知识或领域知识来设置,或者是超参数搜索的主题。3.6. 跨视图迁移学习策略在本节中,我们提出了一个跨视图策略可以用于迁移学习。图3说明了迁移学习设置的三个阶段:培训、适应和转让。每个阶段的细节解释如下。策略=−Σpg(x)logX.Σpa(x)pg(x)、(二)• 训练:代理最初在n个区域进行训练,使用L2进行成对的空中和地面视图观测丢失、KL丢失和视图丢失。所有模块(CNN、本地RNN和策略RNN的两个并行路径)其中,pg是地面视图策略logits的softmax输出以及PA是鸟瞰图策略逻辑的softmax输出。以这种方式,学习的策略可以对卷积网络进行的表示的差异不太敏感3.4. 查看辍学虽然有两种途径,因此有两套政策,冰冷的逻辑,代理一次只能采样一个动作。我们建议通过一个dropout门控层融合两种模态的策略输出,我们称之为视图dropout,因为它选择模态而不是单个感知单元。这个dropout层的目的是加强代理的跨模式可转移性。3.5. 总损失函数最终目的是total=都是在这个阶段训练出来的。• 自适应:在自适应阶段,仅使用目标区域中的航空图像,并且仅使用目标区域中的低分辨率图像。caleLSTM(红框)在鸟瞰图环境中训练。由于地面视图和鸟瞰图路径已经被训练为共享相似的表示和策略动作,因此该阶段使代理准备好在下一阶段期间用鸟瞰图代替地面视图。• 转移:在转移过程中,代理的卷积网络和策略LSTM被冻结,只有目标区域LSTM被重新训练,仅在地面视图上。服务。CNN和策略LSTM被冻结的原因是因为这种模块化方法有效地避免了已经训练过的城市区域的灾难性遗忘(因为它们对应的模块保持不变)。…n t政策logitEMBEMBn t政策logitlogitEMBEMB81054. 实验在这一部分中,我们介绍了我们的实验和结果,研究了课程和标题信息的影响,对损失函数的两个组成部分进行了消融研究,并证明了适应阶段的必要性。4.1. 设置目标驱动的导航(Cocktail任务)。在[29]之后,智能体的任务包括通过遍历覆盖2km和5km之间区域的全景图像的街景图,尽可能快地到达指定为经纬度坐标的目标目的地。全景图间距约10米;允许代理执行5个操作:向前移动(仅当智能体面对另一全景时,否则该动作被浪费),向左/向右转动22.5度以及向左/向右转动67.5度。在到达目标时(在100米的公差内),代理接收与鸟从起始位置到目标的飞行距离成比例的奖励;如果智能体在目标的200米内,则给予早期奖励。Epperiment持续1000步,每次达到一个目标时,都会对一个新的目标位置进行采样,鼓励智能体快速达到目标。多模态自我中心数据集。我们通过扩展StreetLearn [29]构建了一个多视图环境。空中图像下载,涵盖了纽约市和匹兹堡. 在每个纬度/经度坐标处,环境返回以该位置为中心的84×84航拍图像,其大小与地面视图图像相同,并根据探员往北走了。空中图像覆盖约0。001度的纬度和经度 空 间 差 异 训 练 集 由 四 个 区 域 组 成 : DowntownNYC、Midtown NYC、匹兹堡的Allegheny区和匹兹堡附近的CMU校园,而测试区域是一个固定的集合,位于NYU校园和纽约的联合广场周围,与训练区域不重叠(其大致位置见图1迁移学习设置。实际的传输任务包括三个阶段,培训、适应和转让。在训练阶段,智能体在一个区域中使用地面视图和空中视图观察进行训练,步骤为10亿步。在自适应阶段,智能体只接受鸟瞰图观察,并在目标传输区域中重新训练本地LSTM,步骤然后,智能体在转移区域中导航,只有地面观察,并不断训练。请注意,如果没有额外的鸟瞰图观察,代理不能在这样的3阶段设置中转移。我们通过跳过适应阶段进行消融研究(见第4.5节)。在这种情况下,智能体在训练区域中的两个视图上进行训练,并且仅使用地面视图观察来学习在目标区域中导航。在转移阶段,它在目标区域进行微调图4.代理在转移阶段在固定目标城市区域获得的奖励。代理人在转移过程中不断接受培训。奖励越高越好。建议的跨视图ap-proach显着优于单视图基线的初始和收敛奖励。左图放大了350M步内的奖励,这表明零杆奖励和学习速度都有显著提高。架构我们的模型是在[29]中使用的模型的扩展,该模型仅考虑了地面视图模态。为了有效地从结果中获得直觉,我们对所有网络使用与[29]相同类型的架构,并将我们的跨视图学习方法与[29]中提出的多城市导航代理进行比较(后者架构对应于图2中我们架构中的地面视图路径参 数 选 择 。 与 [29] 中 一 样 , 批 量 大 小 为 512 ,RMSprop使用初始学习率为0。001并且具有线性衰减;嵌入和策略蒸馏损失的系数被设置为λ=1和γ=1。4.2. 交叉视图与单一视图我们首先展示了图4中所提出的交叉视图方法和基线单视图方法在转移阶段获得的奖励。交叉视图智能体在适应阶段利用航拍图像来更好地适应新环境。然而,在转移阶段,两个智能体只观察地面视图。这与现实世界的场景一致,以及自上而下的空中视图并不总是以在线方式可用。在转移阶段,代理的本地LSTM正在重新培训;所有其他组件,如CNN和策略LSTM都被冻结。目标区域是固定的,目标从该区域随机抽样。不使用航向信息,因为在导航中并不总是保证有图4显示了在传输阶段通过交叉视图和单视图方法获得的奖励。我们放大了3.5亿步内的奖励,因为我们对迁移学习的早期表现更感兴趣。交叉视图方法在100M步处实现约190个奖励,在200 M步处实现280个奖励,这两者都显著高于单视图方法(50@100 M和200@200 M)。从图中可以看出,交叉视图方法的性能明显优于单视图方法,8106在早期阶段的学习速度。除了再训练之外,我们还进行了一项实验来评估零杆奖励或跳跃奖励[40],这是通过在目标区域测试智能体而获得的,而无需任何额外的再训练。零杆奖励平均超过350米的步骤。所提出的交叉视图方法实现了零杆奖励29,显著高于单视图方法获得的我们注意到,成功率与奖励是非线性相关的。所以我们也计算相应的成功率,定义为在一千步内成功达到的目标数交叉查看代理达到34. 5%的零投成功率,是单视图代理成功率的3倍以上(10. 5%)。我们将此归功于使用鸟瞰图像的适应阶段值得注意的是,交叉视图方法的收敛奖励也明显高于单视图方法(580vs.500),这表明交叉视图方法学习了更好的表示。上述结果表明,所提出的迁移学习允许智能体获得有关目标城市区域的知识,以便后续的导航可以从一个良好的初始状态开始,并且这些知识可以显着改善智能体的持续学习。实验结果还表明,所提出的交叉视图学习方法能够显着提高表示的泛化能力和街景智能体的可移植性。4.3. 课程和标题正如我们前面提到的,培训和适应阶段都使用预定义的课程和环境提供的标题信息,如下[29]。随着时间的推移,课程增加了与目标的距离;因此代理总是从更容易的任务(更接近目标)开始。这一次,我们在训练过程中加入了额外的航向信息,增加了一个辅助监督任务,该任务包括从观察中预测航向。以前的转移实验没有利用它们,因为航向在现实世界的情况下可能是不可用的;在本节中,我们将研究课程和标题信息如何影响智能体的性能。图5比较了四种不同方法的传输阶段奖励:单视图/交叉视图与课程,单视图/交叉视图与课程和航向预测辅助任务。 结果表明,在标题辅助任务下,智能体可以获得显著更高的绩效(在步骤350 M处约450奖励)。此外,单视图和交叉视图之间的差距是较小的航向信息。我们还观察到,无论课程设计如何,交叉视图方法都能成功学习。换句话说,我们的交叉视图架构通过在城市之间传递知识来弥补城市的缺乏奖励6005004003002001000电话:+86-0512 - 8888888传真:+86-0512 - 8888888步骤1e8图5.带课程和航向预测辅助任务的智能体转移奖励。当使用航向信息时,单视图和交叉视图方法之间的性能差距较小。航向预测也会带来更高的回报。在交叉视图方法中,线性增长并在200 M步长处达到约290,这与图4中所示的结果相当。然而,单视图代理的性能显着下降,没有训练课程。它在100 M步内未能达到超过50个奖励(图4中的深蓝色曲线),比用课程训练的奖励少30个(图5中的深蓝色曲线如果没有当前学习,单视图代理学习缓慢。4.4. 使用鸟瞰图进行一个重要的问题是基于鸟瞰图的迁移学习带来了多大的改进。图6比较了1)与鸟瞰图一起转移的交叉视图代理和2)跳过适配阶段的代理之间的转移阶段奖励。所有的转移都是使用课程进行的。我们还比较了有和没有标题预测的代理。图6表明,适应阶段是重要的,并导致更高的零触发奖励,更快的学习进度在初始阶段和更好的整体性能的代理。当航向信息在自适应阶段被丢弃时,自适应的效果变得更加不出所料,当代理人完全重新训练时,他们的表现在足够多的训练步骤后变得相当。4.5. 消融研究所提出的跨视图策略学习由多个组件组成:L2嵌入相似性损失、KL策略提取损失和视图丢失. 在本节中,我们将评估其中每个组件的贡献。单视图+课程交叉视图+课程单视图+课程+标题交叉视图+课程+标题奖励81076005005004004003003002002001001000电话:+86-0512 - 8888888传真:+86-0512 - 8888888步骤1e8图6.在迁移阶段(与课程学习)对跨视图代理进行或不进行适应阶段的奖励为了显示视图丢弃的强度,我们实现了另一种方法,该方法使用相同的L2嵌入之间的距离损失和政策logits之间的KL散度损失,但总是采取街景政策logits的动作选择(而不是随机丢弃任何一个视图)。在这种情况下,鸟瞰策略逻辑不参与决策制定。我们将此方法命名为图7显示了在课程和航向辅助损失1的情况下迁移的奖励。比较了三种交叉视图方法:(a)没有KL损失的全模型,(b)用视图蒸馏代替视图丢失的全模型,以及(c)全模型。根据该图,简单地使用L2嵌入损失而不使用KL策略损失不足以学习跨视图的良好可传输表示。它的结果明显比完整模型差。这可能是因为这两个视图之间的差异使得不可能将它们投影到同一空间中。它们的表现形式总是存在差异的,而且这种差异在通过政策网络后会扩大。具有额外的KL策略损失将允许学习的策略对特征表示中的这种小差异更鲁棒(或更不敏感)。人们还可能注意到,总是使用街景策略进行动作选择的代理(蒸馏)可以实现不错的性能,但仍然比使用视图丢弃的代理差得多。这些结果表明,L2嵌入损失和KL策略损失能够将街景智能体提取为良好的鸟瞰智能体。1无航向信息的转移趋势非常相似。0电话:+86-0512 - 8888888传真:+86-0512 - 8888888步骤1e8图7.消融术研究:在具有航向预测辅助任务的课程下调用智能体。然而,这种经过提炼的策略在不同的视图之间是不可互换的。训练一个具有视图丢失的代理可以被看作是用一个更困难的任务来代替导航任务,在这个任务中,代理必须学会在每一步快速切换上下文在这个更难的任务上训练的代理在观察模式上进行概括。5. 结论我们提出了一个使用辅助模态(或视图)的迁移学习的通用框架,由三个阶段组成:(a)用两种模式进行训练,(b)使用辅助模式进行适应,(c)使用主要模式进行转移。我们提出学习跨视图策略,包括学习联合嵌入空间,跨视图提取策略并丢弃模态,以便学习跨视图可互换的表示和策略我们在一个现实的导航环境StreetLearn上评估了我们的方法,并通过将导航策略转移到看不见的区域来证明其有效性。一个有趣的未来工作将是扩大该系统的规模,不仅覆盖城市地区,而且覆盖不同国家的农村地区另一种扩展是除了目标位置之外,还为智能体提供起始位置,这样问题就简化为学习找到从A到B的最佳路径,而不需要学习重新定位和找到A。毕竟,正如“耐力号”船员在成功穿越未知海域的过程中所发生的那样,导航员往往知道他们的起始位置,而有趣的问题是如何到达目的地。鸣谢。我们感谢卡尔·道施、拉亚·哈德塞尔、卡尔·莫里茨·赫尔曼、马林诺夫斯基和安德鲁·齐瑟曼的讨论和贡献。横视图+航向w/ adapt横视图+航向w/o adaptcross-vieww/ adaptcross-view w/o adapt嵌入+丢弃嵌入+策略+提取嵌入+策略+丢弃奖励奖励8108引用[1] Peter Anderson,Qi Wu,Damien Teney,Jake Bruce,Mark Johnson ,Ni k oSünderhauf,IanD. Reid,StephenGould ,andAnton van den Hengel.视觉和语言导航:在真实环境中解释视觉基础的导航指令。在CVPR中,第3674-3683页。IEEE计算机学会,2018年。[2] 吉米·巴和里奇·卡鲁阿纳深网真的需要深吗?神经信息处理系统的进展,第2654-2662页,2014年[3] Andrea Banino、Caswell Barry、Benigno Uria、CharlesBlun-dell 、 TimothyLillicrap 、 PiotrMirowski 、Alexander Pritzel、Martin J Chadwick、Thomas Degris、Joseph Modayil 、 Greg Wayne 、 Hubert Soyer 、 FabioViola、Brian Zhang、Ross Goroshin、Neil Rabinowitz、Razvan Pascanu、Charlie Beat- tie、Stig Petersen、AmirSadik 、 StephenGaffney 、 HelenKing 、 KorayKavukcuoglu、Demis Hassabis、Raia Hadsell和DharshanKumaran。在人工代理中使用网格状表示的基于向量的导航Nature,557(7705):429,2018.[4] Mayank Bansal,Harpreet S. Sawhney,Hui Cheng,andKostas Daniillem.利用航空影像资料库进行街景地理定位 。 在 Proceedings of the 19th ACM InternationalConference on Multimedia,MM'11,pages 1125-1128,New York,NY,USA,2011中。ACM。[5] 杰克·布鲁斯、尼克·桑德霍夫、皮奥特·米尔·奥斯基、拉亚·哈德塞尔和迈克尔·米尔福德。用于机器人导航的一次性强化学习与交互式重放。arXiv预印本arXiv:1711.10137,2017。[6] Devendra Singh Chaplot , Guillaume Lample , Kan-thashree Mysore Sathyendra ,and Ruslan Salakhutdinov.在3D环境中迁移深度强化学习:实证研究。在NIPS深度强化学习研讨会,2016年。[7] DevendraSinghChaplot、KanthashreeMysoreSathyendra 、 RamaKumarPasumarthi 、 DheerajRajagopal和Rus-lan Salakhutdinov。面向任务的语言基础的门控注意体系结构。在AAAI人工智能会议上,2017年。[8] Howard Chen , Alane Shur , Dipendra Misra , NoahSnavely,and Yoav Artzi.着陆:视觉街道环境中的自然语 言 导 航 和 空 间 推 理 。 arXiv 预 印 本 arXiv :1811.12354,2018。[9] Christopher J Cueva和Xue-Xin Wei.通过训练递归神经网络来执行空间定位,从而出现网格状表示。2018年国际学习代表大会[10] 阿 恩 D 埃 克 斯 特 罗 姆 , 雨 果 J 斯 皮 尔 斯 , Ve'roniqueDBohbot,和R Shayna罗森鲍姆。人类空间导航普林斯顿大学出版社,2018。[11] Lasse Espeholt,Hubert Soyer,Remi Munos,Karen Si-monyan,Volodymir Mnih,Tom Ward,Yotam Doron,Vlad Firoiu,Tim Harley,Iain Dunning,et al. Impala:可扩展的分布式深度学习,具有重要性加权的演员-学习者架构。在国际机器学习会议(ICML)的会议记录中,2018年。[12] Nuno C Garcia,Pietro Morerio,and Vittorio Murino.用于动作识别的多流网络模态蒸馏。在欧洲计算机视觉会议(ECCV)的会议记录中,第103-118页[13] Saurabh Gupta , David Fouhey , Sergey Levine , andJitendra Malik. 统一基于地图和地标的视觉导航表示arXiv预印本arXiv:1712.08125,2017。[14] Saurabh Gupta,Judy Hoffman,and Jitendra Malik.监督转移的交叉模态提取在IEEE计算机视觉和模式识别会议论文集,第2827-2836页[15] KarlMoritzHermann , MateuszMalinowski , P.Mirowski,Andras Banki-Horvath,Keith Anderson,andRaia Hadsell. 学习 在街 景中 遵循 指示 。arXiv预印 本arXiv:1903.00401,2019。[16] Geoffrey Hinton Oriol Vinyals和Jeff Dean。 提取神经网络中的知识。arXiv预印本arXiv:1503.02531,2015。[17] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。NeuralComputation,9(8):1735[18] 朱迪·霍夫曼,索拉布·古普塔,特雷弗·达雷尔。通过模态幻觉学习附带信息。在IEEE计算机视觉和模式识别会议论文集,第826-834页[19] KenKansky、TomSilv er、Da vidAMe'ly、MohamedEldawy、MiguelLa'zaro-Gredilla、XinghuaLou、NimrodDorfman、Szymon Sidor、Scott Phoenix和DileepGeorge。架构网络:直觉物理学生成因果模型的零发射传输。第34届机器学习国际会议论文集,第1809- 1818页。JMLR。org,2017.[20] Hyo Jin Kim,Enrique Dunn,and Jan-Michael Frahm.用于图像地理定位的学习上下文特征重加权。2017年IEEE计算机视觉和模式识别会议,第3251-3260页[21] Eric Kolve、Roozbeh Mottaghi、Daniel Gordon、YukeZhu、Abhinav Gupta和Ali Farhadi。ai 2-thor:一个交互式的3d环境。arXiv预印本arXiv:1712.05474,2017。[22] YannLeCun,Le'onBottou,YoshuaBengio,PatrickHaf fner等人。基于梯度的学习应用于文档识别。Proceedingsof the IEEE,86(11):2278[23] 弗拉德·昂Morariu和Larry S.戴维斯投影不确定性下的平面欧洲计算机视觉会议(ECCV),2014。[24] Yuncheng Li ,Jianchao Yang ,Yale Song, LiangliangCao,Jiebo Luo,and Li-Jia Li.用蒸馏从噪声标签中学习。在IEEE计算机视觉国际会议论文集,第1910-1918页[25] Tsung-Yi Lin , Yin Cui , Serge Belongie , and JamesHays.学习地对空地理定位的深度表示Boston,MA,
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功