没有合适的资源?快使用搜索试试~ 我知道了~
E NV EDIT: 一种增强环境编辑方法用于视觉和语言导航任务
15407训练环境测试环境环境级增强编辑样式编辑外观编辑对象类编辑合成环境(一)(b)第(1)款(c)第(1)款(d)其他事项(e)(f)第(1)款ENV EDIT:视觉和语言导航的环境编辑Jialu Li Hao Tan Mohit Bansal ChapelHill{jialuli,airsplay,mbansal} @ cs.unc.edu摘要在视觉和语言导航(VLN)中,智能体需要根据自然语言指令在环境中导航。由于智能体训练的可用数据有限,导航环境的多样性有限,智能体推广到新的、看不见的环境是一个挑战。为了解决这个问题,我们提出了E NV E DIT,一种数据增强方法,通过编辑现有环境来创建新的环境,用于训练更通用的代理。我们的增强环境可以在三个不同的方面与所看到的环境不同:风格,对象外观和对象类。在这些编辑增强环境上进行训练可以防止智能体过度拟合现有环境,并有助于更好地推广到新的、不可见的环境。从经验上讲,在Room-to-Room和多语言Room-Across-Room数据集上,我们表明我们提出的E NV E DIT方法在预训练和非预训练的VLN代理的所有指标上都得到了显着的改进,并在测试排行榜上达到了新的最先进水平。我们进一步集成的VLN代理增强不同的编辑环境,并表明这些编辑方法是互补的。11. 介绍视觉和语言导航(VLN)任务要求智能体基于自然语言指令在环境中导航。现有的视觉和语言导航数据集通常规模较小,并且由于这种数据收集的困难而包含有限数量的环境。然而,导航环境可能彼此差异很大。例如,室内导航环境可能在房间的风格、家具的布局和整个房屋的结构方面有所不同。这使得智能体很难适应以前看不见的环境。以前的作品[14,21,23,28,40,60,66]已经看到,代理执行子-1代码和数据可以在https://github上找到。 com/ jialuli-luka/EnvEdit.图1.我们通过编辑训练环境的样式(a,b),对象外观(c,d)和对象类(e,f)来创建合成环境。我们的合成环境在训练过程中作为环境级数据增强,并帮助代理在看不见的环境中基本上更糟,并且已经提出了许多深思熟虑的方法[18,22,37,41,56,61,62]来解决这个泛化问题。以前的工作之一是增加环境,以减轻环境偏见。例如,[56]建议在训练过程中放弃环境级特征。然而,这种特征丢弃的方法缺乏实际修改的环境的可解释性,代理从中学习以获得更好的泛化能力。[37]通过混合现有的训练环境,进一步创建域内增强数据,这有效地减少了VLN代理的泛化错误然而,这些混合环境并没有给现有环境带来不可见的变化或因此,在本文中,我们提出了创建新的环境,不同于原来的环境中的风格,外观和对象的风格转移和图像合成方法。另一项工作试图通过从大型图像-文本数据集[18,41]中进行预训练来解决环境偏见虽然15408虽然已经实现了有希望的性能,但是即使是[18]中的预训练数据,其是具有从AirBnB收集的帽的室内房间环境,仍然在两个方面不同于VLN在视觉和语言导航中,智能体感知全景视图并接收人类编写的语言指令,其中在[18]中,全景视图是具有相似语义的图像的串联,并且指令是基于模板的图像描述的混合这会导致预训练数据的域转移,并且可能无法很好地适应VLN任务。考虑到使用了大量的预训练数据,视觉和语言导航任务的性能增益仍然有限。为了应对这些挑战,在这项工作中,我们提出了ENV EDIT:用于视觉和语言导航的环境编辑我们的方法包括三个阶段。在第一阶段中,我们创建新的环境,保持原始环境的大部分语义信息,同时改变原始环境的样式,外观和对象类。这种约束使我们能够直接采用原始的人类注释语言指令用于新环境,并避免生成低质量的合成指令[63]。如图1所示,我们生成的合成环境在语义上与原始环境基本一致,但在其他方面差异很大例如,图1(a,b)中的整体风格和图1(c,d)中的对象外观是不同的,但合成环境的语义大多与原始环境匹配。同时,我们的合成环境也可以在对象语义上适度不同于原始环境(例如,图1(e)从墙上取下图片)。从这些合成环境中学习可以使智能体更好地理解视觉语义,并对不同环境中对象的外观变化具有更强的鲁棒性具体来说,我们采用风格转移[26]和形象合成[49]的方法来创造新的环境。在风格迁移中,新的迁移环境是通过从艺术绘画的学习嵌入分布中采样的风格嵌入来创建的在图像合成中,我们基于原始环境的语义分割来生成新的环境,这改变了对象的外观。我们进一步适度地编辑环境语义并改变对象(例如,从环境中移除灯)。在第二阶段,智能体学习从原始环境和我们前面提到的增强环境中导航给定的自然语言指令。在最后一个阶段,我们遵循[14,56]中的执行级数据增强设置,该设置使用扬声器为未标注的路径生成新指令以微调代理。但与[56]不同的是,我们的说话者意识到风格,并且可以根据环境的风格产生不同的我们在Room-to-Room(R2 R)数据集[2]和多语言Room-Across-Room(RxR)数据集[30]上进行实验实验结果表明,我们提出的ENV EDIT在 R2R测试排行榜上的成功率(SR)为1.6%,按路径长度加权的成功率(SPL)为1.4%,在RxR测试排行榜上的归一化动态时间规整(nDTW)为5.3%,按归一化动态时间规整(sDTW)我们进一步表明,我们提出的方法是有益的SotA预先训练的代理。我们的ENV EDIT在R2R测试排行 榜上 将SR 性能 提高 了3.2%, SPL性能 提高 了3.9% , 在 RxR 测 试 排 行 榜 上 将 nDTW 性 能 提 高 了4.7%,sDTW性能提高了6.6%最后,我们集成了在不同的编辑环境中增强的VLN代理,并表明这些编辑方法是互补的。2. 相关工作视觉和语言导航。许多任务设置,数据集和模拟器已经被提出用于视觉和语言导航(VLN)[2,4,7,19,27,42,44,48,55,57]。在本文中,我们关注Room-to-Room数据集[2]和Room-Across-Room数据集[30],它们具有不同语言的人工注释指令和Matterport3D中捕获的模拟环境[6]。为了解决这个具有挑战性的任务,基础代理包含用于语言和视觉环境之间跨模态对齐的跨模态注意模块,LSTM [20]和Transformer[58]基于网络来建模上下文历史并解码导航动作序列,并使用强化学习和模仿学习的混合来训练代理[31,34,40,56,60,65,67]。在本文中,我们在强基线模型EnvDrop [56]上构建了我们的方法,并进一步展示了我们的方法减轻环境偏见。泛化到不可见的环境是视觉和语言导航中的一个关键挑战,特别是对于现实世界的环境。已经提出了许多工作来减轻环境偏差并提高在看不见的环境中的性能[18,22,37,41,56,61,62]。一条工作线专注于功能级工程[56,61]。然而,这些方法缺乏对代理实际感知的新环境以及模型学习的跨环境语义信息的可解释性。另一种工作集中在对来自其他资源的大量图像-文本对进行预训练(例如,Web,图像标题数据集)或采用来自SotA视觉和语言转换器的预训练权重[35,39]将常识视觉和文本知识注入模型中,以更好地泛化到看不见的环境[9,18,22,41,46]。虽然15409k=1--风格转换模块图像合成模块风格编码器风格嵌入①............②&③. ……......屏蔽一个语义类......(白色标签)&我... ……............阶段1:环境编辑指示:向前走......第二阶段:航海训练转过身去...风格感知扬声器第三阶段:反向翻译图2.我们的ENVEDIT概览。在第一阶段,智能体使用风格转换和图像合成方法以五种方式编辑原始环境(第二节)。4).然后,智能体在原始环境和创建的环境下进行视觉和语言导航任务的训练(第二节)。3.2)。最后,一个风格感知的扬声器被用来生成用于反向翻译的未注释路径的合成指令(Sec. 3.2)。尽管预训练方法表现出良好的性能,但预训练数据仍然不同于视觉和语言导航中的全景观测和人工注释指令。为了解决预训练数据和VLN数据之间的域转移,我们提出使用风格转移和图像合成方法来增加现有的VLN数据与新的环境。视觉和语言导航中的数据扩充。视觉和语言导航任务的数据收集是资源消耗的。以前的数据扩充工作[14,56]建议训练一个扬声器,该扬声器从所看到的环境中给出未注释的路径来生成指令,并且[68]建议转移文本的风格以进行指令增强。然而,如何加强培训视野传统的数据增强方法包括随机裁剪、缩放、旋转、噪声注入、图像混合等.[25、32、45]。随着深度神经网络的进步,使用基于GAN [17]的方法进行数据增强变得流行[5,15,26,50,53,64,69]。遵循这一趋势,我们使用样式传输[16]和图像合成[49]来创建数据增强的新环境。3. 方法概述3.1. 问题设置视觉和语言导航(VLN)要求智能体根据自然语言指令在环境中导航。形式上,给定一个自然语言指令I,在每个时间步t,智能体感知当前位置的全景Pt,并且需要从一组K个可导航位置中挑选下一个视点更好的推广环境仍然没有得到充分的探索。[37]提出了一种有用的环境混合方法,解{gt,k}K.具体地,全景视图Pt被显示为:36通过混合来自不同环境的子路径来选择新路径然而,他们的方法仍然是有限的,由ex-absolutely-seen环境,因为他们只连接[29]首先尝试为视觉和语言导航综合现有环境并预测未来场景。与此相反,我们提出了ENV EDIT,它通过风格转移和图像合成方法为数据增强和代理泛化创建了新的环境计算机视觉中的数据增强。数据扩充技术是计算机领域中一项应用广泛的技术被分解为36个单个视图pt,ii=1。 每个视图表示ft,i是由预训练的视觉模型编码的其视觉表示vt,i与其编码航向θ t,i和仰角θ t,i信息的定向特征ot,i=(cos θt,i,sin θt,i,cos θt,i,sin θt,i)的级联。的可导航位置被表示为来自36个离散视图的最接近可导航方向的一个特定视图的视觉特征当导航结束时,代理将预测3.2. 培训程序我们的Enviramentediting(ENVEDIT)方法的概述如图2所示。它包括三个阶段。我们将在本节中简要介绍这三个阶段。15410i=1i=1Σ⃝联系我们环境创造。在第一阶段中,我们创建了多个环境,这些环境在风格、外观和对象类(在第4.1节和第4.2节中描述)方面与原始环境不同。我们采用[26]中的现成模型进行风格转换。对于图像合成,我们在Room-to-Room数据集中的所有可见环境上训练图像生成器和样式编码器[2]。视觉和语言导航训练。在第二阶段,智能体在原始环境和新环境中进行视觉和语言导航任务的训练。具体地,在一批N个搜索路径对中,一半的对将观察原始环境,另一半将感知编辑后的环境。这可以防止代理过度适应原始环境。采用模仿学习和强化学习的混合,如[56]。反向翻译。在 第三阶段,我们遵循[56]进行反向翻译,这会为来自具有扬声器的可见环境的未注释路径生成合成指令。代理在原始和新生成的搜索路径对上进行训练。[56]中使用的扬声器包括分层编码路由信息piL和上下文信息ciL的双层双向LSTM [20],以及传统的基于LSTM的解码器,其关注编码的上下文信息以生成合成指令。为了更好地服务于环境创建的目的,我们通过进一步结合路线的风格信息来具体来说,我们用路径上的起始视点的样式嵌入来初始化扬声器解码器x0= LSTM(w0,(hstyle,cstyle)) (1)(h样式,c样式)= FCLayer(s0)(2)36S的环境。在第4.2节中,我们使用图像合成来编辑环境的对象外观A,同时还提供了编辑样式S和对象O的选项。图2阶段1显示了不同类型的创建环境的示例。4.1. 风格迁移视觉和语言导航中的先前环境级数据增强方法主要集中于特征增强(即,将随机噪声直接添加到用预先训练的视觉模型编码的视觉表示)[56]和环境混合增强(即,混合来自两个训练环境的路径)[37]。虽然这两种方法都是有用的并且实现了有希望的结果,但是特征增强具有难以解释的问题,并且增强混合增强没有解决现有环境的限制,并且有时混合场景是不现实的(例如,从一个现代化的起居室导航为了解决这些问题,我们建议创建与原始环境语义一致但风格不同的新环境。我们创造的新环境可以潜在地模仿看不见的环境,并且与[37]相比保持原始环境的语义的主要优点是原始人类注释的语言指令可以直接适应具有高度对应性的新环境这消除了为新环境生成合成指令的需要[14,56],这已经证明比人类注释要差得多[63]。我们创建的新环境Est(st-S具体来说,我们遵循的方法[26]既有计算效率,又有高质量的输出。风格转换模型架构。我们使用的样式转换方法的体系结构如图2所示s=1样式编码器(o036k=10,k)(3)第一阶段第一排。内容图像由具有残余连接的基于CNN的架构编码。风格EM-其中o0,k是开始位置的离散化视图,w0是指令生成的开始令牌。 x0还涉及上下文信息{ci}L以预测寝具是从多元正态分布中采样的,其均值和协方差来自Painter By Numbers(PBN)的风格嵌入分布。指令中的下一个字i=1数据集2. 在解码期间,采样样式嵌入是由条件实例规范化合并[12]:4. 环境编辑在本节中,我们将介绍环境编辑x输出=γ样式 (xin−µin)+βσin风格(四)我们用来创造新环境的方法我们专注于编辑环境E的三个组件(S,A,O),其中S是环境的风格,A是对象外观,O是对象的类(指示其中,γ风格和β风格是通过将采样风格嵌入传递通过两个单独的全连接层来计算的,并且µin和σin分别是编码内容图像xin通过环境的语义分割掩码)。在第4.1节,我们介绍了用于编辑样式的样式转换2https://www.kaggle.com/c/painter-by-numbers15411i=1⃝⃝为1为2为1 为2--询问)通过从原始⃝⃝修正了离散化视图的样式 在每个时间步,智能体感知当前位置的全景视图Pt,其被离散化为36个单个视图Pt,i36。36个单视图彼此相关,并且在相邻视图之间存在重叠因此,为了在一个时间步长处保持全景视图中的视觉观察在风格上一致,我们从所有36个离散化视图的多元正态分布中采样相同的风格嵌入我们在第6.3节中展示了这种设置对于为代理创建有效的编辑环境4.2. 图像合成样式转换方法创建的环境保持了原始环境的语义,只改变了样式。然而,环境中物体的外观和因此,我们进一步探索通过创建新的环境,语义上类似于原始环境,但不同的风格和外观的对象与图像合成方法。我们探索了一种特定形式的条件图像合成,它生成一个新的逼真的图像条件上的语义segmenta- tion掩模。在该设置中,新环境的语义Eis受到原始环境的语义分割的约束,而对象的形状和外观A可以由模型产生(SO,A是1,Oo),它与原始环境的区别仅在于物体的外观。我们通过使用原始环境中的视图来创建这种作为样式图像以保持原始装饰的样式。第二种环境是E是2,具有组件(S是2,A是2,Oo),通过手动设置固定样式嵌入(例如,全零嵌入),生成器.这个新环境在样式和对象外观上都不同于原始环境Eo有了这两种环境,我们就能够分别探索风格S和对象外观A编辑对象。在创建了具有不同样式S和对象外观A的环境之后,我们进一步删除和更改原始环境中的一些对象(如图2阶段1第4行和第5行所示)。虽然在(文本引导的)图像操作中存在许多工作[3,8,10,11,13,33,38,43,47,54],但为了简单起见,我们通过修改原始环境的语义分割来改变对象。具体来说,假设原始语义分割包含C类,我们添加一个在训练过程中,我们从C类中随机选择一个类,并将其设置为“mask”类。在这种情况下,模型可以为“掩码”生成随机掩码课我们创造新的环境Em(SO,Am,Om)为1为1为1我们进一步探索生成具有不同-和Em(Sm,Am,Om)(Em–通过改变其中一个语义类,为2M为2为22是在语义分割中。在这两种情况下,合成环境与原始指令具有高度对应性,因为语义保持不变或仅与原始环境略有不同我们采用[49]的方法进行语义图像合成。模型架构。图像生成器是一个基于GAN的条件图像合成模型,如[49]所示具体来说,该模型包含几个ResNet块和上采样层。 SPADE块[49]用于学习用于规范化层的参数以语义分割掩码信息为条件。该模型在GAN铰链损失[36]和特征匹配损失[59]上进行训练。给定语义分割掩码,我们可以通过使用不同的风格嵌入作为生成器的输入来控制合成图像的风格。在[49]之后,我们学习了一个编码器,该编码器通过在训练期间添加KL发散损失来将样式图像映射到样式嵌入。编辑外观。使用图像生成器和样式编码器,我们创建了两种环境,可以编辑原始环境的外观(如图所图2阶段1行2和3)。第一种环境是E 是 1(图 像 合成) ,环境Eo. Em和Em的不同之处在于,Em保持了原始环境的风格,而Em改变了原始环境的所有三个组成部分Eo。样式更改由样式编码器的样式嵌入控制。5. 实验装置5.1. 数据集我们在Room-to-Room(R2 R)数据集[2]和Room-Across-Room(RxR)数据集[30]上评估我们的代理。R2R数据集包含英语指令,RxR数据集包含英语、印地语和泰卢固语指令。这两个数据集都被分成一个训练集、一个可见和不可见的验证集和一个测试集。未见过的验证集和测试集中的环境不会出现在训练集中。5.2. 评估指标我们用六个指标来评估我们的模型:(1)成功率(SR)。(2)路径长度加权成功率(SPL)[1]。(3)轨迹长度(TL)。(4)导航错误(NE)。(5)归一化动态时间规整(nDTW)[24]。(6)通过归一化动态时间扭曲(sDTW)加权的成功率[24]。 SR、SPL是评价的主要指标,15412为112为1为212121是1--环境组件ViT-B/32ViT-B/16模型样式外观对象TLNE↓SR↑SPL↑TLNE↓SR↑SPL↑[52]第五十二话✗ ✗ ✗14.3395.21451.345.815.8614.73455.148.8EStE 是1E是2Em为1Em为2✓✗ ✗✗ ✓ ✗✓ ✓ ✗✗ ✓ ✓✓ ✓ ✓14.73815.87115.42715.78817.9064.6314.7665.0494.9664.97956.556.254.254.254.250.749.848.549.747.616.58517.69015.27314.46414.2044.6904.7594.7674.6664.60758.256.456.257.356.151.548.949.651.150.8表1.用我们编辑的一种环境训练代理的性能。结果在R2 R val-unseen集上。ViT-B/32(16)表示使用不同CLIP-ViT模型提取的图像特征[51]。“*”表示重现结果。“”表示新环境的环境组件与原始环境不同,而“”表示相同。nDTW、sDTW是RxR数据集的主要详情见附录。6. 结果和分析在本节中,我们首先比较了我们在Sec中创建的不同环境中的训练性能。6.1.然后,我们表明,我们的方法可以推广到预先训练的导航代理在SEC。6.2.我们进一步表明,使用一个固定的风格的离散化的意见和我们的风格意识扬声器通过在第二节中的ablation的重要性。6.3 此外,我们证明,我们创造的环境是相辅相成的。6.4最后,我们展示了我们的模型我们将此归因于与图像合成方法相比,风格转移方法具有更高的环境创建质量。比较E为1和E为2,表明在修改ap的同时保持样式不变对于使用ViT-B/32特征训练的模型,对象的概率提高了2.0%的SR这是因为保持该风格的新环境将与原始指令具有更高的对应性,同时也足够不同。鉴于我们不为新环境生成合成指令(由于合成指令的质量较低[63]),重要的是要在与原始指令的匹配和新环境的多样性之间找到平衡。对于Em,Em观察到类似的结果。是1是 2房间数据集(秒)六点五我们展示了一些定性的我们在Sec中编辑的环境示例。六点六6.1. 环境编辑方法在环境创建阶段,我们使用第4.1节和第4.2节中描述的编辑方法创建风格、外观和目标不同的五种环境Est、Eis、Eis、Em、Em。我们在表1中展示了在R2R数据集上使用原始环境和一个新环境进行训练的性能。在这些实验中没有应用回译,可以在附录中找到。我们可以看到,使用任何新创建的环境进行训练都可以在验证不可见集上大幅超越基线模型。具体而言,仅在风格上与原始环境不同的Est环境实现了最佳性能,在SR中将ViT-B-32特征上训练的基线这表明,使用合成新环境增强训练环境有助于泛化到看不见的数据,而不管视觉特征如何。总体而言,比较使用风格转移方法Est创建的环境和使用图像合成方法{Eis,Eis,Em,Em}创建的环境,Est此外,比较 E是,Em,我们观察到从较小的补丁(ViT-B/16)中学习的功能可以从环境中对象的轻微移除或更改中受益。对于具有ViT-B/16特征的预先训练的VLN代理,观察到类似的性能改进(在第12节中讨论)。6.2)。最后,我们观察到,使用不同的视觉骨干(ViT-B/32和ViT-B/16)和不同的VLN基础模型(在第二节中讨论),6.2),不同的合成环境带来的改善是不一致的。例如,对于相同的基础代理EnvDrop,E上的训练是1 作品比在Em上训练ViT-B/32功能更好,ViT-B/16功能。我们将此归因于用不同的视觉主干提取的特征以详细分析见附录。考虑到不同的可视化主干和VLN基础模型的简单性和性能,我们建议在未来的研究中使用Est6.2. 预训练VLN代理在本节中,我们展示了我们的ENV EDIT对VLN预训练方法的复杂性。我们用我们的方法增强了SotA预训练VLN模型HAMT [9],并说明了对R2R数据集的改进。[9]的模型架构基于Transformer。SR和SPL的改善略高本文所用的图像特征是用CLIP算法15413↓ ↑↑为1↓ ↑↑↓ ↑↑为1为1↓ ↑↑为1为1型号TL NE SR SPLHAMT [9]--65.7 60.9东区-16 11.78 3.42 67.3 62.6E为1-16 11.23 3.52 66.8 62.112.133.22 67.9 62.9表2.将我们提出的方法应用于R2R验证未知集上的SotA VLN代理的性能。型号TL NE SR SPLEnvDrop-16磅 [52] 15.86 4.73 55.1 48.8东经-16 16.594.69 58.2 51.5Est-16 w/o固定视图16.79 4.70 55.9 48.8E -16 w/fixed env 14.36 4.70 55.8 49.5型号TL NE SR SPLEst-32 + BT 17.777 4.504 59.0 51.8Est-32 + BTS 15.9124.335 60.2 53.8Em-16 + BT 16.752 4.316 60.2 53.4Em-16 + BTS 17.9894.232 60.8 54.2表4. R2 R val-unseen集的消融结果显示了我们风格感知扬声器的型号TL NE SR SPLEst-ED 16.59 4.69 58.2 51.5Est+Eis+Em-ED 15.604.52 58.8 52.7StEst-32 w/o固定视图14.50 4.88 54.7 48.81为11为1为1Est-32 w/fixed env 17.39 4.87 55.0 48.5表3. R2 R val-unseen集上的消融结果说明了使用固定样式进行全景的好处。“-16” and “-32” indicateViT-B/16没有最后一个线性表示层。我们遵循他们的工作,为我们的创造环境提取视觉特征,并直接用ENVEDIT微调他们发布的预训练模型。如表2所示,8月-表5.在不同环境下训练的VLN特工的表现。“ED” and “H”indicates using EnvDrop and HAMT as the base navigationagents风格感知扬声器。 如表4所示,我们的风格感知扬声器将SR和SPL的性能提高了约1%,这两个功能(ViT-B/32和ViT-B/16)。这意味着显式地结合环境风格有助于生成与环境更好匹配的合成指令。此外,我们表明,我们的风格意识扬声器可以提高不同类型的cre的整体性能,用Em分割原始环境可以改善受限环境(即,Est,Em)。SR和SPL分别较基线降低2.2%和1.9%。增强与其他两个环境也可以提高基线超过1.5%,在SR和SPL。这证明了我们的方法适应强SotA VLN模型的有效性。6.3. 消融方法在本节中,我们展示了我们提出的方法的两个消融。我们首先表明,使用一个固定的风格,所有36个离散化的意见,全景是必不可少的创造新的6.4. 结合多种环境在本节中,我们将讨论我们对组合多个环境的初步探索,其中我们使用transmittance ensemble方法来提高整体性能。具体地说,代理根据所有集成模型预测的平均logits做出决策如表5所示,对于使用EnvDrop作为基础代理的代理,简单地将在三个编辑环境(Est、Eis、Em)上训练的VLN代理集成在一起可以稍微提高1是1代理商的环境。然后,我们表明,我们的风格意识的扬声器实现更好的性能时,用于回翻译相比,基线扬声器。修正了离散化视图的样式。如表3所示,当全景内的风格不同时(这表明,使用一个固定的风格的36个离散视图的全景是必不可少的性能改善,因为它提供了一致的视觉语义。此外,我们表明,保持一个固定的风格为整个环境(对于ViT-B/32特征观察到类似的结果这表明,在每个视点使用固定的样式可以在观察的一致性和在SR中整体性能提高了0.6%,在SPL中提高了1.2%。当使用HAMT作为基础剂时,观察到类似的在附录中,我们进一步探讨了在培训过程中使用适应性课程学习结合多种环境6.5. 测试集结果我们展示了我们的方法在房间到房间(R2R)和多语言房间到房间(RxR)排行榜上的表现。我们所有的代理都在单次运行设置下进行测试,其中代理只导航一次,并且不预先探索测试环境。在R2R数据集上,我们首先将ENV EDIT与非预训练方法进行比较。具体来说,我们将ENV EDIT应用于EnvDrop-CLIP [52],并训练模型风格上的差异和变化m为1ViT-B/16功能。如表6所示,在EEnvDrop-32毫米 [52] 14.34 5.21 51.345.8Em-H12.13 3.2267.962.9东经-32 14.744.63 56.550.7Est+Eis+E m-H11.133.2468.964.415414为11是1模型验证看不见的验证看不见的测试TLNE↓SR↑SPL↑TLNE↓SR↑SPL↑TLNE↓SR↑SPL↑[22]第二十二话11.132.90726812.013.93635712.354.096357[52]第五十二话------59.252.9--5953[18]第十八话11.092.68757011.784.01625612.414.136257[9]第九届全国人大常委会委员长会议11.152.51767211.462.29666112.273.936560[37]第三十七话10.882.4875.471.812.443.8963.657.913.113.8765.259.1我们14.643.3569.464.217.994.2360.854.216.844.3060.654.4我们的11.182.3276.973.911.133.2468.964.411.903.5968.263.9表6.在单次运行设置下,R2R数据集上的代理性能比较。这意味着VLN特工是经过预先训练的。模型验证看不见的验证看不见的SR↑公司简介SDTW↑SR↑公司简介SDTW↑SR↑公司简介SDTW↑[52]第五十二话---42.655.7-38.351.132.4[9]第九届全国人大常委会委员长会议59.465.350.956.563.148.353.159.945.2我们53.163.045.950.160.643.046.256.440.4我们的67.271.158.562.868.554.660.464.651.8表7.单次运行设置下RxR数据集上的代理性能比较。这意味着VLN特工是经过预先训练的。原始EstE是1m为16.6. 编辑环境的定性分析我们在表8中显示了一些编辑环境的示例。我们可以看到,使用风格转移方法(Est)生成的环境更好地使用图像合成AP生成的环境proach(E是1和E)改变对象的外观,M表8.我们编辑的环境的定性示例它在SR中比先前最好的非预训练方法(我们进一步将ENV EDIT调整为预训练的SotA模型HAMT [9]。表6中所示的模型是在Est、Eis和Em上训练的模型的集合。我们的ENV EDIT在SR和SPL中分别比HAMT高出3.2%和3.9%,并在排行榜上达到了新的SotA。在多语言RxR数据集上,我们首先将我们的ENVEDIT应用于非预训练的SotA模型EnvDrop-CLIP [52],在那里我们用多语言BERT替换基于LSTM的指令我们使用Est训练模型,并使用ViT-B/16提取视觉特征。如表6所示,我们的ENV EDIT在nDTW中超过先前最佳非预训练方法(“EnvDrop-CLIP”)5.3%,在sDTW中超过先前最佳非预训练方法(“EnvDrop-CLIP”)8.0%。我们进一步使我们的ENV EDIT适应预训练的SotA模型HAMT [9]。为了与HAMT进行公平的比较,我们使用ViT-B/32功能,并且不训练端到端的可视骨干。在三种编辑环境(Est,Eis,Em)上训练的VLN代理集成优于更接近真实的环境。例如,在Em的最后一行中,在图像生成期间掩蔽了机柜,这带来了环境中的更多多样性。7. 结论与讨论在本文中,我们提出了ENV EDIT,它通过编辑现有环境来增强视觉和语言导航训练。我们创建的环境在整体风格、对象外观和对象类上都与原始环境不同,从而可以模仿看不见的环境。我们在Room-to-Room和Room-Across-Room数据集上的实验表明,与预训练和非预训练方法相比,在编辑的环境中训练提高了所有评估指标的性能此外,我们集成了在不同编辑环境中训练的VLN代理,并表明这些环境是相互补充的。确认我 们 感 谢 审 稿 人 Jaemin Cho 、 Yi-Lin Sung 、Hyounghun Kim、Jie Lei和Zhenlin Xu提供的有益意见。这项工作得到了NSF- CAREER Award 1846185,ARO W 911 NF 2110220 , ONR N 000141812871 ,DARPA KAIROS FA 8750 -19-2-1004的支持,1是1在测试排行榜上,HAMT在nDTW中提高4.7%,在sDTW中提高6.6%,实现了RxR数据集的新SotA。Google焦点奖本文中包含的观点是作者的观点,而不是资助机构的观点。E为115415引用[1] PeterAnderson , AngelChang , DevendraSinghChaplot,Alexey Dosovitskiy,Saurabh Gupta,VladlenKoltun , Jana Kosecka , Jitendra Malik , RoosevehMottaghi , Manolis Savva , et al. On evaluation ofembodiednavigationagents.arXiv 预 印 本 arXiv :1807.06757,2018。5[2] Peter Anderson,Qi Wu,Damien Teney,Jake Bruce,MarkJohnson,NikoSünderhauf,IanReid,StephenGould,and Anton Van Den Hengel.视觉和语言导航:在真实环境中解释视觉基础的导航指令。在IEEE计算机视觉和模式识别会议论文集,第3674- 3683页,2018年。二、四、五[3] David Bau 、Alex Andonian 、 Audrey Cui、YeonHwanPark、Ali Jahanian、Aude Oliva和Antonio Torralba。用词作画arXiv预印本arXiv:2103.10951,2021。5[4] Matthew Berg,Deniz Bayazit,Rebecca Mathew,ArielRotter-Aboyoun,Ellie Pavlick,and Stefanie Tellex.地面语言的地标在任意的户外环境。2020年IEEE机器人与自动化国际会议(ICRA),第208-215页。IEEE,2020年。2[5] 克里斯托弗·鲍尔斯、陈亮、里卡多·格雷罗、保罗·本特利、罗杰·冈恩、亚历山大·哈默斯、大卫·亚历山大·迪基、玛丽亚·瓦尔德·埃尔的《她的女人》、乔安娜·沃德尔·瓦和丹尼尔·吕克特。Gan增强:使用生成对抗网络增 强 训 练 数 据 。 arXiv 预 印 本 arXiv : 1810.10863 ,2018。3[6] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niessner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport 3d:从室内环境中的rgb- d数据中学习。2017年3D视觉国际会议(3DV)。2[7] Howard Chen , Alane Suhr , Dipendra Misra , NoahSnavely,and Yoav Artzi.着陆:视觉街道环境中的自然语言导航和空间推理。在IEEE/CVF计算机视觉和模式识别会议的论文集中,第12538-12547页,2019年。2[8] Jianbo Chen , Yelong Shen , Jianfeng Gao , JingjingLiu,and Xiaodong Liu.基于语言的图像编辑与循环注意模型。在IEEE计算机视觉和模式识别会议论文集,第8721- 8729页,2018年。5[9] Shizhe Chen , Pierre-Louis Guhur , Cordelia Schmid ,and Ivan Laptev.历史感知多模态Transformer,用于视觉和语言导航。在NeurIPS,2021年。 二、六、七、八[10] Yu Cheng , Zhe Gan , Yitong Li , Jingjing Liu , andJianfeng Gao.用于交互式图像编辑的顺序注意gan。第28届ACM国际多媒体会议论文集,第4383-4391页,2020年5[11] 董浩、司淼宇、吴超、郭一珂。通过对抗学习进行语义图像合成。在IEEE计算机视觉国际会议论文集,第5706-5714页,2017年。5[12] VincentDumoulin 、 JonathonShlens 和 ManjunathKudlur。对艺术风格的博学的表现。ICLR,2017年。4[13] Alaaeldin El-Nouby,Shikhar Sharma,Hannes Schulz,De- von Hjelm , Layla El Asri , Samira EbrahimiKahou,YoonyBengio,and Graham W Taylor.讲述、绘制和重复:基于持续的语言教学生成和修改图像。在IEEE/CVF计算机视觉集,第103045[14] Daniel Fried 、 Ronghang H
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功