没有合适的资源?快使用搜索试试~ 我知道了~
7404视觉和语言导航Haoshuo Huang黄浩硕 VihanJain黄浩硕Harsh Mehta Alexander Ku Gabriel Magalhaes JasonBaldridge Eugene IeGoogle Research1600 Amphitheatre Parkway,山景城,CA 94043,美国{haoshuo,vihan,harshm,alexku,gamaga,jridge,eugeneie}@ google.com摘要视 觉 和 语 言 导 航 ( VLN ) 任 务 , 如 房 间 到 房 间(R2R),需要机器代理来解释自然语言指令,并学习在视觉上逼真的环境中行动,以实现导航目标。全面的任务需要在几个感知问题上的能力:成功的智能体结合时空、视觉和语言理解来产生适当的动作序列。我们的方法使预先训练的视觉和语言表示适应相关的域内任务,使它们对VLN更有效具体地,所述表示适于解决跨模态序列比对和序列一致性任务。在序列对齐任务中,模型确定指令是否对应于视觉帧序列在序列一致性任务中,模型确定感知序列在以预防为条件的潜在空间中是否通过转移域适应的表示,我们提高竞争力的代理在R2R衡量的成功率加权路径长度(SPL)度量。1. 介绍视觉和语言导航(VLN)需要计算代理来表示和集成这两种模态,并根据它们的内容、对齐和代理VLN数据集已经从简单的虚拟环境中毕业[26]到照片般逼真的环境,室内[2]和室外[10,7,19]。为了成功,VLN代理必须内部化(可能是嘈杂的)自然语言指令,计划动作序列,并在动态改变其视野中呈现的内容的环境中移动这些chal-challening设置使基于模拟的VLN工作更接近真实世界,基于语言的与机器人的交互[28]。伴随这些挑战而来的是机遇:前-*作者贡献均等。走过壁炉:玻璃桌图1:为了克服高质量人工注释数据的稀缺性,我们提出了辅助任务CMA和NVS,可以通过简单有效的负面挖掘来创建由同时在两个任务上训练的模型学习的表示,具有组合损失αL对齐+(1-α)L相干性,被转移到学习VLN导航任务的代理。这样训练的RCM代理[39]优于现有的已发布的最先进的代理。在根据示例性的预防-路径对训练代理之前,可以将充分的、预先训练的语言和视觉表示注入代理。房间到房间(R2R)数据集[2]的工作通常使用GloVe词嵌入[30]和来自深度图像网络的特征,如在ImageNet [31]上训练的ResNet [17]输入模态之间的关联基于共同注意,文本和视觉表示相互制约。由于轨迹跨越多个时间步,因此视觉上下文通常使用LSTM [20]等递归技术进行建模,这些技术将当前视野的特征与历史视觉信号和智能体动作相结合。两种模态的融合构成了智能体智能体依赖于这种信念状态来决定采取何种行动,通常依赖于策略梯度等强化学习技术[41]。不幸的是,由于域转移,预先训练的模型与R2R的指令和视觉观察结果不匹配:7405选项。此外,人工注释的数据收集成本很高,而且指令路径对相对较少(例如,R2R只有7,189条指令路径)。这大大降低了对导航任务本身进行微调[16,45我们的贡献是定义辅助的,歧视性的学习任务,利用代理培训之前我们的高质量增强策略适应了域外预训练的表示,并允许代理专注于学习如何行动,而不是在学习如何行动的同时努力桥接表示。它还允许我们对以前使用的生成策略的输出进行排名和更好地利用[14]。我们提出三个主要贡献。首先,我们定义两个域内辅助任务:跨模态对齐(CMA),涉及评估给定指令-路径对之间的拟合,以及下一个视觉场景(NVS),涉及预测路径中未来视觉输入的潜在表示。这两个任务都不需要额外的人类注释数据,因为它们都是使用Huang等人的廉价负面挖掘技术进行训练的。[22 ]第20段。其次,我们提出了在两个任务上训练模型的方法:CMA的基于 相似性 的评分和NVS 的对比 预测编码[36]。 在CMA和NVS上训练的模型不仅能够学习跨模态对齐,而且还能够正确区分Fried等人介绍的增强数据中的高质量和低质量的修正路径对。[14 ]第10段。最后,我们证明了通过该模型学习的表示可以转移到两个竞争性导航代理,Speaker-Follower [14]和ReinforcedCross-Modal [39],以优于其先前建立的结果。我们还发现,我们的域适应剂优于已知的国家的最先进的代理在SPL的5%的绝对措施的时间。2. 相关工作视觉和语言基础在计算机视觉和自然语言处理的交叉领域有很多先前的工作[42,23,27,21]。一类高度相关的任务围绕着为图像和视频生成字幕[12,13,37,38,44]。在视觉提问中[3,43]和Visual Dialog [9],模型通过共同接地视觉和语言生成单轮和多轮响应。与这些任务相反,VLN代理体现在环境中,必须结合语言,场景和时空理解。最近,在现实的3D环境中的智能体导航导航也受到了越来越多的关注[35,18,29,46]。随着Room的推出,视觉和语言导航的进步加快了到房间(R2R)数据集和相关的基于注意力的序列到序列基线[2]。Fried等[14]使用生成方法来增加搜索路径对,并提出了VLN的修改波束搜索Wang等人[39]介绍了围绕多奖励RL的创新,具有模仿学习和视觉和文本模态的共同基础。虽然这两种方法直接在导航代理中重用预训练的视觉和语言模块,但我们的贡献表明,这些预训练的组件可以通过在VLN代理中使用它们之前将它们适应相关的辅助任务来进一步增强3. 房间到房间数据集Room-to-Room(R2 R)数据集[2]基于Matterport 3D环境[6]中的90栋房屋,每栋房屋都由一个无向图定义。节点是捕获以自我为中心的照片般真实的全景图像的位置,并且边缘定义位置之间的连接数据集由与引用路径配对的语言指令组成,其中每个路径是图节点的序列。每个路径都与使用Amazon Mechanical Turk收集的3条自然语言指令相关联,平均令牌长度为29,来自3.1k个唯一单词的字典。收集的路径长度超过5米,包含4到6条边。数据集被分成一个训练集、两个验证集和一个测试集。一个验证集包括与训练集重叠的环境的新指令(验证可见),另一个与训练集完全不相交(验证不可见)。通过对验证未知集和测试集的评价,评估了智能体评估代理人绩效的方法包括:• 路径长度(PL)测量预测路径的总长度。(参考路径的长度是最佳的。)• 导航误差(NE)测量预测路径和参考路径中最后一个节点之间的距离。• 成功率(SR)测量预测路径中的最后一个节点在参考路径中的最后一个节点的某个阈值距离dth• 成功加权路径长度(SPL)[1]衡量是否满足SR成功标准,由归一化路径长度加权。SPL是对代理进行排名的最佳指标,因为它考虑了所采取的路径,而不仅仅是是否达到目标[1]。这对于使用波束搜索的R2R排行榜上的(无效)条目是明显的,这些条目通常实现高SR但低SPL,因为它们在停止之前四处徘徊。4. 挖掘负路径VLN任务由感知路径对组成,其中路径是连接位置及其相应感知上下文的序列。核心任务是训练代理人遵循所提供的指示。然而,辅助任务可以帮助适应域外语言,7406视觉表示与导航区域相关。在设计这些辅助任务时,我们遵循两个原则:它们不应该涉及任何额外的人工注释,并且应该使用和更新下游导航任务所需的表示我们的辅助任务的关键是观察到给定的人类生成的指令是特定于所描述的考虑到不同房间的属性和不同路径的轨迹的多样性和相对唯一性因此,给定视觉路径和高质量的人工生成指令,仅举几例,通过随机路径采样或从开始或结束节点随机游走,容易创建各种不正确的路径。对于给定的指令-路径对,我们通过保持相同的指令但以三种方式之一改变路径序列来对否定进行• 路径替换(PS):从相同的环境中随机选择其他路径作为底片。• 随机游走(RW):采样与原始路径相同长度的随机路径,这些随机路径(1)在相同位置开始,并在距离原始路径足够远的地方结束,或者(2)在相同位置结束,并在距离原始路径足够远的地方开始。我们使用5米的阈值来确保路径具有显著差异。• 部分重新排序(PR):保持路径中的第一个和最后一个节点固定,其余节点随机重排。这三种策略创造了越来越具有挑战性的负面例子。PS对在文本和感知序列之间只有偶然的连接,RW对共享一个或另一个端点,PR对在新的(和不连贯的)顺序中具有相同的5. 表示学习使用挖掘的负路径,我们为两个辅助任务训练模型,这些任务以互补的方式利用数据第一个是带有交叉模态对准模块的双塔模型[15,33]。该模型产生反映视觉和语言序列之间的语义相似性的相似性分数。第二个模型是通过预测未来视觉场景的潜在表征来优化成对序列连贯性的模型,条件是语言序列和部分视觉序列。此外,我们还在这两个任务上训练了这些模型,并进行了合并损失。这将表示微调到与R2R数据集相关的特定于域的语言和内部环境,并将语言与智能体在完整导航问题期间将经历的视觉场景相5.1. 任务1:交叉模态对准(CMA)智能体使用语言指令在视觉环境中导航的能力与其在两种 给出一个指令,比如“右转,绕着床向前走,进入浴室,在那里等着。“,智能体应该将单词bed与智能体的自我中心视图中具有bed的路径上的位置相匹配;这样做将有助于确定代理的方向并允许其更好地遵循进一步的指令。为此,我们创建了一个跨模态对齐任务(表示为CMA),涉及到歧视积极的预防路径对从消极的对。判别模型是基于一个基于相似性的分数,鼓励模型映射感知和文本信号在两个序列。5.2. 任务2:下一个视觉场景(NVS)感觉和运动处理的研究表明,人类大脑预测(预期)未来状态,以帮助决策[11,5]。同样,代理可以ben-efit,如果他们学会预测预期的未来状态给定的当前上下文在一个给定的点在导航过程中。虽然预测高维未来状态具有挑战性,但对比预测编码(CPC)[36]通过在较低维的潜在空间中工作来规避这一点使用CPC,我们在适应模型中添加了概率对比损失。这诱导了一个潜在空间,该空间捕获用于预测未来视觉观测的视觉信息,使视觉网络能够适应R2R环境。在NVS任务中,模型从消极的CMA被用作计算InfoNCE损失的负数[36]培训期间(详见下一节)。5.3. 模型架构为了与导航代理模型保持一致(第6),我们使用两个塔架构来编码两个序列,其中一个塔编码指令中的令牌序列,另一个塔编码视觉序列。语言编码器。指令X=x1,x2,.,x n用预先训练的GloVe词嵌入初始化[30]。这些嵌入被微调以解决辅助任务,并转移到代理以进一步微调以解决VLN挑战。我们将GloVe词汇限制为在训练指令中至少出现五次的标记。所有词汇表外标记都映射到单个词汇表外标识符。令牌序列使用双向LSTM [32]进行编码,以创建HX如下:7407t−11 2Nttt−1H X=[h X; h X;. ;hX](1)其中vt+k是时间步t+k处视觉输入的潜在表示,hV是视觉编码器LSTMhX−→X←−Xt不 =σ(ht,ht)(2)在总结所有v≤t的时间步长t,Wk是可学习的−→X−→X对于不同的k值,参数是不同的(我们ht=LST M(xt,ht−1)(3)←−←−在我们的实验中选择k = 1,2)。对于给定的hV,hX=LST M(xt,hX)(4)tt t+1其中σ函数用于组合前向和后向LSTM层的输出。视觉编码器。如Friedet al. [14],在每个时间步长t,智能体感知其当前位置处的360度全景视图。该视图被离散为k个视角(在我们的实现中k=36,3个仰角乘12个航向,间隔为30度)。在视角i、航向角φ和仰角θ处的图像由预训练的CNN图像特征与4维方向特征[sinφ;cosφ; sinθ; cosθ]的级联表示以形成vt,i。 视觉输入序列V = v1,v2,...,使用LSTM对v m进行编码,以创建以下H V:H V=[h V; h V;. ;hV](5)恰好是集合F中的一个正样本,负样本样本可以从第二节中挖掘的负向抑制路径对中选择。4.第一章方程中的损失10是正确分类阳性样本的类别交叉熵。最后,训练模型以最小化αL对齐+(1− α)L相干性的组合损失。6. 导航代理为了与已建立的模型进行比较,我们reimplement-mented弗里德等人的Speaker Follower代理。[14](在此记为SF代理)和Wang等人的增强跨模态匹配代理。[39](从这里表示为RCM代理)用于我们的实验。6.1. 导航器1 2mhV=LST M(v,hV)(6)导航器学习参数θ上的策略πθ,将自然语言指令X和初始视觉场景v1映射到动作序列a1.T. 语言和其中vt=注意力(hV,v t,1.. k)注意力集中导航器的视觉编码器与所描述的相同使用先前座席状态ht-1作为查询。训练损失。对于CMA,基于相似性的相似性得分计算如下:A=HX(HV)T(7)l=X l l节中五点三。代理在时间t时可用的操作表示为Ut,1.其中ut,j是从当前位置开始的可导航方向j的表示,类似于v t,i[14]。可用操作的数量l因位置而异,因为图形节点连接性不同。如[39]所示,该模型使用双线性点积预测每个可导航方向d的概率pd{c}l=1=softmax(A)·Ascore= softmin({c}l=X)·{c}l=X(八)(九)l=1l=1p =softmax([h V;ctext;cvisual]W(u(12)dtttct,d uctext=注意(hV,hX)(13)其中(?T是矩阵转置变换,A是对齐-tt1.. nlcvisual= Attention(ctext,v t,1.(14)维数为[n,m]的元素矩阵,A是第l个t tA中的行向量。当量8对应于带着softmax列并对列求和。这相当于基于内容的逐列池。然后我们沿着行应用软最小运算,并将行相加以获得等式中的标量9 .第九条。直观地,最大化正向排列路径对的该得分鼓励学习算法在潜在空间中构建两个序列之间的最佳最坏情况序列比对CMA的训练目标是最小化交叉熵损失L对齐。NVS的InfoNCE [36]损失计算如下:6.2. 学习SF代理使用学生强制[14]进行训练,其中在训练期间从模型中采样动作,并使用最短路径动作进行监督以达到目标。对于RCM代理,学习在两个单独的阶段中执行,(1)行为克隆[4,39,8]和(2)REIN-FORCE策略梯度更新[41]。代理商L相干性= −EF7408不不不Σ对数ΣΣf(vt+k,hV)f(vj,hV)(十)使用行为克隆进行初始化,以最大限度地使用可用的专家演示。该阶段将学习算法约束为首先对状态-动作空间进行建模,vj∈Ftf(vt+k,hV)= exp(vt+kTWk hV)(11)最相关的任务,有效地热启动代理与良好的初始政策。不需要奖励整形7409在此阶段,行为克隆对应于解决以下最大似然问题:ΣMaxθ(s,a)∈Dlogπ θ(α|(15)其中D是演示数据集。一旦模型被初始化为一个合理的政策与行为克隆,我们进一步更新模型,通过标准的政策梯度更新的采样动作序列从代理与标准策略梯度更新一样,该模型最小化损失函数LPG,其梯度是负策略梯度估计器[41]:LPG=−Et[logπθ(at|(16)其中,期望E_t是在由代理的随机策略π θ生成的有限批样本轨迹上进行的此外,为了减少方差,我们缩放了梯度-使用优势函数的分量At=Rt−bt,其中表1:不同数据集组合的训练结果以及仅包含PR和RW阴性的验证数据集的评价结果学习率为10−2,每50万步以0.8的速度衰减。SF导航代理使用Momentum优化器进行训练,而RCM代理则进行训练使用Adam优化器,学习率以每20万步0.5我们使用的学习速率10−5在代理训练期间,如果代理是热启动的,Rt=∞I=tγi−tri是观测到的γ-折扣情景在辅助训练上训练的模型的预训练组件return,并且Rbt是代理在时间t的当前状态的估计值类似于[39],在长度为T的剧集中,时间步长t处的即时奖励由下式给出:.任务,否则我们使用10- 4的学习率。7.2.辅助任务最近,Friedet al. [14]引入了一个增强数据集(从现在开始称为Fried-Augmented)r(s,a)=d(s t,r|R|)−d(s t+1,r|R|)如果t T(十七)这是通过使用扬声器模型生成的,t tn[d(s T,r|R|如果t= T,其中d(s,t,r|R|是s t和目标位置r之间的距离|R|,n[·]是指示函数,d th是到r的最大距离|R|代理被允许终止以被认为是成功的。模型使用小批量梯度下降进行训练对于RCM代理,我们的实验表明,交错的行为克隆和策略梯度训练阶段提高了验证集上的性能。具体而言,我们将每个策略梯度更新批次与K个克隆批次交错,其中K的值按指数衰减,使得训练策略渐近地变为仅策略梯度更新。7. 结果7.1. 实验装置在我们的实验中,我们使用2层双向LSTM作为指令编码器,其中LSTM单元的大小在每个方向上为256个单元。编码器的输入是使用GLoVe初始化的300维嵌入,并在训练期间进行微调。对于视觉编码器,我们使用一个2层LSTM,单元大小为512个单元。编码器输入是如在第2.2节中提到的那样导出的图像特征。五点三。跨模态注意力层的大小为128个单位。为了在辅助任务上训练模型,我们使用Momentum优化器用原始数据和机器生成的增强数据训练的模型提高了代理成功率。在手动检查时,我们发现虽然Fried-Augmented中的许多路径都有明确的开始或结束定义,但指令的中间部分通常是在这里,我们证明了我们在CMA上训练的模型能够在Fried-Augmented中区分高质量和低质量的增强路径对。与原始R2R数据集[2]一致,我们创建了三个针对第5节中定义的每个负采样策略进行分割-来自R2R训练分割中的路径的训练集、来自R2 R验证可见中的路径的验证可见集以及来自R2 R验证不可见分割中的路径的原始R2R数据集中的路径被用作阳性,每个阳性有10个阴性,其中4个阴性使用PS采样,3个阴性分别使用RW和PR采样。在任务CMA上训练的模型学习区分对齐的修正路径对和未对齐的路径对。我们还研究了表1中总结的三种负采样策略。评分生成指令。我们使用这个经过训练的模型来对Fried-Augmented中的所有路径进行排名,并在数据的不同部分上训练RCM代理表2给出了使用最佳1%与最差的1%,最好的和最差的2%。使用高质量的PSPRRWAUC✓64.5✓60.5✓63.1✓✓72.1✓✓66.0✓✓70.8✓✓✓72.07410验证看不见的验证数据集大小策略PLNE↓SR↑SPL↑PLNE↓SR↑SPL↑1%顶部11.18.521.217.611.28.520.416.6底部10.79.016.313.110.88.915.414.12%顶部11.77.925.521.011.38.222.318.5底部14.59.117.712.711.48.417.514.1表2:当使用一小部分Fried-Augmented训练时,验证可见和验证不可见的结果按CMA上训练的模型给出的分数排序。SPL和SR报告为百分比,NE和PL报告为米。右转,然后离开。他的门.一旦12号出局反过来右,然后转到走廊1 2 3 4 5 6 1 2 3 4 5 63 4和右转、进入卧室和停止.5 6(一)(b)第(1)款图2:对齐矩阵(等式2)7)对于在包含(a)PS、PR、RW阴性(b)仅PS阴性的数据集上训练的模型。请注意,颜色越深意味着对齐度越高。那些使用低质量样本训练的人。请注意,在这两种情况下,性能都很低,因为没有使用原始的人类创建的指令-重要的是判断较高或较低的示例之间的相对性能。这清楚地表明,该模型有效地对预防路径对进行了评分可视化跨模态对齐。图2给出了对准矩阵A(等式2)。7)从针对给定的指令路径对在CMA上训练的模型,以尝试更好地理解模型如何学习以如假设的那样对齐两个模态。作为比较点,我们还绘制了在仅具有PS阴性的数据集上训练的模型的对齐矩阵 虽然对PR和RW阴性进行评分可能需要仔细比对配对中的完整序列,但通过仅关注路径上的第一个或最后一个位置来对PS阴性进行评分更容易。预期在仅包含PS阴性的数据集上训练的模型将利用阴性中的这些容易找到的模式,并且在不仔细注意完整的预测路径序列的情况下进行预测。该图显示了两种型号的跨模态对齐之间的差异。虽然对于仅用PS阴性训练的模型,两个序列之间没有明显的比对(除了可能接近序列的末端,如预期的那样),但是对于在CMA中对所有阴性训练的模型,在比对中存在可见的对角模式。事实上,在两个序列的正确位置上存在明显的对齐,短语exit the door与包含对象door的路径中的图像对齐,并且对于短语enter thebedroom也是类似的。增加相干损失的改进。最后,我们证明了在CMA和NVS上训练模型同时提高了模型在CMA上单独评估时的性能。 该模型使用组合损失αL对齐+(1 − α)L相干(α = 0)进行训练。5,并评估其区分正确的不正确的修正路径对的能力。 如前所述,PS阴性更容易区分,因此,为了保持任务的挑战性,验证集仅限于包含来自7411培训Val. 看到Val. 看不见CMA82.672.0NVS63.062.1CMA+ NVS84.079.2表3:当模型在两个任务的不同组合上训练并在仅包含PR和RW阴性的数据集上评估时的仅PR和RW阴性采样策略。ROC曲线下面积(AUC)被用作评价指标。表3中的结果表明,添加L相干性作为辅助损耗将模型在CMA上的性能提高了7%的7.3. 将学习转移到导航AgentRCM导航代理中的语言和视觉编码器6)从同时在CMA和NVS上训练的模型热启动。然后,允许代理在R2R训练和Fried-Augmented上进行训练,就像其他现有的基线模型一样。我们称这个代理ALTRVLN任务的标准测试场景是在可见的环境中训练代理,然后以零射击的方式在以前看不见的环境中测试它在测试集上没有预先探索。这个设置能够清楚地衡量导航策略的通用性,我们只在这个标准测试场景下评估我们的ALTR代理。7.4. 与SOTA的比较表4显示了我们的ALTR代理与先前的最新技术水平(SOTA)方法在R2R数据集的测试集上的性能比较我们的ALTR代理在SPL(R2R的主要指标)上显著优于SOTA,将其提高了5%的绝对测量值,并且具有最低的导航误差(NE)。它还将SR的其他两个最佳模型与RCM相比,我们的ALTR代理能够学习更有效的策略,从而缩短到达目标状态的轨迹,如其较低的路径长度所示。图3比较了来自RCM基线和我们的ALTR代理的一些示例路径,说明ALTR代理通常更接近真实路径,并且与RCM代理相比加倍较少。值得注意的是,R2 R排行榜中有一些模型在提交之前使用波束搜索和/或探索测试环境。为了进行公平的比较,我们只与像我们这样的模型进行比较,这些模型在没有预先探索测试环境的情况下(根据VLN挑战提交指南)每个样本返回一个轨迹。在下一节中,我们将展示我们的迁移学习表4:R2R排行榜测试集的比较。我们的导航模型受益于转让学习representations和优于已知的SOTA SPL。SPL和SR报告为百分比,NE和PL报告为米。图3:比较参考路径(蓝色)、来自RCM基线代理(红色)和我们的ALTR代理(橙色)的路径的这种方法 改进了Speaker-Follower代理 [14]。总的来说,这种策略是对其他代理商改进的补充,因此它也可能会帮助其他代理商。7.5. 消融研究第一个消融研究分析了每个任务的有效性,分别在学习表示,可以受益于导航代理。由于智能体因达到目标而获得奖励(等式10)。17),我们期望SR结果与我们的培训目标保持一致。表5显示,当使用同时在两个任务上学习的表示进行初始化时,代理当联合预训练CMA和NVS时,我们看到SF和RCM代理的SR一致提高了11-12%,并且代理的路径长度也得到了提高,从而也提高了当仅预训练CMA时,我们看到一致的8-9%的改进模型PLNE↓SR↑SPL↑随机[2]9.899.7913.212.0Seq-to-Seq [2]8.137.8520.418.0[40]第四十话9.157.5325.323.0[第14话]14.86.6235.028.0自我监控[24]18.05.6748.035.0[39]第三十九话12.06.1243.138.0[25]第二十五话13.75.6948.040.0ALTR(我们的)10.35.4948.045.07412验证看不见的验证方法CMANVSPLNE↓SR↑SPL↑PLNE↓SR↑SPL↑[14]第十四话--3.3666.4--6.6235.5-[39]第三十九话-12.13.2567.6-15.06.0140.6-✗✗15.94.9051.943.015.66.4036.029.0✓Speaker-Follower(我们的)✗14.95.0450.239.216.85.8539.126.8✗✓16.55.1248.734.918.06.3034.920.9✓✓11.34.0660.855.914.66.0640.031.2✗✗13.74.4855.347.914.86.0041.132.7✓RCM(我们的)✗10.25.1051.849.09.55.8144.842.0✗✓19.56.5334.620.818.86.7933.720.6✓✓13.24.6855.852.79.85.6146.143.0表5:R2R确认可见集和确认不可见集上的消融,显示了预训练任务的不同组合的VLN结果SPL和SR报告为百分比,NE和PL报告为米。验证看不见的验证图像编码器语言编码器PLNE↓SR↑SPL↑PLNE↓SR↑SPL↑✗✗13.74.4855.347.914.86.0041.132.7✓✗15.95.0550.638.214.95.9442.533.1✗✓13.84.6856.346.613.55.6643.935.8✓✓13.24.6855.852.79.85.6146.143.0表6:消融显示了在我们的RCM代理的每个分支中调整(或不调整)学习的表示对验证可见和验证不可见的影响。SPL和SR报告为百分比,NE和PL报告为米。SF和RCM代理的SR中。当仅预训练NVS时,我们看到性能下降。由于在NVS中没有跨模态组件来训练语言编码器,因此单独在NVS上训练无法为需要跨模态关联的下游导航任务提供良好的初始化点然而,NVS和CMA的预训练共同为模型提供了额外的机会来改善仅视觉预训练(由于NVS),而不会影响跨模态对齐(由于CMA)。第二次消融分析了将表征转移到语言和视觉编码器中的任何一个表6显示了RCM试剂的结果。学习到的表示帮助智能体对以前看不见的环境进行概括。当编码器中的任一个被热启动时,代理在验证看不见的数据集上优于基线成功率在没有学习到的表示的情况下,代理在可见环境上过度拟合,因此在验证可见数据集上的性能提高。在具有至少一个编码器热启动的代理中,具有两个编码器热启动的代理在验证不可见数据集上具有显著更高的SPL(7%+)这两项研究的结果表明,这两个任务,CMA和NVS,学习互补的表示,有利于导航代理。此外,代理人当两个编码器都从所学习的表示热启动时,益处最大。8. 结论我们展示了在两个互补的辅助任务,跨模态对齐(CMA)和下一个视觉场景(NVS)上训练的模型,学习可以转移到导航代理的视觉和文本转移的我们的ALTR我们希望我们的方法是最新的国家的最先进的Tan等人的补充。[34]。与我们的工作类似,可以设计其他辅助任务,而不需要任何额外的人工注释。在任务上训练的评分模型还具有其他功能,如跨模态对齐。我们希望这可以帮助改进生成额外的配对路径对的方法。它还可以让我们自动分割长的防御路径序列,从而为智能体训练创建一个由易到难的任务课程。对于未来,希望联合训练代理与辅助任务。7413引用[1] PeterAnderson , AngelChang , DevendraSinghChaplot,Alexey Dosovitskiy,Saurabh Gupta,VladlenKoltun , Jana Kosecka , Jitendra Malik , RoozbehMottaghi,Manolis Savva,and Amir R.扎米尔嵌入式导航代理的评价。2018. arXiv:1807.06757 [引文AI]。2[2] Peter Anderson,Qi Wu,Damien Teney,Jake Bruce,MarkJohnson,NikoSünderhauf,IanReid,StephenGould,and Anton van den Hengel.视觉和语言导航:在真实环境中解释基于视觉的导航指令。在IEEE计算机视觉和模式识别会议(CVPR)上,2018年。一、二、五、七[3] S. Antol,A. Agrawal,J. Lu,M.米切尔,D。巴特拉角L. zitnick和D.帕里克VQA:可视化问答。2015年IEEE国际计算机视觉会议(ICCV),第2425-2433页,2015年12月。2[4] Michael Bain和Claude Sammut行为克隆的框架。在机器智能15,智能代理[圣。Catherine's College,Oxford,July 1995],pages 103-129,Oxford,UK,UK,1999.牛津大学4[5] Andreja Bubi,D Cramon和Ricarda Schubotz。预测,认知和大脑。Frontiers in human neuroscience,4:25,032010. 3[6] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niessner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport 3D:从室内环境中的RGB- D数据中学习2017年3D视觉国际会议(3DV)。2[7] Volkan Cirik,Yuan Zhang,and Jason Baldridge.在街道模拟环境中遵循公式化的地图指示2018年NeurIPS视觉接地交互和语言研讨会,2018。1[8] Shreyansh Daftry,J.安德鲁·巴格内尔和马夏尔·赫伯特。单目反应式MAV控制的学习可转移策略。CoRR,abs/1608.00627,2016。4[9] Abhishek Das , Satwik Kottur , Khushi Gupta , AviSingh , Deshraj Yadav , Jose´ M.F. Moura , DeviParikh,and Dhruv Batra. 可视对话框。在IEEE计算机视觉和模式识别会议(CVPR)上,2017年。2[10] Harm de Vries , Kurt Shuster , Dhruv Batra , DeviParikh,Ja- son Weston,and Douwe Kiela.谈论步行:通过 地 面 对 话 导 航 纽 约 市 。 CoRR , abs/1807.03367 ,2018。1[11] 马西米利亚诺·迪卢卡和达伦·罗兹最佳感知时机:整合感官信息与动态更新的期望。科学报告,6:28563,2016年7月。3[12] J. 多纳休湖A. 亨德里克斯M.Rohrbach,S.VenugopalanS.瓜达拉马湾Saenko和T.达雷尔。用于视觉识别和描述的 长 期 回 流 卷 积 网 络 。 IEEE Transactions on PatternAnalysis and Machine Intelligence,39(4):677-691,2017年4月。2[13] H. Fang,S.古普塔F.扬多拉河K.斯利瓦斯塔瓦湖作者:J.Gao、X.他,M。米切尔,J。C.普拉特角L. Zitnick和G.茨威格从标题到视觉概念再到后面。74142015年IEEE计算机视觉和模式识别会议(CVPR),第1473-1482页,2015年6月。2[14] Daniel Fried 、 Ronghang Hu 、 Volkan Cirik 、 AnnaRohrbach 、 Jacob Andreas 、 Louis-Philippe Morency 、Taylor Berg- Kirkpatrick 、 Kate Saenko 、Dan Klein 和Trevor Darrell。用于视觉和语言导航的说话者跟随者模型在神经信息处理系统(NeurIPS),2018年。二、四、五、七、八[15] Daniel Gillick , Alessandro Presta , and Gaurav SinghTomar. 连续空 间中的端 到端检索 。2018. arXiv:1811.08008 [cs.IR]。3[16] 罗斯湾Girshick ,Jeff Donahue,Trevor Darrell ,andJitendra Malik.丰富的功能层次结构,用于准确的对象检测和语义分割。在2014年IEEE计算机视觉和模式识别会议,CVPR 2014,Columbus,OH,USA,2014年6月23-28日,第5802[17] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在2016年IEEE计算机视觉和模式识别会议,CVPR 2016,美国内华达州拉斯维加斯,2016年6月27-30日,第770-778页,2016年。1[18] 放大图片作者:Thomas M.Howard,Nicholas Roy,Anthony Stentz,and Matthew R.Walter. 在未知环境中遵循自然语言方向的学习模型。在IEEE机器人与自动化国际会议,ICRA 2015,美国华盛顿州西雅图,2015年5月26- 30日,第5608-5615页,2015年。2[19] Karl Moritz Hermann , Mateusz Malinowski , PiotrMirowski , Andras Banki-Horvath , and Raia HadsellKeith Ander-son. 学 习 在 街 景 中 遵 循 指 示 。 CoRR,abs/1903.00401,2019。1[20] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经元计算,9(8):1735-1780,Nov. 1997. 1[21] 胡荣航马库斯·罗尔巴赫和特雷弗·达雷尔。从自然语言表 达 中 分 割 。 InComputer Vision-ECCV 2016 - 14thEuropean Conference,Amsterdam,The Netherlands,October 11-14,2016,Proceedings,Part I,pages 108-124,2016. 2[22] Haoshuo Huang , Vihan Jain , Harsh Mehta , JasonBaldridge,and Eugene Ie.视觉与语言导航的多模态判别模型在空间语言理解(SpLU)和机器人地面通信(RoboNLP)联合研讨会的会议记录中,第40-49页,明尼阿波利斯,明尼苏达州,2019年。计算语言学协会2[23] Andrej Karpathy和Fei-Fei Li。用于生成图像描述的深度视觉语义在CVPR中,第3128-3137页。IEEE计算机学会,2015年。2[24] Chih-Yao Ma , Jiasen Lu , Zuxuan Wu , GhassanAlRegib , Zsolt Kira , Richard Socher , and Caimin
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功