基于轨迹规划和目标位置线索的视觉和语言导航优先图

142 浏览量更新于2023-10-16 收藏 870KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1094基于轨迹规划和目标位置线索的视觉和语言导航优先图Jason Armitage苏黎世jason. uzh.ch英国剑桥大学li222@cam.ac.uk瑞士苏黎世大学sennrich@cl.uzh.ch摘要在一条繁忙的城市街道上，一个被分心包围的行人可以挑选出一个单一的标志，如果它与他们的路线有关人工智能体在户外视觉语言导航中也面临着检测输入中环境特征和位置的监控信号。为了在不进行昂贵的预处理和预训练的情况下，在基于Transformer的系统中提升相关特征的突出性，我们从优先级图中获得灵感-这是神经心理学研究中描述的一种机制。我们实现了一个新的优先级地图模块，并使用低样本数据集对辅助任务进行预训练，这些数据集具有高级别的路线表示和与城市特征相关的环境参考。轨迹规划的分层过程-随后对视觉输入进行参数化视觉增强过滤，并预测相应的文本跨度- 解决了跨模式对齐和功能级本地化的核心挑战。优先级地图模块集成到一个功能定位框架中，使独立变压器的任务完成率提高一倍，并在VLN的接地基准测试我们发布代码（ https ： //github.com/JasonArmitage-res/PM-VLN）和数据（https：//zenodo.org/record/6891965.YtwoS3ZBxD8）。1. 介绍世界上的导航取决于在正确的时间注意城市环境中的道路使用者会看到广告牌、移动的车辆和其他人，但在十字路口，将精确定位单个灯，以检查它是否包含红色[12，33]。一个人工智能体导航的虚拟环境的户外位置也提出了一个流的语言和视觉线索。使智能体更接近最终目的地的动作选择在第一次考试中-例如，人的注意力通过可见性和当前过马路的目标被引导到特定对象在神经生理学水平上，这一过程由优先级图介导，优先级图是一种神经机制，通过将显著对象上的低级别信号与任务目标上的高级别信号相匹配来引导注意力通过结合多模态信号以及语言和视觉信息之间的整合，增强了人类的优先级随着情境经验和环境知识的增加，区分优先级的能力也会提高[41，36]。我们介绍了一个优先级地图模块的视觉和语言导航（PM-VLN），是预先训练，以指导基于transformer的架构，优先相关的信息，导航中的动作选择。与在具有通用图像-文本对的大规模数据集上进行预训练[34]相比，PM-VLN模块从代表轨迹计划和城市特征的小样本集合中学习。我们的建议是建立在观察浓度的位置指示词和参考对象具有高视觉显着性的输入VLN。环境中的突出特征遍布人类生成的语言导航指令。道路网络类型（学习结合两种形式的信息依赖于同步不同长度的时间序列。我们利用对实体的引用作为解决这一要求的跨模式优先级排序过程的信号。我们的模块学习这两种模式，以优先考虑及时的信息，并协助通用视觉和语言以及基于自定义VLN变压器的架构完成路由[22，43]。Transformers对最近提出的进行VLN、视觉问题回答和其他多模态任务的建议做出了贡献-但与三个挑战相关：1）标准架构缺乏解决语言和视觉输入上的时间同步的挑战的机制。预先训练的transformers在图像-文本对的任务中表现良好，但1095路线（）：说明（）：“ 转弯，这样你就能跟上车流了。应该在你的左边有一个紫色的剧院横幅沿着这条路一直往前走，直到第一个红绿灯。在红绿灯处右转你应该看看小银门在你的左边。一直走，到下一个红绿灯时右转。转弯后不久，向左看，你应该看见一根银色的灯柱，上面靠着一辆自行车。“实体：紫色剧院旗帜----在学习序列时遇到挑战，而模态之间没有明确的对齐[24]。2)性能取决于使用大量图像-文本对的预训练以及访问企业级计算资源的相应要求3)视觉学习依赖于外部模型和管道-特别是对象检测[23，20]。在训练数据仅涉及在导航环境中观察到的对象类型的一小部分的情况下，VLN的对象检测的功效较低我们通过具有特征级本地化和域内数据低样本预训练的分层轨迹规划过程来我们在两个辅助任务上使用通过在包括多目标跨模态匹配和城市地标上的位置估计的最终评估任务中的输入表示美国大城市中的位置和轨迹，并提供了在预训练中利用现实世界资源的选项我们的方法建立在这个机会的基础上，从开放的网络和Google Directions API中获取数据，可以以低成本获得额外的样本。这项研究提出了四个贡献，以提高基于变压器的系统在户外VLN任务：• 优先级映射模块我们新颖的PM-VLN模块在导航过程中对文本跨度与视觉透视和输入的特征级操作进行高级对齐的分层过程（参见图3）。• 轨迹规划我们提出了一种新的方法，用于对齐时间序列的VLN包括trajec- tory估计的路径轨迹和随后的预测分布的语言描述的路线。• 两个域内数据集和训练策略我们介绍了两个城市位置（TR-NY-PIT-central）的路线的一组路径轨迹和由10个美国城市（MC- 10）地标的文本摘要、图像和世界大地测量系统（WGS）坐标组成的数据集。这些资源使得能够针对将位置估计与跨模态句子预测配对的新任务在轨迹估计和多目标损失上对PM-VLN的特定组件进行区分性训练。• 我们设计并建造了一个语言和视觉输入解决了我们的研究。下文和后续章节中使用的符号总结见SupMat：第1节。着陆基准中的着陆导航是通过代理在代表曼哈顿中心区域的环境中完成N个预定义的轨迹来测量的。环境被表示为由位于WGS纬度/经度点处的节点O组成的无向图在每个步骤t处，代理选择到对应节点的边缘节点t代理由不同数量的令牌组成的文本指令τ描述了整个轨迹。我们使用τ来表示从τ开始的标记的跨度，其对应于智能体在轨迹中的位置。根据方法的不同，序列号可以是完整的指令或选定的序列。环境中节点的视觉表示是从长度未定的序列路线代理接收由（o1，o2）之间的航向角θ确定的全景的特定视角θ。成功完成路由被定义为预测一条终止于节点被指定为目标-或直接与之相邻的目标。在监督学习范例中（参见图1），嵌入eη是从输入Et和Et 中学习的。智能体的下一个动作是对e η的分类，其中动作α t是从集合A向前、向左、向右、停止中抽取的类之一。预测α t=Forward和α t=Left，Right分别导致在边t+1处的全等或新的结果。正在进行的路由由预测α t= Stop终止。对齐和本地化我们在图1中强调了学习跨模态嵌入的前一个就像在现实世界中的导航一样，智能体需要将指令中的提示与周围环境对齐和匹配。人类导航中的一种策略是使用实体或地标来执行这种对齐[4]。在触地得分席上-mark，序列τ和路线之间的关系是从Chen等人概述的任务生成过程中推断出来的。[5]- 但是精确的对准是未知的。我们-a）、嵌入式分类框架（见图2），将PM-VLN模块的输出该框架包含用于执行自我注意、组合嵌入和预测具有maxout激活的动作的组件。输入b）、对齐本地化2. 背景在本节中，我们定义了着陆任务，并强调了之前的调整和本地化挑战。图1：VLN作为监督分类任务a）的概述。语言和视觉输入都是指用红色表示的实体。我们通过关注在两种模态中表示的实体来解决在不同步输入b）上对齐和本地化的挑战。In：Inputs（）输出：跨模态嵌入在：跨模态嵌入Out：Action“转动你自己，的交通。应该有一个紫色的剧院横幅左手边即沿着这条路一直往前走，直到第一个红绿灯。在光你应该能看到左边的银色大门一直走到下一个红绿灯，构成一个正确在你转弯后不久，向左看，你会看到一个银色的灯。一辆自行车靠在柱子上。““转动你自己，的交通。应该有一个紫色的剧院横幅左手边即沿着这条路一直往前走，直到第一个红绿灯。在光你应该能看到左边的银色大门直走，到下一个红绿灯时，右转.转弯后不久，向左看，你应该看到一个银色的灯柱，上面有一个自行车靠在上面。“1096a）、分类器PM-VLNTransformer编码器b）、..FLPM框架input.println（）路径跟踪嵌入跨模式优先级跨通道注意合并输出动作选择联系我们→Inputs（）“你左边应该有一个紫色的剧院横幅。沿着这条路一直往前走，直到第一个红绿灯。在红绿灯处右转。你应该能看到左边的银色大门。“的主模型语言嵌入视觉嵌入我FLPM框架图2：VLN的基于变压器的系统的先前工作遵循从输入到主模型的上述管道，最后是a）预测动作的分类器。我们提出了一个特征定位框架（FLPM），以提高b）中主模型的性能。这里路径轨迹是辅助PM-VLN对齐语言和视觉序列的附加输入。子模块gCFns在具有最大输出动作的动作预测之前组合来自主模型Uη和PM-VLNEη的嵌入。将所述挑战精细化为对准时间序列τ=τ1，τ2，. . .，n和路由=n1，n2，. . . .. 在高水平上，该挑战可以通过使在语言和视觉输入中的实体相关参考上检测到S信号的概率P最大化的算法来解决。形式上，假设P S|E η来自PM-VLN的模态嵌入和预测动作之前的主变压器模型。g（Xt）max受P[τ，Route]=Ypxx（1）其中，最大化PS的目的等价于包含对应实体的P2t和P2t之间的配对中的概率3. 方法我们解决的挑战，比对和本地化的序列与计算实现的跨模态优先级。对VLN系统的诊断已经对代理执行交叉模态对齐的能力提出了质疑[42]。Transformers在缺乏图像-文本对齐监督的时间输入问题中表现不佳这在接地的情况下得到了证明，其中基于变压器的系统完成不到四分之一的路线。我们自己观察到，当增加Transformer架构的深度时，性能会降低，这促使我们超越堆叠块，转而采用一种补充自我注意力的方法。我们的PM-VLN模块使用操作的分层过程并利用对辅助任务的先前学习来调制主任务PM-VLN中的基于变换器的编码器嵌入（参见图3）。为了优先化相关信息，设计了PM-VLN组件的训练策略，其中训练数据包含与主任务中的城市网格类型和环境特征相对应的样本预处理所需的数据集训练包含比其他基于变换器的VLN框架更少的样本[43，28]，并且仅针对PM-VLN模块的特定层预训练的模块被集成在图2所示的新颖的特征位置框架FLPM中。FLPM中的后续组件结合了交叉-图3：优先级地图模块执行高层次的轨迹规划和功能级定位的分层过程。白框内的子模块一起学习，辅助函数生成轨迹计划以预测从步骤t1开始的跨度。3.1. 具有优先级映射模块的先前关于VLN代理的工作已经证明了导航决策对环境特征和位置相关参考的依赖性[43]。在上面的VLN的定义中，我们将该信息视为包含在两组输入（x∈，x ∈）t中的监控信号。如图2所示，我们的PM-VLN模块被引入到框架FL PM中。该框架从基于Transformer的主模型Enc Trans中获取输出，以及在跨模态优先级排序和分类之前的路径跟踪，其中最大输出激活Clas maxxi。 Enc Trans的输入包括由[43]eη提出的跨模态嵌入和直到当前步骤的透视图的串联。企业级本地化轨迹估计轨迹规划跨越透视路径跟踪从t11097D ddΘ <$正态（μ，σ）。JJ←←←PRLL不 v1、否则“你左边应该有一个紫色的剧院横幅。沿着这条路一直往前走，直到第一个红绿灯。在红绿灯处右转。你应该能看到左边的银色大门。“的“你左边应该有一个紫色的剧院横幅在这条街上向前走“算法1优先级映射模块输入：数据集101、102和10V LN 具有输入（x l，x v）的值。所有层中的初始参数，LJ输出：（el，e′v）而不收敛从所述指令中指定对应于所述当前步骤的跨度集合。该过程开始于子模块gPMTP，该子模块从路线上的高级视图估计步数cnt（参见图4）。路径轨迹-表示为trT-是从节点的坐标生成的轨迹的视觉表示。在t0intrT初始跨度in对于xtriΘ′g在2001年，←g <$1（Xi，Θ）.假设指令与第一视觉视角对准从步骤t1，包含预训练的P MT P端end while当do不收敛时，对于（xl，xv），ConvNeXt Tiny模型[25]更新了步长计数在cnttrT中。轨迹规划tp t是区间[xle ft，xri gh t]内τ中跨度的高斯分布。在每一步中，来自该分布的样本用作以下各项的预测：我Θ′g我←g2（Xi，Θ）.相关跨度。最后的输出是预测的跨度ΔtP MF端end while而不收敛结合t−1。“转弯，这样你就能跟上车流了。应该有一个紫色的样本xtrt T雨剧院的横幅在你的左边沿着这条路一直往前走，直到第一个红绿灯。在红绿灯处右转。你应该能看到左边的银色大门直走，到下一个红绿灯时，对的在你转弯后不久xtpt ←gPMTP （xtrt）。向左看有一根银色的灯柱，灯柱上靠着一辆自行车。“从D T rain中采样（'t，t）。e vgUSM（USM）。e′vgV BF（ev）.elgPrL（gCa t（e′t，e′v））.endwhilereturn（el，e′v）3.1.1优先级映射模块优先图在神经心理学文献中被描述为调节来自环境的线索的感觉处理的机制。在低级处理中，从物体的物理方面获得的显着性由高级信号介导，用于提示与任务目标的相关性[8，18，41]。地图任务中的项目优先级与语言指令表明语言和视觉信息之间的整合，以及随后归因于地标的显著性增加[4]。我们的优先级地图模块（PM-VLN）使用一系列简单的操作来近似在人类导航中观察到的优先级过程。这些操作避免了依赖于初始任务，如对象检测。语言和视觉输入的对齐通过对简单路径轨迹的轨迹估计来实现，从而形成路线的高级表示和轨迹计划的后续生成。本地化包括对当前环境透视图的参数化视觉提升过滤和该视图与来自后续对准的选定跨度的跨模态对准这种层次化的过程通过解释transformers中缺乏在不对齐的时间序列上学习的机制来补充自我注意交叉的理论基础模态优先级在SupMat：第2节中给出。图4：子模块gPMTP 估计步长计数（cnttr）路径跟踪。轨迹计划（tp）是指令上的高斯分布（正态），并且预测每个步骤的跨度。这与前一步的预测相连接。预测的跨度通过Wnt 传递给子模块gPMF，该子模块在Wnt2中对跨模态匹配进行了预训练（参见图5）。企业级操作开始与视觉增强过滤。我们从[3]中选择了一个简单有效的实现，其中提升的水平被降低到单个学习项（参见 SupMat ： Sec.2 了解更多细节）。图5：子模块gPMF通过提升透视图中的可视特性来开始特性级操作。下一个操作（Cat）是来自gVBF的输出和来自上述对齐过程的语言输出由g P rL返回相关跨度el的精确预测。局部化跨度el的选择通过学习的跨模态嵌入e ′ n继续进行，所述学习的跨模态嵌入e ′n由e′v和来自先前对齐操作的语言输出e′t组成。对来自单层LSTM的输出隐藏状态执行对该语言对的二元预测，该单层LSTM接收e′η作为其输入序列。函数g PrL返回a相关跨度的精确定位w.r.t. 突出的fea-在透视图中：高级轨迹估计直线对准guistic和视觉序列被制定为一个任务，g（ e）= g（'，e'）.0，如果x=w，x=+b0（二）猫1098ϕ1LM.ΣEEMϕ2公司简介LLL˜ϕ1ϕ1≤12D dd3.1.2基于组合输出的跨通道注意和动作预测在PM-VLN之后恢复操作，输出在使用gPMTP子模块的独立版本进行经验评估之后，优选站策略，所述g P MT P子模块接收具有随机和180°的D T雨的埃夫特关于ConvVBF 与elt一起传递一个Visu-旋转培训被制定为多类分类在M=66类alBERT嵌入层。然后，通过隐藏大小为256的4个Transformer编码器层处理两种模态的嵌入，并应用自注意力来学习对之间的对齐g1（xtr，Θ）=B0+argmaxBi（xtr，Wj）（4）j=1en=M（ele′v）=SoftEk=1Mk<$（Ek，E<$k）<$（三）其中，a class是步数，B是偏差，i是数据集中的样本。针对特征级本地化子模块的TPS2预训练其中Soft是softmax函数，k是输入中的元素数量，k=1是跨模态输入上的屏蔽元素，k是损耗，k是输入模态中的元素，k是预测元素。由该注意操作产生的跨模态嵌入通过级联层输出g（e ′）=模块gPMF与集成的组件一起进行FLPM和新的MC-10数据集。DT雨中的样本由美国10个城市的8，100个地标组成。为了演示开放源代码工具在设计室外VLN系统中的实用性，生成过程利用了免费和可访问的资源，使有针对性的查询-1234.我是说。来源于Wikidata的地标的实体ID（e，e，e，e）为我们的框架选择建筑和嵌入式工作的目的是使比较基准系统上的ADV-VLN。EncT在性能最佳的框架中运行知识图谱是从MediaWiki和WikiMe- dia API下载文本摘要和图像的基础。有关MC-10的更多详细信息，请参见SupMat：第3节。生成MC-10数据集的目的使用标准VisualBERT编码器，隐藏大小为256和4层和注意头。如上所述，是优化ΘgPMF使得与Y相关V级LN对于Enc T范围，与先前工作中使用的范围一致[43]。子模块gCFns组合来自Enc Trans的L4的U η和来自交叉模态衰减操作g（Eη′）的输出。在申请退学之前导航预报项是由具有Maxout激活的线性层组成的分类器块的输出由线性运算组成的块中的Maxout 激活采用maxzij，其中zij是k层的xij Wnn的乘积与ReLU相比在输入X V LN中检测到。我们选择开放的。针对E102的多目标损失由配对样本（xl，xv）上的交叉模态匹配组成，并且第二目标包括对实体的地理位置的预测。在第一个目标中，g PMF在真实x l匹配x v和第二文本输入之间进行二元分类从小批量中的实体中随机选择。为所有文本输入设置了540个标记的限制，并对每个标记的第一个句子执行gPMF激活函数被学习并防止单元饱和，[11]与《易经》有关。我们比较实体参数ΘgPMF保存并在随后一个标准分类器到一个maxxi表2中我-用于在MPERVLN中的特征级本地化。具有maxxi的证明与要求一致以抵消在全FLPM框架中使用大量层进行训练时的方差。3.2. 预培训策略PM-VLN模块的数据高效预训练策略由辅助任务（PM-VLN）的预训练子模块组成（图1，图2）。我们将这两个数据集表示为（t，t），将训练分区表示为 T 雨。在TRP1 中，g PMTP 子模块在TR-NY-PIT-central上进行了预训练，这是一组新的路径轨迹。DTrain中的路径轨迹是从匹兹堡市中心的17，000条路线中生成的，路线中的步数具有类别标签。对于具有7步的路线，DT雨中的步数分布为50个样本，对于具有> 7步的路线，DT雨中的步数分布为300个样本（更多详情请参见SupMat：第3节）。在训练过程中，来自D T雨的样本我10994. 实验我们评估PM-VN模块和FLPM的出发点是与基准系统相关的性能（见表1）。通过删除单个操作进行消融（见表2），并评估训练数据的作用（见表3）。为了最大限度地减少计算成本，我们在Transformer模型中实现了具有低层数和低张力头的框架。4.1. 实验设置我们在报告任务完成（TC），最短路径距离（SPD）和成功加权编辑距离（SED）方面与[5]保持一致。所有指标都是使用着陆导航图得出的TC是成功的二进制度量0，1在结束一个路线的预测co=yoϕ1oo−1t−1t−1以标准方向呈现20个时期，或ct−1=yt−1，SPD计算为平均距离在第二轮训练之前，他已经完成了180°的训练这个罗-CO之间t−1 而你，t−1. SED是Levenshtein距离1100公司简介D开发试验TC↑SPD↓SED↑TC↑SPD↓SED↑输入（L，V）GAa12.120.211.710.719.910.4（基于非变压器）RCONCATa11.920.111.511.020.410.5ARC+L2STOP*c19.517.119.016.718.816.3输入（L，V）VisualBERT（8l）10.421.310.09.921.79.5（基于Transformer）VisualBERT（4l）14.317.713.711.818.311.5VLN Transformer（4l）b12.218.912.012.820.411.8VLN Transformer（8l）b13.219.812.713.121.112.3VLN Transformer（8l）+ M50 + style*b15.020.314.716.220.815.7输入（L，V）+ JD /HT**ORAR（ResNet决赛前）*d26.015.0-25.316.2-（基于非变压器）ORAR（ResNet倒数第四）*d29.911.1-29.111.7-输入（L，V）+路径跟踪VLN Transformer（8 l）11.223.410.711.523.910.8（基于Transformer）VisualBERT（4l）16.218.715.715.020.114.5FLPM（4l）+VLN Transformer（8l） 29.923.426.828.223.825.6FLPM（4l）+VisualBERT（4l）33.023.629.533.423.829.7[5]A、B、C和D的框架。*作者报告的结果**系统接收两种类型的特征-连接类型和航向三角形-作为输入。表1：测试分区上按TC排列的Touchdown基准测试的性能。在VLN期间，系统按输入类型分组，并在架构中使用Transformer模块。的FLPM框架和路径跟踪，以提高性能的贡献证明与两个基线变压器为基础的架构- VisualBERT和VLN变压器的系统的结果。这些基线也以两种大小进行评估，以测试添加Transformer块的好处。在预测路径与定义的路由路径之间，并且仅在TC = 1时应用。超参数设置框架被训练80个epoch ，批量大小=30。在Dev上报告具有最高SPD的时期的分数。PM-VLN模块的预训练进行10个时期，批量大小为101=60和102=30。使用AdamW优化框架，学习率为2.5x 10- 3 [26]。4.2. 触地实验设计：[5]在降落基准中定义两个独立的任务：VLN和空间描述解决方案。本研究与其他研究[43，42]一致，将导航组件作为独立任务进行评估。数据集和数据预处理：框架-作品的评估与D T雨=6，525，D Dev=1，391，和D Test=1，409路线的完全分区着陆。弹道长度随DT雨=34而变化。2，D Dev=34。1，且D Test=34。每路平均4步。交叉口类型和航向三角形是从环境图和低级视觉特征生成的附加输入[31]。M-50 + 风格是StreetLearn 数据集的子集，其中DTrain=30，968条50个节点或更少的路由，并且多模式风格传输应用于指令[43]。嵌入：在这项研究中评估的所有架构都接受了相同的基础跨模态嵌入x η通过[43]，通过具有12个编码器层和注意头的预训练BERT基编码器的输出的组合来学习。在每一步中，一个完全连接的层用于文本嵌入，一个3层CNN返回透视图。FLPM框架还在步骤t处接收路径迹trt的嵌入。由于这构成了路线上的附加信号，因此我们评估也接收trt的VisualBERT模型（4l），在这种情况下，tr t是com。在xηt中包含之前与xt结合。结果：在表1中，框架的第一个块由以下架构组成：主要由卷积层和递归层构成VLN Transformer是由[43]提出的用于触地基准的框架，并且由具有8个编码器层和8个注意头的基于transformer的交叉模态编码器组成VLN Transformer + M50 +风格是在上述数据集上预训练的该框架的一个版本。据我们所知，这是基于transformer 的框架，在我们的工作之前，它在Touchdown上具有最高的TC。ORAR（ResNet 4th-to-last）[31]来自于本研究完成前不久发表的工作独立的Vi- sualBERT模型在两个版本中进行评估，分别具有4层和8层以及注意力头。较小版本的更强性能表明添加自注意层不太可能改善VLN预测。这进一步得到了VLN Trans的密切匹配结果1101ϕ1ϕ1ϕ2ϕ1我ϕ1线圈架（4l）和VLN Transformer（8l）。FLPM框架结合了在辅助任务上预训练的PM-VLN模块（101，102 ） - 以及 VisualBERT （ 4l ）或 VLN Trans-former（8l）中的一个作为主模型。当集成到框架中时，这两个Transformer模型在TC上的性能加倍具有路径跟踪的独立Vi- sualBERT和VLN Transformer系统的结果的比较支持使用可以利用该附加输入类型的特定架构组件使用FLPM框架运行的系统的较低SPD反映了在路线完成之前预测停止动作的路线数量较多虽然不是当前研究的重点，但VLN基准测试中的这一缺陷已在其他工作中得到解决[39，2]。4.3. 评估具体操作烧蚀是在温度最高的框架上进行的 .FLPM +VisualBERT（4l）.测试不提供操作的直接测量，因为保留组件在向前和向后传递中的后续计算不被考虑。结果表明，初始对齐是至关重要的跨模态优先级和支持在预训练过程中使用的域数据。发展TC↑SPD↓SED↑FLPM+ VisualBERT（4l）33.0 23.6 29.5τt（见变量（c））。实际上，在这种情况下，跨度选择仅基于轨迹估计消融2：FLPM消融以FLPM的变体结束，其中核心功能从框架中的其他子模块中排除变体（d）的结果证明了用简单级联替换等式3中定义的运算对PM-VLNel和e′v的输出的影响。最后一个实验比较了生成动作预测：在变型（e）中，gClasmax x是被VisualBERT中分类的标准实现所取代。在TC上，具有丢弃和单个线性层的分类4.4. 培训策略进行最后一组实验以测量训练数据对辅助任务的影响（101，102）。发展TC↑SPD↓SED↑FLPM+ VisualBERT（4l）33.0 23.6 29.5gPMTP预训练-gPMTP+DT雨 V2（f）11.9 20.1 11.5-gPMTP+DT雨 V3（g）13.6 20.5 13.1- gPMTP无预训练（h）4.7 27.6 1.9gPMF的预训练-gPMF+DTrain V2（i）19.8 23.2 17.2-gPMF+DT雨 V3 （j）23.9 20.8 20.3PM-VLN-gPMTP （a）7.1 26.8 6.8- gPMF减去gVBF（b）27.9 25.7 24.9- gPMF减去Δt−1（c）29.8 21.827.2FLPM- g收件人，g类别（d）18.8 30.516.4ϕ2- gPMF无预训练（k）6.3 25.1 4.6表3：针对单独PM-VLN子模块gPMTP（变体（f）至（h））和gPMF（变体（f）至（h））的预训练策略的评估(i)到（k）使用替代数据集进行辅助任务。变体也在没有gPMTP和g PMF预训练的情况下运行。-gClasmax x（e）类31.7 21.9 28.2我表2：PM-VLN（变体（a-（c））和FLPM框架（变体（d）和（e））中核心操作的消融。消融1：PM-VLN模块中的PM-VLN优先级划分构成了操作的顺序链表2报告了PM-VLN排除单个操作的框架变体的结果从gPMTP开始，轨迹估计被替换为针对每个路线trt的34步的固定计数（参见变型（a））。这剥夺了PM-VLN在同步τ和视觉输入序列时考虑当前路线的方法。所有后续操作都受到影响，并且变体报告所有指标的低分数。然后对gPMF进行了两个实验。在变型（b）中，视觉增强滤波被禁用，并且特征级定位依赖于基本的阈值。然后，通过将gPMF指定为来自gP MF的默认输入，训练策略1：在轨迹估计中利用街道模式我们对替代样本进行测试，以检查路线类型在DT雨中的影响。表1中的FLPM框架的模块在从匹兹堡市中心的区域绘制的路径轨迹上进行训练（参见Sup- Mat：第3节），该区域具有矩形街道模式，该模式与在着陆中的路线位置中发现的城市网格类型[27]对齐表3列出了在该区域外随机选择的路线上训练的模块的结果在变型中（f）和（g），DTrain的V2和V3版本各包括：从总共70，000条路线的剩余部分随机抽取17，000个样本在匹兹堡的外围地区可以看到符合曲线网格类型的路线这些变体的TC较低，提示在生成路径轨迹时考虑街道模式。其中gPMTP子模块没有接收预训练的变体（h）与表2中的变体（a）一起强调了初始对齐步骤对我们提出的交叉模态方法的重要性。1102ϕ2优先级。培训策略二：域内数据和特征级本地化我们的结论是，当在PM-VLN中的特征级本地化操作之前预训练gP MF子模块时，检查域内数据的使用。在表3中，FLPM的版本在预训练后使用Conceptual Captions数据集的不同大小的子集进行评估一般图像-文本对的这种资源被选择，因为它已经被提议用于预训练VLN系统（见下文）。随机选择样本，并将其分组为两个训练分区，其数量相当于 DTrain的100%（变量（i））和150%（变量（j））。代替应用于MC-10数据集的多目标损失，θgPMF针对跨模态匹配的单个目标进行优化。变体（k）在不进行gPMF子模块的预训练时评估FLPM。变体（i），（j）和（k）的较低结果支持在小的域内数据集上进行预训练，作为在一般样本的大规模数据集上优化VLN系统的替代方案。5. 相关工作本研究旨在扩展机器学习和计算认知神经科学在注意力优先性研究中的跨学科联系。本节从这两个学科中我们的培训策略是positioned在VLN任务的预训练和研究相关的对齐和功能级操作的PM-VLN模块进行审查的背景下，先前的工作。注意力优先化的计算实现[7]提出了一种生成显着图的模型，其中特征选择取决于任务中的高级信号整个系统在计算机视觉任务上进行了评估[38]在对象检测模型中实现了优先级图计算，以将这些系统中的功能与人类视觉注意力中观察到的功能进行比较。[1]使用支持向量机分类器对穿越四个地形的人类参与者的视觉注意力进行建模。然后生成优先级图，以研究先验特征和保持平稳运动的高级目标之间的相互作用优先级地图组件被纳入基于CNN的灵长类动物注意力机制模型[40]，以便在执行视觉搜索时优先考虑包含感兴趣类别的位置。对人类参与者空间注意力的研究已经探索了处理由听觉刺激和组合的语言和视觉信息组成的输入的优先映射机制[10，4]。据我们所知，我们的工作是第一个将神经心理学关于多模态优先级的工作扩展到跨模态优先级图的计算实现，机器学习任务VLN任务的预训练两种形式的数据采样在进行VLN任务之前，在预训练中使用领域内和通用的PLE。域内数据样本来自在线租赁列表[13]和其他VLN任务[43]的图像-标题对。通过增加或重用任务内数据也可以生成域内样本为其他视觉语言任务设计的大规模数据集的通用样本已被用于改善基于Transformer的VLN代理的泛化[28]使用来自ConceptualCaptions的330万个图像-文本对进行大规模预训练[32]和[30]初始化一个框架，该框架具有在四个域外数据集上训练的权重相比之下，我们的训练策略采用的数据集具有数千个来自资源的域内数据样本，其中额外的样本可以以低成本获得。多模态任务中的对齐通常被认为是Transformer的基于注意力的组件中的隐式子过程[37，43]。[17]确定明确的跨模态对齐作为辅助任务，提高代理性能VLN。在这种情况下，对齐被测量为来自主任务的输入的相似性得分相比之下，我们的PM-VLN模块进行轨迹规划和学习本地化的分层过程，以配对输入。相似性度量是[21]提出的视觉语言预训练框架中对齐步骤的基础。与我们工作的一个基本区别在于，这个框架-以及相关方法[19] -是在一个不同的任务类别上训练的，其中视觉输入是单个图像，而不是时间序列。几个包含对视觉输入执行特征定位的组件的VLN框架已经在对象检测上进行了预训练[28，35，16]。相比之下，我们在gPMF中包括视觉提升滤波以优先化视觉特征。我们的本地化跨度使用增强的视觉输入和跨模态嵌入的串联的方法是独特的这项研究。6. 结论我们从神经生理学研究中描述的机制中获得灵感两个新的资源组成的域中的样本和定制的训练策略，提出了使数据高效的预训练的PM-VLN模块之前的主要VLN任务。一个新的框架，使动作预测与最大输出激活的组合从PM-VLN模块和基于变换器的编码器的输出。评估表明，我们的模块，框架和预训练策略的性能增加了一倍，独立变压器在户外VLN。1103引用[1] Nantheera Anantrasirichai，Katherine AJ Daniels，JeremyF Burn，Iain D Gilchrist和David R Bull。固定预测和视觉优先地图的移动。IEEE Transactions on Cybernetics，48（8）：2294[2] Valts Blukis、Dipendra Misra、Ross A Knepper和Yoav阿齐将导航指令映射到具有位置访问预测的连续机器人学习会议，第505-518页。PMLR，2018。[3] 何塞·卡兰萨-罗哈斯，索尔·卡尔德隆-拉米雷斯，阿德·恩·莫拉-Fallas，Michael Granados-Menani，and Jordina Torrents-Barrena.锐化遮罩层：在卷积网络中注入先验知识进行图像分类。在人工神经网络国际会议上，第3-16页Springer，2019年。[4] Federica Cavicchio，David Melcher，and Massimo Poesio.视觉世界研究中的语言和视觉显著性效应。Frontiers inPsychology，5：176，2014.[5] Howard Chen ， Alane Suhr ， Dipendra Misra ， NoahSnavely，和约阿夫·阿尔齐着陆：视觉街道环境中的自然语言导航和空间推理。在IEEE/CVF计算机视觉和模式识别会议的论文集中，第12538-12547页[6] 陈世哲、赵一达、秦晋、吴奇隆。细粒度基于层次图推理的视频文本检索在IEEE/CVF计算机视觉和模式识别会议论文集，第10638-10647页[7] Misha Denil、Loris Bazzani、Hugo Larochelle和Nandode Freitas学习在何处使用深度架构进行图像跟踪。Neural Computation，24（8）：2151-2184，2012.[8] Jillian H Fecteau和Douglas P Munoz。显著性，相关性，和射击：用于目标选择的优先级图心血管科学趋势，10（8）：382[9] Daniel Fried ， Ronghang Hu ， Volkan Cirik ， AnnaRohrbach，Jacob Andreas ， Louis-Philippe Mod ， Taylor Berg-Kirkpatrick ， Kate Saenko ， Dan Klein ， and TrevorDarrell.用于视觉和语言导航的说话者跟随者模型。神经信息处理系统进展，31，2018。[10] EdwardJGolob ， KristenBrentVenable ， JaelleScheuerman，和麦克斯韦·T·安德森听觉空间注意力的计算模型InCogSci，2017.[11] Ian Goodfellow ， David Warde-Farley ， Mehdi Mirza ，AaronCourville和Yoshua Bengio。Maxout网络。在机器学习国际会议上，第1319-1327页PMLR，2013年。[12] 杰奎琳戈特利布迈克尔科汉普尔，Yvonne Li，尼古拉斯·辛格特里和埃尔

下载后可阅读完整内容，剩余1页未读，立即下载