360全景图像生成室内导航指令的研究

188 浏览量更新于2023-10-25 收藏 1.31MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15428少即是多：从地标生成固定导航指令王苏Ceslee Montgomery Jordi Orbay Vighnesh Birodkar Aleksandra Faust IzzeddinGur Natasha Jaques Austin Waters Jason Baldridge Peter AndersonGoogle Research摘要研究了从室内路线上拍摄的360幅全景图像自动生成导航指令的问题现有的生成器存在视觉基础差的问题，导致它们依赖于语言先验和幻觉对象。我们的MARKY-MT5系统通过关注视觉地标来解决这个问题;它包括第一阶段地标检测器和第二阶段生成器-多模式，多语言，多任务编码器-解码器。为了训练它，我们在Room-across-Room（RxR）数据集的顶部引导接地地标注释。使用文本解析器，来自RxR姿势跟踪的弱监督在房间到房间的过程中，人类寻路者按照MARKY-MT5的指令获得了71%的成功率（SR），略低于人类预防后的75% SR，远高于其他生成器的SR。对RxR的较长、不同路径的评估在新的环境中生成这种高质量的导航指令是向会话导航工具迈出的一步，并且可以促进对遵循指令的代理的大规模培训。1. 介绍寻路导航到目的地是一项日常任务。我们研究的导航指令，有效地引导人们的自动生成。使用基本方向和街道名称的基于模板的语言生成器通常用于户外地图应用，一些更灵活的生成方法依赖于包含有关地图，道路和地标信息的数据库[17，50，51]。相比之下，室内寻路的指令需要自我中心的运动指导和对视觉环境的参考（例如，显着的对象）。用于生成室内寻路指令的系统假定访问预先存在的平面图和地标数据库[42]，但是最近的工作尝试生成新颖的寻路指令。图1.我们生成接地导航指令从一系列的360幅图像捕获沿路线在以前看不见的建筑物。我们的两阶段方法首先检测地标，然后生成这些地标的条件下的指令。直接从视觉输入的指令[22，39，58]。朝着这一目标的进展将使导航辅助工具成为可能，而不是基于地图的导航辅助工具，并且它可以为训练自动跟踪机器人提供虚拟无限量的高质量合成描述导航路径也是人机通信的一个关键能力，装备机器人来回答诸如你去了哪里之类的问题？或者我该在哪见你.我们寻求生成准确和流畅的导航提示-在多种语言-直接从视觉表示和采取行动遍历路径。先前的工作假设指令生成器的输入是在路径上以间隔捕获的360个全景（此后称为pano）图像的序列，通常使用Matterport3D环境[ 9 ]对来自房间到房间（R2 R）[5]的指令进行训练。这些模型的说明已经证明15429作为视觉和语言导航（VLN）代理的额外训练数据有价值[22]。然而，人们很难跟随它们[64]：在看不见的环境中， R2 R 上的人类寻路成功率对于 Speaker-Follower [22]为36%，对于En-vDrop [58]为42%。生成的文本在风格上是正确的，但经常引用不存在的对象，并混淆空间术语，如左和右。面向视觉的指令生成器的一个挑战是处理不相关的视觉输入。在许多其他图像到文本生成任务（例如，图像字幕），输入中的许多视觉信息反映在输出文本中。在生成导航指令时并非如此人类注释者只查看不到30%的环境[36]，并且指令只引用他们查看的对象的这使得学习视觉输入和文本输出之间的精确映射变得更加困难。然而，获取更多的信息会降低性能[15]，因为模型很高兴地学习虚假的相关性，导致推理过程中的幻觉。为了解决这个问题，我们利用了房间跨房间（RxR）数据集的时空基础[36]。RxR注释器在遍历路径时发言，而不是编写指令因此，每个RxR指令都带有姿势跟踪，这些姿势跟踪将所说的单词（以及后来转录的单词）与注释者正在查看的内容对齐。我们使用这些姿势轨迹和指令来导出新的银色注释数据集1，该数据集包含视觉地标上的边界框，并结合其多语言描述（英语，印地语和泰卢固语）。具体来说，我们引导地标注释使用文本解析器来识别指示中的地标短语。然后，我们使用强大的图像-文本共嵌入模型[32]，结合姿势轨迹的弱监督，将环境中的这些地标接地。我们的两阶段MARKY-MT5（地标和多语言T5[62]）系统通过改进视觉地标的选择和提及方式给定全景视图的路径连接序列，第一阶段地标检测器推断人可能选择用于描述路径的地标序列。例如，在一个示例中，在图1中，选择了八个界标，每个界标由图像表示这个序列，加上导航动作的交错描述，被传递到第二阶段指令生成器-1.一、在R2 R路径上的人类寻路实验中，使用银色地标（来自完整环境的视觉输入的子集）训练的M ARKY -M T5几乎消除了模型生成和人类编写的指令之间的差距-实现了71%的成功率（SR），75%用于人类指令，42%用于以前的模型，58%用于我们的模型训练了360度的旋转当涉及到为生成器选择视觉输入时，少即是多。在更具挑战性的RxR路径上，人类寻路者使用MARKY-MT5获得62%的SR，而人类指令为78%。我们发布了我们的银色地标数据和超过一百万条由MARKY-MT5生成的导航指令，作为训练VLN代理的数据增强。22. 相关工作与地标寻路。我们希望产生人们可以遵循的指示，并受到研究地标对人类导航重要性的启发[8，18，21，63]。地标不仅仅是空间特征–对象）自身、其附近环境和寻路者我们的地标检测器是在RxR的人类参考地标的数据引导下训练的。这使得我们的方法可以利用地标显着性的这些特征，而无需明确设计它们（如[19，27]）。Hong等人 [29]表明场景、其对象和方向线索之间的建模关系对于提高VLN寻路性能是有效的。这指出了一个潜在的良性循环之间的代理寻路和指导，或者更好的是，使用这种里程碑式的理解，这两种能力在个别代理。导航指令生成。先前关于生成合成VLN指令的工作采用Speaker- Follower框架[23，58]：Speaker模型从R2 R注释（仅英语）学习以生成以路径序列为条件的指令，而Follower模型学习寻路（即，构造路径），其以人类指令和相同的视觉输入为条件。Speaker这些模型不加区别地使用整个pano作为视觉背景，而我们从每个pano中选择关键的视觉地标供生成器讨论。我们建立在多任务，多语言T5模型架构[48，62]的基础上，这是一个统一的文本到文本框架，通过同时混合许多NLP任务来实现迁移学习这还允许我们探索预训练任务，包括图像字幕等多模态任务，以提高对未知环境的泛化能力。Agarwal等人 [1]以前提出了一个基于地标的生成器，但依赖于RL训练而不是银数据来诱导地标接地。Pashevich等人。 [45]使用合成指令，如goto bed pickupcellphone作为训练ALFRED基准的VLN代理的额外来源[54]。这些类似于我们在多模式编码器中使用的简单方向表达式，但它们1白银数据一词指的是高质量的people–that2github.com/google-research-datasets/RxR/tree/main/marky-mT515430→既用于数据增加又用作附加的解码任务。他们寻求优化VLN代理的性能，而我们寻求产生可以被人遵循的指令。Kojima等 [35]探索CEREALBAR游戏中的协作、人工智能指令生成[57]。它们定义了一个人在回路指令生成框架，其中生成器通过与人交互时收集的信号进行迭代改进。该指令涵盖了导航和游戏策略。他们的多模态文本生成器是一个黑盒，而我们的方法包括一个可解释的中间表示的基础上选择的视觉地标（相比，正式的抽象，例如。[14]）。这项工作补充了我们的工作-只使用静态的人类注释-并建议未来的交互式设置，可以让我们的指令生成器适应人类寻路者。多模式生成。我们对地标的使用和语言与视觉元素之间的细粒度联系在图像字幕中有相似之处。特别是，Pont-Tuset等人。 [46]表明，使用鼠标轨迹的受控图像字幕可以产生更好的图像描述。周[66]使用预先训练的文本图像匹配器来学习关键字bbox对齐，这用于调节他们的字幕生成器（类似于我们对视觉地标的检测和使用Huber等人[30]提供了一个两阶段的基于图像的对话模型，该模型从图像中提取情感信息，以将情感注入到生成的文本中。专门的数据集，类似于我们的银色地标数据，用于训练图像特征提取器，以改善场景理解和情感和面部特征的处理。我们的生成器本身属于越来越多的编码多模态输入和解码文本的方法，包括VL-T5 [13]，MAnTiS [55]和SimVLM [60]，通常在多任务设置中。我们的输入是不同的，因为我们编码多个连接的图像，这些图像与动作描述交织在一起我们的模型输出是使用人工评估器对下游任务性能进行评估的，而不是基于学习表示的自动度量和3. 引导Landmark数据集MT5的第一阶段识别视觉地标作为第二阶段指令生成器的输入。这需要具有地标标注的导航指令的训练数据。这里，地标注释是提及对象（例如，白色沙发），以及包含该对象的对齐透视图像（见图1）。2）。不幸的是，不存在具有注释地标的导航指令数据集。3、人有多贵，3虽然Matterport3D包含许多对象（潜在地标）的3D边界框注释，但这些注释与导航说明不一致（导航说明通常涉及比这些更广泛的地标集图2.以图像-文本对的形式说明的自举地标。如果人工注释将是大规模的，我们反而选择引导银数据，这是自然语言处理中使用的术语，当高质量的注释-RxR。为了自动识别和注释地标，我们使用房间跨房间（RxR）[36]。RxR建立在由Room-to-Room（R2 R）定义的核心任务公式上[5]。两者都是在Matterport3D环境中设置的[9]，但RxR是多语言的（英语，印地语，泰卢固语），它的路径更长，更多样化，并且它有大约六倍的指令。重要的是，虽然R2R和RxR都包括导航路径，但RxR包括两个关键的附加注释：摆出跟踪的姿势。姿态跟踪记录注释者在他们沿着导航路径移动时的虚拟姿态，同时记录供其他人遵循的口头导航指令。从姿势跟踪中，我们可以渲染注释器查看的所有内容的时间戳视频。文本时间戳。RxR的文本指令中的每个单词这提供了导航指令中的单词到视频帧的噪声、近似接地。使用RxR，我们在三个步骤中构建地标注释：（1）提取地标短语;（2）将地标短语接地以构成跟踪帧;以及（3）细化所选帧以更好地与地标对象对齐。文本时间-然而，单独的文本时间戳不足以使跟踪帧成为基础，因为注释者可能会谈论地标而不看它。提取标志性短语。创建银地标数据的第一步是从RxR的人类指令中提取地标短语的时间排序列表为此，··15431--×ΣY图3.姿势跟踪帧（顶部）和地标短语（左侧）之间的CTC对齐示例。每个地标都与帧的连续子序列BLANK标签用于不包含界标的帧。我们使用基于mBERT的依赖解析器[16]，在多语言维基百科数据[25]上进行训练，以识别所有实体提及，包括它们的词性，我们将其与它们的非从句依赖项合并到单个文本跨度中（参见补充信息以了解更多细节）。为了改善结果，我们在每种语言中手动策划了一个停止列表，其中包含因太难而被丢弃的常见标志性短语为了准确地定位（例如，‘the room’输出是文本跨度序列t =[t1，t2，. - 是的- 是的，t m]，例如，你站在一把棕色的椅子前。向左转进入浴室，你会看到一个水槽在你面前。现在采取一步的权利，停止在脚垫，你会达到你的目的地。→ [棕色椅子，浴室，水槽，脚垫]。总的来说，我们从RxR Train、Val-Seen和Val-Unseen拆分中的102 k条指令中提取了971 k个地标短语（平均每条指令9.55个地标）。有84，237个独特的短语;出现3 次 /5 次 /10 次以上的短语比例分别为20.8%/13.1%/7.4%。地标接地矩阵。对于一个指令，要使界标短语t=[t1，t2，. . .，t，m]来对轨迹视频帧r=[r1，r2，. - 是的- 是的，rn]，我们构造了一个m n logit矩阵A，其中Ai，j表示标志短语Ti和帧Rj。通过组合来自MURAL-large [32]的信号来计算Logits，MURAL-large是一种Ai，j=X（ti）·Y（rj）−λ（T（ti）−T（rj））2（1）其中X计算MURAL文本嵌入，Y计算MURAL图像嵌入，T返回以秒为单位的时间戳，λ是设置为1的加权因子。为了在RxR上微调MURAL，我们为每个预训练和冻结的编码器添加了一个额外的可训练层，图4. RxR Val-Unseen导航指令的完整自举地标注释10个界标中有9个（1-9）是强对齐的。地标10厨房未对齐（尽管视觉相似），可能是由于违反了我们的规定，即注释者在其观察顺序–使用连接主义时间分类（CTC）损失[24]。我们的动机类似于CTC在语音识别和光学字符识别中的使用[20]，其中输出标签的序列是已知的，但与输入的对齐是未知的。我们把帧序列r=[r1，r2，. . .，r n]作为输入。输出标签组t1，t2，. -是的- 是的，t m，BLANK包括标志性短语在指令中加上一个BLANK标签（以适应没有界标的帧）。有序标志短语t=[t1， t2，. . . ,tm] provide thetarget output sequence, i.e.,我们假设注释者提到土地的顺序标记是观察它们的顺序。CTCnp（t|r）=p（A i，j|（2）第二节A（r，t）j=1其中A（r，t）在所有有效比对上边缘化，并且右侧项计算单个比对的概率。直觉上，CTC通过将每个帧分配给地标短语来执行训练，使得指令中的地标的顺序被保留。有效的CTC比对如图3所示。解码地标路线。在微调之后，我们对logit矩阵A执行贪婪CTC解码，其将每个标志短语与一个或多个帧的序列对于每个标志短语ti，我们通过选择序列中为ti分配最高概率的帧来找到最佳的单个对齐这生成图像-文本对，其中每个文本跨度是来自指令的地标短语，并且每个图像是来自具有已知航向、俯仰以及水平和垂直视场（从原始姿态轨迹导出）的360度15432评价由于上面的文本图像对齐任务是弱监督的（即，我们知道地标短语序列和姿态跟踪视频是配对的，但是我们不知道地标短语如何与视频帧对准），我们还执行对准质量的小规模人工评估。我们手动注释了来自RxR Val-Unseen的100条指令我们观察到：1）增加基于时间戳的偏置（即，方程中的平方项（2））：49.6 w/o bias vs. 56.5 w/偏倚;（2）仅偏置（即，没有来自MURAL的输入）不工作：23.4精度。里程碑式的改进。我们观察到，在前面的步骤中选择的姿势跟踪帧通常包含地标短语，但它并不总是居中。这是因为注释者不一定需要直接查看地标来注意它。为了进一步细化地标接地，我们生成了大量的替代接地（由航向、俯仰和视场定义），这些接地与所选帧重叠。每个标志短语的最终银色标志图像是这些候选者中与标志短语具有最高MURAL对齐分数的基础。这导致非常高质量的地标注释，如图所示。4表示一条指令的完整界标注释集。4. 地标检测使用来自RxR和银色地标注释的导航路径（第3），我们训练选择要提及的视觉地标的地标检测器。该模型的输入是沿路线以规则间隔捕获的 360 个PIPANOSI1：T该模型使用CenterNet [65]对象检测器检测360幅图像中的地标作为对象检测问题该探测器旨在识别看不见的环境中的地标。虽然并非所有的地标都是传统意义上的物体（例如，开放区域、洗衣房），以前的工作表明，对象检测器可以学习成功地检测和特征化非形态图像区域，例如天空和水[4]。输入格式。给定一系列全景图像I1：T，每个全景图像I1：T以等矩形形式输入到CenterNet。虽然等矩形图像遭受失真，大多数地标位于接近地平线，等矩形失真是最小的。先前关于人类导航的地标显著性的工作表明，位于更靠近下一个路线段的地标比更远的地标更重要（例如，在Ob-server后面）[7，34]。因此，我们通过旋转每个输入pano为模型提供路线上下文，以便下一个pano的方向（出站方向）在图像中居中由于从前一个pano到达时所面对的方向（入站方向）也很重要，我们在输入图像上绘制彩色像素块，图5.地标探测器的Pano输入格式。入站和出站方向都绘制在图像上，以提供路线上下文。检测器输出等距矩形图像中的边界框，边界框被转换为检测到的地标的透视模型（见图）（五）。为了避免边缘不连续，我们还在pano的每一侧添加了90mm的圆形填充为训练和推理一致地准备图像。训练如图所示，3、每个地标图像是一个360度全景投影为了获得训练目标，我们将这些投影映射到等矩形全景图像中的最小包围边界框。我们使用在COCO 2017数据集[41]上预训练的Hourglass-104骨干[40，43]初始化模型，并使用128的批量大小，512×256的等矩形图像大小和单个地标对象类对来自RxR训练集的银色地标进行20 k次迭代训练。推理。在推断期间，我们将来自路径中的每个pano的前3个检测汇集在一起，并将来自该池的前T个检测作为检测到的地标（其中T是路径长度）返回。4这些值（来自单个pano的最多3个地标，平均每个pano一个地标）与训练集中的平均值密切对应。5. 指令生成指令生成器将所选择的地标和连接它们的路线的表示转换为文本导航指令。我们的模型基于mT5文本到文本编码器-解码器Transformer架构[62]，其本身是T5的多语言变体[48]（因此，MARKY-MT5）。在所有实验中，我们使用mT5基本大小模型和标准mT5词汇表，该词汇表支持多达101种语言，使用在mC4上训练的SentencePiece [38]模型将文本编码为WordPiece [52]令牌。输入格式。我们制定的输入到模型中，通过inserting选定的地标的视觉表示到一个templatic英语文本序列描述的方向，每个地标和遍历路线所需的行动。具体而言，每个视觉地标特征出现在4基于BLEU和CIDER分数选择1：1 #地标/路径长度比：还以1.2：1、1.5：1、1.75：1和2：1的比率进行实验。15433→图6.从指令生成器输入模板和多语言输出输入模板封装了要沿着路线提及的可视地标，以及它们的相对方向和连接它们的导航动作。其在路线上出现的顺序，在其相对于观察者的相对取向之前，例如，前方是... ，轻微的右边是。在每个界标之间，接近下一个地标的动作短语被编码，例如，左转，转180度（参见图6）。有12个可能的相对方位短语和12个可能的动作短语，每一个都代表30度的弧。使用这种方法，我们的指令生成器可以使用任何一组可以沿着3D路线定向的地标图像进行训练或评估。为了识别所需的输出语言，输入之前会有相应的提示：'将占位符模板翻译为英语/印地语/泰卢固语：'。地标为了训练模型，我们使用RxR数据集，并使用第二节中描述的银色地标进行增强。3 .第三章。由于指令经常多次提到同一个地标（例如，从图4“你正站在洗手间里，向右转并离开洗手间......”），相同的界标图像可以在银数据中连续出现多次。这泄漏了关于指令的表面实现的信息，这将无法从我们的地标检测器获得。因此，我们通过从同一个pano中删除任何具有前一个地标的航向、海拔和视场在5°范围内的地标来消除重复地标除了银数据提供的地标或地标检测器（检测到的地标），在每个pano，我们包括一个额外的出站地标，定义为从当前pano到下一个pano方向的视图（图中以橙色为界）。（六）。包括出境地标给了一个小的推动，在自动评估.所有标志均使用来自MURAL-large的640维图像嵌入表示[32]。重写任务。为了提高指令生成器的性能，我们提出了一个辅助重写任务。在重写任务中，我们在训练过程中修改输入模板，用地标短语替换每个银色地标的图像特征，例如。“马桶”如前所述，训练目标是包含上下文中的所有地标短语我们假设这个辅助任务有助于训练模型中的注意力机制，以正确地将输入地标表示与文本中的输出实现相关联（注意，这是我们直接使用来自银色数据集的地标短语注释的唯一方式）。训练前。我们研究了在CC3M [ 53 ]和CC12M [ 10 ]数据集的图像标题对的等权重混合物上预训练指令生成器。由于字幕都是英文的，我们使用MT服务将其翻译成5我们认为在预训练期间向我们的模型引入文本和视觉输入很重要。因此，我们将预训练任务制定为使用枢轴的image [56], e.g. (English + image) Hindi and so on. Toencourage the model to make full use of the visual informa-仅提供输入字幕的前半部分。微调和推理。我们在RxR训练分割中使用银色地标输入对所有三种语言进行微调mT5，用于200k次迭代，批量大小为128。在推理我们使用ARGMAX解码并使用来自界标检测器的银和预测界标两者进行评估6. 实验基线。我们在RxR上训练我们的多语言MARKY-MT5模型，并使用RxR [36]和R2 R [6]的路径进行评估，与以下先前的工作进行比较：SpkFol 和 EnvDrop ： Speaker-Follower [22] 和Environmental Dropout [58]论文中的指令生成器。这两个模型都是LSTM [28]编码器-解码器模型，将完整的全景图像作为输入，每个pano由36个图像特征表示，代表不同的观看方向。SpkFol-RxR：我们重新实现了SpkFol并优化了RxR数据集中较长指令的超参数，使用mT5词汇表为英语，印地语和泰卢固语训练单独的单语模型。5https://cloud.google.com/translate··15434RxR（所有）↑↑↑↑↓↑↓↓→→→视觉搜索%模型地标训练数据 WC NE ↓SR ↑SPL ↑质量↑开始↓其他↓时间（秒）↓1 SpkFol [22] Full Panos R2R 24.66.0 42.0 35.8 4.1 39.8 23.62 EnvDrop [58] Full Panos R2R 24.56.0 41.7 35.3 4.0 40.7 23.5 54.03 SpkFol-RxR [22] Full Panos RxR 61.83.9 57.8 48.7 4.2 36.0 23.7 67.54 Marky-mT5 RxR 57.53.6 64.9 54.1 4.2 36.2 23.8 72.55 Marky-mT5预测RxR 58.22.9 70.8 59.8 4.3 35.5 23.2 70.16人-25.6人2.8 74.9 66.4 4.5 37.8 23.0 52.2表1. R2 R Val-不可见的人类寻路性能（每个模型N= 783）。将更大的RxR数据集与地标建模和我们的自举地标数据集相结合，我们几乎消除了模型生成和人类编写的R2 R难度路径74.9%为人类指令，42%为以前的模型。视觉搜索%模型地标WCNE↓SR↑SDTW↑公司简介质量↑开始↓其他↓时间（秒）↓1个Marky-mT5出境67.35.353.337.452.14.138.926.9146.82 Marky-mT5预测71.14.461.543.956.24.237.626.5154.43 Marky-mT5银72.24.363.345.457.04.337.826.6149.84人力-76.22.778.461.369.24.636.525.7147.4表2. RxR Val-不可见的人类寻路性能（每个模型N= 4，551）。在更长和更具挑战性的RXR风格的路径上，人类寻路者使用我们的模型获得了61.5%的成功率，78.4%为人工指令。使用银色地标的成功率高达63.3%，这表明改进地标选择是缩小这一差距的一种方法。为了评估建模选择和机会，我们报告了以下模型变体的结果：：使用出站标志进行培训和评估，但未检测到标志（参见第（五）。预测：我们的完整模型，在银色地标数据上进行训练，并使用我们的地标检测器生成的预测地标进行评估。银色：如上所述，使用银色标志进行评价。这使我们能够评估从人类注释中得出的标志性能的准上限，并且不代表部署的系统性能。消融：未在CC3M和CC12M上进行预训练且未进行重写辅助任务的结果。人类寻路我们认为人类的评估对这项任务至关重要。使用PanGEA [37]（一种用于全景图环境的开源注释工具包），我们将注释者沉浸在由Matterport3D数据集[9]支持的模拟第一人称环境中，并要求他们遵循提供的文本导航说明。我们总共进行了20k次寻路评估，涉及70名注释者。所有注释者都位于印度。人类寻路系统我们报告了以下标准度量[2，31]来评估我们的注释器生成的路由与预期路由之间的相似性（因此，生成的指令的质量）：导航误差（NE）成功率（SR）、反向路径长度加权的成功率（SPL）、归一化动态时间规整（ NDTW ）和成功加权 DTW（SDTW）。箭头表示性能提高。在[64]之后，我们还报告了注释者在1-5 Likert量表（质量）上评估的教学质量，以及注释者可用全景视野的百分比，notator在每个视点观察（视觉搜索），值越高表示寻找正确路线或地标所花费的精力越大。6时间表示完成任务所需的平均时间（以秒为单位），WC是字数，N是评估的指令数。自动度量。对于模型开发和消融，我们使用自动评估指标。SPICE [3]是发现与人类寻路性能相关的唯一度量标准[64];然而，SPICE需要英语依赖解析器[33]，因此我们还报告了BLEU [44]和CIDER [59]。此外，由于SPICE是为评估单个句子而设计的，而不是多句段落，因此在计算SPICE时，我们将候选和参考指令分离为单个句子（详见补充部分）。我们使用COCO标题的官方评估代码计算 CIDEr 和 SPICE[12] 。对于BLEU ，我们使用 sacre- BLEU 实现 [47] 。 CIDEr 和BLEU分数是语言的宏观平均值。结果我们在Tab中提供了R2 R的Val-Unseen路径上的人类评估。1和RxR的Val-Unseen路径在Tab. 2; RxR的自动评价见表1。3 .第三章。我们将结果讨论与具体问题和主题联系起来。数据集选择：在更大的RxR数据集而不是R2 R上进行训练，显著提高了人类在英语中的寻路能力，提高了成功率（42.0% 57.8%）和SPL（35.8%48.7%），同时使用相同的模型降低了导航误差（6.0m3.9 m）-参见表1。1行3与1行。我们注意到，在RxR上训练的模型的字数（WC）比R2R6StartandOther指的是第一视角和其他视角，分别报告，因为寻路者通常在开始时环顾四周以确定自己的R2R（en）····15435→→→→→→有价值无价值模型地标重写PT BLEU CIDER SPICE（en） BLEU CIDER SPICE（en）SR↑ NDTW↑1 SpkFol-RxR [22] Full Panos--5.9 8.9 13.9 5.7 8.4 13.0 29.6 41.62 Marky-mT5 Full Panos--5.8 8.3 11.8 5.6 9.6 14.0 50.7 60.13 Marky-mT5--6.4 10.7 10.1 6.2 10.0 10.0 53.6 62.94 Marky-mT5银色--11.6 25.2 16.6 11.1 23.3 15.7 55.9 64.15 Marky-mT5银C-14.0 33.917.812.9 30.416.4 56.364.26 Marky-mT5银C C14.6 35.017.313.4 31.7 16.2 56.464.27 Marky-mT5预测值C C 6.2 8.4 13.7 5.8 7.5 13.5 55.7 63.38人类-56.562.9表3.RXR上的自动评估结果汇总了英语，印地语和泰卢固语，除了SPICE仅限英语。SR和NDTW对最先进的VLN代理的寻路性能进行了评分[11]。PT是指CC 3 M/12 M预培训。相同的路径; RxR注释包括更详细的描述和更多的状态验证[36]。地标重要吗？是的在R2 R上，MARKY-MT5增加了成功率（57.8% 70.8%）和SPL（48.7% 59.8%），并降低了导航误差（3.9m 2.9m），与之前没有标志的工作一致-1，第5行与第3行）。我们将收益主要归功于地标建模：虽然M ARKY-M T5使用了一个Transformer架构，并且图像功能比SpkFol-RxR更强，但是这些变化在没有标志的情况下几乎没有影响（表1）。3，第2行与1）。银色地标有多有用？在RxR的chal-challening路径上2，第3行与第1行）。这证实了我们的银色地标包含有用的接地，使用它们可以提高性能。地标检测可以改进吗？M ARKY-M T5使用银色地标而不是预测地标执行得更好，例如成功率为63.3%，61.5%（表2行3与2），表明收益是可能的。与人类指令的比较：总的来说，结合使用RxR数据、银色地标和建模改进，我们几乎消除了R2R难度路径上模型生成和人类编写指令之间的差距，成功率为71%，75%用于人类指令，42%用于以前的模型（表1）。1）。然而，在更具挑战性的RxR风格的路径上，仍然存在差距-人类2）。虽然人类仍然可以区分MARKY-MT5指令与人类，但最先进的VLN试剂[11]不能- 实现几乎相同的成功率（56.5% vs. 55.7%）和NDTW（62.9% vs. 63.3%）分别为人类和模型生成的指令（表。3行8与（七）.重写辅助任务和CC 3 M/12 M预培训：重写任务培训（选项卡3行5与4)具有对Val-Seen和Val-UnseenBLEU （ +2.4/+1.8 ）、 CIDEr （ +8.7/+7.1 ）和 SPICE（+1.2/+0.7）有较大的积极影响。预训练（选项卡）3行6与5）改善BLEU（+0.6/+0.5）CIDEr评分为+1.1/+1.3，SPICE评分为-0.5/-0.2。自动评估的可信度：我们注意到，用预测的地标替换银色地标（表1）。3行7 vs. 6）将BLEU（-8.2/-7.6）、CIDEr（-26.6/-24.2）和SPICE（-3.6/-2.7）显著降低到以前工作的水平。这与我们人类的评估完全不一致我们建议只使用自动评估来比较相似的模型，并将这种文本相似性的降低归因于地标选择的差异。多样化的一代。我们的两阶段方法的一个吸引人的特性是，可以通过对地标预测进行采样来生成不同的指令。重温Fig.例如，对下一个最高排名的地标预测进行采样产生以下完全不同的指令：“你站在浴室里，面对着厕所。你要向右转走出浴室。你会进入一个厨房。在您的右侧将有一个大理石台面，在您的左侧将有一个起居室。你要左转进入客厅。在你面前将是一个拱形入口的方式与桌子和椅子。你就在那个入口处停下来，就完事了。7. 结论在971 k接地地标的新自举数据集的支持下，我们的MARKY-MT5模型几乎消除了R2 R路径上模型和人类书面指令之间的差距。在新的环境中生成这种高质量的导航指令是向会话导航工具迈出的一步，并且可以实现对遵循指令的代理的更大规模的训练然而，我们的方法的优势-M ARKY-M T5在生成时对其他语境是盲目的，这使得它容易受到语用失误的影响，例如：在具有多个出口的房间中生成“离开房间”。解决这一问题可能会带来进一步的收益。鸣谢。我们感谢赵明、苏哈希尼·韦努-戈帕兰和亚历克斯·库的早期讨论;杨音飞、贾超、阿希·杰恩帮助研究壁画的图像特征; Sebas-tian Goodman和Beer Changpinyo协助多模态mT5实施; Igor Karpov、Ming Zhao和Google ML数据运营团队支持人类评估。RXR15436引用[1] Sanyam Agarwal ， Devi Parikh ， Dhruv Batra ， PeterAnder-son，and Stefan Lee.视觉地标选择，用于生成接地和可解释的导航指令。在CVPR研讨会上，深度学习用于语义视觉导航，2019年。2[2] 彼得·安德森天使X Chang，Devendra Singh Chaplot，Alexey Dosovitskiy，Saurabh Gupta，Vladlen Koltun，Jana Kosecka ， Jitendra Malik ， Roozbeh Mottaghi ，Manolis Savva，and Amir Roshan Zamir.论具身导航代理人的评价。CoRR，abs/1807.06757，2018。7[3] Peter Anderson，Basura Fernando，Mark Johnson，andStephen Gould. SPICE：语义命题图像帽评价.在ECCV，2016年。7[4] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR，2018年。5[5] Peter Anderson，Qi Wu，Damien Teney，Jake Bruce，MarkJohnson，NikoSünderhauf，IanReid，StephenGould，and Anton van den Hengel.视觉和语言导航：在真实环境中解释视觉基础的导航指令。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。第1、3条[6] Peter Anderson，Qi Wu，Damien Teney，Jake Bruce，MarkJohnson，NikoSünderhauf，IanReid，StephenGould，and Anton van den Hengel.视觉和语言导航：在真实环境中解释基于视觉的导航指令。在CVPR，2018年。6[7] 大卫·卡杜夫和萨宾·廷普夫。人类导航的地标显著性评估Cognitive processing，9（4）：249-267，2008. 二、五[8] 放大图片作者：Edgar Chan，Oliver Baumann，Mark A.Bellgrove和Ja- son B.麦亭利从物体到地标：视觉定位信息在空间导航中的作用。在心理学的前沿，2012年。2[9] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niessner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport 3D：从RGB学习室内环境中的三维数据。3DV，2017. 一、三、七[10] Soravit Changpinyo、Piyush Sharma、Nan Ding和RaduSoricut。概念12米：推动网络规模的图像-文本预训练，以识别长尾视觉概念。在CVPR，2021年。6[11] Shizhe Chen ， Pierre-Louis Guhur ， Cordelia Schmid ，and Ivan Laptev.历史感知多模态Transformer，用于视觉和语言导航。在NeurIPS，2021年。8[12] 陈新蕾，林浩芳，拉玛克里希纳·韦丹坦，索拉布·古普塔，彼得·杜洛埃，C.劳伦斯·齐尼克。Microsoft COCO标题：数据收集和评估服务器。arXiv预印本arXiv：1504.00325，2015。7[13] Jaemin Cho，Jie Lei，Hao Tan，and Mohit Bansal.通过文本生成统一视觉和语言任务。在ICML 2021，2021的会议记录中。二、三[1

下载后可阅读完整内容，剩余1页未读，立即下载