没有合适的资源?快使用搜索试试~ 我知道了~
19119情景记忆问答乔治亚理工大学乔治亚理工大学乔治亚理工大学鲁塔·德赛Meta Reality Labs研究Mukul Khanna Dhruv Batra佐治亚理工学院,Meta AI研究Devi Parikh佐治亚理工学院,Meta AI研究摘要诸如可穿戴眼镜的以自我为中心的增强现实设备在人类穿戴者巡视家庭环境时被动地捕获视觉数据。我们设想一种场景,其中人类通过询问问题(例如,“你最后一次看到我的钥匙是在哪里?”)。为了成功完成这项任务,自我中心的AI助手必须(1)构建语义丰富且有效的场景记忆,对旅行期间看到的物体的时空信息进行编码,以及(2)具备理解问题并将其答案置于语义记忆表示中的能力为此,我们介绍了(1)一个新的任务-情景记忆问题分类(EMQA),其中一个以自我为中心的AI助手提供了一个视频序列(旅游)和一个问题作为输入,并被要求将其答案定位到旅游中的问题,(2)一个接地问题的数据集,旨在探测代理对旅游的时空理解,以及(3)一个任务模型,将场景编码为一个以自我为中心的,自上而下的我们表明,我们选择的情景记忆优于天真的,现成的解决方案的任务,以及主机的非常有竞争力的基线,是强大的噪声的深度,姿态以及相机抖动。1. 介绍想象一下,戴上一副由人工智能驱动的增强现实(AR)眼镜,在你的房子里走来走去。这样的智能眼镜将具有从与其佩戴者相同的视角“看到”并被动地捕获以自我为中心的视觉数据的能力换句话说,这些设备图1. (a)一个以自我为中心的人工智能助手,假设是在一副增强现实眼镜上运行,凭借其人类佩戴者在环境中移动,进行一次有指导的探索之旅。(b)代理被动地记录RGB-D地图的自我中心流,(c)构建场景的内部情景记忆表示,以及(d)利用这种时空记忆表示来回答关于旅行的(多个)事后问题。可以充当我们个人的以自我为中心的人工智能助手。以前在火车上工作的历史很悠久-引导导航代理回答基于室内环境的问题然而,以自我为中心的AI助手在几个重要方面不同于EQA代理。首先,这样的系统被动地观察作为人类佩戴者的导航的结果的以自我为中心的视觉帧的序列,而不是在环境中采取动作。其次,以自我为中心的助手的人工智能系统将被要求建立特定场景的机器人。19120∼在不同的问题中持续存在的理论表征。这与EQA形成了直接对比,在EQA中,当代方法将每个问题都视为一个干净的导航事件。EQA代理在没有关于场景的先验信息的情况下开始导航(即使当前问题是关于他们之前目睹的场景)。第三,EQA代理人通过说出语言来回答问题。回答这样的问题:“你最后一次看到我的钥匙是在哪里?”答案是--如果房子里有多个走廊,“走廊”不是一个很有用的回答。相比之下,我们的设置呈现了一个场景,其中以自我为中心的助理可以通过在环境之旅中将答案接地来潜在地定位答案。因此,作为实现这种以自我为中心的AI助手的目标的一步,我们提出了一个新的任务,其中AI助手被带到室内环境的导游,然后被要求将其答案定位到基于环境旅游的事后问题(图1)。这种探索前的旅行提供了一个机会,建立一个内在的,情景记忆的场景。一旦构建完成,AI助手就可以利用这个场景记忆来回答关于旅游的多个后续问题。我们把这个任务称为更具体地,在所提出的EMQA任务中,系统接收预先记录的RGB-D图像序列,其中对应的oracle姿势信息(引导代理游览)作为输入。 它使用输入游览来构造室内场景的记忆表示。然后,它利用场景记忆来回答多个文本问题。答案的定位可以发生在旅游的自我中心框架序列中,也可以发生在自上而下的度量地图上(如房屋平面图)。这两个输出模态是等效的,给定的代理姿势。该文件作出了几个重要贡献。首先,我们介绍了情景记忆问题的回答任务。我们生成一个数据集的问题接地预先录制的代理旅游,旨在探讨系统以及时间推理 能 力 ( “ 你 第 一 次 / 最 后 一 次 看 到 垫 子 是 在 哪里?”)。其次,我们提出了一个模型的EMQA任务,建立allocentric自上而下的语义场景表示(情节场景记忆)在旅游期间,并利用相同的回答后续问题为了构建情景记忆,我们的模型将从旅行中的自我中心观察中提取的语义特征以几何上一致的方式组合成一个自上而下的旅游场景特征图[5]。第三,我们扩展了现有的场景记忆,通过增加时间信息(“何时”观察到这些对象)来模拟对象之间的空间关系[5](关于时间定位的问题。第四,我们将我们选择的场景表示与大量基线进行比较,并表明我们提出的模型优于仅语言基线150%,天真的最后,除了逼真的室内环境[6],我们还测试了我们的方法在对现实世界具有高保真度的设置下的鲁棒性我们展示了将我们的方法零拍摄转移到现实世界的RGB-D数据集[26]的定性结果,该数据集呈现了不完美的深度,姿势和相机抖动的显著挑战性条件-以自我为中心的AR助理的典型部署条件除此之外,我们摆脱了在室内环境中Oracle姿势可用性的不切实际的假设[11,33],并对智能体姿势中噪声(不同类型和强度)的影响进行了系统的研究我们表明,我们的模型比基线更有弹性,这种嘈杂的扰动。2. 相关工作环境中的可持续发展。训练体现代理回答问题的基础上,在室内环境中一直是几个先前的作品的主题。具体来说,[9,32]提出了可以回答模拟场景中单个和多个目标对象的问题的代理。[29]介绍了从Matterport3D模拟器和基于3D点云的输入中将这一工作线用于逼真场景的实例,而[15]介绍了要求代理与其环境交互的任务的扩展。在所有上述内容中,代理被设置为以而代理没有虽然[15]中的智能体具有存储关于对象语义和自由空间的信息的语义空间记忆,但它在来自同一场景的不同问题片段之间不是持久的。此外,所有先前的工作都涉及生成语言答案标记的排名列表作为预测。我们的任务制定允许共享语义场景记忆,这种记忆在场景的不同问题中是持久的,并将问题的答案本地化-这是以自我为中心的AI助手的一个视 频 问 答 。 我 们 的 工 作 也 让 人 想 起 视 频 问 答(VideoQA)任务。VideoQA已经见证了丰富的先前工作历史,介绍了从“开放世界”领域(电影[ 27 ],电视节目[ 19 ],烹饪食谱[ 10,34 ])采样的数据集19121×关于视频中发生的事件的问题相反,我们的EMQA数据集包括从室内环境中的导航轨迹生成的以自我为中心的视频除了在输入视频序列中进行本地化之外,此设置还启用了其他输出模式,例如与现有VideoQA域不兼容的场景平面图此外,现有的VideoQA数据集还附带了丰富的每帧注释,如字幕,情节脚本和其他子事件元数据。相比之下,EMQA假设没有这样的附加注释。[16]与我们的工作同时进行,并提出了一个大规模的以自我为中心的视频数据集,该数据集与记录活动发生的环境的3D网格配对通过对话定位。[12,17]提出了一项任务,其中可以访问环境的自顶向下平面图的实体需要仅通过第一人称视觉来定位在场景内两者都假设场景的自上而下的平面布置图作为输入提供给代理,而我们的模型则从导游中从头开始构建地图表示。场景记忆表示。 构建场景表示以协助代理执行具体任务具有丰富的先前工作历史,早期的示例采用LSTM导航模型的隐藏状态作为场景的紧凑表示[21,30]。为了克服表示复杂3D场景的单个状态向量的有限表达能力,最近的方法将场景记忆建模为观察到的自我中心特征的缓冲区[13,14],2D度量网格[1,3,5,7],拓扑地图[24,31]或全尺寸3D语义地图[8,23,28]。将观察到的以自我为中心的特征存储在缓冲区中不会显式地对场景中的对象之间的几何和空间关系进行建模。拓扑图对于精确的度量定位(我们的任务的必要条件)不是最佳的。与构建基于体素的3D场景表示相关的内存约束将[8,28]中提出的特征映射限制为简单场景(放置在桌面上的少数对象)。相反,我们的任务涉及视觉复杂度明显更高的室内环境。我们的场景记忆(allocentric,自上而下的语义特征映射)与[5]最相似。 我们通过将时间信息与语义特征(“何时”是“观察到的”和“何处”)结合,对[53. EMQA数据集:基于场景游览的我们现在描述任务的数据集。回想一下,该任务涉及带助手对室内环境进行探索性参观,然后询问有关导游的多个事后问题。EMQA模型必须将场景中问题的答案本地化。导游探索之旅 我们在使用Matterport3D [6](MP3D)扫描(从90个室内环境重建3D网格)的Habitat [21]模拟器。对于任何给定的室内场景,我们使用[5]中手动记录的探索路径这些多房间导航轨迹针对覆盖范围进行了优化,包括以自我为中心的RGB-D地图、地面实况姿态,并且平均长度为2500步。对于通过室内场景的给定探索路径,我们现在描述我们生成关于自我中心助理所目睹的对象的基础问题的过程。在[5]之后,我们将我们自己限制在12个通常出现的对象类别,如沙发,床等(完整列表见附录)。我们首先通过生成地面实况自上而下的地图,通过语义注释的MP3D网格的正交投影,为每个场景标记有对象实例。这些生成的地图包含有关场景所有部分中所有对象自上而下布局的地面实况信息这些地图中的每个单元格都具有2cm-2cm的固定空间分辨率,因此,地图的空间维度取决于室内场景的大小虽然探索之旅已经针对覆盖范围进行了优化,但它们并没有覆盖所有场景的所有可观察部分(在手动引导的探索过程中遗漏了一些难以到达的环境利基区域因此,为了确保数据集中问题的相关性,接下来,我们从整个场景的地面实况语义图中计算“观察到的”位置的子集为了做到这一点,我们将每个步骤的深度图投影到自上而下的场景图上,为我们提供局部观察位置上的每个时间步长的掩码(图2,对所有时间步求和并将所得掩码覆盖在地面实况语义图上,为我们提供了在游览期间观察到的对象子集及其位置这是我们生成问题的来源。从每个这样的对于前者,我们生成一个形式为“你在哪里看到X >?"的问题其中X>是对象类别(来自12个对象的预先选择的词汇表),在游览期间最多见证5个实例。与每个问题一起,我们还记录关于以下的信息:(a)与所讨论的对象类别的所有实例相对应的自上而下的地图像素,其用作地面实况答案,(b)在游览期间观察到每个实例时的游览时间步长。这通过计算观察位置的每步掩模(如上所述)与自顶向下地图上的对象实例之间的交集来完成。如果在任何时间步,所观察到的掩模覆盖了所讨论的对象实例的多于一个物理上确定的分数(10%),那么,我们19122×图2.数据集生成过程的示意图。地面实况自上而下的地图是通过以自我为中心的RGB+深度观察和姿势信息,从带有语义标签的MP3D网格的正投影中创建的,并通过每步观察到的掩码过滤掉认为该实例是类似地,对于时空子集,我们生成具有以下格式的问题:?”对于每个对象类别X>,至少有2个in-在旅途中看到的风景。为了选择对象的第一个(或最后一个)被查看的实例,我们查询包括时间步的Meta数据(如上所述),其中对象的每个实例在游览期间被查看在所有实例的第一个(最后一个)观察到的时间步长中具有最早(最晚)时间步长的实例成为对象的第一个(最后一个)查看实例。请注意,在某些情况下,对象的第一个和最后一个实例可能会重合(巡回赛包括巡回赛中的“循环”),这对学习来说是一个如上所述,EMQA数据集中的探索之旅平均长度为了使训练过程中的记忆需求和速度易于处理,我们遵循[5]中规定的协议,并考虑从最初策划的“完整”游览中随机抽样的20步“短”游览段。自上而下的地图涵盖了这些20步旅游子集所涵盖的区域是固定的空间尺寸的250 - 250细胞在所有的我们使用相同的问题生成引擎(在前面的小节中描述)来生成与“短”游览数据分割相对应的问题除了在训练过程中缓解速度和内存需求外,这也大大增加了可以学习的训练样本我们想强调的是,我们最初的任务(以及随后的所有结果)都是在全尺寸参观中定义的。图2(我们使用相互排斥的场景进行训练,val和测试分割,评估从未见过的环境中的我们还显示了数据集中所有问题的对象类别分布有关更多定性示例和统计数据(分析场景中对象的大小和空间分布),请参阅附录。文档.4. 模型广义地说,EMQA任务的任何模型都必须包括以下两个子任务的模块:(1)场景记忆表示和(2)问题回答。前者将场景游览(RGB-D视频帧序列和相关联的地面实况姿态)作为输入,并生成场景的紧凑表示,该紧凑表示对关于对象、它们的相对空间布置以及在游览期间何时观看它们的信息进行后者将问题作为输入,对这个情景记忆进行操作,并生成其预测答案作为输出。在本节中,我们将描述我们的选择,这两个模块的具体实例化。场景记忆表示。作为场景表示的首选,我们使用allocentric,2D,自顶向下,语义特征[5]。这些表示是通过将以自我为中心的视觉特征投影到环境的以自我为中心的自上而下的平面图上来计算的,19123×图3.我们提出的EMQA代理的示意图。我们的代理首先构建了一个情景记忆表示的旅游,然后地面上的自上而下的场景平面图使用基于LingUNet的回答模型的问题的答案。相机姿态和深度的边缘。更具体地说,如图3(SMNet)所示,在巡回赛的每个步骤中,我们首先通过RedNet [18]模型从输入的RGB-D视频帧中提取卷积特征,该模型已经过训练,用于对SUN-RGBD [25]数据集的室内场景进行以自我为中心的语义分割,然后对来自Matterport 3D的以自我为中心的帧进行微调。接下来,这些每一步自我中心的语义特征被投射到场景的自顶向下的平面图上。所得到的特征图具有固定的分辨率-图中的每个“单元”对应于现实世界中的固定的2cm 2cm度量空间,并编码关于该空间中存在的对象的语义信息(如自上而下所示)。使用GRU将来自每个时间步的这些局部的、每步的、投影的特征累积到统一的空间记忆张量中,该空间记忆张量用作GRU被预先训练以从场景记忆张量 [5] 解 码 自 上 而 下 的 语 义 分 割 , 其 中 从 注 释 的Matterport3D语义网格计算3 .第三章。考虑到这些2D场景特征是如何导出的,它们具有更大的表达能力,更好地建模对象间的空间关系(由于几何一致的针孔特征投影),并且不受基于体素的表示的语义约束。时空记忆。虽然上面的方法对于表示场景中的对象来说是一个明智的选择,但它因此,在这项工作中,我们提出了一个新的前-通过增加关于在游览期间观察到表示中的每个度量单元 时的 信 息 ,对 [5]中 的场 景 表 示进 行 张 力如 图 3(Spatiotemporal memory),这是通过在“观察到的”位置上逐步掩码的通道堆叠来(3)第三章。请参阅Supp。的双曲余切值。问答。我们采用LingUNet [3]架构,通过利用构建的场景记忆(图3(LingUNet))为输入问题的答案提供基础。Lin-gUNet是一种具有语言条件跳跃连接的编码器-解码器架构。先前的工作[1,3,17]已经证明,它是一个高性能的架构,用于诸如将语言指定的目标位置接地到自顶向下的场景地图上以进行代理导航的任务。输入的问题使用64维单层LSTM进行编码。我们的3层基于LingUNet的问答模型将构建的场景记忆特征和问题的LSTM嵌入作为输入,并在2D平面图上生成空间特征图(有关LingUNet模型的逐层架构细节,请参阅补充)。空间特征图由卷积块进一步处理以生成答案预测分数的空间分布。该预测的“热图”表示代理关于所讨论的目标对象在自上而下的场景平面图上的定位的信念。问题编码器LSTM和LingUNet模型都是端到端训练的,并从问题回答损失中获得知识。训练细节视觉编码器(RedNet)首先通过以下方式进行训练以执行以自我为中心的语义分割:19124自顶向下映射输出空间自我中心像素输出空间方法IOU召回精度IOU召回精度LangOnly4.75±0.1414.41±0.626.98±0.185.26±0.1814.57 ±0.627.86±0.19EgoSemSeg22.89±0.6935.85±1.0638.45±1.0723.42±0.7336.06±1.0640.13±1.15SMNetDecoder26.92±1.1243.86±1.2540.95±1.2627.13±1.1243.39±1.5841.96±1.22EgoBuffer-Avg [13]0.07±0.010.37±0.060.24±0.030.11±0.010.40±0.060.34±0.03EgoBuffer-GRU [2]0.01±0.000.01±0.000.02±0.000.01±0.000.01±0.000.04±0.00[14]第十四话0.12±0.020.16±0.020.85±0.150.14±0.030.17±0.031.01±0.17我们27.42±0.6460.81±1.2831.94±0.6028.04±0.9460.96±1.4132.83±0.96我们的(+颞叶)29.11±0.4462.27±1.1333.39±0.5129.78±0.5962.68±1.0834.36±0.73表1.我们提出的模型和基线在“自上而下的地图”和“自我中心的像素”输出空间的EMQA结果以自我为中心的帧上的逐像素CE损失来自这个预先训练和冻结的RedNet的特征被场景分类编码器用来生成我们的情景记忆(通过自上而下的语义映射上的像素CE损失)。最后,使用来自预训练和冻结场景编码器为了做到这一点,我们使用地面真相答案(如第二节所述)。3)并使用每像素二进制交叉熵损失进行训练,该每像素二进制交叉熵损失促使模型将自顶向下图中的每个“单元”正确地分类由于我们案例中的优化过程处理的是严重的类别不平衡问题(在数万个“背景”像素中,只有几百个像素是答案类别在我们的实验中,我们还发现将最后一层的偏差设置为阳性样本与阴性样本的数量之比,并使用[20]中的归一化技巧。5. 基线在本节中,我们将详细介绍一系列竞争基准,并将我们的方法与之进行比较。仅限语言(LangOnly)。我们评估的基线回答问题的语言输入单独的EMQA。这样的基线已经被证明是体现问答任务的竞争力[9,29]。具体来说,我们从输入中删除情景记忆特征(同时保留时间特征),并训练问答模型来预测输入问题的答案。该基线的性能是数据集中存在的空间偏差的指示(床几乎总是存在于地图的同一个角落自 我 中 心 语 义 分 割 ( EgocentricSemanticSegmentation)。此基线用作EMQA任务的简单的“现成”解决方案。我们对每个以自我为中心的RGB帧执行语义分割,这些帧包括场景游览(使用与我们的应用程序中使用的相同的预训练RedNet模型proach)。然后,我们提取与所讨论的对象相对应的模型预测的子集自顶向下语义标签解码(SMNetDecoder)。在这个基线中,我们使用网络的解码部分来预训练我们的场景记忆特征,并直接预测在游览期间看到的平面图的自上而下的语义分割。我们遵循与上述相同的步骤:提取与所讨论的对象相对应的自上而下预测像素的子集,以获得该基线的答案预测。注意,EgoSemSeg和SMNetDecoder基线都不具有对时间特征的访问。缓冲自我中心的功能作为场景记忆。对于这一系列基线,我们存储从以自我为中心的RGB-D帧中提取的视觉特征缓冲区。这些特征是通过我们的方法中使用的相 同 的 预 先 训 练 的 红 网 模 型 以 及 EgoSem-Seg 和SMNetDecoder基线提取的。然后,我们使用以下不同的技术压缩缓冲区中的每一步特征,以产生先前工作中 基 线 的 特 定 实 例 : ( a ) 平 均 [13] ( EgoBuffer-Avg),(b)GRU [2](EgoBuffer-GRU)和(c)问题条件,缩放,点积注意力[14](EgoBuffer-Attn)。在使用上述方法中的任一种生成了1-D场景嵌入向量之后,我们使用去卷积层网络来生成对智能体答案的自上而下的2D有关这些基线架构的更多详细信息请注意,这些基线隐式地将从自我中心的观察导出的场景嵌入相反,我们的模型通过自我中心特征的几何一致性投影来明确地烘焙这种转换6. 实验结果指标.我们的模型生成一个二进制分割图(19125图4. (a)在自上而下的映射输出空间中,模型输出的定性示例来自测试分割。(b)由于时间特征而提高的性能(c)我们的模型到真实世界RGB-D数据集的零次泛化的定性结果[26]。因此,我们报告从套件的分割指标,用于评估输出答案 本 地 化 。 具 体 来 说 , 对 于 每 个 数 据 点(tour+question+answer),我们计算:问题的预测和GT 二 进 制 答 案 映 射 之 间 的 精 度 , 召 回 率 和 交 集(IoU)。我们报告了上述指标,这些指标在我们的旅游数据集的测试分割中平均。定量结果。我们报告的结果,我们的模型的预测,在自上而下的地图,以及自我中心的旅游输出模式在标签。1.一、如第二节所述。1,将答案接地到自上而下的平面图中相当于代理巡回赛的自我中心像素内的本地化-我们只是将自上而下的地图像素预测反向投影到代理的自我中心参考系上。因此,为了简单起见,我们在后续文本中讨论自顶向下映射空间中的趋势我 们 的 性 能 优 于 SMNetDecoder [5] 基 线 , 8 。 在IoU、召回率方面分别提高了2%、42%。这是由于两个因素的组合:SMNetDecoder基线不编码有关旅游时间信息的知识,我们提出的模型提供了一个更好的机制,通过更具表现力的LingUNet问答模型将问题的语义接地到自上而下的地图特征中。为了隔离由于时间特征的可用性而带来的收益,我们还训练了一个没有相同特征的模型的变体 我们看到,即使在没有时间特征的情况下,我们也能够超越SMNetDecoder(回忆60。81 v/s 43. 86,27的IOU。42伏/秒26. 92)。此外,EgoSemSeg基线的性能比SMNetDecoder基线差(并且通过关联,我们的模型)。这从经验上证明了我们提出的方法优于幼稚的这与之前的研究结果一致[5]。所有依赖于以自我为中心的RGB缓冲区的基线作为场景记忆的D帧特征在任务中通常失败这进一步验证了一个假设,即压缩的1-D场景表示对于我们这样的任务来说是远远不够的。将物体在场景中如何布局的空间知识和在旅行期间观察到它们时的时间信息编码到这样的表示中,然后从这样的场景记忆中解码答案的精确定位是一个极其困难的问题。我们的发现使这些记忆表征不能用于我们的任务。图4,我们还定性地表明,我们的智能体学会区分给定场景中的所有表的第一次和最后一次看到的实例(更多定性示例请参见补充)。时间特征有帮助。如第二节所述。4,了解在游览期间何时观察到物体对于回答时间定位问题至关重要为了进一步阐明这一主张,我们分解了我们模型的两种变体的性能(表1中的Ours v/s Ours(+temporal))。(1)问题类型(空间和时空)。如图4(b)所示,我们看到在添加时间特征后,时空定位问题的IoU相对提高了24%。对空间问题的指标没有显著影响。Sim2Real鲁棒性。超越模拟,我们分析了我们的模型的鲁棒性,典型的噪声源,可能会出现从现实世界中部署这样的系统。首先,我们在现实世界中捕获的原始视频序列上测试我们在模拟[6]中训练的EMQA模型。我们使用来自[26]中的RGB-D SLAM基准的RGB-D观察结果+相机姿势,这为以自我为中心的AR应用提供了具有高保真度条件的极具挑战性的测试平台:噪声深度+姿势和头戴式相机抖动。尽管有这些挑战,我们的方法提供了有希望的结果与零射击发电机,19126图5.通过添加(a)从LoCoBot [22]中采样的噪声和(b)使用视觉里程模型[33]获得的噪声旅游样本(c)在这些嘈杂的姿势设置下对我们的模型进行定量评估(d)嘈杂的语义映射预测的定性示例(4(c))。在没有任何微调的情况下,智能体能够对问题的答案进行基础分析,并合理区分对象的第一次和最后一次看到的实例。其次,根据先前的工作[11,33],我们去除了预言机室内定位的假设,并在噪声姿态条件下研究了我们的模型具体来说,我们以两种方式从我们的数据集中提取地面实况姿势序列首先,我们从用LoCoBot收集的样本估计的分布中添加噪声(独立地,在每一步)[22](图5(a))。其次,我们通过最先进的视觉里程模型[33]预测两个连续步骤之间的相对姿态变化,并将这些估计值整合到轨迹上,以保持对当前姿态的噪声估计(图5(b))。后者更现实,因为它考虑了由于沿着轨迹的级联误差而导致的代理的姿态估计的漂移正如预期的那样,当用噪声姿态评估用oracle本地化输入训练的EMQA模型时,场景表示(图5(d))和任务度量(图5(c))的质量与所添加的噪声的严重性和性质(独立v/s累积)成比例地下降。我们发现,我们提出的模型的IoU下降了29%,而我们最好的基线下降了36%,这表明我们的模型对增加的噪声更具弹性最后,我们还表明,在噪声设置中重新训练我们的模型(SMNet场景编码器和LingUNet问答模块)可以让我们重新获得一些损失的性能(所有三个噪声模型的IoU和精度增加),如图5(c)所示。更多详细信息,请参阅补充资料。限制和道德影响。我们的方法包括建立静态场景地图,限制设置问题,对象(如家具)在场景中的位置在很大程度上保持固定。克服这一点的一种方法是以足够的频率更新场景地图(通过重新采样代理旅行),以便构建的场景地图更接近当前环境状态。驻留在可穿戴设备上的以自我为中心的AI助手始终处于此外,我们提出的模型显式地构建和存储对象及其在房屋中的位置的详细表示。我们承认,这些情况有可能带来严重的隐私问题。7. 结论我们研究了3D环境中的问答任务,目标是以自我为中心的个人AI助理。为此,我们提出了一个模型,建立场景的语义特征表示作为其情节记忆。我们表明,利用这样的瓶颈场景representations可以使代理有效地回答有关场景的问题,并证明其优越性强基线。 我们对这种方法的鲁棒性的研究系统在其输入中的不同形式的噪声为未来的研究提供了有希望的证据,以便在现实世界的以自我为中心的AR设备中部署这种代理。鸣谢:佐治亚理工学院的工作得到了NSF、ONR YIP和ARO PECASE的部分支持。本文中包含的观点和结论是作者的观点和结论,不应被解释为必然代表美国政府或任何赞助商的官方政策或认可(无论是明示还是暗示)。19127引用[1] Peter Anderson , Ayush Shrivastava , Devi Parikh ,Dhruv Batra,and Stefan Lee.追鬼:指示如下,作为鬼状态跟踪。NeurIPS,2019。三、五[2] 布拉姆·巴克强化学习与长短期记忆NIPS,第1475-1482页,2001年。6[3] Valts Blukis,Dipendra Misra,Ross A Knepper和YoavArtzi。将导航指令映射到具有位置访问预测的连续机器人学习会议,第505-518页。PMLR,2018。三、五[4] 这是一个美丽的莉娜·坎贾,尤金·贝利尔·奥vs凯,彼得罗·李·奥,和亚伦·库维尔。Videonavqa:弥合视觉和具体问答之间的差距2[5] Vincent Cartillier、Zhile Ren、Neha Jain、Stefan Lee、Irfan Essa 和 Dhruv Batra 。 Semantic mapnet : Buildingallo- centric semantic maps and representations fromegocentric views,2017. 二三四五七[6] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niessner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport 3d:从室内环境中的rgb- d数据中学习。2017年3D视觉国际会议(3DV)。二、三、七[7] Devendra Singh Chaplot,Dhiraj Prakashchand Gandhi,Ab-hinav Gupta,and Russ R Salakhutdinov.使用面向目标的语义探索的对象目标神经信息处理系统的进展,33,2020。3[8] Ricson Cheng,Ziyan Wang,and Katerina Fragkiadaki.用于主动视觉识别的几何感知递归神经网络。NeurIPS,2018。3[9] Abhishek Das、Samyak Datta、Georgia Gkioxari、StefanLee、Devi Parikh和Dhruv Batra。2017年的问答。一、二、六[10] P. 达斯角,澳-地许河,巴西-地F. Doell和Corso J.J. 几个词就能表达一千在IEEE计算机视觉和模式识别会议集,2013年。2[11] Samyak Datta,Oleksandr Maksymets,Judy Hoffman,Stefan Lee,Dhruv Batra,and Devi Parikh.整合自我为中心的定位更现实的点目标导航代理。在CoRL,2020年。二、八[12] Harm De Vries , Kurt Shuster , Dhruv Batra , DeviParikh , Ja- son Weston , and Douwe Kiela.Talk theWalk : Navigating New York City Through GroundedDialogue. arXiv预印本arXiv:1807.03367,2018。3[13] SM Ali Eslami , Danilo Jimenez Rezelka , FredericBesse ,Fabio Viola,Ari S Morcos ,Marta Garnelo,Avraham Ru- derman,Andrei A Rusu,Ivo Danihelka,Karol Gregor , et al. Neural scene representation andrendering. Science , 360 ( 6394 ) : 1204-1210 , 2018.二、三、六[14] 关方、亚历山大·托舍夫、李飞飞、西尔维奥·萨瓦雷塞。场景记忆Transformer,用于长时间任务中的具体代理。在IEEE/CVF计算机视觉和模式识别会议论文集,第538-547页二、三、六[15] Daniel Gordon , Aniruddha Kembhavi , MohammadRaste-gari,Joseph Redmon,Dieter Fox,and Ali Farhadi.Iqa:Vi-19128在互动环境中回答问题,2018年。一、二[16] Kristen Grauman,Andrew Westbury,Eugene Byrne,Zachary Chavis , Antonino Furnari , Rohit Girdhar ,Jackson Hamburger , Hao Jiang , Miao Liu , XingyuLiu,et al. Ego 4d:在3,000小时的自我中心视频中环游世界。arXiv预印本arXiv:2110.07058,2021。3[17] Meera Hahn , Jacob Krantz , Dhruv Batra , DeviParikh,James Bogg,Stefan Lee,and Peter Anderson.你在哪儿?你在哪儿?从具身对话中本地化在2020年自然语言处理经验方法上,第806-822页三、五[18] Jindong Jiang , Lunan Zheng , Fei Luo , and ZhijunZhang. Rednet:用于室内rgb-d语义分割的残差编码器-解码器网络,2018。5[19] Jie Lei , Licheng Yu , Mohit Bansal , and Tamara LBerg. Tvqa:本地化的合成视频问答。在EMNLP,2018年。2[20] Tsung-Yi Lin,Priya Goyal,Ross Girshick,KaimingHe,and Piotr Dollar.用于密集对象检测的焦点损失。在IEEE国际计算机视觉会议(ICCV)的会议记录中,2017年10月。6[21] ManolisSavva* , AbhishekKadian* , OleksandrMaksymets* , Yili Zhao , Erik Wijmans , BhavanaJain,Julian Straub,Jia Liu,Vladlen Koltun,JitendraMalik , Devi Parikh , and Dhruv Batra. Habitat : APlatform for Embodied AI Research.IEEE/CVF计算机视觉国际会议(ICCV),2019年。3[22] Adithyavairavan Murali , Tao Chen , Kalyan VasudevAlwala,Dhiraj Gandhi,Lerrel Pinto,Saurabh Gupta,and Abhinav Gupta.Pyrobot:一个用于研究和基准测试的开源机器人框架。arXiv预印本arXiv:1906.08236,2019。8[23] Mihir Prabhudesai 、 Hsiao-Yu Tung 、 Syed AsharJaved、Max- imilian Sieb、Adam W Harley和KaterinaFragkiadaki。以隐含的3d视觉特征表示法为语言基础。CVPR,2020年。3[24] Nikolay Savinov , Alexey Dosovitskiy , and VladlenKoltun.用于导航的半参数拓扑存储器。国际学习表征会议(ICLR),2018年。3[25] Shuran Song , Samuel P. Lichtenberg , and JianxiongXiao. Sun rgb-d:一个rgb-d场景理解基准测试套件。2015年IEEE计算机视觉和模式识别会议(CVPR),第567-576页,2015年。5[26] JürgenSturm , NikolasEngelhard , FelixEndres ,WolframBurgard,and Daniel Cremers.rgb-d slam系统评估的基准。在2012年IEEE/RSJ智能机器人和系统国际会议上,第573-580页。IEEE,2012。二、七[27] Makarand Tapaswi,Yukun Zhu,Rainer Stiefelhagen,Antonio Torralba , Raquel Urtasun , and Sanja Fidler.Movieqa:通过问答理解电影中的故事在IEEE计算机视觉和模式识别会议论文集,第4631-4640页,2016年。2[28] 董晓宇、郑瑞森、卡捷琳娜·弗拉基-阿达基。几何感知学习空间常识19129循环网络在IEEE/CVF计算机视觉和模式识别会议论文集,第2595-2603页3[29] Erik Wijmans,Samyak Datta,Oleksandr Maksymets,Ab-hishek Das , Georgia Gkioxari , Stefan Lee , IrfanEssa,Devi Parikh,and Dhruv Batra.具有点云感知的真实感环境中的具体问题回答在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,2019年。一、二、六[30] Erik Wijmans、Abhishek Kadian、Ari Morcos、Ste
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功