全局对象表示

96 浏览量更新于2023-10-25 收藏 16.97MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

✓✓✓84070AirObject：一种用于对象识别的时间演化图嵌入0Nikhil Varma Keetha 1 , 2 Chen Wang 1 Yuheng Qiu 1 Kuan Xu 3 Sebastian Scherer 101 卡内基梅隆大学 2 印度达尔巴德理工学院 3 Geek+公司0{ keethanikhil, xukuanhit } @gmail.com, chenwang@dr.com, { yuhengq, basti } @andrew.cmu.edu0摘要0对象编码和识别对于机器人任务非常重要，例如自主探索、语义场景理解和重新定位。先前的方法要么跟踪对象，要么生成用于对象识别的描述符。然而，这些系统仅限于从单个视角获取的“固定”的部分对象表示。在机器人探索设置中，需要一个随时间“演化”的全局对象表示，该表示是机器人从多个视角观察对象时构建的。此外，鉴于真实世界中未知新颖对象的广泛分布，对象识别过程必须是类别无关的。在这种情况下，我们提出了一种新颖的时间3D对象编码方法，称为AirObject，以获取基于关键点图的对象的全局嵌入。具体而言，使用基于图注意力的编码方法从多个帧的结构信息中生成全局3D对象嵌入。我们证明AirObject在视频对象识别方面达到了最先进的性能，并且对严重遮挡、感知混淆、视角变化、变形和尺度变换具有鲁棒性，优于最先进的单帧和序列描述符。据我们所知，AirObject是最早的一种时间对象编码方法之一。源代码可在https://github.com/Nik-V9/AirObject找到。01. 引言0对象编码和识别对于机器人任务非常重要，例如自主探索、语义场景理解和同时定位与建图（SLAM）中的循环闭合。例如，基于对象的语义SLAM和重访对象的识别需要强大而高效的对象编码[41, 45,46]。先前在文献中提出的方法尝试跟踪对象检测[47]，使用关键点特征[10]和生成用于对象匹配的基于图的嵌入[50]。然而，这些系统仅限于从单个视角获取的“固定”对象表示，并且对严重遮挡、视角变化、感知混淆或尺度变换不具有鲁棒性。这些单帧表示往往会导致在感知混淆的对象之间产生错误对应，尤其是在严重遮挡的情况下。因此，需要一种聚合时间上“演化”的对象结构的鲁棒对象编码方法，因为当相机或对象移动时，我们通常会观察到更多信息，如图1所示。0图1.视频序列中对象的时间演化的拓扑图表示。我们提出了一种方法，AirObject，用于匹配这些时间演化的表示，并减轻由感知混淆的遮挡单帧表示引起的问题。0对象编码和识别对于机器人任务非常重要，例如自主探索、语义场景理解和同时定位与建图（SLAM）中的循环闭合。例如，基于对象的语义SLAM和重访对象的识别需要强大而高效的对象编码[41, 45,46]。先前在文献中提出的方法尝试跟踪对象检测[47]，使用关键点特征[10]和生成用于对象匹配的基于图的嵌入[50]。然而，这些系统仅限于从单个视角获取的“固定”对象表示，并且对严重遮挡、视角变化、感知混淆或尺度变换不具有鲁棒性。这些单帧表示往往会导致在感知混淆的对象之间产生错误对应，尤其是在严重遮挡的情况下。因此，需要一种聚合时间上“演化”的对象结构的鲁棒对象编码方法，因为当相机或对象移动时，我们通常会观察到更多信息，如图1所示。0在这项工作中，我们提出了一种新颖的时间编码方法，称为AirObject，它封装了对象的演化的基于拓扑图的表示。它非常简单，只包含三个模块。具体而言，我们使用提取的深度学习关键点特征[9]跨多个帧来形成对象的拓扑图神经网络（GNN）的序列，这些序列在嵌入后生成时间3D对象描述符。然后，我们使用基于图注意力的稀疏编码方法在这些拓扑GNN上生成表示对象结构信息的内容图特征和位置图特征。然后，使用单层时间卷积网络在多个帧上聚合这些图特征，生成一个时间3D对象描述符。84080生成的这些对象描述符在对象的多个演化表示中积累知识，对严重遮挡、视角变化、变形、感知混淆和尺度变换具有鲁棒性。总结起来，我们的贡献如下：0•为了学习关键点的几何关系，我们使用Delaunay三角剖分为每个帧构建拓扑对象图。0•我们引入了一种简单而有效的时间对象编码方法，将多个实例聚合和嵌入到一个对象描述符中。0•大量实验证明，AirObject在四个大规模数据集上始终提供最先进的视频对象识别性能。02. 相关工作0在本节中，我们回顾了基于手工特征和深度学习特征的单帧和序列方法。此外，我们还回顾了可以扩展到对象识别的视觉地点识别（VPR）方法。基于网络的对象跟踪方法，如Mask R-CNN[19]，由于不适用于对象重新识别，因此未包括在内。02.1. 单帧表示0在闭环检测、物体匹配和VPR的经典方法中，SIFT[32]和SURF[4]等手工特征被广泛使用。其中一种经典方法，快速外观匹配（FABMAP）[17]利用SURF特征的训练视觉词汇，通过特征分布匹配来识别重访对象。进一步扩展这个想法，二进制描述符ORB [36]在DBoW2[12]中被用于提高速度。在基于词汇检索的概念上进一步发展，提出了几种方法[13，15，30，39]。然而，这些基于手工特征的方法对环境变化敏感，在局部描述符不具有区分性时会导致错误匹配。0卷积神经网络（CNN）[28]在计算机视觉中的最近成功导致了基于深度学习特征的图像检索的兴起。使用深度学习特征的方法在手工特征上取得了巨大的改进。其中一种方法[5]使用两个CNN架构之间的多尺度特征编码来生成视点不变的CNN特征，从而提供了相当大的性能改进。另一种流行的端到端深度学习方法NetVLAD[1]生成受传统局部聚合描述符启发的描述符。0scriptors(VLAD)。进一步探索其他输入模态，如RGB-D图像和点云数据，已经有几种方法[40，53，54]尝试将空间/深度数据融入到RGB领域中进行物体识别。最近提出的深度学习方法SuperPoint[9]利用自我监督框架训练兴趣点检测器和描述符提取器。在SuperPoint的基础上，SuperGlue[38]引入了基于图注意力[43]的局部特征匹配器，其中兴趣点是图的节点，它们的相关描述符是节点特征。SuperPoint和SuperGlue都被广泛应用于特征匹配和分层VPR[25，37]的任务。与SuperGlue类似，Xu等人使用稀疏对象编码器将SuperPoint特征的基于对象的全连接图表示嵌入到对象描述符中[50]。然而，这种方法没有考虑到SuperPoint兴趣点中的显式几何信息。它仅限于单个视点，容易受到感知混淆和遮挡的错误匹配的影响。在这种情况下，我们提出的框架生成跨多个对象实例聚合结构知识的时间对象描述符。02.2. 顺序表示0尽管单帧表示在文献中被广泛使用，但紧凑表示的时间信息在机器人领域，特别是在闭环检测方面，受到了有限的关注。然而，在相关研究领域存在着大量的时空表示技术[7, 16,21, 49,51]。其中许多方法使用LSTM[20]、GRUs[6]、图卷积网络(GCNs)[27]和时空卷积网络[3]来建模时空关系。在VPR的背景下，已经有一些方法尝试利用关键点的时空信息，例如地标[22]和生物启发式记忆单元[34]。最近，Facil等人提出了串联、融合和循环来学习序列表示[11]。在这项工作之前，已经探索了序列内描述符的串联[2]，其中使用二值化来实现高效的地点识别。类似地，Neubert等人利用循环来学习环境的生物启发式拓扑地图[33]。最近，提出了一种名为SeqNet的时空卷积网络，用于从单个图像描述符中学习序列描述符，用于分层VPR[14]。然而，SeqNet学习的时空信息依赖于单个图像描述符的底层视觉属性，这些属性不提供关于结构关系的明确知识。在这种情况下，我们的方法学习了在不断演化的拓扑图表示中的时空信息，这些表示提供了关于物体的空间/结构信息。84090t0节点编码器0注意力图0特征编码器0位置编码器0时间卷积0网络0物体时间序列0AirObject描述符0AirObject0稀疏性模块0图2.我们提出的方法的示意图。基于SuperPoint的时间拓扑图表示作为输入，经过图注意力编码器生成内容图特征和位置图特征。然后，这些特征进行逐节点乘法并进行时间聚合，生成AirObject描述符。03. 提出的方法0我们提出了一种新的架构AirObject，用于对视频中的物体进行编码，如图2所示。在本节中，我们首先介绍物体的拓扑图表示，然后描述图注意力编码器的结构和一种生成AirObject描述符的时间编码方法。最后，我们讨论了监督编码器的损失函数。03.1. 拓扑图表示0直观地说，物体上的一组特征点形成了一个图形表示，其中特征点是节点，它们的关联描述符是节点特征。本质上，图的节点是物体的独特局部特征，而图的边缘/结构代表了物体的全局结构。我们相信，嵌入这样一种包含独特局部特征和全局物体结构的拓扑图表示将实现类似于人类的鲁棒物体识别[42]。因此，基于这个假设，我们制定了一种生成与物体对应的特征点的拓扑图表示的过程。给定一个物体，我们提取与物体对应的一组特征点，其中每个特征点的位置表示为pi = (x, y)，i ∈ [1, N]，关联的描述符为di ∈RDp，其中Dp是描述符的维度。0图3.物体的拓扑图表示。这些表示是通过对物体的SuperPoint关键点进行Delaunay三角剖分生成的。0在实践中，可以使用点检测器SuperPoint[9]结合来自现成网络（如MaskR-CNN[19]或开放世界物体检测器[23]）的真实实例分割或掩膜来获得这些物体级分组的特征点。给定这些物体级分组的特征点，我们的目标是生成一个利用特征点位置提供的显式几何信息的拓扑图表示。我们通过使用Delaunay三角剖分[29]在特征点的位置上构建与对象对应的特征点的拓扑图结构，如图3所示。Delaunay三角剖分是一个数学公式，给定一组离散点，其目标是提供一个三角剖分，避免狭窄和相交的三角形，使得任何三角剖分的外接圆中没有离散点。这个特殊的属性加上快速计算时间使其适合生成直观捕捉特征点局部和全局结构的三角网格表示。我们相信，这种网格表示将使图注意力编码器更好地推理物体的结构，从而使最终的时间物体描述符对变形或遮挡具有鲁棒性。03.2. 图注意力编码器0物体特征点的拓扑图表示被输入到基于图注意力的稀疏物体编码器中[50]。稀疏物体编码器的一个特点是，一个关键点只对物体描述符的稀疏位置产生局部影响，这样增加或删除关键点不会显著改变物体描述符。此外，物体编码器应该将不同的关键点编码到物体描述符中的唯一位置。为了实现这一点，编码器包括一个节点编码器，一个两层的图注意力（GAT）[43]模块，后面是一个包含两个并行头部的稀疏度模块，即特征编码器和位置编码器，它们的输出进行逐元素相乘。节点编码器接收关键点的位置和描述符。xi(1) = [di ∥ MLP(pi)], xi(1) ∈ RDn,(1)�N��N��,(4)84100基于拓扑图的物体表示并将图的节点特征xi编码为点描述符和点位置的连接：0其中D n = D p + Dm，∥表示连接运算符，多层感知机（MLP）模块将R2映射到R D m，x il表示GNN的第l层的输出。在实践中，我们通过物体尺寸将位置p i归一化为[-1,1]，其中将物体中心视为原点。与SuperGlue[38]类似，将位置的变换连接而不是求和有助于编码器明确地学习物体结构，因为相对位置信息没有混合到描述符中。此外，这种连接操作使得编码器的稀疏度模块能够基于物体结构学习关键点的稀疏非零位置。图的节点特征xi和拓扑图结构的邻接矩阵被输入到一个两层的GAT中，以实现基于结构的注意力传播。这有助于编码器推理物体的显著局部关键点特征之间的全局特征相互作用。之后，GAT的输出传递给稀疏度模块，以编码图嵌入，使得节点的学习位置特征决定了时间物体描述符上关键点的稀疏位置。编码器的稀疏度模块包含两个并行头部，每个头部有两个堆叠的稀疏度层，用于学习位置特征x i L和内容特征x iC，其输入是来自GAT的xi（为简单起见，我们省略了层索引l）。位置节点特征和内容节点特征的稀疏度层定义如下：0(l+1)xiL = ReLU(WL(l).(l)xiL), (2a)0(l+1)xiC = ReLU(WC(l).(l)xiC), (2b)0其中，W L (l), W C (l) ∈ R D o × D n l, D n l < D o是可学习的位置和内容权重，D o是时间对象描述符的维度。然后，这些位置和内容特征被逐节点相乘以生成结构图特征xiS。03.3. 时间编码0给定输入到图注意力编码器的拓扑图对象表示的序列，我们首先获得一系列结构图特征。然后，这些结构图特征被逐节点堆叠形成一个大小为(N s × D o)的张量，其中Ns是序列中的结构图特征节点数，Do是时间对象描述符的维度。0有关GNN和GAT的更多详细信息，请参阅[43]。0描述符维度。为了对这些特征进行时间聚合并将其编码为单个对象描述符，我们使用一个由单层1-D卷积（带有偏置，无填充）后跟一个序列平均池化（SAP）层和一个L2-归一化层组成的时间卷积网络（TCN）。在卷积层中，我们使用长度为1的1-D滤波器，该滤波器在输入张量的Ns维度上以步幅1进行操作。我们使用长度为1的滤波器来确保编码过程不受固定序列长度的限制，并且与可变的结构图节点总数兼容。结构图特征的维度D o形成卷积层的输入通道（特征图），而输出通道也设置为Do 。因此，卷积核的大小为D o × 1 × D o。1-D卷积层的输出进一步输入到SAP层，跨Ns维度获得大小为1 × D o的描述符。为了与余弦相似性兼容，我们然后在D o维度上使用L2-归一化来获得最终的时间AirObject描述符Ak。03.4. 损失函数0图注意力编码器由稀疏位置损失和密集特征损失[50]进行监督。稀疏位置损失的目标是确保位置特征xiL是一个稀疏向量。稀疏位置损失Ls被定义为xiL的l1-范数。0Ls =0i=1 ∥ϕ(xiL)∥1, (3)0其中，ϕ(x) =x/∥x∥2是一个l2-归一化，用于防止位置特征为零。鉴于稀疏位置损失确保关键点被编码为对象描述符上的稀疏位置，密集特征损失的目标是确保独特的关键点被编码为对象描述符上的唯一稀疏位置。因此，密集特征损失Ld被定义为位置特征的负l1-范数。0Ld = max00, δ - ϕ0∥0i=1 (xiL)∥10其中，δ >0是一个正常数。直观地说，稀疏位置损失和密集特征损失的综合优化使得对象编码器能够将图表示编码为相似的关键点被编码到相似的位置，而独特的关键点则覆盖不同的位置，保留对象描述符的密度。最后，图注意力编码器和时间编码器通过三元组样式匹配损失进行对象识别的监督。匹配损失Lm的目标是最大化正对象对的余弦相似性。(5)84110表1. 四个数据集上的性能比较的定量结果。0YT-VIS UVO OVIS TAO-VOS0方法精确度召回率 F1 精确度召回率 F1 精确度召回率 F1 精确度召回率 F10单帧描述符：2D基准 68.93 80.93 74.45 73.18 81.85 77.27 29.45 68.32 41.15 46.80 72.49 56.87 NetVLAD 77.52 52.41 62.54 86.19 72.15 78.5549.41 29.45 36.90 78.44 35.57 48.95 SeqNet ( s l = 1 ) 71.59 66.38 68.89 69.44 81.03 74.79 39.80 44.87 42.18 66.94 49.79 57.10我们的：AirObject ( s l = 1 ) 79.47 73.49 76.36 82.99 82.51 82.75 38.58 55.40 45.49 66.46 60.96 63.590顺序描述符：3D基准 65.14 86.48 74.31 73.78 77.00 75.35 25.58 80.29 38.80 40.60 75.84 52.89 SeqNet 76.73 86.48 81.31 96.57 72.63 82.91 70.1942.09 52.62 71.10 71.54 71.32 我们的：AirObject 85.09 82.36 83.70 94.31 83.79 88.74 69.86 42.47 52.82 72.81 71.21 72.000并最小化负对象对的余弦相似度。0L m =0{ p,q }∈ P + (1 - C ( A p, A q ))0+ 0{ p,q }∈ P - max(0 , C ( A p , A q) - λ ) ,0其中 λ = 0.2，C是余弦相似度，P + 和 P -0分别是正对象对和负对象对。04. 实验结果04.1. 数据集0为了进行视频对象识别，我们需要具有跨多个帧关联对象的视频对象序列。因此，为了训练和评估我们提出的方法，我们使用了四个视频实例分割数据集：YouTube视频实例分割（YT-VIS）[52]，未标识的视频对象（UVO）[48]，遮挡视频实例分割（OVIS）[35]和使用视频对象分割跟踪任何对象（TAO-VOS）[8，44]。所有这些数据集都包含大量的对象词汇和各种具有挑战性的场景，包括感知混淆的遮挡对象，如下所述：1）YT-VIS：这个大规模数据集包含超过3000个高分辨率的YouTube视频，注释了约5000个独特的视频实例，涵盖40个类别的对象标签集，包括动物、车辆和人物等常见对象。此外，它还包含大量具有感知混淆的对象，出现在各种环境背景中，使其具有挑战性。我们将序列分为2485个视频的训练集和500个视频的测试集。2）UVO：这个数据集包含开放世界对象的类别无关视频实例分割。特别是，Kinetics400[24]数据集中的所有对象都被密集地注释，每个视频大约有13个对象。对象的开放世界类别无关性以及拥挤场景和复杂背景运动使得这个数据集具有挑战性，用于测试0我们提出的对象编码方法的鲁棒性。我们使用包含393个视频的Dense-Annotation训练和验证集进行评估，其中包含地面实例的真实情况。3）OVIS：这个大规模数据集的设计理念是在视频中感知遮挡的对象。因此，这个数据集包含具有高质量实例掩码的严重遮挡对象的长视频，涵盖25个语义类别。严重的遮挡、长时间的视频和拥挤的场景使得这个数据集对于对象识别非常具有挑战性。我们使用包含607个视频的训练集进行评估。4）TAO-VOS：这个数据集是Tracking AnyObject（TAO）数据集[8]的一个子集，其中包含视频对象分割的掩码。TAO是一个基准联邦对象跟踪数据集，包括来自7个数据集的视频，这些数据集在不同的环境中捕获。特别是，从室外车辆到室内家居物品的大量对象词汇使得这个数据集具有挑战性。我们使用包含626个视频的训练和验证集进行评估。04.2. 实现细节0AirObject的配置为Dp = 256，Dm = 16，Do =2048。为了测试其泛化能力，我们仅在YT-VIS训练集上进行训练，并在所有四个数据集上进行评估。首先，我们使用在COCO数据集[31]上预训练的图注意力编码器和单层感知器，在YT-VIS训练集上进行微调，使用稀疏位置损失、密集特征损失和匹配损失进行单帧物体匹配。对于微调，我们使用批量大小为16，学习率为1e-4，使用Adam优化器[26]。然后，我们冻结图注意力编码器，并使用对象匹配损失在YT-VIS训练集上训练时间编码器。在训练过程中，我们使用批量大小为16，包含长度为sl ≤4的对象序列，学习率为1e-4，使用Adam优化器。04.3. 评估标准0为了测试物体识别性能，我们将视频物体序列的前一半视为查询，后一半视为参考0.40.6.81.00.00.2.4.60.81.00.20.40.81.00.00.2.4.60.81.00.20.40.81.00.00.2.4.60.81.00.20.40.81.00.00.2.4.60.81.00.40.6.81.00.00.2.4.60.81.00.20.40.81.00.00.2.4.60.81.084120精确度0召回率0YT VIS0[0.8100] 2D基准 [0.8001]3D基准 [0.7543] NetVLAD[0.8942] SeqNet [0.9120]AirObject0精确度0召回率0UVO0[0.8725] 2D基准 [0.8426]3D基准 [0.8715] NetVLAD[0.9568] SeqNet [0.9580]AirObject0精确度0召回率0OVIS0[0.4011] 2D基准 [0.4350]3D基准 [0.4054] NetVLAD[0.6260] SeqNet [0.6307]AirObject0精确度0召回率0TAO VOS0[0.6160] 2D基准 [0.5749]3D基准 [0.6561] NetVLAD[0.7902] SeqNet [0.8009]AirObject0图4. 四个数据集上视频物体识别的精确度-召回率曲线。曲线下面积显示在[括号]中。0精确度0召回率0YT VIS0[0.5757] SuperGlue[0.7558] NetVLAD [0.9196]AirObject0精确度0召回率0UVO0[0.5770] SuperGlue[0.8715] NetVLAD [0.9580]AirObject0图5.与局部特征匹配（SuperGlue）进行视频物体识别的精确度-召回率比较，涉及两个数据集。曲线下面积显示在[括号]中。0将查询的前一半作为查询，后一半作为参考，并通过匹配视频中的查询和参考物体序列来评估。为了确定物体对之间的匹配，我们计算描述符之间的余弦相似度，并定义一个匹配阈值ρ。根据真正例和假正例，我们相应地计算精确度、召回率和F1-Score。此外，通过改变阈值ρ的值，我们生成精确度-召回率曲线，并计算曲线下面积（AUC）。04.4. 与最先进方法的比较0我们将我们提出的方法与几个基准方法进行比较：2D基准、3D基准、NetVLAD [1]和SeqNet[14]。对于2D基准，类似于[50]，我们使用图注意力编码器和单层感知器来进行单帧物体匹配。而对于3D基准，我们考虑简单情况，即对2D基准的单帧物体描述符进行平均，以获得时间上的物体描述符。对于NetVLAD基准，我们使用NetVLAD（32个聚类）在使用Superpoint和地面实例获得的物体特征上进行物体描述符的计算，得到大小为Dnv =8192的物体描述符。我们在COCO上进行NetVLAD的预训练，并在YT-VIS训练集上进行微调。对于SeqNet，我们使用NetVLAD物体描述符作为主干网络，并使用长度为1的时间滤波器来支持不同的物体序列长度。我们在YT-VIS训练集上训练SeqNet，输出描述符维度为Ds = 4096。0表1和图4包含了AirObject和基线方法的定量比较结果。可以观察到，AirObject在所有四个数据集上的F-1和AUC指标上都优于其他方法。特别是，在F-1和AUC指标上，AirObject相对于最佳的单帧和时序描述符方法（即2DBaseline、NetVLAD和SeqNet）的平均提升分别为11.88%、17.58%、2.28%和15.05%、15.36%、0.86%。此外，单帧和时序方法之间的性能差距在两个指标上一直很大，表明时序信息的重要性。这种差异在OVIS和TAO-VOS数据集上尤为明显，表明包含了对象结构演化的时序信息有助于减轻感知混淆和严重遮挡。为了进一步测试所提方法在单帧对象匹配中的适用性，我们使用序列长度（sl）为1评估了SeqNet和AirObject。从表1中可以观察到，AirObject在单帧对象识别方面也提供了最佳性能。作为另一个基线，我们将我们的方法与SuperGlue进行了性能比较。虽然SuperGlue最初用于姿态估计和单应性，但在特征匹配方面已经达到了最先进的性能。因此，我们使用内点与外点比率作为匹配得分，将SuperGlue扩展到对象识别。从图5中可以观察到，SuperGlue提供了高召回率和低精确度的匹配。我们认为，SuperGlue由于缺乏显式的空间/结构信息，以及缺乏背景上下文导致了低精确度。此外，由于单个视频中存在大量对象，局部特征匹配所需的计算时间使得SuperGlue在对象识别方面不可行。因此，进一步证明了我们提出的鲁棒对象编码和识别方法AirObject的必要性。在图6中，我们展示了一组示例对象视频序列，比较了我们的方法与SeqNet的匹配结果，同时展示了基于拓扑图的对象表示。我们认为SeqNet依赖于底层的单帧描述符进行视觉属性和结构信息的匹配，因此由于缺乏显式的空间/结构信息，导致了错误的匹配。84130查询0SeqNet0AirObject0查询SeqNet0AirObject0t0SeqNet查询0AirObject0图6.定性结果。在这些示例中，提出的AirObject成功地检索到匹配的时间对象序列，而SeqNet产生了错误的匹配。我们的方法检索到的对象具有严重的遮挡、变形、感知混淆和杂乱的组合，这使得任务特别具有挑战性。请注意，SeqNet不使用所示的图表示，它们仅用于可视化对象及其结构。0表2.消融研究：拓扑图表示0PR-AUC（%）0方法 YT-VIS UVO OVIS TAO-VOS02D Baseline（无拓扑） 77.87 84.96 40.82 66.03 2DBaseline（有拓扑） 81.00 87.25 40.11 61.60 AirObject（无拓扑）86.48 93.82 63.03 79.49 AirObject（有拓扑） 91.20 95.80 63.0780.090相反，AirObject利用拓扑图表示的显式空间信息和对象演化拓扑的时序信息，从而实现更强大的对象识别。04.5.消融研究04.5.1 拓扑图表示0为了分析AirObject中拓扑图表示的有效性，我们使用完全连接的特征点图作为输入，训练了2DBaseline和AirObject。从表2中可以看出，使用拓扑图表示的AirObject和2DBaseline的性能优于使用完全连接图训练的模型。这表明拓扑图表示有助于图注意力编码器更好地推理对象几何信息，从而在四个数据集上获得更好的性能。0表3. 消融研究：序列长度0PR-AUC (%)0方法 YT-VIS UVO OVIS TAO-VOS0SeqNet (sl = 1) 77.65 84.10 40.47 63.57 SeqNet (sl ≤ 2)81.21 87.95 45.50 70.48 SeqNet (sl ≤ 4) 84.22 90.58 49.6975.26 SeqNet (sl ≤ 8) 86.46 92.53 53.42 78.35 SeqNet (sl≤ 16) 88.70 93.97 56.74 79.15 SeqNet 89.42 95.68 62.6079.020AirObject (sl = 1) 85.41 90.69 44.18 69.91 AirObject (sl ≤2) 86.56 92.13 46.40 74.16 AirObject (sl ≤ 4) 88.19 93.1048.61 77.36 AirObject (sl ≤ 8) 89.75 94.03 51.21 79.98AirObject (sl ≤ 16) 91.39 94.68 53.85 81.43 AirObject91.20 95.80 63.07 80.0904.5.2 序列长度0为了验证时间信息对于对象识别的有效性，我们分析了SeqNet和AirObject在不同对象序列长度（sl）下的性能。符合我们的直觉，从表3中可以观察到，随着时间编码信息量的增加，性能有所提高。此外，随着序列长度加倍，性能的提高趋势略微减小。与此趋势一致，对于OVIS，较长的平均视频持续时间（更多的时间信息）导致了AirObject在使用sl≤ 16和使用一半对象序列的性能差距更大。84140表4. 消融研究：唯一多帧图特征0PR-AUC (%)0方法 YT-VIS UVO OVIS TAO-VOS0SeqNet 89.42 95.68 62.60 79.02 AirObject（唯一特征） 90.3894.75 61.88 79.16 AirObject（所有特征） 91.20 95.80 63.07 80.090表5. 消融研究：时间编码器架构0PR-AUC (%)0方法 YT-VIS UVO OVIS TAO-VOS0AirObject（单层感知器） 84.90 92.62 51.81 68.64 AirObject（GAT） 85.2088.88 49.55 70.09 AirObject（拼接SLP和SeqNet） 86.00 90.65 50.55 68.80AirObject（基于注意力的TCN） 88.77 93.38 59.22 76.61 AirObject（TCN）91.20 95.80 63.07 80.090因此，这展示了时间编码对于对象识别的有效性。04.5.3 唯一多帧图特征0为了分析对象视觉特征在多个帧上的重复对时间描述符的影响，我们进行了一个实验，只对视频中的唯一对象视觉特征进行编码。特别是，我们使用位置图特征xC来识别和编码多个帧上的唯一结构图特征xS。在表4中，我们展示了使用唯一多帧特征的AirObject和使用所有多帧特征的AirObject的结果。可以观察到，使用多个帧上的唯一特征会导致性能下降。我们推断，对象视觉特征的重复会加权时间对象描述符的分布，使其更具特异性，从而使使用所有多帧图特征的AirObject性能更好。04.5.4 时间编码器架构0鉴于我们的时间编码器的简单性质，我们进一步测试了各种模型消融，以验证我们设计的有效性。特别是，我们测试了我们的TCN，基于注意力的TCN，单层感知器（SLP）和图注意力网络（GAT）。受相关领域中的时空工作的启发[51]，我们还测试了一种从AirObject（SLP）和SeqNet（带有2D基线骨干）中描述符的归一化拼接方法。从表5中，我们可以观察到各种模型消融，包括跨多个时间状态的全连接注意力，都不能带来更好的时间编码。在所有方法中，使用单层TCN效果最好，从而证明了我们提出的时间对象编码方法AirObject的简单而有效的性质。0图7.OVIS数据集中两个时间序列的代表性帧，AirObject无法识别物体。04.6. 限制0尽管我们提出的方法AirObject在具有挑战性的场景中实现了最先进的物体识别性能，但其成功部分取决于分割头的成功。此外，我们注意到当在时间序列中观察到对象的两个不同部分时，它很难识别对象。例如，在图7中，我们展示了两个时间序列的代表性帧。在这里，直观上，人们可以使用骑手外套的颜色或相对空间位置来匹配这两个时间序列中的自行车。然而，由于AirObject仅使用限于对象的自注意力，它无法识别自行车。我们认为这是我们方法的一个局限性。在这种情况下，未来工作的一个有趣方向是探索在场景内和背景中相邻对象之间使用交叉注意力编码时间相对空间信息。05. 结论0对于涉及自主探索和语义定位与地图的机器人任务，区分性地识别对象是一个关键且具有挑战性的问题。在本文中，我们提出了一种新颖的时间对象编码方法AirObject，用于生成全局对象描述符。所提出的时间编码方法在对象的演化拓扑图表示中累积结构知识。我们的实验证明，所提出的方法在四个具有挑战性的数据集上实现了最先进的物体识别性能。我们还展示了我们的AirObject描述符对严重遮挡、视角变化、变形和尺度变换具有鲁棒性。虽然我们展示了AirObject在物体识别中的有效性，但我们设想AirObject在赋予机器人具有通用类别无关语义知识方面将发挥关键作用，以应用于现实世界的机器人应用。0致谢0本工作得到ONR Grant N0014-19-1-2266和ARL DCISTCRA奖励W911NF-17-2-0181的支持。[8] Achal Dave, Tarasha Khurana, Pavel Tokmakov, CordeliaSchmid, and Deva Ramanan. Tao: A large-scale benchmarkfor tracking any object. In European conference on computervision, pages 436–454. Springer, 2020. 5[9] Daniel DeTone, Tomasz Malisiewicz, and Andrew Rabi-novich. Superpoint: Self-supervised interest point detectionand description. In Proceedings of the IEEE conference oncomputer vision and pattern recognition workshops, pages224–236, 2018. 1, 2, 3[10] M-P Dubuisson and Anil K Jain. A modified hausdorff dis-tance for object matching. In Proceedings of 12th interna-tional conference on pattern recognition, volume 1, pages566–568. IEEE, 1994. 1[11] Jose M Facil, Daniel Olid, Luis Montesano, and JavierCivera.Condition-invariant multi-view place recognition.arXiv preprint arXiv:1902.09516, 2019. 2[12] Dorian G´alvez-L´opez and Juan D Tardos. Bags of binarywords for fast place recognition in image sequences. IEEETransactions on Robotics, 28(5):1188–1197, 2012. 2[13] Emilio Garcia-Fidalgo and Alberto Ortiz.ibow-lcd: Anappearance-based loop-closure detection approach using in-cremental bags of binary words. IEEE Robotics and Automa-tion Letters, 3(4):3051–3057, 2018. 2[14] Sourav Garg and Michael Milford.Seqnet: Learning de-scriptors for sequence-based hierarchical place recognition.IEEE Robotics and Automation Letters, 6(3):4305–4312,2021. 2, 6[15] Mathias Gehrig, Elena Stumm, Timo Hinzmann, and RolandSiegwart. Visual place recognition with probabilistic voting.In 2017 IEEE International Conference on Robotics and Au-tomation (ICRA), pages 3192

下载后可阅读完整内容，剩余1页未读，立即下载