DisARM：3D目标检测中的位移感知关系模块

34 浏览量更新于2023-10-26 收藏 20.17MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

169800DisARM：用于3D检测的位移感知关系模块0Yao Duan Chenyang Zhu Yuqing Lan Renjiao Yi Xinwang Liu Kai Xu �0国防科技大学0摘要0我们引入了位移感知关系模块（DisARM），这是一种用于增强点云场景中3D目标检测性能的新型神经网络模块。核心思想是在目标不完整或无特征时，提取最主要的上下文信息对于检测至关重要。我们发现，提案之间的关系提供了一种良好的表示来描述上下文。然而，采用所有对象或补丁提案之间的关系进行检测是低效的，并且局部和全局关系的不平衡组合会带来额外的噪声，可能会误导训练。与使用所有关系不同，我们发现仅在最具代表性的锚点之间训练关系可以显著提升检测性能。良好的锚点应该是语义感知的，没有歧义，并且能够描述场景的整体布局而没有冗余。为了找到锚点，我们首先使用一种具有对象感知采样方法的预备关系锚点模块，然后设计了一种基于位移的模块，用于衡量关系的重要性，以更好地利用上下文信息。这种轻量级的关系模块在插入到最先进的检测器中时可以显著提高物体实例检测的准确性。在真实场景的公共基准测试中，我们的方法在SUNRGB-D和ScanNetV2上实现了最先进的性能。代码和模型可在以下网址公开获取：0https://github.com/YaraDuan/DisARM01. 引言0直接从3D点云中检测对象在许多计算机视觉任务中具有挑战性但又是必要的，例如自主导航、机器人路径规划以及一些增强现实应用。3D目标检测的目标是同时定位所有有效形状并识别它们的语义标签，这对于理解整个输入场景提出了高要求。0� 通讯作者：kevin.kai.xu@gmail.com0(a) 输入点云0(d) 有有效关系0柜子0(b) 无关系0(c) 具有冗余和不完整的关系0表格0表格0表格0图1. DisARM的重要性说明。(b)当点云不完整且无特征时，很容易将柜子误认为是一张桌子。(c)冗余关系通常是不完整的，并且丢失了目标对象的重要位移信息。(d)网络可以轻松识别和定位柜子，借助DisARM提供的有效环境信息。0随着深度学习的快速发展和在线3D数据集规模的增大，基于数据驱动的方法如CNN在目标检测中被广泛采用。这些方法的关键观察是，对于准确的检测，上下文与对象本身一样重要。然而，3D提供的额外信息带来了噪声和不规则性，这使得应用卷积来收集正确的上下文以进行检测更具挑战性。为了避免在应用卷积进行3D目标检测时的不规则性，社区最近引入了两种典型的方法。[17, 37,45]试图将原始点云投影到诸如体素网格之类的对齐结构上，这样可以自然地应用3D卷积。另一种方法是[25]采用最大池化直接融合不规则点云的信息。这些方法在输入场景完整和干净的情况下可以取得良好的性能。然而，真实的扫描数据通常是不完整和有噪声的，这使得通过这种内在的上下文融合方法很难提取关键信息。为了进一步释放上下文的能力，一些方法尝试显式地采用上下文进行目标检测。169810在对象之间建立关系图是利用上下文的一种自然方式。[32]利用场景图推理增强3D场景理解。然而，它需要额外的监督来回归正确的场景图。一些方法意图利用场景中的所有可能关系来避免这种额外的标注工作。[34]引入了一个多级框架，用于融合所有局部和全局邻域的3D物体检测。即使提出了一个分层架构来维护上下文，考虑所有关系仍然是冗余的。此外，大多数明确采用上下文的方法都有自定义的网络架构，这使得增强现有检测方法变得困难。我们认为上下文融合对于3D理解至关重要，可以提高物体检测性能。我们引入了一种名为Displacement Aware RelationModule（DisARM）的新型神经网络模块。它可以轻松地与大多数现有的物体检测方法组合使用，并在现有基准测试中实现了最先进的性能。关键思想是上下文不仅应该是信息融合的结构，关系本身也是3D理解的关键特征。与一些先前的方法不同，我们尝试明确地为潜在的候选提取最关键的关系，以允许在训练过程中包含更丰富的信息。为了避免误导训练的冗余关系特征并提取重要信息，我们从两个方面选择和收集最关键的上下文。首先，我们引入了一个关系锚点模块，通过对象感知的最远点采样（FPS）在特征空间上仅对最具代表性和信息丰富的候选进行采样作为锚点。这种设计的洞察力是，用于上下文编码的关系锚点应该均匀分布在特征空间上，同时又完整且干净。我们的实验证明，采用这些关系锚点而不是整个关系集合进行上下文融合更加高效和准确。为了最大化利用提出的关系锚点，我们引入了一种基于空间和特征位移的动态加权机制。这里的关键洞察力是，每个锚点的重要性应该因识别不同对象而变化。重要性应该取决于对象和锚点之间的空间布局和语义关系，因为室内场景中的对象放置通常伴随着一些特定的组织模式。总之，本文的贡献包括：0•我们提出了一个可移植的网络模块，可以与大多数现有的3D物体检测方法组合使用，以进一步提高性能，可以轻松实现为广泛使用的物体检测工具箱（如MMdetection3D [5]）的插件。0• 我们引入了一种将3D上下文描述为一组0加权代表锚点的方法可以有效地从复杂场景中提取有效信息。0• 我们的方法简单而有效，在ScanNetV2上实现了最先进的性能，并在SUNRGB-D上达到了mAP@0.25。02. 相关工作02.1. 点云上的3D物体检测0由于点的不规则和稀疏分布，点云上的3D物体检测具有挑战性。早期的尝试将点云投影到网格[2]和体素[12, 17, 27, 37,45]上，以便可以直接应用卷积网络。但是这些方法往往受到计算成本和量化误差的影响。其他方法利用形状模板[39]或滑动形状[30,31]来定位物体。作为一种替代方法，一些方法依赖于RGB驱动的2D候选生成[16, 24]或分割假设[15, 28]。PointNet[25]开创了对不规则点云的处理。从那时起，提出了基于点云直接计算特征的点云检测方法。PointRCNN[26]将R-CNN[11]的思想应用于3D物体检测，通过3D框内的点生成和细化候选来获得最终的检测结果。VoteNet[23]通过投票生成靠近物体中心的点，这些点可以通过PointNet[25]进行分组和聚合，以计算候选特征。一些后续工作进一步改进了投票和点组生成过程[4,43]或对象框定位和识别过程[1]。GroupFree3D[19]通过注意机制从点云中计算对象特征，以获得更准确的检测结果。02.2. 3D物体检测中的关系信息0上下文信息已被证明对各种计算机视觉任务有帮助，包括2D物体检测[13, 40]，点云语义分割[9, 38]和3D场景理解[18,35, 41,42]。此外，对象之间的关系可以被视为特殊的上下文信息，可以帮助网络提高计算机视觉任务的性能。一系列的工作[33,44]通过引入图结构来描述关系或利用图卷积网络进行关系特征学习。[14]通过定义五种类型的关系来建模室内场景中家具的图结构，但计算关系的过程耗时。[10]使用成对关系信息构建3D物体-物体关系图，但需要额外的监督。3DSSG[32]定义了一组丰富的关系，并生成一个图来描述场景中的对象及其关系。!×#!×(# + 3)&(×(# + 3)...) *+ − )(*-)) *+ − )(*.)/ *+ − /(*-)) *+ − )(*0)/ *+ − /(*.).../ *+ − /(*0)1234*56+573/8569:834*56+573/8569:8...34*56+573/8569:8/(*+)/(*-)/(*+)/(*.).../(*+)/(*0):+×SH169820主干网络0关系特征点云0检测头0提案生成0物体性质0采样0关系锚点0位移加权0加权0&融合0空间位移0特征位移0; 聚合C0权重0关系特征0特征融合0矩阵乘法 ×0S 逐元素求和0初0特征边界框0基于位移的上下文特征融合0空间感知0特征感知0图2.DisARM网络架构。将主干网络生成的K个提案作为输入，我们首先采样具有丰富场景布局信息的M个关系锚点。对于每个提案，我们通过考虑空间感知和特征感知位移来获得相对于锚点的权重。最后，通过融合加权的提案-锚点对特征来获得关系特征。请注意，关系特征和提案特征之间存在一个跳跃连接操作，用于最终的检测。在图的底部，c(p_i)、c(p_j)、f(p_i)和f(p_j)分别表示提案和锚点的位置和特征；τ、θ、φ和ϕ是由MLP组成的函数。0严重依赖于实例分割的真实情况。HGNet[1]利用图卷积网络来通过推理提升性能，但如果检测对象的特征没有充分学习，这可能是无用的。另一类方法通过神经网络以各种方式结合对象的特征来捕捉关系信息，通常伴随着注意机制。SRN[7]通过考虑对象的内部相互作用来建模局部区域的几何和位置关系，这对于大型室内场景的理解是不合适的。MLCVNet[34]通过考虑所有对象的关系，通过自注意机制和多尺度特征融合来引入多层次的上下文信息，从而解决了3D物体检测任务中的信息冗余问题。MonoPair[3]仅通过考虑空间信息来学习成对关系。03. DisARM模块03.1. 概述0一些认知心理学理论[9，13，41，42]表明，上下文可以增强检测的感知能力。本文提出了一个便携式网络模块DisARM，以有效利用3D上下文。0可以通过现有的对象检测方法轻松组装起来以增强性能。在我们的案例中，我们认为室内场景中用于检测的有用上下文信息需要满足两个标准：它可以反映对象之间的内部关系，并隐含地表示布局。因此，提出了一种端到端的网络框架来有效提取上下文。如图2所示，DisARM的前模块对每个潜在对象提案的学习深度特征和后续模块之间的相对位移进行采样，以编码场景布局。更具体地说，前模块的核心是定位最具代表性和信息量的关系特征构建的提案。我们将这些选定的提案称为锚点（见第3.2节）。接下来的两路模块通过分析空间和特征位移计算每个锚点的权重（见第3.3节）。我们的实验证明，所提出的框架可以有效地提取用于检测的上下文，并显著提高性能，优于一些最先进的替代方法。03.2. 关系锚点0初始提案我们的DisARM需要初始对象提案P ={p0，p1，...，pK}来提升关系分析。VoteNet[23]是一种广泛使用的3D检测网络，可以很容易地与现有的对象检测方法组合以提高性能。��lossobj = ∥o(pi) − χPgt(pi)∥(1)0.41.00.00.20.80.6pi ∈ Pgt ⇐⇒ ∃p ∈ Pgt → IoU(pi, p) > 0.25(2)P(k+1)anchor = {P(k)anchor, argmaxpi∈P�pj(k)169830（a）场景（b）无采样0（d）我们的（c）无客观性0图3.锚点。为了更直观地展示结果，我们用红色圆圈表示锚点，用矩形表示对象。没有采样的锚点（b）是冗余的。但是通过FPS采样的一些锚点是不完整和无效的（图3，（c）），例如包含部分桌子的锚点1�。因此，我们在具有较高客观性的锚点上进行采样。最佳视图在（a）中。0可以提供良好的对象提案。然而，它缺乏对象之间和周围环境之间关系的考虑。我们采用VoteNet[23]作为DisARM的骨干，为其提供输入对象提案。注意，DisARM也可以与其他一些检测方法[4，19，22]聚合。评估结果在表5中展示。每个提案pi用其中心点表示。特征编码器网络具有几个多层感知器（MLP）层和具有跳跃连接的特征传播层。输出特征f(pi)是一个F维向量，是支持提案pi的每个投票的学习深度特征的聚合。0提案的客观性如图3所示，整个P的集合在某种程度上是冗余的，并且包含大量不完整和无效的提案。考虑到场景中的所有可能关系来制定上下文特征是低效的，可能引入太多噪音信息。因此，设计一种有效利用这些关系的机制的关键是定位最具代表性和信息量的关系。图3仅演示了由骨干网络给出的少量完整提案。我们引入了客观性的概念来过滤不完整和噪音的提案。给定一个提案pi及其对应的特征f(pi)，我们将其客观性表示为o(pi)。然后，通过客观性分数选择前N个提案作为候选锚点P'。计算客观性的网络模块是一个简单的MLP网络，具有全连接层、sigmoid激活和批归一化。由于大多数数据集只标记场景中的有效对象Pgt，我们定义了客观性损失0图4.位移权重。我们展示了红色点表示的建议和不同颜色对应不同权重的锚点。床对柜子和架子有不同的感知，这受到空间位移的影响。在同一场景中的柜子对另一个柜子更感兴趣，这由特征位移决定。0其中 χ P gt ( p i ) 是一个指示建议 p i是否属于真实对象的函数。如图3所示，o ( p i )可以表示给定建议的完整性，这对于定位建议锚点至关重要。0锚点采样即使我们只关注完整的建议，P的聚合似乎是多余的。以前的工作，如[19]中的KPS，只关注高目标性的建议，仍会引入多余的信息。我们发现，在对象性评估的辅助下，在 P ′上进行最远点采样（FPS）可以帮助我们定位最具代表性的建议锚点。具体而言，首先在 P (0) anchor中采样具有最高目标性得分的建议 p 0。下一次采样将按照以下方式进行处理，0o ( p i ) ∥ f ( p i ) − f ( p j ) ∥ +∆c0(3)方程3表明，我们在最远点采样（FPS）中采用的度量是基于特征空间 f ( ∙ ) ，加权的对象性分数 o ( ∙ ) 和距离偏移 ∆ c。然后，迭代地选择到已选择的建议集合 P ( k ) anchor最远的建议 p i ，直到选择的建议数量达到候选预算 M，对于我们的所有评估，该值为15。尽管简单，但最终选择的锚点具有代表性，并分布在整个场景中。03.3. 基于位移的上下文特征融合0空间位移建议锚点 P anchor可以有效描述整个输入场景的上下文。然而，它们对于不同对象的检测贡献不应该相等，如图4所示。选择适当的锚点对于利用上下文进行检测至关重要。受[36]的启发，空间布局模式可以有效地描述室内场景中的代表性子结构。w(pi, pj) = tanh(φ[dspatial(pi, pj); dfeature(pi, pj)])(4)w(pi, pj) = µ(w(pi, pj)pk∈Panchor w(pi, pk))(5)ri = ϕ(�pj∈Panchorw(pi, pj) · [f(pi); f(pj)])(6)169840场景。因此，我们认为检测的上下文应该根据布局感知的空间位移进行加权。我们认为对象对不同的建议锚点在不同的空间位移下有不同的感知。例如，柜子通常放在床旁边，椅子通常放在桌子或台子前面。这些模式可以通过建议锚点对之间的空间位移来反映。因此，我们将建议周围不同位移的重要性视为位移权重，鼓励网络给予不同级别的关注。具体而言，给定目标建议 p i 和位置 c ( p i ) ，以及建议锚点 p j和位置 c ( p j ) ，它们之间的空间位移被定义为 d spatial (p i , p j ) = τ ( c ( p i ) − c ( p j )) ，其中 τ是由MLP网络给出的感知函数。0特征位移与空间位移类似，由目标建议 p i 和建议锚点 p j给出的特征位移 f ( p i ) − f ( p j )也应该被考虑在内，以衡量建议-锚点对的重要性。这里的见解是，布局模式有时是语义感知的。例如，浴缸的存在总是表示场景中有一个洗脸盆。由于具有相似语义标签的对象在特征空间上也会靠近，因此这个特征可以通过预编码的特征 f ( p i ) 和 f ( p j ) 来反映。因此，给定目标建议 p i和建议锚点 p j ，它们之间的特征位移被定义为 d feature (p i , p j ) = σ ( f ( p i ) − f ( p j )) ，其中 σ是由MLP网络给出的感知函数。0聚合权重我们将空间位移dspatial(pi,pj)和特征位移dfeature(pi,pj)连接在一起，然后将它们放入MLP网络中进行融合，如图2所示。我们可以得到最终的聚合权重如下，0其中，φ是由几个MLP层启用的感知函数。为了进一步归一化pi和Panchor中所有锚点之间的权重，我们采用softmax函数和归一化操作µ(∙)。0最后，我们通过感知函数ϕ将对象提议pi的融合关系特征ri表示为以下形式，0Figure 5.不同骨干网络配备我们的DisARM在mAP@0.5上的精度-召回曲线。我们在第一行显示了ScanNetV2数据集的结果，在第二行显示了SUN RGB-D数据集的结果。0然而，很明显，训练f(∙)、w(∙)和找到最优Panchor是高度相关的，这使得它成为一个具有挑战性的优化问题。网络在训练过程中通过三个阶段找到最优ri。在热身阶段，w(pi,pj)处于非活动状态，提议模块专注于定位最优Panchor和训练f(pi)。这个阶段的见解是，只有在网络已经能够提取出一些合理的提议锚点时，w(pi,pj)才会起作用。在下一个阶段，Panchor和f(pi)已经足够语义化，网络专注于优化w(pi,pj)。这个阶段将充分利用从场景中提取的布局信息来衡量锚点的重要性。在这两个阶段之后，w(pi,pj)、Panchor和f(pi)一起进行微调，以达到最终的最优性。04. 实验0由于我们的方法可以应用于多个骨干网络，我们简要描述了基于VoteNet [ 23]的实现。其他骨干网络的更多细节列在补充材料中。在我们的DisARM中，我们将VoteNet [ 23]的256个输出提议与128维特征作为输入。然后，我们使用一个MLP网络来预测物体性和子采样N =64个候选锚点，根据分数进行选择。MLP的FC输出大小为64、32、32、1，其中最终的物体性得分是通过最后一层的输出经过sigmoid函数获得的。空间位移的函数τ具有3层，隐藏维度分别为8、16、32，特征位移的函数σ具有2层，隐藏维度分别为64、32。MLP的隐藏维度为32，函数φ的隐藏维度为128，256，128，128的关系编码器ϕ用于关系特征ri。GTVoteNet+DisARMVoteNetBRNetVoteNet [23]74.483.028.875.322.029.862.264.047.390.157.7BRNet [4]76.286.929.777.429.635.965.966.451.891.361.1GroupFree3D [19]80.087.832.579.432.636.066.770.053.891.163.0imVoteNet [22]75.987.641.376.728.741.469.970.751.190.563.4VoteNet∗+DisARM76.786.235.478.431.034.666.368.151.286.961.5imVoteNet∗+DisARM79.987.543.780.733.339.869.574.152.791.665.3169850椅子沙发桌子门窗户柜台办公桌其他家具橱柜图片0Figure 6. 在ScanNetV2数据集上的定性结果。我们将VoteNet+DisARM表示为将我们的方法应用于VoteNet。第一列是真实值，其余列是不同方法的检测结果。最好在屏幕上查看。0浴缸床书架椅子办公桌梳妆台床头柜沙发桌子厕所 mAP0表1. 在SUN RGD-D验证数据集上的3D目标检测结果，mAP@0.25。注释：*表示该模型是在MMDetection3D上实现的。VoteNet �+DisARM和imVoteNet � +DisARM分别表示将我们的方法应用于3D目标检测器。0我们在两个广泛使用的3D目标检测数据集ScanNet V2 [ 6]和SUN RGB-D [ 29 ]上评估了我们的方法。采用了[ 23]中的标准数据划分。我们的网络是端到端优化的，批量大小为8。初始学习率为0.008，网络在两个数据集上训练了220个epoch。采用余弦退火[ 20]作为学习率调度。我们在一块NVIDIA TITAN VGPU上实现了我们的方法。04.1. 比较0在本节中，我们将我们的方法与ScanNet V2和SUNRGB-D数据集上的先前最新技术进行比较，例如VoteNet [23 ]及其后续方法MLCVNet [ 34 ]，HGNet [ 1]，H3DNet [ 43 ]，BRNet [ 4 ]等。定量结果。ScanNetV2数据集的检测结果如表5所示。将我们的DisARM应用于VoteNet [ 23]，在mAP@0.25上达到了66.1，在mAP@0.5上达到了49.7，超过了MMDetection3D [ 5 ]中VoteNet的性能，比[ 23]中报告的VoteNet的性能高出7.5和16.2。将我们的DisARM应用于更好的3D目标检测器0像H3DNet [ 43 ]，BRNet [ 4 ]，GroupFree3D [ 19]等，我们在mAP@0.25上分别获得了0.4、0.6、0.7的提升，在mAP@0.5上分别获得了0.8、1.4、2.9的提升。此外，将DisARM应用于GroupFree3D [ 19]并使用性能最佳的骨干网络，实现了最先进的性能。值得注意的是，VoteNet �+DisARM在mAP@0.5上优于使用12个注意力模块的GroupFree3D�，这表明我们的方法比那些具有复杂结构的方法更简单但更有效。在mAP@0.5上更进一步提高的结果表明，DisARM有助于骨干网络更准确地检测对象，这归功于我们的方法消除了相对上下文信息的歧义。我们还在图5中绘制了不同方法配备DisARM的PR曲线。如表1所示，我们与SUNRGB-D数据集上的先前最新技术进行了比较。同样，我们在VoteNet上评估了我们的方法，其在mAP@0.25上比骨干网络提高了3.8，在mAP@0.5上提高了5.5（见补充材料中的结果）。特别地，我们的DisARM应用于169860图像 GT VoteNet+DisARM VoteNet BRNet0图7. SUNRGB-D数据集上的定性结果。我们将VoteNet+DisARM表示为将我们的方法应用于VoteNet。第一列是真实值，其余列是不同方法的检测结果。最好在屏幕上查看。0设置 mAP@0.25 mAP@0.501 � 全局 63.3 47.702 � 局部 64.3 48.203 � 随机 65.0 48.704 � D-FPS 65.1 48.705 � F-FPS 65.3 49.706 � D-FPS+F-FPS 65.0 48.807 � F-FPS+D-FPS 65.3 48.408 � K-means 65.2 48.209 � K-means+D-FPS 65.0 48.7010 � K-means+F-FPS 64.4 48.3011 � 我们的方法 66.1 49.70表2. 采样关系锚策略的消融研究。注意，实验1 � 到3 �表示通过将所有提议（全局）、最近的15个提议（局部）和随机的15个提议（随机）作为锚点来选择关系锚点。实验4 � 到7 �使用距离（D-FPS）和特征（F-FPS）上的不同组合进行FPS。实验8 � 到10 � 在K-means生成的聚类上采样锚点。实验11 �在对象性得分（OS）过滤的锚点上进行F-FPS。0imVoteNet [ 22]在mAP@0.25上达到了65.3，超过了所有先前的最新技术。在Supplementary中可以找到关于ScanNet V2和SUNRGB-D数据集的更多定量结果。定性结果。在图6和图7中，我们展示了我们的方法和基线方法的代表性3D目标检测结果。这些结果表明，将我们的方法应用于基线检测器可以获得更可靠的检测结果，具有更准确的边界框和方向。与基线方法相比，我们的方法还消除了误报和发现了更多的缺失对象。例如，结果中的0DCFF窗口桌子橱柜马桶水槽mAP 500无 22.7 44.4 36.8 86.4 37.5 47.10S-DW 26.2 46.3 31.4 89.7 37.3 47.90F-DW 20.2 48.6 45.7 89.2 36.7 48.90我们的方法 27.5 55.1 49.8 91.4 44.5 49.70表3.基于位移的上下文特征融合（DCFF）中使用不同组件的DisARM。第一行表示在不加权的情况下融合提议和锚点的特征。我们用S-DW和F-DW分别表示通过空间位移和特征位移进行学习权重。0方法模型大小时间 GFLOPs mAP@0.50VoteNet� 11.6MB 0.095s 5.781 44.2 BRNet 13.2MB0.132s 7.97 50.9 GroupFree3D� 113.0MB 0.170s 31.0552.60VoteNet�+DisARM +1MB +0.001s +0.034 49.7BRNet+DisARM +1MB +0.008s +0.034 52.30表4.不同方法的效率比较。*表示在MMDetection3D[5]上实现的模型。这里报告的GroupFree3D[19]是配置了最佳性能设置的。0图7的第二行显示场景中有两张桌子，左边的桌子完整，右边的桌子部分缺失。我们的方法VoteNet+DisARM可以基本检测出两张桌子（红色框），而BRNet错过了具有挑战性的桌子。这证明我们的方法可以提供丰富有效的上下文来提升3D物体检测器的性能。更多的定性可视化结果在补充材料中展示。04.2. 消融研究0我们进行了大量的消融实验，分析了DisARM的不同组件的有效性。所有实验都在ScanNetV2数据集上进行训练和评估，并以VoteNet[23]作为骨干方法。5. Conclusion169870方法 mAP 25 mAP 500HGNet[1] 61.3 34.4 GSPN[39] 62.8 34.8Pointformer+[21] 64.1 - 3D-MPA[8] 64.2 49.2MLCVNet[34] 64.7 42.10VoteNet[23] 58.6 33.5 VoteNet�+DisARM 66.1 ↑ 49.7 ↑0BRNet[4] 66.1 50.9 BRNet+DisARM 66.7 ↑ 52.3 ↑0H3DNet�[43] 66.4 48.0 H3DNet�+DisARM 66.8 ↑ 48.8 ↑0GroupFree3D�（L6，O256）[19] 66.3 47.8GroupFree3D�（L12，O256）[19] 66.6 48.2GroupFree3D�（w2×，L12，O512）[19] 68.2 52.6GroupFree3D�（L6，O256)+DisARM 67.0 ↑ 50.7 ↑0GroupFree3D�（L12，O256）+DisARM 67.2 ↑ 52.5 ↑0GroupFree3D�（w2×，L12，O512)+DisARM 69.3 ↑ 53.6 ↑0表5. 在ScanNetV2数据集上的3D物体检测结果。注释：我们使用IoU阈值为0.25和0.5的平均精度（mAP）报告检测性能，分别表示为mAP 25和mAP50。Pointformer+表示装备了Pointformer的VoteNet，*表示该模型在MMDetection3D上实现。我们分别将VoteNet�+DisARM，BRNet+DisARM和GroupFree3D�+DisARM作为增强版本与我们的方法进行比较，↑表示通过装备DisARM来提高性能。0网络是在MMDetection3D[5]上实现的。采样关系锚点的策略。如表2所示，使用我们的采样策略将DisARM应用于VoteNet可以获得最高的性能。实验1�和实验2�表明，全局和局部上下文都不能提供有效的信息，引入了冗余信息或有限的信息。我们还发现，在提议特征上进行FPS可以保持锚点的多样性，从而通过实验4�和5�提供更有用的上下文。K-means聚类是一种常见的信息聚合方法。因此，我们尝试在由K-means生成的聚类上进行D-FPS和F-FPS，如实验8�、9�和10�所示。这些策略在mAP@0.5上表现不佳，因为聚类的聚合上下文丢失了准确检测所需的关键信息。我们认为完整的物体更具代表性和信息量，实验5�和11�证明了我们的观点。05. 结论0模型大小、速度和计算复杂度。效率比较如表4所示。为了公平比较，所有实验都在同一台工作站上运行（一块Titan VGPU）并使用MMDetection3D实现。显然，我们提出的方法在增加很少的训练参数的情况下对骨干方法非常有效。BRNet配备DisARM的模型大小比仅使用少量性能下降的GroupFree3D小10倍。请注意，DisARM的计算复杂度比GroupFree3D快1000倍。所有这些数字都表明，我们的轻量级模型在3D物体检测方面比骨干方法提供了显著的性能提升。0在本文中，我们提出了一种简单、轻量级但有效的方法来提高3D物体检测的性能。与以前的方法单独检测物体或低效地使用上下文信息不同，我们的方法采样代表性的关系锚点，并通过空间感知和特征感知位移加权来捕获关系信息。所提出的方法在ScanNet V2和SUNRGB-D上在mAP@0.25方面都达到了最先进的性能。0局限性：我们的方法设计用于具有一些特定组织模式的室内场景，不适用于具有不规则位移的室外场景。然而，我们将来会探索更多关于各种场景的关系信息。06. 致谢0本文得到了中国国家重点研发计划（2018AAA0102200）、中国国家自然科学基金（62132021、62102435、62002375、62002376）、湖南省自然科学基金（2021RC3071、2021JJ40696）和国防科技大学研究基金（ZK19-30）的部分支持。169880参考文献0[1] Jintai Chen, Biwen Lei, Qingyu Song, Haochao Ying,Danny Z Chen, and Jian Wu.用于点云的三维物体检测的分层图网络。在IEEE/CVF计算机视觉和模式识别会议论文集中，页码392-401，2020年。2, 3, 6, 80[2] Xiaozhi Chen, Huimin Ma, Ji Wan, Bo Li, and Tian Xia.自动驾驶的多视角三维物体检测网络。在IEEE计算机视觉和模式识别会议论文集中，页码1907-1915，2017年。20[3] Yongjian Chen, Lei Tai, Kai Sun, and Mingyang Li.Monopair:使用成对空间关系的单目三维物体检测。在IEEE/CVF计算机视觉和模式识别会议论文集中，页码12093-12102，2020年。30[4] Bowen Cheng, Lu Sheng, Shaoshuai Shi, Ming Yang, andDong Xu.在点云中基于投票的三维物体检测中的回溯代表点。在IEEE/CVF计算机视觉和模式识别会议论文集中，页码8963-8972，2021年。2, 4, 6, 80[5]MMDetection3D贡献者。MMDetection3D：通用三维物体检测的开源MMLab下一代平台。https://github.com/open-mmlab/mmdetection3d，2020年。2, 6, 7, 80[6] Angela Dai, Angel X Chang, Manolis Savva, MaciejHalber, Thomas Funkhouser和Matthias Nießner. Scannet:室内场景的丰富注释的3D重建。在《计算机视觉和模式识别》IEEE会议论文集中，页码5828-5839，2017年。60[7] Yueqi Duan, Yu Zheng, Jiwen Lu, Jie Zhou和Qi Tian.点云的结构关系推理。在《计算机视觉和模式识别》IEEE/CVF会议论文集中，页码949-958，2019年。30[8] Francis Engelmann, Martin Bokeloh, Alireza Fathi, BastianLeibe和Matthias Nießner. 3D-MPA:用于3D语义实例分割的多提议聚合。在《计算机视觉和模式识别》IEEE/CVF会议论文集中，页码9031-9040，2020年。80[9] Francis Engelmann, Theodora Kontogianni, AlexanderHermans和Bastian Leibe.探索点云的空间上下文用于3D语义分割。在《计算机视觉国际会议》IEEE国际会议论文集中，页码716-724，2017年。2, 30[10] Mingtao Feng, Syed Zulqarnain Gilani, Yaonan Wang,Liang Zhang和Ajmal Mian.用于点云中的3D物体检测的关系图网络。IEEE图像处理交易，30:92-107，2020年。20[11] Ross Girshick, Jeff Donahue, Trevor Darrell和JitendraMalik.用于准确物体检测和语义分割的丰富特征层次结构。在《计算机视觉和模式识别》IEEE会议论文集中，2014年6月。20[12] Ji Hou, Angela Dai和Matthias Nießner. 3D-SIS:RGB-D扫描的3D语义实例分割。在《计算机视觉和模式识别》IEEE/CVF会议论文集中，页码4421-4430，2019年。20[13] Han Hu, Jiayuan Gu, Zheng Zhang, Jifeng Dai和YichenWei.用于物体检测的关系网络。在《计算机视觉和模式识别》IEEE会议论文集中，页码3588-3597，2018年。2, 30[14] Shi-Sheng Huang, Hongbo Fu和Shi-Min Hu.通过图匹配进行结构引导的室内场景合成。图形模型，85:46-55，2016年。20[15] Byung-soo Kim, Shili Xu和Silvio Savarese.使用分割假设从RGB-D数据准确定位3D物体。在《计算机视觉和模式识别》IEEE会议论文集中，页码3182-3189，2013年。20[16] Jean Lahoud和Bernard Ghanem.在RGB-D图像中基于2D驱动的3D物体检测。在《计算机视觉国际会议》IEEE国际会议论文集中，页码4622-4630，2017年。20[17] Alex H Lang, Sourabh Vora, Holger Caesar, Lubing Zhou,Jiong Yang和Oscar Beijbom. Pointpillars:用于点云物体检测的快速编码器。在《计算机视觉和模式识别》IEEE/CVF会议论文集中，页码12697-12705，2019年。1, 20[18] Ligang Liu, Xi Xia, Han Sun, Qi Shen, Juzhan Xu, Bin Chen,Hui Huang和Kai Xu. 面向对象的自主场景重建指导。ACMTransactions on Graphics (TOG)，37(4):1-12，2018年。20[19] Ze Liu, Zheng Zhang, Yue Cao, Han Hu和Xin Tong.通过Transformer实现无组关系的3D物体检测。arXiv预印本arXiv:2104.00678，2021年。2, 4, 6, 7, 80[20] Ilya Loshchilov和Frank Hutter. Sgdr:带有热重启的随机梯度下降。arXiv预印本arXiv:1608.03983，2016年。60[21] Xuran Pan, Zhuofan Xia, Shiji Song, Li Erran Li和GaoHuang.使

下载后可阅读完整内容，剩余1页未读，立即下载