HyperDet3D：学习场景条件的3D物体检测器

87 浏览量更新于2023-10-25 收藏 15.43MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

55850HyperDet3D：学习场景条件的3D物体检测器0郑宇1,3段越琦2†陆继文1,3周杰1,3田琦401自动化系，清华大学2电子工程系，清华大学3北京国家信息科学技术研究中心4华为云与人工智能，中国0zhengyu19@mails.tsinghua.edu.cn，{duanyueqi,lujiwen,jzhou}@tsinghua.edu.cn，tian.qi1@huawei.com0图1.强调场景条件知识重要性的示例预测。在上面的例子中，通过观察物体级别的检测候选，我们可以通过将其与地面真实物体进行比较或将其与周围其他物体相关联来轻松识别它为“柜子”。然而，基于物体候选位于类似厨房的场景的先验知识，我们可以推断它是“冰箱”。我们还展示了下半部分违反场景条件知识的5个错误检测，包括图书馆中的“浴缸”，办公室中的“水槽”，洗衣房中的“柜子”或“床”，以及嵌入在会议室墙壁中的“椅子”。请注意，点云仅用于简单说明，不在我们的方法中使用。（最佳观看效果请使用彩色显示。）0摘要0图书馆里的浴缸，办公室里的水槽，洗衣房里的床 -反直觉表明，场景为3D物体检测提供了重要的先验知识，这指导了消除类似物体的模糊检测。在本文中，我们提出了HyperDet3D来探索3D物体检测的场景条件先验知识。现有方法努力改进局部元素及其关系的表示，但缺乏场景条件知识，这可能仅基于对个体点和物体候选的理解而导致模糊性。相反，HyperDet3D通过场景条件的超网络同时学习场景不可知嵌入和场景特定知识。具体而言，我们的HyperDet3D不仅探索可共享的场景不可知的特征，还通过场景条件的超网络学习场景特定的知识。0†通讯作者0从各种3D场景中提取摘要，还将检测器调整到测试时给定的场景。我们提出了一种判别性的多头场景特定注意力（MSA）模块，以动态控制检测器的层参数，这些参数是基于场景条件知识的融合而来的。我们的HyperDet3D在ScanNet和SUNRGB-D数据集的3D物体检测基准上取得了最先进的结果。此外，通过跨数据集评估，我们展示了获得的场景条件先验知识在面对具有域差异的3D场景时仍然起作用。01.引言0近年来，3D物体检测引起了广泛关注，这对于自动驾驶、机器人导航和增强现实等应用非常重要。早期的研究采用滑动窗口[42]或2D先验[16]来检测3D物体。55860从RGB-D数据中定位物体。然而，点云的无序和稀疏特性使得直接应用2D检测的最新进展变得困难。为了解决这个问题，基于视图的方法[4]将点投影到多个2D平面并应用标准的2D检测器。基于体积卷积的方法[18,23]将点分割成规则的网格，这对于3D卷积是可行的。与前述的基于视图和基于体积卷积的方法不同，PointNet++[35]专注于局部几何，同时优雅地使用原始点云，因此广泛用作3D检测器的骨干网络。在PointNet++网络的基础上，VoteNet[32]通过从种子坐标和相应的局部特征回归偏移投票到物体中心，取得了出色的结果。后续的工作结合了概率投票[8]、多级上下文学习[9, 48, 49]和基于自注意力的变换器[22,24,28]，以进一步增强局部表示。这些方法强调了利用基于对象和关系的局部元素表示和关系表示的重要性，例如个体点、检测候选和给定点扫描中的不规则局部几何。然而，如果我们仅仅看它们自身或它们之间的关系，相似物体的属性是模糊的。在本文中，我们发现场景级别的信息提供了消除这种模糊性的先验知识。如图1所示，在缺乏场景条件知识的情况下，推断物体级别的特征或它们之间的关系对于检测物体候选是不充分的，这可能导致在场景级别理解方面出现反直觉的检测结果。据我们所知，通过3D检测器在各种场景中获得这种场景级别的信息尚未得到充分研究。为此，我们提出了一种基于超网络结构的HyperDet3D，用于点云上的3D物体检测。与现有方法专注于点级或物体级表示不同，我们的HyperDet3D将场景条件信息作为先验知识学习，并将这种场景级别的知识融入网络参数中，使得我们的3D物体检测器能够根据不同的输入场景动态调整。具体而言，场景条件知识可以分解为两个级别：场景不可知和场景特定信息。对于“场景不可知”知识，我们维护一个可学习的嵌入，该嵌入由一个超网络消耗，并在训练过程中随着各种输入场景的解析而迭代更新。这种可共享的场景不可知知识一般抽象出训练场景的特征，并可以在测试时由检测器利用。此外，由于传统的检测器在不同场景中识别物体时保持相同的参数集，我们提出将“场景特定”信息纳入其中，该信息在测试时将检测器调整到给定的场景。0为了达到这个目的，我们使用特定的输入数据作为查询，通过注意力测量当前场景与通用表示的匹配程度（或它们的差异）。我们同时通过提出多头场景条件注意力（MSA）模块来学习两个级别的场景条件知识。通过后期融合，学习到的先验知识与物体候选特征聚合在一起，从而为检测物体提供更强大的指导。在广泛使用的ScanNet [7]和SUN RGB-D[41]数据集上进行的大量实验证明，我们的方法明显优于最先进的方法。此外，通过跨数据集评估，我们展示了我们的HyperDet3D在面对领域差异时仍然具有作用的场景条件先验知识。02. 相关工作0点云的3D物体检测：由于点云中的空间信息更好地保留，大多数最先进的方法使用原始的3D坐标作为输入[19, 37, 51,54]。早期的方法将点云分组成堆叠的3D体素[23,55]以生成更结构化的数据，或者将分组操作限制在地面平面内以实现实时检测[17]。RCNN方法[5, 19, 37,38]采用基于PointNet的[34,35]模块或使用混合表示来更好地提取和聚合点级特征。受2D物体检测中Hough投票中的码书学习[11,44]的启发，VoteNet [32]通过在PointNet++[35]中采样和分组，首次构建了从点到物体中心的投票监督的码书。在VoteNet [32]的框架基础上，H3DNet[53]将投票引入到额外的3D基元（如盒子边缘和表面的中心）。BRNet[6]通过查询物体候选周围的邻近点重新审视Hough投票中的反向追踪操作。这些方法通过改进投票机制本身来增强局部元素的特征表示。另一方面，RGNet[10]通过图结构建模物体候选的关系。SPOT[8]通过测量不同局部补丁的信息熵，考虑了概率投票。MLCVNet [48, 49]和PointFormer[28]将多级注意力学习应用于物体候选及其上下文信息。GroupFree3D [22]和3DETR [24]将经典的Transformer[46]架构引入到检测框架中，并实现了最先进的性能。这些方法探索了物体候选、局部补丁、点坐标及其聚类之间的关系。深度神经网络中的超网络：超网络[13]根据特定的输入嵌入条件输出目标网络（称为主网络）的权重。超网络已被嵌入以取代55870图2.所提方法的示意图。对于下半部分的检测网络，我们的HyperDet3D在上半部分注意性地学习了场景特定和场景不可知的知识。这种场景条件的知识然后在检测网络的解码器层中与物体级特征进行聚合，以便根据不同的输入场景动态调整3D检测器。场景不可知的知识是从各种场景中学到的可共享的抽象知识。场景特定的知识通过使用当前场景作为查询，注意地测量特定场景与通用嵌入的匹配程度（或它们的差异）。（最佳观看彩色版本。）0在图像识别[13]、语义分割[27]、神经架构搜索[2]和自然语言建模[13]中，卷积或线性层起着重要作用。在3D理解领域，HyperCloud [43]和HyperCube[30]通过修改超网络的输入来为单个对象生成多种形状表示。SDF-SRN [20]和MetaSDF[40]使用超网络在一个类别中隐式学习对象的语义。与我们的工作更相关的是HyperGrid [45]，它为基于Transformer[46]的多任务语言模型设计了任务条件的超网络输入嵌入。相比之下，我们的HyperDet3D隐式构建了用于3D物体检测的场景特定和场景不可知的嵌入，并且据我们所知，这是首次在这个任务中引入超网络。03. 方法0在本节中，我们首先简要介绍总体架构和一些基础知识。接下来，我们详细介绍我们提出的方法。最后，我们提供了所提方法的实现细节。03.1. 概述和基础知识0图2展示了我们提出的HyperDet3D中的3个关键组件，即骨干编码器、对象解码器层和检测头。给定输入点云P ∈RN×3，骨干首先将密集点下采样为初始对象候选项，并通过分层架构粗略提取其特征。为了公平比较，我们将PointNet++ [35]作为骨干网络，与之前的工作[22, 32,53]类似，它使用最远点采样（FPS）来均匀覆盖3D空间。然后，对象解码器层通过将场景条件的先验知识与对象级表示相结合来细化候选特征（在第3.2节中详细说明）。最后，检测头从这些对象候选项的位置和细化特征中回归边界框（在第3.3节中详细说明）。为了使HyperDet3D具有场景级元信息的意识，我们采用HyperNetwork[13]，它是一种用于参数化另一个网络（称为主网络）的可学习参数的神经网络。对于主网络中的目标层，其可学习参数W通常是通过将可学习嵌入z或中间特征x输入到超网络H中生成的：03D空间。然后，对象解码器层通过将场景条件的先验知识融入到对象级表示中来细化候选特征（在第3.2节中详细说明）。最后，检测头从这些对象候选项的位置和细化特征中回归边界框（在第3.3节中详细说明）。为了使HyperDet3D具有场景级元信息的意识，我们采用HyperNetwork[13]，它是一种用于参数化另一个网络（称为主网络）的可学习参数的神经网络。对于主网络中的目标层，其可学习参数W通常是通过将可学习嵌入z或中间特征x输入到超网络H中生成的：0W = H(z)或W = H(x) (1)0与在测试时保持层固定的传统深度神经网络不同，超网络通过修改其输入来灵活调整可学习参数。在HyperDet3D中，我们提出使用场景条件的超网络将先验知识注入到Transformer解码器中的层参数中，根据不同的输入场景动态调整检测网络。03.2. 场景条件的超网络0对于由骨干编码器产生的一组对象候选项的特征表示o，我们的场景条件的超网络的目标是赋予其由{W，b}参数化的先验知识：0ˆ o = Wo + b (2)0其中W ∈ RCout×Cin和b ∈RCout是主检测网络中的权重和偏置参数。这些参数是(5)where Att1 and Att2 correspond to the attention in (5) and(6) respectively. To fit the shape of target weights W ∈Cout×Cin for primary network, a simple solution is to repeatW = Concat(W u(1), W u(2), . . . , W u( Coutn ×55880由我们的场景条件超网络生成的，可以分为场景不可知和场景特定的超网络。场景不可知的超网络：以主网络的权重参数W为例。对于场景不可知的知识，我们首先维护一组n个场景不可知嵌入向量Za = {zaj ∈ RCa}nj =1。然后，Za被场景不可知的超网络haθ消耗，将zaj投影到另一个RCui空间中，输出Wa参数化我们的场景不可知知识：0Wa := {waj ∈ RCui}nj = 1，waj = haθ(zaj) (3)0其中Cui是单元输入通道大小，满足：0mod(Cout, n) ≡ 0，mod(Cin, Cui) ≡ 0 (4)0通过一系列的解码器层[22,24]迭代地细化对象特征，可以将其与场景不可知的超网络的输出一致地结合起来，该超网络抽象了各种3D场景的先验知识。通过这种方式，我们不仅在解码器层中保持了通用的场景条件知识，还通过与丰富的特征层次结构共享知识来节省计算成本。场景特定的超网络：对于场景特定的知识，我们还学习了一组嵌入向量Zs = {zsk ∈ RCs}nk =1，类似于Za。不同的是，为了使Zs适应输入场景，我们的场景特定的超网络hsθ使用输入场景Pi作为场景特定的查询。受语言模型中的对齐[1]的启发，我们通过注意机制来衡量嵌入空间中zsw与输入场景的匹配程度（或它们的差异程度）：0Ws:={wsk∈RCui}nk=1wsk=hsθ(zsk,Pid)=Wf(zsk||WpPid)0其中Pid∈RNd×3，Wp∈RCn×Nd是当前输入场景的子集，是将Pid投影到Zs的嵌入空间的变换矩阵。Wf表示具有双曲正切激活函数的权重矩阵。由于我们打算从潜在的嵌入空间获取响应，我们使用连接（∙||∙）作为查询点和嵌入向量的编码，类似于SDF查询[29]。我们使用降采样表示Pid而不是Pi，因为正如先前的研究所建议的[27]，超网络不能完全捕捉高分辨率信息。现在，我们可以通过场景特定的注意力分数集合Ws和场景条件化知识Wa得到W的单元块：0Wu=Ws⊙Wa（6）0其中⊙表示逐元素乘法。0图3.多头注意力[46]、我们提出的多头场景条件化注意力（MSA）和单头场景条件化注意力（SSA）之间的比较。0多头场景条件化注意力：对于第i个输入场景Pi，上述过程可以封装为2个场景条件化注意力操作：0Wu=Att2({zaj},Att1({zsk},Pi))(7)0Cui次并沿其2个维度平铺。这是通过（4）保证的。由于Za和Zs仅由超网络初始化和使用一次，我们将其命名为单头场景条件化注意力（SSA）。为了使主要检测器能够共同关注各个子空间中的场景条件化知识，我们进一步提出了基于SSA的多头场景条件化注意力（MSA）。多头注意力的思想在[46]中提出，它通过并行注意力模块对相同的输入进行消耗。然而，在我们的情况下，由于目标权重W是基于超网络输入的条件化的，我们通过重新初始化Za和Zs来实现MSA。0多次。因此，我们的MSA可以表示为：0Cui)))（8）0其中Wu(l)表示由第l次初始化的Za和Zs产生的（7）中的结果。Concat操作将矩阵沿着2个维度平铺，类似于SSA。在图3中，我们展示了原始的多头注意力[46]、我们的多头场景条件化注意力（MSA）和单头场景条件化注意力（SSA）之间的比较。[46]中单个输入样本的计算开销与定义注意子空间的并行注意力模块数量成正比。相反，MSA网络在我们的HyperDet3D中被所有训练样本共享。此外，由于我们通过超网络结构挖掘子空间，MSA通过修改（1）中的输入来利用场景条件化知识的灵活性。相比之下，SSA消耗相同的嵌入向量集合，在表达能力上不如MSA，我们在消融实验中进行了验证。∆q′i = fT (R) ∗ (r∆qi)(10)55890获取偏置参数b的流程与W类似，我们在补充页中展示。W和b与目标特征一起聚合，如（2）所示。然后，检测头使用更新后的表示ˆo生成检测结果。03.3. 解耦检测头0根据[32]，现有的方法通过直接从候选位置qi通过由Wc参数化的检测头回归一个偏移量（∆qi）来定位目标中心ci：0ci=qi+∆qi，∆qi=Wcˆoi(9)0在这里，我们使用了一种解耦的检测头（DDH），将偏移回归分解为两个分支。给定一个预测的∆qi，一个分支回归一个标量r∈R1来调节其长度，另一个分支回归一个4维向量R∈R4来调节其方向。每个分支都包含一个轻量级的回归头。R被视为四元数的实部，可以转化为旋转矩阵来调节∆qi的方向。因此，最终的偏移∆q'i计算如下：0其中�表示点乘。f T是[ 39]中定义的转换函数，将四元数转换为3x3的旋转矩阵。注意，R在进行转换时首先进行L2归一化。03.4. 实现细节0HyperDet3D中的骨干网络PointNet++ [ 35]包含4个集合抽象层，连续将输入扫描降采样为{2048,1024,512,256 }个点。球查询的半径分别为{0.2m,0.4m,0.8m,1.2m}。然后，2个特征传播层将它们恢复为1024个点并生成点特征。我们使用[ 22]中提出的KPS从这1024个点的原始位置生成对象候选，因为它节省了O(N^2)的FPS [ 35]搜索空间的计算成本。为了在每个解码器层中获得o，我们遵循[ 22 , 24]的方法，使用标准的多头注意力层来计算对象候选的自注意力，然后是对象候选与骨干网络产生的降采样点之间的交叉注意力。公式(3)中的场景不可知超网络包含2个线性层。公式(5)中的场景特定超网络包含1个线性层，后面是Tanh激活函数。每个线性层由一个权重矩阵和一个偏置向量参数化，由Xavier [ 12]和零进行初始化。对于场景特定超网络的场景查询P id，我们使用KPS的现成降采样结果。至于检测头，每个轻量级回归头主要包含一个全连接(FC)层，将其映射为0在r-head中，FC层的输出经过sigmoid函数处理，并进一步归一化为[0.9,1.1]，以控制调整的程度。在R-head中，在进行转换(fT)之前，将恒等四元数添加到R中，这可以同时保持恒等旋转的可能性和控制旋转角度。04. 实验0在实验部分，我们首先介绍了3D物体检测基准数据集的数据集和评估指标(第4.1节)。然后，我们通过定量和定性的方式，将HyperDet3D与最先进的方法进行了全面的实验结果比较(第4.2节)。我们还通过消融研究和跨数据集评估(第4.3节)分析了Hy-perDet3D的设计选择和有效性。最后，我们指出了我们工作的局限性(第4.4节)。补充页面提供了更多的分析和可视化结果。04.1. 数据集和设置0ScanNet V2：ScanNet V2数据集[ 7]包括1,513个扫描和重建的室内场景，其中包含18个对象类别的轴对齐边界框标签。点云数据是从重建的网格转换而来。根据[ 32]的方法，我们将1,201个场景作为训练集，其余312个验证场景作为测试集。SUN RGB-D V1：SUN RGB-DV1数据集[ 41]包含10k个单视角室内RGB-D图像，其中5,285个用于训练，5,050个用于测试。它密集地注释了64k个定向的3D边界框。整个数据集被分为37个室内对象类别。为了公平比较，我们遵循[ 32]中的评估协议，选择了最常见的10个类别。对于这两个数据集，我们只使用点云数据作为输入。Hy-perDet3D没有使用场景级监督。根据[ 32]的方法，我们报告了在验证集上的检测性能，计算平均精度(mAP)与3D IoU阈值0.25 (mAP@0.25)和0.5(mAP@0.5)。显示了各个类别的检测性能及其平均结果。至于训练策略，在这两个数据集的前100个epoch中，检测头直接使用o而不是ˆo(公式(2))。然后，在ScanNet和SUNRGB-D上分别进行了300和500个epoch的微调，使用ˆo代替。该策略旨在与超网络结合时保持损失曲线的稳定性。微调后的网络用于测试时的推理。关于2个数据集的超参数的详细信息可以在补充材料中找到。04.2. 主要结果0定量结果：我们将我们的HyperDet3D与许多参考方法进行了定量比较，它们55900表1. 在ScanNet V2验证集（左）和SUN RGB-D V1验证集（右）上的3D物体检测结果。评估指标为平均精度，3DIoU阈值为0.25和0.50。H3DNet [53]的结果是在4个PointNet++骨干设置下报告的。3DETR[24]的结果是在其更强的3DETR-m变体上报告的，具有归纳偏差。0ScanNet V2输入mAP@0.25 mAP@0.500DSS [42] Geo + RGB 15.2 6.8 MRCNN [14] Geo + RGB17.3 10.5 F-PointNet [33] Geo + RGB 19.8 10.8 GSPN [52]Geo + RGB 30.6 17.7 3D-SIS [15] Geo + 5 views 40.2 22.50VoteNet [32] Geo only 58.6 33.5 GCENet [21] Geo only60.7 - HGNet [3] Geo only 61.3 34.4 DOPS [25] Geo only63.7 38.2 H3DNet* [53] Geo only 67.2 48.1 BRNet [6] Geoonly 66.1 50.9 VENet [47] Geo only 67.7 -0RGNet [10] Geo only 48.5 26.0 SPOT [8] Geo only 59.840.4 MLCVNet [48] Geo only 64.7 42.1 PointFormer [28]Geo only 64.1 42.6 3DETR* [24] Geo only 65.0 47.0 GF3D[22] Geo only 69.1 52.80我们的Geo仅为70.9 57.20SUN RGB-D输入mAP@0.25 mAP@0.500DSS [42] Geo + RGB 42.1 - 2D-driven [16] Geo + RGB45.1 - PointFusion [50] Geo + RGB 45.4 - COG [36] Geo+ RGB 47.6 - F-PointNet [33] Geo + RGB 54.0 -0VoteNet [32] Geo only 57.7 32.9 H3DNet* [53] Geo only60.1 39.0 VENet [47] Geo only 62.5 39.2 GCENet [21]Geo only 60.8 40.1 HGNet [3] Geo only 61.6 -ImVoteNet [31] Geo + RGB 63.4 - BRNet [6] Geo only61.1 43.703DETR* [24] Geo only 59.1 32.7 RGNet [10] Geo only59.2 - MLCVNet [48] Geo only 59.8 - SPOT [8] Geo only60.4 36.3 PointFormer [28] Geo only 61.1 36.6 GF3D [22]Geo only 63.0 45.20我们的Geo仅为63.5 47.30可以分为3个类别：需要2D引导来定位3D物体的早期方法[15, 16, 33, 36, 42, 50,52]，探索提供信息提示的最佳局部表示的基于投票的方法[3, 6, 21, 25, 31, 32, 47,53]，以及探索局部元素（如物体或点簇）之间相互作用的基于关系的方法[8, 10, 22, 24, 28,48]。实验结果如表1和表2所示。粗体表示在相应指标下的最佳结果。从表1的比较结果中，我们可以观察到最先进的基于关系的GF3D [22]在除了ImvoteNet[31]（包含2D图像投票）之外的所有其他比较方法中表现优异。然而，由于获得的场景条件先验知识，我们的HyperDet3D在ScanNet V2（+1.8% mAP@0.25，+4.4%mAP@0.5）和SUN RGB-D V1（+0.5%mAP@0.25，+2.1%mAP@0.5）验证集上仍然取得了领先的平均精度。请注意，与SUNRGB-D相比，ScanNet的3D检测任务的类别标注多1.8倍。因此，HyperDet3D学习到的场景级先验知识在ScanNet中相对更丰富，在该数据集上获得了更显著的mAP增益。然后，我们查看了ScanNetV2验证集上mAP@0.5的每个类别结果，该基准测试具有更多类别、更具挑战性的评估阈值，并且我们的方法获得了更多的性能提升。详细结果显示在表2中。对于在很大程度上受到场景先验条件影响的类别（例如卧室中的床，厨房/食堂中的冰箱，浴室中的淋浴帘/马桶/水槽/浴缸），它们一致地获得了更好的检测结果。0与基线方法相比，HyperDet3D通过学习场景条件知识获得了显著的AP增益。这表明了HyperDet3D学习到的场景条件知识的有效性。在与场景级语义条件较少的柜台类别上，性能下降。我们在补充页面上展示了SUNRGB-D上的详细结果。在表3中，我们进一步将我们的方法与最先进的GF3D[22]进行了比较。可以看到，在正常或轻量级的网络配置版本中，我们的方法在两个指标上优于GF3D，同时包含明显较少的可学习参数。因此，由于场景条件超网络和不同层之间的知识共享机制，HyperDet3D可能能够有效地吸收外部数据。定性结果：在图4中，我们展示了ScanNetV2验证集中4个扫描的代表性3D物体检测结果。以地面真值注释（GT）和真实图像扫描为参考，我们将我们的HyperDet3D与最先进的GF3D[22]进行了比较，后者涉及物体候选之间的密集交互。前3个扫描突出显示了在大部分相交边界框方面的模糊性，其中基线模块将冰箱或洗衣机误认为是柜子，或者在办公室检测到一个水槽。在场景条件先验知识的帮助下，我们的HyperDet3D可以在这些物体上获得更好的检测结果。模糊的检测结果也包括错误的检测结果。例如，在最后一个扫描中，基线方法将卧室中的一个柜子误认为是一个01在表3中，如[22]所建议，L表示解码器的数量；O表示对象候选的数量；w2×表示骨干中的特征维度扩展了2倍。55910表2. 在ScanNet V2验证数据集上的3D目标检测结果。我们展示了使用3DIoU阈值为0.5的每个类别的平均精度（mAP）结果，以及所有语义类别的3D IoU阈值为0.5的平均AP。0柜子床椅子沙发桌子门窗书架图片柜台式机书桌窗帘冰箱淋浴厕所水槽浴缸办公家具 mAP0Votenet [32] 8.1 76.1 67.2 68.8 42.4 15.3 6.4 28.0 1.3 9.5 37.5 11.6 27.8 10.0 86.5 16.8 78.9 11.7 33.5 DOPS [25] 25.2 70.2 75.8 54.8 41.2 27.8 12.1 21.4 12.3 9.539.4 24.4 33.7 17.3 80.6 35.7 71.0 35.0 38.2 MLCVNet [48] 16.6 83.3 78.1 74.7 55.1 28.1 17.0 51.7 3.7 13.9 47.7 28.6 36.3 13.4 70.9 25.6 85.7 27.5 42.1PointFormer [28] 19.0 80.0 75.3 69.0 50.5 24.3 15.0 41.9 1.5 26.9 45.1 30.3 41.9 25.3 75.9 35.5 82.9 26.0 42.6 H3DNet [53] 20.5 79.7 80.1 79.6 56.2 29.0 21.3 45.54.2 33.5 50.6 37.3 41.4 37.0 89.1 35.1 90.2 35.4 48.1 BRNet [6] 28.7 80.6 81.9 80.6 60.8 35.5 22.2 48.0 7.5 43.7 54.8 39.1 51.8 35.9 88.9 38.7 84.4 33.0 50.9 GF3D[22] 26.0 81.3 82.9 70.7 62.2 41.7 26.5 55.8 7.8 34.7 67.2 43.9 44.3 44.1 92.8 37.4 89.7 40.6 52.80我们的 33.1 90.1 83.8 83.8 60.3 43.6 31.7 52.2 4.2 20.9 78.5 49.0 61.1 56.3 95.9 43.9 100 42.3 57.30图4. 在ScanNet V2验证集上我们方法与GF3D[22]基线方法的定性比较。地面真值标注（GT）和2D图像扫描作为参考。我们的方法相比基线方法取得了有利的结果。我们的结果中观察到较少的模糊检测。点云仅用于简单说明，与比较方法和我们的方法无关。（最佳观看效果为彩色。）0表3. 在ScanNet V2验证集上与GroupFree-3D[22]（GF3D）的各种配置进行比较。上部分显示了[22]中报告的GF3D模型的结果。0模型骨干 #参数 mAP@0.50GF3D-(L6,O256) PointNet++ 14.5M 48.9GF3D-(L12,O512) PointNet++w2 × 29.6M 52.80我们的-(L6,O256) PointNet++ 11.1M 51.0我们的-(L12,O512) PointNet++w2 × 22.6M 57.20柜台。04.3. 消融研究和讨论0为了分析我们的HyperDet3D网络中学到的场景条件知识的重要性，我们对各种设计选择进行了消融实验。定量结果如表4所示。0基线模型仅使用解耦检测头，为了清晰比较，我们将其对应的行标记为灰色。应用SSA学习场景先验知识使mAP@0.25提高了1.2%，mAP@0.5提高了1.2%。多头变体（MSA）进一步提高了1.1%的mAP@0.25和2.5%的mAP@0.5。如预期，仅学习场景不可知或场景特定的先验知识无法充分理解场景条件。对于具有挑战性的mAP@0.5指标，仅学习场景不可知或场景特定的知识导致性能下降了分别-1.8%和-3.4%。去除解耦回归中心偏移导致mAP@0.25下降了-0.6%，mAP@0.5下降了-0.4%，这表明精细的目标回归有助于利用学到的场景条件知识。0跨数据集评估：由于HyperDet3D学习了✓68.653.5✓✓✓✓69.854.7✓✓✓70.655.4✓✓✓70.053.8✓✓✓70.356.8✓✓✓✓70.957.2bedchairsofatablbkshfdesktoilbathmAP8mAP18VoteNet30.321.712.48.34.44.421.733.417.18.4GF3D66.621.346.917.80.425.654.648.635.219.1HyperDet3DGF3DGF3D+Cls.mAP@0.25mAP@0.5mAP@0.25mAP@0.5mAP@0.25mAP@0.570.957.269.152.869.454.355920表4. 在ScanNetV2验证集上进行消融研究的实验结果。基线方法仅在候选特征上应用解耦检测头（DDH），没有场景先验知识（灰色行）。0场景条件注意力 DDH mAP@0.25 mAP@0.5 不可知特定 SSA MSA0表5. 在ScanNet V2val数据集上进行的跨数据集评估结果，该数据集在SUN RGB-D V1val数据集上进行了预训练。我们展示了ScanNet V2和SUNRGB-D之间8个共享类别的mAP，以及ScanNetV2的所有18个类别的mAP。mAP的3D IoU阈值为0.5。0我们的方法 78.9 22.7 58.0 16.0 2.4 40.1 58.9 71.4 43.6 22.20在推理过程中，我们将检测器获取的场景相关知识作为先验，推断出这种知识在面对领域差异时仍然起作用。为了验证这一点，我们与VoteNet [32]和GF3D[22]作为基线检测器进行了跨数据集评估。我们首先在SUNRGB-DV1验证集上预训练了基线检测器和HyperDet3D，然后在ScanNetV2验证集上进行微调。在所有3种方法中，骨干网络和我们的场景条件超网络在微调过程中都被冻结。在表5中，我们展示了SUNRGB-D和ScanNet之间8个共享类别的检测mAP，IoU阈值设置为0.5，以及ScanNet中所有18个类别（mAP 8）或共享的8个类别（mAP 18）的平均mAP。观察结果是双重的。我们的HyperDet3D在mAP 8 和mAP 18上都超过了基线方法，特别是在两个数据集之间共享的类别上。这表明我们的方法可以将在源数据集上学习到的场景条件知识很好地转移到目标数据集上。另一方面，在8个共享类别中，那些更多地依赖于场景语义的类别得到了明显的改进，类似于表1中的结果。由于SUN-RGBD[41]中图书馆场景（1.9%）的稀缺性，唯一的例外是书架类别。此外，像冰箱和水槽这样的新类别分别提高了14.9%和11.1%。详细信息可以在补充页面中找到。场景标签的融合：一个有趣的问题是，如果我们将地面真实场景标签作为额外的监督，会发生什么？为此，我们在GF3D的骨干网络瓶颈处添加了一个分类（Cls.）分支，并基于GF3D预训练模型对整个网络进行了100个时期的微调。ScanNet的结果0表6. 与多任务分类（Cls.）基线的比较。0表6中的结果表明，带有场景类型标签的附加分支可以提高检测性能，但仍然不及HyperDet3D。需要注意的是，我们的HyperDet3D在场景类型分类上没有任何监督的情况下取得了最佳结果。我们期望通过为每种场景训练一个独特的检测器来获得更好的检测性能。然而，这可能限制了该方法的普适性，并且对于实际应用来说计算上的友好性较差。04.4. 限制0由于我们专注于场景级信息，因此我们可以观察到一些在详细的局部几何上的失败案例。例如，在图4的第二个示例中，HyperDet3D将2个紧密连接的对象误检测为一个整体。一个可能的解决方案是结合更详细的场景查询表示，这可能需要使用SDF[29]来精细地建模场景中的几何形状。此外，另一个重要的工作Mix3D[26]提出通过丰富场景级数据与对象级信息来减少场景级变化，而HyperDet3D旨在利用这种场景特定的变化，通过赋予对象表示场景先验知识。我们期望未来的解决方案可以结合这两种方法的优点。05. 结论0在本文中，我们介绍了HyperDet3D：一种用于探索3D物体检测的场景条件先验的新框架。我们的HyperDet3D同时学习了探索各种3D场景中可共享的抽象的场景无关知识和适应给定场景的场景特定知识。HyperDet3D在两个广泛使用的数据集的3D物体检测基准上取得了最先进的结果，并在面对领域差异时展现出了有效性。潜在影响：我们的方法旨在改进3D物体检测的研究，这对于机器人系统的安全至关重要。与许多深度学习方法一样，一个潜在的负面影响是它仍然缺乏理论保证。为了提高在这个领域的适用性，社区可以考虑解释性和透明性的挑战。致谢：本工作部分得到了中国国家重点研发计划（编号2017YFA0700802）、国家自然科学基金（编号62125603、U1813218）、北京智能科技研究院（BAAI）以及清华大学郭庆研究所的资助。55930参考文献0[1] Dzmitry Bahdanau, Kyunghyun Cho, 和 Yoshua Bengio.通过联合学习对齐和翻译进行神经机器翻译. 在ICLR上, 2015年. 40[2] Andrew Brock, Theodore Lim, James M Ritchie, 和 NickWeston. SMASH: 通过超网络进行一次性模型架构搜索.在ICLR上, 2018年. 30[3] Jintai Chen, Biwen Lei, Qingyu Song, Haochao Ying,Danny Z Chen, 和 Jian Wu.用于点云的分层图网络进行3D物体检测. 在CVPR上, 2020年,第392-401页. 60[4] Xiaozhi Chen, Huimin Ma, Ji Wan, Bo Li, 和 Tian Xia.用于自动驾驶的多视角3D物体检测网络. 在CVPR上, 2017年,第1907-1915页. 20[5] Yilun Chen, Shu Liu, Xiaoyong Shen, 和 Jiaya Jia.快速点云R-CNN. 在ICCV上, 2019年, 第9775-9784页. 20[6] Bowen Cheng, Lu Sheng, Shaoshuai Shi, Ming Yang, 和Dong Xu. 用于基于投票的点云3D物体检测的回溯代表点.在CVPR上, 2021年, 第8963-8972页. 2, 6, 70[7] Angela Dai, Angel X. Chang, Manolis Sav

下载后可阅读完整内容，剩余1页未读，立即下载