基于Transformers的无组三维物体检测

53 浏览量更新于2023-10-13 收藏 963KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2949基于Transformers的无组三维物体检测刘泽1，2*张征2†曹悦2韩虎2童昕21中国科学技术大学liuze@mail.ustc.edu.cn2微软亚洲研究院{zhez，yuecao，hanhu，xtong}@ microsoft.com摘要近年来，直接从3D点云中检测3D物体受到越来越多的关注。为了从不规则点云中提取对象表示，现有方法通常采取点分组步骤来将点分配给对象候选者，使得可以使用PointNet类网络然而，不准确的点分配所造成的手工制作的分组方案降低了3D对象检测的性能场景RoI池在本文中，我们提出了一个简单而有效的方法，直接检测三维物体的三维点云。代替将局部点分组到每个对象候选者，我们的方法在Transformers [42]中的注意力机制的帮助下从点云中的所有点计算对象的特征，其中每个点的贡献在网络训练中自动学习该方法采用改进的注意力叠加方法，融合了不同阶段的目标特征，得到了更准确的目标检测结果。所提出的方法在两个广泛使用的基准扫描网络V2和SUN RGB-D上实现了最先进的 3D 对象检测性能代码和模型可在https://github.com/zeliu98/Group-Free-3D上公开获取1. 介绍点云上的3D对象检测同时从3D点集中局部化和识别3D对象。作为3D场景理解的基础技术，它在自动驾驶、机器人操作和增强现实等许多应用中起着重要作用与2D目标检测工作在2D规则图像上不同，3D目标检测需要不规则和稀疏图像*此工作是在Ze Liu在MSRA实习时完成的。†联系人无投票组图1. 利用启发式点分组步骤，RoI池化的蓝框或投票的蓝球中的所有点被分配和聚集以导出对象特征，导致错误的分配。我们的基于组的方法自动学习的贡献，每个对象的所有点，它有能力减轻手工制作的分组的缺点。这使得难以直接应用用于2D对象检测技术的技术最近的研究[27，35，26，51]直接从用于对象检测的不规则输入点云推断对象位置并在这些方法中，需要点分组步骤来将点的组分配给每个对象候选者，并且然后从所分配的点的组计算对象特征为此，不同的分组策略进行了研究。Frustum-PointNet [27]将2D建议框的Frustum包络应用于点分组。Point R-CNN [35]将3D框建议中的点分组到对象。VoteNet [26]将组确定为投票到相同（或空间接近）中心点的点虽然这些手工制作的分组方案有助于3D对象检测，但真实场景中对象的复杂性和多样性1）并降低3D对象检测性能。在本文中，我们提出了一种简单而有效的技术，用于从点云中检测3D对象，而无需2950手工分组步骤。我们的方法的关键思想是采取点云中的所有点，计算每个对象候选人的特征，其中每个点的贡献基于此思想，我们采用Transformer来适应三维物体检测，它可以同时建模物体-物体和物体-像素的关系，并提取物体的特征，而无需手工分组。为了进一步释放Transformer架构的力量，我们在两个首先，我们建议迭代地改进预测的对象，通过更新的空间编码的对象在不同的阶段，而原来的应用程序的变形金刚采用固定的空间编码。第二，我们使用在推断期间的所有阶段预测的检测结果的集合，而不是仅使用最后阶段的结果作为最终结果。这两个修改有效地提高了性能的3D对象检测与很少的计算开销。我们使用ScanNet V2 [6]和SUN RGB-D [52]基准验证了我们的方法。结果表明，我们的方法是有效的和强大的初始对象候选人的质量，即使是一个简单的最远点采样方法已经能够产生强大的结果ScanNet V2和SUN RGB-D基准。对于SUN RGB-D数据集，我们的方法与ensem- ble计划的结果显着的性能改善（+3.8mAP@0.25）。几乎没有花里胡哨的东西，所提出的方法在两个基准上都实现了最先进的性能。我们相信，我们的方法也主张通过使用点云建模的注意力机制或变形金刚强大的潜力，因为它自然地解决了本质上的不规则和稀疏分布的问题所遇到的3D点云。这与2D图像建模相反，在2D图像建模中，此类建模工具主要充当成熟网格建模工具（如ConvNets变体[16，32，46]和RoI Align [2，5]）的挑战者或补充组件。2. 相关工作基于网格投影/体素化的检测早期的3D对象检测方法将点云投影到2D网格或3D体素，以便可以直接应用高级卷积网络。一组方法[18，19，50]将点云投影到鸟瞰2D ConvNets用于学习特征并生成3D框。这些方法主要应用于自动驾驶中的室外场景，其中对象分布在水平面上，使得它们在鸟瞰图上的投影是无遮挡的。注意，这些方法还需要解决2D点投影的不规则和稀疏分布问题，通常是通过像素化。其他方法[4，48]将点云投影到正面视图中，然后应用2D ConvNets进行对象检测。基于体素的方法[37，53]将点转换为体素，并采用3D Con-vNet来生成用于3D框生成的特征。所有这些基于投影/体素化的方法都遭受量化误差。基于体素的方法还遭受3D卷积的大存储器和计算成本。基于点的检测最近的方法直接处理点云用于3D对象检测。这些方法的核心任务是从不规则和稀疏分布的点计算对象的特征。所有现有的方法首先分配一组点到每个候选对象，然后从每个点组计算对象的功能。Frustum- PointNet [27]通过使用RGB对象检测器检测到的2D框的3D Frustum包络对点进行分组，并在分组的点上应用PointNet以提取用于3D框预测的对象特征。Point R-CNN [35]直接计算3D框建议，其中该3D框内的点PV-RCNN [34]利用体素表示来补充Point R-CNN[35]中的基于点的表示，以进行3D对象检测，并实现更好的性能。VoteNet [26]根据投票中心对点进行分组，一些后续工作进一步改进了点群生成过程[51]或对象框定位和识别过程[3]。我们的方法也是一种基于点的检测方法。不同于现有的基于点的方法，我们的方法involves所有的点计算的每个对象候选人的关注模块的功能。我们还堆叠的注意力模块迭代地完善检测结果，同时保持我们的方法的简单性。点云的网络体系结构大量的网络体系结构[38，12，29，9，47，23，44，39，45，28，30，33，43，40，17，1，41，49，10，22]已经被提出用于各种基于点云的学习任务。[13]对所有这些架构提供了很好的分类和回顾，讨论所有这些架构超出了本文的范围该方法可以将任意点云结构作为计算点特征的骨干网络。我们采用PointNet++ [30]在我们的实现中使用以前的方法[26，25，51]进行公平比较。NLP和2D图像识别中的注意力机制/Transformer器基于注意力的转换器是NLP领域中学习任务的主要网络架构[42，7，21]。它们也被应用于2D图像识别领域[16，32，46]，作为主要网格/密集建模工具（如ConvNets和RoI-Align）的有力竞争者。2D中最相关的作品2951i=1输入点骨干M个点初始对象候选采样（例如，KPS）自我注意模块K个候选对象交叉注意模块×6FFN图2.该图说明了我们的方法的简单架构，包括三个主要组件：用于提取点云中每个点的特征表示的骨干网络，用于生成初始对象候选者的采样方法，以及用于从所有点提取和细化对象表示的堆叠注意力模块。图像识别是那些将注意力机制或Transformer架构应用到2D对象检测中的人[15，11，5，2]。在这些方法中，我们的方法最类似于设置抽象层，然后通过特征传播层将其上采样到2×的分辨率（即1024个点）。网络将为2×分辨率上的每个点生成C通道矢量表示，表示为[2]，它还将Transformer架构应用于2D{zi}M ，然后在初始对象候选中使用目标检测不过，我们发现直接应用-将该方法应用于点云导致在3D对象检测任务中比我们的方法这一方面是由于我们提出的新技术，另一方面可能是因为我们的方法更好地结合了传统三维检测框架的优点我们在SEC中讨论了这些因素。四点六分。我们的方法改进了Transformer模型以更好地适应3D对象检测任务，包括在多阶段迭代框预测中更新对象查询位置，以及阶段检测结果的集合。虽然注意力机制仍然有一定的性能差距相比，占主导地位的基于卷积的方法在其他任务，我们发现，这种架构可以很好地解决点云上的对象检测的点分组问题。因此，我们主张这种架构的强大潜力，为不规则的三维点云建模。3. 方法在点云上的3D对象检测中，我们给定一组N个点S∈RN×3，目标是产生一组具有分类得分O S的3D（定向）边界框以覆盖所有地面真实对象。我们的总体架构如图2所示，涉及三个主要组件：元素：用于为点云中的每个点提取特征表示的骨干网络、用于生成初始对象候选的采样方法、以及用于从所有点提取和细化对象表示的堆叠注意模块骨干架构虽然我们的框架可以利用任何点云网络来提取点特征，但我们采用PointNet++ [30]作为骨干网络，以便与最近的方法[26，51]进行公平比较。骨干网络接收N个点的点云（即，2048）作为输入。我们遵循[ 30 ]中的编码器-解码器架构，首先将点云输入下采样为8×分辨率（即256分）通过四个阶段采样模块和堆叠的注意力模块。在在接下来的部分中，我们将首先对这两个模块进行详细的描述，然后介绍该框架的损失函数和磁头设计。3.1. 初始对象候选采样虽然2D图像上的对象检测通常采用数据无关的锚框作为初始对象候选者，但是对于3D对象检测来说，应用这种简单的自上而下的策略通常是棘手的或不切实际的相反，我们遵循最近的实践[35，26]，通过自下而上的方式直接从点云上的点中采样初始对象候选者。我们考虑三种简单的策略来从点云采样初始对象候选：• 最远点采样（FPS）。FPS方法已被广泛采用以从3D形状或将点云下采样到较低分辨率。该方法也可以用于从点云中采样初始候选。首先，从点云中随机采样点。然后，迭代地选择到已经选择的点集的最远点，直到所选择的点的数量满足候选预算。虽然它很简单，但我们在实验中表明，这种采样方法以及我们的框架已经能够与以前最先进的3D对象检测器相媲美• k-最近点采样（KPS）。在这种方法中，我们将点云上的每个点分类为真实对象候选者或不是。训练中的标签分配遵循以下规则：如果一个点在地面实况对象框内并且是距对象中心最近的k个点之一，则该点被分配为正。在推断中，根据点的分类分数来选择初始候选N × 3M ×（3+C）K ×（3+C）K'盒2952i j ij• 非最大抑制KPS（KPS-NMS）。在上述KPS方法的基础上，我们引入了一个额外的非最大抑制（NMS）步骤，该步骤迭代地移除空间上接近的候选对象，以提高给定固定数量对象的采样对象候选对象的召回率，遵循2D对象检测中的常见实践。除了对象性得分之外，我们还预测每个点所属的对象中心，其中NMS相应地进行具体地，将抑制位于所选对象中心的半径内的候选者在我们的实验中，半径设置为0.05。在实验中，我们将证明我们的框架与这些采样方法的选择具有很强的兼容性，这主要归因于下一小节中描述的鲁棒对象特征提取方法（参见表3）。默认情况下，我们使用KPS方法，因为它比FPS方法性能更好，并且相同点位置编码点{zi}更复杂的KPS-NMS方法。3.2. 基于Transformer解码器的通过采样方法生成的初始候选对象，我们采用Transformer作为解码器，利用点云上的所有点来计算每个候选对象的对象特征。多头注意网络是Transformer的基础，它有三个输入端图3. 注意力模块的架构。注意模块对对象特征之间的交互进行建模，公式化为：自Att（o（l），{o（l）}）=At t（o（l），{o（l）}），（3）交叉注意模块利用点特征来计算对象特征，公式化为：交叉Att（o（l），{z（l）}）= Att（o（l），{z（l）}），⑷i j i j集合：查询集、键集和值集。通常，密钥集和值集是同一组元素的不同投影。给定一个查询集{qi}和一个键集、值集的公共元素集{pk}，每个查询元素的多头注意的输出特征是聚集-由注意力权重加权的值的函数，公式化为：其中符号类似于Eq.（三）、在通过自注意模块和交叉注意模块更新对象特征之后，然后将前馈网络（FFN）应用于每个对象的进一步变换的特征与原版相比有几处不同Transformer解码器，如下所述。Att（qi，{pk}）=ΣHh=1Wh（ΣKk=1hi，k·Vhpk），（1）迭代对象框预测和空间编码原始的Transformer对所有堆叠的注意力模块采用固定的空间编码，指示在hexp[（Qhqi）T（Uhpk）]每一个字的骰子。 Transformers在2DAi，k=ΣKk=1（二）exp[（Qhqi）T（Uhpk）]对象检测[2]实例化空间编码（对象先验）作为可学习的权重。在推理过程中，空间其中h索引超过注意力头，Ah是atten-Qh、Vh、Uh、Wh分别表示查询投影权重、值投影权重、关键字投影权重和输出投影权重虽然标准的Transformer以自回归的方式按顺序预测目标语言的句子，但我们的Transformer计算对象特征并并行预测3D对象框。Transformer由几个堆叠的多头自注意和多头交叉注意模块组成，如图3所示。编码是固定的并且对于任何图像都是相同的。在这项工作中，我们建议细化的对象候选阶段的空间编码。具体地，我们在每个解码器阶段预测3D框的位置和类别，并且一个阶段中的框的预测位置将用于产生相同对象的细化空间编码，然后将细化空间编码向量添加到该解码器阶段的输出特征并馈送到解码器阶段。下一阶段通过应用独立的线性层来计算对象和点的空间编码（l）男将阶段l处的输入点特征表示为{zi}i=1，并且在3D框（x，y，z，l，h，w）的参数化向量上（l）K与{ o i}处于相同阶段的对象特征 }i=1. 一个自我和点（x，y，z）。在实验中，我们关注模块加范数FFN加范数多头交叉注意Q K V加范数多头自注意Q K V框位置对象{oi}编码一2953将显示，与没有迭代细化的方法相比，该方法可以在ScanNet V2基准上将mAP@0.25和mAP@0.5另一个不同之处在于，我们将不同阶段的预测进行集成以产生最终的检测结果，而以前的方法通常采用最后一个阶段的输出作为最终结果。具体地，不同阶段的检测结果被组合，并且它们一起经历NMS（IoU阈值为0.25）过程以生成最终的对象检测结果。我们发现这种方法可以显着提高一些基准测试的性能，例如。在SUN RGB-D数据集上，+3.8mAP@0.25。还要注意，这种集成方法的开销是微不足道的，主要归因于Transformer解码器的多级性质。3.3. 标题和损失函数解码器头部我们在所有解码器阶段应用头部网络，每个阶段主要遵循[26]中的设置有5个预测任务：二进制对象预测焦点损失[20]Lobj、具有交叉熵损失Lcls的盒分类、具有平滑L1损失Lcenteroff的中心偏移预测、具有交叉熵损失Lszcls的尺寸分类以及具有平滑L1损失Lszoff的尺寸偏移预测。此外，所有5个预测任务都是通过共享的2层MLP和独立的线性层。第1个解码器级的损失是这5个损失项通过加权求和的组合ScanNet V2 [6]通过丰富的注释从室内场景的3D重建数据集构建。它由1513个室内场景和18个对象类别组成。每个点的实例，语义标签，和3D边界框的注释提供。我们遵循标准评估协议[26]，在不同IoU阈值下使用平均精度（mAP），而不考虑边界框的方向。SUN RGB-D [36]是一个用于3D场景理解的单视图RGB-D数据集，由5 K室内RGB和深度图像组成。注释由逐点语义标签和37个对象类别的定向边界对象边界框。使用标准平均值“平均精度”作为评价指标，并报告了10个最常见类别的评价，如下[26]。4.2. 实现细节ScanNet V2 我们遵循最近的实践 [26 ， 31] ，使用PointNet++作为默认骨干网络进行公平比较。主干有4个集合抽象层和2个特征传播层。对于每个集合抽象层，输入点云分别被子采样到2048、1024、512和256个点，其中增加的接收半径为0.2、0.4、0.8和1.2。然后，两个特征传播层相继地将点上采样到512和1024。更多培训详情见附录。SUN RGB-D的实现主要遵循[26]。我们使用20k点作为每个点云的输入。网络架构和数据扩充与此L（l）=β1L（1）+β2L（1）+β3L（1）+β4L（l）+β5L（l）、ScanNet V2。当3D框的方向被重新确定时，解码器objCLS中心偏离sz cls关闭（五）在评估中，我们包括一个额外的方向其中，平衡因子被默认设置为β1= 0。5，β2= 0。1，β3= 1。0，β4= 0。1且β5= 0。1.一、所有解码器级上的损耗被平均以形成最终损耗：1ΣL所有解码器级的预测分支。更多培训-尾部见附录。4.3. 系统级比较L解码器=Ll=1（l）解码器 .（六）在本节中，我们将与以前的国家进行比较。ScanNet V2和SUN RGB-D上的技术。由于以前的作品[26，24]通常报告多个的最佳结果采样头采样模块的头设计和损失函数与解码器的类似不同之处有两点：第一，没有涉及盒子分类任务;第二，客观性任务遵循标签分配，如第第3.1条我们的最终损失是解码器和采样头的总和：L= L解码器+ L采样器（7）4. 实验4.1. 数据集和评价方案我们在两个广泛使用的3D对象检测数据集上验证了我们的方法：ScanNet V2 [6]和SUN RGB-D [36]，我们遵循标准数据分割[26]。在系统级比较中，我们报告了最佳结果和平均结果1结果如表1所示。在标准PointNet++的相同骨干网络下，所提出的方法使用6个解码器级和256个对象候选，实现了67.3mAP@0.25和48.9mAP@0.5，这比使用相同骨干的先前最佳结果好2.8和5.5。通过更多的解码器级如12，在mAP@0.5上间隙增加到6.3。具有更强的骨架和更多的采样对象，即。2×更多通道和512个候选项，1我们对每个设置训练5次，并对每个训练试验进行5次测试。这25次试验的平均性能被报告为算法随机性。L2954方法骨干mAP@0.25mAP@0.5HGNet [3]GU-net61.334.4GSDN [14]MinkNet62.834.83D-MPA [8]MinkNet64.249.2[26]第二十六话PointNet++62.939.9MLCVNet [31]PointNet++64.541.4H3DNet [51]PointNet++64.443.4H3DNet [51]4×PointNet++67.248.1我们的（L6，O256）PointNet++67.3（66.3）48.9（48.5）我们的（L12，O256）PointNet++67.2（66.6）49.7（49.0）我们的（L12，O256）PointNet++w2×68.8（67.7）52.1（50.6）我们的（L12，O512）PointNet++w2×69.1（68.6）52.8（51.8）表1. ScanNet V2与最新技术的系统级比较。主要比较是基于不同方法之间多次实验的最佳结果，括号内的数字为平均结果。符号：4×PointNet++表示4个单独的PointNet++; PointNet++w2×表示骨架宽度扩大2倍; L表示解码器深度，并且0表示对象候选的数量，例如，我们的（L 6，O256）表示具有6层解码器的模型（即，6个注意模块）和256个对象候选。方法骨干输入mAP@0.25mAP@0.5[26]第二十六话PointNet++点59.135.8MLCVNet [31]PointNet++点59.8-HGNet [3]GU-net点61.6-H3DNet [51]4×PointNet++点60.139.0[25]第二十五话PointNet++点+RGB63.4-我们的（L6，O256）PointNet++点63.0（62.6）45.2（44.4）表2. SUN RGB-D与最新技术的系统级比较。主要比较是基于不同方法之间多次实验的最佳结果，括号内的数字为平均结果。*imVoteNet使用RGB图像作为附加输入。抽样方法mAP@0.25mAP@0.5FPS64.546.2KPS-NMS65.848.7KPS66.348.5表3.应用不同取样策略的消融研究所提出的方法的性能提高到 69.1mAP@0.25 和52.8mAP@0.5，大大优于以前的最佳方法SUN RGB-D我们还将所提出的方法与SUN RGB-D数据集上的先前最先进的方法进行比较，SUN RGB-D数据集是另一个广泛使用的3D对象检测基准。在这个数据集中，在推理过程中默认使用多阶段的集成方法。结果示于表中。二、我们的基础模型达到63.0上表4.KPS策略中不同k值的消融研究迭代位置编码mAP@0.25mAP@0.5没有一中心+尺寸64.764.643.443.5✓✓中心中心+尺寸65.266.347.548.5表5. 迭代箱预测有效性的烧蚀研究。256个抽样候选人，并配备了亲-mAP@0.25和mAP@0.5上的45.2，其性能优于仅使用点云的所有先前最先进技术。特别是，它在mAP@0.5上的性能优于H3DNet 6.2。4.4. 消融研究在本节中，我们将在ScanNet V2上验证我们的关键设计。如果没有指定，所有型号都有6个注意力模块，2 我们报告了 MMDecection 3D （ https://github.com/open-mmlab/mmdetection 3d）的结果，而不是官方论文，后者在ScanNetV2上报告了46.8mAP@0.25和24.7mAP@0.5，在ScanNet V2上报告了57.7mAP@0.25和24.7 mAP@0.5。32.0 SUN RGB-D上的mAP@0.5KmAP@0.25mAP@0.5165.748.7265.848.3466.348.5666.148.42955提出的迭代对象预测方法。在评估中，我们报告默认情况下25次试验的平均性能。抽样策略我们首先在表中消除不同抽样策略的影响。3 .第三章。它表明，我们的方法表现良好，通过使用不同的采样策略。它也适用于各种超参数，例如KPS采样方法中的k4）.这些结果表明，我们的框架选择不同的采样方法的鲁棒性。迭代箱预测表5消融了几种设计2956方法mAP@0.25mAP@0.5RoI-Pooing65.144.4投票64.244.1我们66.348.5表6. 不同解码层迭代盒预测性能的消融研究。合奏ScanNet V2SUN RGB-DmAP@0.25mAP@0.5mAP@0.25mAP@0.566.348.559.243.3✓66.448.763.045.2表7.多级组件有效性的消融研究迭代框预测的选择。利用在解码器阶段中不涉及空间编码的朴素迭代方法，该方法示出了64.7mAP@0.25和43.4mAP@0.25的相当好的性能，这可能是因为位置信息可能已经被隐式地包括在输入对象特征中。实际上，附加的固定位置编码不会提高检测性能（64.6mAP@0.25和43.5mAP@0.5）。通过逐步细化框位置的编码，该方法的定位能力显著提高，在mAP@0.5度量上的4.1点增益超过了朴素实现（47.5对47.5）。43.4）。此外，与仅编码框中心相比，通过框中心和大小两者的更详细的空间编码是有益的（66.3对66.3）。65.2在mAP@0.25和48.5与mAP@0.5时为47.5）。表.图6示出了迭代框预处理的性能不同的解码器阶段。更多的阶段可以带来显着的性能提升，特别是在mAP@0.5。与不应用任何注意力模块相比，我们的6阶段模型在mAP@0.25和mAP@0.5上的表现分别好3.0和7.8我们的方法的每个解码器阶段将预测一组3D框。是nat-为了期望更好的最终检测结果，需要对不同解码器级的这些结果进行集成。表7显示了结果，其中在SUNRGB-D 上观察到显著的性能改进（+3.8mAP@0.25和+1.9 mAP@0.5），并且在ScanNetV2上保持性能。我们假设这是因为SUN RGB-D的点云质量低于ScanNet V2：SUN RGB-D采用真实的RGB-D信号生成点云，许多对象由于遮挡而丢失部分，而ScanNet V2从更完整的3D形状网格生成点云集成方法可以在真实的3D场景上更好地提高性能。与基于组的方法的比较表8.与基于分组的方法的比较方法骨干地图帧/秒0.250.5MLCVNet [31]H3DNet [51]PointNet++4×PointNet++64.567.241.448.15.443.76我们的（L6，O256）PointNet++67.348.96.71我们的（L12，O256）PointNet++67.249.75.70我们的（L12，O256）PointNet++w2×68.852.15.23我们的（L12，O512）PointNet++w2×69.152.85.17表9.比较ScanNet V2上的真实推理速度通过RoI-Pooing或根据投票中心来确定点特征是3D对象检测中的两种典型的手工分组策略[35，26]。我们将这两种分组策略作为基线，并与它们进行比较。为了公平比较，我们仅切换特征聚合机制，而所有其他设置（例如，6级解码器）保持不变。更多细节见附录。表8示出了结果。尽管RoI池比投票方法表现更好，但在mAP@0.25上仍比我们的无组方法差1.2分，在mAP@0.5上差4.1分。4.5. 推理速度注意力模型的计算复杂度由点云中的点的数量和采样对象候选者的数量确定。在我们的方法中，只有少量的对象候选者被采样，这使得注意力模型的成本微不足道。使用我们的默认设置（256个候选对象，1024个输出点），堆叠一个注意力模型带来0.95 GFLOPs，与主干相比相当轻。此外，与其他最先进的方法相比，我们的方法的现实推理速度也非常有竞争力。为了公平比较，所有实验都在相同的工作站（单Titan-XP GPU，256 G RAM和Xeon E5-2650 v3）和环境（Ubuntu-16.04，Python3.6，Cuda-10.1和PyTorch-1.3.1）上运行。其他方法的官方代码用于评估。将所有实验的批量设定为1（即，单个图像）。结果示于表中。9 .第九条。我们的方法实现了更好的性能，也更高的推理速度。4.6. 与DETR的DETR [2]是将Trans-former应用于2D对象检测的先驱工作。与DETR相比，我们的方法涉及更多的领域知识，例如数据相关的初始对象候选生成，其中DETR在表示每个对象之前使用数据无关的对象。层数mAP@0.25mAP@0.5063.340.7164.843.9266.045.6366.446.6466.247.9566.348.3666.348.52957GT提案Layer3第6层图4. 不同解码器阶段的定性结果。第一行是SUN RGB-D的结果，第二行是ScanNet V2的结果。边界框的颜色表示其类别。方法时代mAP@0.25mAP@0.5DETR40039.621.4DETR+KPS40059.641.0DETR+KPS+iter pred40059.942.9DETR+KPS+iter pred120061.845.2我们40066.348.5表10. DETR和我们的方法在ScanNet V2上的比较。KPS表示k-最近点采样，iter_pred表示迭代预测。场景Layer1第3层第6层对象候选，并且在没有明确监督的情况下自动学习。此外，在我们的方法中，在DETR中没有对空间编码的迭代我们在3D物体检测中评估了这些差异为了公平的比较，骨干和解码器头中使用的DETR是相同的，在我们的。我们仔细调整了DETR的超参数，并选择了比较中的最佳设置。其结果如表10所示。在400个epoch的相同训练长度下，DETR达到39.6mAP@0.25和21.4mAP@0.5，明显比我们的方法差。我们猜测这主要是因为数据无关的对象表示的优化困难。固定空间编码也可能导致较差的性能。事实上，通过弥合这些差异，性能可以显著提高，达到59.9mAP@0.25和42.9mAP@0.5使用相同的训练时期，和61.8mAP@0.25和45.2mAP@0.5通过更长的训练。剩余的性能差距是由于地面实况分配的差异，其中DETR采用一组损失来自动确定检测损失的分配，我们的方法手动将对象候选人分配给地面实况。这种分配对于网络来说也可能难以学习。图5. 不同解码器阶段中的交叉注意力权重的可视化。绿点表示参考对象的可扩展性。颜色越红表示关注权重越高。4.7. 定性结果图4说明了ScanNet V2和SUN RGB-D的定性结果。随着解码器网络深入，观察到更准确的检测结果。图5可视化了不同解码器级的学习的交叉注意权重。我们可以观察到，较低阶段的模型总是集中在周围的点，而不考虑几何形状。通过细化，更高阶段的模型可以更多地关注几何形状，并提取更多高质量的对象特征。5. 结论在本文中，我们提出了一个简单而有效的3D对象检测器的基础上的注意力机制的变换器。与需要用于对象特征计算的分组步骤的先前方法不同，该检测器是无组的，其从点云中的所有点计算对象特征，其中每个点的贡献由注意力模块自动所提出的方法在ScanNetV2和SUN RGB-D基准测试中达到了最先进的性能。ScanNet V2SUN RGB-D2958引用[1] Matan Atzmon，Haggai Maron，and Yaron Lipman.基于扩展算子的点卷积神经网络 arXiv 预印本 arXiv ：1803.10091，2018。2[2] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。arXiv预印本arXiv：2005.12872，2020。二、三、四、七[3] Jintai Chen，Biwen Lei，Qingyu Song，Haochao Ying，Danny Z Chen，and Jian Wu.点云上三维目标检测的层次图网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第392-401页，2020年。二、六[4] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检测网络。在IEEE计算机视觉和模式识别会议论文集，第1907-1915页2[5] 程驰，魏方云，韩虎。Relationnet++：通过变换器解码器桥接用于对象检测的视觉表示。arXiv预印本arXiv：2010.15831，2020。二、三[6] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet：室内场景的丰富注释3D重建。在IEEE计算机视觉和模式识别会议论文集，第5828-5839页，2017年。二、五[7] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。2[8] Francis Engelmann ， Martin Bokeloh ， Alireza Fathi ，Bastian Leibe，and Matthias Nießner. 3d-mpa：用于3d语义实例分割的多提议聚集。在IEEE/CVF计算机视觉和模式识别会议的论文集，第9031-9040页，2020年。6[9] Yifan Feng，Zizhao Zhang，Xibin Zhao，Rongrong Ji，and Yue Gao.Gvcnn：用于3D形状识别的组视图卷积神经在IEEE计算机视觉和模式识别会议论文集，第2642[10] Fabian Groh ， Patrick Wieschollek ， and Hendrik PALensch.弯曲卷积亚洲计算机视觉会议，第105-122页。Springer，2018. 2[11] 顾嘉源，韩虎，王立伟，魏逸晨，戴继峰。用于对象检测的学习区域特征。在欧洲计算机视觉会议（ECCV）的论文集，第381-395页，2018年。3[12] Haiyun Guo，Jinqiao Wang，Yue Gao，Jianqiang Li，and Hanqing Lu.基于深度嵌入网络的多视点三维物体检索。 IEEE Transactions on Image Processing ， 25（12）：5526-5537，2016。2[13] Yulan Guo，Hanyun Wang，Qingyong Hu，Hao Liu，LiLiu，and Mohammed Bennamoun. 3D点云的深度学习：一个调查。IEEE Transactions on Pattern Analysis andMachine Intelligence，2020。2[14] JunYoung Gwak，Christopher Choy，and Silvio Savarese.用于3d单次目标检测的生成稀疏检测网络。arXiv预印本arXiv：2006.12356，2020。6[15] Han Hu，Jiayuan Gu，Zheng Zhang，Jifeng Dai，andYichen Wei. 用于对象检测的关系网络在CVPR中，第35883[16] Han Hu，Zheng Zhang，Zhenda Xie，and Stephen Lin.用于图像识别的局部关系网络。在IEEE计算机视觉国际会议论文集，第3464-3473页，2019年。2[17] Varun Jampani，Martin Kiefel，and Peter V Gehler.学习稀疏高维滤波器：图像滤波、稠密crfs与双边神经网络。在IEEE计算机视觉和模式识别会议论文集，第4452-4461页，2016年。2[18] Jason Ku 、 Melissa Mozifian 、 Jungwook Lee 、 AliHarakeh和Steven L Waslander。从视图聚合联合生成3d建议和对象检测。2018年IEEE/RSJ智能机器人与系统国际会议（IROS），第1-8页。IEEE，2018年。2[19] Ming Liang ， BinYang ， Shenlong Wang ， and RaquelUrtasun.多传感器三维目标检测的深度连续融合在欧洲计算机视觉会议（ECCV）的会议记录中，第641-656页2[20] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议的论文集，第2980-2988页，2017年5[21] Yinhan Liu ， Myle Ott ， Naman Goyal ， Jingfei Du ，Mandar Joshi，Danqi Chen，Omer Levy，Mike Lewis，Luke Zettle-moyer，and Veselin Stoyanov.Roberta：一种鲁棒优化的 bert 预训练方法。 arXiv 预印本 arXiv ：1907.11692，2019。2[22] 刘泽、韩虎、曹越、郑章、辛桐。点云分析中的局部聚合算子的进一步研究arXiv预印本arXiv：2007.01294，2020。2[23] Daniel Maturana和Sebastian Sch

下载后可阅读完整内容，剩余1页未读，立即下载