完全卷积无锚点3D对象检测方法FCAF3D的研究

106 浏览量更新于2023-12-01 收藏 4.73MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文FCAF3D：完全卷积无锚点3D对象检测Danila Rukhovich，Anna Vorontsova和Anton Konushin三星人工智能中心，莫斯科{d.rukhovich，a.vorontsova，a.konushin} @ samsung.com抽象的。最近，在机器人和增强现实的应用前景吸引了相当大的关注点云的三维物体检测。在本文中，我们提出了FCAF3D-一流的完全卷积无锚室内3D对象检测方法。这是一种简单而有效的方法，它使用点云的体素表示，并使用稀疏卷积处理体素FCAF3D可以通过一个完全卷积的前馈通道以最少的运行时间处理大规模场景现有的3D对象检测方法对对象的几何形状进行先验假设，我们认为这限制了它们的泛化能力。为了消除先前的假设，我们提出了一种新的参数化定向边界框，允许获得更好的结果，在一个纯粹的数据驱动的方式。所提出的方法在ScanNet V2（+4.5）、SUN RGB-D（+3.5）和S3 DIS（+20.5）数据集上实现了最先进的3D对象检测结果（mAP@0.5）代码和模型可在https://github.com/samsunglabs/fcaf3d网站。关键词：3D物体检测，无锚点物体检测，稀疏卷积网络1介绍从点云中检测三维物体的目的是在给定三维点集的情况下同时定位和识别三维物体作为3D场景理解的核心技术，它在自动驾驶、机器人和AR中有着广泛的应用。虽然2D方法（[27]，[33]）适用于密集的固定大小阵列，但3D方法受到任意体积的不规则非结构化3D数据的挑战。因此，2D数据处理技术不直接适用于3D对象检测，因此3D对象检测方法（[10]，[22]，[19]）采用了3D数据处理的创新方法。卷积3D对象检测方法具有可扩展性问题：大规模场景要么需要不切实际的计算资源量，要么需要太多的时间来处理。其他方法选择体素数据表示并采用稀疏卷积;然而，这些方法以检测精度为代价解决了可扩展性换句话说，没有一种3D对象检测方法可以提供精确的估计和良好的缩放+v：mala2255获取更多论文2D. Rukhovich等人55504540355 10 15 20 25 30每秒场景数Fig. 1. 扫描网上的mAP@0.5分与每秒场景数。FCAF3D修改（标记为红色）具有不同数量的主干功能级别。对于每一种现有的方法，都有一种FCAF3D修改，在检测精度和推理速度方面都超过了这种方法。除了可扩展性和准确性之外，理想的3D对象检测方法还应该处理任意形状和大小的对象，而无需额外的黑客和手动调整超参数。我们认为，对3D对象边界框（例如长宽比或绝对大小）的先验假设限制了泛化，并增加了超参数和可训练参数的数量。相反，我们不想依赖于先前的假设。我们提出了一种无锚点的方法，该方法不对对象施加先验知识，并采用纯数据驱动的方法来解决3D对象检测问题。此外，我们介绍一种新颖的定向边界框（OBB）参数化，其灵感来自于减少超参数数量的莫比乌斯带。为了证明我们的参数化的有效性，我们在SUN RGB-D上进行了几种3D物体检测方法的实验，并报告了所有这些方法的改进结果。在本文中，我们提出了FCAF 3D-一个简单的，有效的，可扩展的方法，从点云检测三维物体。我们在ScanNet [7]，SUN RGB-D [26]和S3 DIS [1]上评估了所提出的方法，证明了在所有基准测试中优于先前最先进的方法。在SUN RGB-D和ScanNet上，我们的方法比其他方法至少高出3.5%mAP@0.5。在S3DIS上，FCAF3D的性能远远优于竞争对手。总的来说，我们的贡献是三方面的：1. 据我们所知，我们提出了一种用于室内场景的一流的全卷积2. 我们提出了一种新的OBB参数化，并证明它可以提高SUN RGB-D上现有的几种3D对象检测方法的准确性。性能（mAP）FCAF3D（我们的（s）组免费W/3BRNet水平H3DNetDETR-mw/ 2 levels33DETRGSDNVoteNet+v：mala2255获取更多论文FCAF3D：全卷积无锚点3D物体检测33. 我们的方法在mAP方面显着优于以前的最先进的chal-challing大型室内ScanNet，SUN RGB-D和S3 DIS数据集，同时推理速度更快。2相关工作最近的3D对象检测方法被设计为室内或室外。室内和室外方法几乎是独立发展的，应用特定领域的数据处理技术。许多现代户外方法[31]，[13]，[36]将3D点投影到鸟瞰平面上，从而将3D对象检测的任务减少到2D对象检测。当然，这些方法利用了用于2D对象检测的快速进化算法给定鸟瞰投影，[14]以完全卷积的方式处理它，而[32]利用2D无锚方法。不幸的是，被证明对2D对象检测和3D室外对象检测都有效的方法不能简单地适用于室内，因为它需要不切实际的存储器和计算资源量。为了解决性能问题，已经提出了不同的3D数据处理策略。目前，三种方法在3D对象检测领域占主导地位-基于投票，基于变换器和3D卷积。下面我们将详细讨论这些方法中的每一种;我们还提供了无锚方法的简要概述。基于投票的方法 VoteNet [22]是第一个引入点投票进行3D对象检测的方法。VoteNet使用Point- Net [23]处理3D点，根据投票中心为每个候选对象分配一组点，并从每个点组计算对象特征。在VoteNet的众多后继产品中，主要的进步与应用于PointNet功能的高级分组和投票策略有关BRNet [4]使用投票中心的代表点重新细化投票结果，这有助于捕获精细的局部结构特征。MLCVNet [30]将三个上下文模块引入VoteNet的投票和分类阶段，以在不同级别编码上下文信息H3DNet [34]通过预测几何图元的混合集来改进VENet [29]结合了注意力机制，并引入了通过新的投票吸引力损失训练的投票所有类似VoteNet的基于投票的方法都受到设计的限制首先，它们的可扩展性很差：由于它们的性能取决于输入数据量，如果场景较大，它们往往会变慢此外，许多基于投票的方法将投票和分组策略实现为自定义层，这使得难以再现或调试这些方法或将其移植到移动设备。基于transformer的方法最近出现的基于transformer的方法使用端到端学习和前向传递推理，而不是解析和优化，这使得它们不那么特定于领域。GroupFree [16]用一个Transformer模块替换了VoteNet头，迭代地更新对象查询位置并集成中间检测结果。3DETR [19]是第一种作为端到端可训练的3D对象检测+v：mala2255获取更多论文骨干脖子共享头剩余块褶积层转置卷积层剪枝层池化层区块4Conv4头分类TransConv3区块3 +修剪Conv3中心性头点云回归Block2TransConv2+修剪Conv2头TransConv1Conv0合并Block1+修剪Conv1头4 D. Rukhovich等人Transformer。然而，更高级的基于变换器的方法仍然经历类似于早期基于投票的方法的可扩展性问题。因此，我们的方法是完全卷积的，因此比基于投票和基于变换器的方法更快，更容易实现。3D卷积方法。体素表示允许有效地处理基于体素的3D对象检测方法（[12]，[18]，[25]）将点转换为体素，并使用3D卷积网络对其进行处理然而，密集的体积特征仍然消耗大量内存，并且3D卷积在计算上是昂贵的。总体而言，处理大型场景需要大量资源，无法在单个通道内完成GSDN [10]解决了稀疏3D卷积的性能问题。它具有编码器-解码器架构，编码器和解码器部分都是由稀疏的3D卷积块构建的。与标准的基于卷积投票和基于transformer的方法相比，GSDN的内存效率明显更高，并且可以扩展到大型场景，而不会牺牲点密度。GSDN的主要弱点是它的准确性：这种方法在质量方面与VoteNet相当，明显低于当前最先进的技术[16]。图二、提出的FCAF3D的总体方案。所有卷积和转置卷积都是三维的和稀疏的。该设计允许在单个正向传递中处理输入点云。GSDN为3D对象边界框使用15个纵横比作为锚点。如果GSDN在具有单个纵横比的无锚设置中训练，则准确度降低12%。与GSDN不同，我们的方法是无锚的，同时利用稀疏的3D卷积。基于RGB的无锚对象检测。在2D对象检测中，无锚点方法是标准的基于锚点的方法的有力竞争者。 FCOS [27]以每像素预测的方式解决了2D对象检测问题，并显示出对其基于锚的前身RetinaNet [15]的稳健改进。FCOS3D [28]通过为单目3D物体检测添加额外的目标来调整FCOS。ImVoxelNet [24]解决了同样的问题，使用标准（非稀疏）3D卷积块构建的类似于FCOS的头部。我们适应的想法，从上述锚的方法来处理稀疏不规则数据。+v：mala2255获取更多论文----FCAF3D：全卷积无锚点3D物体检测53该方法遵循标准的3D检测问题陈述，FCAF3D接受NptsRGB着色点并输出一组3D对象边界框。FCAF3D架构由主干、颈部和头部组成（如图所示）。2）。在设计FCAF3D时，我们的目标是可扩展性，因此我们选择了类似GSDN的稀疏卷积网络。为了更好地泛化，我们减少了这个网络中需要手动调整的超参数的数量;具体来说，我们简化了颈部的稀疏修剪。此外，我们引入了一个简单的多级位置分配的无锚头。最后，我们讨论了现有的三维包围盒参数化的局限性，并提出了一种新的参数化，提高了准确性和泛化能力。3.1稀疏神经网络骨干FCAF3D中的主干是ResNet [11]的稀疏修改，其中所有2D卷积都被稀疏3D卷积取代。ResNet的稀疏高维版本家族首次在[5]中引入;为了简洁起见，我们将它们称为HDResNet。脖子我们的脖子是一个简化的GSDN解码器。每个级别上的特征用一个稀疏转置3D卷积和一个稀疏3D卷积来处理。核大小为2的每个转置稀疏3D卷积可能会将非零值的数量增加2- 3倍。为了防止快速的内存增长，GSDN使用了修剪层，该层使用概率掩码过滤输入。在GSDN中，使用额外的卷积评分层计算特征级别概率。这一层是用一个特殊的损失来训练的，它鼓励预测的稀疏性和锚点之间的一致性。具体地，如果与当前体素相关联的任何后续锚点为正，则体素稀疏性被设置为正。然而，使用这种损失可能是次优的，因为距离对象的体素可能以低概率被分配为了简单起见，我们删除了具有相应损失的评分层，并使用头部中分类层的概率。我们不调整概率阈值，而是保持最多N个体素体素来控制稀疏度，其中Nvox等于输入点的数量Npts。我们声称这是一种简单而优雅的方法来防止稀疏增长，因为重用相同的超参数使过程更加透明和一致。头无锚FCAF3D头由三个并行稀疏卷积层组成，其权重在特征级别之间共享。对于每个位置（x，y，z），这些算法分别输出分类概率p，b，x回归参数δ和置信度 c，p。该设计类似于FCOS [27]的简单且重量轻的头部，但适用于3D数据。多级位置分配。在训练过程中，FCAF3D输出不同特征水平的位置（x=0，y= 0，z= 0），这些位置应分配给地面实况框b。对于每个位置，FCOS [27]和ImVoxelNet [24]考虑覆盖该位置的地面实况边界框，其面都在距离阈值内，选择体积最小的边界框，并分配它+v：mala2255获取更多论文ΣΣ6 D. Rukhovich等人到这个地方这种策略是次优的，并且其改变在2D对象检测中被广泛探索[33]，[9]。ImVoxelNet [24]使用了一种修改后的策略，需要手动调整每个特征级别的面部距离阈值。我们提出了一个简化的策略，稀疏数据，不需要调谐-设置特定于集群的超参数。对于每个边界框，我们选择该边界框覆盖至少N个位置的最后一个特征级别。如果没有这样的功能级别，我们选择第一个。我们还通过中心采样[27]过滤位置，仅考虑边界框中心附近的点作为正匹配。更多细节见第二节。5.3.通过赋值，将一些L o阳离子{（x∈，y∈，z∈）}与基真边界框bx∈，y∈，z∈匹配。相应地，这些位置与地面真实值px，y，z和3D中心值cx，y，z相关联。在推理过程中，如[24]中所述，在NMS之前，通过3D中心度计算将分数p乘以损失函数。总损失函数的公式如下：L=1（L N阳性x，y，zCLS（p，p）+1{px，y，z=0}Lreg（b，b）+1{px，y，z=0}Lcntr（c））。（一）这里，材料阳离子的数量Np〇s为x，y，z1{px，y，z=0}。分类损失Lcls是焦点损失，回归损失Lreg是IoU，中心性损失Lcntr是二进制交叉熵。对于每个损失，预测值用帽子表示3.2包围盒参数化3D对象边界框可以是轴对齐的（AABB）或定向的（OBB）。AABB可以被描述为bAABB=（x，y，z，w，l，h），而OBB的定义包括航向角θ：bOBB=（x，y，z，w，l，h，θ）。在这两个公式中，x、y、z表示边界框的中心的坐标，而w、l、h是它的宽度、长度和高度。AABB参数化。对于AABB，我们遵循[24]中提出的参数化具体地，对于地面真值AABB（x，y，z，w，l，h）和位置（x，y，z，h），δ可以被计算为6元组：w w lδ1=x+2−x，δ2=x−x+2，δ3=y+2−y，l hh（二更）δ4=y−y+2，δ5=z+2−z，δ6=z−z+2。由δ可以直接得到AABB的预测值。航向角估计所有最先进的点云3D目标检测方法都将航向角估计任务处理为分类，然后回归。将航向角分类到多个面元中，然后在面元内回归精确航向角。对于室内场景，范围从0到2π通常分为12个相等的bin[22]，[21]，[34]，[19]。对于室外场景，通常只有两个箱子[31]，[13]，因为道路上的物体可以平行或垂直于道路。+v：mala2255获取更多论文L∈∈Q2Q2FCAF3D：全卷积无锚点3D物体检测7当选择航向角仓时，通过回归估计航向角值。VoteNet和其他基于投票的方法估计价值θ直接。户外方法探索更精细的方法，例如预测三角函数的值。例如，SMOKE [17]估计sinθ和cosθ，并使用预测值来恢复航向角。图3描绘了室内目标，其中航向角是明确的。相应地，可以为这些对象随机选择地面真值角符号，使得航向角仓分类无意义。避免为了惩罚与注释不一致的正确预测，我们使用旋转IoU损失，因为它的值是图三. 具有不明确航向角的对象的示例。对于航向角的所有可能选择都是相同的。因此，我们提出了OBB参数化，考虑旋转模糊性。建议Mobius OBB参数化。考虑具有参数（x，y，z，w，l，h，θ）的OBB，让我们表示q=w。如果x，y，z，w+l，h固定，事实证明，（q，θ），. 1，θ + πθ，（q，θ + π），. 1，θ +3 ππθ（3）定义相同的边界框。我们注意到，（q，θ）的集合，其中θ（0，2 π]，q（0，+ inf）在拓扑上等价于一个莫比乌斯带[20]，直到这个等价关系。因此，我们可以将估计（q，θ）的任务重新表述为预测莫比乌斯带上的一个点的任务将二维流形的莫比乌斯带嵌入到欧几里得空间的自然方法如下：（q，θ）›→（ln（q）sin（2 θ），ln（q）cos（2 θ），sin（4 θ），cos（4 θ））.（四）这是很容易验证的4点，从方程。3个映射到一个点在欧几里德空间（详见补充资料）。然而，实验表明，仅预测ln（q）sin（2θ）和ln（q）cos（2θ）比预测所有四个值提供更好的因此，我们选择一个伪嵌入的莫比乌斯带到R2。我们称之为伪，因为它将由ln（q）= 0定义的莫比乌斯带的整个中心圆映射到（0，0）。因此，我们无法区分lnq = 0的点。然而，ln（q）= 0意味着w和l严格相等，这在现实世界中很少见。此外，如果w=l，则角度的选择对IoU具有较小的影响;因此，为了检测精度和方法的简单性，我们忽略这种罕见的情况。总的来说，我们得到了一个新的OBB参数化：w wδ7=lnlsin（2θ），δ8=lnlcos（2θ）。（五）+v：mala2255获取更多论文7 818号D. Rukhovich等人在标准参数化2中，b是从δ平凡地导出的。在所提出的sqs1δ7w=，l=，θ= arctan，（6）1+q1+q2δ8其中比率q=e<$δ2+ δ2 尺寸s=δ+δ2+δ3+δ4。4实验4.1数据集我们在三个3D对象检测基准上评估了我们的方法：ScanNet V2 [7]，SUN RGB-D [26]和S3 DIS [1]。对于所有数据集，我们使用IoU阈值为0.25和0.5的平均精度（mAP）作为度量。扫描网。 ScanNet数据集包含1513个重建的3D室内扫描，每点实例和18个对象类别的语义标签。鉴于此注释，我们通过标准方法计算AABB [22]。训练子集由1201个扫描组成，而312个扫描被留下用于验证。太阳RGB-D。 SUN RGB-D是一个单目3D场景理解数据集，包含超过10，000个室内RGB-D图像。该标注由37个对象类别的逐点语义标签和OBB正如[22]中所提出的，我们对10个最常见类别的对象进行了实验训练和验证分割分别包含5285和5050个点云。S3DIS。Stanford Large-Scale 3D Indoor Spaces数据集包含来自6栋建筑物的272个房间的3D扫描，以及3D实例和语义注释。在[10]之后，我们评估了我们在家具类别上的方法。AABB源自3D语义。我们使用官方分割，其中来自Area5的68个房间用于验证，而剩余的204个房间组成训练子集。4.2实现细节超参数对于所有数据集，我们使用相同的超参数，除了以下内容。首先，输出分类层的大小等于对象类别的数量，对于ScanNet、SUNRGB-D和S3 DIS，其数量分别为18、 10和5其次，SUNRGB-D包含OBB，因此我们预测该数据集的附加目标δ7和δ8最后，ScanNet、SUNRGB-D和S3 DIS包含不同数量的场景，因此我们每个epoch分别重复每个类似于 GSDN [10] ，我们使用 ResNet34 的稀疏 3D 修改命名为HDResNet34作为骨干。颈部和头部在所有特征级别使用主干的输出。在初始点云体素化中，我们将体素大小设置为0.01 m，点的数量Npts设置为100，000。分别地，Nvox等于100，000。ATSS [33]和FCOS [27]都将Nloc设置为32以进行2D对象检测。因此，我们选择一个特征级别，使边界框覆盖在+v：mala2255获取更多论文×FCAF3D：全卷积无锚点3D物体检测9最少Nloc= 33个位置。我们通过中心抽样选择了18个地点NMS IoU阈值为0.5。训练我们使用MMdetection3D [6]框架实现FCAF3D。训练过程遵循默认的MM检测[3]方案：训练需要12个epoch，学习率在第8和第11个epoch下降。我们使用Adam优化器，初始学习率为0.001，权重衰减为0.0001。所有模型都在两个NVidia V100上训练，批量大小为8。评估和性能测试在单个NVidia GTX1080Ti上运行。方法上提出ScanNet SUN RGB-D S3DISmAP@0.25mAP@0.5mAP@0.25mAP@0.5mAP@0.25mAP@0.5[22]第二十二话ICCV'1958.6 33.5 57.73D-MPA[8]CVPR'2064.2 49.2HGNet[2]CVPR'2061.3 34.4 61.6MLCVNet[30]CVPR'2064.5 41.4 59.8--GSDN[10]ECCV'2062.8 34.8--47.8 25.1H3DNet[34]ECCV'2067.2 48.1 60.1 39.0BRNet[4]CVPR'2166.1 50.9 61.1 43.73DETR[19]ICCV'2165.0 47.0 59.1 32.7VENet[29]ICCV'2167.7 - 62.5[第16话]ICCV'2169.1（68.6）52.8（51.8）63.0（62.6）45.2（44.4）-FCAF3D-71.5（70.7）57.3（56.0）64.2（63.8）48.9（48.2）66.7（64.9）45.9（43.8）表1. FCAF3D和接受点云的现有室内3D对象检测方法的结果。最佳度量值以粗体标记FCAF 3D的性能优于以前的最先进方法：GroupFree（在ScanNet和SUN RGB-D上）和GSDN（在S3 DIS上）。报告的指标值是25次试验中最好的一个;括号中给出了平均值。评价我们遵循[16]中介绍的评估方案训练和评估都是随机的，因为输入N个点是从点云中随机采样的。为了获得统计上显著的结果，我们运行训练5次，并独立测试每个训练模型5次。我们报告了5 5次试验的最佳和平均指标：这允许将FCAF3D与报告单个最佳或平均值的3D对象检测方法进行5结果5.1与最先进方法的比较我们在Tab中的1.一、正如人们可能观察到的那样，FCAF3D在所有基准测试中都取得了最佳结果在mAP@0.5方面，性能差距尤其明显：我们的方法在ScanNet上超过了之前的最先进水平4.5%，在SUN RGB-D上超过了3.7%在S3DIS上，FCAF3D的性能远远超过了最先进的总体而言，所提出的方法始终优于现有的方法，为室内3D对象检测设置了一个新的最先进的。具有预测边界框的ScanNet、SUN RGB-D和S3 DIS点云的示例如图4、5、6所示。+v：mala2255获取更多论文10 D. Rukhovich等人见图4。来自ScanNet和AABB的点云。边界框的颜色表示对象类别。左：使用FCAF3D估计，右：地面实况。图五. 从SUN RGB-D获得的点云，带有OBB。边界框的颜色表示对象类别。左：使用FCAF3D估计，右：地面实况。5.2对象几何体优先级为了研究几何先验，我们训练和评估现有的方法与建议的修改。我们使用接受不同模态数据的3D对象检测方法进行实验：点云，RGB图像或两者兼而有之，看看效果是特定于数据还是通用的。VoteNet和ImVoteNet具有相同的头部，并且使用相同的损失进行训练。其中，有4种先验损失：大小分类损失、大小回归损失、方向分类损失和方向回归损失。这两个分类损失对应于目标参数化使用- ing先验（每类平均对象大小和一组角度箱）。类似于+v：mala2255获取更多论文FCAF3D：全卷积无锚点3D物体检测11图第六章S3DIS的点云与AABB。边界框的颜色表示对象类别。左：使用FCAF3D估计，右：地面实况。FCAF3D中，我们将上述损失替换为具有Mobius参数化的旋转IoU损失5。为了给出完整的图片，我们还尝试了室外3D物体检测方法SMOKE[17]中使用的sin-cos参数化。旋转的IoU损失减少了可训练参数和超参数的数量，包括几何先验和损失权重。这种损失已经用于室外3D物体检测[35]。最近，[6]报道了VoteNet在ScanNet上使用轴对齐的IoU丢失进行训练选项卡 . 图 2 显示用 Mobius one 替换标准参数化将 VoteNet 和ImVoteNetmAP@0.5提高了约4%。ImVoxelNet不使用分类+回归方案来估计航向角，而是直接在单个步骤中预测其值由于原始的ImVox-elNet使用旋转的IoU损耗，因此我们不需要删除冗余损耗，只需更改参数化。同样，莫比乌斯参数化有助于获得最佳结果，即使优势很小。GSDN锚点。在这项研究中，我们提供了一个更全面的比较GSDN和报告的结果表。3.公平的比较意味着我们应该在最相似的场景中使用相同的超参数集来测试我们的方法。因此，我们使用0.05m的体素大小，确保我们操作相同的输入，并且不会从使用更详细和信息丰富的空间信息中受益。对于相同的输入体素大小，解码器的不同特征级别处的体素大小也具有相同的大小（0.2、0.4、0.8、1.6）。此外，我们对FCAF3D网络进行了微小的修改。网络中的第一个3D卷积在原始FCAF3D中的步幅为2，但在GSDN中，它等于1。在相同的步长1、相同的体素大小和不同特征级别的相同体素大小的情况下，FCAF3D在mAP@0.25（64.2对62.8）方面略优于GSDN，同时证明了+v：mala2255获取更多论文12 D. Rukhovich等人方法输入mAP@0.25mAP@0.5[22]第二十二话[6]美国林普尔w/ IoU lossw/ naive param.w/sin-cos参数w/ Mobius参数。57.7-59.1 35.8PC61.1（60.3）38.4（37.7）60.7（59.8）37.1（36.4）61.1（60.5）40.4（39.5）[21]第二十一话[6]美国林普尔w/ IoU lossw/ naive param.w/sin-cos参数w/ Mobius参数。63.4-64.0 37.8RGB+PC64.2（63.9）39.1（38.3）64.6（64.0）39.9（37.8）64.6（64.1）40.8（39.8）[24]第二十四话40.7-w/ naive param.w/sin-cos参数RGB 41.3（40.4）13.8（13.0）41.3（40.5）13.2（12.8）w/ Mobius参数。41.5（40.6）14.6（14.0）FCAF3Dw/ naive param.w/sin-cos参数PC63.8（63.5）46.8（46.2）63.9（63.6）48.2（47.3）w/ Mobius参数。64.2（63.8）48.9（48.2）表2. 几种3D物体检测方法的结果，这些方法接受不同模态的输入，在SUNRGB-D上具有不同的OBB参数化。FCAF 3D指标值在25次试验中最佳;括号中给出了平均值。对于其他方法，我们报告了原始论文的结果，以及通过我们使用基于MMdetection3D的重新实现（标记为Reimpl）的实验获得的结果。PC是Point Cloud的缩写。方法骨干体素步幅大小[m]特征级体素大小[m]场景按照第地图0.250.5GSDN[10]0.05 120.162.834.8无锚钉HDResNet340.05 10.2,0.4,0.8,1.620.456.322.7FCAF3D0.05 117.064.2 46.2FCAF3D（精确）HDResNet340.01 20.08,0.16,0.32,0.648.070.7 56.0FCAF3D（平衡）HDResNet34：30.05 10.2,0.4,0.822.962.9 43.9FCAF3D（快速）HDResNet34：20.02 20.16,0.3231.563.1 46.8表3. 接受点云扫描网FCAF3D结果优于原始GSDN（带锚点）的结果所有最好的结果都有下划线。在mAP@0.5时，准确度显著提高（46.2对34.8）。这两种方法每秒处理的场景数量相当：分别为17和20。基于HDResNet34的FCAF3D和GSDN之间的速度差异归因于不同的稀疏修剪策略：GSDN采用基于锚点的策略，相应的基于锚点的损失，但在我们的无锚点方法中，我们不能使用基于锚点的稀疏修剪。然而，具有更轻的骨干的平衡FCAF3D具有三个+v：mala2255获取更多论文FCAF3D：全卷积无锚点3D物体检测13特征级别、0.05 m的体素大小和1的步幅在准确性和速度方面都优于GSDN。总的来说，我们认为FCAF3D以更有效的方式解决了3D对象检测问题，因此应该是首选。可以看出，采用HDResNet34主干、体素大小为0.01 m、默认步幅为2的原始精确FCAF3D获得了最佳结果：在这种设置下，FCAF3D的性能远远优于GSDN（mAP@0.25为70.7对62.8，mAP@0.5为56.0对34.8）。最后，我们解决了只有两个功能级别的最轻量级HDResNet34：2主干的速度问题。根据报告的数值，使用HDResNet34：2的快速FCAF3D修改每秒处理30个场景，而GSDN只能处理20个场景。在提高推理速度的同时，我们并没有牺牲卓越的精度：在体素大小为0.02 m的情况下，基于HDResNet34：2主干的FCAF3D在mAP@0.25和mAP@0.5方面仍然优于GSDN。5.3消融研究消融参数值ScanNet SUN RGB-D S3DISmAP@0.25mAP@0.5mAP@0.25mAP@0.5mAP@0.25mAP@0.5体素尺寸0.010.020.0371.5（70.7）57.3（56.0）64.2（63.8）48.9（48.2）66.7（64.9）45.9（43.8）62.3（62.0）46.3（45.5）61.0（58.5）43.8（38.5）59.6（59.2）42.6（41.6）60.4（59.7）41.6（41.0）55.4（53.3）38.6（35.0）数量的点2 万4万10万69.0（68.1）52.8（52.0）63.0（62.5）46.9（46.5）60.1（58.8）45.1（40.1）67.6（66.7）53.6（52.2）63.4（63.1）47.2（46.6）63.7（61.2）44.8（42.2）71.5（70.7）57.3（56.0）64.2（63.8）48.9（48.2）66.7（64.9）45.9（43.8）中心性没有 71.0（70.4）56.1（55.1）63.8（63.3）48.2（47.5）67.9（65.5）46.0（43.5）是的71.5（70.7）57.3（56.0）64.2（63.8）48.9（48.2）66.7（64.9）45.9（43.8）中心抽样9182770.6（70.1）55.7（55.0）63.8（63.3）48.6（48.2）66.5（63.6）44.4（42.5）71.5（70.7）57.3（56.0）64.2（63.8）48.9（48.2）66.7（64.9）45.9（43.8）70.2（69.7）55.7（54.1）64.3（63.8）48.7（47.9）65.1（63.2）43.6（41.7）表4. FCAF3D中体素大小、点数（等于修剪中的体素数Nvox）、中心度和中心采样的消融研究结果。更好的选项被标记为粗体（实际上，这些是默认的操作，用于获得结果的选项卡。1）。报告的指标值是25次试验中最好的;括号中给出了平均值。在本节中，我们将讨论FCAF3D设计选择，并研究它们在消融研究中独立应用时如何影响指标。我们运行的实验具有不同的体素大小，点云中的点的数量N点，中心采样选择的位置的数量，以及有和没有中心。消融研究的结果汇总在表中。4、所有基准。体素大小。可以预期的是，随着体素尺寸的增加，精度会下降。我们尝试0.03、0.02和0.01 m的体素。我们不使用较小的值进行实验，因为推断将花费太多时间。我们认为，在0.01和0.02 m的体素大小之间的mAP+v：mala2255获取更多论文第十四章D. Rukhovich等人对象，如门、图片和白板。也就是说，在体素尺寸为2cm的情况下，头部将输出具有16cm容差的位置，但是几乎不输出具有16cm容差的位置。扁平物体的尺寸之一可以小于16厘米。因此，我们观察到更大的体素尺寸的准确性下降点数。与2D图像类似，二次采样点云有时被称为低分辨率点云。因此，它们包含的信息比其高分辨率版本少。可以预期，点越少，检测精度越低。在这一系列的实验中，我们采样整个点云中的20k、40k和100k个点，以及获得的度量数值揭示了点的数量和mAP之间的明显依赖性。我们不认为较大的Npts值与现有方法相当（具体而言，GSDN [10]使用点云中的所有点，GroupFree [16]采样50 k点，VoteNet [22]为ScanNet选择40 k点，为SUNRGB-D选择20 k点）。我们使用Nvox= Npts来指导颈部的修剪。当Nvox超过100k时，由于颈部稀疏性的增加，推理时间增加，而精度的提高可以忽略不计。因此，我们将网格搜索限制为100k的N个点，并将其用作所获得结果的默认值。中心。使用中心度改进了ScanNet和SUN RGB-D数据集的mAP。对于S3DIS，结果存在争议：更好的mAP@0.5与mAP@0.25的轻微降低相平衡。尽管如此，我们还是对结果进行了总体分析，因此我们可以认为中心度是一个有用的特征，对mAP有很小的积极影响，在ScanNet上几乎达到mAP@0.5中心取样。最后，我们研究了中心抽样中所选择的位置数。我们选择9个位置，如FCOS [27]中所建议的，整个27个位置的集合，如ImVoxelNet [24]和18个位置。根据mAP对所有基准的评估，后者似乎5.4推理速度与标准卷积相比，稀疏卷积是时间和内存高效的。GSDN的作者声称，通过稀疏卷积，他们在一个完全卷积的前馈通道内处理一个具有78M点的场景，覆盖约14，000 m3，仅使用5G的GPU内存。FCAF3D使用与GSDN相同的稀疏卷积和相同的主干正如在Tab中可以看到的那样3、默认的FCAF3D比GSDN慢。这是由于较小的体素大小：我们使用0.01 m进行适当的多级分配，而GSDN使用0.05 m。为了构建最快的方法，我们使用HDResNet34：3和HDResNet34：2骨干，分别只有三个和两个特征级别在这些变化中，FCAF3D的推理速度比GSDN更快（图1）。①的人。为了进行公平的比较，我们重新测量了GSDN和基于投票的方法的推理速度在性能测试中，我们选择基于MMdetection3D [6]框架的实现，以减轻代码库差异。报告的所有方法的推理速度都是在同一个GPU上测量的，因此可以直接进行比较。+v：mala2255获取更多论文FCAF3D：全卷积无锚点3D物体检测156结论我们提出了FCAF3D，这是一种用于室内场景的一流的完全卷积无锚3D对象检测方法。我们的方法在具有挑战性的室内SUN RGB-D，ScanNet和S3 DIS基准测试中，在mAP和推理速度方面显着优于以前的最先进技术。我们还提出了一种新的定向包围盒参数化，并表明它提高了几个三维物体检测方法的准确性。此外，所提出的参数化允许避免关于对象的任何先验假设，从而减少超参数的数量。总的来说，FCAF3D与我们的边界框参数化是准确的，可扩展的，并在同一时间推广。谢谢。我们要感谢Alexey Rukhovich对拓扑学进行了有益的讨论。引用1. 亚美尼亚岛Sener，O.，Zamir，A.R.，江，H.，布里拉基斯岛Fischer，M.，萨瓦雷塞，S.：大规模室内空间的三维语义解析。IEEE计算机视觉与模式识别会议论文集。pp. 15342. 陈杰，Lei，B.，Song，Q.，Ying，H.，Chen，D.Z.，Wu，J.：基于点云的三维目标检测的层次图网络。在：IEEE/CVF计算机视觉和模式识别会议论文集。pp. 3923. 陈凯，王杰，Pang，J.，曹玉，熊，Y.，Li，X.，Sun，S.，Feng，W.，刘志，徐，J，等：Mmdetection：打开mmlab检测工具箱和基准测试。arXiv预印本arXiv：1906.07155（2019）94. Cheng，B.，Sheng，L.，施，S.，杨，M.， Xu，D.：基于投票的点云3d目标检测中代表点的回溯。IEEE/CVF计算机视觉和模式识别会议论文集。pp.89635. Choy，C.，Gwak，J.，Savarese，S.：4d spatio-temporal convnets：Minkowskiconvolutional neural networks. IEEE计算机视觉与模式识别会议论文集。pp.30756. 贡献者，M.：MMDection3D：OpenMMLab下一代通用3D物体检测平台。https://github.com/open-mmlab/mmdetection3d（2

下载后可阅读完整内容，剩余1页未读，立即下载