没有合适的资源?快使用搜索试试~ 我知道了~
Charles R. Qi1Or Litany1Kaiming He1Leonidas J. Guibas1,21Facebook AI Research2Stanford University192770基于深度Hough投票的点云中的3D物体检测0摘要0当前的3D物体检测方法受到2D检测器的很大影响。为了利用2D检测器中的架构,它们经常将3D点云转换为规则网格(例如体素网格或鸟瞰图像),或者依赖于2D图像中的检测来提出3D边界框。很少有研究直接在点云中检测物体。在这项工作中,我们回归到基本原理,为点云数据构建一个尽可能通用的3D检测流程。然而,由于数据的稀疏性-从3D空间中的2D流形中采样的样本-当直接从场景点预测边界框参数时,我们面临一个重大挑战:3D物体的质心可能远离任何表面点,因此很难在一步中准确回归。为了解决这个挑战,我们提出了VoteNet,这是一个基于深度点集网络和Hough投票的端到端3D物体检测网络。我们的模型在两个大型真实3D扫描数据集ScanNet和SUNRGB-D上实现了最先进的3D检测,设计简单,模型尺寸紧凑,效率高。值得注意的是,VoteNet在不依赖于彩色图像的情况下,仅使用几何信息就能胜过以前的方法。01. 引言03D物体检测的目标是在3D场景中定位和识别物体。具体而言,在这项工作中,我们旨在从点云中估计物体的有向3D边界框以及语义类别。与图像相比,3D点云提供了准确的几何信息和对光照变化的鲁棒性。另一方面,点云是不规则的,因此典型的CNN不适合直接处理它们。为了避免处理不规则的点云,当前的3D检测方法在各个方面都严重依赖于基于2D的检测器。例如,[42,12]将2D检测框架(如Faster/Mask R-CNN [37,11])扩展到3D。他们将不规则的点云体素化为规则的3D网格,并应用3DCNN检测器,但这种方法无法利用数据中的稀疏性,并且由于昂贵的3D卷积而导致计算成本高昂。或者,[4,55]将点云投影为规则的2D鸟瞰图像,然后应用2D检测器来定位物体。0从输入点云到3D检测输出的投票0图1.使用深度Hough投票模型在点云中进行3D物体检测。给定一个3D场景的点云,我们的VoteNet对物体中心进行投票,然后对投票进行分组和聚合,以预测物体的3D边界框和语义类别。0将点云转换为规则的2D鸟瞰图像,然后应用2D检测器来定位物体。然而,这种方法会牺牲几何细节,这在杂乱的室内环境中可能是关键的。最近,[20,34]提出了一个级联的两步流程,首先在前视图图像中检测物体,然后在从2D框中延伸出来的截锥点云中定位物体,但这种方法严格依赖于2D检测器,如果在2D中未检测到物体,则会完全错过该物体。在这项工作中,我们引入了一个以点云为重点的3D检测框架,直接处理原始数据,不依赖于任何2D检测器,无论是在架构还是在物体提议方面。我们的检测网络VoteNet基于最近在点云学习中取得的进展,并受到了广义Hough投票过程用于物体检测的启发。我们利用PointNet++[36],这是一个用于点云学习的分层深度网络,来减轻将点云转换为规则结构的需求。通过直接处理点云,我们不仅避免了量化过程中的信息损失,而且利用了点云中的稀疏性,只计算感知点。虽然PointNet++在物体分类和语义分割方面取得了成功,但很少有研究探讨如何使用这样的架构在点云中检测3D物体。一个简单的解决方案是遵循2D检测器的常见做法,执行密集的物体提议。92780即直接从感测点(及其学习特征)提出3D边界框。然而,点云的稀疏性使得这种方法不受欢迎。在图像中,通常存在一个靠近对象中心的像素,但在点云中通常不是这种情况。由于深度传感器只捕捉对象的表面,3D对象中心很可能位于空旷的空间中,远离任何点。因此,基于点的网络在聚合对象中心附近的场景上下文方面存在困难。仅仅增加感受野并不能解决这个问题,因为随着网络捕捉到更大的上下文,它也会导致更多附近对象和杂乱的包含。为此,我们提出在点云深度网络中赋予投票机制,类似于经典的Hough投票。通过投票,我们实际上生成了靠近对象中心的新点,这些点可以被分组和聚合以生成边界框提案。与传统的Hough投票不同,它有多个独立模块,难以共同优化,VoteNet是端到端可优化的。具体而言,在将输入点云通过主干网络后,我们从其特征中采样一组种子点并生成投票。投票的目标是到达对象中心。结果是在对象中心附近出现投票聚类,进而可以通过一个学习模块进行聚合以生成边界框提案。结果是一个强大的纯几何3D目标检测器,可以直接应用于点云。我们在两个具有挑战性的3D目标检测数据集SUN RGB-D[40]和ScanNet[5]上评估了我们的方法。在这两个数据集上,仅使用几何学的VoteNet明显优于使用RGB和几何学甚至多视图RGB图像的先前方法。我们的研究表明,投票方案支持更有效的上下文聚合,并验证了当对象中心远离对象表面时(例如桌子,浴缸等)VoteNet提供了最大的改进。总之,我们的工作的贡献有:0•通过端到端可微分的架构,在深度学习的背景下重新定义了Hough投票,我们称之为VoteNet。0• 在SUNRGB-D和ScanNet上具有最先进的3D目标检测性能。0• 对点云中的3D目标检测中投票的重要性进行了深入分析。02. 相关工作03D目标检测。之前有许多方法用于检测物体的3D边界框。例如:[27]中,一对一的语义上下文潜力有助于引导提案的物体性得分;基于模板的方法[26,32,28];滑动形状[41]及其深度0基于学习的后继者[42];有向梯度云(COG)[38];以及最近的3D-SIS[12]。由于直接在3D中工作的复杂性,特别是在大场景中,许多方法都采用了某种投影类型。例如,在MV3D[4]和VoxelNet[55]中,3D数据首先被缩减为鸟瞰图,然后再进行后续处理。在FrustumPointNets[34]和[20]中,通过首先处理2D输入来减少搜索空间已经得到了证明。类似地,在[16]中,使用3D地图验证了分割假设。最近,GSPN[54]和PointRCNN[39]使用点云上的深度网络来利用数据的稀疏性。0用于对象检测的Hough投票。Hough变换[13]最初在20世纪50年代末引入,它将在点样本中检测简单模式的问题转化为在参数空间中检测峰值的问题。广义Hough变换[2]进一步将这种技术扩展到图像块,作为复杂对象存在的指示器。使用Hough投票的示例包括[24]的开创性工作,引入了隐式形状模型,从3D点云中提取平面[3]和6D姿态估计[44]等。Hough投票先前已经与先进的学习技术相结合。在[30]中,投票被赋予了指示其重要性的权重,这些权重是使用最大间隔框架学习的。Hough森林用于对象检测在[8,7]中引入。最近,[15]通过使用提取的深度特征构建码本,展示了改进的基于投票的6D姿态估计。类似地,[31]学习了用于MRI和超声图像分割的深度特征构建码本。在[14]中,经典Hough算法用于提取汽车标志中的圆形模式,然后输入到深度分类网络中。[33]提出了用于图像中2D实例分割的半卷积算子,也与Hough投票相关。还有一些使用Hough投票进行3D目标检测的工作[50,18,47,19],其采用了与2D检测器相似的流程。0点云上的深度学习。最近,我们看到了设计适用于点云的深度网络架构的兴趣激增[35, 36, 43, 1, 25, 9, 48, 45, 46, 22,17, 53, 52, 49,51],这些架构在3D物体分类、物体部分分割以及场景分割方面表现出了卓越的性能。在3D物体检测的背景下,VoxelNet[55]从体素中学习点的特征嵌入,而在[34]中,PointNets用于定位从2D边界框中延伸出的物体在一个截锥形点云中。然而,很少有方法研究如何直接在原始点云表示中提出和检测3D物体。92790投票0投票0投票0共享0输入:点云0采样和分组0投票簇0K个簇0在点云中进行投票的物体提案和分类0提出和分类0共享0椅子0VoteNet0点云特征学习骨干0种子(XYZ +特征)0投票(XYZ +特征)0输出:3D边界框0桌子0提出和分类0提出和分类0图2. VoteNet架构在点云中进行3D物体检测的示意图。给定一个包含N个点的输入点云,每个点具有XYZ坐标,骨干网络(使用PointNet++[36]层实现)对点进行子采样并学习深度特征,并输出一个由C维特征扩展的M个点的子集。这些点被视为种子点。每个种子点通过投票模块独立生成一个投票。然后将投票分组成簇,并通过提案模块进行处理以生成最终的提案。经过分类和非极大值抑制的提案成为最终的3D边界框输出。最佳观看颜色图像。03. 深度Hough投票0传统的Hough投票2D检测器[24]包括离线和在线两个步骤。首先,给定一组带有注释的对象边界框的图像,构建一个代码本,其中存储了图像块(或其特征)与相应对象中心的偏移之间的映射关系。在推断时,从图像中选择感兴趣点以提取其周围的图像块。然后将这些图像块与代码本中的图像块进行比较,以检索偏移并计算投票。由于对象图像块往往会达成一致的投票,聚类将在对象中心附近形成。最后,通过将聚类投票追溯回生成它们的图像块来检索对象边界。0我们确定这种技术适用于我们感兴趣的问题的两种方式。首先,基于投票的检测与区域提案网络(RPN)[37]相比,更适用于稀疏集合。对于后者,RPN必须在可能位于空白空间中的对象中心附近生成一个提案,导致额外的计算。其次,它基于自下而上的原则,将小的部分信息累积起来形成一个自信的检测。尽管神经网络可以从大的感受野中聚合上下文信息,但在投票空间中进行聚合可能仍然有益。0然而,由于传统的Hough投票包含多个分离的模块,将其整合到最先进的点云网络中仍然是一个开放的研究课题。为此,我们对不同的流程步骤进行了以下适应性调整。0通过深度神经网络描述和选择感兴趣点,而不是依赖于手工设计的特征。通过网络学习投票生成,而不是使用代码本。利用更大的感受野,可以使投票变得更加明确,从而更加有效。此外,投票位置可以用特征向量增强,以实现更好的聚合。投票聚合通过具有可训练参数的点云处理层来实现。利用投票特征,网络可以潜在地过滤掉质量较低的投票并生成改进的提案。对象提案以位置、尺寸、方向甚至语义类别的形式可以直接从聚合特征中生成,减少了追溯投票来源的需求。接下来,我们将介绍如何将所有上述要素组合成一个名为VoteNet的单一端到端可训练网络。04. VoteNet架构0图2展示了我们的端到端检测网络(VoteNet)。整个网络可以分为两部分:一部分处理现有点以生成投票;另一部分处理虚拟点-投票-以提出和分类对象。04.1. 在点云中学习投票0从大小为N�3的输入点云中,每个点都有一个3D坐标,我们的目标是生成M个投票。The votes create canonical “meeting points” for contextaggregation from different parts of the objects. After clus-tering these votes we aggregate their features to generateobject proposals and classify them.Vote clustering through sampling and grouping. Whilethere can be many ways to cluster the votes, we opt for asimple strategy of uniform sampling and grouping accord-ing to spatial proximity. Specifically, from a set of votes{vi = [yi; gi] 2 R3+C}Mi=1, we sample a subset of K votesusing farthest point sampling based on {yi} in 3D Euclideanspace, to get {vik} with k = 1, ..., K. Then we form Kclusters by finding neighboring votes to each of the vik’s3D location: Ck = {v(k)i|kvi � vikk r} for k = 1, ..., K.Though simple, this clustering technique is easy to integrateinto an end-to-end pipeline and works well in practice.Proposal and classification from vote clusters. As a votecluster is in essence a set of high-dim points, we can lever-age a generic point set learning network to aggregate thevotes in order to generate object proposals. Compared tothe back-tracing step of traditional Hough voting for identi-fying the object boundary, this procedure allows to proposeamodal boundaries even from partial observations, as wellas predicting other parameters like orientation, class, etc.In our implementation, we use a shared PointNet [35]for vote aggregation and proposal in clusters. Given a votecluster C = {wi} with i = 1, ..., n and its cluster center wj,where wi = [zi; hi] with zi 2 R3 as the vote location andhi 2 RC as the vote feature. To enable usage of local votegeometry, we transform vote locations to a local normalizedcoordinate system by z0i = (zi � zj)/r. Then an objectproposal for this cluster p(C) is generated by passing the setinput through a PointNet-like module:92800每个投票都有一个3D坐标和一个高维特征向量。有两个主要步骤:通过骨干网络学习点云特征并从种子点进行学习的Hough投票。点云特征学习。生成准确的投票需要几何推理和上下文。我们不依赖于手工制作的特征,而是利用最近提出的点云深度网络[36,9,43,25]进行点特征学习。虽然我们的方法不限于任何点云网络,但由于其简单性和在从正常估计[10],语义分割[21]到3D对象定位[34]等任务上的成功表现,我们采用PointNet ++[36]作为我们的骨干。网络具有几个集合抽象层和特征传播(上采样)层,具有跳跃连接,输出具有XYZ和丰富的C维特征向量的输入点的子集。结果是维度为(3 +C)的M个种子点。每个种子点生成一个投票1。基于深度网络的Hough投票。与传统的Hough投票相比,传统的Hough投票是通过在预计算的码本中查找来确定投票(从局部关键点偏移),我们使用基于深度网络的投票模块生成投票,这既更高效(无需kNN查找)又更准确,因为它与管道的其余部分一起进行训练。给定一组种子点{si}Mi = 1,其中si =[xi; fi],其中xi 2 R3且fi 2RC,共享的投票模块独立地从每个种子生成投票。具体而言,投票模块是用具有全连接层,ReLU和批归一化的多层感知机(MLP)网络实现的。MLP接受种子特征fi并输出欧几里得空间偏移∆xi 2 R3和特征偏移∆fi 2RC,使得从种子si生成的投票vi = [yi; gi]具有yi = xi +∆xi和gi = fi +∆fi。预测的3D偏移∆xi明确地受到回归损失的监督0L vote-reg = 10M pos0X0i k ∆ x i − ∆ x � i k 1 [ 对象上的 s i ] ,(1)0其中1 [ si在对象上]表示种子点si是否在对象表面上,Mpos是对象表面上种子点的总数。∆x�i是从种子位置xi到其所属对象的边界框中心的地面实际位移。投票在张量表示中与种子相同,但不再基于对象表面。然而,更重要的区别是它们的位置-从同一对象上生成的投票现在比种子更接近彼此,这使得更容易结合来自对象不同部分的线索。接下来,我们将利用这种语义感知的局部性来聚合对象建议的投票特征。0附录中讨论了多个投票的情况。04.2. 从投票中提出对象建议和分类0p(C) = MLP 20� max i =1 ,...,n { MLP 1 ([ z 0 i ; h i]) } � (2)0在每个聚类中,每个聚类的投票都经过一个MLP 1独立处理,然后通过最大池化(按通道)得到一个单一的特征向量,并传递给MLP2,进一步组合来自不同投票的信息。我们将提议p表示为一个多维向量,其中包括一个物体性得分、边界框参数(中心、方向和尺度,如[34]中所参数化)和语义分类得分。损失函数。提议和分类阶段的损失函数包括物体性、边界框估计和语义分类损失。我们对位于接近地面实际物体中心(在0.3米内)或远离任何中心(超过0.6米)的投票生成的提议分别视为正提议和负提议。不对其他提议的物体性预测进行惩罚。物体性通过交叉熵损失进行监督,损失值由批次中的非忽略提议数量进行归一化。对于正提议,我们进一步根据最接近的实际边界框监督边界框估计和类别预测。具体来说,我们遵循[34],将边界框损失解耦为中心回归、方向角估计和尺寸估计。对于语义分类,我们使用标准的交叉熵损失。在检测损失的所有回归中,我们使用Huber(平滑L1[37])损失。附录中提供了更多细节。928100.3米)或远离任何中心(超过0.6米)。我们将从这些投票生成的提议视为正提议和负提议。不对其他提议的物体性预测进行惩罚。物体性通过交叉熵损失进行监督,损失值由批次中的非忽略提议数量进行归一化。对于正提议,我们进一步根据最接近的实际边界框监督边界框估计和类别预测。具体来说,我们遵循[34],将边界框损失解耦为中心回归、方向角估计和尺寸估计。对于语义分类,我们使用标准的交叉熵损失。在检测损失的所有回归中,我们使用Huber(平滑L1[37])损失。附录中提供了更多细节。04.3. 实现细节0输入和数据增强。我们检测网络的输入是从弹出的深度图像(N = 20k)或3D扫描(网格顶点,N =40k)中随机子采样的N个点的点云。除了XYZ坐标,我们还为每个点包括一个高度特征,表示其到地面的距离。地面高度估计为所有点高度的1%分位数。为了增加训练数据,我们随机从场景点云中进行点的子采样。我们还随机在水平方向上翻转点云,随机围绕竖直轴以Uniform[-5°,5°]的角度旋转场景点,以及随机缩放点云Uniform[0.9,1.1]。网络架构细节。骨干特征学习网络基于PointNet++[36],它具有四个集合抽象(SA)层和两个特征传播/上采样(FP)层,其中SA层的接受半径分别为0.2、0.4、0.8和1.2米,同时它们将输入进行子采样,分别得到2048、1024、512和256个点。两个FP层将第4个SA层的输出上采样回1024个具有256维特征和3D坐标的点(附录中有更多细节)。投票层通过具有FC输出大小为256、256、259的多层感知机实现,其中最后一个FC层输出XYZ偏移和特征残差。提议模块实现为一个集合抽象层,后面跟一个MLP 2进行最大池化后生成提议。SA使用半径0.3和MLP 1的输出大小为128、128、128。最大池化的特征经过MLP 2进一步处理,输出大小为128、128、5+2NH+4NS+NC,其中输出包括2个物体性得分、3个中心回归值、NH个用于方向回归的数值(NH个方向角度区间)和NS个用于边界框尺寸回归的数值(NS个边界框锚点)以及NC个用于语义分类的数值。训练网络。我们使用Adam优化器从头开始对整个网络进行端到端的训练,批大小为8,初始学习率为0.001。学习率在训练过程中按照预定的策略进行调整。0在80个epoch之后减少了10倍,然后在120个epoch之后再减少了10倍。在SUN RGB-D上,使用一块Volta Quadro GP100GPU对模型进行训练收敛大约需要10个小时,在ScanNetV2上则不到4个小时。0推理。我们的VoteNet能够一次性处理整个场景的点云并生成提议。提议经过一个IoU阈值为0.25的3DNMS模块进行后处理。评估遵循与[ 42]相同的协议,使用平均精度进行评估。05. 实验0在本节中,我们首先将基于Hough投票的检测器与之前的最先进方法在两个大型3D室内物体检测基准上进行比较(第5.1节)。然后,我们进行分析实验,以了解投票的重要性,不同投票聚合方法的影响,并展示我们的方法在紧凑性和效率方面的优势(第5.2节)。最后,我们展示了我们的检测器的定性结果(第5.3节)。附录中提供了更多的分析和可视化结果。05.1. 与最先进的方法进行比较0数据集。SUN RGB-D [ 40]是一个用于3D场景理解的单视图RGB-D数据集。它包含�5K个带有37个对象类别的amodal定向3D边界框的RGB-D训练图像。为了将数据输入到我们的网络中,我们首先使用提供的相机参数将深度图像转换为点云。我们遵循标准的评估协议,并报告在最常见的10个类别上的性能。ScanNetV2 [ 5]是一个丰富注释的室内3D重建网格数据集。它包含�1.2K个从数百个不同房间收集的训练示例,并带有18个对象类别的语义和实例分割注释。与SUNRGB-D中的部分扫描相比,ScanNetV2中的场景更完整,平均覆盖面积更大且包含更多的对象。我们从重建的网格中采样顶点作为输入点云。由于ScanNetV2没有提供amodal或定向边界框注释,我们的目标是预测与[ 12]中一样的轴对齐边界框。0比较中的方法。我们与一系列先前的方法进行比较。深度滑动形状(DSS)[ 42 ]和3D-SIS [ 12 ]都是基于3DCNN的检测器,它们在对象提议和分类中结合了几何和RGB线索,基于Faster R-CNN [ 37]流程。与DSS相比,3D-SIS引入了一种更复杂的传感器融合方案(将RGB特征反投影到3D体素中),因此能够使用多个RGB视图来提高性能。2D-driven [ 20 ]和F-PointNet[ 34]是基于2D的3D检测器,它们依赖于在2D图像中进行对象检测以减少3D检测搜索空间。云图92820输入浴缸 床 书架 椅子 桌子 写字台 梳妆台 床头柜 沙发 桌子 厕所 mAP0DSS [ 42 ] 几何 + RGB 44.2 78.8 11.9 61.2 20.5 6.4 15.4 53.5 50.3 78.9 42.1 COG [ 38 ] 几何 + RGB 58.3 63.7 31.8 62.2 45.2 15.527.4 51.0 51.3 70.1 47.6 2D-driven [ 20 ] 几何 + RGB 43.5 64.5 31.4 48.3 27.9 25.9 41.9 50.4 37.0 80.4 45.1 F-PointNet [ 34 ] 几何+ RGB 43.3 81.1 33.3 64.2 24.7 32.0 58.1 61.1 51.1 90.9 54.00VoteNet (我们的方法) 仅几何 74.4 83.0 28.8 75.3 22.0 29.8 62.2 64.0 47.3 90.1 57.70表1. SUN RGB-D验证集上的3D物体检测结果。评估指标是平均精度,3D IoU阈值为0.25,如[ 40 ]所提出。请注意,COG [ 38]和2D-driven [ 20 ]都使用房间布局上下文来提高性能。为了与之前的方法进行公平比较,评估是在SUN RGB-D V1数据上进行的。0输入 mAP@0.25 mAP@0.50DSS [ 42 , 12 ] 几何 + RGB 15.2 6.8 MRCNN 2D-3D [ 11 , 12] 几何 + RGB 17.3 10.5 F-PointNet [ 34 , 12 ] 几何 + RGB 19.810.8 GSPN [ 54 ] 几何 + RGB 30.6 17.703D-SIS [ 12 ] 几何 + 1个视图 35.1 18.7 3D-SIS [ 12 ] 几何 +3个视图 36.6 19.0 3D-SIS [ 12 ] 几何 + 5个视图 40.2 22.503D-SIS [ 12 ] 仅几何 25.4 14.6 VoteNet (我们的方法) 仅几何58.6 33.50表2.ScanNetV2验证集上的3D物体检测结果。DSS和F-PointNet的结果来自[ 12 ]。Mask R-CNN 2D-3D的结果来自[ 54]。GSPN和3D-SIS的结果是原始作者提供的最新数据。0dients [ 38 ]是一种基于滑动窗口的检测器,使用新设计的3DHoG-like特征。MRCNN2D-3D是一种简单的基线方法,直接将Mask-RCNN [ 11]实例分割结果投影到3D中以获得边界框估计。GSPN [ 54]是一种最近的实例分割方法,使用生成模型提出物体实例,也基于PointNet++骨干网络。0结果总结在表1和表2中。VoteNet在SUNRGB-D和ScanNet中至少提高了3.7和18.4的mAP。值得注意的是,我们在仅使用几何输入(点云)的情况下实现了这样的改进,而他们同时使用了几何和RGB图像。表1显示,在“椅子”类别中,我们的方法相对于先前的最先进方法提高了超过11的AP。表2显示,仅使用几何输入时,我们的方法相对于基于3DCNN的方法3D-SIS提高了超过33的AP。附录中提供了对ScanNet的逐类别评估。重要的是,两个数据集都使用了相同的网络超参数。05.2. 分析实验0投票还是不投票?VoteNet的一个直接基线是一个直接从样本场景点提出边界框的网络。0方法 mAP@0.250SUN RGB-D ScanNet0BoxNet(我们的方法)53.0 45.40VoteNet(我们的方法)57.7 58.60表3.将VoteNet与无投票基线进行比较。度量是3D物体检测mAP。VoteNet从投票聚类中估计物体边界框。BoxNet直接从物体表面的种子点提出边界框而不进行投票。0采样场景点的直接提议是一种基线,我们将其称为BoxNet,它是通过投票来提高性能的关键。BoxNet与VoteNet具有相同的骨干网络,但是它直接从种子点生成边界框(更多细节请参见附录)。表3显示,投票在SUNRGB-D上提高了约5的mAP,在ScanNet上提高了超过13的mAP。那么,投票有哪些帮助呢?我们认为,由于在稀疏的3D点云中,现有的场景点通常远离物体中心,直接提议可能具有较低的置信度和不准确的全模态框。相反,投票将这些置信度较低的点聚集在一起,并通过聚合来加强它们的假设。我们在图3中展示了这种现象,该图显示了一个典型的ScanNetV2场景,我们仅在场景上叠加了那些如果采样将生成准确提议的种子点。可以看到,VoteNet(右图)相对于BoxNet(左图)具有更广泛的“好”种子点覆盖,显示了投票带来的鲁棒性。我们在图4中进行了第二次分析,该图在同一图中(在不同的比例尺上)显示了每个SUNRGB-D类别的mAP增益(蓝色点)和物体点(在其表面上)与其全模态框中心之间的最近距离,按类别排序,并通过平均类别大小进行归一化(较大的距离意味着物体中心通常远离其表面)。我们可以看到,按照前者排序,两者之间存在很强的相关性。也就是说,当物体点倾向于远离全模态框中心时,投票帮助更多。464850525456586000.10.20.30.40.592830BoxNet(无投票)VoteNet0图3.投票有助于增加检测上下文。将生成好的边界框(BoxNet)或生成好的投票(VoteNet)叠加(蓝色)在代表性的ScanNet场景上。由于投票步骤有效地增加了上下文,VoteNet展示了更密集的场景覆盖,从而增加了准确检测的可能性。0图4.投票在物体点远离物体中心的情况下更有帮助。我们展示了每个类别的投票准确性增益(蓝色点)相对于我们的直接提议基线BoxNet的VoteNet;以及(红色方块)平均物体中心距离,通过平均类别大小进行归一化。0投票聚合的影响投票聚合是VoteNet中的一个重要组成部分,它允许投票之间的通信。因此,分析不同的聚合方案如何影响性能是有用的。在图5(右)中,我们展示了使用学习的Pointnet和最大池化进行投票聚合相比于在局部区域手动聚合投票特征(即来自非物体种子的投票)能够取得更好的结果。我们测试了三种聚合方式(前三行):最大值、平均值和RBF加权(基于投票到聚类中心的距离)。与Pointnet聚合(公式2)不同,投票特征直接进行池化,例如对于平均池化:p =MLP2{AVG{hi}})。在图5(左)中,我们展示了投票聚合半径如何影响检测(使用Pointent和最大池化进行测试)。随着聚合半径的增加,VoteNet的性能提高,直到在约0.2半径处达到峰值。关注更大的区域0投票聚合半径0平均AP(%)0聚合方法mAP0特征平均值47.2特征最大值47.8特征RBF平均值49.00Pointnet(平均)56.5Pointnet(最大)57.70图5. 投票聚合分析。左:在SUNRGB-D上使用Pointnet(最大池化)进行聚合时的mAP@0.25。右:不同聚合方法的比较(所有方法的半径为0.3)。使用学习的投票聚合比在局部邻域中手动汇集特征要有效得多。0尽管引入了更多的杂乱投票,从而污染了好的投票并导致性能下降。0模型大小和速度我们提出的模型非常高效,因为它利用了点云中的稀疏性并避免了在空白空间中的搜索。与之前最好的方法相比(表4),我们的模型在大小上比F-PointNet(SUNRGB-D上的先前技术)小了4倍以上,在速度上比3D-SIS(ScanNetV2上的先前技术)快了20倍以上。请注意,3D-SIS对ScanNetV2的处理时间是以离线批处理模式下的平均时间计算的,而我们的处理时间是使用顺序处理测量的,可以在在线应用中实现。05.3. 定性结果和讨论0图6和图7分别显示了VoteNet在ScanNet和SUNRGB-D场景上的几个代表性的检测结果。可以看出,这些场景非常多样化,存在多个挑战,包括杂乱、部分性、扫描伪影等。尽管存在这些挑战,我们的网络展示了相当强大的结果。例如,在图6中,大多数椅子在顶部场景中被正确检测到。我们的方法能够很好地区分底部左侧场景中的连接沙发椅和沙发,并预测底部右侧场景中碎片化和杂乱的桌子的完整边界框。然而,我们的方法仍然存在一些局限性。0方法 模型大小 SUN RGB-D ScanNetV20F-PointNet[34] 47.0MB 0.09秒 - 3D-SIS[12] 19.7MB -2.85秒0VoteNet(我们的)11.2MB 0.10秒 0.14秒0表4.模型大小和处理时间(每帧或每个扫描)。我们的方法的模型大小比[34]小4倍以上,比[12]快20倍以上。92840VoteNet预测 地面真值0图6. 在ScanNetV2上的3D物体检测的定性结果。左:我们的VoteNet,右:地面真值。详见第5.3节。0图7. SUNRGB-D上的定性结果。左右两个面板都显示(从左到右):场景的图像(我们的网络不使用),VoteNet进行的3D物体检测和地面真值标注。详见第5.3节。0常见的失败案例包括在非常薄的物体(如门、窗户和黑色边界框所示的图片)上的漏检。由于我们不使用RGB信息,几乎不可能检测到这些类别。在SUNRGB-D上,图7还展示了我们的方法在部分扫描和单视图深度图像中的优势。例如,它检测到了比地面真值提供的更多的椅子。在右上方的场景中,我们可以看到VoteNet如何在只看到沙发的一部分时很好地虚拟出完整的边界框。在右下方的场景中,我们可以看到VoteNet在只观察到非常大的桌子的极小部分时的不成功的虚拟边界框预测。06. 结论0在这项工作中,我们介绍了VoteNet:一种简单但强大的受Hough投票启发的3D物体检测模型。该网络直接学习对物体质心进行投票。0通过点云生成高质量的物体提案,并通过它们的特征和局部几何学来学习聚合投票。仅使用3D点云,该模型显示出比利用深度和彩色图像的先前方法显著改进。在未来的工作中,我们打算探索如何将RGB图像纳入我们的检测框架,并将我们的检测器用于3D实例分割等下游应用。我们相信Hough投票和深度学习的协同作用可以推广到更多的应用,如6D姿态估计、基于模板的检测等,并期待看到更多的未来研究沿着这个方向进行。0致谢。本工作部分得到ONRMURI资助(合同号N00014-13-1-0341),NSF资助(合同号IIS-1763268)和Vannevar Bush教职奖学金的支持。我们感谢DanielHuber、Justin Johnson、Georgia Gkioxari和JitendraMalik对有价值的讨论和反馈。[4] Xiaozhi Chen, Huimin Ma, Ji Wan, Bo Li, and Tian Xia.Multi-view 3d object detection network for autonomousdriving. In IEEE CVPR, 2017. 1, 2[6] Haoqiang Fan, Hao Su, and Leonidas J Guibas. A point setgeneration network for 3d object reconstruction from a singleimage. In Proceedings of the IEEE conference on computervision and pattern recognition, pages 605–613, 2017. 11[8] Juergen Gall, Angela Yao, Nima Razavi, Luc Van Gool, andVictor Lempitsky. Hough forests for object detection, track-ing, and action recognition. IEEE transactions on patternanalysis and machine intelligence, 33(11):2188–2202, 2011.292850参考文献0[1] Matan Atzmon, Haggai Maron, and Yaron Lipman.通过扩展算子的点卷积神经网络. arXiv预印本arXiv:1803.10091 ,2018. 20[2] Dana H Ballard. 将Hough变换推广到检测任意形状. Patternrecognition , 13(2):111–122, 1981. 20[
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功