VENet：3D物体检测中的投票增强网络

41 浏览量更新于2023-10-13 收藏 936KB PDF 举报

3D物体检测

性能提升

身份认证购VIP最低享 7 折!

30元优惠券

3712VENet：用于3D物体检测的投票增强网络谢倩1、赖玉坤2、吴静2、王周涛1、吕德宁1、魏明强1、王军*1 1南京航空航天2卡迪夫大学摘要Hough投票，如已经在VoteNet中证明的，对于3D对象检测是有效的，其中投票是关键步骤。在本文中，我们提出了一种新的基于VoteNet的三维检测器与投票增强，以提高检测精度，在杂乱的室内场景。它解决了当前投票方案的局限性，即，来自相邻对象和背景的投票具有显著的负面影响。在投票之前，我们在骨干网中用提出的意向性MLP（AMLP）代替经典的MLP，以获得更好的性能种子点强化种子对象中心前台投票投票增强特征提案特征种子点的特征描述。在投票过程中，我们设计了一个新的投票吸引力损失（VALoss），以加强投票中心，以紧密和紧凑地定位到相应的对象中心。在投票之后，我们设计了一个投票加权模块，将前景/背景预测集成到投票聚合过程中，以增强原始VoteNet处理背景噪声的能力。三个建议的策略都有助于更有效的投票和提高性能，导致一个新的3D对象检测器，称为VENet。实验表明，我们的方法优于国家的最先进的基准数据集的方法。消融研究证明了所提出组件的有效性。1. 介绍3D物体检测是计算机视觉中的一个活跃的研究课题，具有广泛的应用，例如自动驾驶[29]，机器人操纵[39]和高级语义SLAM（同时定位和映射）[45]。然而，在杂乱的室内场景中从扫描的3D点云定位和分类对象仍然是一个具有挑战性的问题，特别是没有颜色信息。尽管在过去几年中已经做出了许多努力来提高其性能[44，32，2，27，42]，但在深度学习技术的成功推动下，每个人都在努力提高其性能。*通讯作者：wjun@nuaa.edu.cn图1.与投票网比较（a）VoteNet。（b）我们的许可证─接近我们的方法从三个方面增强了投票程序（即，种子增强、投票吸引和投票加权）以获得更好的提议特征。但这还远远不能令人满意。最近，提出了一种深度 Hough 投票网络 VoteNet[28]，用于直接从扫描的点云中检测3D对象，并且在几个基准数据集上取得了显着的改进。该方法首先从整个点云中采样种子点，然后使用Point-Net ++ [30]提取这些种子点的高维特征。然后，受Hough投票在2D对象检测的启发，这些种子点产生投票中心的基础上提取的功能。投票过程被公式化为中心点回归，并通过MLP（多层感知器）实现。然后，这些投票被聚类和聚集以生成对象提议特征，该对象提议特征用于对对象进行分类并回归它们的位置。投票作为VoteNet的核心，在目标检测的信息聚合中起着至关重要的作用。然而，在使用当前VoteNet架构的投票中存在两个干扰因素，即，对象噪声：来自相邻对象的投票，背景噪声：来自背景种子点的投票。如图1所示，VoteNet将选择一个投票作为聚类中心，然后聚合边界球内所有投票无差异的信息，形成该中心的聚合特征。投票聚合提案种子投票1表决前2表决中3表决后种子投票增强吸引加权(b)VENet（我们(a)VoteNet背景音量te相邻投票噪音表决3713对象中心前台投票后台投票投票聚合贴片输入vote_loss = 0.35attra_loss = 0.38vote_loss = 0.33attra_loss = 0.15输入无投票加权与投票加权(a) （b）投票权重图2.提议的动机（a）投票吸引力损失和（b）投票加权。(a)原始的投票损失可能会使投票松散地位于对象中心周围，而我们的吸引力损失增加了这些投票的紧凑性（b）前景预测可以使检测器在投票聚合期间重新加权投票以抑制背景噪声投票的影响之三.然而，由于室内场景中的对象是高度杂乱的并且彼此接近，因此这种简单的聚类策略可以包括来自其他相邻对象的投票。此外，由于VoteNet不对来自背景种子点的投票应用任何约束或惩罚除了这两个干扰因素之外，投票的有效性还高度依赖于种子点特征。我们认为，经典的MLP功能，这仅仅取决于最后一层的MLP，缺乏信息的前几层，导致有用的信息丢失。作为解决方案，在这项工作中，我们提出了VENet（Vot-ing Enhancement Network），一个基于VoteNet的3D对象检测器。VENet改进了所有三个阶段中的投票过程（即，之前、期间和之后），通过增强种子点的特征描述并处理来自相邻对象和背景块的噪声投票。具体地说，在投票之前，我们首先提出了一个注意的MLP（AMLP），以增强种子点的特征描述，通过自适应地考虑在经典的MLP的多层信息。然后，在投票期间，为了减轻来自相邻对象的投票的负面影响，我们期望投票不仅接近其地面真值中心，而且如果它们属于同一对象，则彼此接近，如图2（a）所示。因此，我们设计了一种新的损失函数的种子点投票，称为投票吸引力损失，以减少与相同的对象中心相关联的投票之间的内部距离。增加的紧凑性降低了从相邻对象收集信息的可能性，即，物体噪音最后，在投票之后，为了减少来自背景种子点的无意义和误导性投票的影响，我们提出预测种子点的前景概率，并在聚合期间相应地加权它们的投票。也就是说，我们期望来自具有较高前景概率的种子点的投票在投票聚集期间贡献更多。如图2（b）所示，该策略可以抑制背景投票的负面影响，即，背景噪音这项工作的贡献可以概括为：• 我们提出了一个投票增强架构，以改善投票程序Hough投票为基础的3D对象检测从点云，获得新的国家的最先进的公共数据集上的性能。• 在投票之前，我们引入了一个AMLP（AttentiveMLP），以增强种子点的特征编码。• 在投票过程中，我们设计了一个投票吸引力损失（VA-损失），以强制投票位于紧凑和接近相应的对象中心。• 在投票之后，我们提出了一个投票加权模块，将前景种子点预测集成到投票聚合中，以减少背景噪声。2. 相关工作已经做出了许多努力来自动检测室内和室外场景中的3D对象[38、15、12、26、28、29]。47，32，46，22]，其可基于输入模态分为3个类别：2D、2D-3D和3D。对于室外场景，仅将2D图像作为输入，GS3D [17]提出了一种纯单目方法，用于获得可靠的2D检测所产生的对象的粗糙长方体框。M3 D-RPN [1]和一些其他作品[40，36]也被提出用于从单目2D图像中进行3D对象检测。在多传感器处理中，即，2D-3D，[4]和[14]从LiDAR鸟瞰图和相机图像中提取特征，并将3D建议投影到相应的2D特征图，用于3D对象检测任务。ContFuse[20]进一步引入了连续融合层，以执行相机图像和LiDAR鸟瞰图特征组合的特征融合。Laser-Net ++ [23]将图像数据与LiDAR数据融合，并将对象检测扩展到3D语义分割。融合2D-3D特征严重依赖于2D检测器。相反，已经提出了一些工作[50，5，24，6，34]来独立地处理3D点数据。VoxelNet [50]将特征提取和边界框预测统一到一个3714∈∈∈Σǁ单阶段、端到端可训练的深度网络，消除了对LiDAR点云的手动特征工程的需要。同样，PointPillars [16]使用了基于网格的特征描述和特征金字塔网络。整个输入点云被划分为柱，其特征与锚点组合以执行联合回归和分类。PointRCNN [33]不是将点云投影到体素，而是直接从点云生成3D提案，然后为提案引入进一步的细化。Fast PointRCNN [5]利用体素表示和原始点云数据来利用3D对象检测的各自优势。LaserNet [24]使用完全卷积网络来预测每个点的多模态分布，然后融合这些分布以生成每个对象的预测。对于室内场景，[21]，[29]和[31]中的作品集成了2D和3D，以及对象和场景的组合。用于室内3D对象检测的文本信息对象建议模块。投票模块用于从每个种子点回归对象中心，投票聚集模块用于组合来自不同种子点的特征以投票选择对象中心。然后，对象建议模块从聚合特征中分类和回归3D对象的准确位置和大小。设si=[xi;fi]是种子点，其中xiR3和fiRC分别是坐标和提取的特征。根据PointNet++ [30]中的集合抽象机制，f i对种子点s i及其周围点的信息进行编码。在投票模块中，VoteNet使用MLP层通过回归偏移量Δx i R 3来模拟投票过程，通过将偏移量Δx i R 3与偏移量Δx i R3相加来获得预测对象中心yi。也就是说， yi=xi+Δxi。定义了一个回归损失Lvote−reg来监督预测的目标中心的逼近地面真相D数据。此外，PointFusion [43]引入了一种新颖的框架，其中图像数据和原始点云数据由CNN（Con.Lvote−reg =1Δx|我|i-Δxi1[si对象上]（一）卷积神经网络）和PointNet架构，然后是组合它们的输出结果的融合网络。而不是利用2D和3D信息，[35]仅采用3D点数据，并利用几何和分层上下文信息进行3D对象检测。最近，仅使用3D输入，VoteNet [28]引入了一种基于深度学习的Hough投票策略，用于从点云中检测3D对象。这些方法局部地选择一组种子点以生成投票，然后组合这些投票以生成对象提议。此外，ImVoteNet [27]构建在VoteNet之上，并提出了一种专门用于单视图RGB-D场景的3D检测架构，该架构融合了图像中的2D投票和3D投票在点云中。然而，通过使用图像信息，该方法可能对照明条件敏感。此外，这两项工作[28，27]都忽略了投票阶段中其他相邻对象和背景种子点的负面影响。因此，随后的投票聚合可能包括影响最终对象检测结果的噪声投票。在这项工作中，我们的目标是一个更有效的投票策略，以提高投票聚合和解决这些问题的投票吸引力和前景加权，仅使用几何信息。3. 方法我们的VENet继承了用于室内场景对象检测的深度Hough投票网络（VoteNet）[28]，并使用拟议的AMLP（第3.1节），投票吸引力损失（第3.2节）和投票加权模块（第3.3节）对其进行了改进。最初的VoteNet [28]可以概括为三个模块，即，投票模块、投票汇总模块和其中Δx*i是f集合的基础真值，1[sionobject]表示种子点si是否在物体表面上，并且S_pos是所有正种子的集合，即，物体表面上的那些。在等式1中，由于使用指示函数，在训练期间丢弃背景上的种子。然而，在测试期间，不存在应用于背景种子的约束或指导（即，不在物体表面上的那些）以限制它们的投票。另一方面，对于来自前景（对象）种子点的投票，等式1中的回归损失加强了预测中心与其地面实况中心的接近度，但不是属于相同对象的那些中心之间的“紧密性”，这可能导致一些预测中心不利地影响其他对象的聚合。因此，上述投票回归损失无法处理噪声投票。此外，使用PointNet++的种子点特征提取是通过经典的MLP层，缺乏来自前一层的信息。因此，所提取的特征信息量不足以支持有效的投票。3.1. 专注MLP我们首先介绍了一种改进的MLP，称为AttentiveMLP（AMLP），它被集成到PointNet++的主干中，以获得更好的种子点特征描述。在VoteNet中，每个种子点的特征描述是通过简单地将其邻近点的特征向量在最后一层合并来获得的，这可以被视为类MLP，如图3（a）所示。然而，如[13]所示，这种简单的池化操作没有考虑包含丰富局部信息的低级和中级特征。PF-Net[13]通过设计一个我3715|Y投票-属性投票|BGT|我投票|IJ我Cc1c Lc(a) 经典MLP(b) CMLP(c) AMLP(d) 实验室图3.比较不同的基于MLP的特征提取架构。（a）经典MLP在最后一层获得池化特征向量;（b）CMLP从多个级别组合池化特征;（c）所提出的AMLP首先根据池化特征的重要性为它们分配不同的权重，然后自适应地组合它们。（d）高度戒备大楼。在该图示中，我们假设级别的数量L=3。组合MLP（CMLP）。如图3（b）所示，CMLP池化多个MLP层处的特征向量，然后将池化特征级联。正如他们的实验所证明的那样，它提高了组合特征的形状分类性能。然而，我们认为，多层特征的组合可能更具适应性。因此，我们提出了一种Attentive MLP（AMLP），它通过在级联之前学习池化特征的权重来自适应地组合多层特征，如图3（c）所示。也就是说，我们的AMLP引入了自适应权重，以更好地衡量MLP内不同层的特征的重要性。具体来说，对于每个点p，我们首先从每个层中汇集特征，生成（c1，···，cL）。L是层3.2. 吸引力损失为了减少投票聚集中来自相邻对象的错误投票的数量，我们不仅应该要求投票接近其地面真实对象中心，而且还应该强制投票在来自同一对象时彼此紧密定位。为此，我们提出了一种新的投票吸引力损失（VALoss），用于更好的投票监督，它试图最小化与相同对象中心相关联的投票之间的内部距离，如图4（a）所示。换句话说，VALoss被设计为考虑投票之间的吸引力。具体来说，我们使用l1损失来测量voteyij与对象i的平均中心yi之间的距离，并将VALoss设计为：MLP中感知器的数量。然后，而不是直接连接PF-Net等池化特征，我们在每一层插入一个级别注意力块（LAB），如图-L=1Σ（1Σy−y），（4）图3（d）.在每个LAB中，池化特征向量cl首先被馈送到两个FC（全连接）层，输出大小为C/4和C。ReLU被用作第一个FC层的激活函数。Sigmoid函数用于规范化其中，Bgt是地面实况框的集合（每个框对应于对象），并且Y i是与第i个地面实况框相关联的投票的集合。 i∈{1，… |BG T|是在-dex，并且j∈ {1，…|}是|} is the输出权重在（0，1）的范围内。c1然后乘以学习的权重W1并加到其自身，即，投票指数因此，地面真相盒。yi投票yij表示第i个向量的第j个向量是所有选票cl=cl+Wl<$cl（2）与第i个地面真值框相关联，其是计算的。日期为：1Σ|Y|其中cl是增强的特征向量。增强的fea-yi=我投票中国（5）J然后将来自所有层的真实向量连接起来形成然后经过毛皮的组合特征向量另一个FC层输出所需大小的要素描述（与PointNet++输出的大小相同）。C=FC（Concat（cl，···，cl））⑶通过这种方式，AMLP增强了种子点的特征描述。上述等式背后的直觉是，好的选票都应该接近他们的平均值ter，即，彼此紧密地定位。最后，新的选票损失是：Lvote=Lvote−reg+αLvote −attr（6）其中L vote−reg在等式1中定义，α是平衡两个损失项的超参数，设置为0。5FC（C，C/4）FC（C/4，W1*C1*C1*CN*C1N*C2N*C3池化1*C3L实验室实验室L1*CFC3我J3716×⊗··投票中心前台投票吸引力(a) 选票吸引力(b) 投票加权模块图4. (a)投票吸引机制的图示。我们的投票吸引损失试图最小化投票与这些投票的中心之间的距离，即，使投票彼此紧密地定位。因此，当执行投票聚合时，可以降低包括来自相邻对象的投票的可能性。请注意，投票中心与真实对象中心不同。(b)投票加权模块的体系结构。特征图的大小为N C，其中N是种子点的数量，C表示特征维度。BCE：二进制交叉熵。在我们的实验中。新的投票损失合并了回归项和吸引项两者，这是将投票推向对应的地面实况对象中心同时最小化与相同对象中心相关联的投票之间的内部距离的多任务损失。3.3. 用于背景抑制的在投票之后，这些投票将被进一步聚类和聚合以生成提案特征。在原始的VoteNet中，聚类内的投票被无差别地处理，无论它们是来自前景还是背景种子点。直观地，只有来自前景种子点的投票应该对提议有贡献，而来自背景种子点的投票应该在聚合期间被丢弃。然而，如上所述，当前的VoteNet架构不能在测试期间抑制来自背景种子点的投票。作为解决方案，我们设计了一个新的投票加权模型，它根据种子点的前景概率为投票分配不同的聚合权重。具体来说，如图4（b）所示，我们首先使用具有三层的共享MLP来预测每个种子点的得分，这反映了其属于前景的可能性。预测是用地面实况前景/背景标签作为监督来训练的，所述地面实况前景/背景标签是通过检查内部/外部地面实况3D框的种子点的状态来获得的。然后，通过使用预测得分对原始投票特征进行重新加权来增强投票特征。形式上，给定投票特征fi，重新-加权投票特征f~i被公式化为：f~i=δ（fi）fi（7）其中δ（）=sigmoid（MLP（））是预测0和1之间的前景置信度的变换函数，并且是元素乘法。所提出的加权方案允许检测器更可能地关注选票来自前景区域（大权重），并且在聚合之前忽略来自背景（小权重）的对象提案。4. 实验4.1. 实验装置所提出的3D检测器遵循深度Hough投票网络的架构[28]。为了生成样本点的前景/背景标签，我们将标记的3D边界框内的所有点视为前景点，并且将所有框外的点视为背景点。我们使用Adam算法优化网络，该算法在RTX 2080Ti GPU上训练，批量大小为8. 我们将初始学习率设置为0.01，并衰减在（120，140，180）的步骤处将其增加0.1。我们从头开始训练网络，总共有200个epoch。由于几个子采样和其他随机操作，在收敛时（在大约140个时期之后）评估的mAP结果存在小的方差。因此，论文中报告的mAP结果是训练模型3次的平均结果，以减少随机性的影响。4.2. 比较数据集。我们在室内场景的两个数据集上评估所提出的VENet的性能：ScanNet数据集[7]和SUN RGB-D数据集[37]。ScanNet数据集是一个具有丰富注释的3D网格数据集3D场景N×CN×1N×C3D GT盒共享前景点检查MLPN×3N×1共享MLP乙状BCE损失训练部分3717×方法会议mAP@0.25内阁床椅子沙发表门窗口书架图片计数器书桌窗帘冰箱淋浴帘厕所水槽浴缸奥弗恩冯[9]arXiv201948.531.0883.185.8677.556.2730.5525.134.844.0938.559.1135.3233.746.2988.640.2782.020.9[第10话]ECCV202050.243.070.858.316.044.628.013.458.24.969.974.075.036.058.979.047.077.948.2[第28话]ICCV201958.6536.2787.9288.7189.6258.7747.3238.144.627.8356.1371.6947.2345.3757.1394.9454.792.1137.2GRNet [19]ISPRS202059.1439.4588.7889.1888.3458.1648.4632.746.974.9463.4869.8148.4649.0666.3794.0749.790.935.6斯波特[8]ECCV202059.8------------------HGNet [3]CVPR202061.3------------------SESS [49]CVPR202062.1------------------GSDN [11]ECCV202062.8441.5882.592.1486.9561.0542.4140.6651.1410.2364.1871.0654.9240.070.5499.9775.593.2353.07DOPS [25]CVPR202063.753.283.391.682.660.554.845.241.026.351.973.753.949.264.798.071.386.659.2LGR-Net [18]arXiv202064.1------------------MLCVNet [41]CVPR202064.542.4588.4888.9887.463.556.9346.9856.9411.9463.9476.0563.9460.8665.9198.3359.1887.2247.89H3DNet [48]ECCV202067.249.488.691.890.264.961.051.954.918.662.075.957.357.275.397.967.492.553.6VENet（我们的）67.750.487.792.788.168.660.746.055.218.270.277.559.958.475.995.167.292.354.4表1.ScanNetV2 Val集的性能比较mAP@0.25mAP@0.5[第28话]57.7 32.9H3DNet [48]60.1 39.0LGR-Net [18]62.2-HGNet [3]61.6-斯波特[8]60.4 36.3冯[9]59.2-MLCVNet [41]59.2-VENet（我们的）62.539.2表2.SUN RGB-D验证集的性能比较训练时间（s）推理时间（s）#参数（百万）地图@0.25H3DNet [48]4200.704.767.2VENet（我们的）850.322.867.7表3.与先前最先进的方法H3DNet [48]在ScanNet数据集上的性能比较该数据集都是由便携式RGB-D传感器在室内场景中捕获的。请注意，我们的方法不需要RGB信息，并且直接作用于3D点云。该数据集包含1，513个扫描的室内场景，其中标注了3D边界框。它分为两个集，Train和Val分别包含1，201和312个场景与VoteNet一样，本文中的结果SUN RGB-D数据集包含RGB-D传感器从单个视图捕获的10，335个场景，其中5，285个用于训练，5，050个用于验证。每个场景都被转换为带有注释的室内对象的3D点云表示。定量比较。表1显示了使用不同3D对象检测方法的ScanNet数据集的结果。如图所示，所提出的VENet优于其基线VoteNet 9. 0%，并在mAP@0.25评估中实现了新的最先进性能。此外，VENet在18个类别中的6个类别中取得了最佳结果，这是排名第二的H3DNet [48]的两倍，后者仅在3个类别中取得了最佳结果。这表明，所提出的投票增强策略可以有效地进一步改进后续的对象定位和分类任务。表2显示了SUN RGB-D数据集的结果。为了公平比较，我们只比较了仅使用3D几何信息的方法的结果。如图所示，所提出的VENet再次在SUN RGB-D数据集上实现了最先进的性能，具有 62. 5%mAP@0. 二十五整体改进不如ScanNet显著。我们认为这是因为SUN RGB-D中的大多数场景覆盖较小的区域并且具有较少的对象（如图5和6所示），使得噪声投票在SUN RGB-D中不太突出。速度和模型大小。最新的H3DNet [48]在mAP方面具有第二好的性能。H3DNet和VENet都是基于VoteNet开发的。然而，我们注意到在训练/推理时间和模型大小方面的差异。如表3所示，我们的网络的可训练参数的数量为2。800万，而H3DNet为4. 七百万这表明我们的VENet的网络结构更简单，有更少的参数。对于训练时间，H3DNet一个epoch需要大约420秒，而VENet需要更少的时间，85秒。对于推理时间，我们测量ScanNet数据集中一个场景的时间。如图所示，H3DNet取0。70s，而我们的是0。32S.我们的模型比H3DNet快2倍以上。我们认为这是因为在H3DNet中对对象、面部和边缘中心进行三次投票。这些定量结果表明，我们的VENet不仅更有效，而且比H3DNet更有效。此外，H3DNet假设对象应该具有明显的面和边缘结构，而VENet没有这样的假设，因此更适合于一般的对象检测。定性比较。图5和图6使用VoteNet和建议的VENet可视化检测结果。我们观察到，VENet可以获得更好的检测结果，误报率更低，边界框比原始的 VoteNet 在ScanNet和SUN RGB-D数据集上更准确。从图5中可以看出，两个...3718桌椅窗门垃圾箱柜计数器(a) （b）投票网（c）我们的图5.ScanNetV2上3D物体检测的定性比较结果如图所示，我们的投票增强策略实现了更准确的对象分类和定位。请注意，颜色仅用于更好的可视化，而不是在我们的方法中使用。椅子表(a) 图像(b)（c）投票网（d）我们的图6.SUN RGB-D上3D物体检测的定性比较结果经典MLPCMLPAMLPmAP@0.2559.661.162.3表5.与CMLP和经典MLP的性能比较表4.测试数据集上的消融研究（mAP@0. 第25段）。VW：投票权重。基线由我们自己训练和评估使用VoteNet检测表的重叠框，而VENet精确地检测表的单个边界框。图6示出了与VoteNet相比，所提出的VENet给出了更好的检测结果，具有更少的重叠。这表明改进的投票紧凑性减少了对象中心的稀疏分布，这有助于减少重叠框的检测。4.3. 消融研究为了分析这三种策略的重要性，我们在ScanNet和SUN RGB-D数据集上使用所提出的组件的不同组合进行了几次实验。我们使用原始的VoteNet作为我们的基线模型，我们从头开始训练VoteNet，使用第4.1节中的评估策略获得结果。结果示于表4中。第二行显示AMLP从59. 6%至62。3%在ScanNet上。添加VA-损失进一步将结果提高到64。8%，证明其有效减少投票中的物体噪音。从现在开始上升到67. 7%，进一步证明了该模块的有效性，以抑制背景噪声的投票聚合。对于ScanNet和SUN RGB-D数据集，所有建议的组件都可以实现最佳mAP结果。为了证明AMLP的有效性，我们在ScanNet数据集上独立地比较了AMLP、CMLP [13]和经典MLP的检测性能。我们用 AMLP 和CMLP 代替了VoteNet 中的经典MLP。结果示于表5中。AMLP的性能最好，表明AMLP具有更好的特征提取能力。为了说明吸引力损失的积极指导，我们在图7中可视化了投票结果。如在绿色框中所见，VALoss可以有效地强制与相同对象中心相关联的投票彼此更紧凑地定位，这有助于减少来自其他对象的噪声信息，从而提高性能。方法AMLPVALossVW孙RGB-DScanNet基线CcCCCC57.859.6Venet59.162.3Venet61.664.8Venet62.567.73719(a) 输入场景（b）无吸引力（c）有吸引力图7.与我们的VALoss进行投票比较（c）与（b）中的红点相比，在没有吸引力损失的情况下获得的投票（蓝点）在建议的损失下定位得更紧凑1.00.50.0(a)输入场景（b）具有预测权重的种子点（c）具有预测权重的投票图8.投票加权结果。0-1之间的预测权重根据颜色条被映射到蓝-红可以看出，具有高预测权重的投票（c）几乎来自前景种子点（b）。为了验证所提出的投票加权模块的有效性，我们在图8中进一步可视化预测权重。我们观察到，预测的权重几乎与它们的前景/背景标签一致，如从图8（b）中具有权重的种子点观察到的。同样如图8（c）所示，具有高权重的投票比具有低权重的投票更接近对象中心。也就是说，来自对象种子点的投票对特征聚合具有更高的贡献，这是预期的。5. 结论在本文中，我们提出了一种新的三维物体检测器，VENet，增强的特征描述和投票聚集的基础上VoteNet框架。具体来说，在投票之前，为了增强种子点的特征描述，我们提出了一种Attentive MLP（AMLP），以自适应地整合经典MLP中的多层信息。在投票过程中，我们设计了一个投票吸引力损失（VALoss），以减轻负面的影响，从种子点在相邻的对象，通过强制投票，不仅接近相应的对象中心，但也紧凑地位于彼此。此外，在投票后，为了减少来自背景种子点的无意义投票，我们提出了投票加权模块来预测种子点的前景概率，并使用该信息来实现更有效的投票聚集。在ScanNet和SUN RGB-D数据集上，仅给出几何信息，我们的方法达到了最先进的检测精度，证明了所提出方法的有效性。虽然本文的重点是基于投票的室内场景的3D对象检测，我们提出的技术一般适用于其他应用程序和方法，使用霍夫投票。在不久的将来的工作中，我们计划探索一个更有效的抽样算法的投票聚合。目前使用的最远点采样算法从整个集合中平等地采样选票，这导致背景中的大多数选票。一个潜在的解决方案是给出从前景投票中采样的更高可能性，这可以减少误报的数量。确认这项工作得到了中国国家重点研究发展计划（ 2019YFB1707504 ），国家自然科学基金（61772267，62032011）和江苏省自然科学基金（BK20190016）的部分支持。3720引用[1] 加里克巴西和刘晓明。M3 D-RPN：用于对象检测的单目3D区域建议网络。在IEEE计算机视觉国际会议的论文集，第9287-9296页，2019年。2[2] Dave Zhenyu Chen ， Angel X Chang ， and MatthiasNießner.ScanRefer：使用自然语言在RGB-D扫描中进行3D对象定位。ECCV，2020年。1[3] Jintai Chen ， Biwen Lei ， Qingyu Song ， HaochaoYing，Danny Z Chen，and Jian Wu.用于点云上的3D对象检测的分层图形在IEEE/CVF计算机视觉和模式识别会议论文集，第392-401页，2020年。6[4] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视图3D物体检测网络。在IEEE计算机视觉和模式识别会议论文集，第1907-1915页，2017年。2[5] Yilun Chen，Shu Liu，Xiaoyong Shen，and Jiaya Jia.快点R-CNN。在IEEE计算机视觉集，第9775二、三[6] Yilun Chen，Shu Liu，Xiaoyong Shen，and Jiaya Jia.Dsgn ：用于3D对象检测的深度立体几何网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第125362[7] Angela Dai、Angel X Chang、Manolis Savva、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。ScanNet：室内场景的丰富注释3D重建。在IEEE计算机视觉和模式识别会议论文集，第5828-5839页，2017年。5[8] Hongyuan Du ， Linjun Li ， Bo Liu ， and NunoVasconcelos. SPOT：选择性点云投票，用于点云对象检测中的更好建议。在ECCV，2020年。6[9] Mingtao Feng ， Syed Zulqarnain Gilani ， YaonanWang，Liang Zhang，and Ajmal Mian.基于关系图网络的点云三维物体检测 IEEE Transactions on ImageProcessing，30：92-107，2020。6[10] David Grif fiths，Jan Boehm，and Tobias Ritschel.找到您的（3D）中心：使用学习损失的3D对象检测。ECCV，2020年。6[11] JunYoungGwak ， ChristopherChoy ， andSilvioSavarese.用于3D单次目标检测的生成稀疏检测网络ECCV，2020年。6[12] Ji Hou ，Angela Dai，and Matthias Nießner. 3D-SIS ：RGB-D扫描的3D扫描实例分割在IEEE计算机视觉和模式识别会议论文集，第4421-4430页，2019年2[13] 黄子天，余一宽，徐佳文，倪峰，乐欣怡。PF-Net：用于3D点云完成的点分形网络在IEEE/CVF计算机视觉和模式识别集，第7662三、七[14] Jason Ku 、 Melissa Mozi fian 、 Jungwook Lee 、 AliHarakeh和Steven L Waslander。从视图聚合联合生成3D建议2018年IEEE/RSJ智能机器人与系统国际会议，第1-8页。IEEE，2018年。2[15] Jean Lahoud和Bernard Ghanem。RGB-D图像中的2D驱动的3D对象检测IEEE国际计算机视觉会议论文集，第4622-4630页，2017年2[16] Alex H Lang ，Sourabh Vora ，Holger Caesar，LubingZhou，Jiong Yang，and Oscar Beijbom.PointPillars：用于从点云检测对象的快速在IEEE计算机视觉和模式识别会议论文集，第12697-12705页3[17] 李步宇，欧阳万里，卢胜，曾星宇，王晓刚.GS 3D：一个有效的3D物体检测框架-用于自动驾驶。在IEEE计算机视觉和模式识别会议论文集，第1019-1028页，2019年。2[18] 李嘉楠和冯佳诗。用于点云中3D对象检测的局部网格渲染网络。arXiv预印本arXiv：2007.02099，2020。6[19] Ying Li，Lingfei Ma，Weikai Tan，Chen Sun，DongpuCao，and Jonathan Li. GRNet：用于从点云检测3D对象的几何关系网络。 ISPRS Journal of Photogrammetryand Remote Sensing，165：436[20] Ming Liang ， BinYang ， Shenlong Wang ， and RaquelUrtasun.多传感器3D物体检测的深度连续融合在欧洲计算机视觉会议（ECCV）的会议记录中，第641-656页2[21] 林大华，桑雅·菲德勒，拉奎尔·乌尔塔孙。使用RGBD相机进行 3D 对象检测的整体场景理解 IEEEInternational Conference on Computer Vision，第1417-1424页，2013年。3[22] 刘哲、赵信、黄腾腾、胡若兰、周瑜、向白。TANet：从点云中进行三重注意力的鲁棒3D对象检测。在AAAI人工智能会议集，第34卷，第11677-11684页2[23] Gregory P Meyer 、 Jake Charland 、 Darshan Hegde 、Ankit Laddha和Carlos Vall-Gonzalez。用于联合3D目标检测和语义分割的传感器融合。在2019年IEEE计算机视觉和模式识别研讨会会议上2[24] Gregory P Meyer 、 Ankit Laddha 、 Eric Kee 、 CarlosVallespi-Gonzalez和Carl K Wellington。LaserNet：用于自动驾驶的高效概率3D物体检测器。在IEEE计算机视觉和模式识别集，第12677二、三[25] Mahyar Najibi、Guangda Lai、Abhijit Kundu、ZhichaoLu 、 Vivek Rathod 、 Thomas Funkhouser 、 CarolinePantofaru、David Ross、Larry S Davis和Alireza Fathi。DOPS ：学习检测 3D 对象并预测其 3D 形状。在IEEE/CVF计算机视觉和模式识别会议的论文集，第11913-11922页6[26] Anshul Paigwar，Ozgur Erkent，Christian Wolf和Chris-tian Laugier。Attentional PointNet用于点云中的3D对象检测。在IEEE计算机视觉和模式识别研讨集，2019年。237

下载后可阅读完整内容，剩余1页未读，立即下载