MLCVNet：多级上下文投票网用于3D目标检测

143 浏览量更新于2023-10-25 收藏 2.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10447MLCVNet：用于3D目标检测的谢倩1，赖玉坤2，吴静2，王周涛1，张一鸣1，徐凯3，王军11南京航空航天大学2卡迪夫大学3国防科技摘要什么？主席：60%在本文中，我们解决了三维目标检测任务，通过捕获多层次的上下文信息与自我注意机制和多尺度特征融合。大多数现有的3D对象检测方法单独地识别对象，而没有考虑这些对象之间的上下文信息。相比之下，我们提出了多级上下文投票网（MLCVNet），以识别三维物体的相关性，最先进的投票网的基础上。我们在VoteNet的投票和分类阶段引入了三个上下文模块，在不同的层次上对上下文信息进行编码。具体地，在投票之前，采用补丁到补丁上下文（PPC）模块来捕获点补丁之间的上下文信息。(a)单个对象主席：85%椅子表椅子(c)对象上下文(b)全局场景上下文主席：90%餐厅椅子表椅子(d)多层次语境它们对应的物体质心点随后，一个对象到对象上下文（OOC）模块被纳入之前的建议和分类阶段，以捕捉对象候选人之间的上下文信息。最后，设计了全局场景上下文（GSC）模块来学习全局场景上下文。我们证明了这些捕获的背景信息在补丁，对象和场景级别。我们的方法是提高检测精度的有效方法，在具有挑战性的3D对象检测数据集上实现新的最先进的检测性能，即，SUNRGBD和ScanNet。我们也在https://github.com/NUAAXQ/MLCVNet 上发布我们的代码。1. 介绍三维物体检测是计算机视觉和计算机图形学中的一个研究热点。与RGB图像中的2D对象检测相比，预测由点云捕获的真实世界环境中的3D边界框对于许多任务[1]（如室内机器人导航[2]、机器人抓取[3]等）更重要。然而，在这方面，*通讯作者：wjun@nuaa.edu.cn图1.从点云数据中检测3D对象的多级上下文信息的重要性说明（a）当点云独立显示时，难以识别对象（b）-（d）当给出周围环境信息时，我们可以很容易地识别椅子事实上，与开放场景中的一般对象检测不同，室内场景通常包含强上下文约束，这可以用于室内场景理解任务，例如3D对象检测。点云中的非结构化数据使得检测比2D中更具挑战性。特别是，流行的卷积神经网络（CNN）在2D对象检测中具有很高的性能，但很难直接应用于点云。越来越多的兴趣被吸引来解决这一挑战。随着深度3D点处理网络的出现，例如[4，5]，最近已经提出了几种基于深度学习的3D对象检测工作，以直接从3D点云中检测对象[6，7]。最近的工作VoteNet [7]提出了一种基于Hough投票的端到端3D对象检测网络。VoteNet将传统的Hough投票程序转换为一种重新的宁室di10448MLCVnet（我们的）图2. VoteNet [7]和建议的MLCVNet之间的架构比较。三个子模块集成在一起，捕捉点云数据中的多层次上下文信息（a）补丁级上下文模块;（b）对象级上下文模块;（c）全局场景上下文模块。通过深度网络实现的回归问题，并从输入点云中采样多个种子点以生成针对潜在对象中心的投票的补丁。然后使用投票的中心来估计3D边界框。投票策略使VoteNet能够显著减少搜索空间，并在多个基准数据集中获得最先进的结果。然而，VoteNet对每个点块和对象都是单独处理的，缺乏对不同对象之间以及对象与其所属场景之间关系的考虑，限制了其检测精度。一个例子可以在图中看到。1.一、点云，例如，深度相机通常包含噪声和丢失的数据。再加上室内的遮挡，即使是人类也很难识别图1中的物体是什么以及在哪里。第1（a）段。然而，考虑到图1和图2中的周围上下文信息。1（b-d），考虑到周围的椅子和餐厅场景中的桌子，更容易识别它是椅子。实际上，扫描点集的表示可能是模糊的，单独呈现，由于缺乏颜色外观和数据丢失问题。因此，我们认为，室内深度扫描往往是如此闭塞，上下文甚至可以发挥更重要的作用，在识别对象比点数据本身。这种上下文信息已被证明有助于各种计算机视觉任务，包括对象检测[8，9]，图像语义分割[10，11]和3D场景理解[12，13]。在本文中，我们展示了如何利用3D场景中的上下文信息来提高从点云中检测3D对象的性能。在我们看来，3D对象检测的上下文信息由多个层次组成。最低的是补丁级别，其中数据丢失问题通过对相似点片进行加权求和，以帮助对象中心的更准确的投票。在对象级别，对象的共存提供了对某些对象的检测的强烈提示。例如，如图2所示。如图1（d）所示，检测到的桌子可以给出在周围点检测到椅子的趋势。在场景级别，全局场景线索还可以防止在不适当的场景中检测到对象。例如，我们不会期望检测到厨房里的床。不同层次的上下文相互补充，共同帮助在嘈杂和混乱的环境中正确推断对象。因此，我们提出了一种新的3D对象检测框架，称为多级上下文VoteNet（MLCVNet），到VoteNet的多层次上下文信息的3D对象检测。具体地说，我们提出了一个统一的网络来模拟多层次的上下文，从局部点补丁到全局场景。VoteNet和建议的网络之间的差异在图中突出显示。二、为了对上下文信息进行建模，在框架中提出了三个子模块，即，块到块上下文（PPC）模块、对象到对象上下文（OOC）模块和全局场景上下文（GSC）模块。特别是，类似于[14]，我们使用自我注意机制来建模PPC和OOC模块中元素之间的关系。这两个子模块分别在块和对象级别上对上下文信息进行自适应编码。对于场景级，我们设计了一个新的分支，如图所示。2（c）融合多尺度特征，使网络具有全局场景上下文学习能力。总之，本文的贡献包括：我们提出了第一个3D对象检测网络，该网络利用补丁，对象和全局场景级别的多级我们设计了三个子模块，包括两个自注意模块和一个多尺度特征融合模块，用于在多个层次上获取三维目标检测中的上下文信息。新模块很好地适应了最先进的VoteNet框架。消融研究证明了这些模块在提高检测精度方面的有效性。大量的实验证明了多层次上下文信息的好处。所提出的网络在SUN RGB-D和ScanNetV 2数据集上的性能优于最先进的方法。2. 相关工作2.1. 基于点云的三维目标检测从2D图像中检测物体已经研究了几十年。自深度卷积神经网络（DCNN）[15]发展以来，深度学习技术[16，17]显著提高了2D对象检测的准确性和效率。相比VoteNet点片集群（一）（b）第（1）款点片集群池化池化MLP（c）第（1）款输入点云输入点云Pointnet++Pointnet++关系投票投票样本群组样本群组全局特征关系全局特征提案3D盒子提案3D盒子···10449图3.用于点云数据中的3D对象检测的拟议MLCVNet的架构。提出了三个新的子模块来捕获三维室内场景目标检测中的多级上下文信息。直到最近几年，2D，3D对象检测一直由基于非深度学习的方法[18，19，20随着深度学习在3D点云上的发展[21，22，23]，出现了许多基于深度学习的3D对象检测架构[24，25，26]。然而，这些方法中的大多数依赖于使用2D检测器作为中间步骤，这限制了它们对2D检测器不能很好地工作的情况的推广[27]。为了解决这个问题，最近提出了几种基于深度学习的3D检测器，它们直接将原始点云作为输入[28，29，6]。在[30]中，作者介绍了一种两阶段3D对象检测器PointRCNN。他们的方法首先生成几个3D边界框建议，然后对这些建议进行细化，以获得最终的检测结果。在[31]中，不是直接将3D对象建议生成视为边界框回归问题，而是通过采用合成分析策略并从点云重建3D形状来提出一种新的3D对象建议方法。受[32]中用于2D对象检测的Hough投票策略的启发，[7]中的工作提出了一种端到端的可训练3D对象检测网络，该网络直接处理3D点云，这得益于PointNet/PointNet++ [4，5]的巨大成功。尽管近年来提出了很多方法，但对于现实世界中具有挑战性的情况，仍有很大的改进空间。先前的工作在很大程度上忽略了上下文信息，即，对象和场景内部以及对象和场景之间的关系。在这项工作中，我们将展示如何利用上下文信息来提高3D对象检测的准确性。2.2. 上下文信息[33]中的工作表明，上下文信息对2D语义分割和对象检测具有显著的积极影响。从那时起，上下文信息已成功用于提高许多任务的性能，如2D对象检测[9，8，34]、3D点匹配[ 35 ]、点云选择[36]、点云匹配[37]、点云匹配[38]、点云Mantic分割[36，37]和3D场景理解[12，13]。[38]中的工作通过分析点块上下文实现了3D点云实例分割的合理结果。在[39]中，提出了一种基于递归自动编码器的方法，通过探索3D对象布局中的分层上下文先验来预测3D对象检测。受自然语言处理[40]中自注意思想的启发，最近的工作将自注意机制与上下文信息挖掘相结合，以改善场景理解任务，如图像识别[41]，语义分割[11]和点云识别[42]。关于3D点数据处理，[14]中的工作提出利用注意网络来捕获3D点中的上下文信息。具体地说，它提出了一个点上下文注意力网络，将局部特征编码成全局描述符，用于基于点云的检索。在[43]中，当在大规模点云中检测3D对象时，提出了一种attentionalPointNet来搜索感兴趣区域，而不是处理整个输入点云。与以往的工作不同，我们有兴趣利用多层次的上下文信息的组合，从点云的三维物体检测。特别地，我们将两个自我注意模块和一个多尺度特征融合模块集成到深度Hough投票网络中，以学习补丁，对象和全局场景之间的多层次上下文关系。3. 方法如图3、我们的MLCVNet包含四个主要组件：基于VoteNet的基本3D对象检测框架，其遵循[ 7 ]中的架构，以及三个上下文编码模块。 PPC （ patch-patchcontext）模块结合点组来编码块相关信息，这有助于投票更准确的对象中心。OOC（对象-对象上下文）模块用于捕获对象之间的上下文信息。第1级：贴片级别2：对象补丁-补丁上下文（PPC）模块对象-对象上下文（OOC）模块桌上椅PointNet++骨干自我注意自我注意M贴片M贴片K个集群K个集群输入点云：N×3投票组最大池化MLP输出量：3D包围盒建议分类第三层：场景三维网络管理系统全局场景上下文（GSC）模块K × C输出KY盒10450D自我注意∈·····候选对象。该模块有助于改善3D边界框回归和分类的结果。全局场景上下文（global scene context，GSC）模块用于集成全局场景上下文信息。简而言之，所提出的三个子模块被设计为在多个级别上捕获3D对象检测中的互补上下文信息（一）M贴片点面片i点面片jDM贴片els，旨在提高3D点云的检测性能。3.1. VoteNetVoteNet [7]是我们工作的基线。如示于图2、它是一个端到端可训练的3D物体检测网络，由三个主要模块组成：点特征提取，（b）第（1）款补丁-补丁上下文（PPC）模块没有PPC牵引、投票、对象提案和分类。为了提取点特征，PointNet++被用作种子采样的骨干网络，并从原始输入点云中提取种子点的高维特征。每个种子点的特征包含来自其半径内的周围点的信息，如图1所示。第4（a）段。类似于2D中的区域片，我们因此在本文的其余部分中将这些种子点称为点片。投票块将具有提取特征的点片作为输入并回归对象中心。这个中心-端点预测由模拟Hough投票过程的多层预处理器（MLP）执行。然后通过对预测中心进行分组来生成聚类，并形成对象候选者，然后通过另一个MLP层提出并分类3D边界框。请注意，在VoteNet中，点补丁和对象候选者都是独立处理的，忽略周围的补丁或对象。然而，我们认为这些元素之间的关系（即，点片和对象候选）是用于对象检测的有用信息。因此，我们引入MLCVNet来编码这些关系。我们的检测网络遵循VoteNet的一般框架，但集成了三个新的子模块来捕获多层次的上下文信息。3.2. PPC模块我们将点补丁之间的关系视为上下文的第一级，即，补丁补丁上下文（PPC），如图所示。第4（a）段。在这个层次上，一方面，通过收集相似块的补充信息，点块之间的上下文信息有助于缓解数据缺失问题。另一方面，它通过聚合来自当前点补丁和所有其他补丁的投票信息来考虑用于投票的补丁之间的相互关系[45]。因此，我们提出了一个子网络，PPC模块，捕捉点补丁之间的关系。对于每个点块，基本思想是在将其发送到投票阶段之前，采用自注意模块来聚合来自所有其他块的信息。图4.（a）PPC模块的结构细节本文采用CGNL [44]作为自注意模块（b）有（绿色）和没有（红色）PPC模块的中心投票结果的比较粉色点表示带注释的地面实况中心。如图4（a），使用PointNet++进行特征提取后，我们得到一个特征图AR1024× D，其中1024是从原始点云中采样的点片数，D是特征向量的维数。我们打算生成一个新的特征图A′，它编码任何两个点片之间的相关性，它可以被公式化为非局部操作：A′=f（θ（A），φ（A））g（A）（1）其中θ（）、φ（）、g（）是三个不同的变换函数，f（，）对输入特征的任意两个位置之间的相似性进行编码。此外，如[41]所示，特征图中的通道相关性也有助于对象检测任务中的上下文信息建模，因此我们使用紧凑广义非局部网络（CGNL）[44]作为注意力模块来显式地对特征空间中任何一对点片和任何通道之间的丰富相关性进行建模。CGNL的计算量小，附加参数少，更具有实际应用价值。在注意模块之后，新特征图中的每一行仍然对应于一个点片，但不仅包含其自身的局部特征，还包含与所有其他点片相关联的信息PPC模块的有效性如图所示。第4（b）段。如图所示，使用PPC模块，投票中心更有意义，其中更多的中心出现在对象上而不是非对象区域上。此外，与没有模块的中心相比，投票中心更紧密地聚集。结果表明，我们的自我注意加权融合局部点补丁可以提高投票的目标中心的性能。10451K个集群自我注意最大池MLP（128，128）展开全局特征1x2561x128 1x3841x128Kx128Kx128Kx128Kx128Mx256∈CCC{}{CC C}K×D′（一）K个集群最大池克鲁特岛聚类jD'K个集群（一）M贴片PPCK个集群OOC对象-对象上下文模块（b）第（1）款没有OOC有OOC Groundtruth图5.（a）面向对象模式的结构细节采用CGNL [44]作为自我注意模块。（b）有和没有业务机会模块的结果比较（b）第（1）款全局场景上下文（GSC）模块3.3. OOC模块大多数现有的对象检测框架单独地检测每个对象。VoteNet也不例外，每个聚类都独立地输入到MLP层，以回归其对象类和边界框。然而，组合来自其他对象的特征提供了关于对象关系的更多信息，这已被证明有助于图像对象检测[46]。直观地，对象将从那些高度相关的对象获得加权消息。以这种方式，最终预测对象结果不仅由其自身的个体特征向量确定，而且还受对象关系的影响。因此，我们将对象之间的关系视为第二级上下文信息，即，对象-对象上下文（OOC）。我们得到一组投票聚类C=1，2，.，K在分组投票的中心之后。K是本工作中生成的簇的数量每个簇=v1，v2，.，v n被馈送到MLP中，随后是最大池化以形成表示聚类的单个向量。这里vi代表中的第i票，n是中的票数. 这就是与VoteNet的区别。我们考虑对象之间的关系，而不是独立地处理每个聚类向量来生成建议和分类。具体来说，我们在建议和分类步骤之前引入了自我注意模块，如图所示。3（蓝色模块）。图图5（a）显示了OOC模块内部的细节。具体地说，在最大池化之后，聚类向量 CRK×D′ 输入CGNL注意力模块，以生成新的特征图，记录所有聚类之间的相似性。对象关系的编码可以概括为：无GSC有GSC Groundtruth图6. (a)多尺度特征融合的GSC模块的架构细节。(b)使用和不使用GSC模块的结果比较。这些集群（对象）之间的船被编码到新的特征图中。OOC模块的有效性如图所示。5（b）。如图所示，利用OOC模块，存在较少的彼此重叠的检测到的对象，并且检测到的对象的位置更准确。3.4. GSC模块整个点云通常包含丰富的场景上下文信息，有助于提高目标检测精度。例如，当整个场景是餐厅而不是浴室时，很可能会识别出椅子而不是厕所。因此，我们将关于整个场景的信息视为第三级上下文，即，全局场景上下文（GSC）。受[ 34 ]中场景上下文提取思想的启发，我们提出了GSC模块（图中的绿色模块）。3）利用全局场景上下文信息来改进3D边界框建议和对象分类的特征表示，而无需对场景进行显式监督。GSC模块通过引入全局场景特征提取分支来获取全局场景上下文信息。具体来说，我们使用来自补丁和对象级别的输入创建一个新分支，在应用自注意力之前将层上的特征连接起来。=注意力（最大i =1，…n {MLP（vi）}）（2）PPC和OOC。如图图6（a）中，在两层上，每行表示一个点片P ∈ P ={P1，P2，.， PM}其中C00C是新特征中的增强特征向量，或者对象候选C ∈C={C1，C2， . . ，Ck}，其中真映射COOC∈R，Attention（·）是CGNL，M和K是采样点片的数量，注意力地图通过这样做，上下文关系聚类，分别。最大池首先应用于获取COOCD'……10452------输入表沙发布克什椅子书桌梳妆台夜床浴缸厕所mAP@0.25DSE [1]Geo+RGB50.353.511.961.220.56.415.478.844.278.942.12D驱动[26]Geo+RGB37.050.431.448.327.925.941.964.543.580.445.1[47]第四十七话Geo+RGB51.351.031.862.245.215.527.463.758.370.147.6[27]第二十七话Geo+RGB51.161.133.364.224.732.058.181.143.390.954.0VoteNet [7]仅地理位置47.364.028.875.322.029.862.283.074.490.157.7MLCVNet（我们的）仅地理位置50.466.331.975.826.531.361.585.879.289.159.8表1.在SUN RGB-D V1验证集上与最先进的3D对象检测网络进行性能比较输入mAP@0.25 mAP@0.5DSE [1]Geo+RGB15.26.8MRCNN 2D-3D [48]Geo+RGB17.310.5[27]第二十七话Geo+RGB19.810.8GSPN [31]Geo+RGB30.617.73D-SIS [6]Geo+5views40.222.53D-SIS [6]仅地理位置25.414.6VoteNet [7]仅地理位置58.633.5MLCVNet（我们的）仅地理位置64.541.4表2.ScanNetV2验证集的性能比较两个矢量（即，片向量和簇向量），组合来自所有点片和对象候选者的信息。在2D检测器的上下文建模策略中遵循多尺度特征融合的思想，然后将这两个向量连接以形成全局特征向量。MLP层被应用于进一步聚合全局信息，并且输出随后被扩展并与OOC模块的输出特征图组合。该多尺度特征融合过程可以概括为：Cnew=MLP（[max（C）; max（P）]）+COOC（3）这样，最终3D边界框和对象类的推断将考虑与场景上下文的兼容性，这使得最终预测在全局线索的影响下更可靠。如图如图6（b）所示，GSC模块有效地减少了场景中的错误检测。4. 结果和讨论4.1. 数据集我们在SUN RGB-D [49]和ScanNet [50]数据集上评估了我们的方法。SUN RGB-D是一个著名的室内场景的公共RGB-D图像数据集，由10，335帧和3D对象边界框注释组成。整个数据集中提供了超过64，000个3D边界框。如[13]所述，这些场景大多取自具有强烈背景的家庭环境。在SUN RGB-D中，遮挡问题相当严重数据集。有时，当仅给出3D点云而没有任何颜色信息时，人类甚至难以识别场景中的对象。因此，它是用于3D对象检测的挑战性数据集。ScanNet数据集包含1513个带有密集注释网格的扫描3D室内场景。还提供了对象的地面实况3D边界框。ScanNet中场景的完整性使其成为训练我们的网络在多个级别上学习上下文信息的理想数据集。4.2. 培训详情我们的网络使用Adam opti- mizer和batch size 8进行端到端训练。基本学习率设置为0。01用于ScanNet数据集，0。001对于SUN RGB-D数据集。网络在两个数据集上训练了220个时期。ScanNet的学习率衰减步长设置为120、160、200，SUN RGB-D的学习率衰减步长设置为100、140、180，衰减率为0。1，0。1，0。1.一、在一个 RTX 2080 ti GPU 上训练模型直到收敛，在ScanNetV 2上大约需要4小时，在SUN RGB-D上大约需要11小时。在训练过程中，我们发现mAP结果在小范围内波动。因此，论文中报告的mAP结果是三次运行的平均结果。对于参数大小，我们检查了我们的方法和VoteNet存储的PyTorch模型的文件大小。我们网络的模型大小为13。9MB，而VoteNet为11 MB。2MB。对于训练时间，VoteNet在批量大小为8的情况下需要大约40秒的时间，而我们的时间大约是42秒。对于推断时间，我们推断1个批次的检测并测量时间。VoteNet大约需要0.13秒，而我们的是0.14秒。这里报告的时间都是在ScanNet数据集上测试的。这些表明，我们的方法只是稍微增加了复杂性。4.3. 与最新方法的比较我们首先使用与[7]相同的10个最常见的对象类别在SUN RGB-D数据集上评估我们的方法。表1给出了我们的方法与深滑动形状（DSS）[1]，云的gra-云（COG）[47]，2D驱动[26]，F-PointNet [27]和VoteNet [7].值得注意的是，我们的方法实现了更好的整体性能-10453风床Cntr沙发tabl展示奥弗恩水槽pic椅子书桌Curt冰箱门辛劳德国广播公司浴驾驶室地图3DSIS5views10.8869.7110.0071.8136.0635.9616.242.980.0066.1546.9314.0653.7630.6487.627.3484.319.7640.233DSISGeo2.7963.146.9246.3326.9112.177.0522.870.0065.9833.342.4710.427.9574.512.358.6612.7525.36VoteNet38.187.9256.1389.6258.7757.1337.254.77.8388.7171.6947.2345.3747.3294.9444.6292.1136.2758.65MLCVNet（我们的）46.9888.4863.9487.463.5065.9147.8959.1811.9489.9876.0556.7260.8656.9398.3356.9487.2242.4564.48表3.ScanNetV 2上的每个类别评估，使用mAP@0进行评估。25张借据。VoteNet MLCVNet Groundtruth图7.ScanNetV2中3D物体检测的定性比较结果我们的多层次上下文信息分析策略使检测更加合理和准确。颜色是用来描绘的，不是用来探测的。方法PPC OOC GSCmAP@0. 25孙RGB-DScanNet基线MLCVNetMLCVNetMLCVNet√√ √√ √ √57.859.658.662.259.163.459.864.5表4.测试数据集上的消融研究基线模型由我们自己训练。在SUN RGB-D数据集上，与其他方法相比，MLCVNet的总体mAP（平均精度）达到59。8%，基于SUN RGB-D验证集，2. 比目前最先进的VoteNet高出1%。在SUNRGB-D 数据集中呈现的严重遮挡对方法（例如，VoteNet），分别考虑点补丁。然而，MLCVNet中上下文信息的利用有助于检测缺失部分的遮挡对象，我们认为这是提高检测精度的原因。我们还评估了MLCVNet与几种更具竞争力的方法，MRCNN 2D-3D [48]，GSPN [31]mAP@0. 五、mAP@0. ScanNet验证集上MLCVNet的25达到64。百分之五就是五比最佳竞争对手VoteNet提高了9个绝对点，mAP@0。50更高，达到7。9点改善。这些重大改进证实了我们整合多层次背景信息的有效性。表3显示了mAP@0时的详细结果。ScanNetV2数据集中的每个对象类别为25。可以看出，对于某些特定类别，如浴帘和窗户，改进超过8分。研究发现，门、窗、画、浴帘等平面类物体的增强效果通常较高。其原因可能是这些对象包含更多相似的点块，这些点块可以被注意模块用来在很大程度上相互补充。4.4. 消融研究为了定量评估所提出的上下文子模块的有效性，我们对这些模块的不同组合进行了实验。定量结果见表4。基线方法是VoteNet。然后，我们将建议的子模块添加到和3D-SIS [6]，在表2中的ScanNet基准上。我们报告对两个mAP@0的检测结果。25和一个进入基线模型。应用PPC模块可改善mAP@0。250。8和2。六、的10454图像VoteNet MLCVNet Groundtruth图8.SUN RGB-D上的3D物体检测的定性结果PPC和OOC模块的组合进一步将评估分数提高到59分。1和63。4分别。如预期的，当配备所有三个子模块时，mAP@0. 我们的MLCVNet中有25个在两个数据集上都得到了最高分。可以看出，由所设计的子模块捕获的上下文信息确实带来了对现有技术方法的显著改进。4.5. 定性结果图7显示了使用MLCVNet和VoteNet在ScanNetV2验证集上进行3D边界框预测的结果的定性比较。据观察，所提出的 MLCVNet 检测到更合理的对象（红色箭头），并预测更精确的框（蓝色箭头）。VoteNet生成的粉红色盒子被归类为窗口，不适合与门重叠，而我们的方法确保了对象和场景之间的兼容性。SUN RGB-D的定性比较结果见图。8.如图所示，我们的模型仍然能够产生高质量的盒子，即使场景被遮挡得多，信息量也少。如卧室示例所示在图8中，使用VoteNet存在重叠和遗漏检测（红色箭头），而我们的模型成功地检测到所有对象，与地面实况相比具有良好的精度。对于图中的第二个场景。8、VoteNet错误分类表格，产生重叠，预测不准确的方框（红色箭头），而我们的模型产生更干净，更准确的结果。然而，值得注意的是，我们的方法在某些预测中仍然可能失败，例如图中红色方块中的重叠窗口。7.第一次会议。因此，在处理复杂场景时，三维包围盒预测仍有改进的空间。5. 结论在本文中，我们提出了一种新的网络，将多个层次的上下文信息集成到3D对象检测中。我们利用自注意机制和多尺度特征融合对多层次的上下文信息进行建模，并提出了三个子模块。PPC模块编码点片之间的关系，OOC模块捕获对象候选者的上下文信息，并且GSC模块聚合全局场景上下文。消融研究表明，所提出的上下文子模块，以提高检测精度的有效性。定量和定性的实验进一步表明，我们的架构成功地提高了3D目标检测的性能。今后的工作。三维物体检测中的上下文信息分析还有很大的探索空间。例如，为了增强全局场景上下文约束，一种可能的方式是使用GSC模块中的全局特征来预测场景类型作为辅助学习任务，其可以显式地监督全局特征表示。另一个方向是更有效的机制来编码上下文信息，如[8]中所示。确认本工作得到了国家自然科学基金项目（61772267、61572507、61532003、61622212）、中央高校基础研究基金项目（NE 2016004）、国家重点研究发展计划项目（2016003）、国家自然科学基金项目（2016004）、国家自然科学基金项目（ 61772267 、 61572507 、61532003、6162212）的部分资助。2018AAA0102200）和江苏省自然科学基金BK 20190016。10455引用[1] 宋舒然和肖健雄。用于RGB-D图像中的非模态3D对象检测的在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition中，第808-816页1、6[2] John McCormac ， Ronald Clark ， Michael Bloesch ，Andrew Davison ，and Stefan Leutenegger. Fusion++ ：体积对象级 SLAM 。在 2018 年 3D 视觉国际会议（3DV）上，第32-41页。IEEE，2018年。1[3] Chen Wang ， Danfei Xu ， Yuke Zhu ， Roberto Mart´ın-Mart´ın ， Cewu Lu ， Li Fei-Fei ， and Silvio Savarese.DenseFusion：通过迭代密集融合进行6D对象姿态估计在IEEE计算机视觉和模式识别会议论文集，第3343-3352页，2019年1[4] Charles R Qi，Hao Su ，Kaichun Mo ，and Leonidas JGuibas.PointNet ：用于3D分类和分割的点集深度学习。在IEEE计算机视觉和模式识别会议论文集，第652第1、3条[5] Charles Ruizhongtai Qi，Li Yi，Hao Su，and Leonidas JGuibas. PointNet++：度量空间中点集神经信息处理系统的进展，第5099-5108页，2017年第1、3条[6] Ji Hou ， Angela Dai ， and Matthias Nießner. 3d-sis ：RGB-D扫描的3D扫描实例分割在IEEE计算机视觉和模式识别会议论文集，第4421-4430页，2019年一、三、六、七[7] Charles R Qi，Or Litany，Kaiming He，and Leonidas JGuibas. 用于点云中的3D对象检测的Deep Hough投票arXiv预印本arXiv：1904.09664，2019。一二三四六[8] Han Hu，Jiayuan Gu，Zheng Zhang，Jifeng Dai，andYichen Wei.用于对象检测的关系网络。在IEEE计算机视觉和模式识别会议论文集，第3588-3597页，2018年。二、三、八[9] Ruichi Yu ， Xi Chen ， Vlad I Morariu ， and Larry SDavis.背景选择在目标检测中的作用。arXiv预印本arXiv：1609.02948，2016年。二、三[10] Hang Zhang ， Han Zhang ， Chengguang Wang ， andJunyuan Xie. 语义分割中的共现特征在IEEE计算机视觉和模式识别会议上，第548-557页，2019年2[11] 傅军，刘静，田海杰，李勇，鲍勇军，方志伟，卢汉青.用于场景分割的双注意网络。在IEEE计算机视觉和模式识别会议论文集，第3146二、三[12] Yinda Zhang，Shuran Song，Ping Tan，and JianxiongXiao. Panocontext：用于全景场景理解的全房间3D上下文模型。欧洲计算机视觉会议，第 668-686 页Springer，2014. 二、三[13] Yinda Zhang，Mingru Bai，Pushmeet Kohli，ShahramIzadi，and Jianxiong Xiao.深度上下文：用于3D整体场景理解的上下文编码神经通路。在IEEE计算机视觉国际会议的Proceedings中，第1192-1201页，2017年。二、三、六[14] 张文晓和肖春霞PCAN：使用上下文信息进行基于点云的检索的3D注意力地图学习在IEEE计算机视觉和模式识别集，第12436二、三[15] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络进行Imagenet分类。神经信息处理系统的进展，第1097-1105页，2012年。2[16] 罗斯·格希克。快速R-CNN。在IEEE计算机视觉国际会议论文集，第1440- 1448页，2015年。2[17] 任少卿、何开明、罗斯·格尔希克、孙健。更快的R-CNN：用区域建议网络进行实时目标检测。在神经信息处理系统，第91-99页，2015年。2[18] 南亮亮，谢可，安德烈·沙夫。一种用于复杂室内场景理解的搜索-分类方法。ACM Transactions on Graphics（TOG），31（6）：137，2012. 3[19] Yangyan Li ， Angela Dai ， Leonidas Guibas ， andMatthias Nießner. 实时三维重建的数据库辅助对象检索计算机图形论坛，第 34 卷，第 435-446 页。 WileyOnline Library，2015. 3[20] Jun Wang ，Qian Xie，Yabin Xu，Laishui Zhou，andNan Ye.基于功能部件引导图匹配的杂乱室内场景建模计算机辅助几何设计，43：823[21] Peng-Shuai Wang，Yang Liu，Yu-Xiao Guo，Chun-YuSun，and Xin Tong.O-CNN：用于3D形状分析的基于八叉树的卷积神经网络。 ACM Transactions onGraphics（TOG），36（4）：72，2017。3[22] Yangyan Li ， Rui Bu ， Mingchao Sun ， Wei Wu ，Xinhan Di，and Baoquan Chen. PointCNN：对x变换点进行卷积。神经信息处理系统进展，第820-830页，2018年3[23] Matan Atzmon，Haggai Maron，and Yaron Lipman.基于扩展算子的点卷积神经网络arXiv预印本arXiv：1803.10091，2018。3[24] Xiaozhi Chen ，Kaustav Kundu ，Ziyu Zhang ，HuiminMa，Sanja Fidler，and Raquel Urtasun.用于自动驾驶的单目3D物体检测在IEEE计算机视觉和模式识别会议论文集，第2147-2156页3[25] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检测网络。在IEEE计算机视觉和模式识别会议论文集，第1907-1915页，2017年。3[26] Jean Lahoud和Bernard Ghanem。RGB-D图像中的2D驱动的3D对象检测IEEE国际计算机视觉会议论文集，第4622-4630页，2017年三、六[27] Charles R Qi ，Wei Liu ，Chenxia Wu ，Hao Su ，andLeonidas J Guibas.Frustum PointNets用于3D物体检测10456RGB-D数据。在IEEE计算机视觉和模式识别会议论文集，第918三、六[28] 尹周和昂塞尔·图泽尔。VoxelNet：基于点云的3D对象检测的端到端学习。在IEEE计算机视觉和模式识别会议论文集，第4490-4499页，2018年。3[29] Bo Yang ， Jianan Wang ， Ronald Clark

下载后可阅读完整内容，剩余1页未读，立即下载