没有合适的资源?快使用搜索试试~ 我知道了~
1ImVoteNet:使用图像投票增强点云中的3D对象检测Charles R.QiXinlei Chen陈欣蕾1Or Litany1,2Leonidas J. Guibas1,21Facebook AI2斯坦福大学摘要得益于点云深度学习的进步,3D对象检测取得了快速进展。一些最近的作品甚至显示了仅点云输入的最先进的性能(例如V OTE N ET)。然而,点云数据具有固有的局限性。它们是稀疏的,缺乏颜色信息,并且经常遭受传感器噪声。图像分辨率高,纹理丰富.因此,它们可以补充由点云提供的3D几何。然而,如何有效地利用图像信息来辅助基于点云的检测仍然是一个悬而未决的问题。在这项工作中,我们建立在V OTEN ET之上,并提出了一个专门用于RGB-D场景的3D检测架构,称为IM V OTE N ET。IM V OTENET基于融合图像中的2D投票和点云中的3D投票。与以前的多模态检测工作相比,我们从2D图像中同时提取几何和语义特征。我们利用相机参数将这些特征提升为了提高2D-3D特征融合的协同性,我们还提出了一种多塔训练方案。我们在具有挑战性的SUN RGB-D数据集上验证了我们的模型,将最先进的结果提高了5.7 mAP。我们还提供了丰富的消融研究,以分析每个设计选择的贡献。1. 介绍三维环境中目标的识别和定位是实现全场景理解的重要第一步。Even such low dimensional scene represen-tation can serve applications like autonomous navigationand augmented reality.最近,随着点云数据深度网络的进步,一些作品[33,56,41]已经展示了最先进的3D检测结果,点云作为唯一输入。其中,Qi等人最近提出的VOTENET [33]工作,仅采用3D几何输入,与以前的工作相比,* :平均缴款。†:在Facebook工作时完成的工作。图1. 使用室内场景中的图像和点云进行投票。2D投票将3D对象中心的搜索空间减少到射线,而图像中的颜色纹理提供了强语义先验。受观察的启发,我们的模型将2D投票提升到3D,以提高3D检测性能。所有RGB-D通道。这引出了一个有趣的研究问题:3D几何数据(点云)是否足以进行3D检测,或者RGB图像是否可以进一步提升当前的检测器?通过检查点云数据和RGB图像数据的属性(参见例如图1)。1),我们认为答案很明确:RGB图像在3D物体检测中具有重要价值。事实上,图像和点云提供了互补的信息。RGB图像具有比深度图像或LiDAR点云更高的分辨率,并且包含在点域中不可用的丰富纹理。此外,图像可以覆盖有源深度传感器的“盲区”,其经常由于反射表面而出现。另一方面,图像在3D检测任务中受到限制,因为它们缺乏对象深度和尺度的绝对测量,这正是3D点云可以提供的。这些观察结果加强了我们的直觉,即图像可以帮助基于点云的3D检测。然而,如何在3D检测流水线中有效地利用2D图像仍然是一个悬而未决的问题。一种简单的方法是直接将原始RGB值附加到点云-通过投射。但是由于3D点稀疏得多,这样做我们将丢失来自图像域的密集图案。鉴于此,最近已经提出了更先进的方法来融合2D和3D数据。 的一行44044405工作[34,52,19]使用成熟的2D探测器以平截头体的形式提供初始建议。这限制了用于估计3D边界框的3D搜索空间。然而,由于其级联设计,其在初始检测中不利用3D点云。特别地,如果对象在2D中丢失,则其在3D中也将丢失。另一条工作线[45,18,48,11]采取了一种更加专注于3D的方式,将2D图像的中间ConvNet特征连接到3D体素或点,以丰富3D特征,然后将其这种系统的缺点是它们不直接使用2D图像进行定位,这可以为3D中的检测对象提供有用的指导在我们的工作中,我们建立在成功的VOTE NET架构[33]的基础上,并设计了一个用于3D对象检测的联合2D-3D投票方案,名为IMVOTENET。它具有更成熟的2D探测器的优势[38],但同时仍然保留了从全点云本身提出对象的能力-结合了两条工作线的优点,同时避免了每条工作线的缺点。我们设计的一个动机是利用2D图像中的几何和语义/纹理线索(图1)。1)。几何线索来自图像中的精确2D边界框,诸如2D检测器的输出而不是仅仅依赖于2D检测的对象建议[34],我们推迟到3D的建议过程给定一个2D框,我们在图像空间上生成2D投票,其中每个投票从对象像素连接为了将2D投票传递到3D,我们通过基于相机固有和像素深度应用几何变换来提升它们,以便生成“伪”3D投票。这些伪3D投票成为附加到对象提议的3D中的种子点除了来自2D投票的几何线索之外,每个像素还将语义和纹理线索传递到3D点,作为每个区域提取的特征,或每个像素提取的特征。在将图像中的所有特征提升并传递到3D之后,我们将它们与点云骨干网络中的3D点特征连接起来[35,36]。接下来,遵循VOTENET流水线,具有融合的2D和3D特征的那些点生成朝向对象中心的3D Hough投票[12]由于种子特征具有2D和3D信息,因此它们直观地提供更多信息以用于恢复严重截断的对象或具有很少点的对象,并且在辨别几何上相似的对象方面更有信心此外,我们认识到,在融合2D和3D源时,必须仔细平衡来自两种模态的信息,以避免一种模态被另一种模态支配。为此,我们进一步引入了一个具有梯度混合的多塔网络结构[49],以确保我们的网络充分利用2D和3D特征。在测试过程中,只有主塔上的联合2D操作-使用3D功能,最大限度地减少效率损失我们在具有挑战性的SUN RGB-D数据集上评估了IMVOTE NET[43]。我们的模型达到了-艺术的结果,同时显示了显着的改善(+5.7mAP),在3D几何只有VOTE NET,验证图像投票和2D功能的有用性。我们还提供了广泛的消融研究,以证明每个单独的组件。最后,我们还探索了使用颜色来补偿深度点中的稀疏性的潜力,特别是对于较低质量深度传感器的情况或对于从移动单筒相机(SLAM)估计深度的情况,这显示了我们的方法在更广泛的用例中的潜力。总而言之,我们工作的贡献是:1. 将2D对象检测线索融合到基于点云的3D检测流水线中的几何原理方法。2. 所设计的深度网络IM VOTE NET在SUN RGB-D上实现了最先进的3D物体检测性能。3. 广泛的分析和可视化,以了解系统的各种设计选择2. 相关工作3D感测设备的进步已经导致设计用于识别和定位3D场景中的对象的方法激增。最相关的工作线是点云检测和完整RGB-D数据检测。我们还简要地讨论了一些额外的相关工作在该地区的多模态数据融合。使用点云进行3D物体检测。为了使用纯几何信息定位对象,一种流行的方法是基于模板匹配,直接使用干净的CAD模型集合[21,28,25]或通过提取的特征[44,2]。最近的方法是基于点云深度网络[35,56,20,41,33]。在3D场景理解的背景下,语义和实例分割也有很好的结果[53,4,9]。与我们的工作最相关的 是 PointRCNN [41] 和 Deep Hough Voting ( VOTENET)[33](与早期的Hough投票想法有关[47,50,16,15]),它们分别展示了室外和室内场景中最先进的3D对象检测。值得注意的是,这些结果是在没有使用的RGB输入。为了利用这些额外的信息,我们提出了一种方法,以进一步提高检测性能在这项工作中。使用RGB-D数据进行3D物体检测。深度和颜色通道都包含有用的信息,可以用于3D对象检测。用于融合这两种模态的现有方法大致分为三类:2D驱动,4406K×F沙发表…沙发沙发2D检测器表沙发投影2D要素点云网络N个点K种子…Kx3 KxF坐标点云特征几何线索语义线索质地提示图2. I M V OTE N ET的3D物体检测流水线。 给定RGB-D输入(深度图像转换为点云),模型最初有两个独立的分支:一个用于图像上的2D对象检测,另一个用于点云上的点云特征提取(使用PointNet++ [36]主干)。然后,我们将2D图像投票以及语义和纹理线索提升到3D种子点(融合部分)。然后,具有连接的图像和点云特征的种子点生成对3D对象中心的投票,并且还提出具有其特征的3D边界框(联合塔)。为了推动更有效的多模态融合,我们还有另外两个塔,它们只采用图像特征(图像塔)和点云特征(点塔)进行投票和框建议。3D驱动和功能连接。第一种类型的方法[19,34,6,52]从2D图像中的对象检测开始,然后用于引导3D中的搜索空间。通过3D驱动,我们指的是首先在3D中生成区域建议,然后利用2D特征进行预测的方法,例如深度滑动预测[45]。最近,更多的工作集中在融合2D和3D功能的早期过程中,如多模态Voxelnet [48],AVOD [18],多传感器[22]和3D-SIS [11]。然而,所有这些大多通过2D特征到3D特征的级联来执行融合。我们提出的方法与第三种类型更密切相关,但在两个重要方面与之不同。首先,我们建议明确使用来自2D检测器的几何线索,并以伪3D投票的形式其次,我们使用多塔架构[49]来平衡来自两种模式的特征,而不是简单地对级联特征进行训练。多模态融合学习。如何融合来自多模态的信号是3D目标检测以外的其他领域的一个开放式研究问题。3D场景的语义分割通常使用RGB和深度数据[10,27]。视觉和语言研究开发了对视觉数据和文本进行联合推理的方法[7,32,54],用于视觉问题回答[1,14]等任务。另一个活跃的研究领域是视频+声音[30,8],其中附加的音轨可以提供监督信号[31],或者提出有趣的任务来测试两个流的联合理解[55]。针对所有这些任务,提出了一种最新的梯度混合方法[49],以使多模态网络更鲁棒(对过拟合和不同的收敛速率),我们的方法也采用了这种方法。3. ImVoteNet架构我们基于最近提出的深度Hough投票框架(VOTENET[33]),通过将来自2D图像的几何和语义/纹理线索传递到投票过程(如图所示),设计了适合RGB-D场景的3D对象检测解决方案。2)。在本节中,在对原始VOTE NET管道进行简短总结之后,我们将描述如何在RGB上的2D检测器的帮助下构建最后,我们描述了我们的多塔架构,用于融合2D和3D检测与梯度混合[49]。更多的实施细节将在补充中提供。3.1. Deep Hough投票VOTENET[33]是一个前馈网络,它消耗3D点云并输出用于3D对象检测的对象建议受广义霍夫变换[3]的开创性工作的启发,VOTENET提出了一种将用于对象检测的投票机制适应于完全可微的深度具体地,它由点云特征提取模块组成,该点云特征提取模块利用高维特征(图1A的底部)来丰富场景点的二次采样集合(称为种子)2从N×3个输入点到K×(3+F)个种子)。然后,这些功能通过多层推送-Perceptron(MLP)生成投票。每一票都是3D空间中的点,其欧几里德坐标(3- dim)被监督为接近对象中心,以及针对最终检测任务学习的特征向量(F-dim)。的Kx(3+Kx(3+F+Kx(3+F)输出:3D框D:点云RGB:图像点塔(仅列车)连接塔(列车试验)成像塔(仅列车)4407- -投票在对象中心附近形成聚集的点云,然后由另一个点云网络处理以生成对象提议和分类得分。这个过程相当于图1中的流水线。2、仅用点塔,不进行图像检测和融合。VOTENET最近在RGB-D室内3D物体检测方面取得了最先进的成果[33]。然而,它仅仅基于点云输入,忽略了图像通道,正如我们在这项工作中所展示的,图像通道是非常有用的信息来源。在IM VOTE NET中,我们利用额外的图像信息,并提出了一个从2D投票到3D的提升模块,以提高检测性能。接下来,我们将解释如何在图像中获得2D投票,以及如何将其几何线索与语义/纹理线索一起提升到3D。Cp长度:zZOP长度:fC'YC图3. 伪3D投票的插图。在图中,P是3D中的表面点,C是未知对象中心,而p和c分别是它们在图像平面上的投影C′是联系我们3.2. 来自2D检测的我们根据来自2D检测器的一组候选框生成图像投票。一个图像投票,在其几何部分,是简单的一个矢量连接图像像素和2D对象边界框的中心,该像素属于(见图。1)。 每个图像投票也增加了来自其源像素,使得每个图像投票总共具有F′维伪3D中心,矢量PC′是伪3D投票。中心C=(x2,y2,z2)(3D点P的投票目标)。从P到C的真正3D投票是:#−−−−»PC=(x2− x1,y2− y1,z2− z1)。(一)假设具有焦距f的简单针孔相机1,2D投票可以写为:如图1中的融合块。二、为了形成给定RGB图像的框的集合,我们应用-#»pc=(u2-u1,v2 -v1)=(u,v)铺设现成2D检测器(例如,更快的R-CNN [38])x2x1y2y1(2)=(f(),f()).在RGB-D数据集的颜色通道上进行预训练。检测器输出M个最置信的边界框,z2z1z2z1相应的类。我们为检测到的盒子内的每个像素分配一个投票,投票给盒子中心。多个框内的像素被给予多个投票(对应的3D种子点被复制用于它们中的每一个),并且任何框外的那些像素被填充零。接下来,我们将详细介绍我们进一步假设表面点P的深度为类似于中心点C。 这是一个合理的解释。大多数物体在不接近摄像机时的运动然后,给定z1<$z2,我们计算PC′,我们是如何得到几何、语义和纹理线索的。几何线索:提升图像投票到3D的transla-#−−»PC′阿鲁=( z1,F∆v z1,0),(3)F常规2D投票为3D对象提供有用的几何提示本地化给定相机矩阵,图像平面中的2D物体中心变成3D空间中连接3D物体中心和相机光学中心的射线(图10)。1)。将此信息添加到种子点可以有效地将对象中心的3D搜索空间缩小到1D。详细地,如图所示在图3中,给定在图像平面中具有其检测到的2D边界框的3D对象,我们将3D对象中心表示为C,并且将其在图像上的投影表示为c。物体表面上的点P与其在图像位置中的投影点P相关联,因此知道到2D物体中心c的2D投票,我们可以将3D中心的搜索空间减小到射线OC上的1D位置。现在,我们推导出将光线信息传递到3D种子点所遵循的计算。在摄像机坐标系中定义P=(x1,y1,z1),在图像平面坐标系中定义p=(u1,v1),c=(u2,v24408我们称之为伪3D表决,因为C′位于射线OC上并且在C附近。该伪3D投票提供关于3D中心相对到点表面点P。为了补偿由深度近似(z1<$z2)引起的误差,我们将射线方向作为额外信息传递给3D表面点。在一些推导之后,由近似深度引起的误差(沿着X可表示为err x=x − x′= x2(z2− z1)。(四)z2#−−−−»因此,如果我们输入光线OC的方向:(x2/z2,y2/z2),网络应该有更多的信息1有关如何处理一般相机模型和相机到世界变换的更多详细信息,请参见补充材料。4409通过估计深度不同z=z2−z1。由于我们不知道3D物体中心C#−−,因此我们可以使用OC′的光线方向,它毕竟与OC对齐,其中预测2.尽管任何学习的具有空间维度(高度和宽度)的卷积特征映射都可以满足我们的目的,但默认情况下,我们仍然使用最简单的纹理特征,#−−»′#−−−−»#−−» ′直接馈送原始RGB像素值。 这又选择不仅是重量轻,而且还使我们的管道OC=OP+PC吉乌季夫(五)对可能引起偏差的图像神经网络不太敏感=(x1+z1,y1+Fz1,z1)。F实验上,我们表明,即使我们的语义和纹理线索的这种最低限度的选择,显着归一化并与伪投票连接,我们传递给种子点P的图像几何特征是:#−−»通过我们的多塔训练范例,可以实现仅几何VOTENET的性能提升,我们将在下面讨论。阿鲁(z1,F奥克拉荷马州z1,)。(六)füOC′′3.3. 特征融合和多塔训练具有提升的图像投票及其相应的语义和纹理线索(图中融合块中的K × F ′)。2)作为语义线索在几何特征之上,我认为只要用边界对于盒子,RGB可以提供的一种重要信息类型是传达对盒子内部内容的语义理解的这些信息通常补充了从3D点云中可以学到的内容,并且可以帮助区分几何上非常相似的类(例如表与表)书桌或床头柜与梳妆台)。鉴于此,我们提供了额外的区域级特征提取每个边界框作为语义线索的三维点。对于在2D框内投影的所有3D种子点,我们将表示该框的向量传递给该点。如果3D种子点落入多于一个的2D框(即,当它们重叠时),我们为每个重叠的2D区域复制种子点(最大数量为K)。如果一个种子点没有被投影到任何2D盒子上,我们只需要传递一个全零的特征向量来填充。重要的是要注意,这里的事实上,我们发现用一个简单的独热类向量(具有该类的置信度得分)表示每个框已经足以覆盖3D消歧所需的语义信息它不仅提供了一个轻量级的输入(例如,10-[46]第四十六话1024-dim [23]),表现良好,但也适用于所有其他竞争对手(例如,更快)2D检测器[37,26,24],不显式使用RoI,但直接输出分类分数。因此,我们默认使用此语义提示。与3D空间中稀疏分布的深度信息不同,RGB图像可以在2D中以密集的每像素级别捕获高分辨率信号。虽然区域特征可以为每个边界框提供高级的、语义丰富的表示,但是使用低级的、纹理丰富的表示作为另一种类型的线索是互补的,并且同样重要。这样的线索可以通过简单的映射传递到3D种子点:种子点从其二维空间的对应像素中获取像素特征,以及具有种子点K×F的点云特征,每个种子点可以生成3D投票并将其聚合以提出3D边界框(通过投票和支持,类似于[33]中的模块)。然而,优化深度网络需要格外小心,以充分利用来自所有模态的线索。正如最近的一篇论文[49]所提到的,如果没有谨慎的策略,与单一模态培训相比,多模态培训实际上可能导致性能原因在于,不同的模态可能以不同的速率学习解决任务,因此,在没有注意的情况下,某些特征可能主导学习并导致过度拟合。在这项工作中,我们遵循[49]中介绍的梯度混合策略来加权不同模态塔的梯度(通过加权损失函数)。在我们的多塔配方中,如图所示。2,我们有三个塔采取种子点与三套功能:仅点云特征、仅图像特征和关节特征。每个塔具有相同的检测3D对象的目标任务最终的训练损失是三个检测损失的加权和:L=w img L img +w点L点+w关节L关节。( 七)在图像塔内,虽然图像特征本身不能定位3D对象,但我们利用表面点几何形状和相机固有特性来获得伪3D投票,这些伪3D投票是对真实3D投票的有用近似。因此,将此图像几何线索与其他语义/纹理线索相结合,我们仍然可以仅使用图像特征在3D中定位对象。请注意,尽管多塔结构引入了额外的参数,但在推理时,我们不再需要仅计算点云和图像塔– therefore there is minimal computation2如果投影后的坐标是分数,则使用双线性插值。4410方法RGB浴缸床书架椅子书桌梳妆台床头柜沙发表厕所地图[45]第四十五话✓44.278.811.961.220.56.415.453.550.378.942.1[第39话]✓58.363.731.862.245.215.527.451.051.370.147.62D驱动[19]✓43.564.531.448.327.925.941.950.437.080.445.1[52]第五十二话✓37.368.637.755.117.223.932.353.831.083.845.4F-PointNet [34]✓43.381.133.364.224.732.058.161.151.190.954.0[33]第三十三话✗74.483.028.875.322.029.862.264.047.390.157.7+RGB✓70.082.827.673.123.227.260.763.748.086.956.3+区域特征✓71.786.134.074.726.034.264.366.549.788.459.6IM VOTE NET✓75.987.641.376.728.741.469.970.751.190.563.4表1. 3D object detection results on SUN RGB-D v1 val set. 评估指标为平均精度,3D IoU阈值为0.25,如[43]所述。请注意,COG[39]和2D驱动[19]都使用房间布局上下文来提高性能。评价基于SUN RGB-D v1数据进行公平比较。4. 实验在本节中,我们首先在具有挑战性的SUN RGB-D数据集上将我们的模型与以前的最先进方法进行比较(第二节)。4.1)。接下来,我们提供了检测结果的可视化,显示了图像信息如何帮助提高3D识别(第二节)。4.2)。然后,我们提出了一套广泛的分析实验,以验证我们的设计选择(第二节)。4.3)。最后,我们在非常稀疏的深度条件下测试了我们的方法,并证明了它的鲁棒性(Sec.4.4)在这种情况下。4.1. 与现有技术方法的基准数据集。我们使用SUN RGB-D [42,13,51,43]作为评估基准,这是一个用于3D场景理解的单视图3RGB-D 它包括10 KRGB-D图像,5 K用于训练。每个图像都用非模态定向的3D边界框进行注释。共标注了37个对象类别。根据标准评估协议[45],我们只训练和报告10个最常见类别的结果。为了将数据馈送到点云骨干网络,我们使用提供的相机参数将深度图像转换RGB图像与深度通道对齐,并用于从场景3D点查询对应的图像区域。方法比较。我们比较IM VOTE NET与以前的方法,同时使用几何和RGB。此外,由于先前的最新技术水平(VOTENET[33])仅使用几何信息,为了更好地理解由于我们提出的融合和梯度混合模块而带来的改进,我们通过使用来自图像的附加特征扩展基本VOTENET来添加两个更强的基线在 先 前 为 RGB-D 设 计 的 方 法 中 , 2D 驱 动 [19] 、PointFusion [52]和F-PointNet [34]都是依赖2D探测器提供3D探测的级联系统。[45]第四十五话:一个女人3我们不像VOTE NET那样在ScanNet数据集[5]上进行评估,因为ScanNet涉及每个重建场景的多个2D视图-因此需要额外的R-CNN [38]风格的3D CNN网络从体素输入生成3Dpropos- als,然后结合3D和2DRoI特征进行框回归和分类。COG [39]是一种基于滑动形状的检测器,使用从RGB-D数据中提取的3D HoG样特征。至于VOTENET[33]的变体,第一个对于第二个这两种变体也可以被视为我们方法的消融结果表1显示了SUN RGB-D上的我们可以看到,我们的模型优于所有以前的方法大幅度。特别是,它提高了以前最好的模型VOTE N ET5.7 mAP,显示了提升的2D图像投票的有效性。它在几乎所有类别上都得到了更好的结果,并且在经常被包含的对象类别(书架为+12.5AP)或几何上与其他对象相似的对象类别(梳妆台为+11.6 AP和床头柜为+7.7 AP)上有最大的改进与同样使用RGB数据的VOTENET实际上,我们发现,天真地将RGB值附加到点特征会导致更差的性能,这可能是由于RGB值的过度拟合。添加区域特征作为一个单一的得分向量有一定的帮助,但与我们更系统地利用图像投票的方法相比,仍然是4.2. 定性结果和讨论在图4中,我们突出显示了原始VOTE NET [33](仅具有点云输入)和具有点云加图像输入的IMVOTE NET第一个示例显示2D对象定位4411我们的2D检测我们的3D检测VoteNet地面实况沙发书架椅子桌子书桌图4. 定性结果显示图像信息如何帮助。 第一行:书架是由I M V OTE N ET检测到的,这要归功于2D检测器的提示;第二行:黑色沙发由于其材质而几乎没有任何深度点,但利用图像,我们可以检测到它;第三行:利用2D定位线索和语义,我们检测到后面的桌子和椅子,这些桌子和椅子甚至被地面实况注释错过。最佳的彩色观看放大。语义帮助我们看到一个杂乱的书架,被VOTE NET错过了,但由于图像中的2D检测,我们有足够的信心在我们的网络中识别它。图像语义还帮助我们的网络避免了像VOTENET输出中的假阳性椅子第二个例子展示了图像如何补偿深度传感器的限制。由于黑色沙发的颜色和材料,几乎没有捕捉到任何深度点。虽然V OTE NET完全错过了沙发,但我们的网络能够把它捡起来。第三个例子展示了图像线索如何通过重新覆盖在地面实况注释中甚至被遗漏的远处物体(后面的桌子和椅子)来推动3D检测性能的极限4.3. 分析实验在本小节中,我们展示了对我们的设计选择进行的广泛消融研究,并讨论了不同模块如何影响模型性能。对于所有实验,我们如前所述在SUN RGB-D上报告mAP@0.25几何线索分析。为了验证从2D投票中提取的几何线索有帮助,我们消融了几何特征(如等式2所示)。6)传递到表2a中的3D种子点。我们看到,从第1行到第3行,不使用任何2D几何提示导致2.2点下降。另一方面,不使用射线角度导致1.2点下降,表明射线角度有助于为伪3D投票提供校正提示。语义线索分析。表2b示出了来自2D图像的不同类型的区域特征如何影响3D检测性能。我们看到,one-hot类得分向量(检测到的类的概率得分,其他类设置为0)虽然简单,但会导致最佳结果。直接使用来自FasterR-CNN网络的1024-dimRoI特征实际上得到了最差的数字,这可能是由于将此高亮度特征与静止点特征融合的优化挑战。将1024-dim功能减少到64-dim有所帮助,但仍然不如简单的one-hot score功能。纹理线索分析。表2c显示了不同的低级别图像特征(纹理特征)如何影响最终检测性能。很明显,原始RGB特征已经有效,而更复杂的每像素CNN特征(来自Faster R-CNN检测器的特征金字塔[23更多细节见补充材料。4412几何线索地图(a) 2D几何线索的消融研究。2D vote是指提升的2Dvote(2-dim)a sε−i− −n− −»Eq. 射线角是指OC′(3-6)的方向。dim)。这两个几何线索都有助于我们的模型。(b) 2D语义线索的消融研究。对不同的区域特征进行了实验。这包括简单的单一热门类得分向量和丰富的ROI功能。前者(默认)效果最好。(c) 2D纹理线索的消融研究。我们使用不同的像素级特征(包括RGB值(默认值))进行了实验,并从特征金字塔中学习表2.2D线索上的消融分析我们对所有类型的2D特征进行了详细分析(参见第3.2详细说明)。塔重地图点云设置地图wimgw点W形接头图像点云联合-46.857.462.10.10.80.146.957.862.70.80.10.146.858.263.30.10.10.846.156.862.70.30.30.446.657.963.4采样方法点数点云联合∆随机均匀20k57.763.4+5.75k1k56.249.661.758.5+5.5+8.9ORB [40]5k1k32.427.949.947.1+16.5+19.2表3. 多塔训练分析。在第一个块中,我们显示了没有灰色混合的性能。然后,我们展示了每个塔支配(0.8)整体训练的设置。最后,我们展示了权重更加平衡的默认设置。渐变混合。表3研究了塔权重如何影响梯度混合训练。我们使用几组代表性重量进行消融,范围包括单塔训练(第一行)、各塔的主要重量(第2至第4行)和我们的最佳设置。有趣的是,即使只有图像特征(第1行,第4列),即从图像中的伪投票和语义/纹理线索,我们已经可以胜过几种复杂的方法(见表1),显示了我们的融合和投票设计的能力4.4. 稀疏点云的检测虽然深度图像为场景提供密集的点云(通常为10k到100k个点),但也有其他场景,只有稀疏的点可用。一个示例是当通过视觉里程计[29]或运动结构(SfM)[17]计算点云时,其中通过估计多个视图中单目相机的姿态来对3D点位置进行三角测量。利用这样的稀疏数据,具有仍然可以实现良好检测性能的系统为了分析我们的模型与稀疏点云的潜力,我们通过两种类型的点子采样来模拟具有更少点的扫描:均匀随机子采样(以均匀分布删除现有点)和ORB [40]基于关键点的子采样(sam-表4. 稀疏点云实验,我们通过随机均匀采样或ORB关键点对云 中 的 点 进 行 子 采 样 [40] 。 在 这 种 情 况 下 , 我 们 的IMVOTENET明显优于纯粹基于几何的VOTENET。将ORB关键点放在图像上,只保留投影在这些2D关键点附近的3D点)。在表4中,我们呈现了具有不同分布和密度的点云输入的检测结果我们看到,在“点云”列另一方面,我们看到包括图像线索显着提高性能。当采样点来自更不均匀分布的ORB关键点时,这种改进最为显著。5. 结论在这项工作中,我们已经探索了图像数据如何可以作为一个基于投票的3D检测流水线。我们构建的VOTENET我们已经证明,我们的新网络,IMVOTENET,可以利用现有的图像检测器,以可以集成到3D投票管道中的格式提供关于对象的几何和语义/纹理信息。具体来说,我们已经展示了如何使用相机参数和像素深度的知识将2D几何IMVOTENET利用梯度混合的多模态训练显著提升3D对象检测性能,尤其是在点云稀疏或分布不利的情况语义线索地图区域特征#dims独热得分1063.4[38]第三十八话64102462.459.5✗-58.9质地提示地图像素特征#dimsRGB363.4[23]第二十三话FPN-P325625662.062.0✗-62.4二维投票光线角度✓✓63.4✓✗62.2✗✗61.24413引用[1] Stanislaw Antol , Aishwarya Agrawal , Jiasen Lu ,Margaret Mitchell,Dhruv Batra,C Lawrence Zitnick,and Devi Parikh.Vqa:可视化问答。在ICCV,2015年。3[2] Armen Avetisyan , Manuel Dahnert , Angela Dai ,Manolis Savva , Angel X. Chang 和 Matthias Nießner 。Scan 2cad : 学 习 rgb-d 扫 描 中 的 cad 模 型 对 齐 。 在CVPR,2019年。2[3] 达纳·H·巴拉德。推广霍夫变换检测任意形状。Patternrecognition,13(2):111-122,1981. 3[4] Christopher Choy,JunYoung Gwak,Silvio Savarese.4D时空卷积:Minkowski卷积神经网络。arXiv预印本arXiv:1904.08755,2019。2[5] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet:室内场景的丰富注释3D重建。在CVPR,2017年。6[6] Zhuo Deng和Longin Jan Latecki。3d物体的非模态检测在CVPR,第2卷,2017年。3[7] Akira Fukui , Dong Huk Park , Daylen Yang , AnnaRohrbach,Trevor Darrell,and Marcus Rohrbach.多模态紧凑双线性池的视觉问题回答和视觉接地。arXiv预印本arXiv:1606.01847,2016。3[8] Ruohan Gao和Kristen Grauman。2.5 d视觉声音。在CVPR,2019年。3[9] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。基于子流形稀疏卷积网络的三维语义分割。在CVPR,2018年。2[10] Alexander Hermans,Georgios Floros,and Bastian Leibe.基于rgb-d图像的室内场景密集三维语义映射2014年IEEE机器人与自动化国际会议(ICRA),第2631-2638页。IEEE,2014。3[11] Ji Hou , Angela Dai , and Matthias Nießner.3D-SIS :RGB-D扫描的3D在CVPR,2019年。二、三[12] 保罗·VC·霍夫。气泡室照片的机械分析。在会议过程中,1959年。2[13] Allison Janoch , Sergey Karayev , Yangqing Jia ,Jonathan T Barron , Mario Fritz , Kate Saenko , andTrevor Darrell.一个类别级的3D对象数据集:让kinect工作。在ICCV研讨会(ICCV研讨会),2011年。6[14] Justin Johnson , Bharath Hariharan , Laurens van derMaaten , Li Fei-Fei , C Lawrence Zitnick , and RossGirshick.Clevr : A diagnostic dataset forcompositelanguage and elementary visual reasoning.在CVPR,2017年。3[15] Jan Knopp,Mukta Prasad,and Luc Van Gool.基于霍夫变换的方向在3D对象检索的ACM研讨会论文集,第15-20页ACM,2010年。2[16] Jan Knopp,Mukta Prasad,Geert Willems,Radu Rifte,and Luc Van Gool.用于稳健三维分类的霍夫变换和三维冲浪。在ECCV。2010. 2[17] Jan J Koenderink和Andrea J Van Doorn。运动仿射JOSAA,8(2):377-385,1991. 84414[18] Jason Ku 、 Melissa Mozifian 、 Jungwook Lee 、 AliHarakeh和Steven L Waslander。从视图聚合联合生成3d建议和对象检测。在IROS。IEEE,2018年。二、三[19] Jean Lahoud和Bernard Ghanem。RGB-D图像中的2D驱动的3D对象检测。在CVPR中,第4622-4630页,2017年。二、三、六[20] Alex H Lang,Sourabh Vora,Holger Caesar,LubingZhou,Jiong Yang,and Oscar Beijbom.点柱:用于从点云中检测物体的快速编码器。在CVPR,2019年。2[21] Yangyan Li , Angela Dai , Leonidas Guibas , andMatthias Nießner.实时三维重建的数据库辅助对象检索。在计算机图形论坛,第34卷。Wiley Online Library,2015. 2[22] Ming Liang,BinYang,Shenlong Wang,and RaquelUrtasun.多传感器三维目标检测的深度连续融合在ECCV中,第641-656页,2018年。3[23] 林宗义、彼得·多尔、罗斯·格希克、何嘉明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在CVPR,2017年。五七八[24] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。InICCV,2017.5[25] 或 Litany , Tal Remez , Daniel Freedman , LiorShapira,Alex Bronstein和Ran Gal。自动语义不变场景变换. CVIU,157:284-299,2017。2[26] Wei Liu , Dragomir Anguelov , Dumitru Erhan ,Christian Szeg