没有合适的资源?快使用搜索试试~ 我知道了~
Yongming Rao1*, Benlin Liu2,3*, Yi Wei1, Jiwen Lu1†, Cho-Jui Hsieh2, Jie Zhou1raoyongming95@gmail.com; liubl@cs.washington.edu; wziyi20@mails.tsinghua.edu.cn;chohsieh@cs.ucla.edu; {lujiwen, jzhou}@tsinghua.edu.cn132830RandomRooms:基于合成形状和随机布局的无监督预训练用于3D目标检测01 清华大学,2 UCLA,3 华盛顿大学0摘要0近年来,3D点云理解取得了巨大的进展。然而,一个主要的瓶颈是真实数据集的稀缺性,特别是与2D目标检测任务相比,因为标注场景的真实扫描需要大量的人力。解决这个问题的一个有希望的方法是更好地利用合成数据集,该数据集由CAD对象模型组成,以提高对真实数据集的学习。这可以通过预训练和微调的过程来实现。然而,最近关于3D预训练的工作在将在合成对象上学习的特征转移到其他真实世界应用时表现出失败。在这项工作中,我们提出了一种名为RandomRooms的新方法来实现这个目标。具体而言,我们建议通过利用合成CAD数据集中的对象生成场景的随机布局,并通过对从相同一组合成对象生成的两个随机场景应用对象级对比学习来学习3D场景表示。以这种方式预训练的模型在后续的3D目标检测任务上可以作为更好的初始化。经验证明,在几个基础模型上,在使用较少的训练数据时,我们的方法在下游3D检测任务中始终显示出一致的改进,这强烈证明了我们方法的有效性和泛化性。由于来自合成数据的丰富语义知识和多样化对象,我们的方法在广泛使用的3D检测基准ScanNetV2和SUNRGB-D上建立了新的最先进技术。我们期望我们的尝试为桥接对象和场景级3D理解提供一个新的视角。01. 引言0* 平等贡献。† 通讯作者。0RandomRooms0合成对象伪场景0图1:RandomRooms的主要思想。为了生成两个不同的布局,我们在矩形房间中随机放置从合成数据集中采样的相同对象集。通过提出的对象级对比学习,预训练在这些伪场景上的模型可以作为下游3D目标检测任务的更好初始化。0强大模型的出现使我们能够在许多点云任务上取得重大突破,从物体级别的理解任务[24, 53, 27,29]到场景级别的理解任务,如3D目标检测[45, 59, 28,44]和3D语义分割[25, 62, 21, 4,19]。这些场景级别的任务被认为比物体级别的任务(如形状分类)更复杂、更重要,因为它们通常需要更高层次的理解。3D点云场景理解中最重要的任务之一是3D目标检测,其目标是在场景的点云中定位感兴趣的对象并确定它们所属的类别。然而,阻碍研究人员前进的一个主要瓶颈是缺乏大规模的真实数据集,考虑到收集和标注高质量的3D场景数据的困难。与我们用于2D目标检测任务的大规模标注真实数据集COCO[30]相比,我们用于3D目标检测任务的真实数据集规模要小得多,并且生成一个32840合成场景数据集在建模和渲染方面也需要大量的工作量。一种首选的解决方案是利用合成CAD物体模型来帮助学习3D物体检测器,因为访问这种类型的数据要容易得多。考虑到我们对合成CAD数据没有边界框的注释,这个想法可以通过与2D视觉任务的无监督预训练类似的方式来实现,其中我们首先在大规模数据集上进行无监督预训练,然后在较小的带注释数据集上进行微调。然而,大多数先前的工作都集中在单个物体级任务的预训练上[31, 58, 6, 11,40],例如重建、形状分类或部分分割,或者一些低级任务,如配准[6, 61,10]。最近的一项工作[57],即PointContrast,首次探索了在更高级别的场景理解任务中进行预训练的可能性,即3D检测和分割的3D表示学习。然而,他们在真实场景数据集上进行预训练,并在ShapeNet[1]上的骨干模型进行预训练时提供了一个失败案例,该数据集包含合成CAD物体模型。他们将这次不成功的尝试归因于两个原因,即真实数据和合成数据之间的领域差距以及直接在单个物体上进行训练无法捕捉到点级表示的不足。尽管存在这些困难,但仍然希望使ShapeNet在2D视觉中扮演ImageNet的角色,因为很容易获得大量的合成CAD模型。在这项工作中,我们提出了一个新的框架,展示了在下游3D物体检测任务的微调之前,使用合成CAD模型数据集(即ShapeNet)进行3D预训练的可能性。为此,我们提出了一种名为RandomRoom的方法。具体而言,我们建议使用从ShapeNet数据集中随机采样出的一组物体生成两个不同的布局。通过这两个由相同一组物体组成的场景,我们可以在物体级别上执行对比学习,以学习3D场景表示。与PointContrast[57]在点级别上执行对比学习不同,我们的方法具有两个优势。一是消除了两个视图之间点对应的要求,在PointContrast框架中是不可或缺的,因为需要利用这些信息来获取对比学习的正负对。这个要求限制了PointContrast的应用范围,因为像ShapeNet这样的CAD模型数据集和许多其他真实世界数据集,如SUN RGB-D[47],无法提供这样的信息。另一个优势是我们的方法可以支持更多样化的骨干模型。大多数在3D物体检测等任务上的最先进模型[34, 35, 44]都将PointNet++[38]风格的模型作为其骨干,将其替换为Sparse0Res-UNet可能会导致准确性下降,根据PointContrast的说法。然而,由于在PointNet++中每个抽象级别之后可能会丢失点对应关系,PointContrast无法很好地支持PointNet++风格模型的预训练。通过提出的RandomRoom,我们能够在物体级别上执行对比学习,从而更好地支持类似PointNet++的模型的预训练,因为我们不再需要像PointContrast那样保持点对应关系进行对比学习。我们的方法简单而有效。我们在只有几何信息可用作输入的3D物体检测任务上进行实验,因为CAD数据集中的模型不包含颜色信息。经验研究的结果强烈证明了我们方法的有效性。特别是,我们在两个广泛使用的基准数据集ScanNetV2和SUN-RGBD上实现了3D物体检测的最新技术水平。此外,我们的方法在使用更少的训练样本时可以实现更大的改进,表明我们的模型可以为3D物体检测学习更好的初始化。02. 相关工作03D深度学习。3D深度学习[22, 40, 45, 59,0[28, 44, 19, 52,54]近年来引起了广泛关注,特别是在3D点云分析方面[37,38, 24, 53, 27, 29]。作为先驱工作,PointNet[37]将深度学习引入到3D点云分析中。通过最大池化层,它能够直接操作无序集合。作为后续工作,PointNet++[38]使用PointNet作为基本模块来逐层提取特征。与[37,38]不同,PointNet++的许多其他变体也被设计用来进一步提高特征容量[24,49]。由于这些架构,许多3D应用程序取得了重大进展[24,53, 27, 29, 44, 35, 19,52]。作为数据驱动的方法,这些工作要么使用对象级合成训练数据,要么利用来自真实场景的点云。通过探索合成和真实世界数据集的巨大潜力,我们的方法弥合了对象级和场景级3D理解之间的差距。03D目标检测。由于广泛的现实世界应用,越来越多的工作[45, 59, 28, 44, 19, 52,57]关注于3D场景理解。作为一项基础的3D任务,3D目标检测侧重于在3D空间中检测物体的紧密边界框问题。F-PointNet[36]通过预测视锥中的点的3D边界框,实现了对小物体的高效率和高召回率。它还可以处理强遮挡或非常稀疏的点的情况。VoteNet[35]受Hough投票过程的启发,利用投票机制捕捉物体中心周围的场景上下文。基于VoteNet,H3DNet [63]32850对象级对比学习0合成对象骨干网络0共享权重0� !0�"0� !0�"0RandomRooms0图2:我们框架的概述。给定从合成数据集中随机采样的对象,通过对象增强、布局生成和场景增强构建一对伪场景。我们在两个对应的随机房间上使用共享权重对模型进行预训练。提出了一种对象级对比学习(OCL)方法来帮助网络学习有区分性的表示。0预测不同几何基元的模态并将其聚合以生成最终的3D边界框。H3DNet利用混合特征实现了最先进的性能。然而,这些3D场景理解方法主要利用来自3D传感器的真实数据。相反,我们的方法旨在将合成数据集中的语义知识引入高级3D理解任务中。0模型预训练。预训练是许多机器学习任务的常见做法,从视觉[57, 2, 17, 3, 51, 13]到NLP任务[33, 39, 20,8]。在2D视觉领域,预训练通常在ImageNet[7]上进行,具有完全监督,然后可以在检测[13, 41,12]等下游任务上微调预训练的骨干模型。最近,对ImageNet [2, 17,3]进行无监督预训练已被证明是有效的。与2D视觉相比,对3D视觉任务的探索较少。以前,大多数3D预训练方法要么专注于单个对象级别的任务,如分类、重建和部分分割[58,11, 40, 16],要么专注于一些低级的3D任务,如配准[6, 61,10]。直到最近的一项工作[57],才开始研究用于检测和分割等更高级别的3D场景理解任务的预训练,该工作利用点对应关系以无监督的方式学习表示。与他们相比,我们的方法可以在ShapeNet等合成CAD数据集上进行预训练,并支持更多类型的骨干模型。03. RandomRooms0在本节中,我们描述了提出的RandomRooms方法的详细信息。我们首先简要回顾现有的对比表示学习方法,并在第3.1节中说明我们方法的直觉。然后,我们描述如何使用合成对象构建随机0在3.2节中,我们展示了我们的预训练任务,从伪场景中学习场景级表示。我们的框架概述如图2所示。03.1. 对比学习概述0我们首先回顾现有的用于2D和3D理解的对比表示学习方法,以说明我们方法的动机。对比学习是最近几种无监督学习方法的核心,它在2D [56, 18, 50, 17, 3, 2, 14, 51]和3D[57,40]任务上表现出有希望的性能,并且作为一种新型的预训练方法,展示了令人印象深刻的泛化能力。对比学习的关键要素是构建正样本和负样本对以学习判别性表示,这继承了度量学习文献中传统对比学习的思想[15]。给定输入x及其正样本x+和一组负样本{xi},对于对比表示学习的常用训练目标基于InfoNCE [18, 50]:0L对比 = -log exp(φ(0i exp( φ ( x ) ∙ φ ( x i ) /τ),(1)0其中φ是将输入映射到特征向量的编码器网络,τ是一个温度超参数,遵循[56, 17,2]。直观地说,对比学习方法通过鼓励同一样本的不同视图的特征彼此靠近并与其他样本可区分来监督模型[46,43]。因此,正样本和负样本的质量是学习编码器的关键因素。由于在无监督学习场景中没有类别注释,常见做法[9,56, 17]是使用输入的不同增强作为正样本Compared to ScanNetV2 [5], which contains ∼15kobjects from 17 categories, synthetic shape datasets likeShapeNet [55] provide a more plentiful source for 3D un-derstanding.For example, ShapeNetCore [55] contains∼52k objects from 55 categories). Therefore, the primarygoal of this paper is to study how to use synthetic CADmodels collected by ShapeNet to improve downstream taskslike 3D detection and segmentation on real-world datasets.Previous work [57] shows that directly pre-trainingon ShapeNet will not yield performance improvement ondownstream detection and segmentation task. We suspectthe main reason is the domain gap between the single objectclassification task on ShapeNet and the multiple objects lo-calization task on real-world datasets. In order to bridge thegap, we propose to generate pseudo scenes (we name them32860(a)(b)0图3:随机选择的一些随机房间示例(a)和来自ScanNetV2的场景(b)。0对于3D理解,虽然这种设计在图像表示学习中已被证明是有效的,但我们认为构建正样本对于3D理解来说有更好的解决方案。2D和3D数据之间的一个基本区别是像素的空间结构不反映对象的实际几何结构,而3D数据中的空间结构始终忠实地反映了现实世界中的布局。这个特性表明,与2D图像相比,操作或增强3D数据可能更容易。受计算机图形学中的渲染技术的启发,我们提出通过随机操作场景中的3D对象的布局来生成3D场景的正样本对。由于在这个过程中我们只需要3D对象而不是整个场景,我们的方法使得使用3D对象模型来促进场景级表示学习成为可能。值得注意的是,最近的一项工作,即PointContrast[57],通过使用来自不同视角的3D点云作为正样本进行了3D对比表示学习,其中设计了一种点级对比损失。该方法基于ScanNetV2[5]中提供的多视图点云序列。相反,我们的方法侧重于利用更容易收集和具有更多类别的对象级3D数据。03.2. 从合成对象生成随机房间0从合成对象中生成随机房间,构建对场景级理解有帮助的训练数据。给定一组随机采样的对象,我们通过以下三个步骤生成随机房间:0• 对象增强:首先,我们将对象调整为[0.5m,2.0m]范围内的随机大小,以确保对象的大小与ScanNetV2中的对象相似。然后,我们应用常用的对象点云增强技术[37, 38, 32],包括旋转、点云删除、抖动。0•布局生成:为了方便实现,我们将对象放置在一个矩形房间中。房间的大小根据增强对象的整体面积自适应调整。布局基于两个简单原则生成:1)不重叠:任何两个对象不应占据房间中的相同空间;2)重力:对象不应漂浮在空中,较大的对象不应放在较小的对象上方。我们按照面积的降序放置对象。受到Tetris的启发,对于每个对象,我们首先在X-Y平面上随机选择一个满足上述原则的位置,然后根据该位置的当前最大高度确定位置的Z值。如果位置的当前最大高度超过2m,则不会放置对象。0•场景增强:最后,我们对整个场景应用数据增强技术,如绕Z轴旋转、点云删除、抖动。为了使生成的场景更接近真实场景,我们还添加了地板和墙壁作为混淆因素。0随机房间的一些示例如图3所示。03.3. 从随机房间中学习表示0为了利用生成的随机房间,我们设计了一种对象级对比学习(OCL)方法,可以在没有类别注释的情况下学习判别性表示。给定n个随机采样的对象{x1, x2, ...,xn},我们首先分别通过上述步骤生成两个随机房间RA ={xA1, xA2, ..., xAn}和RB = {xB1, xB2, ...,xBn}。然后,我们使用点云编码器-解码器网络M(例如PointNet++ [38]与特征传播层)提取两个场景FA =M(RA)和FB =M(RB)的每个点的特征。由于随机房间由多个单独的对象构成,实例标签可以自然地定义。对象级对比学习的目标是利用实例标签作为免费且丰富的监督信号,为点云理解训练丰富的表示。为了获得每个对象的特征,我们对属于该对象的每个点的特征应用平均池化操作A:01 https://en.wikipedia.org/wiki/Tetrisτ),(2)32870与对比学习中的常见做法[3,2]类似,然后将对象特征投影到单位超球面上,使用多层感知机网络(MLP)进行L2归一化。对象级对比学习目标可以表示为:0{h A1, h A2, ..., h An} = A(F A), {h B1, h B2, ..., h Bn} =0n0L OCL = -10-10f ∈ F exp(f Ai ∙ f/τ)0n0n0i = 1 log exp(f Bi ∙ f Ai /τ)0其中,f Ai = ϕ(h Ai),f Bi = ϕ(h Bi)分别是R A和RB中第i个对象的投影特征,ϕ是投影头,F是批次中所有投影特征的集合。与PointContrast[57]中的点级对比学习任务相比,我们的方法通过RandomRooms的生成机制进一步利用了实例级知识。我们认为对象级对比学习引入了更多的语义知识,对下游的定位任务更有帮助(表5b中可以找到一些经验证据)。04. 实验0表示学习的一个主要目标是学习可以转移到下游任务的表示。为了将我们的RandomRooms方法应用于场景级别的理解任务,如3D目标检测,我们采用了无监督预训练+监督微调的流程[17,57]。具体而言,我们首先在ShapeNet上使用我们的方法对骨干模型进行预训练,然后使用预训练的权重作为初始化,并在下游3D目标检测任务上进一步微调模型。04.1. 预训练设置0我们在ShapeNet[1]上进行预训练,ShapeNet是一个由55个常见类别的对象的3DCAD模型表示的丰富注释形状数据集。为了生成随机房间,我们首先需要从数据集中随机采样多个对象。我们采样的对象数量是从12到18的随机整数,这与ScanNetV2场景中对象的平均数量相似。然后对于每个采样的对象,我们执行第3.2节中提到的随机房间生成算法。对象级对比学习损失用于以无监督的方式训练模型。0对于下游的3D目标检测任务,我们使用[35]和[63]中提出的骨干模型,输入为40,000个点。按照这两个工作中的网络配置,我们使用1024点特征作为骨干模型的输出,并对该特征进行对比学习。在预训练过程中,我们使用Adam优化器[23],初始学习率为0.001。我们训练模型共300个epoch,学习率在第100个和第200个epoch时乘以0.1。批量大小设置为16,以便每次迭代中大约涉及200�300个唯一对象的对比学习。04.2. 3D目标检测0数据集。我们在两个广泛使用的3D检测基准数据集ScanNetV2 [5]和SUN-RGBD[47]上进行实验。ScanNetV2是一个丰富注释的室内场景3D重建网格数据集。它包含1,513个经过扫描和重建的真实场景,包括18个不同类别的各种大小和形状的对象。目前,它是使用轻量级RGB-D扫描过程创建的最大数据集。然而,与2D视觉数据集相比,它的规模仍然要小得多。我们按照[35,5]的方法将整个数据集分为两个子集,分别用于训练和测试,其中训练集包含1,201个场景,测试集包含312个场景。SUN-RGBD是一个用于3D场景理解的单视图RGB-D数据集。它包含10,335个室内RGB和深度图像,带有对象边界框和每点语义标签,包括10个不同类别的对象。我们严格按照[35,5]中描述的划分方式,使用5,285个样本作为训练数据,5,050个样本作为测试数据。0检测模型。我们将我们的方法与最近提出的两种最先进的方法进行比较:一种是VoteNet[35],它是一个仅使用几何信息的检测器,结合了深度点集网络和投票过程;另一种是H3DNet,它预测一组混合的几何基元。它们都以无颜色的3D点云作为输入。我们还将GSPN [60]、3D-SIS [19]、DSS [48]、F-PointNet[36]、2D-Driven[26]和梯度云(COG)[42]等使用其他类型信息进行目标检测的方法纳入比较。0实现细节。我们通过改进VoteNet和H3DNet来展示我们方法的有效性。我们在训练开始时将预训练部分加载到模型中,并遵循它们的训练设置。具体而言,我们总共训练模型360次迭代。初始学习率分别为1e-2和1e-3,用于ScanNetV2和SUN-RGBD。我们使用3DIoU阈值为0.25和0.5的mAP评估性能。有关实验设置的更多详细信息,请参考原始论文。0ScanNetV2。我们首先在表1中报告mAP@0.25的结果以及所有语义类别的AP@0.25。32880表1:ScanNetV2验证集上的3D物体检测结果。报告了IOU阈值为0.25时每个类别的平均精度(AP)。我们还展示了在IOU阈值为0.25时所有语义类别的平均AP。0输入 cab bed chair sofa tabl door wind bkshf pic cntr desk curt fridg showr toil sink bath ofurn mAP03DSIS-5[ 19 ] 几何+RGB 19.8 69.7 66.2 71.8 36.1 30.6 10.9 27.3 0.0 10.0 46.9 14.1 53.8 36.0 87.6 43.0 84.3 16.2 40.2 3DSIS[ 19 ] 几何 12.8 63.1 66.0 46.3 26.9 8.0 2.8 2.3 0.06.9 33.3 2.5 10.4 12.2 74.5 22.9 58.7 7.1 25.40Votenet[ 35 ] 几何 36.3 87.9 88.7 89.6 58.8 47.3 38.1 44.6 7.8 56.1 71.7 47.2 45.4 57.1 94.9 54.7 92.1 37.2 58.6 我们 + VoteNet 几何 37.2 87.4 88.9 89.8 61.9 45.3 42.6 53.5 7.851.7 67.2 53.5 54.0 66.4 96.8 62.6 92.0 43.6 61.30H3DNet[ 63 ] 几何 49.4 88.6 91.8 90.2 64.9 61.0 51.9 54.9 18.6 62.0 75.9 57.3 57.2 75.3 97.9 67.4 92.5 53.6 67.2 我们 + H3DNet 几何 53.6 89.7 92.1 90.1 71.5 58.2 54.2 53.016.6 60.5 79.1 56.1 58.1 85.0 98.8 71.1 89.5 57.4 68.60表2:ScanNetV2验证集上的3D物体检测结果。我们展示了所有语义类别在3DIoU阈值为0.25和0.5时的平均精度(mAP)。0输入 mAP 25 mAP 500DSS[ 48 ] 几何 + RGB 15.2 6.8 F-PointNet[ 36 ]几何 + RGB 19.8 10.8 GSPN[ 60 ] 几何 + RGB 30.617.7 3D-SIS [ 19 ] 几何 + 5视角 40.2 22.50PointContrast [ 57 ] 仅几何 58.5 38.00VoteNet [ 35 ] 仅几何 58.6 33.5 我们 + VoteNet仅几何 61.3 36.20H3DNet [ 63 ] 仅几何 67.2 48.1 我们 + H3DNet仅几何 68.6 51.50在预训练的基础上,我们分别提高了VoteNet和H3DNet的mAP分别为2.6个百分点和1.4个百分点。这些结果表明我们的预训练确实可以提高高级检测任务的微调。此外,在18个类别中,有11个类别的平均精度有所提高。这表明预训练可以提升大多数常见类别的检测效果。我们进一步报告了mAP@0.5的结果,这是一个更困难的指标,并在表2中与其他利用颜色信息的3D物体检测方法进行了比较。无论是mAP@0.25还是mAP@0.5指标,我们的方法都达到了最先进的水平。特别是对于mAP@0.5,改进甚至大于mAP@0.25,即我们分别在VoteNet和H3DNet上提高了2.7个百分点和3.4个百分点。这表明我们可以在提出的预训练策略的帮助下获得更准确的边界框预测。0SUN RGB-D。我们还在SUNRGB-D上进行了实验。我们在表3中报告了结果。通过预训练,我们再次达到了最先进的水平。对于mAP@0.25,我们分别提高了VoteNet和H3DNet的1.5个百分点。对于mAP@0.5,我们分别提高了VoteNet和H3DNet的2.5个百分点和4.1个百分点。这一结果再次说明我们的方法可以预测出更准确的边界框。至于每个类别的平均精度,有7个类别的改进是可观察到的。0较少的训练数据。为了证明我们的方法确实可以通过预训练学习到更好的初始化,我们进一步使用较少的训练数据进行实证研究。我们在ScanNetV2数据集的训练数据中使用了5%、10%、25%和50%。如表4所示,即使在这种少样本情况下,改进仍然明显,特别是在mAP@0.25方面。当使用更少的数据时,mAP@0.25的改进甚至更大。值得注意的是,当我们使用少于10%的训练数据时,mAP@0.25的改进超过5个百分点。另一方面,与mAP@0.25相比,mAP@0.5的改进几乎没有变化。这表明我们的预训练方法可以帮助下游高级任务的模型在数据较少时实现更好的场景粗略理解。但是,为了获得更准确的理解,我们仍然需要使用带注释的监督学习。0消融研究。在表5中,我们进行了三组消融研究。所有这些消融研究都是在ScanNetV2数据集上使用VoteNet作为骨干网络进行的。我们使用mAP@0.25作为评估指标。我们首先研究了进行预训练的数据集的选择。从表5a中,我们可以观察到在ShapeNet或ScanNetV2上进行预训练都可以提高性能。然而,由于ShapeNet具有更大的规模,即来自更多不同类别的更多样本,与ScanNetV2相比,对其进行预训练可以取得更好的结果。此外,我们展示了结合两个数据集来帮助预训练的可能性。通过拥有两个数据集中的对象,我们可以实现比使用单个数据集更好的微调结果。然后,我们在表5b中研究了用于预训练的损失函数的影响。与PointContrast使用的点级对比损失相比,我们可以通过实例级对比损失实现更好的预训练结果。这表明对象级对比学习可以通过融入更多实例级知识来更好地帮助下游定位任务。考虑到ShapeNet中对象的标签易于访问,我们还通过将对象的所有点分配给相应的对象标签来添加额外的分割损失。这可以带来一些边际的改进与额外的监督。DSS[48]Geo + RGB44.278.811.961.220.56.415.453.550.378.942.1-COG[42]Geo + RGB58.363.731.862.245.215.527.451.051.370.147.6-2D-driven[26]Geo + RGB43.564.531.448.327.925.941.950.437.080.445.1-F-PointNet[36]Geo + RGB43.381.133.364.224.732.058.161.151.190.954.0-PointContrast [57]Geo----------57.534.8VoteNet [35]Geo74.783.028.875.322.029.862.264.047.390.157.732.9Ours + VoteNetGeo76.283.529.276.725.133.264.263.849.091.259.235.4H3DNet [62]Geo73.885.631.076.729.633.465.566.550.888.260.139.0Ours + H3DNetGeo71.286.438.777.828.036.568.367.750.391.061.643.1100%50%25%10%5%mAP25mAP50mAP25mAP50mAP25mAP50mAP25mAP50mAP25mAP50VoteNet [35]58.633.547.025.335.520.025.114.312.63.2Ours + VoteNet61.336.253.030.238.223.228.917.219.110.1H3DNet [62]67.248.161.540.651.630.937.020.726.611.3Ours + H3DNet68.651.563.243.654.433.542.223.432.013.90255075001251501754681012141601020340506032890表3:SUN RGB-D验证集上的3D物体检测结果。我们报告了使用3DIoU阈值为0.25的平均精度(AP)的每个类别的结果,以及使用3DIoU阈值为0.25和0.5的所有语义类别的AP均值。为了公平比较,与之前的方法一样,评估是在SUN RGB-D V1数据上进行的。0输入 bathtub bed bkshf chair desk drser nigtstd sofa table toilet mAP 25 mAP 500表4:训练数据大小的影响。我们展示了在使用较少数据的ScanNetV2上训练时,所有语义类别的3DIoU阈值为0.25和0.5的AP均值。我们报告了使用5%,10%,25%和50%的数据的结果。0使用sion信号。这说明我们完全无监督的预训练策略可以在合成数据集上达到与有监督预训练相当的性能。0最后,我们展示了场景生成中使用的一些策略的必要性。在表5c中,我们验证了重力原则的必要性以及场景中地板和墙壁的需要。没有这些组件,我们仍然可以改进基线,但真实场景与生成场景之间的较大领域偏移可能会阻碍预训练在下游任务的真实数据上获得更好的模型。0与PointContrast的比较。为了展示我们的预训练方法更适用于3D物体检测任务,我们在ScanNetV2和SUNRGB-D上使用VoteNet[35]作为检测模型与另一种预训练方法PointContrast进行比较,我们使用mAP@0.25作为评估指标。结果报告在表6中。0我们发现,当从头开始训练时,使用SparseRes-UNet而不是PointNet++作为骨干模型会导致更差的检测性能。然而,PointContrast对基于PointNet++的检测器的改进非常微小,最终性能与使用SparseRes-UNet作为骨干的检测器相当。相反,考虑到我们需要保持点对应关系,我们的RandomRooms方法可以为PointNet++风格模型学习到更好的初始化,这是当前最先进的3D物体检测器更强大的骨干。这证明了我们的方法在物体检测任务上相对于PointContrast更优越。0epoch0训练损失0mAP0VoteNet训练损失我们的+VoteNet训练损失VoteNet验证mAP我们的+VoteNet验证mAP0图4:从头开始训练与使用RandomRooms预训练权重微调的对比。我们报告了VoteNet在ScanNetV2上的3D检测训练损失和验证mAP@0.25。0我们发现,尽管我们在生成随机房间时遵循许多启发式规则,但真实场景与生成场景之间仍存在领域差异。广泛的实验结果揭示了一个有趣的事实,即在3D表示学习中,对象的布局对于识别可能不像2D视觉中那样重要。我们只需要确保对象集在空间中分布,而对象之间的相互作用并不那么重要,而在2D视觉中,隐藏的相互作用可能是许多高级场景理解任务(如检测)的重要线索。这可能是由于复杂的3D场景中的重叠不那么严重。我们认为这可能为未来的3D学习研究开辟了一条道路。0学习曲线。我们在图4中展示了我们的方法以及基准VoteNet的学习曲线。我们观察到veheingtes32900表5:关于提出的RandomRooms方法的消融分析。我们研究了预训练数据集、学习损失和随机房间生成方法的影响。我们报告了VoteNet在ScanNetV2上的mAP 25结果。0(a)关于预训练数据集的消融研究。0预训练数据集 mAP0基准模型 58.60ScanNetV2 60.20ShapeNet 61.3 ShapeNet +ScanNetV2 61.50(b)关于预训练损失的消融研究。0预训练损失 mAP0基准模型 58.60点级对比 59.20实例级对比 61.3 实例级对比+分割 61.50(c)关于房间生成的消融研究。0生成方法 mAP0基准模型 58.60RandomRooms 61.3 无重力60.5 无地板/墙壁 60.70表6:我们在ScanNetV2和SUNRGB-D上使用PointNet++作为骨干网络将我们的方法与PointContrast进行比较。我们显示了所有语义类别的平均精度(mAP),3D IoU阈值为0.25。0ScanNetV2 SUN RGB-D0无预训练的稀疏Res-UNet 56.7 55.6稀疏Res-UNet与PointContrast 58.5 57.50无预训练的PointNet++ 58.6 57.7PointNet++与PointContrast 58.5 57.90PointNet++与RandomRooms 61.3 59.20我们发现,我们的预训练权重显著有助于提高学习速度和稳定训练过程。具有预训练权重的模型可以实现更低的训练损失和更好的验证mAP,这清楚地证明了所提方法的有效性。0可视化。我们在ScanNet上将从头开始训练的基准VoteNet和使用我们方法的预训练模型的检测结果进行可视化。结果如图5所示。我们发现预训练模型可以产生更准确的检测结果,假阳性更少,并且更接近真实边界框。视觉结果进一步证实了所提方法的有效性。0讨论。尽管我们在生成随机房间时遵循许多启发式规则,但真实场景与生成场景之间仍存在领域差异。广泛的实验结果揭示了一个有趣的事实,即在3D表示学习中,对象的布局对于识别可能不像2D视觉中那样重要。我们只需要确保对象集在空间中分布,而对象之间的相互作用并不那么重要,而在2D视觉中,隐藏的相互作用可能是许多高级场景理解任务(如检测)的重要线索。这可能是由于复杂的3D场景中的重叠不那么严重。我们认为这可能为未来的3D学习研究开辟了一条道路。0VoteNet VoteNet + RandomRooms 真实值0图5: ScanNetV2的视觉结果.我们将定性检测结果与基准VoteNet方法进行比较.预训练模型可以产生更准确的检测结果,减少误报,并更接近真实边界框.05. 结论0在本文中,我们提出了一种新的流程,即RandomRoom,用于3D预训练,可以利用合成CAD模型数据集来帮助高级3D物体检测任务的真实数据集上的学习.与以前在点级别上执行对比学习的工作不同,我们通过组合两个不同的场景来执行对象级别的对比学习,这两个场景具有从CAD模型数据集中随机采样的相同对象集.实证上,我们在几个基础模型上展示了在下游3D检测任务中的一致改进,特别是在使用较少训练数据时.凭借来自合成数据的丰富语义知识和多样化对象,我们的方法在广泛使用的3D检测基准ScanNetV2和SUNRGB-D上建立了新的最新技术.我们期望这项工作能为未来关于如何利用易于访问的合成对象进行更复杂的3D场景理解任务的研究开辟新的道路.0致谢0本工作部分得到了中国国家重点研发计划的支持,编号为2017YFA0700802,部分得到中国国家自然科学基金的支持,编号为61822603,U1813218和U1713214,部分得到北京人工智能学院的资助,部分得到NSF1901527,2008173,2048280的资助,以及清华大学郭强研究所的资助.332910参考文献0[1] Ange
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功