没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文近距离观察3D视觉自监督预训练中的不变性李兰晓[0000- 0003- 3267- 2525]、迈克尔·海兹曼[0000- 0001- 9339- 2055]卡尔斯鲁厄理工学院工业信息技术研究所,卡尔斯鲁厄,德国{lanxiao.li,michael.heizmann} @ kit.edu抽象的。自监督的三维视觉预训练方法近年来引起了人们越来越多的研究兴趣。为了学习信息表示,许多先前的工作利用3D特征的不变性例如,同一场景的视图之间的透视不变性,深度和RGB图像之间的模态不变性,点云和体素之间的格式不变性。虽然他们已经取得了可喜的成果,以往的研究缺乏一个系统的和公平的比较,这些方差。为了解决这个问题,我们的工作,第一次,介绍了一个统一的框架,在此框架下,各种预培训方法可以调查。我们进行了大量的实验,并仔细研究了3D预训练中不同不变性的贡献。还有,我们提出了一种简单但有效的方法,其使用对比学习来联合地预训练3D编码器和深度图编码器。用我们的方法预训练的模型在下游任务中获得了显着的性能提升。例如,经过预训练的VoteNet在SUN RGB-D和ScanNet对象检测基准测试中的表现优于以前的方法,具有明显的优势。关键词:3D视觉,自监督学习,对比学习,不变性,点云,深度图1介绍为了应付具有挑战性的任务,目标检测、场景理解和大规模语义分割,用于3D视觉的神经网络正不断变得更深入、更复杂,因此也更需要数据。近年来,自监督预训练在自然语言处理和计算机视觉领域取得了可喜的进展。通过学习非注释数据的强大表示,模型在下游任务中获得更好的性能和收敛性。自我监督的预训练特别有吸引力在3D视觉中,因为3D注释比2D注释更昂贵三维视觉的自监督预训练已经获得了一些研究兴趣。许多以前的作品使用对比学习作为预训练模型的借口任务,因为它在其他领域表现出优越的性能[22,29,56,62]。对比学习中的一个经典假设是,一个强大的表示应该模拟视图不变的因素。一种共同的方法,arXiv:2207.04997v2 [cs.CV] 2022年7+v:mala2255获取更多论文2L. Li和M. Heizmann(a)(b)(c)第(1)款图1:3D视觉对比学习中的不变性。在不损失一般性的情况下,我们在这里只考虑局部对应每个列包括同一场景的两个视图。跨两个视图的示例性对应关系用箭头示出,这意味着两个点/像素在3D空间中具有相同的坐标。在自监督预训练中,相应的局部特征之间的相似性被最大化,这迫使网络学习视图之间的不变性。(a)同一场景从不同视角的两个视图中的视角不变性。为了更清晰,我们将RGD图像可视化,而不是点云。(b)对准的图像点云对中的模态不变性。在这种情况下,数据格式也不同。但我们仍然认为将其称为模态不变性,以将其与单个模态内的格式不变性区分开。(c)深度图和从其转换的点云之间不同的观点是数据增强。此外,可以用不同的传感器(例如,RGB和深度照相机)并以不同格式表示(例如,体素、点云和深度图)1,而场景中的主要语义信息不被这些因素改变。因此,以前的作品利用了自监督学习中3D特征的视角[22,56],模态[29]和格式不变性[62],如图所示。在图1中。虽然这些工作已经显示出令人印象深刻的结果,但不变性的贡献仍然未被充分探索,有一半在这项工作中,我们首先建立了一个统一的3D自监督学习框架。我们的框架考虑了局部点/像素级对应以及全局实例级对应。另外,我们的框架-[1]为了避免歧义,我们在本书中使用术语数据格式而不是数据表示+v:mala2255获取更多论文深入了解3DVision 3工作统一了不同输入数据格式和网络结构的对比学习,包括深度-深度,点-点,深度-点,图像-点和点-体素。通过比较利用不同不变性的各种训练策略这项工作的第一个见解是,联合预训练3D编码器和2D编码器(图像点,深度点)比单独预训练它们或联合预训练具有相同维度的两个编码器(例如,体素和点云编码器,它们都是三维的)。此外,我们提出了简单但有效的想法,利用深度图和点云/体素之间的我们的直觉是,深度图是点云和体素的补充,尽管它们包含几乎相同的信息。 深度图格式的优点在于它是场景的自然视图,并且清楚地显示了对象之间的透视关系。此外,真实世界的深度图通常包含坏像素,这意味着深度值是不可测量的。 在深度图中,不可测量区域的轮廓是清晰的,图中的椅子腿1(c).相反,如果将深度图提升到3D空间中,则会丢失此此外,由于其效率,2D编码器允许高分辨率深度图作为输入,从而保留数据中更细粒度的细节。然而,基于点或体素的网络通常采用下采样或量化的输入以避免过多的计算成本和存储器使用,这导致不可避免的信息丢失。另一方面,点云和体素是3D格式,相应的网络可以直接捕获精确的3D几何形状,而基于深度图的网络间接学习空间关系。此外,深度图本身不包含相机校准的信息。通过对比从两种互补的数据格式中提取的特征,这两个网络可以相互学习所欣赏的属性。这个简单的想法对预训练数据的要求更低,并且在我们的实验中优于以前的方法。这项工作的贡献是多方面的:1. 我们为3D视觉中的所有主要网络类型和数据格式引入了统一的自监督预训练框架2. 我们提供了一个在3D预训练的不变性,例如,格式、透视和模态不变性。3. 我们提出了一种新的3D自监督预训练方法,该方法基于深度图和点/体素之间的格式不变性。4. 我们的方法在多个下游任务中达到新的SOTA结果,SUN RGB-D数据集[48]和ScanNet [11]数据集上的对象检测。5. 该方法也是基于深度图的网络的第一个自监督预训练方法。2相关作品3D数据的特征学习 PointNet [43]是点云深度学习方法的先驱。为了聚合本地信息,PointNet++ [44]对点云进行分层下采样和分组近期作品[27,51,54]+v:mala2255获取更多论文4升。Li和M. Heizmann定义点云上的点卷积。基于体素的方法将不规则的点云转换为规则的3D网格,并应用3D卷积[34,64]或深度滑动窗口[49]。此外,一些作品[10,16]引入稀疏CNN以降低计算成本和内存占用。其他一些作品使用2D CNN从深度图[26,57,58],LiDAR范围图像[4,24,28]或伪图像[23]中提取特征此外,许多作品使用多种3D数据格式[12,23,28,33,47]。他们和我们的工作有着相同的动机来结合不同数据格式的优点。然而,我们的方法通过对比学习在借口任务中学习赞赏的属性。在对下游任务进行微调时,只使用一种格式。计算机视觉中的自我监督预训练 许多自监督学习的借口任务已经被提出。一些生成方法在某些腐败下重新覆盖图像,例如,自动编码器用于着色[60,61]和去噪[50]。一些判别方法生成伪标签,例如,旋转预测[15],拼图解决[36]和对象跟踪[52]。最近,对比学习在自我监督学习中取得了令人印象深刻的表现[3,7,8,19,35,37]。除了实例级区分,一些工作还利用局部对应来更好地转移需要的任务密集的特征,例如,对象检测和语义分割[5,39,53]。3D数据的自我监督预训练一些作品[1,18,45,46]在合成数据上执行自监督学习,例如,ShapeNet [55].然而,这些方法PointContrast [56]首先使用真实世界的点云数据进行自我监督训练。它通过预测两个部分重叠的点云之间的逐点对应来学习透视不变性。Liu等[29]通过使用预训练的2D编码器作为老师来预训练3D编码器。另一方面,Liuet al. [32]提出了一个蒸馏管道,通过使用来自3D编码器的几何指导来改进2D编码器。DepthContrast [62]将成功的MoCo [8,19]管道扩展到3D域,并利用点云和体素之间的交叉格式对比。Hou etal. [22]提出了空间划分来提高对比学习,并研究了预训练模型的数据效率和标签效率多模态特征融合。从两个互补的概念中学习这与数据融合类似。在3D计算机视觉中,常见的做法是以融合颜色和几何信息。很多融合方法已经提出,例如,用于对象检测[21,40,42,59]和显著对象检测[14,25,57,63]。其他一些作品使用自监督预训练来改进特征融合[30,31]。融合和对比多模态特征之间的区别在于,融合通过组合来自不同模态的互补信息来丰富特征,而对比学习则最大限度地提高了模态之间的共享信息。3方法在这项工作中,我们打算研究3D自监督学习中的不变性为了公平比较,+v:mala2255获取更多论文α联系我们1Qα编码器头αEMAC点/像素级对比损失1β1β编码器头EMA{x}βqβ存储体实例级对比损失C2α2α编码器+动力头+猪肺炎kα存储体实例级对比损失β2β编码器+动力头+猪肺炎kβ深入了解3DVision 5把它们放在一个统一的框架下研究是有意义的。在本节中,我们首先简要回顾一些代表性作品。然后,我们介绍了一个统一的框架,所有以前的方法适合。此外,我们还介绍了在统一框架下的几种对比学习方法。最后给出了框架的技术细节。3.13D建构式学习的统一框架在这项工作中,我们注意到三个以前的作品。(1)PointContrast [56]:它从不同的视角生成同一场景的两个视图,并使用对比损失来学习3D点之间的局部对应关系。(2)深度对比度[62]:在成功的MoCo管道[8,19]之后,它增强了同一点云的两个视图,以建立正对,并通过区分正样本和大量负样本来学习全局对应性。此外,它建议利用点云和体素之间的交叉格式对比。(3)Pixel-to-point [29]:其整体管道类似于PointContrast。然而,它学习点云和RGB图像之间的局部对应关系,以便从强大的预训练RGB编码器中受益因此,统一的框架必须支持3D数据的局部和全局对应以及至少两种不同的输入类型,或者来自不同的模态(例如,RGB图像和点云)或具有不同的数据格式(例如,深度图和点云)。编码器输入动量编码器无梯度有梯度图2:3D对比学习的统一框架。这里,α和β指的是数据类型,例如,点云、图像和深度图。我们在图2中展示了我们的框架,为了简单起见,它使用了单视图深度图或RGB-D图像。然而,实验表明,预训练的权重在重建的多视图3D扫描上泛化良好。不失+v:mala2255获取更多论文关于我们关于我们关于我们6升。Li和M. Heizmann一般来说,我们假设框架的输入是本节中的深度图我们随机裁剪输入以获得裁剪C1,其进一步随机扩增并转换为视图α1和β1。这里α和β指的是数据格式(例如,深度图和点云,如图所示2)。然后,α1和β1通过相应的编码器,并被编码成逐像素或逐点特征xα和xβ。请注意,α和β编码器通常是匹配输入格式的不同网络。但在α=β的情况下,它们共享权重,遵循[56]。由于α1和β1是从相同的作物C1生成的,因此可以容易地计算xα和xβ在这项工作中,我们遵循[56]并使用InfoNCE损失来训练密集的本地对应关系,这将在第二节中进一步解释。三点三为了学习信息表示,我们的框架还考虑了视图之间的全局对应关系。在[62]之后,我们基于全局池化的全局特征qα和qβ执行从xα和xβ投影。为了保留大量的负样本进行有效的对比学习,我们使用内存库和动量编码器,遵循成功的MoCo流水线[8,19]。然而,在管道材料中,我们进一步表明,我们的方法可以推广到其他管道,例如。[17][19][19][19][19]与裁剪C1类似,我们从相同的深度图中随机裁剪C2,生成α2和β2,并将它们馈送到动量编码器。我们将来自动量编码器的全局汇集和投影特征分别称为kα和kβ它们在训练过程中动态地保存和更新在内存库中。请注意,与[62]不同,我们的工作仅对比了不同输入格式的特征,因为我们根据经验发现,格式内的额外对比度的收益是微不足道的。3.2策略的变体随着整体框架的展示,我们现在介绍在这个框架下的各种对比学习策略如图3,我们在这项工作中研究了1. DPCo(深度点对比度),我们提出的方法,它学习深度图和点云之间的格式不变性2. DVCo(深度体素对比度),我们提出的方法,它学习深度图和体素之间的格式不变性3. PVCo(Point-Voxel Contrast),学习点云和体素之间的格式不变性。它是 从 P o i n t C o n t r a s t 扩 展 而 来 的 [ 6 2 ] 。4. PPCo(点-点对比度),仅使用点云作为输入。它作为一种基线方法,因为它只学习数据增强的不变性。5. IPCo(图像点对比度),它学习RGB图像和点云之间的模态不变性。它的灵感来自Pixel-to-point [29]。6. PointContrast [56],它学习视角之间的透视不变性它可以被解释为我们的统一框架的一个特例,因为它从不同视角的两个重叠深度图中生成作物C1和C2,并且只考虑局部对应。+v:mala2255获取更多论文深入了解3DVision 7(a) DPCo(b)DVCo(c)PVCo(d)PPCo(e)IPCo(f)PointContrast图3:统一框架下的对比学习策略。在这项工作中,我们提出了一个3D格式和2D格式的相同的几何数据(即,DPCo和DVCo)。虽然它们表示相同的3D场景,但这两种格式在某种程度上是互补的正如在SEC中所讨论的那样1,点云和体素直接表示3D几何形状,同时由于采样和坏像素而具有不可避免的信息丢失。相反,深度图保留了更多的信息,但只是间接地表示3D场景实验结 果表明,我们的 方法带来了显着 更好的性能比PPCo和PVCo,对比只有3D格式。3.3细节点云编码器。 我们使用U形PointNet++[44]并遵循[41]中的网络配置,其中包括4个下采样和2个上采样模块。我们在预训练中使用20K点作为输入。输出点数固定为1024。体素编码器。 我们使用具有34个卷积层的稀疏残差U-Net [10]来编码体素输入,遵循先前的工作[22,56]。我们使用[10]中的稀疏卷积实现。对于仅几何输入,我们将所有输入特征设置为1。对于颜色输入,我们使用归一化的RGB值作为输入特征。在预训练中,我们使用2.5 cm的体素大小来训练输入。体素编码器的输出具有与输入相同的分辨率深度图编码器。我们使用[26]中的U形2D CNN作为深度图编码器。该网络是修改后的ResNet-34 [20],具有相对深度卷积[26]和额外的上采样层。输入被调整大小并补零为352×352。输出是以因子8下采样的特征图P1 点云C1点云P2C2D1深度图C1P1 点云C2深度图D2点云P2D1深度图C1V1体素C2深度图D2体素V2P1 点云C1V1体素C2点云P2体素V2P1 点云C1C2点云P2D1 RGB图像C1P1 点云C2RGB图像D2点云P2统一管道统一管道统一管道统一管道统一管道统一管道+v:mala2255获取更多论文l,αβn=1exp(xα,i·xβ,i/τ)+exp(xα,i·xβ,j/τ)8升。Li和M. Heizmann彩色图像编码器。类似于深度图编码器,我们使用具有额外上采样层的ResNet-34来编码RGB图像。我们使用ImageNet [13]上的预训练权重初始化这个编码器,遵循[29]中的设置动量编码器和投影头。动量编码器具有与编码器相同的结构。它们的权重通过来自相应编码器的指数移动平均(EMA)而不是反向传播来更新。我们使用全局最大池来聚合全局特征。池化层之后是由3个完全连接的层组成的MLP中间层和输出层分别有512和128个通道。动量编码器的投影头也通过EMA更新。损失函数我们的损失函数由局部子损失L1和全局子损失Lg组成。局部子损失是优化局部密集对应的InfoNCE损失:L=−logexp(xα,i·xβ,i/τ)我J 我(一)有xα,i∈{xα}和xβ,j∈{xβ}。如果特征向量xα,i和xβ,j的对应3D坐标接近,则它们温度τ是一个超参数,在这项工作中被设置为0.07。所有特征在被馈送到损失函数之前都是L2归一化的应用全局子损失来优化实例判别任务:L=−logexp(qα·kβ/τ)(二更)g,αβexp(qα· kβ/τ)+<$N−1exp(qα· kβ,n/τ)向量qα表示来自α编码器的全局特征,kβ表示来自β动量编码器的全局特征由于qα和kβ是从相同的数据样本中生成的特征kβ,n对应于其他样本,并且从具有大小N的存储体读取。我们在这项工作中使用N=215根据以前的工作,我们使我们的损失对称于α和β。总损失可以用公式表示为L= Ll+ Lg= 0。25·(L1,αβ+ L1,βα+ Lg,αβ+ Lg,βα)。(三)原则上,L可以是L1和Lg的加权和,并且加权因子可以被调谐。但我们通过经验发现,简单的算术平均值已经产生了良好的结果。数据扩充。 我们随机选取C1和C2. 此外,我们随机下降一个正方形面积在每个作物。我们对点云和体素应用随机旋转、缩放和翻转。我们随机旋转深度图周围的主要点,并设置深度图上的20%像素为零。对于RGB图像,我们应用随机颜色抖动、灰度和高斯模糊。数据集。 我们使用ScanNet [11]进行预训练,遵循以前的工作[22,31,56,62]。ScanNet是一个大规模的室内数据集,其中包含从2.5MRGB-D帧重建的约1500个扫描。我们遵循官方的train/val分割,并从train集中采样78 K帧(每25帧中一帧)。+v:mala2255获取更多论文深入了解3DVision 9训练我们对编码器进行了120个epoch的预训练。我们使用SGD优化器,动量为0.9,初始学习率为0.03。我们在两个NVIDIA Tesla V100 GPU上训练模型,总共64 GB内存,并使用适合的大批量。不同策略的批量大小从32到64不等。 学习率以余弦时间表衰减。预训练需要两到四天的时间,使用PyTorch和分布式数据并行。更多技术细节见补充材料。4实验和结果在本节中,我们首先简要介绍实验设置。然后,我们在统一的框架下对不同的对比学习策略进行了详细的比较和分析,以阐明不变性的贡献然后,我们比较我们的方法(DPCo)与国家的最先进的方法在点云对象检测任务。最后,我们展示了我们的方法在体素和深度图上的迁移学习结果更多的实验结果可以在补充材料中找到。4.13D自监督预训练在本小节中,我们关注基于点云的3D检测任务上的迁移学习的性能,因为我们相信3D检测反映了编码器对象分类)和几何(即,边界框回归)信息并且因此是代表性的。此外,使用原始点的3D检测在以前的作品中得到了很好的研究[6,40在这项工作中,我们在SUN RGB-D [48]和ScanNet [11]对象检测基准上微调了带有PointNet++主干的VoteNet [41]。评估指标是代表类的平均平均精度,阈值为25%和50% 3D-IoU(即,AP25和AP50)。统一框架下的比较 在本实验中,我们在统一的框架下对各种对比学习策略进行了比较。如Tab中所示。1,所有预训练方法在两个3D检测基准中都比从头开始训练的结果更好。请注意,ScanNet基准使用从多个视图重建的点云。我们的统一框架假设预训练数据是独立的单个深度图或RGB-D图像,仍然显着提高了该数据集的检测结果。这意味着在单视图数据上预训练的权重在多视图数据上具有良好的泛化能力。基 线 策 略 PPCo 仅 利 用 数 据 增 强 的 不 变 性 。 然 而 , 它 超 过PointContrast,它依赖于外在参数,在四个指标中的两个。这意味着通过适当的设计(在我们的例子中,局部密集对比度和MoCo风格的实例区分),透视不变性在预训练中是不必要的。类似的观察也在[62]中报道。我们假设在实例判别子问题中,网络必须区分来自非常相似视角的输入+v:mala2255获取更多论文10升。Li和M. Heizmann因为我们从连续的RGB-D视频中提取训练数据。这可以被解释为硬示例挖掘,它迫使网络关注与视角相关的细节。因此,在预训练中的全局对应的帮助下,编码器隐式地学习视角相关信息,但在这种情况下不方法不变性对应。SUN RGB-DScanNetAP25 AP50AP25 AP50从头--58.4 33.360.0 37.6PPCo增强本地+全球58.634.962.639.5点对比透视当地59.634.162.838.1PVCo格式(3D-3D)本地+全球59.334.962.839.5IPCo模态本地+全球60.235.563.940.9DPC(我们的)格式(2D-3D)本地+全球59.835.664.241.5表1:具有不同不变性的自监督预训练策略的VoteNet微调性能我们使用[41]的开源代码在没有预训练的情况下重现了结果,这比原始出版物略好。此外,PVCo将点云和体素的特征进行对比,带来的结果略好,但与PPCo非常相似。这此外,PointNet++类似于3D ConvNets,因为它进行类似卷积的局部聚合,以滑动窗口方式使用共享权重,并且具有分层拓扑结构,具有子采样和上采样。因此,联合预训练体素和点云编码器给点云编码器带来的益处有限,这与单独预训练点云编码器相比。在这种情况下,结合体素特征可以被解释为对点云的强数据增强。然而,IPCo和DPCo与2D数据格式(例如,彩色图像或深度图)和3D格式(例如,点云)的效果明显优于仅使用3D格式的PPCo和PVCo。它证实了我们的直觉,即2D数据格式与3D格式是互补的,它们之间的对应关系可以在自监督预训练中提供强烈的对比更有趣的是,我们提出的方法DPCo,它只使用的几何信息,达到同等或更好的性能作为一个使用几何和颜色输入(IPCo)。这在实践中是一个重要的优势,因为即使RGB图像不可用或难以与深度图对齐,我们的方法也适用这也意味着IPCo的性能增益可能不是来自颜色信息,而是来自其他因素例如,不同的分辨率和2D和3D网络的透视域DPCo的另一个优点是它比PPCo和PVCo训练得更快,这要归功于2D CNN的效率。+v:mala2255获取更多论文深入了解3DVision 11本地和全球通信。我们的统一框架在预训练中支持3D数据的局部和全局对应。以下为─通过实验,我们分别研究了每种类型的对应的贡献。如Tab中所示。2、Tab。3、在预训练中单独使用局部和全局对应关系提高了编码器的性能。 与Tab相比,1,很明显,将它们结合起来可以带来进一步的改进,这在2D预训练中也可以观察到,如[53]中所讨论的。此外,Tab。2和Tab。3显示出与Tab相似的趋势。1,其中IPCo和DPCo表现出优于其他人的性能。有趣的是,在Tab。2即使没有全局对应,IPCo和DPCo也比PointContrast获得更好的结果。对比SUN RGB-DScanNetAP25 AP50AP25 AP50W/O58.4 33.360.0 37.6PPCo58.734.862.238.8PVCo59.134.662.239.0PointCo.59.634.162.838.1IPCo60.135.662.539.4DPC59.635.164.240.5表2:预训练中局部对应的不同选择。对比SUN RGB-DScanNetAP25 AP50AP25 AP50W/O58.4 33.360.0 37.6PPCo59.335.162.739.3PVCo59.035.362.539.6IPCo59.434.563.340.2DPC59.434.963.841.0表3:预训练中全局对应的不同选择摘要 我们关于不变性的观察可以总结如下:1. 3D自监督学习中的显式视角不变性是不必要的。2. 3D格式之间的不变性(例如,点云和体素)改进了性能,但是增益是微不足道的。3. 深度图和3D格式之间的不变性(例如,深度图和点云)显著提高了性能,这略优于点云和RGB图像之间的模态不变性,但对训练数据的要求更少。4.2与SOTA方法的在前面的小节中,我们提出的方法DPCo在所有变体中表现最好。在本小节中,我们将其与其他SOTA自监督预训练方法进行比较。尽管如此,我们还是使用微调性能在点云目标检测任务中作为度量。为了获得强有力的监督基线,我们遵循[26]中的设置,并在ScanNet中为单个帧生成边界框注释。然后,我们在完全监督下预训练VoteNet。为了进行公平的比较,监督基线和其他自我监督方法使用完全相同数量的帧进行预训练。+v:mala2255获取更多论文×12升。Li和M. Heizmann在Tab。4.将我们的方法与PointContrast [56]、DepthContrast [62]、pixel-to-point [29]和Hou等人的方法进行了比较。[22],这已经在第二节中讨论过了。2、第二3.1.作为选项卡。4显示,我们的方法在四个指标中的三个指标上优于其他自监督管道。它甚至优于ScanNet AP25和AP50上的完全监督基线。另外,我们的方法具有与SUN RGB-D AP 50和ScanNet AP25相当的性能,具有放大版本的DepthContrast [62],它使用3倍大的网络,是用5倍多的数据预先训练好的。 这一结果意味着点云和深度图之间的格式不变性的贡献与模型容量和数据量的扩展相当。另请注意-侧深度图(或等价物例如,距离图像)和相机固有的,这是在几乎所有的三维数据集,我们的方法彩色图像和相机外部,而很多SOTA方法[22,29,56]。预训练SUN RGB-DScanNetAP25 AP50AP25 AP50关于Scatch58.4 33.360.0 37.6[56]第五十六话- 三十四点八-38.0PointContrast(我们的)59.5 34.061.6 38.2Hou等人[22日]- -- 三十九点二[29]第二十九话57.2 33.959.7 38.9像素到点(我们的)60.135.662.5 39.4深度对比[62]60.4-61.3-DPC(我们的)59.835.664.2四十一点五[62]第六十二话61.635.564.042.9监督62.036.361.938.6表4:使用不同预训练方法对SUN RGB-D和ScanNet(扫描级)对象检测基准的VoteNet的微调结果。原始出版物中未报告不存在值。我们报告的PointContrast和像素到点的结果与我们自己的实现,因为原来的论文使用基于体素的骨干,而不是PointNet++。灰色方法指的是带有额外数据或注释的结果具体来说,DepthContrast[62]使用具有3个以上参数的缩放PointNet++主干,并在ScanNet和Redwood室内RGB-D扫描数据集上进行预训练[38]。4.3数据效率预训练的一个重要目标是将特征转移到非常小的数据集。为了模拟这种情况,我们从下游数据集随机抽样一小部分(例如,5%,10%),并微调一个投票网与骨干预先训练的DPCo。具有相同百分比的实验共享+v:mala2255获取更多论文Scratch AP25刮 擦 AP50DPCo AP25DPCo AP50mAP(%)深入了解3DVision自监督预训练中的不变性13相同的数据样本。未对验证集进行采样。如图4和图5所示。5、预训练带来更多的改进,当更少的微调数据可用时。这一趋势在ScanNet上 更 为 明 显 , 因 为 它 包 含 的 训 练 样 本 比 SUN RGB-D 少 ( 1.2Kvs.5K)。特别是,当仅使用5%的训练数据时,DPCo预训练将ScanNet上的AP 25从13.3%提高到36.5%,AP 50从2.4%提高到14.4%。60 6050 5040 4030 3020 2010 105 10 20 50100数据百分比(%)5 10 20 50 100数据百分比(%)图4:SUN RGB- D上的检测结果,数据量减少。图5:ScanNet上的检测结果,数据量减少。4.4深度图和体素编码器的转换到目前为止,我们只展示了点云编码器(PointNet++)的迁移学习结果。在本小节中,我们研究了我们的方法(DPCo和DVCo)在深度图和体素编码器上的推广。深度图编码器。我们微调了2.5D-VoteNet [26],这是VoteNet的一个变体,具有基于深度图的骨干,通过使用预训练的权重初始化其骨干。为了阐明格式不变性的贡献,我们还使用单独的深度图输入来预训练深度图编码器。这一战略类似于图3中的PPCo,我们将其命名为DDCo(深度-深度对比度)。由于2.5D-VoteNet不支持多视图输入,我们只在SUN RGB-D数据集上对其进行微调。一个令人惊讶的结果在Tab。5是使用DDCo的预训练降低了性能。由于深度图是3D坐标的间接表示,我们假设DDCo使深度图编码器专注于2D纹理而不是真正的3D几何形状,这可以被解释为预训练中的作弊。这也意味着深度图编码器的预训练是不平凡的,需要仔细设计。然而,我们提出的方法DPCo和DVCo一贯提高检测结果。由于点云和体素编码器能够捕获3D几何信息,就其本质而言,它们可以向深度图编码器提供指导,并防止深度图编码器过多地关注2D图案。此外,结合Tab中的结果4 、值 得 注 意 的是 , D P C o 提 高 了Scratch AP25刮 擦 AP50DPCo AP25DPCo AP50mAP(%)+v:mala2255获取更多论文14升。Li和M. Heizmann3D和2D编码器。这证明了我们的方法的原理是不同的知识蒸馏(KD),它使用一个较强的模型作为教师,以改善一个较弱的学生模型。PVCo66.670.3DVCo67.270.5表5:2. 5D-VoteNet在SUN RGB-D数据集上使用不同对比策略的微调结果。表6:稀疏3D ResNet在语义分割任务中的微调结果。评估指标是类间平均IoU(mIoU)。体素转移。 为了在基于体素的网络上评估我们的方法,我们使用DVCo来预训练体素编码器,并对其进行微调,以便在ScanNet [11]和S3DIS [2]数据集上进行语义分割。我们将性能与未预先训练的基线和PVCo进行比较。如Tab中所示6、DVCo显著改善了两个分割任务的基线性能也高于PVCo,这与点云编码器的迁移学习结果一致5结论和未来工作在这项工作中,我们建立了一个统一的框架,公平地比较透视,格式和模态不变性在3D自监督学习中的贡献在我们的框架的帮助下,我们发现,对比一个三维数据格式(例如。点云和体素)与2D数据格式(例如,图像和深度图)是特别有益的。此外,我们提出了对比点云或体素与深度图,而不是RGB图像,这带来了更好的性能,并具有更少的训练数据比以前的方法的要求。实验结果表明,我们的方法提高了3D视觉中所有类型的编码器,包括点云,体素和深度图编码器。此外,一些关切值得更多的研究努力。例如,在我们的框架中,我们联合预训练两个不同的编码器。虽然它们都在下游任务中获得了性能提升,但目前还不清楚每个编码器是否在预训练中达到了最佳状态。在未来的工作中,我们打算研究联合预训练的优化和收敛。我知道了。本 工 作 的 部分内容由Baden-WürttembergStiftung gGmbH在KOMO 3D项目内提供资金。预培训AP25 AP50从零开始60.8 36.9预训练S3dis ScanNet从头66.169.6DDCo56.031.2DVCo61.039.3DPC61.438.8+v:mala2255获取更多论文深入了解3DVision自监督预训练中的不变性15引用1. Achlioptas,P.,迪亚曼蒂岛米利亚卡斯岛吉巴斯湖:学习3d点云的表示和生成模型机器学习国际会议(ICML)(2018)2. 亚美尼亚岛Sax,S.,Zamir,A.R.,Savarese,S.:联合2d-3d语义数据用于室内场景理解。CoRRabs/1702.01105(2017)3. Bachman,P.,Hjelm,R.D.,Buchwalter,W.:通过最大化视图间的互信息来学习表示在:神经信息处理系统(2019)4. Bewley,A.,孙,P.,Mensink,T.,Anguelov,D.,Sminchisescu,C.:用于尺度不变3d目标检测的范围条件扩张卷积。CoRRabs/2005.09927(2020),https://arxiv.org/abs/2005.099275. Chaitanya,K.,Erdil,E.,Karani,N.,Konukoglu,E.:有限标注医学图像分割的全局和局部特征对比学习在:神经信息处理系统(2020)6. 陈杰,Lei,B.,Song,Q.,Ying,H.,Chen,D.Z.,Wu,J.:基于点云的三维目标检测的层次图网络。在:IEEE/CVF计算机视觉和模式识别会议(CVPR)的会议记录(2020年6月)7. 陈,T.,Kornblith,S.,Swersky,K.,Norouzi,M.,Hinton,G. E.:大的自监督模型是强半监督学习器。CoRRabs/2006.10029 (2020),https://arxiv.org/abs/2006.100298. 陈旭,Fan,H.,Girshick,R.B., 他,K.: 通过动量对比学习改进基线。CoRR abs/2003.04297(2020),www.example.com9. 陈旭,他,K.:探索简单的连体表征学习。IEEE/CVF计算机视觉和模式识别会议(CVPR)。pp. 1575010. Choy,C.,Gwak,J.,Savarese,S.:4d spatio-temporal convnets:Minkowskiconvolu- tional neural networks.IEEE计算机视觉与模式识别会议(CVPR)pp.307511. Dai,A.,Chang,A.X.,Savva,M.,Halber,M.,Funkhouser,T.,尼斯纳,M.:Scan-Net:室内场景的丰富注释3D重建。在:Proc.计算机视觉和模式识别(CVPR),IEEE(2017)12. Dai,A.,尼斯纳,M.:3DMV:用于3D语义场景分割的联合3D多视图预测。在:法拉利,五,Hebert,M.,Sminchisescu,C.,韦斯湾,澳-地(编辑)计算机愿景Springer International Publishing,Cham(2018)13. 邓,J.,Dong,W.,Socher河,Li,L.,Kai Li,Li Fei-Fei:ImageNet:一个大规模的分层图像数据库。2009年IEEE计算机视觉与模式识别会议。pp. 24814. 范,D.P.,Zhai,Y.,Borji,A.,杨杰,Shao,L.:BBS-Net:具有分叉骨干策略网络的RGB-D显着对象检测。在:Vedaldi,A.,Bischof,H.,Brox , T. , Frahm , J.M. ( 编 辑 ) 计 算 机 视 觉 pp. 275-292. SpringerInternational Publishing,Cham(2020)15. Gidaris,S.,辛格,P.,Komodakis,N.:通过预测图像旋转进行无监督表示学习。CoRR(2018),http://arxiv.org/abs/1803.0772816. 格雷厄姆,B.,Engelcke,M.,van der Maaten,L.:基于子流形稀疏卷积网络的三维语义分割。在:IEEE计算机视觉和模式识别会议(CVPR)的会议记录(2018年6月)+v:mala2255获取更多论文16公升。Li和M. Heizmann17. 格里尔,J.B.,Strub,F., 另一边,F., 塔莱克角, Ric hemond,P.,但 我知道E多尔施角,Avila Pires,B.,郭志,Gheshlaghi Azar,M.,Piot,B.,卡武库奥卢,k.,穆诺斯河Valko,M.:引导你自己的潜意识-一种新的自我监督学习方法。在:神经信息处理系统的进展。 第33卷,第2127118. Hassani,K.,Hale
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功