自然三维结构点云数据集的构建和预训练模型的高性能

135 浏览量更新于2023-10-25 收藏 6.15MB PDF 举报

分形几何

预训练模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

21283······60.254.746.738.336.523.553.847.455.749.746.142.241.832.4三十三点六自然三维结构点云预训练山田良介1*片冈广胜1* 千叶直也2多前幸安1绪方哲也1，21产业技术综合研究所2早稻田大学摘要3D点云数据集的构建需要大量的人力。因此，构建大规模的三维点云数据集是一个困难的问题.为了解决这个问题，我们提出了一种新的点云FractalDB数据···估计结果分形数据库（PC-FractalDB），这是一个新的家庭公式驱动的监督学习的灵感来自分形几何遇到的自然3D结构。我们的研究是基于这样一个假设，即我们可以通过学习分形几何从比传统3D数据集更真实的3D模式中学习表示。我们展示了PC-FractalDB如何帮助解决3D场景理解中的几个最近出现的与网络相关的问题，如3D模型收集和劳动密集型注释。实验部分显示了我们如何分别在Scan-NetV 2和SUN RGB-D数据集上实现高达 61.9% 和 59.0% 的性能率，超过了使用PointContrast 、对比场景上下文（ CSC ）和RandomRooms 获得的当前最高分数。此外， PC-FractalDB预训练模型在有限数据的训练中特别有效例如，在ScanNetV 2上10%的训练数据中，PC-FractalDB预训练的 VoteNet 的性能为 38.3% ，比 CSC 高出+14.8%。特别值得注意的是，我们发现所提出的方法在有限的点云数据中实现了3D对象检测预训练的最高结果11. 介绍最近，利用3D点云的3D对象识别预计在现实世界的应用中变得越来越有用，例如移动机器人和自动驾驶汽车。特别地，3D对象检测从3D场景估计对象的位置和类别。与基于图像的检测模型相比，3D点云能够在不依赖于应用程序的情况下对真实世界的对象进行鲁棒检测。然而，构建3D数据集的局限性在于，这需要大量的劳动力来创建，*表示同等贡献。1数据集发布：https：yamada.github.io/ PointCloud-FractalDataBase/传输预训练参数···微调(a) 预训练：使用PC-FractalDB进行3D对象检测。(b) 微调有限ScanNet数据的结果。图1. 预训练对PC-FractalDB作为公式驱动的监督学习家族的影响。虽然所提出的方法不使用真实数据，但它是一种更好的预训练方法来理解3D场景，特别是在有限的数据场景中。标注3D模型，并且这样的3D模型通常不能通过互联网大量收集为此，有必要通过计算机辅助设计（CAD）软件创建3D模型此外，基于3D场景构建点云数据集将导致人类注释者和交叉验证者。使用有限的数据或注释进行训练往往会导致检测模型的过度拟合。因此，本研究的重点是用点云数据集进行预训练，以解决上述问题。我们已经见证了点云处理中预训练的有效性。为了解决VoteNetScanNetV2数据预训练估计结果VoteNet21284针对点云数据集人类注释问题，已经提出了自监督学习（SSL）[1，27，35，52、54、59、63、67、70]。特别是，PointContrast [67]首次证明了对更高级别的场景理解任务进行预训练的可能性在PointContrast出现之后，使用对比学习的自监督学习已被证明是点云数据集（如ScanNetV2 [17]和SUN RGB）上的最佳性能。D [58]在3D物体检测中。这些方法的局限性，因为预训练仅限于骨干网络，并且训练数据取决于点云数据集的规模。因此，为了实现3D对象的准确检测，我们需要开发方法来减少对数据集的注释工作和有效的预训练方法。本文描述了一种点云预训练方法，该方法根据自然3D结构的规律自动构建点云数据集。更具体地说，我们将公式驱动监督学习（FDSL）的概念应用于3D视觉，该概念基于Kataoka等人在2D视觉中提出的数学公式生成有限训练数据[32]。本研究使用基于分形几何学的数学公式[41]，假设其高度适用于真实世界3D场景中的自然和人造物体。由于分形几何具有自相似性和非整数维两个基本性质，我们相信它可以生成CAD模型无法表示的细粒度3D结构。我们提出的点云分形数据库（PCFrac-talDB）使用户能够显着提高表示学习的三维物体检测。通过专注于分形几何（真实世界中的一种背景知识），可以自动生成类似于真实世界自然的3D模型和3D场景。因此，我们不需要人工按照自然规律自动构建点云数据集。我们总结了本研究的贡献如下：（i）我们提出了PC-FractalDB自动生成的自然三维结构与分形。值得注意的是，该框架不需要数据收集和注释。 PC-FractalDB直接使得能够在预训练阶段中获取用于3D对象检测的特征表示，如图1（a）所示。(ii)通过创建PC- FractalDB预训练检测器，我们在代表性点云数据集（如ScanNetV 2和SUN RGB-D）上提高了3D对象检测任务的性能。(iii)我们提出的PC-FractalDB预训练有助于在对数据集进行微调时限制训练数据和注释的数量，如图所示。第1段（b）分段。2. 相关工作三维点云数据集。基于点云的3D场景理解技术随着计算机技术的发展公共点云数据集[3，10，20，29，57，61，62，65，66] 具有丰富的注释。然而，最常用的数据集，ScanNetV 2和SUN RGB-D，由扫描模型组成，为创建扫描模型和注释花费了大量的人力因此，我们可以很容易地假设，与2D视觉数据集相比，当前点云数据集包含的用于训练、验证和测试集的数据和注释数量更有限[18，33，53，72]。另一方面，深度学习依赖于大量的训练数据，学习的限制与有限的数据和注释。预训练是解决这个问题的最有效的方法之一[5]。该概念已在视频识别[23]和2D图像识别[19]中得到成功验证。然而，为了成功进行预训练，我们需要每个领域的大规模数据集，例如Kinetics-700 [9]和JFT-300 M [60]。也就是说，我们相信，如果有可能构建一个百万阶实例数据集，点云的3D对象识别的性能水平3D物体检测。在3D对象检测中，有两种主要类型的方法：基于2D-CNN或3D-CNN的架构[14，34，38，43，49，55，68，73]和基于2D-CNN或3D-CNN的架构。直接输入由3D点云组成的3D场景的结构[11，16，22，24，39，42，46本研究的重点是直接输入3D场景的架构特别是，VoteNet [48]使用Hough投票进行稀疏点云输入，通过特征采样、聚类和针对3D场景数据设计的投票操作来执行3D边界框检测。自我监督学习。自监督学习已经取得了重大进展，并在2D视觉中受到了极大的关注[6因此，已经尝试将针对2D视觉提出的文本前任务适应于3D视觉，以便解决3D数据集上的人类注释问题[1，2，26，27，30，36，37，40，64，67，70]。最著名的自监督学习方法是 PointContrast 。PointContrast使用对比学习，通过在3D场景上注册点云对来学习几何特征。所提供的优点是，从两个不同的观点优化特征空间中成对的对应点之间的对比损失公式驱动的监督学习。公式驱动的监督学习[28，31，32，44]基于数学公式自动生成大规模数据集，并且不需要人类图像收集和手动注释。Kataoka等人。 [32]表明，2D-FractalDataBase预训练模型在图像分类任务的一部分中表现为ImageNet预训练模型。值得注意的是，这些方法通过预先训练呈现分形的合成图像而不使用自然图像来实现结果。我们推测，这些结果可能来自于前-21285噪音：地面实况生成111Σ Σ⊤4ˆˆxy z1scribed asx=∈R,where the notation·−{∈|联系我们3D IFS参数设置仿射变换三维分形模型分形范畴定义i=拉吉拉吉拉吉拉吉拉吉拉吉拉吉拉吉拉吉i#$+jzj拉吉第1第2类第3（= 1，2��= −0.40，1 = −0.61，1 =0.72，1 = −0.19，1 = −0.20，1 =−0.22，= 0.96，1= −0.84，1 =−0.53，=-0.48，101=-0.79，101=0.83��：起始点：转换点：点移动M-2类M-1类M类M类定义实例扩充Main：M第2三维分形场景生成三维包围盒质心类别内增加图2.用于3D点云的3D对象检测的公式驱动监督学习框架概述。我们使用3D迭代函数系统生成3D分形模型[4]（参见第二节）。第3.1节）。所提出的PC-FractalDB是通过使用方差阈值定义分形类别和使用FractalNoiseMix的实例增强来自动构建的（参见第2节）。3.2和3.3）。3D分形场景是通过随机选择3D分形模型并从z平面上的原点平移这些模型来生成的（参见第2节）。第3.4段）。基于分形的训练，这在现实世界中很常见，因此比ImageNet等大规模数据集覆盖更多的现实世界模式此外，本研究的重点是分形，因为我们认为，成功的预训练与自然的三维结构是三维场景在现实世界中的辅助3. 点云分形数据库（PC-FractalDB）我们介绍了PC-FractalDB的自动生成的三维分形模型和三维分形场景。我们通过四个过程构建 PC-FractalDB。首先，我们提供了一种基于3D迭代函数系统（3D IFS）的自动3D生成方法[4]（参见第2节）。第3.1节）。其次，我们根据3D分形模型的数据分布定义类别3.2）。第三，我们使用一种新的增强方法为每个类别生成实例，我们称之为FractalNoiseMix（参见第二节）。3.3）。最后，我们使用3D分形模型自动生成3D分形场景（见第二节）。第3.4段）。我们的框架的概述如图所示。二、3.1. 三维分形模型的自动生成PC-FractalDB是利用三维迭代函数系统（3DIFS）从无穷多对三维分形模型及其分形通过利用分形几何，在现实世界中常见的，我们假设，我们可以很容易地表示复杂的图案在3D场景中使用3D IFS，并可以在现实世界中的3D场景理解的帮助。3D分形模型是使用以下五个步骤。(1)随机设置多个仿射变换和选择概率。(2)初始点云由原点坐标指示，并被设置为当前点云。(3)基于选择概率来选择仿射变换中的一个。(4)使用所选仿射变换将当前点云仿射变换为下一个点云。(5)递归地执行步骤3和4直到集合N次迭代。通过将3D仿射变换Tj迭代地应用于初始点来生成3D分形模型。在本研究中，为了简单起见，我们引入齐次坐标来处理仿射变换。均质坐标，三维点云x=xyz∈R3是de-表示在齐次坐标中考虑该点注意，3D仿射变换包括旋转、平移、缩放和倾斜。为了自动生成三维分形模型，我们随机进行仿射变换。为了构造三维IFS集，生成仿射变换TjR4×41jN，其中仿射变换矩阵的元素由[ 1]范围内的均匀分布采样. 0，1。0]。当给定初始点x0时，3D仿射变换Tj使得3D分形模型P={x0，x1，···，xn}，xi=Tixi−1（1）对于i，从0到n，其中n是迭代次数选择Tj的概率表示为PTj。这里，pj=N迭代差异检查对准yX···21286j=0|||| Σ||旋转旋转方差阈值无方差阈值主要类别FractalNoiseMix噪音类别图3. 有无方差阈值时三维分形模型的差异。取决于作为属性的set参数点数：3，200点数：4，000点数：800在3D IFS中，3D分形模型的一部分是有偏的和聚集的，从而导致显著的稀疏。通过用变化阈值对类别进行分箱，3D分形模型的形状可以是不同的。detT j/Ndet T j。注意，仿射变换Tj的缩放因子由detTj给出。接下来，我们将原始坐标设置为初始点云P0，并通过遵循概率pj 从 3D IFS 中选择仿射变换。 3D分形模型由4，000次迭代生成。3.2. 按方差分组以分配类别在生成三维分形模型之后，需要为其定义一个类别通过使用具有3DIFS的框架，我们可以创建无限数量的类别，其中每个分形类别具有随机生成的仿射变换参数Tj然而，简单地设置类别定义而不执行质量检查可能会建立错误的类别。相比之下，所提出的方法包括通过使用方差对3D分形模型进行质量检查。点云分布给出了对应于3D分形模型的形状特征（见图3）。当3D分形模型的计算方差高于阈值时，将其注册为新的分形类别。通过设置该方差阈值，我们期望在3D空间中创建清晰自然的3D结构，并扩大分形类别之间的差异。方差阈值公式如下：min（V ar[x]，V ar[y]，V ar[z]）> σ（2）其中，由于如果方差阈值大于0.20，则需要更长的时间来定义分形类别，所以本文通过以每步0.05的增量将σ从0.0阈值化到0.2来设置方差的箱。此外，三维分形模型的所有点云都以中心为原点进行平移。此外，取决于仿射变换参数，3D分形模型的尺度因此，我们将3D分形模型尺度归一化为[-1.0，1.0]。3.3. 混合分形噪声方差分箱定义了分形类别，每个分形类别只有一个3D分形模型。为了帮助3D分形模型中的增加，我们提出了FractalNoiseMix（FNM），例如受PointMixup [15]启发的增强，如图4所示。与PointMixup不同，其中实例增强图4. FractalNoiseMix：类别内增强。我们混合了两种不同的3D分形模型。一个是主要的分形类别，另一个是作为分形噪声的分形类别在训练样本之间插值到crate中间类别，我们的方法试图增加类别内并提高PC-FractalDB预训练的有效性。所提出的方法的FNM涉及混合主要和次要分形类别。例如，一旦固定了请注意，在对3D分形模型进行分类时，让主分形类别为分形类别。随机点云可以用来增强，但我们认为这样会丢失重要的分形形状特征，所以本文采用了FNM。3.4. 三维分形场景的自动生成为了生成一个三维分形场景，我们首先需要从三维分形模型中随机抽取多个物体--每个三维分形场景中物体的数量服从泊松接下来，我们生成3D边界框并围绕z轴旋转3D分形模型。我们首先随机设置x轴上的比例因子，从0.75到1.25，然后乘以一个系数，该系数被设置为0.9根据设定的x轴比例因子，在y轴和z轴上将其缩放到1.1。3D室内数据集倾向于在每个对象比例中具有小方差的原因。同时，每个3D分形模型的方向可以围绕z轴随机旋转以获得训练变化。然而，由于3D分形模型没有正面，旋转角度在[-180，180]度之间随机设置最后，应将3D分形模型转换到z平面上，以将结构与现有数据集（如ScanNetV 2 [17]和SUN RGB-D [58]）对齐为了实现这一点，我们随机地将由三维分形模型生成的实例的x和y坐标设置为三维分形模型的质心，并重新定义质心。在这种情况下，要重新定义的x和y位置应该在[-7.5，7.5]的范围内。注意，每个3D分形模型的最小z坐标在同一z平面中对齐。因为在现实世界中，物体不可能因为重力而漂浮在空中212871.001.04× 1.051.01× 0.9从3D分形模型中随机选择对象的数量泊松分布9个对象/场景3D边界框Y轴刻度：1.04Y轴纵横比：1.05Z轴刻度：1.01Z轴纵横比：0.91面向对象Z轴旋转：45°��=45 °1对象位置质心坐标（x， y， z）=（2.00，3.00，1.20）对象对齐表1.在我们的实验中，预训练PC-FractalDB和微调SUN RGB-D和ScanNetV 2。数据集监管类别#场景型号[58]第58届中国国际航空航天博览会人类37 10.2k65kPC-FractalDB式1k100k1MNetV 2（类别：18，场景; 1.5k）大约需要23天（（22[分钟]* 1，500 [场景]）/（60 [分钟]* 24 [小时]））图5.用于三维物体检测的三维包围盒/三维分形场景生成。此外，请注意，3D分形模型被放置在3D分形场景中的非重叠位置。附录中提供了三维分形场景的可视化4. 实验在本节中，我们首先介绍如何预训练我们的PC-FractalDB并针对下游数据集对其进行微调（参见第二节）。4.1）。然后，我们提供了分析实验，以了解通过对象检测进行预训练的重要性，3D分形模型变化的影响，并显示我们的方法相对于由CAD模型组成的3D场景的优势（见第二节）。4.2）。然后，我们从探索性实验中探索PC-FractalDB的最佳参数（参见第二节）。4.3）。根据这些结果，我们将PC-FractalDB的最佳参数与之前的方法在两个3D室内物体检测基准上进行了比较（参见第二节）。4.3）。最后，我们在只有有限的训练数据和注释可用的情况下实验了我们方法的有效性（见第二节）。4.5）。附录中提供了更多分析探索的PC-FractaDB4.1. 实验环境在PC-FractalDB上进行预培训。在本文中，我们采用VoteNet，这是一种基于深度点集网络和Hough投票协同作用的端到端3D对象检测网络[48]。在实验中，我们使用 Point- Net++ [50] 和 Sparse Res-UNet （ SRU-Net）[67]作为骨干网络。与以前的工作不同，我们提出的方法能够在预训练阶段获得用于对象检测的特征表示为了构造PC-FractalDB预训练的VoteNet，分配以下训练参数。预训练最少进行1.8M次迭代，批量大小为64，学习率为0.004作为超参数。输入点云以40，000随机采样。例如，PC-FractalDB（类别：1 k，实例：500，场景：10 k）的构建可以在两天内完成，而预训练可以在六天内使用四个NVIDIA Tesla V100 GPU完成鉴于扫描-由于每个3D场景的生成过程需要22 [min][17]，我们发现PC-FractalDB的构建和预训练非常快。对下游数据集进行微调。接下来，我们使用微调数据集评估了PC-FractalDB预训练模型。使用ScanNetV 2[17]和SUN RGB-D [58]微调数据集这些捕获室内场景的数据集经常用于3D对象检测。以180个历元、64个批量大小和0. 01的学习率作为超参数进行微调对于40、80、120和160个时期的每个间隔，学习率为0.01输入点云以40，000（ScanNetV 2）和20，000（SUNRGB-D）随机采样。4.2. 初步研究在本小节中，为了了解预训练任务的效果，3D分形模型的变化，并显示我们的方法具体来说，我们通过实验研究了以下三个问题的答案。(i)哪个预训练任务更好：3D对象分类或3D对象检测作为预训练？(ii)3D图案变化在3D对象检测的（iii）预训练、3D分形模型和CAD模型哪个更(i) 哪个预训练任务更好：3D对象分类还是3D对象检测作为预训练？（参见表2）。这个初步实验（i）试图澄清哪一个作为预训练3D对象分类或3D对象检测任务更有效我们通过在PC- FractalDB上进行预训练（w/o3D边界框/3D分形场景）并在SUN RGB-D /ScanNetV 2数据集上进行微调来执行。在3D对象分类任务的情况下，它允许通过对3D分形模型进行分类来预训练骨干网络（PointNet++）。在微调阶段，对霍夫投票模块和另一方面，对3D目标检测任务的预训练可以优化整个网络，包括VoteNet中的hough投票模块和目标候选建议模块。单个3D分形模型的输入点数量为2，048，而3D分形场景的输入点数量随机采样为40，000。对象三维分形场景21288表2.分类和检测任务的预训练部分的比较。表3.3D分形模型变化的影响表4.我们提出的PC-FractalDB和ModelNet的比较。如表2所示，ScanNetV2上显示的检测预训练比相同数据集上的分类预训练准确率高出+12.3%对于SUNRGB-D观察到相同的这些结果认为检测预训练比分类预训练更有效，因为3D对象检测任务还可以预训练Hough投票和对象候选提议模块。(ii) 3D图案变化在3D物体检测的预训练中有多重要？（参见表3）。这项初步研究（ii）试图揭示3D图案变化在3D对象检测的预训练中的重要性。初步研究（ii）使用由仅使用一个3D分形模型的10，000个3D场景组成的PC-FractalDB、由使用1，000个3D分形模型的10，000个3D场景组成的PC-FractalDB以及由使用100，000个3D分形模型的10，000个3D场景这里，涉及1,000个3D分形模型，它有1,000个类别和一个实例，一个类别和1,000个实例。如表3所示，性能证实了PC-FractalDB（类别：1k，实例：1 k）预训练模型是其他PC-FractalDB预训练模型的最佳得分。特别是，与ScanNetV 2和SUN RGB-D的PC-FractalDB（仅一个3D分形模型）相比，我们观察到了+4.4%和+2.8%的性能改进。(iii) 3D分形模型和CAD模型哪个更有效？（参见表4）。本初步研究（iii）旨在评估3D分形模型中的3D分形场景生成效率。我们比较了ModelNet中包含的CAD模型在3D分形场景和3D场景中的预训练性能[65]。从表4中可以看出，PC-FractalDB预训练的VoteNet优于用Mod- elNet产生的3D场景。ScanNetV 2和SUNRGB-D的性能差距分别为+0.5%和+3.0%。请注意，使用ModelNet的3D场景（类别：40，实例：平均值243，场景; 10 k）大于本实验中使用的PC-FractalDB（类别：40，实例：243，场景; 10 k）。因此，我们可以确认，基于分形几何生成的3D分形场景比由CAD模型组织良好的表面数据（如ModelNet）生成的3D场景更有效。4.3. 勘探研究在本小节中，为了探索PC-FractalDB的优化参数，我们进行了六项探索研究。具体来说，我们将探索如何为方差阈值，FNM，#instance，#category，#scene和#object构建PC-FractalDB。方差阈值的影响（见表5）。该实验阐明了在PC-FractalDB（Category：1 k，Instance：500，Scene; 10k）条件下的分形类别定义中是否需要方差阈值σ（w/和w/o方差）表5显示w/方差阈值σ优于w/o设置。此外，我们发现0.15的方差阈值σ优于0.10，并且0.20的方差阈值需要更大量的时间来搜索分形类别。探索性实验详细比较了各个方差阈值的性能。FractalNoiseMix的效果（见表6）。该实验阐明了在PC-FractalDB（类别：1 k，实例：500，场景; 10 k）条件下在类别内增强中是否需要FNM（w/和w/o方差）。表6显示w/ FNM优于w/o FNM。此外，我们还探索了分形噪声比为20%的最佳有效参数.对分形噪声比的探索性实验细节进行了补充。#instance的影响（参见表7）。本实验探索了在PC-FractalDB（Category：1 k，Scene; 10 k）条件下PC-FractalDB预训练中最有效的#实例。表7显示1，000个实例提供最佳结果。#类别的影响（见表8）。本实验探索了PC-FractalDB（实例：500，场景; 10 k）条件下PC-FractalDB预训练中最有效的#类别。表8显示，1，000个类别提供了最佳结果。#scene 的效果（见表 9 ）。本实验探索了在 PC-FractalDB（Category：1 k，Instance：500）条件下PC-FractalDB预训练中最有效的#场景。表9显示10，000个场景提供最佳结果。每个场景的#object效果（见表9）。本实验探索了在PC-FractalDB（类别：ScanNetV2 SUN RGB-DmAP@0.25mAP@0.25#型号#猫数量ScanNetV2mAP@0.25SUN RGB-DmAP@0.2511157.256.41k1k160.357.51k11k59.356.61M1k1k61.659.2ScanNetV2mAP@0.25SUN RGB-DmAP@0.25ModelNet59.955.0PC-FractalDB60.458.0PointNet++48.849.8VoteNet61.157.621289×--×}{------表5.有（w/）和无（w / o）方差阈值的比较。ScanNetV2 SUN RGB-DmAP@0.25mAP@0.25无方差58.955.4w /方差61.959.0表8.#category的作用表6.使用（w/）和不使用（w / o）FractalNoiseMix（FNM）的比较。ScanNetV2 SUN RGB-DmAP@0.25mAP@0.25无FNM60.357.5带FNM61.959.0表9. #scene的效果表7. #实例的效果ScanNetV2 SUN RGB-DmAP@0.25mAP@0.251060.858.210060.657.71,00061.659.2表10. #object的作用ScanNetV2 SUN RGB-DmAP@0.25mAP@0.25ScanNetV2 SUN RGB-DmAP@0.25mAP@0.25ScanNetV2 SUN RGB-DmAP@0.25mAP@0.251060.857.81k60.055.3559.457.910061.058.310k61.959.01561.959.01,00061.959.0100k61.558.32558.356.81 k，实例：500，场景; 10 k）条件。根据泊松分布确定了在三维分形场景中放置的三维分形模型的数量。在这个实验中，我们设置5，10，15，这是假设是一个真实的室内场景中的对象的数量，作为泊松分布的平均值。表10显示了15个对象提供了最佳结果。4.4. 与其他预训练方法的在此基础上，研究了SEC。 4.3，我们在表11中列出了3D对象检测分数。在这里，我们在预训练方面比较了提出的PC-FractalDB与自监督学习方法（PointContrast [67]，CSC [26]和Ran-domRooms [51]）。该实验使用了PointNet++和SR-UNet等骨干网络如表11所示，当骨干网是PointNet++，与从头开始训练相比，使用 PC-FractalDB 进行的预训练在ScanNetV 2上提高了+4.0%，在SUN RGB-D上提高了+2.0%，mAP@0.25。此外，当骨干网络是SR-UNet时，与从头开始训练相比，使用PC-FractalDB进行预训练在ScanNetV 2上提高了+2.4%，在SUN RGB-D上提高了+1.0%，mAP@0.25接下来，我们证实了PC-FractalDB的性能相对高于以前最先进的自监督学习方法。 PC-FractalDB（PointNet++）的性能率为+0.6%，+0.2% ，优于 ScanNetV 2 和 SUN RGB-D 上的RandomRooms 。我们还证实了 PC-FractalDB （ SR-UNet ）大致等同于 CSC 和点对比。 PC-FractalDB（PointNet++ 2）的性能率为+2.1%和+3.7%，优于ScanNetV 2和SUN RGB-D上的PointContrast。另一方面，当比较具有相同参数的PointNet++和SRUNet时，PC-FractalDB（PointNet++ 2）在所有评估中显示出最高的准确性，除了SUN RGBD在mAP@0.50。4.5. 另外的实验我们进行了三个额外的实验，包括（i）有限的训练数据， 10%、20%、40%、80%亚组，(ii)具有1、2、4、7个对象的有限的3D边界框注释，以及（iii）在预训练中监督者标签的影响有限的微调数据（见图1）。我们在较小的微调数据集上验证了PC-FractalDB预训练模型的有效性。我们从ScanNetV2训练数据中抽取10%，20%，40%，80%的样本，并使用官方的ScanNetV2验证集进行评估（有关详细信息，请参阅[26]）。如图1所示，在所有有限的训练子集上，PC-FractalDB预训练模型产生的分数高于PointContrast预训练模型和CSC预训练模型。实验结果表明，与以往的自监督学习方法相比，该方法在训练数据有限的情况下，可以在微调数据集上获得有效的特征。有限的3D边界框注释（见图1）。此外，我们还评估了PC-FractalDB预训练模型在有限的3D边界框注释上的有效性。我们从ScanNetV2训练数据中随机抽取每个场景的 1 ， 2 ， 4 ， 7 个 3D 绑定框，并使用官方ScanNetV2 验证集进行评估（详细信息，请参阅[26]）。如图1所示，在所有有限的注释子集上，PC-FractalDB预训练模型产生的分数高于点对比预训练模型和CSC预训练模型。主管标签在职前训练中的效果。 (see Ta-表12）。我们研究了在PC-FractalDB中公式驱动和自监督学习更有效对于自监督学习， PC-FractalDB 基于PointContrast的实现从两个不同的角度给出伪标签表12显示，公式驱动的分数提高了在ScanNetV 2上为+1.8%，在SUN RGB-D COM上为+2.8%，以实现自我监督学习。21290表11.代表性数据集上的3D对象检测比较。我们采用了具有基本VoteNet模型的架构，并使用它们来比较网络预训练方法，包括从头开始训练，PointContrast [67]，CSC [26]，RandomRooms [51]和PC-FractalDB。带下划线的粗体和粗体分数分别表示最佳和次佳值。预训练骨干参数输入ScanNetV2mAP@0.25mAP@0.50SUN RGB-DmAP@0.25mAP@0.50划痕PointNet++0.95MGeo +高度57.932.157.432.8划痕SR-UNet38.2MGeo57.035.856.134.2免费WiFi [51]PointNet++0.95MGeo +高度61.336.259.235.4[第67话]SR-UNet38.2MGeo59.238.057.534.8CSC [26]SR-UNet38.2MGeo-39.3-36.4PC-FractalDBPointNet++0.95MGeo +高度61.938.359.433.9PC-FractalDBPointNet++ ×238.2MGeo +高度63.439.960.235.2PC-FractalDBSR-UNet38.2MGeo59.437.057.135.9表12.主管标签在职前训练中的效果。主管标签ScanNetV2mAP@0.25SUN RGB-DmAP@0.25PointContrast（SSL）57.654.33D IFS（FDSL）59.457.15. 讨论分形几何特征是必不可少的。表4和表11显示，在预训练中， PC-FractalDB 比由单对象 CAD 模型（如RandomRooms）构建的3D场景更有效。所提出的PC-FractalDB可以预训练复杂的几何形状，CAD模型。这使我们认为，由于基于分形几何的构造， PC-FractalDB可以在现实世界中学习到比传统3D数据集相对更多样化的变化和常见的3D模式，这对于有效的预训练很重要。3D目标检测任务的预训练是有效的。表2显示，考虑整个3D对象检测任务的预训练比仅预训练骨干网络更有效。这使我们认为，以前的自监督学习方法只能用预训练模型初始化骨干网络，但我们提出的方法可以用PC-FractalDB预训练模型初始化整个此外，图1表明，对于有限的数据和注释，PC-FractalDB比以前的自监督学习更有效。这使我们认为，对于有限的数据集，使用大量3D场景进行预训练是很重要的。使用FDSL构建3D数据集的概念不需要手动数据收集和注释，对于3D视觉来说是新兴的。如何分配主管标签至关重要。表 12 显示了 PC-FractalDB通过3D压裂数据和来自Dracti的监督标记对记录的更好分数calformula比PointContrast的外部标签更重要。这使我们认为对象-标签关系对于在预训练中获得更好的特征表示是必不可少的。此外，我们的方法可以分配一致的监督者标签的大量自动生成的三维分形数据的基础上的数学公式。6. 结论为了解决3D点云数据预训练的难题，提出了一种基于公式驱动的监督学习框架的3D数据集构建方法。我们设计了PC-FractalDB，一个新颖的FDSL系列，灵感来自自然3D结构中遇到的分形几何。最重要的是3D数据集的自动构建，从而不需要扫描数据和人工注释，这与以前的自监督学习不同。我们表明，我们提出的PC-FractalDB显着提高了性能的3D对象检测。此外，我们通过全面调查类别，实例，场景等，发现了用于预训练数据集构造的重要参数。3D数据集。特别是，PC-FractalDB预训练模型对于有限的训练数据和注释比以前的自监督学习更有效，因为整个网络可用于预训练。因此，我们发现了用于3D检测的有效预训练数据集的构造概念，我们相信我们的PC-FractalDB将为未来增加对3D场景的理解提供关键。鸣谢：本文是基于新能源和产业技术开发组织（NEDO）委托的项目JPNP20006的结果。该模型使用了美国国家先进工业科学技术研究院（AIST）提供的人工智能桥接云基础设施（ ABCI ）我们要感谢Ryosuke Araki和Kai Watabe的有益研究讨论。21291引用[1] Idan Achituve，Haggai Maron，and Gal Chechik.点云上用于域适应的自监督学习。在IEEE/CVF计算机视觉应用冬季会议（WACV）论文集，第123-133页，2021年。[2] Antonio Alliegro，Davide Boscaini和Tatiana Tommasi。联合监督和自我监督学习的三维现实世界的挑战。在第25届国际模式识别会议（ICPR）的会议记录中，第6718- 6725页[3] Iro Armeni，Ozan Sener，Amir R Zamir，Helen Jiang，Ioannis Brilakis，Martin Fischer，and Silvio Savarese.大规模室内空间的三维语义解析。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第1534-1543页[4] Michael F.巴恩斯利到处都是分形。中国科学出版社.纽约，1988年。[5] Yoshua Bengio Aaron Courville和Pascal Vincent表征学习：回顾与新视角 . IEEE Transactions on PatternAnalysis and Machine Intelligence （ TPAMI ）， 35（8）：1798[6] Piotr Bojanowski和Armand Joulin。通过预测噪声进行无监督第34届国际机器学习会议（ICML）论文集，第517-526页，2017年[7] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.通过对比聚类分配的视觉特征的无监督学习。第34届神经信息处理系统会议（NeurIPS），2020年。[8] Mat

下载后可阅读完整内容，剩余1页未读，立即下载