三维特征的自监督预训练方法

58 浏览量更新于2023-10-13 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

110252任意点云上三维特征的自监督预训练Zaiwei Zhang1，2*Rohit Girdhar1Armand Joulin1Ishan Misra11Facebook AI Research2德克萨斯大学奥斯汀摘要在大型标记数据集上进行预训练是在图像识别、视频理解等许多计算机视觉任务中实现良好性能的先决条件。然而，预训练并不广泛用于3D识别任务，其中最先进的方法从头开始训练模型。主要原因是缺乏大型注释数据集，因为3D数据标记是耗时的。最近的工作表明，自监督学习对于预训练3D模型是有用的，但需要多视图数据和点对应。我们提出了一种简单的自我监督预训练方法，该方法可以与由不同传感器采集的单视图深度扫描一起工作，而无需3D配准和点对应。我们预训练标准点云和基于体素的模型架构，并表明联合预训练进一步提高了性能。我们评估我们的模型在9个基准对象检测，语义分割和对象分类，在那里他们实现了国家的最先进的结果。最值得注意的是，我们在 ScanNet （ 69.0% mAP ）和 SUNRGBD（63.5% mAP）上设置了新的最我们的预训练模型具有标签效率，并提高了具有少量示例的类的性能。1. 介绍在大型标记数据集上预训练视觉特征是在访问注释受限时实现良好性能的先决条件[27，46，52，87]。最近，自监督预训练已经成为监督预训练的流行替代方案，特别是对于注释耗时的任务，例如图像中的检测和分割[9，36，37，56，93]或视频中的跟踪[41]。在3D视觉中，注释也难以获取。标记由数千个3D点组成的3D场景是耗时的，并且每个场景可能需要大约22分钟[18]。这种繁琐的注释过程导致缺乏大型注释的3D数据集。然而，由于消费级深度感测技术的出现，以单视图深度图的形式获取3D数据变得比以往任何时候都更*在Facebook实习期间完成的工作。同样的性能。标签数量减少约2倍同样的性能。标签数量减少约2倍图1：自我监督预训练的标签效率。我们从头开始微调检测模型，或者使用我们的预训练作为初始化。我们的预训练使用未标记的单视图3D数据，优于从头开始的训练，并且使用大约一半的检测标签实现相同的例如，在电话[24，73，83]。虽然可以利用这些深度图来预训练自监督3D特征，但令人惊讶的是，可以应用的工作很少。最近的工作[105]将自监督预训练应用于3D模型，但使用具有点对应的多视图深度扫描。由于3D传感器仅获取单视图深度扫描，因此多视图深度扫描和点对应性通常经由3D重建来获得不幸的是，即使使用良好的传感器，3D重建也容易因各种原因而失败，例如非静态环境，快速相机运动或里程漂移[16]。在本文中，我们介绍了一个简单的对比框架，DepthContrast，从单视图深度扫描表示。从实践的角度来看，来自单视图深度扫描的自监督学习更广泛地适用于3D数据。这也是一个有趣的科学问题，是否只使用单视图信息可以为3D中的自监督学习提供好处。我们的方法是基于实例判别方法吴等。[103]应用于深度图。我们通过将每个深度图视为一个实例并在它们之间进行区分，即使它们来自同一场景，也不需要注册的点云或对应关系。由于不同的3D应用需要不同的3D场景表示，110253例如用于分割的体素[17]，用于检测的点云[64]，我们将我们的方法用于体素和点云。我们通过将相同3D场景的体素和点云视为使用其相关网络处理的数据增强来共同学习特征[93]。我们的贡献可归纳如下：• 我们表明，单视图3D深度扫描可用于自监督学习。• 我们的单视图表示表现相当，或者在某些设置中比多视图表示更好，这表明单视图深度扫描对于学习功能确实很• 我们的方法适用于不同的模型架构，室内/室外3D数据，单/多视图3D数据。我们还表明，它可以用于预训练高容量的3D架构，否则过拟合的任务，如检测和分割。• 我们表明，不同的输入表示，如点和体素的联合训练是很重要的学习良好的表示，对比学习的天真的应用程序可能不会产生良好的结果。• 我们表现出超过九个下游任务的性能改进，并设置了一个新的国家的最先进的两个对象检测任务（ScanNet和SUNGBD）。我们的模型是高效的少数镜头学习者。2. 相关工作我们的方法建立在自监督学习文献的基础上，以3D数据作为应用程序。在本节中，我们将概述自我监督和3D表示的最新进展图像的自我监督学习。自监督学习是机器学习和计算机视觉中一个研究得很好的问题[53，60，69，72，95]。有许多类用于学习表示的方法-聚类[7，8，43]，GAN [20，55]，借口任务[19，59，97]等。最近进步[9，13，30，36，37，47，56，94]已经表明，对于2D识别任务，自监督预训练是监督预训练的可行替代方案。我们的工作建立在对比学习[34，61]的基础上，其中模型被训练来区分每个实例[21]，没有明确的分类器[103]。这些实例判别方法可以扩展到多种模态[57，62，93]。我们的方法扩展了吴等的工作。[103]到多个3D输入格式以下田等。[93]使用动量编码器[36]代替存储器组。3D数据的自监督学习。大多数关于自监督学习的方法都集中在单个3D对象表示上，并具有重建、分类或部分分割的不同应用[1，2，25，33，35，44，49，74，99，110]。最近，谢等。[105]自我监督方法来构建场景级点云的表示他们的方法依赖于场景的完整3D重建，其中点云的不同视图之间具有逐点对应。这些逐点对应需要通过将不同深度图配准到单个3D场景中来对数据进行后处理。他们的方法只能应用于已经注册的静态场景，这极大地限制了他们的工作的应用。我们展示了一种简单的自监督方法，该方法从单视图3D数据中学习最先进的表示，并且也可以应用于多视图数据。3D场景的表现。有多种方法以不同的矢量化形式表示3D信息，例如点云、体素或网格。基于点云的模型[66，68]广泛用于分类和分割任务[6，40，45，66，68，91，98，100，106，107]、3D重建[23，90，110]和3D对象检测[63，64、77、98、112、112、114]。由于许多3D传感器以3D点的形式获取数据，因此点云是深度网络的方便输入。然而，由于直接在点云上使用卷积操作是困难的[31，66]，体素化数据是另一种流行的输入表示。3D卷积模型[3，17，28，31，38，50，70，85，92]是广泛用于3D场景理解[32，82，109，116]。还存在组合不同3D输入表示的努力[29，76，96，113在这项工作中，我们提出联合预训练点和体素的两种架构，即点的PointNet++[68]和体素的基于稀疏卷积的U-Net [173D传输任务和数据集。我们使用形状分类，场景分割和对象检测作为迁移学习的识别任务。形状分类技术[11，54，66-它包含合成3D数据，每个样本包含一个对象。我们还使用更一般的3D场景理解任务对完整的3D场景进行评估以场景为中心的数据集可以大致分为室内场景[5，10，18，39，58，63，75，77，78，79，79，79，79]。81，84，104]，和户外（自动驾驶聚焦）场景[26，71，88]。我们使用这些数据集并评估我们的方法在室内检测上的性能[12，22，64，65，114]，场景分割[17，68，92，101，108]，和室外去-保护任务[15，48，763. 深度对比我们提出了无监督的 3D 表示学习方法。DepthContrast可以从未经处理的单视图或多视图深度图中学习。我们的方法，如图2所示，是基于吴等的实例判别框架。[103]具有动量编码器[36]。我们还展示了建立在[93]基础上的DepthContrast的扩展，该扩展可以跨3D输入格式（如点和体素）以及跨3D架构学习表示。110254i=1˜=− logexp（vi，1vi，2/τ）i，1我2j=ii，1JD {}我图2：方法概述。我们提出了DepthContrast -一种简单的3D表示学习方法，使用大量未处理的单视图/多视图深度图。给定深度图，我们使用数据增强构建两个增强版本，并用选定的输入格式（点坐标或体素）表示它们。我们使用格式特定的编码器来获得空间特征，这些空间特征被合并和投影以获得全局特征v。全局特征用于设置实例判别任务并预训练编码器。3.1. 实例判别给定一个包含N个样本X的数据集=XN，我们希望学习一个函数g（X），它产生输入样本的有用表示v=g（X）。如图2所示，我们的方法使用3D数据，其中X可以表示为由点坐标或体素表示1.我们应用从一个大的增广集合T中随机采样的数据增广t，以获得增广样本X=t（X）。活泼地这允许我们使用大量K个阴性样本，而不会增加训练批次大小。3.2. 多种3D输入格式通常使用多种输入格式来表示三维数据-点云、体素、网格等。不同的输入格式可以很容易地从一个转换到另一个，并有其特定的深度学习架构和应用。我们的自我监督方法可以很自然地...增强样本被输入到深度网络g，该深度网络g通过在3D空间坐标上进行池化来追踪单位范数全局特征v=g（X）我们设置了一个实例判别问题，其中从样本i的两个数据增强版本获得的特征vi，1和vi，2必须彼此相似，并且不同于使用数据集中的K个其他（负）样本j获得的特征vj我们使用一个倾向于适应这些输入格式和体系结构。对于每个输入格式f，我们将对应的输入样本表示为Xf，将格式特定的编码器网络表示为gf，并且将提取的特征表示为vf。扩展等式1，我们可以最小化在输入格式a，b内和跨输入格式a，b执行实例区分的单个目标：对比损失[34，61，80]，以实现这一目标：exp（vavb/τ）l ab= − logi，1i，2.（二）exp（vaiΣKexp（vv/τ）+exp（vv/τ）i，1我2jii，1j当输入格式a、b相同时，该目标减少到等式1的格式内损失，并且当其中τ是控制平滑度的温度softmax分布这种损失促使来自相同场景的不同增强的特征相似，而与其他场景的特征不相似因此，它学习专注于场景的区分区域的特征，使其与数据集中的其他场景不同该目标对准使用不同网络架构gf从各种格式f获得的特征表示vf=gf（Xf）。如图3所示，我们使用两个popu-更大输入格式-点云和体素，并使用单个联合损失函数阿布巴阿卜对输入数据的最小假设。我们的方法对输入X做了最小的假设，即这是一个不亲-Li=Li+Li`acrosformaxt+li+liw`ithinformaxt.（三）切割的单视图深度图。它不需要对重叠的多视图3D输入[105]或以对象为中心的深度图[35，44]进行仔细采样。这些最小假设使我们能够从§4中的大规模单视图3D深度图和从不同传感器获得的室外3D深度图中学习，而不依赖§5.3中的3D校准。动量编码器由于使用大量的否定对于对比学习很重要[13，36，56，103]，我们使用He等人的方法。[36]其中，使用动量编码器和队列分别获得等式1中的其他增强v1，2和负样本vj。1深度图中的点是一个集合，但为了简单起见，我们将它们表示为矩阵。我们的方法不依赖于点的任何特定顺序。类似的技术已经在不同数据模式的背景下进行了探索，彩色和灰度图像图3：多种3D输入格式我们将我们的方法扩展到使用点和体素输入格式的联合训练。L、（1）110255年龄[93]、音频和视频[57，62]等。虽然这些方法使用不同的模态，但我们的扩展使用相同的3D数据，并且仅更改输入格式。3.3. 模型架构我们描述了用于我们的输入格式特定的编码器的模型架构。两个编码器对相同的增强输入3D数据进行操作，并且仅在表示输入的方式上不同。我们在补充材料中提供了完整的分层架构细节。点输入。我们使用PointNet++ [64]作为主干网络，它将XYZ坐标作为输入。我们的网络接收20K个点，每个点产生C维1024个点的特征。得到了通过全局最大池化到这些最后层特征，然后是如[13]中的两层MLP和L2归一化，在等式2中的场景级256维特征v体素输入。我们使用稀疏卷积U-Net模型[17]作为体素3D输入的主干。该网络采用3D占用网格和对应的RGB值作为3D数据的输入表示。我们使用5cm的体素大小对输入数据进行体素化[17]。为了获得场景级256维特征v（等式2），类似于点输入，我们对最后一层特征应用全局最大池化，然后进行两层MLP和L2归一化。3.4. 3D数据增强数据增强是我们框架的重要组成部分。我们首先采用[64]中提出的标准点云数据参数化方法，即随机点上/下采样、xy轴随机翻转和随机旋转。但是，在添加了这些方法之后，网络仍然很容易区分不同的训练实例。因此，我们添加了两种新的数据增强方法：随机长方体和随机滴块。受2D图像中随机裁剪的启发[89]，我们定义了一个随机长方体增强，从输入点云中提取随机长方体使用随机尺度[0. 五一0]和随机纵横比[0. 75，1。0]。我们还删除（擦除）长方体，以迫使网络学习局部几何特征。掉落的长方体随机裁剪为0。2、场景的尺度。§5分析了每次增强的性能提升。对于体素化输入，除了所有的点增强之外，我们还使用来自[17]的增强。3.5. 实现细节我们使用130K负数进行等式3中的对比学习，动量为0。9对于动量编码器，遵循[36]。如§3.3所述，我们遵循Chenet al. [13]并使用附加的非线性投影和L2归一化来获得特征v。特征V是128维的，并且我们使用0的温度值。1，同时计算等式1中的非参数softmax。我们用一个标准数据集深度对比度的统计任务增益自我监督预训练[18]第十八话190K单视图深度图（室内）[第16话]370 K单视图深度图（室内/室外）转移任务ScanNet [18]1.2K系列，312 val（室内）检测器 +3.6% mAP隔离区+0.9%mIOU†[81]第十一话5.2K系列，5K值（室内）Det+3.3% mAPS3DIS [4]199列车，67 val（室内）Det+12.1% mAP隔离区 +2.4% mIOU辛西亚[71]19.8K序列，1.8K值（合成器）隔离区+2.4% mIOUMatterport3D [10]1.4K列车，232 val（室内）Det.+3.9% mAP形状分类[102]9.8K序列，2.4K值（合成）Cls.+3.1%加速†检测：对象检测，分段：语义分割Cls：分类，合成：合成，†补充结果。表1：本文中使用的预训练数据集和迁移任务我们使用两个不同的预训练数据集，而不进行3D配准、相机校准等后处理。我们使用8个不同的转移任务进行评估，其中我们的DepthContrast预训练与scratch预训练相比具有一致的增益（最后一列）。此外，我们在§5.3中显示了LiDAR数据的评估结果。动量为0的SGD优化器。9、余弦学习速率调度器[51]从0开始。12比0 00012，并以1024的批量大小训练模型1000个时期。4. 实验我们通过迁移学习来评估深度对比预训练，即对下游任务和数据集微调所学习的表示。如表1所示，我们使用了一组不同的3D理解任务，如对象分类、语义分割和对象检测。我们首先在§4.1中研究了单输入3D格式和单网络架构。我们展示了DepthContrast在多个下游任务上的性能，即使与多视图方法[105]相比;通过扩展预训练数据量和模型容量进行进一步改进;以及其在具有有限标记数据的少量下游任务中的益处。最后，在第4.2节中，我们展示了不同3D输入格式的预训练的好处。预培训详细信息。我们使用来自流行的ScanNet [18]数据集的单视图深度图视频，并将其称为ScanNet-vid。ScanNet-vid包含超过1500个室内场景的约250万个根据[64]的train/val分割，我们从训练集中的大约1200个视频序列中提取了大约190 K RGB-D扫描（2FPS）。我们不使用相机校准或3D配准方法，直接在单视图深度图上操作。我们使用§3.4中描述的数据增强，并使用§3中的训练目标。其他详细信息见§3.5和补充材料。下游任务。我们通过迁移学习来评估我们的预训练模型，并在表1中总结的不同下游数据集和任务上对其进行微调。我们使用不同的下游数据集-全场景/对象中心-110256检测AP25关于我们--SUNRGBD检测ScanNet检测Matterport检测S3DIS检测刮伤646062我们的（ScanNet-vid）我们的（Redwood-vid + ScanNet-vid）4544404258561.0 2.0 5.010模型参数（百万）60581.0 2.0 5.010模型参数（百万）40381.0 2.0 5.010模型参数（百万）35301.0 2.0 5.0 10模型参数（百万）图4：缩放模型大小和预训练数据。我们通过将宽度增加2、3、4来增加 P o i n t N e t + + 模型的模型容量。当从头开始训练时，增加模型容量会提高性能，但最终会导致过拟合。过拟合在像S3DIS这样的小数据集上更为明显。我们在ScanNet-vid上的DepthContrast预训练提高了较大模型的性能，并减少了过拟合。我们通过结合ScanNet-vid和Redwood-vid中现成的单视图深度图来增加预训练数据在使用大数据和大模型时，DepthContrast深度对比度（我们的）61.3（+2.7） 60.4（+3.0）41.9（+3.1）43.3（+12.1）点对比度[105] 59.2（+2.5） 57.5（+1.9）--表2：使用VoteNet检测AP25 [64]。我们评估不同的预训练模型-随机初始化，ScanNet上的监督VoteNet，我们使用点输入格式的自监督DepthContrast，以及使用PointContrast的自监督。我们所提供绿色的改进超过了从头开始训练的探测器。请注意，PointContrast使用UNet主干。DepthContrast在所有基准测试中均优于划痕模型，并且优于两个数据集上的检测特定监督预训练。tric;单/多视图;真实/合成;室内/室外。在这些不同的数据集上，我们使用三个主要任务，即分类，语义分割和对象检测。这些任务测试预训练模型的不同方面-而对象检测和语义分割使用局部特征，分类是在全局特征上执行的。4.1. 使用点输入格式进行Setup. 我们使用Eq1中的实例判别目标对ScanNet-vid的单视图深度图预训练PointNet++模型。我们使用使用PointNet++主干的VoteNet [64]框架研究了预训练模型在对象检测基线。Scratch-从头开始训练或随机初始化是VoteNet中的标准实践[64]，并作为比较其他预训练方法的基线。监督-我们通过在ScanNet检测任务上对PointNet++主干进行预训练来引入监督预训练基线。由于监督基线是专门针对对象检测进行预训练的，因此它用作强基线。PointContrast- 我们与PointContrast[105]预训练模型进行比较，该模型使用严格更多的信息（多个）。视图）比我们的模型（单视图），并作为一个重要的上限。我们注意到该模型的架构是不同的，并且如他们的工作[105]中所报告的，PointContrast在单视图数据上表现不佳。在表2中，我们报告了使用不同主干初始化微调VoteNet模型的检测结果。我们使用[64]的实现进行微调，并使用平均平均值报告检测性能。IoU=0.25（AP25）度量时的年龄精度。Scratch训练在较大的检测数据集上提供了有竞争力的结果然而，与ScanNet和S3DIS GBD [42，79，81，104]一样，它在较小的S3DIS数据集上的性能较低。相比之下，监督预训练在所有数据集的检测性能上提供了很大的增益。DepthContrast在所有四个数据集上的性能都优于从头开始的训练，并且在只有200个标记训练样本的小型S3DIS数据集上将性能提高了12.1% mAP。我们在§4.1.4中进一步分析了我们模型的标签效率。有趣的是，尽管在预训练期间没有使用标签，但对于两个数据集（ SUNGBD 和 Matter-port 3D ），DepthContrast 优于检测特定的监督预训练。与PointContrast相比，我们的模型在划痕基线上实现了类似的增益。这表明，我们的单视图DepthContrast可以学习与多视图对象检测方法相当的表示。4.1.1训练更高能力的模型我们现在将DepthContrast应用于更高容量的型号。根据2D自监督学习的标准实践[47]，我们通过将所有层的通道宽度乘以2，3，4来增加PointNet++模型的容量。我们在ScanNet-vid数据集上预训练所有模型，并在图4中测量其传输性能。从头开始训练大型模型提供了一些好处，但很快会导致性能下降或停滞不前我们观察检测AP25检测AP25检测AP25初始化ScanNetSUNRGBD马tterport3DS3dis划痕58.657.438.831.2监督-59.1（+1.7）41.7（+2.9）48.5（+17.3）110257×××−方法ScanNetAP25 AP50SUNRGBDAP25 AP50F-PointNet [65]54.0---VoteNet [64]58.633.557.732.9H3DNet [114]67.248.160.139.0HGNet [12]61.334.461.634.43D-MPA [22]64.249.2--美国（公告牌热门单曲榜）[105]59.238.057.534.8深度对比度（VoteNet）64.042.961.635.5深度对比度（H3DNet）69.050.063.543.4表3：使用现有技术检测框架的转移我们使用预训练模型（Redwood-vid上的PointNet++3+ScanNet-vid），并使用两种最先进的检测技术进行传输框架-H3 DNet [114]和VoteNet [64]。我们的DepthContrast预训练优于所有先前的工作，并在ScanNet和SUNRGBD检测数据集上设置了新的最在像S3DIS这样的小数据集上过拟合，其中增加模型容量不会提高性能。然而，我们在ScanNet-vid上的自我监督预训练减少了这种过拟合，并且对于更大的模型，性能得到了改善或保持不变。这表明预训练对于训练大型3D检测模型至关重要，并且深度对比度可以提供训练此类模型的简单方法。4.1.2使用更多单视图预训练数据我们通过使用Redwood-vid数据集[16]中现成的单视图3D数据来增加预训练数据。Redwood-vid包含超过2300万个在室内和室外环境中拍摄的RGB-D视频的深度扫描。由于该数据集非常大，我们使用由10个类别组成的2500个视频序列的子集并提取370 K RGB-D扫描。由于Redwood-vid数据集不包含相机外部参数，因此像PointContrast [105]这样的多视图方法不能用于此类数据集。结合Redwood-vid和ScanNet-vid数据集，我们可以将预训练数据增加三倍我们在此组合数据集上预训练所有模型并报告其性能(AP25）中。DepthContrast在所有四个检测数据集上的PLES。更高容量的模型表现出更大的性能改善，特别是在较小的S3DIS数据集。这些结果强调了DepthContrast可以利用大量现成的单视图数据来训练高容量3D模型。与多视图方法[105]相比，这使得深度对比度更广泛地适用。4.1.3最先进的检测框架我们使用两个最先进的检测框架-H3 DNet [114]和VoteNet [64]，并研究使用我们的预训练模型的好处我们使用在Redwood-vid和ScanNet-vid组合上预训练的PointNet++3图5：预训练有利于长尾类。我们分析了SURGBD对象检测的不同类别的预训练的增益。训练数据具有长尾分布，其中最不频繁的类比最频繁的类少出现50。我们的预训练将具有较少标记实例的类的性能提高了4-8%。（趋势线为绿色。）数据集并使用这些检测框架传输它。表3中的检测结果表明，我们的预训练模型在SUNRGBD和ScanNet上达到了最先进的性能特别是，由于在IoU=0.5时更严格的mAP上的增益更大，因此我们的预训练模型会产生更好的定位检测模型。4.1.4预训练模型预训练允许使用少量标记数据对模型进行微调。在表2中，我们观察到小的标记数据集从预训练中受益更多。我们通过改变用于微调的标记数据量来研究DepthContrast预训练模型的标记效率。在改变数据的同时，我们抽取3个独立样本并报告平均结果。我们使用在ScanNet-vid（§4.1）上预训练的PointNet++模型，并在图1中报告检测性能。DepthContrast预训练在每个设置下都能大幅提高性能。在ScanNet和SUNRGBD数据集上，我们的模型只有50%的样本，与使用完整数据集从头开始训练的模型当使用20%的样本进行微调时，我们的预训练模型提供了超过10% mAP的增益。这表明我们的预训练是标签有效的，可以提高性能，特别是在监督有限的任务上。预训练是否有益于尾班？像SUNGBD和ScanNet这样的3D检测数据集表现出长尾分布，其中许多“尾部”类具有很少的训练实例。在SUNGBD中，像浴缸、厕所、梳妆台这样的图 5 显示了我们的预训练模型在SUNRGBD上跨对象类我们的预训练提高了实例较少的类的性能，即尾类，平均提高4.8%。这表明深度对比度预训练在少数镜头集中特别有效。110258任务形状分类线性（准确度）SUNRGBD检测（mAP）[64]第64话+兰德。长方体跌落80.685.485.058.6 59.560.7表4：多种输入格式。我们研究的重要性，共同使用多种输入格式的训练三维表示-点和体素。我们在公式3中改变格式内和跨格式损失项。我们报告了点转移任务的检测mAP@0.25和体素转移任务的分割mIOU我们观察到，在输入格式（第三行）上执行实例区分请注意，PointContrast使用ScanNet多视图扫描进行训练。环，可以部分解决长尾标签分布的当前3D场景理解基准。4.2. 多输入格式我们使用点和体素输入格式预训练DepthContrast，并使用两个格式特定的编码器- PointNet++用于点，UNet用于体素。基线。如等式3中所解释的，当使用多个3D输入格式时，我们可以定义两个损失项-格式内损失和跨格式损失。为了分析哪些损失项对预训练很重要，我们考虑了三种变体-（1）内部格式，其独立地训练针对每个输入格式的格式特定模型，并且是实例鉴别到3D的直接应用;（2）使用等式3的第二项联合地训练格式特定模型的跨格式;（3）使用我们的组合损失函数联合地训练格式特定模型的我们的跨格式。PointContrast-类似于§4.1，我们使用预训练的PointContrast [105] UNet模型，使用多视图数据进行训练该模型使用多视点对应进行训练，以使其能够学习更好的点特征。由于PointContrast比我们的单视图方法使用更多的信息，因此它是一个重要的上限。Setup. 我们通过迁移学习来评估预训练模型。与第4.1节一样，我们使用VoteNet在SUNRGBD和ScanNet检测上微调PointNet++模型我们使用来自时空分割[17]的框架对分割上的体素UNet模型进行微调结果总结于表4中。与从头开始训练相比，内部格式预训练仅为点输入格式PointNet++模型提供了好处对于体素模型，这种预训练并没有比从头开始的训练一致地改进，这与最近工作的观察结果一致[105]。这表明实例判别到3D表示学习的幼稚应用可能不会产生良好的预训练模型。跨格式损失提高了点模型和体素模型的性能，表明表5：数据扩充。我们改变用于预训练DepthContrast点模型的数据增强，并报告其传输性能。监督学习（VoteNet）中使用的标准数据增强不足以学习良好的自监督模型。我们提出的随机长方体和随机丢弃增强提高了性能。使用多种输入格式的好处。我们提出的联合损失提供了最佳的传输性能。在体素格式模型上的增益特别显著，其在格式内损失上提高了4%。在柔软的材料中，我们表明联合训练对格式内损失的这种好处也适用于不同的预训练数据和架构。与多视图PointContrast上限[105]相比，我们在体素传输任务上的结果稍差。PointContrast在预训练期间使用多视点对应来实施点级监督。这使他们的模型能够学习更适合于分割等点预测任务的点特征。然而，尽管不依赖于多视图信息，但DepthContrast预训练仍然提供了竞争性性能。我们相信这些结果是令人鼓舞的，鉴于深度对比度的广泛适用性，以大量的单视图数据捕获的现代传感器。我们注意到我们的UNet架构与[105]不同，因为他们的架构不适合我们的预训练任务。5. 分析在本节中，我们将介绍一系列旨在更好地理解DepthContrast的实验。我们首先按照§4.1中的设置在ScanNet-vid数据集上预训练点格式（PointNet++）模型。我们使用两个转移任务进行评估-（1）使用VoteNet [64]在SUNRGBD上进行对象检测，其中我们微调完整模型并测试预训练的质量;（2）在ShapeClassification数据集上进行对象分类[102]，其中我们保持模型固定，仅在固定特征上训练线性分类器，从而测试学习表示的质量[30，47]。最后，我们还评估了DepthContrast5.1. 数据增强数据增强对于自监督表示学习起着重要作用，并且在2D图像的情况下已经被广泛研究[9，14，56，93，94]。然而，数据增强对3D表示学习的影响还不太清楚。因此，我们分析了§3.4中提出的增强对迁移的影响损失特拉角nsfer体素传输SUNRGBDScanNetS3disSynthia划痕57.458.668.278.9仅限格式内60.4（+3.0）61.3（+1.7）66.5（-2.7）80.1（+1.2）仅跨格式60.0（+2.6）61.1（+2.5）69.9（+1.7）81.2（+2.3）两个（我们的）60.7（+3.3）62.2（+3.6）70.6（+2.4）81.3（+2.4）点对比度[105]59.2（+2.5）57.5（+1.9）70.9（+2.7）83.1（+3.3）110259任务预训练划痕ScanNetScanNet-vid（多视图）（单视图）（单视图）形状分类线性（准确度）50.785.185.086.4SUNRGBD检测（mAP）57.460.560.760.4表6：单视图或多视图3D数据。我们研究我们的预训练是否对单视图或多视图数据敏感。我们使用ScanNet和ScanNet-vid，它们是同一数据集的多视图和单视图版本[18]，以及Redwood-vid [16]，它是一个仅单视图的3D数据集。我们的预训练模型对3D预处理具有鲁棒性，并且使用单视图或多视图数据可以提供类似的性能。性能我们使用相同的训练设置训练不同的DepthContrast点模型，并且仅改变所使用的数据我们的结果总结在表5中。广泛使用的VoteNet [64]增强比我们提出的增强表现更差。我们的增强导致更好的特征表示：在形状分类上获得5%的准确度[102]，以及更好的预训练模型：2%mAP对SUNRGBD检测。我们也不断观察我们改进数据的收益§4中所有下游任务的陈述，其中强调了设计良好数据增强的重要性5.2. 单视图或多视图3D数据我们现在研究对重建的多视图3D场景的预训练是否影响下游性能。我们使用ScanNet [18]数据集，其中包含通过ScanNet-vid深度图的3D配准获得的多视图3D数据。作为另一个单视图数据集，我们在第4.1.2节的Redwood-vid数据集上进行预训练。我们在这些数据集上预训练DepthContrast点模型，并通过表6中的迁移学习比较它们的性能。在ScanNet-vid或ScanNet上预训练模型时，传输性能相似由于ScanNet-vid和ScanNet仅在所涉及的3D预处理方面不同，因此结果表明DepthContrast对单视图或多视图输入数据不敏感这并不奇怪，因为我们的目标并不依赖于多视图信息。在单视图Redwood-vid数据集上的预训练也提供了类似的性能，表明DepthContrast在预训练期间对不同的数据分布具有鲁棒性。所有DepthContrast模型都优于划痕模型。5.3. 推广到室外LiDAR数据我们通过在Waymo Open Dataset [ 88 ]上进行预训练来测试DepthContrast我们使用§3.4中的相同数据增强参数，并且仅修改随机长方体以在场景的Z维度的全尺度上工作我们使用标准的LiDAR特定模型架构作为我们的格式特定编码器- PointnetMSG [77]用于点云，Spconv-UNet [78]用于体素。与§3.5类似，我们从这些中图6：使用室外LiDAR数据。我们从零开始微调检测模型或使用我们的预训练，并在中等难度的KITTI val分裂的自行车运动员类上报告mAP（具有40个召回位置）。我们的模型使用来自Waymo数据集的未标记户外数据进行预训练，并且使用点（左）或体素（右）输入进行的训练优于划痕训练。在全局最大池化和两层MLP之后的模型使用格式内损耗和跨格式损耗两者与等式3联合优化模型。对于迁移学习，我们使用标准的KITTI [26]对象检测基准，PointRCNN [77]和Part-A2[78]用于下游模型。我们报告结果的自行车类，因为它有较少的前-与其他类相比，训练集中的样本我们在补充材料中提供了其他类的结果和微调细节与§4.1.4类似，当改变预训练数据的比例时，我们报告了3次独立运行的平均性能。图6显示，我们的预训练模型优于从头开始的训练，特别是在对较少的训练样本进行微调时。对于Spconv-Unet，我们用5%的标记数据实现了20%的增益。这表明DepthContrast预训练可以推广到多种输入格式，我们提出的数据增强可以推广到不同的深度传感器和场景类型。6. 结论我们提出了DepthContrast-一种易于实现的自监督方法，其适用于模型架构，输入数据格式，室内/室外，单/多视图3D数据。DepthContrast预训练用于3D识别任务的高容量模型，并利用可能不具有多视图信息的大规模3D数据。我们展示了最先进的性能检测和分割基准，优于所有以前的工作检测。我们提供了重要的见解，使我们的简单的实现工作良好的训练与多输入数据的垫和新颖的数据扩增。我们希望DepthContrast有助于未来的3D自监督学习工作。同样的性能。标签数量减少2倍同样的性能。标签数量减少5倍110260引用[1]Idan Achituve，Haggai Maron，and Gal Chechik.点云领域自适应的自监督学习 arXiv 预印本 arXiv ：2003.12641，2020。[2]Panos Achlioptas，Olga Diamanti，Ioannis Mitliagkas，and列奥尼达·吉巴斯三维点云的学习表示与生成模型。在国际机器学习会议（ICML）的会议记录中，第40-49页。PMLR，2018。[3]安德鲁·亚当斯白钟民和迈尔斯·亚伯拉罕戴维斯使用置换面体晶格的快速高维滤波。在Computer Graphics Forum，第29卷，第753-762页中。Wiley Online Library，2010。[4]艾罗·阿尔梅尼，萨沙·萨克斯，阿米尔·罗山·扎米尔，还有西尔维奥Savarese用于室内场景理解的联合2d-3d语义数据。CoRR，abs/1702.01105，2017。[5]Iro Armeni，Ozan Sener，Amir R Zamir，Hel

下载后可阅读完整内容，剩余1页未读，立即下载