自我监督的3D特征学习方法在点云配准中的应用

6 浏览量更新于2023-10-15 收藏 1.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6433引导您自己的通信穆罕默德·埃尔·巴纳尼贾斯汀·约翰逊密歇根{mbanani，justincj} @ umich.edu摘要几何特征提取是点云配准流程中的一个重要组成部分。最近的工作已经证明了如何利用监督学习来学习更好和更紧凑的3D特征。然而，那些方法对地面实况注释的依赖限制了它们的可扩展性。我们建议BYOC：一种自我监督的方法，从RGB-D视频中学习视觉和几何特征，而不依赖于地面实况姿势或对应性。我们的关键观察是随机初始化的CNN很容易为我们提供良好的对应关系;允许我们引导视觉和几何特征的学习。我们的方法结合了点云注册的经典思想与最近的表示学习方法。我们在室内场景数据集上评估了我们的方法，发现我们的方法优于传统和学习的描述符，同时与当前最先进的监督方法竞争。1. 介绍一个人对应关系估计和点云配准之间的二元性早已被认识到，并作为这两个问题中许多方法的基础。给定场景的准确配准，可以容易地提取两个视图之间的对应关系。相反，给定点对应，可以容易地配准场景的两个视图。我们能否利用这个周期，从头开始共同学习对应性估计和点云配准？这个循环的核心是为场景中的点生成良好的特征描述符的能力。3D特征学习的主流方法依赖于预配准场景来对用于特征编码器的监督训练的地面实况对应进行采样。这是通过对正负特征对进行采样并应用图1. BYOC估计视觉对应性，并使用它们来训练RGB-D视频帧上的视觉和几何编码器在测试时，它可以成功地注册原始点云。已经配准原始深度或RGB-D扫描以生成训练数据。这将这种方法限制在可以使用自动化方法（如COLMAP）成功注册的数据[46]。理想情况下，我们将利用监督方法的成功，而不依赖于地面实况对应标签。为此，我们建议使用 Bootstrap Your OwnCorrespondences（BYOC）：一种自我监督的端到端方法，其通过利用伪对应标签来学习点云配准。我们的方法提取伪对应使用随机初始化的特征编码器的功能。我们使用采样的对应关系来配准点云，并根据配准的质量应用损失来训练特征编码器。这允许我们缓慢地引导1特征学习过程并从RGB-D扫描中学习，而不依赖于任何姿势或对应监督。三重[12，32，35，57]或对比[3，12，56]损失。虽然非常成功，但这些方法需要我们拥有1我们使用bootstrap是出于习惯用法，而不是统计学意义。6434这种方法对于配准RGB-D帧效果很好这主要是由于随机初始化的2D CNN产生比当前点云编码器更独特的特征的事实，如图所示。3.第三章。我们利用这一观察，并提出引导几何特征学习使用视觉对应。我们通过使用估计的视觉对应来做到这一点，而不是地面实况对应[3，12，32，35，56，57]，以训练几何编码器。我们通过采用SimSiam [8]（一种非对比自监督方法）来训练几何编码器，以进行3D表示学习。与典型的对比自监督方法不同，SimSiam允许我们仅使用正对来训练模型，而不需要负采样或动量编码器。我们的工作从两个来源获得灵感：迭代最近点算法（ICP）[4，9，61]和自我监督使用伪标签学习[7，26，34]。虽然看起来不同，但同样的直觉是这两种工作的核心。ICP是一种配准算法，其假设两个点云之间的最近点彼此对应。通过迭代细化和重采样，它可以配准粗略对齐的点云。与此同时，具有伪标签的自监督学习学习以当前顶部预测[34]，特征聚类[7]甚至先前预测[26]的形式预测伪标签通过随着时间的推移重新定义标签，模型可以渐进地学习更好的表示。两者都依赖于这样的观察：良好结构空间中的伪标签（即，相似的实体已经彼此靠近）可以提供有价值的学习信号。这与学习特别相关，因为观察到CNN即使在随机初始化时也是良好的特征提取器[42，51]。我们在两个室内场景数据集上评估了我们的方法：ScanNet [13]和3D Match [60]。尽管我们的方法很简单，但它优于手工制作的功能以及几个监督基线，同时与当前最先进的监督方法竞争。总之，我们提出了一种自监督方法，该方法使用来自随机初始化的特征编码器的采样对应来学习点云配准的逐点特征第3.1节）。我们进一步展示了视觉对应如何进一步改善几何特征学习（第2节）。3.2）。我们证明了这种方法在点云配准上的有效性（第2节）。4.1）和相应估计（第4.2）。2. 相关工作3D特征描述符。关于特征点提取的早期工作可以追溯到使用角点进行立体匹配[38]。基于梯度直方图提取特征的核心直觉后来扩展到3D特征[29，30，44，45，49]。最近，焦点已经转向利用监督学习进行3D特征学习[3，12，14常见的方法是在两个视图之间采样正负对，然后在三重[12，32，35，57]或对比[3，12，15，56]损失中使用它们。其他方法提出在重建的场景上应用无监督学习[14，56，64]。虽然这些方法没有明确地使用地面实况姿态，但是它们依赖于使用地面实况姿态生成的重建与以前的工作不同，我们的方法直接从RGB-D扫描中学习，而不依赖于地面实况姿态，并将点云配准作为最终任务。点云配准。点云配准的早期工作假设点云之间完全对应[2，36]。后来ICP放宽了这一假设，假设最近点是对应点[4，9，61]。虽然这种假设适用于几种应用（例如，配准来自高帧速率扫描仪的扫描或微调对准），但是它受到大的变换和部分重叠的点云的挑战。后来的工作集中在设计用于建立对应关系的特征描述符，并使用诸如RANSAC的鲁棒估计器来处理噪声和异常值[50，62]。参见[39]。通过将学习纳入配准过程[5，6，10，19，21，28，40，58]，这一点得到了进一步扩展。最后，最近的工作已经提出了用于配准对象[1，27，28，54，55，58，59]或重建的场景[14，32，64]。这些方法在从对齐的局部视图构造的密集点云因此，虽然该方法可能是自我监督的，但总体方法仍然需要地面实况注释。我们受到这一系列工作的启发，并通过直接从RGB-D扫描而不是重建场景中学习来扩展它。自我监督学习。自监督学习是指将监督学习应用于数据本身作为监督的任务的方法这种想法对于2D表示学习非常流行，其目标是学习推广到下游任务的表示[8，17，18，20，24，26，48]。最近，Point- Contrast[56]和DepthContrast [63]演示了如何将此公式扩展到3D表示学习。我们受到这一行工作的启发，但在几个方面与之不同首先，我们的目标是学习好的特征用于注册，而不是用于不同的下游任务。其次，我们从RGB-D视频中学习，而不是像[56]那样的重建场景。此外，我们学习点级表示，而不是像[63]那样的场景级表示。最后，虽然先前的工作集中在使用对比学习，但我们表明非对比学习[8，26]对于3D特征学习非常有效，尽管要简单得多。6435∈PP∈P∈PP∈CC图2.BYOC。我们的模型将场景的两个RGB-D图像作为输入首先，我们从图像中提取视觉特征，从点云中提取几何特征。这导致两个点云，其中每个点具有3D位置、视觉特征和几何特征。然后，我们从视觉和几何特征中提取对应关系这些对应关系用于估计变换并计算配准损失。我们还应用特征相似性损失的几何特征采样使用的视觉对应。3. 方法本工作的目标是从RGB-D视频中学习几何点云配准，而不依赖于姿态或通信监督。我们的方法，如图所示。2、有三大组成部分：视觉配准、几何配准和通信传递。前两个组件基于特征提取、对应性估计和几何拟合的传统配准流水线。它们之间的唯一区别是是否使用视觉编码器从图像或几何编码器从点云提取特征。第三个组件基于SimSiam [8]，并对使用视觉对应采样的几何特征对应用特征相似性损失我们的关键见解是，随机初始化的CNN产生的特征允许粗略的对应估计和配准。这允许我们通过使用与配准和特征相似性损失的估计对应性来引导视觉和几何编码器两者的学习。3.1. 点云配准给定两个点云，0和1，点云配准的任务是找到对齐它们的变换TSE（3）。注册方法通常包括三个阶段：特征提取、对应性估计和几何拟合。在我们的方法中，我们注册的点云对使用视觉或几何特征。下面我们将详细讨论这些步骤。几何特征提取几何编码器基于点云的几何形状提取特征。我们首先使用输入深度和已知的相机固有矩阵为每个视图生成点云。然后，我们使用稀疏3D卷积网络对每个点云进行编码[11，25]。我们使用这个网络，因为它成功地作为监督注册方法的后端[10，12，21]和3D表示学习[56，63]。该网络将稀疏卷积应用于体素化点云;允许其基于局部几何形状提取特征，同时保持快速运行时间。类似于先前的工作[12，56，63]，我们发现2.5 cm的体素大小适用于室内场景。该步骤将我们的输入RGB-D 图像I0，I1R4×H×W映射到0，1RN×（3+F），其中每个点云具有N个点，并且每个点p由3D坐标xp和F维几何特征向量gp表示。2我们使用32的特征维度视觉特征提取视觉编码器基于图像提取特征。我们使用具有两个残差块的ResNet编码器作为我们的图像编码器，并将每个像素映射到大小为32的特征向量我们使用来自几何编码器的体素化点云的投影这允许我们为每个输入RGB-D图像生成点云，其中每个点p具有3D坐标Xp、视觉特征vp和几何特征gp。由于每个点都可以由视觉或几何特征表示，因此我们可以轻松地转移不同特征模态之间的对应关系，如第2节所示3.2. 我们注意到，我们只在训练过程中使用视觉编码器来引导几何特征学习。在测试时，我们只使用几何编码器注册点云。对应估计我们估计每个特征模态的两个输入视图之间的对应关系，以输出两组对应关系：VIS和GEO。我们首先通过在适当的特征空间中找到每个点的最近邻居来生成对应列表。由于每个点云具有N个点，因此我们最终针对每个模态具有2N个候选对应。2体素化将产生不同维度的点云在我们的实现中，我们使用异构批处理来处理这个问题，但是为了清楚起见，我们假设点云在我们的讨论中具有相同的大小。6436P∈PPPC∈ΣLCC候选对应性将可能包含由于不良匹配、重复特征以及图像的遮挡或非重叠部分而导致常用的方法是根据某些唯一性或正确性标准过滤对应关系。最近的方法提出了估计每个对应关系的权重的学习网络[10，21，40]。在这项工作中，我们利用[19]提出的方法，使用基于Lowe比率[ 37 ]的权重给定两个点云，0和1，我们通过在特征空间中找到两个最近的邻居qp和qp，nn2到1中的p来找到点p0我们可以如下计算LoweD（fp，fqp）w=1−（一）p，qpD（fp，fqp，nn2）其中，D是余弦距离，并且fP是视觉特征描述符或几何特征描述符，这取决于所使用的特征模态。值得注意的是，该公式类似于对比学习中经常使用的三重损失，其中qp是正样本，qp，nn2是最难的负样本。我们使用所得到的权重来对对应关系进行排名，并且仅包括前k个对应关系。我们在实验中使用k=400。我们的对应集的每个元素由两个对应点和它们的权重（p，q，wp，q）组成。几何拟合对于每组对应关系，我们估计变换T*SE（3），它将最小化对齐对应关系之间的均方误差：图3. 随机初始化的CNN是良好的特征提取器。我们可以从随机的视觉特征中估计出良好的对应关系，但不能从随机的几何特征中估计出良好的对应关系。我们利用这一观察引导学习的几何特征，使用视觉对应。Σw（二）E（C，T）=（p，qp，w）∈CW||xqp− T（xp）||C通过两个配重，w，和转变，该问题可以重新表述为加权Procrustes问题[23，31，47，52]，允许将权重集成到操作中以改善优化过程，同时保持相对于权重的可微性[10]。我们采用这种配方，由于其相对简单，易于纳入一个端到端的可训练系统。尽管已经过滤了对应性，但是对应性集合可能仍然包括一些异常值，这些异常值将导致不正确的几何拟合。我们采用[19]中使用的随机优化，并且类似地发现，仅在测试时使用它可以获得最佳性能。配准丢失。我们的配准损失关于我们的对应集和估计的变换定义如下：reg（）=arg minE（，T）（3）T∈SE（3）关于这次损失有一些有趣的事情。首先，梯度被反向传播到特征编码器T.因此，可以在不使用权重的情况下用公式表示损失。我们发现，使用的权重提高了视觉配准的性能，而恶化的几何配准的性能。因此，在我们的模型中，我们仅将权重应用于视觉配准分支，同时将其从几何分支中移除。第二，损失作为残差的加权和。具体地，如果具有最低残差的对应具有最高权重，则损失最小化。由于权重是L1归一化的，因此对应关系的相对权重很重要。去除归一化导致明显的退化，因为可以通过将权重驱动到0来最小化损失，这可以通过模式崩溃来实现。最后，加权损失非常类似于三重损失，因为我们估计了正（第一最近邻）和最难的负（第二最近邻）样本。然而，与通常使用的裕度三重态损耗不同，该公式不需要定义裕度，因为它对距离的比率而不是它们的绝对值进行操作。6437∈C∈C3.2. 目视检查→几何检查在SEC中概述的方法3.1对视觉特征效果很好，但对几何特征效果较差一旦我们考虑使用来自随机初始化编码器的特征的注册性能，其原因就变得显而易见。如图3中，我们观察到从随机初始化的视觉编码器提取的特征提供一些独特的输出，而随机几何编码器的输出更随机。这对配准有很大的影响，如选项卡中所示。二、理想情况下，我们将利用良好的视觉对应来进一步引导几何特征学习。我们观察到，几何特征学习方法通常使用采样对应性来定义度量学习损失[3，12，22，35，57]。我们适应这种方法的无监督设置采样特征对使用视觉对应。这在我们的方法中是简单的，因为每个点都具有视觉特征和几何特征，因此转移对应性只是索引到另一个张量中。由于对应性充当索引，因此损失仅被反向传播到几何编码器。当前的3D特征学习方法依赖于正对和负对来定义三元组[12，32，35，57][12]或[13]，或[14]，或[15]。然而，如文献中所述，由于这些损耗对模式崩溃的敏感性以及对超参数选择和负采样策略的敏感性，这些损耗可能难以应用[12，56，63]。这些问题在我们的环境中被放大了，因为视觉对应只为我们提供了估计的，而不是地面真实的，积极的样本。代替典型的对比设置，我们将最近提出的非对比自监督学习方法[8，26]适应于点云设置。我们使用SimSiam [8]，因为它简单且性能强大：它不需要负采样或动量编码器。我们通过将其应用于视觉上对应的点的几何特征而不是同一图像的不同增强来适应SimSiam。给定对应关系（p，q）vis，我们首先使用两层MLP投影头投影特征，并在上应用停止梯度算子。特点：zp= project（gp）。（四）gp= 停止梯度（ gp ）。（5）然后，我们基于每个几何特征与其相关的投影之间的余弦距离来计算损失。回复：4. 实验我们评估我们的方法点云注册的室内场景。我们在ScanNet（一个大型室内场景数据集）上训练我们的模型，并在ScanNet和3D Match配准基准上对其进行评估。我们的实验旨在回答两个问题：（1）我们可以从自举对应中学习精确的点云配准吗？; （2）我们能否在训练时利用RGB-D视频来训练更好的几何编码器？BYOC变体。我们考虑模型的两个变体：BYOC-地理和BYOC。BY 0 C-Geo仅使用几何配准损失在深度对上训练。该变体应用自举思想而不利用视觉对应。BYOC，如图所示图2中所示的几何编码器使用RGB-D对进行训练，但仅使用几何编码器在测试时进行配准。由于BYOC使用视觉对应来训练几何特征，因此我们使用数据扩充来进一步改进几何特征学习。我们对随机旋转进行采样，并在几何编码器之前将其应用于点云。这是3D特征学习[12，56]中的常见增强，旨在改善学习特征我们注意到，使用旋转增强训练BYOC-Geo大大降低了其性能。数据集。我们在室内场景的两个数据集上评估我们的方法：ScanNet [13]和3D Match [60]。虽然两个数据集都提供了用地面实况相机姿态注释的RGB-D视频ScanNet提供了1513个场景的姿势标注的RGB-D视频，而3D Match的RGB-D视频数据集仅涵盖101个场景。我们强调，我们只使用RGB-D视频和相机固有函数来训练我们的模型。我们对两个数据集使用官方的训练/有效/测试场景分割，并通过对相隔20帧的图像对进行采样来生成视图对。这导致ScanNet的1594 k/12.6k/26 kRGB-D对和3D Match的122 k/1.5k/1.5k RGB-D对。培训详情。我们使用Adam [33]优化器训练我们的模型，学习率为10- 4，动量参数为（0.9，0.99）。我们为每个模型训练200K次迭代，批量大小为8。我们在PyTorch [41]中实现了我们的模型，并广泛使用了PyTorch3D [41] ， Open3D [65] 和 Minkowski Engine[11]。该代码可在https://github.com/mbanani/byoc上获得。4.1. 点云配准1ΣL（C）=D（g，z）+D（z，g）（6）V→Gvis|Cvis|p q p q（p，q）∈Cvis我们首先评估我们的方法点云注册ScanNet和报告我们的结果在Tab。1.一、给定两其中D是余弦距离函数，并且vis是视觉对应的集合。点云，我们估计将对齐点云的变换TSE（3）我们强调我们6438ICP（点对点）-31.7 55.6 99.610.48.87.519.4 74.622.420.08.424.7 40.532.914.1ICP（点对面）-54.4 68.0 98.68.63.630.0 36.7 70.423.618.031.6 43.1 53.5 229.58.2[44]第44话-22.2 48.2 84.927.810.47.419.6 56.354.125.317.5 46.8 61.226.55.8FPFH [44] + RANSAC-34.1 64.0 90.320.67.28.826.7 66.842.618.627.0 60.8 73.323.32.9[12]第12话3D匹配✓54.1 73.3 92.215.34.330.8 46.2 73.035.011.645.6 67.4 76.421.51.4FCGF [12] + RANSAC3D匹配✓75.3 87.7 95.69.72.539.7 64.9 86.520.86.462.5 83.1 88.213.00.6FCGF [12] + DGR [10]3D匹配✓83.6 90.5 95.29.01.757.6 78.8 91.317.14.276.5 89.4 91.810.70.3FCGF [12] + 3D MV Reg [21]3D匹配✓87.7 93.2 97.06.01.269.0 83.1 91.811.72.978.9 89.2 91.810.20.2BYOC3D匹配66.5 85.2 97.87.43.330.7 57.6 88.916.08.254.1 82.8 89.59.50.9公司简介ScanNet80.3 92.8 98.84.82.346.5 74.6 94.610.65.471.9 91.1 94.57.20.5BYOC + RANSACScanNet81.3 92.8 98.45.62.437.8 69.7 92.113.36.467.7 89.8 93.57.70.5BYOCScanNet86.5 95.2 99.13.81.756.4 80.6 96.38.74.378.1 93.9 96.45.60.3表1.ScanNet上的成对注册。我们优于现有的注册管道，使用传统的或学习的几何特征描述符与RANSAC或加权Procrustes估计。此外，我们与在3D Match上训练的监督方法进行了比较，证明了无监督训练在该领域的实用性。Pose Sup. 指示姿势监督。在测试时丢弃视觉编码器并且仅在点云输入上使用几何编码器。基线。我们将我们的方法与经典的手工制作和监督学习方法进行比较。我们首先将我们的方法与ICP的两个变体进行比较[43]。ICP是一个重要的基线，因为它既是这项工作的灵感和经典的点云配准算法。我们还使用 FPFH [44] 或 FCGF [12] 3D 特征描述符与基于RANSAC的比对器进行比较。FPFH [44]是一种手工制作的3D特征描述符，其通过与其最近邻居的空间关系的直方图来表示点。FPFH是最好的非学习3D特征描述符之一，并且代表了手工制作的3D特征的性能。FCGF [12]是最近提出的学习3D特征描述符，其将稀疏3D卷积网络与在地面真实对应上训练的对比损失相结合，以在几个配准基准上实现最我们还比较了深度全局配准[10]和3D多视图配准3[22]：两种学习在FCGF特征之上估计对应关系的监督方法。这些方法使用监督进行特征学习和对应估计，而我们的方法是无监督的。评估指标。我们通过如下计算预测和地面实况变换之间的旋转和平移误差来评估成对配准：我们以厘米为单位报告平移误差，以度为单位报告我们还报告了预测和地面实况对齐的场景之间对于每个指标，我们报告了平均值和中位数误差以及不同阈值下的准确度。结果我们首先注意到，国际比较方案的办法在这项任务上失败了。ICP假设点云是预对准的，并且通过最小化倒角距离可以非常有效地微调这种对准然而，我们的视图对具有相对大的相机运动，其中两个视图之间的平均因此，ICP与点云对之间的大变换和部分重叠作类似地，FPFH也失败了，因为其输出描述符不够独特，导致许多错误的对应关系，这大大降低了配准性能。另一方面，学习的方法在该领域中显示出明显的优势，因为它们能够学习针对任务和数据域良好调整的特征我们的模型能够优于FCGF，尽管FCGF是在室内场景数据集上用地面实况对应进行训练的。无论我们的模型是使用RGB-D还是深度对进行训练，这都是正确的。虽然我们发现我们在3D Match上训练的模型比FCGF表现更差，但这是预期的，因为3DMatch是一个小得多的数据集，使其不太适合自监督方法。最后，我们的方法与E旋转=arccos（Tr（RprRgt）−1），（7）2对特征学习和对应性估计使用监督[10，21]。此比较代表了对小数据集的完全监控与E翻译=||tpr − t>||二、（八）3值得注意的是，3D多视图配准[21]提出了成对配准和同时同步多个视图的方法我们只与他们的成对配准模块进行比较。对大型数据集的自我监督。我们的竞争表现证明了在这个领域自我监督的承诺，以及我们的模型从一个非常简单的学习信号中学习的能力：视频帧之间的一致性。旋转翻译倒角精度↑误差↓列车组Pose Sup.5◦10o45o 平均Med.精度↑误差↓五十二十五平均Med.精度↑误差↓1510平均Med.6439CCp年q12|（p，q）∈C|(p,q)∈C旋转（deg）平移（cm）倒角平均值中位数训练数据FMR数据集数据格式调用St。Dev.----BYOC3.81.78.74.35.60.33D匹配[60]3D匹配深度+姿势0.5960.088表2. 随机视觉特征对于配准来说出奇的好。随机视觉比几何特征更适合于配准。这种差异在训练后仍然存在。转换估计器的影响是什么？虽然我们观察到RANSAC与加权Procrustes相比提高了FPFH和FCGF的这是由于我们的模型是专门用过滤后的对应关系上的配准损失来训练的因此，Lowe随机特征有多好？我们发现，随机视觉特征可以作为ScanNet上点云配准的强基线，如图所示3和Tab。二、这是令人惊讶的，因为随机视觉特征与FCGF表现相当。这解释了为什么我们的方法能够在没有任何监督的情况下实现这种性能。我们还发现，经过训练后，我们的视觉特征达到了最高的配准性能。这些结果表明，视觉特征是用于配准的更好的描述符，但尚不清楚这是否是一个根本的优势，或者性能差距是否可以通过更好的架构或几何特征学习的训练方案来解决。4.2. 对应估计我们现在检查由我们的方法估计的对应的质量。我们评估我们的方法的3D匹配几何配准基准，并按照邓等人提出的评估协议。”[15]《说文解字》云：“礼者，礼也。直观地说，特征匹配召回通过保证内点的最小百分比来测量将使用RANSAC估计器准确配准的点云对的百分比。基线。我们将我们的方法与三组基线进行比较。第一组是基于每个点周围的局部几何形状的手工特征[44，45，49]。第二组是监督方法，其使用已知姿态来采样地面实况对应，并应用度量学习损失来学习几何配准的特征最后，第三组是在重构场景上训练的无监督方法。虽然这些方法在训练期间不直接使用地面实况姿态，但是它们的训练数据（重构场景）通过对准50个深度图BYOC-地理扫描网深度0.786 0.195表3. 3D匹配上的特征匹配调用。我们的方法实现了更好的召回比手工制作和场景监督的ap-proaches，同时具有竞争力的监督方法。变成一个点云。因此，虽然那些方法不明确地使用姿势监督，但是需要姿势信息来生成它们的数据。我们将这些方法称为场景监督。评估指标。给定一组对应关系，FM（）评估内点的百分比是否超过τ2，其中内点对应关系被定义为在给定地面实况变换T* 的情况下具有小于τ1的残差。特征匹配召回率是具有成功特征匹配的点云对的百分比。FM（C）=Σ1Σ1。||τΣ Σ > τ（9）||<τΣΣ>τ(9)类似于[12，14，15]，我们使用τ1=10cm和τ2=5%计算所有视图对的特征匹配召回率。先前的方法通常在没有任何指定的过滤方法的情况下生成特征集因此，它们将对应集定义为所有最近邻居的集合。与以前的工作不同，我们的方法输出一个小的correspons- dences后，他们使用Lowe的比率测试排名结果 BYOC实现了高特征匹配召回，优于传统和场景监督方法，同时与监督方法竞争。该性能仅通过在原始RGB-D或深度扫描上进行训练来实现，而不需要对数据进行任何额外的注释或后处理。这种跨数据集生成是有趣的，因为ScanNet和3DMatch在两个关键方面不同。首先，通过整合50个深度帧来生成3D匹配点云。因此，它们比单帧ScanNet点云更密集秒-随机目视检查6.42.714.97.09.80.6射击[45]-0.2380.109随机几何21.313.046.528.526.08.6南加州大学[49]-0.4000.125BYOC（视觉）BYOC-地2.74.80.92.36.410.62.65.43.37.20.10.5FFPH [44]FFPH [44]（corr）--0.4810.4620.1500.198PPFNet [15]3D匹配深度+姿势0.6230.108[22]第二十二话3D匹配深度+姿势0.9470.027FCGF [12]3D匹配深度+姿势0.9520.066FCGF [12]（corr）3D匹配深度+姿势0.9320.104CGF [40]场景神经网络场景0.5820.142PPF-FoldNet [14]3D匹配场景0.7180.1053D PointCapsNet [64]3D匹配场景0.7870.062BYOC（无过滤）ScanNetRGB-D0.6620.225BYOC3D匹配RGB-D0.6900.1726440图4. BYOC的几何特征允许通过将对应点映射到类似特征向量来进行准确配准。我们的方法学习场景的信息几何特征。我们通过使用t-SNE [53]将其映射到颜色来可视化我们的特征。我们发现，学习的功能似乎描绘对象，如椅子和地板边缘。这导致最后一列中所示的准确配准我们的方法需要无色的点云作为输入，图像和彩色点云，以帮助可视化。其次，3D匹配中的点云对具有较大的视点变化。尽管存在这些差异，我们的模型仍然可以从ScanNet生成到3D Match。这可以归因于由几何编码器执行的体素化和增强，所述增强给出模型相对于点云密度和旋转的一定程度的等方差。我们还观察到，仅使用几何对应进行训练的BYOC-Geo更好地推广到3D匹配，尽管在ScanNet上做得更差。这种差异的一种解释是，具有视觉对应性的自举使模型偏向于表示在两种模态中都有意义的特征。这样的表示可能更具有数据集特定性，从而阻碍跨数据集的泛化。这一发现开启了使用仅具有深度视频的数据集的可能性;例如，激光雷达虽然我们的最佳配置与最佳场景监督方法的性能相当，但如果我们不过滤我们的对应关系，它们的性能会超过我们。我们观察到，当我们试图过滤FPFH或FCGF的对应，其性能恶化。这与[14]报告的一些结果一致，其中使用更多的特征改善了它们的性能。因此，目前还不清楚对应过滤将如何影响自监督方法的性能。由于缺乏这些方法的公开可用实现及其方法的复杂性，我们无法运行额外的实验以更好地理解训练数据和对应过滤对学习过程的影响。5. 结论我们建议BYOC：点云配准的自监督方法。我们的关键见解是，随机初始化的CNN为我们提供了足够好的特征，可以通过点云配准引导视觉和几何特征学习。我们的方法利用从初始随机编码器获得的伪对应标签，使用注册损失来训练它们。我们还展示了非对比学习如何利用更准确的视觉对应来学习更好的几何特征。在测试时，我们仅使用几何编码器来配准点云，而不依赖于任何颜色或图像信息。我们的方法既简单又快速：我们依靠快速稀疏3D卷积编码器来提取特征，使用比率测试来加权和过滤对应性，然后使用SVD将它们对齐。这偏离了使用昂贵的预处理技术[14，15，64]的当前最先进的方法，学习单独的网络用于对应估计[10，21，40]，并使用RANSAC作为变换估计。此外，我们只使用深度或RGB-D视频来训练我们的模型。这使我们能够在这种格式的任何数据集上进行训练，而不仅仅是那些可以通过传统SfM管道准确注册的数据集。致谢我们感谢匿名评论者的宝贵意见和建议。我们还要感谢Richard Higgins和Karan Desai对本工作早期草稿进行了许多有益的讨论和反馈。6441引用[1] 青木康弘，亨特·戈福斯，兰加普拉萨德·阿伦·斯里瓦特山，西蒙·露西. Pointnetlk：使用pointnet的鲁棒高效点云配准。在CVPR，2019年。二个[2] KS Arun、TS Huang和SD Blostein。最小二乘拟合两个3D点集载于TPAMI，1987年。二个[3] 白旭阳、罗紫欣、周磊、符洪波、龙泉、戴洁兰D3feat：3d局部特征的密集检测和描述的联合学习在CVPR，2020年。一、二、五[4] Paul J Besl和Neil D McKay。注册方法三维形状。在传感器融合IV：控制范式和数据结构。国际光学与光子学学会，1992年。二个[5] 埃里克Brachmann 亚历山大克鲁尔塞巴斯蒂安·诺沃津Jamie Shotton ， Frank Michel ， Stefan Gumhold ， andCarsten Rother. DSAC ：用于相机局部化的可微分RANSAC。在CVPR，2017年。二个[6] Eric Brachmann和Carsten Rother。神经引导的ransac：学习在哪里采样模型假设。在ICCV，2019年。2[7] 玛蒂尔德·卡隆彼得·波亚诺夫斯基阿曼德·朱兰，还有Matthijs Douze用于视觉特征的无监督学习的深度聚类。ECCV，第132-149页，2018。二个[8] Xinlei Chen，Kaiming He. 探索简单的暹罗表征学习arXiv预印本arXiv：2011.10566，2020。二三五[9] 杨晨和杰拉德·梅迪奥尼。物体模型多个距离图像的过滤。图像与视觉计算，1992。二个[10] Christopher Choy，Wei Dong，and Vladlen Koltun. 深全局配准。在CVPR，2020年。二三四六八[11] Christopher Choy，JunYoung Gwak，Silvio Savarese.4D时空ConvNets：Minkowski卷积神经网络。在CVPR，2019年。三、五[12] Christopher Choy，Jaesik Park和Vladlen Koltun。充分卷积几何特征。在ICCV，2019年。一二三五六、七[13] 戴安琪，天使X. Chang，Manolis Savva，Maciej Hal-ber ， Thomas Funkhouser ， and Matthias Nießner.Scannet：室内场景的丰富注释3D重建。在CVPR，2017年。二、五[14] Haowen Deng，Tolga Birdal，and Slobodan Ilic.PPF-FoldNet：旋转不变3D局部描述符的无监督学习。在ECCV，2018。二七八[15] Haowen Deng，Tolga Birdal，and Slobodan Ilic. Ppfnet：用于鲁棒3d点匹配的全局上下文感知局部特征。在CVPR，2018年6月。二七八[16] Haowen Deng，Tolga Birdal，and Slobodan Ilic. 3d局部用于直接成对配准的特征。在CVPR，2019年。二个[17] Karan Desai和Justin Johnson Virtex：从文本注释中学习视觉表示。Arxiv，2020年。二个[18] Carl Doersch、Abhinav Gupta和Alexei A Efros。不超-通过上下文预测的可视化表示学习在ICCV，2015年。二个[19] Mohamed El Banani ， Luya Gao 和 Justin Johnson 。Unsupervisedr：通过不同渲染的无监督点云配准。在CVPR，2021年。二、四[20] Spyros Gidaris，Praveer Singh和Nikos Komodakis。Un-通过预测图像旋转的选项。在ICLR，2018年。二个[21] 周彩发，詹戈伊契奇 . 作者声明： J.Guibas 和 TolgaBirdal。学习多视点三维点云配准。在CVPR，2020年。二三四六八[22] Zan Gojcic 、 Caifa Zhou 、 Jan D Wegner 和 AndreasWieser。完美匹配：具有平滑密度的三维点云匹配。在CVPR，2019年。二五六七[23] 约翰·C·高尔广义procrustes分析。精神病-trika，40（1）：33-51，1975. 四个[24] Priya Goyal 、 Dhruv Mahajan 、 Abhinav Gupta 和 IshanMisra。缩放和基准自我监督的视觉表示学习。在ICCV，2019年。二个[25] 本杰明·格雷厄姆。稀疏3D卷积神经网络工程.在BMVC中。施普林格，2015年。三个[26] Jean-BastienGrill ， FlorianStrub ， FlorentAltche´ ，CorentinTallec，Pierre Richemond，Elena Buchatskaya，Carl Doersch ， Bernardo Avila Pires ， Zhaohan Guo ，Mohammad Ghesh- laghi Azar ， Bilal Piot ， koraykavukcuoglu，Remi Munos，and Michal Valko.Bootstrap你自己的潜在：自我监督学习的新方法。在NeurIPS，2020年。二、五[27] 阿米尔·赫兹、拉纳·哈诺卡、拉贾·吉里斯和丹尼尔·科恩或. Pointgmm：一个用于点云的神经GMM网络。在CVPR，2020年。二个[28] 黄晓水、梅国丰、张建。特征-度量配准：一种快速的半监督点云配准方法。在CVPR，2020年。二个[29] 安德鲁·约翰逊。自旋图像：3-D的表示法曲面匹配卡耐基梅隆大学博士论文二个[30] Andrew E. 约翰逊和马夏尔·赫伯特使用spin im-用于在杂乱的3D场景中的有效对象

下载后可阅读完整内容，剩余1页未读，立即下载