3DMatch：数据驱动的局部几何特征匹配模型

27 浏览量更新于2023-10-16 收藏 2.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

18023DMatch：从RGB-D重建曾轶可1宋舒然1马蒂亚斯·尼斯纳2马修·费舍尔2、4肖健雄3托马斯·芬克豪泽11普林斯顿大学2斯坦福大学3AutoX4 Adobe Systemshttp://3dmatch.cs.princeton.edu摘要由于3D扫描数据的噪声、低分辨率和不完整性质，在真实世界深度图像上匹配局部几何特征是一项具有挑战性的任务。这些困难限制了当前最先进的方法的性能，这些方法通常基于几何特性上的直方图。在本文中，我们提出了3DMatch，一个数据驱动的模型，学习一个局部体积补丁描述符建立部分3D数据之间的对应关系。为了为我们的模型积累训练数据，我们提出了一种自监督特征学习方法，该方法利用了现有RGB-D重建中发现的数百万个对应标签。实验结果表明，该描述符不仅能够匹配新场景中的局部几何结构，而且可以推广到不同的任务和空间尺度（例如：Amazon Picking Challenge的实例级对象模型对齐，以及网格表面对应）。结果表明，3DMatch始终以显著的优势优于其他最先进的方法。代码、数据、基准测试和预训练模型可在http://3dmatch.cs.princeton.edu在线获得。1. 介绍匹配3D几何图形有着悠久的历史，始于计算机图形和视觉的早期。随着商品范围传感技术的兴起，这项研究已成为至关重要的许多应用，包括对象姿态估计，对象检索，三维重建，摄像机定位。然而，在低分辨率、噪声和部分3D数据中匹配局部几何特征仍然是一项艰巨的任务，如图所示。1.一、虽然有各种各样的低级手工几何特征描述符可用于此任务，但它们大多基于从静态几何特性上的直方图导出的签名[18，21，27]。它们适用于具有完整表面的3D模型，但在来自3D扫描数据的真实世界部分表面中通常是不稳定或不一致的，并且难以适应新的数据集。因此，国家的-图1. 在这项工作中，我们提出了一个数据驱动的局部描述符3DMatch，建立对应关系（绿色），以匹配噪声和部分3D扫描数据中的几何特征。该图示出了仅在深度信息上使用3DMatch彩色图像仅用于可视化使用这些描述符来匹配几何形状的现有技术3D重建方法需要大量的算法努力来处理异常值并建立全局对应[5]。针对这些困难，并受到神经网络最近成功的启发，我们制定了一个数据驱动的方法来学习局部几何描述符，用于建立部分3D数据之间的对应关系。其思想是通过实例学习，数据驱动模型可以有效地解决三维扫描数据中部分曲面之间为此，我们提出了一种称为3DMatch的3D卷积神经网络（Con- vNet），它可以在3D表面上的任意兴趣点周围的局部体积区域（或3D补丁）中，并计算该点的特征描述符，其中两个描述符之间的距离越小，对应的可能性越高。然而，针对该任务优化基于3D ConvNet的描述符局部3D片之间的地面实况匹配获得1803图2. 从重建中学习3DMatch。从现有的RGB-D重建（a）中，我们从不同视图的扫描中提取局部3D补丁和对应标签（b）。我们收集匹配和不匹配的局部3D补丁对，并转换为体积表示（c）以训练基于3D ConvNet的描述符（d）。该几何描述符可用于在各种应用（例如，重建、模型对准和表面对应）中建立用于匹配3D几何形状的这种具有人工注释的训练数据是一种具有挑战性的努力。与2D图像标签不同，2D图像标签可以从网络上有效地众包或解析，通过手动点击3D部分数据上的关键点对来获取地面实况对应关系不仅耗时而且容易出错。我们的关键思想是通过利用现有RGB-D场景重建中的对应标签来积累训练数据由于3D重建的重要性，已经有很多关于设计可以从RGB-D数据构建高保真重建的算法和系统的研究[24，25，8]。尽管这些重建已被用于关于环境的高级推理[38，39]，但经常被忽视的是，它们也可以作为对齐深度帧的3D表面之间的标记对应关系的大量来源通过对来自多个现有RGB-D重建数据集的对应性进行训练，每个数据集都有自己的传感器噪声，遮挡模式，几何结构的方差和相机视点的多样性，我们可以优化3DMatch以概括和鲁棒地匹配真实世界部分3D数据中的局部几何结构。在本文中，我们从62个RGB-D场景重建的集合中训练了超过800万个对应的3DMatch [36，30，39，20，15]，并展示了其能力。在多种应用中匹配3D数据。结果表明，3DMatch在匹配关键点方面明显优于最先进的方法，并且在与标准RANSAC相结合时优于其他几何配准算法。此外，我们证明了3DMatch也可以推广到不同的任务和空间分辨率。例如，我们利用3DMatch来获得用于6D对象姿态估计的实例级模型对齐，以及在3D中找到表面对应网孔。为了促进3D关键点匹配和几何配准领域的进一步研究，我们提供了一个对应匹配基准以及一个类似于[5]的表面配准基准，但具有真实世界的扫描数据。2. 相关工作学习用于匹配3D数据的局部几何描述符位于计算机视觉和图形学的交叉点。我们简要回顾了这两个领域的相关工作。手工制作的3D本地描述符。已经提出了许多几何描述符，包括自旋图像[18]、几何直方图[12]和直方图的签名[34]、特征直方图[28]。这些描述符中的许多现在在点云库[3]中可用。虽然这些方法已经取得了重大进展，但它们仍然难以处理来自商品范围传感器的噪声，低分辨率和不完整的真实世界数据。此外，由于它们是针对特定应用或3D数据类型手动设计的，因此它们通常难以通用于新的数据模态。我们工作的目标是提供一个新的本地3D描述符，直接从数据中学习，以提供更强大和更准确的几何特征匹配结果在各种设置。已学习2D局部描述符。最近大规模标记图像数据的可用性开辟了新的机会，使用数据驱动的方法来设计2D局部图像块描述符。例如，各种作品[32，31，40，16，41，16]学习从局部图像块到特征描述符的非线性映射许多这些先前的工作是在从多视图立体数据集生成的数据上训练的[4]。然而，除了限于图像上的2D对应性之外，多视图立体也难以实现。1804在实践中按比例放大，并且容易由于在无纹理或非朗伯表面上丢失对应性而产生错误，因此它不适合于学习3D表面描述符。最近的工作[29]使用RGB-D重建来训练2D描述符，而我们训练3D几何描述符。已学习3D全局描述符。在学习3D数据的几何表示方面也取得了快速进展。3D ShapeNets [38]引入了用于建模3D形状的3D深度学习，最近的几项工作[22，11，33]也从3D数据中计算深度特征，用于对象检索和分类任务虽然这些工作是鼓舞人心的，他们的重点是在全球范围内从完整的3D对象模型中提取功能。相比之下，我们的描述符侧重于学习几何特征的真实世界的RGB-D扫描数据在本地一级，以提供更多的鲁棒性时，处理部分数据遭受各种遮挡模式和视点差异。已学习3D本地描述符。更密切相关的这项工作是郭等。[14]，它使用2D ConvNet描述器来匹配网格标记的局部几何特征。然而，他们的方法只在合成和完整的3D模型上运行，而在没有任何空间相关性的级联特征向量的输入补丁相比之下，我们的工作不仅解决了匹配真实世界部分3D数据的难题，而且还以空间相干的方式在体积数据上适当地利用3D ConvNets自我监督深度学习。最近，那里在使用自动获得的标签学习强大的深度模型方面一直很感兴趣。例如，最近的工作表明，来自视频的时间信息可以用作丰富的监督来源，以学习对各种任务有用的嵌入[13，26]。其他工作表明，从自我运动监督中学习的深度特征比使用类标签作为监督的特征在许多任务中表现得更好[2]。类似于这些最近的自我监督学习的工作，我们从现有的RGB-D重建中在线提取训练数据和对应标签的方法是全自动的，不需要任何人工劳动或人工监督。3. 从重建中在本文中，我们的目标是创建一个函数ψ，该函数将3D表面上的点周围的局部体积区域（或3D补丁）映射到描述符向量。给定任何两个点，理想函数将其局部3D补丁映射到两个描述符，其中描述符之间的较小距离指示较高的对应可能我们通过利用来自现有高质量RGB-D场景重建的数据来学习函数ψ这种方法的优点有三个方面：首先，重建数据集可以提供大量的训练对应关系，因为每个重建包含从多个不同扫描视图观察到的数百万个点。每个观察对提供用于匹配局部几何形状的训练示例。在相同兴趣点的不同观测之间，其局部3D补丁可能由于传感器噪声、视点变化和遮挡模式而看起来非常不同。这有助于提供一个大的和多样化的通信训练集。其次，重构可以利用领域知识，如时间信息和精心设计的全局优化方法，这可以促进宽基线配准（循环闭合）。我们可以使用来自这些chal-challening注册的对应关系第三，通过从多个重建数据集学习，我们可以优化3DMatch，以在各种条件下概括和鲁棒地匹配真实世界部分3D数据中的局部几何形状。具体来说，我们使用了从 Analysis-by-Synthesis [36] ， 7- Scenes [30] ，SUN 3D [39]，RGB-D Scenes v.2 [20]和Halber等人收集的62个不同场景的总计超过200 K的RGB-D图像。[15 ]第10段。54个场景用于训练，8个场景用于测试。每个重建数据集都是在不同的环境中以不同的尺度捕获的，具有不同的局部几何形状，并使用不同的重建算法构建。3.1. 生成培训信函为了获得训练3D补丁和它们的地面真值对应标签（匹配或不匹配），我们从从重建中随机采样的为了找到兴趣点的对应关系，我们将其在重建中的3D位置映射到所有RGB-D帧中，对于这些RGB-D帧，3D点位于帧的相机视锥体内从其拍摄RGB-D帧的相机的位置被强制为至少间隔1 m，使得观察对之间的视图足够宽基线化。然后，我们从这些RGB-D帧中的两个中提取兴趣点周围的两个局部3D补丁，并将它们用作匹配对。为了获得非匹配对，我们从两个兴趣点（至少相隔0.1米）的随机选取的深度帧中提取局部3D补丁，这些兴趣点是从反射表面随机采样的每个局部3D补片被转换成体积表示，如在第12节中所描述的。4.1.由于来自深度传感器噪声的扰动和重建结果中的缺陷，采样的兴趣点及其周围的局部3D补丁可能经历一些少量的漂移。我们将这种抖动视为我们的局部描述符学习少量的机会1805平移不变性。由于我们使用不同的传感器和算法从RGB-D重建数据集学习，抖动是不一致的，这使得描述器能够泛化并对其更鲁棒。4. 学习局部几何描述符我们使用3D ConvNet来学习从体积3D补丁到512维特征表示的映射，该特征表示用作该局部区域的描述符。在训练期间，我们优化该映射（即，更新ConvNet的权重），通过最小化从对应兴趣点（匹配）生成的描述符之间的距离，以及最大化从非对应兴趣点（非匹配）生成的描述符之间的距离这相当于用两个流训练ConvNet（即，Siamese Style ConvNets [6]），它接受两个局部3D补丁并预测它们是否彼此对应。4.1. 三维数据表示对于每个兴趣点，我们首先提取一个3D体积- ric表示的局部区域周围。每个3D区域都从其原始表示（表面网格、点云或深度图）转换为体积截断距离函数（TDF）值的30×30×30体素网格。类似于2D像素图像块，我们将这些TDF体素网格称为局部3D补片。在我们的实验中，这些局部3D补丁空间跨度0.3m3，其中体素大小为0.01m3。体素网格相对于相机视图对齐。如果相机信息不可用（即.对于预扫描的3D模型），体素网格与对象坐标对准。每个体素的TDF值指示该体素的中心到最近的3D表面之间的距离这些TDF值被截断、归一化，然后翻转到1（在表面上）和0（远离表面）之间。这种形式的3D表示与3D网格、点云和深度图交叉兼容。类似于用于彩色图像的2D RGB像素矩阵，3DTDF体素网格还提供适合作为3D Con vNet的输入的3D空间的自然TDF表示与其有符号的替代TSDF [7]相比有几个优点，除了表面（接近0的值）和自由空间（接近1的值）之外，它还编码了闭塞空间（接近通过去除符号，TDF失去了自由空间和遮挡空间之间的区别，但获得了一个新的属性，这对我们的描述符在部分数据上的鲁棒性至关重要：体素值之间的最大梯度集中在表面周围，而不是在自由空间和封闭空间之间的阴影边界中。此外，TDF表示减少了在相机视图不可用的情况下确定3D数据上什么是遮挡空间的模糊性图3. 来自7-Scenes的RedKitchen测试场景的局部3D补丁的3DMatch描述符的t-SNE嵌入[24]。这种嵌入表明，我们的3DMatch ConvNet能够基于局部几何特征（如边缘（a，f），平面（e），角点（c，d）和其他几何结构（g，b，h））在噪声和部分数据面前对局部3D补丁进行聚类。4.2. 网络架构3DMatch 是一个标准的 3D ConvNet ，灵感来自AlexNet [9] 。给定兴趣点周围局部 3D 补丁的30×30×30TDF体素网格，我们使用8个卷积层（每个卷积层具有用于非线性的校正线性单元激活函数）和池化层来计算512维特征表示，其用作特征描述符。由于初始输入体素网格的尺寸小，我们只包括一层池，以避免大量的信息丢失。卷积参数如图所示。2 as（内核大小，过滤器数量）。4.3. 网络训练在训练过程中，我们的目标是优化ConvNet生成的局部为此，我们用两个流以连体方式训练我们的ConvNet，其中每个流独立地计算不同局部3D补丁的描述符第一流获取表面点p1周围的局部3D补片，而第二流获取表面点p2周围的第二局部3D补片。两个流共享相同的架构和底层权重。我们使用E22范数作为描述符之间的相似性度量，在训练期间使用对比损失函数[6]进行建模。这种损失最小化对应3D点对（匹配）的描述符之间的102距离，同时拉开非对应3D点对的描述符之间的102在训练过程中，我们为网络提供平衡的1：1匹配与非匹配比例，这是一种有效学习区分描述符的策略[16，31，40]。图图3显示了基于3DMatch描述符的局部3D补丁的t-SNE嵌入[37]1806图4. 3DMatch可以匹配哪些3D面片？在左侧，我们显示了在不同扫描视角拍摄的两个融合片段（A和B），以及使用3DMatch的配准结果+ RANSAC在右侧，每行示出了来自片段A的局部3D片，随后是由3DMatch描述符找到的来自片段B的三个最近邻局部3D片。边界框被颜色编码为片段A上所示的关键点。5. 评价在本节中，我们首先评估我们学习的局部3D描述符（3DMatch）与兴趣点对的局部3D补丁的匹配程度（第二节）。5.1）。然后，我们评估其实际使用的几何配准的一部分，匹配三维数据在几个应用程序，如场景重建（秒。 5.2 ）和 6D对象姿态估计（第 5.2节）。5.3）。5.1. 关键点匹配我们的第一组实验通过测试其区分关键点对的匹配和非匹配局部3D补丁的能力来测量3D局部描述符的质量。使用第2节中描述的采样算法3，我们构建了一个对应基准，类似于Photo Tourism数据集[4]，但具有从深度帧中提取的局部3D补丁。该基准测试包含30，000个3D补丁的集合，匹配和不匹配的比例为1：1。与[4，16]一样，我们的评估指标是95%召回率下的假阳性率（错误率），越低越好。我们的描述比其他人更好吗？我们将我们的描述符与其他几个最先进的几何描述符进行比较。对于Johnsonet al. （Spin-Images）[18]和Rusuet al.（快速点特征直方图）[27]，我们使用点云库（PCL）中提供的实现。虽然3DMatch使用仅从单个深度帧计算的局部TDF体素网格，我们运行约翰逊等人。和Rusuet al.在网格融合从50个附近的深度帧，以提高他们的性能在这个基准，因为这些算法未能产生合理的结果，对单一的深度帧。然而，3DMatch的性能明显优于这些方法。方法误差Johnson等人（Spin-Images）[18]83.7Rusu等人（FPFH）[27]61.3深度上的2D ConvNet38.5我们的（3DMatch）35.3表1. 关键点匹配任务错误率（%）为95%。3D容积与2D深度贴片？我们使用TDF体素网格来表示3D数据，这不仅是因为它是一种可以容易地从网格或点云转换的中间表示，而且还因为这种3D表示允许对真实世界的空间尺度和遮挡区域进行推理为了评估这种3D TDF编码相对于2D深度的优势，我们使用深度补丁上的2D ConvNet训练了我们方法的变体。从0.3m3的作物中提取深度补丁，并将其大小调整为64x64补丁。为了进行公平的比较，2D ConvNet的架构类似于我们的3D ConvNet，具有两个额外的卷积层，以实现与3DConvNet相似数量的参数。如表1所示，该2D ConvNet产生更高的错误率（38.5 vs. 35.3）。我们应该使用公制网络吗？最近的工作[16]提出了描述符和相似性度量与ConvNets的联合学习为了探索这个想法，我们用三个完全连接的层替换了我们的对比损失层，然后是一个Softmax层，用于“匹配”与“非匹配”的二元分类我们在我们的关键点匹配基准上评估了该网络的性能，其中我们看到33.1%的误差（2.2%的改进）。然而，正如Yiet al. [40]，需要学习度量的描述符由于测试时的O（n2）比较行为而具有有限的适用性范围，因为它们不能直接与基于度量的加速结构（如KD树）相结合。为了将运行时间保持在实际限制内，我们在以下部分中使用2002度量训练的3DMatch版本5.2. 几何配准为了评估我们的描述符的实际使用，我们结合了3DMatch与RANSAC搜索算法的几何配准，并衡量其性能标准的基准。更具体地说，给定来自扫描数据的两个3D点云，我们首先从每个点云中随机采样n个关键点。使用本地3D每个关键点周围的30×30×30TDF贴片（与相机轴对齐，每个点云可能不同1807IJIJIJIJ图5. 从SUN3D的测试场景中检查循环闭包的情况[39]。在这些情况下，RGB图像（顶行）中的颜色特征由于剧烈的视点差异而不足以配准扫描对。而Rusuet al. [27]未能对齐扫描对（中间行），3DMatch能够通过匹配局部几何特征成功对齐每对扫描（底部行）我们计算所有2n个关键点的3DMatch描述符。我们找到描述符在欧几里得空间中相互最接近的关键点，并在这些关键点匹配的3D位置上使用RANSAC来估计两个点云之间的刚性变换。5.2.1场景中的局部几何匹配我们评估我们的基于3DM匹配的几何配准算法（即，3DMatch + RANSAC）。对于合成，我们使用来自Choi等人的基准。[5]包含来自ICL-NUIM数据集[17]的四个场景的207个片段（每个片段融合自50个深度帧）然而，在这个ICL-NUIM数据集中的重复和过度简化的几何形状与现实世界的场景非常不同因此，我们创建了一个单独的基准测试，其中包含从真实世界重建数据集的测试分割中形成的片段我们使用相同的评价方案介绍了崔等人。[5]，基于两个因素测量方法的召回率和精度：（1）它找到循环闭包的程度，以及（2）它估计刚性变换矩阵的程度给定两个非连续场景片段（P i，P j），如果（1）超过30%的T ij P i与P j重叠并且如果（2）T ij足够接近，则预测的相对刚性变换T ij是真正的到地面实况转换T如果它使地面实况对应的RMSE3DMatch ConvNet在一组碎片上的对应关系上使用7场景训练集以相同的方式构建然后，我们在来自基准的每对片段上使用3DMatch + RANSAC运行成对几何配准。我们在表2[5]中的合成数据基准和表3中的真实数据基准上比较了我们的基于3DMatch的配准方法与其他最先进的几何配准方法的性能。我们还与Rusuetal.[27] Johnsonet al.[18]使用相同的基于RANSAC的管道。总的来说，我们的RANSAC描述符在两个数据集上都明显优于其他方法。方法召回率（%）精确度（%）Drost等人[10个国家]5.31.6Mellado等人[23日]17.810.4Rusu等人[27日]44.914.0Choi等人[五]《中国日报》59.219.6Zhou等[四十三]51.123.2Rusu等人[27]第二十七话46.119.1Johnson等人[18]第十八话52.021.7我们的+RANSAC65.125.2表2. 合成扫描的融合片段之间的几何配准算法的性能。在P i和P j之间，低于阈值τ = 0。2方法召回率（%）精确度（%）1|K∗|Σ（p<$，q<$）∈K<$||Tijp− q||（<1）第二章其中p=q=是地面真值对应。自Choiet al.[5]第五，以“行”为本。从多个深度帧融合的片段，我们微调我们的表3. 几何配准算法在真实世界扫描的融合片段之间的性能。Rusu等人[27]第二十七话44.230.7Johnson等人[18]第十八话51.831.6我们的+RANSAC66.840.11808图6. 3DMatch用于重建。在左边，我们展示了仅使用3DMatch从SUN3D [39]重建的公寓。在右边，我们展示了两个仅使用SIFT匹配颜色特征的重建（上），仅使用3DMatch匹配几何特征（中），以及同时使用SIFT和3DMatch（下）。红色方框突出显示重建质量较差的区域，而绿色方框突出显示质量有所改善的区域这些示例表明，3DMatch提供了与颜色特征互补的强几何特征对应，并且可以帮助提高重建的质量。5.2.2在重建管道中集成3DMatch在本节中，我们展示了3DMatch不仅能够检测具有挑战性的循环闭合情况，而且还可以在标准重建管道中使用，以生成新场景的高质量重建我们使用我们的3DMatch描述符作为场景重建的标准稀疏光束平差公式的一部分[35，1]。传统上，稀疏RGB特征，如SIFT或SURF，用于建立帧之间的特征匹配通过3DMatch，我们能够根据几何信息建立关键点匹配，并添加到光束法平差步骤中。有了这个简单的管道，我们能够在具有挑战性的场景中仅使用几何信息生成全局一致的对齐，如图所示。六、我们还发现颜色和深度为RGB-D重建提供了补充信息。例如，稀疏RGB特征可以在扫描中几何信息不足的情况下提供对应关系，而几何信号在存在导致传统RGB特征失效的剧烈视点或照明变化的情况下是有帮助的。图5示出了来自SUN3D数据集的测试分割的具有挑战性的循环闭合情况，由于剧烈的视点差异，基于颜色的描述器难以找到对应关系。我们的基于3DMatch的配准算法能够匹配局部几何形状，以找到对应关系并使扫描对齐。在图6中，我们示出了几个重建结果，其中组合来自SIFT（颜色）和3DMatch（几何）两者的对应性总体上提高了对准质量。5.3. 3DMatch可以推广到新的领域吗？作为最后的测试，我们评估了我们的3DMatch描述符的能力，它是从3D重建中训练出来的，可以推广到完全不同的任务和空间尺度;即，通过3D网格的模型对准和对应标记的6D对象姿态估计。通过模型对齐进行6D对象姿态估计。在我们第一个实验，任务是在Amazon Picking Challenge（APC）设置[42]中将预扫描的对象模型注册到货架手提包基准的RGB-D扫描数据，如图所示7 .第一次会议。该场景在以下两个方面不同于场景级重建：（1）对象尺寸及其几何特征在尺度上小得多，以及（2）这里的对准是从完全预扫描模型到部分扫描数据，而不是部分扫描到部分扫描。方法轮调（%）翻译（%）基线[42]49.067.6Johnson等人[18]第十八话45.565.9Rusu等人[27]第二十七话43.565.6Ours（无预训练）+RANSAC53.869.1我们的+RANSAC61.071.7表4. 用于模型拟合的几何配准算法的性能。数字以平均正确旋转和平移预测百分比的形式报告考虑到空间尺度的差异，我们将每个体素的大小减少到0.005米3内的本地3D补丁。来自对象模型的体素网格相对于对象模型的坐标轴对准我们使用在重建上预训练的3DMatch网络，并在Shelf Tote数据的50%训练分割上对其进行类似于我们在Sec中如何将场景片段彼此对齐。5.2中，我们使用基于RANSAC的几何配准方法来将对象模型与扫描对齐。预测的与基线方法类似，我们在对象模型与[42]的分割结果之间执行模型对齐。我们使用[42]中的误差度量对Shelf Tote数据集的测试分割进行评估，其中我们报告了姿态预测的百分比，方向误差较小1809图7. Amazon Picking Challenge中的6D姿态估计通过将对象模型（a）与扫描数据（b）对准。(c)是扫描货架的自顶向下视图，突出显示了来自RGB-D传感器的深度数据的噪声、部分性质。图8. 使用3DMatch + RANSAC在货架托盘基准上预测对象姿势。预测的对象姿态被示出在具有变换的对象模型的3D边界框的扫描的图像3DMatch + RANSAC在许多情况下都能很好地工作;然而，当由于遮挡或杂乱而没有足够的深度信息时，它可能会失败（底部）。小于15厘米，平移小于5厘米。我们比较了货架手提箱基准的基线方法以及表4中的其他方法。我们的几个预测如图所示。8.我们的描述符显着优于基线方法，旋转预测精度和其他注册变量提高了10%以上。没有对重建进行预训练的3DMatch模型产生较低的性能，证明了对重建数据进行预训练的重要性。3D网格上的曲面对应。在我们的最后一个实验中，我们测试了3DMatch进一步推广到其他模式的能力。我们采用在RGB-D重建数据上训练的3DMatch模型，并直接在3D网格模型上进行测试，而无需进行任何微调，以查看3DMatch是否能够基于局部几何形状找到表面对应关系。给定三维网格表面上的一个查询点，目标是在第二个网格上找到几何相似的点（例如，用于传输关于人类接触点的注释[19]）。我们通过首先对查询点的局部体积区域（大小为0.3m3）进行编码来实现这一点，图9. 3D网格上的曲面对应。第一列显示输入网格和查询点（红色和蓝色）。其他列显示了在同一对象类别的其他网格（顶行和中间行）和不同对象类别的其他网格（底行）中发现的相应对应关系。第一个网格和所有表面点从第二个网格到TDF体积对准对象坐标，并计算它们的3DMatch描述符。对于第二个网格上的每个表面点，我们根据其描述符到查询点描述符的距离为它图9显示了来自Shape2Pose数据集[19]的网格结果结果表明，在不对网格数据进行任何微调的情况下，3DMatch可以作为一种通用的三维形状描述符，用于寻找网格之间具有相似局部几何特征的对应关系有趣的是，3DMatch还能够在不同的对象类别中找到几何对应关系。例如，在图3的第三行中，9、3DMatch能够在非常不同的网格中匹配手柄。6. 结论在这项工作中，我们提出了3DMatch，这是一种基于3D ConvNet的局部几何描述符，可用于匹配各种应用中的部分3D数据。我们证明，通过利用从RGB-D参考自动获得的大量对应，我们可以训练一个强大的描述符，其性能明显优于现有的几何描述符。我们提供所有代码和预训练模型，以便于使用和集成。为了鼓励进一步的研究，我们还提供了一个对应匹配基准和表面配准基准，都与真实世界的3D数据。鸣谢这项工作得到了 NSF/Intel VEC 计划和 GoogleFaculty Award的支持。Andy Zeng由Gordon Y.S.提供支持。吴团契。Shuran Song由Facebook Fellowship提供支持。Matthias Nießner是Max Planck Center for VisualComputing and Communications （ MPC-VCC ）的成员。我们衷心感谢NVIDIA和In-tel对硬件捐赠的支持1810引用[1] S.阿加瓦尔湾古鲁卡河，加-地斯内夫利岛西蒙湾没有卷发S. M. Seitz和R.塞利斯基一天建成罗马。ACM的通信，54（10）：105-112，2011。7[2] P. Agrawal，J. Carreira和J.马利克学习通过移动来观察。IEEE International Conference on Computer Vision，第37-45页，2015年。3[3] A. 阿尔布费拉，Z.- C. Marton，F. 通巴里湾沃尔金格，C. 波特哈斯特湾蔡塞尔河B. Rusu，S.Gedikli和M.文斯点云库。IEEE机器人自动化杂志，1070（9932/12），2012年。2[4] M.布朗，G。Hua和S.发条人局部图像描述符的判别学习。 Pattern Analysis and Machine Intelligence ， IEEETransactions on，33（1）：43-57，2011。二、五[5] S. Choi，Q.- Y. Zhou和V.科尔顿。室内场景的鲁棒重建。IEEE计算机视觉和模式识别会议论文集，第5556-5565页，2015年一、二、六[6] S.乔普拉河Hadsell和Y.乐存。区别性地学习相似性度量，并应用于人脸验证。计算机视觉与模式识别，2005年。CVPR 2005。IEEE计算机协会会议，第1卷，第539-546页。IEEE，2005年。4[7] B. Curless和M.勒沃从距离图像建立复杂模型的体积法在第23届计算机图形和交互技术年会的会议记录中，第303-312页。ACM，1996年。4[8] A. 戴，M. Nießne r，M. Zol l hofer，S. Izadi和C. 希奥博尔特Bundlefusion：实时全球一致的三维reproximation使用在飞表面重新整合，2016年。2[9] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。Imagenet：一个大规模的分层图像数据库。在计算机视觉和模式识别，2009年。CVPR 2009。IEEE会议，第248-255页。IEEE，2009年。4[10] B. Drost，M. Ulrich，N. Navab和S.伊利克全局建模，局部匹配：高效和鲁棒的三维物体识别。在计算机视觉和模式识别（CVPR），2010年IEEE会议上，第998-1005页。IEEE，2010。6[11] Y. Fang，J.Xie，G.戴，M.Wang，F.Zhu，T.xu和E.黄。3D深度形状描述符。在2015年IEEE计算机视觉和模式识别会议集，第2319-2328页中。3[12] A. Frome，D. 胡贝河 Kolluri，T. Bu？low和J. 马利克使用区域点描述器识别范围数据中的对象。计算机视觉-ECCV 2004，第224Springer，2004. 2[13] R. Goroshin，J. Bruna，J. Tompson，D. Eigen和Y.乐坤。时空相干度量的无监督学习。IEEE InternationalConference on Computer Vision，第4086-4093页，2015年。3[14] K. Guo，L.Zou和X.尘通过深度卷积神经网络的3D网格标记 ACM Transactions on Graphics （ TOG ）， 35（1）：3，2015. 3[15] M. Halber和T.放克豪瑟室内环境中rgb-d扫描的结构化全局配准。arXiv预印本arXiv：1607.08539，2016. 二、三1811[16] X.汉，T.梁，Y.贾河，巴西-地Sukthankar和A. C.伯格。Matchnet：统一特征和度量学习用于基于补丁的匹配。在IEEE计算机视觉和模式识别会议论文集，第3279- 3286页二、四、五[17] A. Handa，T. Whelan、J.McDonald和A. 戴维森RGB-D视觉里程计、3D重建和SLAM的基准。在IEEE Intl. Conf. on Robotics and Automa-tion ，ICRA，Hong Kong，China，May 2014. 6[18] A. E. Johnson和M.赫伯特在杂乱的3d场景中使用自旋图像进行 Pattern Analysis and MachineIntelligence，IEEE Transactions on，21（5）：433一、二、五、六、七[19] V. G. Kim ， S. 乔杜里湖 Guibas 和 T. 放克豪瑟Shape2pose ：以人为中心的形状分析。 ACMTransactions on Graphics（TOG），33（4）：120，2014. 8[20] K. 莱湖，澳-地Bo和D.狐狸. 用于3d场景标注的无监督特征学习2014年IEEE机器人与自动化国际会议（ICRA），第3050-3057页IEEE，2014。二、三[21] S. 拉泽布尼克角Schmid和J.庞塞用于物体识别的半局部仿射在英国机器视觉会议（BMVC英国机器视觉协会（BMVA），2004年。1[22] D. Maturana 和 S. 谢勒三维卷积神经网络用于LiDAR着陆区探测。InICRA，2015. 3[23] N. Mellado，D. Aiger和N. J. Mitra通过智能索引的超4件快速全球点云注册。计算机图形论坛，第33卷，第205-215页。Wiley Online Library，2014.6[24]R. A. 纽科姆，S。伊扎迪河希利格斯，D。莫利诺D. Kim，A.J. Davison，P.Kohi，J.Shotton，S.霍奇斯，A.菲茨吉本运动融合：实时密集表面映射和跟踪。在Mixed and augmented reality（ISMAR），2011年第10届IEEE国际研讨会上，第127- 136页IEEE，2011年。二、四[25] M. Nießne r，M. Zollh oüfer，S. Izadi和M. 斯塔明格河利用体素散列法进行大规模实时三维重建ACM Transactions on Graphics （ TOG ）， 32 （ 6 ）：169，2013。2[26] V. Ramanathan，K.唐，G. Mori和L.飞飞学习用于复杂视频分析的时间嵌入。在IEEE计算机视觉国际会议的Proceedings，第4471-4479页，2015年。3[27] R. B. Rusu，N. Blodow和M.比兹快速点特征直方图三维配准。在机器人和自动化，2009年。ICRA'09 。 IEEE 国际会议，第 3212-3217 页。IEEE，2009年。一、五、六、七[28] R. B. Rusu，N. Blodow，Z. C. Marton和M.比兹使用持久特征直方图对齐点云视图。智能机器人与系统，2008年。IROS 2008。IEEE/RSJ国际会议，第3384-3391页。IEEE，2008年。2[29] T.施密特河Newcombe和D.狐狸.密集对应的自监督视觉描述符学习。 IEEE Robotics andAutomation Letters，2（2）：420-427，2017。3[30] J. Shotton，B.格洛克角Zach，S. Izadi，A. Criminisi和A.菲茨吉本场景坐标回归森林1812RGB-D图像中的照相机重新定位。在计算机视觉和模式识别（CVPR），2013年IEEE会议上，第2930-2937页。IEEE，2013。二、三[31] E. Simo-Serra，E.特鲁尔斯湖费拉斯岛Kokkinos，P. Fua，和F. 莫雷诺诺格尔深度卷积特征点描述符的判别学习在IEEE计算机视觉国际会议论文集，第118- 126页二、四[32] K. Simonyan、A. Vedaldi和A.齐瑟曼。使用凸优化学习局部特征描述符。 Pattern Analys

下载后可阅读完整内容，剩余1页未读，立即下载