无监督学习下的3D形状对应关系建立及描述符学习

125 浏览量更新于2023-10-12 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1无监督Riccardo Spezialetti，Samuele Salti，Luigi di Stefano意大利博洛尼亚大学{riccardo.spezialetti，samuele.salti，luigi.distefano} @ unibo.it摘要建立3D形状之间的对应关系是3D计算机视觉中的基本任务，通常通过匹配局部描述符来处理。最近，一些尝试将深度学习范式应用于该任务的尝试已经显示出有希望的结果。然而，学习旋转不变描述符的唯一探索方法是向神经网络提供由现有手工制作的描述符提供的高度工程化和不变的表示，这条路径与从原始数据中成功部署的2D图像的端到端学习相反。在本文中，我们探索了在3D描述符的端到端学习方向上后退一步的好处，方法是创建一个鲁棒且独特的旋转等变表示，可以从无方向的输入数据中学习，以及定义一个良好的规范方向，仅在测试时需要获得不变描述符。为此，我们利用两项最新创新：球形卷积神经网络学习等变描述符，平面折叠解码器在没有监督的情况下学习。通过在标准基准测试中表现出手工制作和学习的描述符，1. 介绍曲面匹配是三维计算机视觉中的一个具有挑战性的问题。它在三维物体识别、三维物体检索、三维配准与重建等方面有着广泛的应用。定义一个表面的局部几何的紧凑和有效的表示，通常被称为描述符，在表面匹配中起着关键作用。事实上，性能的算法提出，以解决上述应用程序往往在很大程度上取决于所选择的描述器的有效性。在过去的几十年里，这促进了局部3D描述符领域的深入研究[29，25，13，10，24]。深度神经网络在图像识别中的成功这也促使了最近的范式转变，从手工算法到数据驱动的方法，也在本地3D描述符的设计中[36，14，3，4]。然而，现有技术的提议实际上不是从输入数据而是从现有的手工制作的3D描述符学习新的局部3D描述符，这些描述符已经通过设计是旋转不变的：例如，CGF [14]从与唯一形状上下文（USC）描述符[29]非常相似的高维输入参数化开始，而PPF-FoldNet [3]依赖于众所周知的点对特征（PPF）[6]。换句话说，由于难以向神经网络提供无组织的输入数据[14]，这些方法通过实际学习如何鲁棒地压缩特定的不变手工描述符来创建新的描述符。我们认为，依赖不变的手工描述符作为输入数据来馈送神经网络的缺点是双重的。一方面，不存在跨应用程序和数据集的最佳手工描述符，正如最近的评估所证明的那样[9]。因此，例如，PPF-FoldNet的性能在某些场景和数据集上受到使用PPF作为输入表示的手工设计决策另一方面，为了实现旋转不变性，深度学习管道中使用的现有手工描述符依赖于该点的法线作为参考轴[3]或局部参考系（LRF）。[14]以表示相对于规范定向参考系的点坐标和角度。轴或LRF的重复性直接影响输入描述符[20，19]的不变性和鲁棒性，进而影响从这些表示中学习的描述符。然而，用于获得这种规范取向的参数（例如，用于估计法线的相邻点的数量、如何在LRF中的切平面上建立参考方向等）。同样是手工制作的设计决策，并且在训练期间没有被优化。依赖旋转不变的手工描述符作为输入表示，与成功应用于图像的端到端学习范式有很大的偏差因此，在本文中，我们研究是否让模型自由地从一个非最优描述符中学习一个最优描述符64016402在这种情况下，规范导向的输入表示也可以释放深度学习的未开发潜力为此，我们利用最近在FoldingNet[34]和MoldasNet [8]中提出的范例来实现从3D数据中嵌入空间的无监督学习，该嵌入空间根据潜在表示学习变形从平面采样的点，以便重建输入表面。这个概念已经被部署为通过重建输入数据的点对特征来获得不变的3D描述符[3]。然而，在我们的提议中，学习的潜在空间必须对姿势信息进行编码，以便能够在任意姿势下重建输入，如稍后将显示的那样（第二节）。3.3）。我们认为，学习嵌入同变相对于旋转的输入，把是最健全的方法，包括潜在空间中的姿势信息的能力。为此，我们利用最近对球形CNN的研究[2，7]，这些研究增强了深度学习机制，使其能够通过为SO（3）旋转群定义的相关性从3D球形信号中学习旋转等变表示。因此，在我们的架构中，球形CNN编码器学习将特征点周围的几何形状总结为旋转等变嵌入，解码器扭曲2D网格以重建原始输入数据。这使得能够学习等变嵌入，而无需在训练时使用噪声和任意规范方向。在测试时执行姿势不变描述符匹配时间，我们已经研究了两种替代方法来定位我们的等变描述符：我们可以再次利用球形CNN输出的特殊性质，其是存在于SO（3）中的信号，以直接从计算的嵌入定义正则方向;或者我们可以根据由在输入数据上计算的外部局部参考系提供的规范取向来定向描述器。虽然第一种方法可以实现描述符和LRF的端到端学习，但到目前为止，我们已经用第二种方法获得了更好的结果。特别是，我们通过比较两种变体与流行3DMatch基准数据集上的手工制作和学习方法，验证了我们关于从原始无方向输入数据中学习局部描述符的优越性的声明[36]。我们的建议改进了一个显着的利润率的最先进的，超过形成的方法基于相同的无监督学习框架，但适用于不变的描述符，超过0.23点的片段注册召回（31%的增长）。2. 相关工作本节审查各项主要提议在局部描述符领域，从早期的手工制作方法到基于深度学习的新颖方法。Hand-crafted 3D Local Descriptors一个本地3D描述符scriptor通过将几何或拓扑测量收集到直方图中来创建3D表面的紧凑表示。诸如Spin Images[13]、UniqueShape Context[29]和RoP[10]等方法依赖于表面上点的空间分布，而其他方法如FPFH[24]和SHOT[25]利用曲面的几何属性，旋转不变性是通过使用局部参考系或参考轴来实现的。学习的3D局部描述符深度学习在图像识别方面取得了令人印象深刻的进展，激发了类似的方法来学习描述符。3D数据。然而，点云的无组织性质使得这种扩展并不简单。作为一个结果，几个平行的轨道上的输入数据的表示已经出现。早期的作品将3D对象表示为2D视图的集合[27，31]。另一种方法涉及密集的3D体素网格，其中体素包含二进制占用网格[18，32]或表面的替代表示[36]。为了限制体素网格的内存占用，研究人员要么依赖于粗糙的空间分辨率，然而，这会引入伪影并阻碍学习精细几何结构的能力，要么依赖于空间分区方法，如k-d树或八叉树[16，28]。不同的是，其他方法部署高维手工特征来参数化输入点云，然后使用深度学习将其投影到低维空间[14，3]。从原始3D数据中学习PointNet [21]和Point- Net++[22]是开创性的作品，提供了一个通用框架，可以直接从原始点云中数据虽然在点云分割和分类任务中产生了出色的性能，但这些架构尚未用于执行局部表面描述，这可能是由于无法提供旋转不变性。尽管如此，PointNet是PPFNet [4]的核心构建块，它依赖于原始点坐标、归一化和点对特征，以便学习局部特征描述符。事实上，由于对PointNet架构的依赖，PPFNet不是旋转不变的。3. 该方法在本节中，我们将展示我们的方法的整个管道，如图1所示。请注意，我们的编码器只包含相关层，即.它在最后不包括最大池化层，以学习姿态不变描述符，这反而存在于[2]中提出的3.1. 背景由于我们依赖于球形CNN，为了使论文自包含，我们提供了其背后数学模型的简要概述。更多详情请参考[2]。6403图1：所提出的方法的架构。给定特征点p的局部支持内的点被转换成球形信号表示，然后通过球形编码器发送以获得等变描述符。的球形信号下方的数字表示沿α、β和d的细胞数。解码器根据该描述符对原始点云进行重构，并对采样的二维点进行变形。编码器中的操作通过广义傅立叶变换来实现，信号根据带宽参数离散化[2]。编码器层下面的三元组表示输入带宽、输出带宽和通道数。对于解码器，这些对分别表示输入和输出通道的数量。球形CNN背后的基本直觉可以通过与传统CNN使用的经典平面相关性进行类比来理解。如[2]中所解释的，在平面相关中x ∈Z2处的输出特征图的值可以理解为输入特征图和移位x的学习滤波器之间的内积。通过分析，在球面相关中R ∈SO（3）处的输出特征映射的值可以被理解为输入特征映射与学习滤波器之间的内积，旋转R。从传统CNN切换到球形CNN时的一个混淆来源是输入信号（例如点云）和特征图所处的空间不同：前者位于R3中，而后者位于SO（3）中。因此，当我们读取特征映射的值时，我们得到的是特定旋转的滤波器响应，而不是输入云中的位置。这与trans-acquisition相关性不同，其中输入图像和特征图都位于Z2中，并且特征图的感受野的概念更直观。三维流形称为SO（3），“特殊正交群”。与[2]一样，转动群SO（3）可以用ZYZ-欧拉角α ∈[0，2π]，β∈[0，2π]，γ∈[0，2π]来表示。旋转可以由保持距离的3 × 3矩阵表示（即RxR=RxR）和取向（det（R）=+1）。如果我们将球体上的点表示为3D单位向量x，则可以通过使用矩阵向量积Rx来执行旋转。球面信号的旋转球面相关算子需要旋转球面上的滤波器。为此，[2]引入了算子LR，该算子取函数f并通过将f与旋转R−1合成来产生旋转函数LR f：[LR f]（x）=f（R−1x）（1）球面相关性用在[2]中定义的球面信号的向量空间上的内积来表示，K值球面信号f和滤波器之间的相关性可以被形式化为：下面给出了一些有用的定义，以从形式的角度理解球形CNN单位球面S2可以定义为点集x ∈（R）=L R，f=克雷蒂安S2k=1k（R−1x）f k（x）dx.（二）R3，范数为1。它是一个二维流形，可以用球面坐标α ∈[0，2π]（方位角）和β ∈[0，π]（倾角）来参数化球形信号球形编码器的内核被设计为连续K值函数：f：S2→RK，其中K是通道数。旋转三维空间的旋转存在于三维空间中这是我们编码器的第一层执行的操作（图1）。与球面卷积的标准定义[5]不同，球面卷积的标准定义给出球面S2上的函数作为输出，球面相关产生SO（3）上的信号。使用传统的卷积定义会限制网络的表达能力，因为学习的滤波器沿Z轴对称。6404SO（3）信号的旋转类似于方程（1）中对球面相关的（2），定义一个SO（3）中的相关性，方程中的算子（1）必须推广，使它能作用于SO（3）。对于信号h：SO（3）→RK，且R，Q ∈SO（3）：[L R h]（Q）= h（R−1Q）。（三）在等式中的项R−1Q（3）表示旋转的合成旋转组相关性在等式中也是如此。（2），我们可以定义信号和滤波器之间的相关性，10的情况。80的情况。60的情况。40的情况。2网络旋转不变性旋转群，h，n：SO（3）→RK，如下：00 40 80 120 160 200 240280 320 360角度（度）[h]（R）=L R，f=克雷蒂安SO（3）k=1k（R−1Q）h k（Q）dQ。（四）图2：PointNet和Spherical CNN在我们的框架中用作编码器的比较。这是我们编码器中除第一层以外的所有层执行的操作（图1）。积分测度dQ是SO（3）上的不变测度，它可以用ZYZ-欧拉角表示为dαsin（β）dβdγ/（8π2）.请注意，与[2]不同，为了更清楚，我们将球面相关性（2）表示为θ，而将旋转群相关性（4）表示为θ。3.2. 从球形信号中学习我们的特征编码器在球形域中定义的信号上操作。因此，围绕特征点的局部几何形状需要被转换成球形表示。[2，7]采用的一种常见策略是使用光线投射方案将3D网格投影到封闭的离散化球体由于我们的输入数据不是规则的不透水网格，而是与我们希望描述的点的邻域相对应的点云，因此我们首先将3D点转换为球面坐标系，然后在这个新坐标系中构建量化网格，类似于[35]。量化中的第i个单元用三个球坐标（α[i]，β[i]，d[i]）∈S2×D来标识，其中α[i]和β[i]表示其中心的方位角和倾角，d[i]是到球心的距离K值球面信号f：S2→RK由K个同心球组成，这些同心球对应于沿距离轴的细分数，每个球对每个单元（α[i]，β[i]）内给定距离d[k]处的点的密度进行编码。考虑到球面空间中的非均匀间距，南极或北极附近的细胞在球面坐标中更宽，如[35]中所讨论的在我们希望描述的每个输入点的局部邻域上计算球形信号（即，每个关键点）。然后，信号通过我们的架构来学习等变瓶颈层，然后可以将其用作关键点周围的局部几何形状的描述符。3.3. 旋转等变描述子我们方法的主要新颖之处在于使用球形CNN作为编码器来学习等变瓶颈层。学习等变瓶颈消除了在训练时将不变表示作为网络输入的要求，这是实现旋转的唯一方法。tion不变性，现有提案中的标准方法[3，14]。相反，在我们的框架中，我们可以在测试时延迟选择如何规范地定位描述符，这带来了两个重要的好处。一方面，我们不必选择特定的方式来定位输入，例如，特定的LRF，这意味着我们可以训练网络从比现有建议更少的预处理输入数据中学习描述符，向端到端描述符学习迈进了一另一方面，在训练时不使用LRF使我们的方法免于LRF本身的不可避免的错误，这反过来又在训练过程中注入噪声我们希望这两个好处能够同时增加学习描述符的有效性。此外，从实践的角度来看，能够在不将描述符绑定到特定LRF的情况下训练描述符，使我们能够在测试时选择最佳方式来定义规范表示，而无需从头开始训练网络。最后，它还开辟了可能性，使用不同的LRF不同的测试数据，虽然我们还没有探讨这一性质的实验结果在本文中报道。请注意，像球形CNN这样的真正旋转等变CNN在我球面CNN编码器PointNet编码器描述子距离6405们的框架中是强制性的，如引言中所述。事实上，只有SO（3）中的描述符才能在计算之后被旋转即迄今为止，只有球形CNN的输出所有其他标准表示，例如多层的输出6406PointNet中使用的感知器（MLP）在计算后无法旋转。因此，如果我们想在我们的框架中使用它们，其中由于上述原因，输入不是规范定向的，我们只能希望网络在训练期间通过观察相同邻域的旋转版本来学习直接获得旋转不变描述符，而无需明确的监督，然而，在我们的设置中，这比学习等效描述符更难。我们已经通过实验验证了这是多么困难，通过使用标准PointNet编码器而不是球形编码器来学习不变描述符。比较结果如图2所示。请注意，等方差是球形CNN的理论属性，无论它是否经过训练事实上，在图2的结果中，球面编码器还没有被训练，而点网编码器已经在第4.1节中提出的3DMatch基准上被训练。给定一个邻域，我们将其围绕随机轴旋转一个不断增长的角度，其值沿图表的水平轴报告。对于每次旋转，我们将旋转的邻域通过Spherical CNN编码器和PointNet编码器。然后，球形CNN的输出通过应用的旋转的逆旋转（模拟完美LRF的可用性），并且绘制从旋转的邻域获得的描述符和从未旋转的邻域获得的描述符之间的距离。我们可以清楚地看到，PointNet在我们的设置中无法学习不变描述符，而球形CNN提供的等变表示在适当旋转时可以实现几乎完美的输入等变不变量图3：使用球形CNN编码器学习等效与不变瓶颈时获得的重建之间的比较经过10K训练迭代后的结果。此外，即使PointNet能够学习一个完美不变的瓶颈，我们已经通过实验发现，这将导致低质量的重建。原因在于，如果学习到的瓶颈不包含任何姿势信息，则像FoldingNet/PencasNet这样的框架不可能收敛到合理的重建，即，它几乎完全不变。这在图3中示出。其中我们比较了当使用等变瓶颈层与不变瓶颈层时由我们的框架产生在这种情况下，不变的一个是通过从我们的编码器中移除最后的SO（3）相关层来获得的，这在我们的架构中产生等效描述符，并添加最大池化层，选择现在顶层40个特征图中的每一个的最大值，然后是全连接层，以将码字维度扩展到512。如图所示，如果编码器产生不变描述符，则解码器它所能做的最好的事情是产生重建，试图考虑输入的所有可能的旋转，例如。上一列中描述的原子状结构，几乎忽略了不变的瓶颈层。3.4. 不变特征描述子为了在测试时获得一个不变的描述符，它可以在姿态之间匹配，我们必须计算一个规范的方向的等变描述符。我们研究了两种做这件事的方法.第一个是最令人满意的智力，并再次杠杆化球形CNN的特殊属性。事实上，球形CNN中特征图的每个bin表示SO（3）的一个元素，即。潜在的LRF在[7]中，这已经被用来对齐完整的形状，通过找到两个特征图之间的相关性的arg max注意，我们不能在不变描述符匹配的上下文中使用相同的方法，因为这将需要昂贵的源和目标描述符。然而，由于等方差属性，我们可以通过分别处理两个描述符来恢复对齐姿势。设[R]（R）为描述子，即一个特征图，当处理输入信号f时获得，并且令[R]（R）是当我们处理旋转的ver时获得的特征图f的解，g（x）= [LQ f]（x）=f（Q−1x）。由于等离子体-因此，在内部特征图H和M之间存在相同的旋转，即，m（R）=[LQ h]（R）=h（Q−1R），并且在描述符之间递归，即[m]（Rm）=[[LQ h]]（Rm）=LRm，LQ h=LQ−1Rm，h=[h]（Q−1Rm）：= [h]（Rh）（5）6407��−1ℎ��ℎ旋转βγβγα α[详细]��−1旋转βγβMRγαα[��详细]图4：学习的等变描述符的自定向属性。我们的瓶颈层的每个bin对应于定义旋转的三个欧拉角。如果从旋转输入（第二行）开始计算描述符，则值在特征图中移动。通过在两个描述符中找到两个对应的仓并通过对应旋转的逆来旋转它们，描述符可以被对齐，即，变成姿势不变。换句话说，选择在处理f时获得的描述符中的条目，例如，Rh，如果当输入旋转Q时，我们能够在旋转的描述符[QR m]中独立地找到相同的条目，则我们将在旋转Rm=QRh时找到它。因此，给定两个描述符，我们可以通过应用这种旋转[LR−1[m]]（R）=[m]（RmR）=[单位[LQ h]]（Rm R）=[h]（Q−1Rm R）（6）[L−1[h]]（R）=[h]（Rh R）H特征图。在完全等方差下，最大值将提供跨旋转的可重复锚点，并且因此提供可重复旋转以获得不变的描述符。然而，由于数值近似和层之间的非线性（ReLU）的使用，网络不是完全我们已经通过实验验证了，单独的特征图的最大值不足以定义可重复的LRF。我们已经研究了几种策略来识别旋转下特征图的相同位置。到目前为止，给出最佳结果的方法是从只分析与特征图的前k个值（包括最大值）相对应的k个然后，我们计算每个这样的bin的3×3×3邻域中的顶部具有最大密度的仓用于计算所需的旋转。在领带的情况下，我们选择其中具有最大值的邻域。一旦我们选择了通过所提出的算法，我们已经能够定义一个自定向描述符，我们的建议的原始特征。由于我们的测试表明，上述定义的LRF的可重复性远远不是用等变描述符可达到的最佳性能，因此我们还评估了当我们通过在从输入云提取的外部局部参考系的帮助下计算规范化旋转来使其在测试时不变时我们在这里强调，虽然我们在输入数据上计算LRF，但我们再次旋转计算的描述符而不是输入数据。此外，即使在这种情况下，我们也只在测试时执行LRF提取，如上所述，因此选择的LRF算法不会影响训练数据的质量3.5. 解码器和丢失=[h]（Q−1Rm R）（7）如变换的最后一项相等所示（并且在图4中以图形方式示出）。请注意，所有的变换都应用于从未旋转输入获得的描述符（这是一个特征图），而不是输入本身，即。我们可以旋转根据未定向的输入计算的描述符以实现旋转不变性。我们的描述子的维数在旋转下不改变，因为它是通过重新调制由其傅里叶变换产生的球面调和函数而旋转的。关于这个问题的详细讨论可以参见[23]。定义一个可重复的LRF的问题，然后translates到找到相同的bin下旋转给定的特征图。一个简单的选择可能是最大的与[4]类似，我们的目标是重建代表给定的局部邻域的整个点集。特征点P受[8]和[34]的启发，我们的解码器将尝试根据学习的描述符将R2中的点变形为R3中的表面点。给定3D表面的特征表示d，设A是在单位正方形[0，1]2中采样的一组点，描述符d与采样点坐标（ax，ay）∈ A连接，然后向前通过MLP层堆栈，如图所示1.一、然后，我们最小化生成的3D点集和输入点之间的倒角损失。特别地，设S是属于p的邻域的3D输入点的集合，并且S是由解码器重构的点的集合。在训练过程中，我们尽量减少��−16408下列损失L（ S，S）θ1=|S|Σx∈Sminx<$∈S<$x −x（八）4.2.评价方法至于指标，按照[3]提出的评估方法，我们认为在至少30%的片段中正确注册的片段对的召回率1分30秒x−x。重叠一对碎片被认为是正确的，|S| x<$∈S<$x∈S2如果正确匹配的关键点的数量大于内点比率阈值τ2，则设置为提取的关键点的5%。minx∈S<$ <$x −x<$$>2强制任何3D点x在重建的点云中有一个匹配的 3D 点 x ，并且项minx∈Sx−x2强制匹配，反之亦然。总损失是这两项的作用是，并且反之亦然的距离必须同时很小3.6.网络和训练参数为了学习我们的描述符，我们使用一个S2卷积层和三个SO（3）卷积层，具有恒定的通道数40，而前三层的带宽设置为24，最后一层的带宽设置为4，这导致描述符具有512个条目。我们的解码器的架构由4个完全连接的层组成，前三层上具有ReLU非线性，最后输出层上具有tanh该网络通过使用ADAM [15]使用大小为 32 的 mini-bathes 进行训练。初始学习率设置为0.001，每4000次迭代衰减一次。我们训练网络14个时期。4. 实验结果4.1. 实验装置为了测试我们的提议，我们使用标准基准来评估学习的3D描述符，即3DMatch基准[36]。该基准解决了无序3D视图的配准问题，并且通过合并大部分公开可用的数据集（如Analysis-by-Synthesis [30]，7-Scenes[26] ， SUN 3D [33] ， RGB-D Scenes v.2 [17] 和Halberand Funkhouser [11]）将数据集放在一起。它总共包含62个场景，在[3]之后，我们使用54个场景进行训练和验证，而8个场景仅在测试时用于运行比较。数据集已经提供了所谓的片段，即。对于测试场景，从50个连续深度帧的融合产生的点云，并且我们获得了通过与[3]的作者相同的方法生成的训练片段我们还对3D Match基准的旋转版本进行了预处理，该版本由相同的作者通过在整个旋转空间内使用随机采样的轴和角度旋转3DMatch基准中的所有片段而生成。我们使用[ 3 ]中提出的相同设置：我们使用大小为2cm的体素网格滤波器对融合碎片进行下采样，并使用[12]在17点邻域中计算表面法线;我们考虑30 cm的半径来定义关键点的邻域。关键点如果两个关键点的l2距离低于阈值τ1=10cm，则两个关键点正确匹配。对于每个片段，描述符是在5000个均匀样本上计算的。[36 ]第36话，与你同行。对于手工制作的描述符，我们使用PCL [1]中的实现，而对于学习的描述符，结果来自[3]。4.3.定量结果表1报告了3D Match基准测试在召回方面的结果。对于我们的SO，我们指的是3.4节中介绍的自定向描述符，而对于我们的LRF，我们指的是外部局部参考系定向的描述符。特别是对于本实验，我们使用了[20]中提出的LRF算法，根据其PCL实现[1]中使用的首字母缩写，我们将其表示为FLARE。我们的实验的第一个结果是，使用外部LRF优于我们的算法的自定向变体。请注意，这两列在两种不同的计算规范方向的方法下描述了完全相同的等变描述符因此，最高的一个指示学习的描述符本身的质量。虽然我们的方法的自定向变体的性能不如由外部LRF定向的描述符，但值得注意的是，它在数据集上提供了第二好的召回率，即。如果我们不用外部LRF来定向我们的等变描述器，那么它将提供最先进的性能。我们的自我定向变量紧随其后的是SHOT和USC，即。两个手工制作的描述符，而其他测试方法提供显着较低的召回。最好的学习方法是PPFFoldNet。SHOT和USC在PPFFoldNet方面的更好表现为这项工作背后的鼓舞人心的想法提供了支持：如果仅限于从高度工程化的表示中学习，则深度学习本身不能保证卓越的性能。根据我们的主要主张来分析这些结果也很有趣：学习等变描述符，然后将其定向以实现不变，而不是直接学习不变描述符，这提高了其质量。如果我们将我们的方法在面向两种测试变体时的性能与从不变表示学习的方法（如PPFFoldNet和CGF）进行比较，我们可以解释性能上的巨大差距（0.23和0.24）。0.47分别来自外部LRF变体的回忆点），作为对在引言中讨论的现有学习描述符的缺点的验证。在图5中，我们6409表1：3DMatch基准测试的结果。测试数据来自SUN3D [33]，但Red Kitchen数据来自7个场景[26]。每一行的最佳结果以粗体显示。FFPH [24][13]第十三话[25]第二十五话南加州大学[29]3D匹配[36]CGF [14]PPFNet [4]PPFFoldNet [3]我们的SO我们的LRF厨房0.73910.65610.88930.93080.58100.46050.89720.78660.88540.9763主场10.78850.75640.89740.91030.72440.61540.55770.76280.94870.9615主场20.64420.67310.82210.77880.61540.56250.59130.61540.86540.8942Hotel 10.81420.67700.93360.92040.54420.44690.57960.68140.92040.9823酒店20.71150.63460.87500.84620.48080.38460.57960.71150.84620.9519酒店30.88890.74070.88890.88890.61110.59260.61110.94440.96300.9815研究0.74320.46920.86300.86640.51710.40750.53420.61990.88700.9178MIT实验室0.70130.45450.83120.80520.50650.35060.63640.62340.81820.8701平均0.75390.63270.87510.86840.57260.47760.62310.71820.89180.9420表2：旋转3DMatch基准测试的结果。测试数据来自SUN3D [33]，但Red Kitchen数据来自7个场景[26]。每一行的最佳结果以粗体显示。FFPH [24][13]第十三话[25]第二十五话南加州大学[29]3D匹配[36]CGF [14]PPFNet [4]PPFFoldNet [3]我们的SO我们的LRF厨房0.74510.65020.87940.91700.0040.44660.0020.78850.88930.9783主场10.79490.76280.89100.91030.01280.66670.00000.78210.94230.9679主场20.65870.66350.83170.75480.03370.52880.01440.64420.84130.8894Hotel 10.81420.69030.94250.92920.00440.44250.00440.67700.92040.9779酒店20.72120.66350.86540.85580.00000.44230.00000.69230.85580.9615酒店30.92590.72220.90740.90740.00960.62690.00000.96300.90740.9815研究0.72600.46920.84930.88360.00000.41780.00000.62670.87330.9110MIT实验室0.75320.49350.83120.85710.00260.41560.00000.67530.79220.8442平均0.76740.63940.87470.87690.01130.47760.00260.73110.87780.938710的情况。80的情况。60的情况。40的情况。203D匹配基准00。040. 0801201602内围比阈值旋转图像曼斯。5. 结论在这项研究中，我们已经展示了如何学习一个有效的描述符的问题可以分为学习一个强大的等变表示和定义一个良好的规范方向，使其在测试时不变的正交问题。我们提出的以无监督方式学习等变表示的建议利用了最近提出的球形CNN作为编码器，并且在解决第一个问题方面非常有效。当结合一个强大的算法来计算一个局部参考系，图5：不同内点比率阈值τ2下的结果。报告当改变正确匹配的百分比年龄的阈值τ2时的结果，以将一对视为正确注册，如[3]中所做的那样我们的建议与外部LRF导向优于其他所有阈值，我们的自我导向的变体再次达到召回值类似于SHOT，并略低于USC的最大阈值。最后，在表2中报告了在旋转的3D Match基准上的测试结果。数据集在[3]中提出，以测试对大旋转的鲁棒性，而在原始基准中不存在。正如预期的那样，所有的旋转不变方法都获得了与表1中报告的结果相似的性能，并且我们的面向外部LRF的等变描述符仍然提供了迄今为止最好的性能。召回我们的LRF我们的SOFPFHSHOTUSC3D匹配CGFPPFNetPPF-FoldNet6410输入云，它在一个具有挑战性的基准上显着推进了最先进的技术。我们还展示了如何使用相同的框架，通过利用球面CNN计算的特征图的特殊性质虽然这种方法提供的性能与最先进的水平相当，但它远不如使用外部LRF。然而，我们相信这种技术的优雅和潜在影响也是传播它的有效理由，并呼吁沿着这条研究路线进行进一步研究，目的是为不变的3D描述问题定义一个端到端的学习解决方案。6. 致谢我们非常感谢NVIDIA公司捐赠Titan V GPU用于本工作。6411引用[1] Aitor Alberti，Zoltan-Csaba Marton，Federico Tombari，Walter Wohlkinger，Christian Potthast，Bernhard Zeisl，Radu Bogdan Rusu，Suat Gedikli，and Markus Bogzze.教程：点云库：三维物体识别和6自由度姿态估计。IEEE Robotics Automa- tion Magazine，19（3）：80-91，2012. 7[2] TacoSCohen， MarioGeiger ， JonasK？hler ，andMaxWelling. 球形 CNN 。 arXiv 预印本 arXiv ：1801.10130，2018。二、三、四[3] Haowen Deng ， Tolga Birdal ， and Slobodan Ilic. PPF-FoldNet：旋转不变3D局部描述符的无监督学习。在欧洲计算机视觉会议（ECCV）的会议记录中，第602-618页，2018年。一、二、四、七、八[4] Haowen Deng ， Tolga Birdal ， and Slobodan Ilic.PPFNet：全局上下文感知局部特征，用于鲁棒的3D点匹配。在IEEE计算机视觉和模式识别集，第195一、二、六、八[5] James R Drivel和Dennis M Healy。在2-球面上计算傅里叶变换和卷积。应用数学进展，15（2）：202-250，1994. 3[6] Bertram Drost Markus Ulrich Nassir Navab 和 SlobodanIlic。全局建模，局部匹配：高效且鲁棒的3D对象识别。在2010年IEEE计算机学会计算机视觉和模式识别会议上，第998IEEE，2010年。1[7] Carlos Esteves 、 Christine Allen-Blanchette 、 AmeeshMaka- dia和Kostas Daniilidis。学习SO（3）等变表示与球形CNN。在欧洲计算机视觉会议（ECCV）的会议记录中，第52二、四、五[8] Thibault Groueix，Matthew Fisher，Vladimir G Kim，BryanCRussell，andMathieuAubry. 一个学习3D表面生成的简单在IEEE计算机视觉和模式识别会议论文集，第216-224页，2018年。二、六[9] Yulan Guo，Mohammed Bennamoun，Ferdous Sohel，Min Lu，Jianwei Wan，and Ngai Ming Kwok.三维局部特征描述符的一种直观性能评价。国际计算机视觉杂志，116（1）：66- 89，2016。1[10] Yulan Guo，Ferdous Sohel，Mohammed Bennamoun，Min Lu，and Jianwei Wan.用于3D局部表面描述和对象识别的旋转投影统计。国际计算机视觉杂志，105（1）：63-86，2013。一、二[11] Maciej Halber和Thomas Funkhouser。RGB-D扫描的精细到粗略全局配准。在IEEE计算机视觉和模式识别会议集，第1755-1764页，2017年。7[12] Hugues Hoppe ， Tony DeRose ， Tom Duchamp ， JohnMcDonald，and Werner Stuetzle.无组织点的表面重建，第26卷。ACM，1992年。7[13] Andrew E.约翰逊和马夏尔·赫伯特使用自旋图像在杂乱的3D场景中进行有效的对象识别。IEEETransactionsonPatternAnalysisandMachineIntelligence，21（5）：433-449，1999. 一、二、八[14] Marc Khoury，Qian-Yi Zhou，以及Vladlen Koltun。学习紧凑的几何特征。在IEEE国际计算机视觉会议集，第153-161页，2017年一、二、四、八[15] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。7[16] 罗曼·克洛科夫和维克多·伦皮茨基逃离细胞：用于识别3D点云模型的深度kd网络。在IEEE国际计算机视觉会议论文集，第863-872页，2017年。2[17] Kevin Lai，Liefeng Bo，and Dieter Fox.用于3D场景标记的无监督特征学习在机器人和自动化（ICRA），2014IEEE国际会议上，第3050-3057页IEEE，2014。7[18] Daniel Maturana和Sebastian Scherer。Voxnet：用于实时对象识别的3D卷积神经网络。2015年IEEE/RSJ智能机器人和系统国际会议（IROS），第922-928页。IEEE，2015年。2[19] 阿利奥夏·佩里和路易吉·迪·斯蒂法诺局部形状匹配局部参考系的重复性。2011年国际计算机视觉会议，第2244-2251页。IEEE，2011年。1[20] 阿利奥夏·佩里和路易吉·迪·斯蒂法诺一个可重复的和有效的表面匹配的规范参考。2012年第二届3D成像、建模、处理、可视化传输国际会议，第403IEEE，2012。 1、7[21] Charles R Qi， Hao Su ，Kaichun Mo， and Leonidas JGuibas.PointNet：用于3D分类和分割的点集深度学习。在IEEE计算机视觉和模式识别会议论文集，第652-660页2[22] Charles Ruizhongtai Qi，Li Yi，Hao S

下载后可阅读完整内容，剩余1页未读，立即下载