《PPF-FoldNet：旋转不变三维局部描述子的无监督学习》

78 浏览量更新于2023-10-13 收藏 2.9MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

PPF-FoldNet：旋转不变三维局部描述子的无监督学习HaowenDeng* TolgaBirdal[0000−0001−7915−7964]SlobodanIlicTechnischeUni versitatMünchen，Germany*中国国防科技大学抽象。我们提出PPF-FoldNet用于纯点云几何上基于众所周知的点对特征的基于折叠的自动编码，PPF-FoldNet提供了许多理想的特性：它既不需要监督，也不需要敏感的局部参考框架，受益于点集稀疏性，是端到端的，快速的，并且可以提取强大的旋转不变描述符。由于一个新的功能可视化，它的演变可以被监控，以提供可解释的见解。我们广泛的实验表明，尽管具有六个自由度的不变性和缺乏训练标签，我们的网络在标准基准数据集上达到了最先进的结果，并且在旋转和不同的PPF-FoldNet在标准基准测试中实现了9%的高召回率，当旋转引入相同的数据集时，召回率提高了23%，最后，当点密度显着降低时，达到了>35%的边际。关键词：3D深度学习，局部特征，描述符，旋转不变性1介绍局部描述符是计算机视觉中使用的重要工具之一，可以简化对象检测，姿态估计，SLAM或图像检索的任务[23，27]。虽然在2D域中已经很好地建立，但是3D局部特征仍然已知缺乏良好的区分能力和可重复性。随着深度学习的出现，计算机视觉的许多领域从手工劳动转向了特定于问题的端到端学习。地方特色当然也不例外。已经在2D中，学习的描述符显著优于其工程对应物[49，28]。因此，学者们自然会采用类似的方法来处理3D局部特征提取的任务[18，51，8]。然而，由于固有的二义性和较少的信息性质的唯一的几何形状，提取点集上的3D描述符仍然提出了一个未解决的问题，即使是基于学习的方法。到目前为止，3D中局部特征的深度学习遭受了以下一个或多个问题：a）被监督并且需要大量的成对、三元组或N元组形式的标签[51，8]，c）涉及大量手工制作的输入准备[18]和d）不令人满意的性能[18，30]。在本文中，我们绘制了一个优雅的架构来解决所有这些问题问题和本PPF-FoldNet：一个无监督的，高精度，6自由度变换不变，稀疏和快速的3D局部特征学习网络。PPF-FoldNet运营2Haowen Deng，Tolga Birdal，SlobodanIlic局部定向点集4D点对特征集合跳过链接MLP（64，128，256）最大池MLP(512、512）最大池concatenate重构特征MLP(256、128、64、32、3）MLP(256、128、64、32、3）concatenateM 2Fig. 1. PPF-FoldNet：点对要素折叠网络。首先将点云局部块转换为PPF表示，然后将其发送到编码器中以获得压缩码字。解码器尝试通过折叠从这些码字重构完整的PPF。这迫使码字保持最关键和最有区别的信息。学习的码字被证明是鲁棒和有效的，因为我们将在广泛的评估中显示直接在点集上，考虑到点稀疏性和置换不变集属性，很好地处理密度变化，同时即使基于标准基准也显著优于其旋转变体对应物。我们的网络建立了理论上的旋转不变性，其灵感来自于使用局部3D几何形状的点对特征（PPF）[4，3，8]编码到补丁中。与PPFNet [8]相比，我们没有将原始点或法线纳入编码。然后将这些4DPPF的集合发送到FoldingNet式端到端自动编码器（AE）[48]，训练以使用设定的距离自动重建PPF。我们的编码器比FoldingNet更简单，对于解码，我们提出了一个类似的折叠方案，其中低维2D网格晶格折叠到4D PPF空间，并通过PPF空间的新型无损可视化来监控网络的演变我们的整体架构基于PointNet [30]，以实现排列不变性并充分利用稀疏性。训练我们的AE比训练3DMatch [51]要容易得多，因为我们不需要从预先注释的大型数据集中采样成对或三元组，并且我们受益于补丁数量的线性时间复杂度。广泛的评估表明，PPF-FoldNet在避免严重旋转的标准基准测试中优于最先进的当任意旋转被引入到输入中时，我们的描述符的性能大大优于相关方法，甚至包括最好的竞争对手Khoury等人。s CGF [18].此外，我们报告更好的性能作为输入稀疏，以及良好的泛化性能。我们的定性评估将揭示我们的网络如何运作，并提供有价值的解释。简而言之，我们的贡献可以概括为：-码字（512）倒角距离N 704M 516M 512M 514M-重复次数PPF-FoldNet3– 在此修改的自动编码器中使用良好建立的4DPPF来学习旋转不变的3D局部特征而无需监督。– 一个新颖的看点对特征的不变性，并从它派生，一个新的方式可视化PPF和监控网络进度。2现有技术在他们的手工制作的同行[35，34，40，16，10]之后，3D深度学习方法开始享有根深蒂固的历史。从3D数据学习的初始尝试使用朴素密集体素网格表示[51，46，26，11]。虽然是2D架构的直接扩展，但此类网络的性能不如2DCNN那样高效和稳健[21]。因此，它们被考虑空间稀疏性的网络所取代，通过用八叉树[33，38，43]或kd树[20]替换密集网格另一个家庭的作品承认，三维表面生活在二维子流形，并寻求学习投影，而不是空间的实际输入。将维数减少到2使得可以受益于2D CNN的发展，例如Res-Nets [13]：LORAX [9]提出了超点到深度图投影。Kehl等人。[17]对RGB-D贴片进行操作，这些贴片是相机平面上的自然投影。Huang等人[15]将三个本地相机锚定到每个3D关键点，并收集多通道投影以学习半全局表示。Cao等人[7]使用球面投影来辅助对象分类。Tatarchenko等人提出了在切空间中的卷积作为在局部2D投影上操作的一种方式[39]。点云可以通过关联相邻点之间的边而被视为图形这为图卷积网络的应用铺平了道路[25]。FoldingNet [48]采用基于图形的编码层。Wang等人。[44]通过图卷积网络（GCN）处理点集上的分割任务，而Qi等人。[32]将GCN应用于RGB-D语义分割。虽然显示出一个有希望的方向，但目前涉及3D任务的图形的努力仍然受到监督，试图模仿CNN，并且无法真正超越其非结构化点处理同行。尽管3D深度学习有了很大的发展，但只有少数方法可以显式地学习3D数据上的通用局部描述符。学习3D特征匹配（也称为对应）的第一种方法之一是3DMatch [51]。它使用密集的体素网格来总结局部几何形状，并通过对比损失进行学习。3DMatch受任务的监督较弱，不学习通用描述符，并且对旋转不恒定PointNet [30]和PointNet++[31]直接在这是一个非常简单的方法，它可以处理非结构化点云，并最大限度地减少多任务损失，从而产生局部和全局特征。与[51]类似，不变性不是问题，弱监督是必要的。CGF [18]将手工制作的输入准备与深度降维相结合，并且仍然使用监督。然而，不学习输入特征，而仅学习嵌入。PPFNet [8]通过结合全局上下文改进了所有这些方法，但仍然无法实现完全不变性并期望监督。2.1背景从上述所有发展中，我们现在将特别关注三个：PointNet ， FoldingNet和PPFNet，它们结合在一起，为我们的网络命名。4Haowen Deng，Tolga Birdal，SlobodanIlicPointNet [30]在深度网络中以集合形式直接消费非结构化点输入始于PointNet。Qi等人提出使用逐点多层感知器（MLP）并通过置换不变的最大池化将个体特征映射聚合成全局特征无论输入顺序如何，PointNet都可以生成每个点的局部描述符以及全局描述符，这些描述符可以组合起来解决不同的问题，例如关键点提取，3D分割或分类。虽然不是最强大的网络，但它明确提出了一个成功的架构，引起了许多连续的研究[31，29，2，36]。FoldingNet [48]虽然PointNet可以与点云一起工作，但它仍然是一种有监督的体系结构，并且构建无监督扩展（如点上的自动编码器）并不简单，因为需要上采样步骤来内插集合[50，31]。Yang等人为了提供不同的视角并且代替诉诸昂贵的体素化[45]，提出折叠作为强解码器替代方案。折叠将底层的低维网格扭曲到所需的集合，特别是3D点云。与其他非监督方法（包括GANs [45]）相比，FoldingNet在分类等常见任务中实现了卓越的性能，因此，在PPF-FoldNet中，我们受益于其解码器结构，尽管形式略有改变。PPFNet [8]建议学习由场景的全局上下文通知的局部特征为此，设计了N元组损失，寻求在两个片段的所有补丁之间共同找到对应关系以这种方式学习的特征被证明优于以前的方法，PPFNet被认为是最先进的局部特征描述符。然而，即使Deng et al.强调学习置换和旋转不变特征的重要性，作者仅通过将PPF连接到点集来略微提高对欧氏等距的恢复能力。此外，所提出的N元组丢失仍然需要监督。我们的工作在这两个方面都有所改进：它只能使用PPF，并且在没有监督的情况下运行。3PPF-FoldNetPPF-FoldNet基于自动编码旋转不变但强大的点集（PPF）表示的想法，使得学习的低维嵌入可以是真正不变的。这与使用相同输入的许多可能旋转来训练网络并强制输出为规范重建不同后者将是近似的，并且更难学习。我们网络的输入是本地补丁，与PPFNet不同，这些补丁是单独自动编码的。自动编码器的潜在低维向量码字被用作局部描述符，该局部描述符被分配到提取补丁的点周围。3.1局部面片表示我们的输入点云是一组定向点X={xi∈R6}，这意味着每个点都用局部法线（例如切空间）n∈R3：x={p，n}∈R6.局部贴片是以参考点xr为中心的输入ΩxrX的子集。PPF-FoldNet5nnR不然后，我们将这个补丁编码为一个对特征的集合，在中心参考和所有其他点之间计算：F={ f（ xr，x1）··· f（ xr，xi）··· f（ xr，xN）}∈R4×N−1，ir（1）然后将任何对（点对特征）之间的特征定义为映射f：R12→R4将两个定向点发送到三个角度和对距离：f：（xT，xT）T→（（nr，d），（ni，d），（nr，ni），d2）T（2）R id=pr−pi。在[3]中给出了非归一化向量的角度计算局部几何的这种编码类似于PPFNet [8]的编码，但不同之处在于以下事实我们忽略点和法线，因为它们依赖于方向和局部参考系。相反，我们使用纯点对特征，从而避免了canoni- cal帧计算。注意，在没有数据丢失的情况下，该特征的维度仍然是不可约的。1.提案围绕xr的PPF表示f解释了原始定向点对关于参考点的法线的旋转和反射。证据让我们考虑两个定向点x1和x2。我们总是可以将相关联的点对特征f（x1，x2）的分量写为如下：nTn2=f1nTdn=f2nTdn=f3（3）1 1 2其中dn=d/d。我们现在尝试恢复原始对给定的特征。首先，可以写：T1Σ2不nn1 n2dnΣ1f1f2=f11f3（4）f2f31假设所有向量都是单位长度。在矩阵符号中，Eq. 4可以写成ATA=K。然后，通过奇异值分解，K=USVT，因此A=US1/2VT。注意，任何正交矩阵（旋转和反射） R 现在可以应用于 A 而不改变结果：（ RA ）TRA=ATRTRA=ATA= K。因此，这样的分解是有限维的线性等距：旋转和反射。因为我们知道局部面片以参考点pr=0为中心，所以我们可以自由选择R，使得pr（nr）的法向量沿着正则轴之一对齐，比如+z=[0，0，1]T（自由选择）：1 −nzR= I+[ v]x+[ vx]2rv（五）其中v=nr×z，nz是nr 的z分量，I是恒等式。X表示对称叉积矩阵。因为现在Rnr=z，任何关于z的旋转θ和反射φ都将导致相同的向量z=Rz（θ，φ）z，θ，φ∈R。任何成对的点都可以在规范框架中找到，唯一地多达两个参数，如pr←dφ）Rdn，nr←Rz（θ，φ）Rnr.⊔⊓在反射被忽略的情况下（因为它们不太可能发生在3D世界中），这留下了单个自由度，即围绕法线的旋转角度还要再次注意，对于给定的局部表示，参考点pr对于所有点对是公共D6Haowen Deng，Tolga Birdal，SlobodanIlic图二. 一些局部补丁及其对应PPF签名的可视化。可视化PPFPPF存在于4D空间中，因此将它们可视化并不是微不足道的。虽然简单的解决方案，如PCA将工作，我们更喜欢一个更几何意味着ingful和更简单的解决方案。命题1允许我们计算一个集合的签名通过对所有点按顺序分别定向矢量（n1，n2，d通过选择适当的Rz（θ.φ），将差向量{di}与x-z平面对齐。这样的变换不会改变所示的特征。以这种方式，成对的点可以被变换到公共平面（图像）上，其中位置是由极坐标中的差向量确定。第二点的法线将不位于该平面中，但可以被编码为该图像中的颜色因此，有可能获得2D可视化，而没有任何数据丢失，即矢量的所有分量都有助于可视化。在图2中，我们提供了来自关注数据集的各种局部补丁和PPF可视化。3.2PPF自动编码器和折叠PPF-FoldNet采用具有跳跃链接的PointNet类编码器和FoldingNet类解码方案。它被设计为在4个D-PPF上操作，如图所示。1.一、编码器我们网络的输入，也就是编码器的输入，是F Ω，一个本地PPF表示，如§3.1所示。三层逐点MLP（多层感知器）跟随输入层，随后执行最大池化以将个体特征聚合为全局特征，类似于PointNet [30]。然后使用跳过链接将低级特征与该全局特征连接。这导致更强大的表示. 另一个两层MLP最终将这些特征重定向到最终编码，即维度为512的码字。第二个提案。 PPF-FoldNet的编码器结构是置换不变的。证明的草图编码器由每数据点函数（MLP）、RELU层和最大池化组成，所有这些都不影响点顺序或单独示出为置换不变[30，48]。此外，它表明函数的组合也是不变的[48]，我们的编码器也是如此。我们建议读者参考-更多细节。⊔⊓总之，改变PPF集合的顺序将不会影响所学习的表示。局部小片PPF签名PPF-FoldNet7解码器我们的解码器尝试使用单个码字来重建点PPF的整个集合，这反过来也迫使码字是信息性的，并从高维输入空间中提取最独特的信息然而，受FoldingNet的启发，解码器将尝试变形由码字引导的低维网格结构，而每个网格点被连接到码字的副本，导致M×514向量作为被称为折叠操作的输入[48]。折叠可以是高度非线性的操作并且因此由两个连续的MLP执行：第一折叠导致变形的网格，其被再次附加到码字并且传播通过第二MLP，重构输入PPF。此外，与FoldingNet [48]相比，我们尝试重建更高维的集合，4D vs 3D（2D流形）;我们最好使用更深的MLP -5层，而不是[48]的3层。除了简化和加强解码之外，折叠还有利于使网络可解释。例如，可以监控电网在随后的迭代期间，并设想网络如何演进。为此，§4.4将通过如§3.1所述可视化PPF集来跟踪PPF集。倒角损失注意，由于网格的大小M不一定与输入N的大小相同，并且当涉及评估损失时，4D PPF空间中的对应性丢失。这需要计算两个不相等的基数点对特征集之间的距离，我们通过众所周知的Chamfer度量来测量：.d（F，F）=max1Σminf−f，1ΣΣ minf−f（六）|F| f∈F f∈F2|F|f∈Ff∈F2其中Φ运算符是指重构（估计）集。PPF-FoldNet使用Tensorflow框架[1]。所有变量的初始值由Xavier算法随机初始化使用ADAM优化器使全局损失学习率从0开始。001，并且在每10个时期之后指数衰减，在0处截断。0001我们使用32号的批次。4实验评价4.1数据集和预处理为了完全驱动网络学习各种局部3D几何形状并获得对真实数据中存在的不同噪声的鲁棒性，我们使用3DMatch Benchmark数据集[51]。该数据集是现有数据集的大型集合，例如Analysis-by-Synthesis [41]，7-Scenes [37]，SUN3D [47]，RGB-D Scenes v.2 [22]以及Halber和Funkhouser [12]。它总共包含62个场景，我们保留其中的54个用于训练和验证。八是标杆管理。3DMatch已经提供了从8个测试场景的50个连续深度帧融合的片段，并且我们遵循相同的流水线从训练场景生成片段。测试片段缺乏颜色信息，因此我们只能使用3D形状.这也使得我们的网络对光照变化不敏感。8Haowen Deng，Tolga Birdal，SlobodanIlic表1. 我们在标准3DMatch基准上的结果。Red Kitchen数据来自7-scenes [37]，其余数据来自SUN 3D [47]。[16][35][36][37][38][39]我们的我们的-5 K厨房0.19370.17790.30630.57510.46050.89720.59490.7352 0.7866主场10.39740.37180.58330.73720.61540.55770.71790.75640.7628主场20.36540.33650.46630.70670.56250.59130.60580.625 0.6154Hotel 10.18140.2080.26110.57080.44690.57960.65490.65930.6814酒店20.20190.22120.32690.44230.38460.57690.42310.60580.7115酒店30.31480.38890.50000.62960.59260.61110.61110.88890.9444研究0.05480.07190.15410.56160.40750.53420.71230.5753 0.6199MIT实验室0.10390.12990.27270.54550.35060.63640.58440.5974 0.6234平均0.22670.23820.35890.59610.47760.62310.61300.68040.7182在操作之前，我们对具有空间均匀性的融合片段进行下采样[5]，并在17点邻域中使用[14]计算表面法线一个参考点和它的邻居在30厘米附近形成一个局部补丁。因此，局部补丁中的点的数量是灵活的，这使得难以将数据组织成规则的批次。为了便于训练以及增加对噪声和不同点密度的表示鲁棒性，对每个局部块进行下采样。为了与文献中的其他方法进行公平比较，我们使用2048个点，但也提供了一个使用5K的扩展版本，因为我们不受内存限制，例如PPFNet[8]。准备阶段以针对组装的局部片计算的PPF结束。4.2准确度评估技术假设一对片段P={pi∈R3}和Q={qi∈R3}通过相关的刚性变换T ∈ SE（3）对齐，导致一定的重叠。然后，我们定义用于从输入点映射到特征空间的非线性特征函数g（·），并且在我们的情况下，这将PPF计算和编码总结为代码点pi的特征是g（pi），并且g（P）是针对P中的点提取的特征池。为了估计P和Q之间的刚性变换，典型的方法在每个片段中找到一组匹配对，并关联对应。通过应用最近邻搜索NN，由在特征空间中相互靠近的对（p，q）形成中间点对集合M：M={{pi，qi}，g（pi）=NN（g（qi），g（P）），g（qi）=NN（g（pi），g（Q））}（7）真匹配集Mgnd是在地面真实变换T下具有低于阈值τ1的欧几里得距离的点对的集合。Mgnd={{pi，qi}：（pi，qi）∈M，||pi−Tqi||<我们现在将M的内点比率定义为M中的真实匹配的百分比，其中|/|M|.|.为了通过regis成功地估计基于M在迭代算法中，τ in需要大于τ2。例如，在公共RANSAC流水线中，实现99.在找到具有至少3个正确匹配M的子集的任务中，9%的置信度要求至少55258次迭代，其中内点比率τ2=5%理论上，给定rin> τ2，该算法很可能是可靠的局部配准算法PPF-FoldNet9表2. 我们在旋转3DMatch基准测试上的结果。Red Kitchen数据来自7-scenes [37]，其余数据来自SUN 3D [47]。[16][35][36][37][38][39]我们的我们的-5 K厨房0.17790.17790.29050.0040.44660.0020.01780.73520.7885主场10.44870.35260.58970.01280.66670.00000.03210.76920.7821主场20.34130.33650.47120.03370.52880.01440.03370.62020.6442Hotel 10.18140.21680.30090.00440.44250.00440.01330.66370.6770酒店20.17310.24040.29810.00000.44230.00000.00960.60580.6923酒店30.31480.33330.51850.00960.62960.00000.03700.9259研究0.05820.08220.15750.00000.41780.00000.01710.56160.6267MIT实验室0.11690.12990.28570.0260.41560.00000.02600.61040.6753平均0.22650.23370.3640.01130.49870.00260.02330.68650.7311都能正常工作。因此，代替使用局部配准结果来判断特征的质量，这将是缓慢的并且不是非常直接的，我们定义M，其中r> τ2票用于两个片段的正确匹配基准测试中的每个场景都包含一组片段。在真实比对下具有高于30%的重叠的片段对P和Q被认为是匹配的。它们一起形成在评估中使用的片段对的集合S={（P，Q）}特征的质量通过在S中匹配的片段对的召回率R来测量：1R= |S|Σ|S|i=1.在.ΣSi=（ Pi，Qi）Σ> τ2（九）4.3结果特征质量评估我们首先将我们的特征的性能与3DMatch基准上的公认作品进行比较，其中τ1=10cm和τ2=5%。选项卡. 1列出了调查结果。选择用于比较的方法包括3个手工制作的特征（Spin Images [16]、SHOT [35]、FPFH [34]）和4个最先进的深度特征（例如，100 μ m的深度特征）。基于学习的方法（3DMatch [51]，CGF [18]，PPFNet [8]，FoldingNet [48]）。请注意，FoldingNet以前从未在局部描述符提取上进行过测试。它是appar-事实上，总体而言，与其他方法相比，我们的PPF-FoldNet可以匹配更多的片段对，除了场景Kitchen和Home，其中PPFNet和3DMatch分别实现更高的召回率在所有其他情况下，PPF-FoldNet的表现远远超过最先进的技术水平，平均超过9%PPF-FoldNet召回了68件。04%时，使用2 K样本点（与PPFNet相同），而PPFNet保持在62。百分之三十二此外，由于PPF-FoldNet没有内存瓶颈，当使用5 K点时，与2K版本相比，它可以实现额外的3%有趣的是，FPFH也是从一种类型的PPF特征[34]构建的，但是是以手动直方图总结的形式。与FPFH相比，PPF-FoldNet有32个。15%和35。分别使用2K和5K点时，召回率提高93%这证明了我们的先进方法在压缩PPF方面的无与伦比的强度为了在解码器中最佳地重构PPF，网络迫使瓶颈码字是紧凑的，以及提取PPF中最关键和最独特的信息。10Haowen Deng，Tolga Birdal，SlobodanIlicFPFH旋转图像拍摄3DMatchCGFPPFNetPPF-FoldNet匹配片段百分比（%）1009090808070706060505040400.80.70.60.50.40.31009080706050403020100.010.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 0.19 0.21内围比阈值（一）3020100.00 0.05 0.10 0.150.20内点距离阈值（m）（b）第（1）款0.20.10.01 1/2 1/4 1/81/16稀疏性（c）第（1）款3020100060120180240300360绕z轴的（d）其他事项图三. 对3DMatch基准的评价：（a）不同方法在变化的内部比率阈值下的结果（b）不同方法在变化的点距离阈值下的结果（c）再次评估点密度的鲁棒性（d）针对围绕z轴的旋转的评估为了说明评估度量中的参数不是为了我们自己的利益而调整的，我们还用不同的τ1和τ2值重复实验。结果示于图3（a）和图3（b）款。在图3（a）中，τ1固定在10cm，τ2从1%逐渐增加到20%。当τ2大于4%时，PPF-FoldNet总是比其他方法具有更高的召回率。低于4%，一些其他方法可以获得更高的召回率，但无论如何这对于大多数配准算法来说太严格了。更值得注意的是，当τ2设置为20%时，PPF-FoldNet的召回率仍然高于20%，其他方法的性能下降到5%以下。这证明PPF-FoldNet能够生成具有高内围值比率rin的更多组匹配点。这为配准算法提供了巨大的益处图图3（b）中，τ2固定在5%，τ1从0cm到20cm逐渐增加。当τ1小于12cm时，PPF-FoldNet始终生成更高的召回率。这一发现表明，PPF-FoldNet在欧氏空间中以较小的距离误差匹配更多的点对，这可以有效地降低刚性变换估计误差。旋转不变性测试为了证明PPF-FoldNet出色的旋转不变性特性，我们从评估集中取出随机片段，并以60◦的步长围绕z轴从60◦逐渐旋转到360◦。匹配结果示于图1中。第3段（d）分段。正如预期的那样，PPFNet和3DMatch都表现不佳，因为它们在旋转变量输入表示上操作。手工制作的特征或CGF也表现出对旋转的鲁棒性，这要归功于对局部参考系（LRF）的依赖。然而，PPF-FoldNet是最好的方法，具有更高的召回率，而且不需要计算局部参考帧。为了进一步测试这些方法在严重旋转情况下的性能，我们在整个旋转空间上随机采样轴和角度旋转3DMatch基准中的所有片段，并引入一个新的基准同样的评价也是在这个新的基准上进行的。保持准确度评估相同，我们的结果如表1所示。2. 3DMatch和PPFNet在这个新的基准测试下完全失败，因为大旋转引入了变量。PPF-FoldNet再次超越所有其他方法，在所有场景中获得最佳效果，以18的大幅度领先亚军CGF。78%和23。使用2K和5K点时分别为24%FPFH旋转图像拍摄3DMatchCGFPPFNetPPF-FoldNetFPFH旋转图像拍摄3DMatchCGFPPFNetPPF-FoldNetFPFH旋转图像拍摄3DMatchCGFPPFNetPPF-FoldNet匹配片段百分比（%）匹配碎片准确度匹配片段百分比（%）PPF-FoldNet11表3. 不同PPF表示的精度比较。厨房主场1主场2Hotel 1酒店2酒店3研究 MIT实验室平均PPFH0.5340.6220.4860.3410.3460.5740.2330.3510.436Bobkov 10.5140.6350.5100.4030.4330.6110.2810.4810.483Our-PPF0.5060.6350.4950.3500.3850.6670.2670.4030.463稀疏性评估由于我们的输入的稀疏表示，PPF-FoldNet在点云密度和噪声的变化方面也是鲁棒的。图3（c）显示了当我们将片段中的点从100%逐渐减少到仅6时不同方法的性能。百分之二十五我们可以看到，PPF-FoldNet受点云密度降低特别是当只有6。25%的点留在片段中，PPF-FoldNet的召回率仍然大于50%，而PPFNet保持在12%左右，其他方法几乎失败。PPFNet和PPF-FoldNet的结果表明，PPF表示提供了更多的鲁棒性方面的点密度，这是一个共同的问题，存在于许多点云表示。PPF-FoldNet可以在不同的PPF结构下运行吗？我们现在研究3个识别网络，针对3种不同的PPF公式进行训练：我们，PPFH（在FPFH中使用的PPF [34]）和Bobkov1等人。[6]的文件。后者具有基于网格空间的占用率我们使用3个DMatch基准的子集来训练所有网络固定次数的迭代，并在旋转的片段上进行测试。选项卡. 3介绍了我们的发现：所有特征都类似地执行。因此，我们不要求我们的PPF表示的优越性，但强调它是简单的，易于计算，直观和易于可视化。由于体素化，Bobkov1明显慢于其他方法，并且由于缺乏LRF，我们的PPF比PPFH使用更强的对原语将有利于PPF-FoldNet，因为我们的网络对PPF构造是不可知的运行时我们在装有NVIDIA TitanX Pascal GPU和Intel Core i 7 3的机器上运行我们的算法。2GHz CPU。在该硬件上，通过FPFH [34]计算整个片段的特征需要31。678秒，而PPF-FoldNet实现了10倍的加速3。969秒，尽管具有类似的理论复杂性。特别是，我们的PPF提取的输入准备在2中运行。616秒，而推断在1 .一、三百五十三这是由于1）PPF-FoldNet只需要一次输入，2）我们的高效网络在GPU支持的Tensorflow上加速。4.4定性评价从定量结果来看，PPF-FoldNet有望具有更好和更正确的特征匹配，特别是当应用任意刚性变换时。为了直观地显示这一点，我们在几个经历不同旋转的片段上运行不同的方法图4我们在这些片段上的均匀采样[5]关键点上显示了匹配很明显，我们的算法在发现最正确的对应关系方面表现最好。12Haowen Deng，Tolga Birdal，SlobodanIlic图4.第一章跨不同片段和针对不同方法的匹配的定性结果。当存在严重的转换时，只有手工制作的算法，CGF和我们的方法实现了令人满意的匹配。然而，对于PPF-FoldNet，匹配的数量明显更大。由于我们的网络是可解释的，因此定性分析网络的进展是很有吸引力的为此，我们以离散时间步长记录PPF重建输出，并将PPF可视化，如§ 3.1所述。图5示出了针对不同局部块的这种可视化首先，由于表示能力，我们的网络实现了PPF的高保真恢复注意，即使网络PPF-FoldNetCGF [5]PPFNet [7]3D匹配[6]FFPH [12]射击[11][14]第十四话PPF-FoldNet13本地修补程序原始PPF= 1 = 4 = 7 = 10 = 70图五、可视化重建的PPF的签名。随着训练收敛，重构的我们的网络揭示了PPF空间的底层结构。从随机初始化开始，它可以快速恢复所需的点对特征集，即使在只有少量的迭代之后。接下来，对于相似的局部块（顶行和底行），重建是相似的，而对于不同的局部块，重建是不同的。可视化潜在空间我们现在尝试可视化学习的潜在空间并评估嵌入是否在语义上有意义。为此，我们计算一组码字和相关的PPF签名。然后，我们在提取的码字上运行Barnes Hut T-SNE算法[24，42]，并形成一个二维嵌入空间，如图所示。6.在每个2D位置，我们画的PPF签名，从而说明沿流形的PPF的分布。我们还绘制了生成码字的原始补丁及其相应的签名作为切口。示于图6中，每当块在几何上和语义上接近时，计算的描述符接近，并且每当块具有较少的物理相似性时，它们被嵌入到空间的不同部分中。这提供了对我们的网络可以学习的关系中的良好表现和意义的洞察。在进一步的实验中，我们在点云的每个位置提取特征。然后，我们通过TSNE [24]将潜在空间的维度减少到三个，并通过减少的特征向量对每个点进行定性地证明我们的描述符的可重复性，结果如图所示。7.注意，通过所提出的方法提取的描述符导致在不同片段之间的匹配区域中的相似颜色。5总结发言我们提出了PPF-FoldNet，一个无监督的，旋转不变的，低复杂度的，直观的和可解释的网络，以学习3D局部特征仅从点14Haowen Deng，Tolga Birdal，SlobodanIlic见图6。使用TSNE [24，42]可视化码字的潜在空间、相关的PPF和聚类的局部3D补丁的样本。见图7。不同视角融合片段的潜在特征空间可视化。为了将每个特征映射到片段上的颜色，我们使用TSNE嵌入[24]。我们将维度减少到三个，并将每个低维向量与RGB颜色相关联。几何信息我们的网络建立在其当代祖先PointNet，FoldingNet PPFNet的基础上，它继承了所有最好的属性。&尽管是旋转不变的，我们已经超过了所有的国家的最先进的描述符，包括监督的，即使在标准的基准下具有不同的点密度的挑战性条件下我们相信PPF-FoldNet为无监督3D局部特征提取这一重要问题提供了一种有前途的新方法，并将其视为3D视觉无监督革命的重要一步。我们的架构可以在许多方向上扩展其中最有希望的一个我们的结论与假设，在我们的无监督网络的泛化应很容易转移到解决其他类似的问题，从而产生一个开放的应用领域。PPF-FoldNet15引用1. Abadi，M.，Agarwal，A.，Barham，P.，Brevdo，E.，陈志，西特罗角科罗拉多州科拉多戴维斯，A.，迪恩J Devin，M.，等：Tensorflow：异构分布式系统上的大规模机器学习。arXiv预印本arXiv：1603.04467（2016）2. Achlioptas，P.，迪亚曼蒂岛米利亚卡斯岛Guibas，L.：3D点云的学习表示和生成模型。国际机器学习会议（ICML）（2018）3. Birdal，T.，Ilic，S.：基于点对特征的目标检测和姿态估计。在：3D Vision中。pp.527-535. IEEE（2015）4. Birdal，T.，Ilic，S.：精确灵活的实例重建Cad先验在：计算机视觉（ICCV），2017年IEEE国际会议上。pp. 133-142. IEEE（2017）5. Birdal，T.，Ilic，S.：一种用于不规则几何体三维匹配的点采样算法。智能机器人与系统国际会议（IROS 2017）IEEE（2017）6. Bobkov，D.，陈淑仪，Jian，R.，Iqbal，M.Z.，Steinbach，E.：使用点对描述符在三维点云中进行对象分类的抗噪深度学习。IEEE Robotics and Automation Letters3（2），8657. Cao，Z.，黄，Q，Karthik，R.：经由球面投影的3D对象分类输入：3D视觉（3DV），2017年国际会议pp. 566-574 IEEE（2017）8. 邓，H.，Birdal，T.，Ilic，S.：Ppfnet：全局上下文感知局部特征，用于鲁棒的3d点匹配。计算机视觉与模式识别（CVPR）IEEE1（2018）9. Elbaz，G.，Avraham，T.，Fischer，A.：用于使用深度定位的3D点云配准神经网络自动编码器IEEE计算机视觉与模式识别会议（CVPR）（2017年7月）10. Guo，Y.，中国科学院，Sohel，F.A.，Bennamoun，M.，Wan，J.，Lu，M.：Rops：基于旋转投影统计的3D刚性对象的局部特征描述符。在：通信，信号处理及其应用（ICCSPA），2013年第一届国际会议上。pp. 1- 6 IEEE（2013）11. Hackel，T.，Savinov，N.拉迪基湖Wegner，J.D.，辛德勒，K.，Pollefeys，M.：SEMAN- TIC3D.NET：一个新的大规模点云分类基准。《摄影测量、遥感和空间信息科学年鉴》。Vol. IV-1-W1，pp. 9112. Halber，M.，Funkhouser，T.：rgb-d扫描的从细到粗的全局配准在：IEEE计算机视觉和模式识别会议（CVPR）论文集（2017

下载后可阅读完整内容，剩余1页未读，立即下载