3DRegNet：一种用于3D点配准的深度神经网络

71 浏览量更新于2023-10-24 收藏 1.91MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7193FGR3DRegNet：一种用于3D点配准的深度神经网络G. 1，Srikumar Ramalingam2，Venu Madhav Govindu3，Jacinto C.Nascimento1，Rama Chellappa4，Pedro Miraldo11InstitutoSuperiorTe'cnico，Lisboa2GoogleResearch，NY3印度科学研究所，班加罗尔4马里兰大学帕克分校摘要我们提出了3DRegNet，这是一种用于3D扫描配准的新型深度学习架构。给定一组3D点对应，我们构建一个深度神经网络来解决以下两个挑战：（i）将点对应分类为内点/离群点，以及（ii）对对准的运动参数进行回归扫描到一个共同的参考帧。关于对于回归，我们提出了两种替代方法：（i）深度神经网络（ DNN ）配准和（ ii ）使用 SVD 来估计变换的Procrustes方法。我们的通信为基础的方法实现了更高的加速比相比，竞争对手的基线。我们进一步建议使用一个细化网络，它包括一个较小的3DRegNet作为细化，以提高配准的准确性。在两个具有挑战性的数据集上进行的大量实验表明，我们的性能优于其他方法，并取得了最先进的结果。该代码可在https://github.com/3DVisionISR/3DRegNet上获得。1. 介绍我们解决的问题，三维注册，这是一个经典的和基本的几何计算机视觉问题，由于其广泛的视觉，机器人和医疗应用。在3D配准中，在给定噪声（离群值）点对应的情况下，计算两次扫描之间的 6 自由度（DoF）运动参数。标准方法是使用RANSAC [17]框架中采用三点对应（参见[48，39]）的最小解算器，然后使用迭代最近点（ICP）[6]等细化技术。在本文中，我们研究了是否可以使用深度神经方法来解决配准问题。具体来说，我们研究了深度学习方法是否可以带来比经典注册方法更好的优势。特别是，我们希望在不妥协的情况下实现加速(a) 使用所提出的3DRegNet与RANSAC方法的内点/离群点分类绿色和红色分别表示内值和离群值。(b) 对齐两个点云（3DRegNet与当前最先进的快速全局配准方法（FGR）[65]。图1：给定来自具有异常值的两个扫描的一组3D点对应，我们提出的网络3DRegNet同时将点对应分类为内点和异常值（参见（a）），并且还计算用于扫描对齐的变换（旋转，平移）（参见（b））。3DRegNet速度明显更快，优于其他标准几何方法。在存在异常值的情况下提高配准精度。换句话说，挑战不在于给定点的对应性，而在于如何有效地处理离群值。图1说明了本文的主要目标图1（a）描述了使用3DRegNet（左）和RANSAC（右）将噪声点对应分类为内点和离群点以对齐两个扫描。图1（b）显示了使用拟议的3DRegNet（左）和当前最先进的FGR [65]（右）对齐两个点云的转换的估计。在图2（a）中，我们示出了我们提出的具有两个子块的架构：分类和登记。因为-3DRegNet7194(a) 使用DNN注册的3DRegNet的描述(b) 用Procrustes表示3DRegNet(c) 分类区块（d）DNN。图2：两个建议的架构。（a）显示我们的第一项建议，包括分类和登记组别。（b）示出了我们的第二个建议，其具有与第一个建议中相同的分类块，但是具有基于差分Procrustes方法的不同配准块。(c)使用CResNets的分类块，它接收一组点对应作为输入，并输出将它们分类为内点/离群点的权重。(d)注册块（在（a）中所示的架构中使用），其从分类块的特征获得，并且其中其参数通过DNN获得。MER取得两次扫描之间的一组噪声点对应，并产生权重（置信度）参数，该参数指示给定点对应是内点还是外点。后者直接产生用于两个3D扫描的对准的6个DoF运动参数。我们的主要贡献如下。我们提出了一种新的深度神经网络架构，用于解决3D扫描配准的问题在实现显著加速的同时，我们的方法实现了最先进的配准性能。2. 相关工作ICP被广泛认为是解决点云配准的金标准方法[6，44]。然而，由于ICP经常陷入局部最小值，因此其他方法已经提出了实现效率和鲁棒性的扩展或推广，例如，[49，40，41，58，20，31，43，29]。3D配准也可以被视为激发多项工作的非刚性问题[67，5，51，34]。3D点云的刚性和非刚性配准的调查最优最小二乘解可以使用诸如[53，49，40，38，24，57，65，7，36]的方法获得。这些方法中的许多方法需要使用RANSAC进行良好其次，仅使用所选择的内点来估计最佳姿态。与上述策略相比，我们专注于联合求解（i）内点对应和（ii）变换参数的估计，而无需初始化。我们提出了一个统一的深度学习框架来解决上述两个挑战。深度学习已被用于解决不同背景下的3D配准问题[14 ， 15 ， 23] 。 PointNet 是一个深度神经网络（DNN），可以为无序的点云生成分类和分割结果[46]。它努力实现对点、旋转和平移的顺序不变的结果。为了实现不变性，PointNet在不同的点上分别使用多个多层感知器（MLP），然后在MLP的输出上使用对称函数。PointNetLK建立在PointNet的基础上，并提出了DNN循环方案来计算3D点云对齐[2]。在[54]中，作者得出了国际比较方案的另一种方法，即，在寻找最近点和计算3D注册之间交替。该方法的重点是在每一步找到最佳点;用Procrustes计算配准。[32]提出了一种网络，该网络最初基于学习的匹配概率生成对应关系，然后创建对齐的点云。在[56，50，25，55]中，提出了其他方法用于具有3D边界框的点云上的对象检测和姿态估计。与这些方法相比，我们的配准是从预先计算的3D点匹配中获得的，例如[47，61]，而不是使用原始点云，从而实现了可观的加速。一种众所周知的方法是使用点特征直方图作为描述3D点的特征[47]。3D点的匹配也可以通过使用卷积神经网络提取特征来实现[61，12，59，15、13、19]。一些方法直接从对3D环境不变的点云中提取3D特征（球形CNN）[10，16]。最近设计了一个深度网络来计算直接图像的姿态7195i=1i=1ex+e−xx−xi=1图像配准[21]。使用图卷积网络和循环一致性损失，可以以无监督的方式训练图像匹配算法[45]。在[60]中，提出了一种用于将2D点对应分类为内点/离群点的深度学习方法。本质矩阵的回归分别使用特征分解和内点对应来计算。网络的输入仅是像素坐标，而不是原始图像，从而可以更快地进行推理。该方法在[62]中进行了改进，提出分层提取和聚合局部对应。该方法也是不敏感的对应顺序。在[11]中，引入了一种无需特征分解的方法来训练深度网络，其损失取决于与网络预测的矩阵的零特征值对应的特征向量这也适用于2D离群值去除。在[33]中，DNN分类器通过利用局部邻域结构的一致性和最近邻策略，在基于假定匹配的一般匹配表示上进行训练。与上述方法相比，我们的技术旨在从3D点对应的匹配中获得配准和离群点/内点分类的端到端解决方案。对于使用大量扫描的3D重建，可以使用旋转平均来改进使用鲁棒方法的成对相对姿态估计[8]。最近，有研究表明，可以利用深度神经网络来计算不同成对相对姿态估计的权重[26]。[64]中的工作重点是学习三个视图中特征的3D匹配。我们的论文主要研究3D扫描的成对配准问题。3. 问题陈述给定一设置的N3D点对应{（pi，qi）}N，其中pi∈R3，qi∈R3分别是第一次和第二次扫描中的3D点，我们的目标是如下计算变换参数（旋转矩阵R∈ SO（3）和平移向量t∈R3ΣN表示翻译。虽然3D旋转具有正好3个自由度，但是存在不同的可能参数化。如[66]所示，为旋转选择正确的参数化对于这些方法的整体性能至关重要。先前的方法对旋转使用过参数化（例如，PoseNet [27]使用四个参数四元数来表示旋转，而deep Pestion [11]使用九个参数）。我们研究了不同的旋转参数化，并评估其性能。4. 3DRegNet所提出的3DRegNet架构如图所示。2分两块，用于分类和注册。对于注册块，我们这种选择不影响第2节中给出的损失函数。4.1.产品类别：分类块（见图1中的相应块）2（c））遵循以前的作品[46，60，11，62]的想法。输入是由两次扫描之间的{（pi，qi）}N每个3D点对应都由一个具有128个ReLU激活函数的全连接层每个单独的N点对应都有一个权重共享，输出的维度为N×128，在这里我们从每一个点对应然后，N×128输出通过Cdeep ResNets [22]，权重共享完全一致。连接层而不是卷积层。最后，我们使用另一个全连接层，其中ReLU（ReLU（x）=max（0，x））后接tanh（tanh（x）=e−e∈（−1，1））单位，以产生范围w i∈ [0，1）内的权重。深度ResNets的数量C取决于如在第2节中所讨论的，要估计的变换。五、注册DNN：该块的输入是从点对应中提取的特征。如图2（d），我们使用池提取有意义的从类的每一层的尺寸128×1的特征，R，t=ar gminR∈SO（3），t∈R3n=1ρ（qn，Rpn+t），（1）分解块我们在分类的C+1阶段提取特征，即，第一个在第一其中ρ（a，b）是某个距离度量。在这项工作中所处理的问题如图所示。1.输入由N个点对应组成，输出由N+M+3个变量组成. 具体来说，第一个N-放置变量形成权重向量W：={wi}N，其中wi∈[0，1]表示第i个对应对（pi，qi）是内点的置信度.通过将Wi与阈值T进行比较，即，当i≥ T时，我们可以将所有输入对应分类为内点/外点。下一M个输出变量表示旋转参数，即，（v1，. . .，v M）。其余三个参数（t1，t2，t3）ResNet，最后一个在第C个ResNet之后提取。根据我们的实验，最大池与其他选择（如平均池）相比表现在池化完成后，我们应用上下文规范化，如[60]中所介绍的，并连接C+1特征图（见图1和图2）。2（a）和2（d））。该过程对特征进行归一化，并且有助于提取必要且固定数量的特征，以在配准块结束时获得变换（这应该是独立的）。N的凹痕）。来自上下文规范化的特征的大小为（C+1）×128，然后将其传递给一个con-center。7196我R我我我C渐变层，具有8个通道。每个过滤器通过一个3乘3的补丁，列的步幅为2，行的步幅为1。卷积的输出然后被注入到两个完全连接的层中，每个层具有256个过滤器，层之间具有ReLU，其生成M +3个变量的输出：v =（v1，. - 是的- 是的，vM）和t =（t1，t2，t3）。注册可区分的Procrustes：与前一个块相比，我们提出了另一种替代方案，以每-分类损失由相关联的扫描对k中的每个类别的示例的数量决定。配准丢失：配准丢失使用第二扫描中的3D点qi与来自第一3D扫描的变换点pi之间的距离来惩罚点云中的未对准点，其中i={1，. . .，N}。损失函数变为形成登记。现在，我们得到了所需的transfor-Lk=1ΣN.Σρqk， Rk pk+tk、（6）信息通过点对应（见图。第2段（b）分段）。我们过滤掉离群值，并计算内点的质心，以此为原点。由于点云的质心现在位于原点，我们只需要获得它们之间的旋转请注意，离群值过滤和质心的偏移可以被视为中间层，从而允许分类和姿态计算的端到端训练。此旋转是根据矩阵M= U <$VT的奇异值分解[3]，其中M∈R3× 3是rNi ii=1其中ρ（.，. ）是距离度量函数。对于给定的扫描对k，从配准块获得的相对运动参数由Rk和tk给出。我们考虑并评估了距离指标：L1，加权最小二乘法，L2，和Geman-McClure [18]在第二节。7.第一次会议。总损失：各个损失函数如下所示：如下所示ΣM=i∈IwipiqT，（2）Lc=1ΣKKk=1k和Lr =1ΣKKk=1Lk，（7）其中I表示从分类块获得的内点的集合旋转由下式获得：R= U diag（1，1，det（UVT））VT。（三）平移参数由下式给出：其中K是训练集中扫描对的总数总训练损失是分类和配准损失项的总和：L =αLc+βLr，（8）t=1NI.Σi∈Ipi− RΣΣQIi∈I、（四）其中系数α和β是针对损失函数中的分类和配准项手动设置的超参数其中NI和I是内点和内点集的数量分别4.1. 损失函数我们的整体损失函数有两个单独的损失项，即来自网络的两个块的分类和注册损失。分类损失：分类损失使用交叉熵来惩罚不正确的对应：5. 3DRegNet优化我们描述了由两个3DReg- Net组成的架构，其中第二个网络提供回归细化（见图1）。3（a））。通常采用的3D配准方法是首先考虑对变换的粗略估计，然后是细化策略。根据这个推理，我们考虑使用额外的3DRegNet的可能性第一个3DRegNet提供了一个粗略的估计，Lk = 1ΣNγkH.Σyk，σ（ok）、（五）针对较大的旋转和平移参数值进行训练随后，第二个较小的网络用于细化-cNi i ii=1其中，o，k是网络输出，然后将其传递给ReLU和tanh以计算权重w，i。σ表示S形激活函数。注意，扫描对之间的运动是不同的，并且索引k用于表示相关联的扫描训练对。H（.，. ）是交叉熵函数，并且yk（等于1或0）是地面真值，其指示第i个点是否对应是内点或外点。项Lk是估计较小的转换。这也可以被视为在许多应用中显示有用的深度监督[30]。图3（a）说明了所提出的架构。体系结构：如图3（a），我们使用两个3DReg-Net，其中第一个用于获得粗略的注册，然后第二个进行细化。每个3DRegNet的特征在于回归参数-eters{（Rr，tr）}和分类权重{wr}N，c i i=1的3D点对应的分类损失。具有索引k的特定扫描对。γk平衡了其中r ={1，2}。我们注意到，第二次的损失网络必须考虑两者的累积回归L7197n1=1R(a) 使用3DRegNet进行细化的方案(b) 优化前（c）优化后图3：（a）显示了所提出的架构，其中两个3DRegNet块依次排列。(b)（c）示出了在使用附加3DRegnet来微调或细化来自第一3DRegNet的配准时的改进。3DRegNets。因此，原始的点对应集（{pi，qi）}N通过以下累积平移和旋转进行变换R=R2R1和t=R2t1+ t2。（九）注意，在（9）中，变换参数R和t的更新取决于两个3DRegNet的估计。细化网络处的点对应更新{（p1，q1）}={（w1.1 1Σ1总共有大约3700个不同的连接对。使用FPFH [47]，我们为两个数据集中的每对扫描提取了约3000个3D点对应。基于地面实况变换和变换的3D点之间的3D距离，使用预定义阈值（将yk设置为1或0）将对应性标记为内点/离群点。阈值被设置为使得异常值的数量约为总匹配的50%。我们选择70%的对进行训练，30%用于ICL-NUIM数据集的测试对于SUN3D数据集，我们选择了10个场景用于训练，3个场景用于测试，这些场景相对于训练集完全不可见。培训：建议的架构在Tensorflow中实现[1]。我们对第一个3DRegNet使用C=8，对细化3DRegNet1使用C=4。配准块的其他值详见第4.该网络针对ICL-NUIM数据集训练1000个时期，具有1092个步骤，并且针对SUN 3D数据集训练1000个时期，具有200个步骤。学习率为10-4，而使用Adam Optimizer [28]。在训练过程中使用交叉验证策略我们使用的批量大小为16。分类和注册项的系数由α=0给出。5，β=10−3。该网络使用INTELi7-7600和NVIDIA GEFORCE GTX 1070进行训练。为了与经典方法进行公平的比较，所有运行时间都仅使用CPU获得。数据扩充：为了推广不可见的旋转，我们通过应用随机旋转来增强训练数据集。从[4，37，42]中获得灵感，我们提出使用课程学习（CL）数据增强。我们的想法是从小开始[4]，（即，包含小旋转值的更容易的任务），并且具有通过增加难度来排序的任务。训练只针对更难的任务我我我R pi+t，wiqi）}，（10）在简单的完成之后。然而，一个有趣的迫使第二网络获得较小的变换，校正第一个3DRegNet块之后的任何残差变换的块损失函数：在每个步骤中，分类和配准损失如（5）和（6）中那样计算，然后通过总损失来平均：采用了传统CL的替代方案。假设要在训练中应用的增强旋转的幅度被表示为θ，以及使得τ∈[0，1]的历元（归一化的训练步骤）。在CL中，我们应该从小处开始，每个时代的开始然而，这破坏了θ值的平滑性（因为θ的最大值，即，在前一个历元结束时已达到θMax 这1ΣK 1Σ21ΣK 1Σ2如果我们逐渐增加θ，Lc= K2k=1r=1k、r、cLr=K2k=1r=1勒克河（十一）到θMax 在τ = 0处。5，之后减小θ。然后我们像以前一样应用（8）。6. 数据集和3DRegNet训练数据集：我们使用两个数据集，合成增强ICL-NUIM数据集[9]和由真实图像组成的SUN 3D [63]。前者由4个场景组成，7. 实验结果在本节中，我们首先定义整个实验中使用的评估指标。然后，我们提出了一些消融研究，考虑：1）使用不同的距离度量; 2）不同的旋转参数化; 3）使用Procrustes与. DNN用于估计大约25000对不同的连接点云。后者由13个随机选择的场景组成，1个C是通过训练和测试经验性地选择的。L7198罗塔蒂奥n [deg]翻译尺寸[m]时间[s]分类精度距离函数是说中值是说中值L2范数2.441.640.0870.0670.02950.95L1范数1.370.900.0540.0420.02810.96加权L2-范数1.891.330.0700.0560.02940.95热曼-麦克卢尔2.451.590.0890.0680.03000.95旋转[度]翻译[m]时间[s]分类精度表示是说中值是说中值李代数1.370.900.0540.0420.02810.96四元1.551.110.0670.0540.02840.95线性5.784.780.0590.0420.02750.95Procrustes1.651.520.2350.2330.02430.52表1：对所提出的架构的训练的不同距离函数的评估。设置变换参数; 4）对点对应数的敏感性; 5）训练中数据增强的使用;（6）细化网络的使用。消融研究在ICL-NUIM数据集上进行。最后，通过与以往方法的比较以及在未知场景中的应用，对实验结果进行了总结。评估指标：我们定义了以下准确性指标。对于旋转，我们使用表2：旋转的不同表示的评估。旋转[度]翻译[m]时间[s]分类精度匹配是说中值是说中值百分之十2.401.760.0890.0730.01060.94百分之二十五1.761.220.0680.0540.01490.95百分之五十1.511.010.0600.0470.01880.95百分之七十五1.410.920.0560.0440.02410.96百分之九十1.380.900.0550.0430.02670.96百分百1.370.900.0540.0420.02810.96表3：不同数量对应关系的评价。（三个参数）; 2）四元数（四参数）;和δ（R，RGT）=acos∫跟踪（R−1R2、）−1 、（十二）3）线性矩阵形式（九参数）。结果见表。2.我们观察到，使用李代数的最小参数化提供了最好的结果。在其中，R和RGT是估计的和地面真实的旋转，矩阵，分别。我们将以[35]为例，尾为了衡量翻译的准确性，我们使用δ（t，tGT）= t− tGT。（十三）对于分类精度，我们使用标准分类误差。计算的权重w i∈[0，1）将基于阈值（T = 0）四舍五入为0或1。5）测量前的分类误差。7.1. 消融研究距离度量：我们通过在回归损失函数中使用不同类型的距离度量来评估3DRegNet训练来开始这些实验。即，我们用途：1) L2- 范数，2 ）L1-范数，3）加权L2-范数，权值由分类块确定; 4）German-McClure距离。对于测试阶段的所有成对对应，我们计算3DRegNet获得的旋转和平移误差分类结果见表1。1，其中我们使用最小李代数表示的旋转。从这些结果可以看出（见表1），在所有评价标准中，L1有趣的是，尽管使用了分类块的权重，加权L2这是可能的，因为配准块还利用来自分类块的一些中间层的输出基于这些结果，使用L1R的参数化：我们研究了旋转的以下三个参数：1）极小李代数实验结果如下，我们使用三参数李代数表示。虽然李代数对手头的问题表现得更好，但我们不能将这个结论推广到其他问题，如人体姿势估计，如[66]所示。DNN回归与普罗克鲁斯特斯：我们的目标是评估使用DNN与Procustes得到3D配准，如图所示。2（a）和图第2段（b）分段。从Tab。2，我们得出结论，可微Procrustes方法不能像DNN那样精确地解决问题。运行时间低于具有Lie Algebra的DNN，但是差异很小并且可以忽略。另一方面，分类精度显著下降。从现在开始，我们使用DNN进行回归。对通信数量的敏感性：我们不考虑测试示例的每一个成对扫描中的所有对应关系，而是选择匹配总数的百分比，范围从10%到100%（回想一下，每对对应关系的总数大约是3000）。结果见表。3.第三章。正如预期的那样，回归的准确性随着输入对应的数量减少而降低。然而，分类不受影响。内点/离群点分类不应依赖于输入对应的数量，而内点数量的增加应导致更好的估计。数据扩充：使用在前面部分中训练的3DRegNet，我们从训练数据中选择一对3D扫描，并旋转原始点云以增加它们之间的旋转角度。我们改变大小GT7199图4：有和没有数据增强的训练。当施加扰动时，观察到测试结果的改善。数据扩充会针对原始数据集中未包含的其他旋转对网络进行正则化。旋转[度]翻译[m]时间[s]分类精度细化是说中值是说中值没有1.370.900.0540.0420.02810.96与1.190.890.0530.0440.03270.94表4：3DRegNet细化的使用的评估。旋转误差和测试准确度的结果如图所示4（绿色曲线）。之后，我们使用第二节中提出的数据增强策略对网络进行第二次训练。六、在每一步中，这对例子都被一个旋转扰动，旋转的步长为2，设置最大值θ= 50。我们像以前一样运行测试，结果如图所示。4（蓝色曲线）。从这个实验中，我们可以得出结论，通过仅使用原始数据集进行训练，我们限制了数据集中包含的旋转。另一方面，通过执行平滑正则化（CL数据增强），我们可以克服这个缺点。由于手头的数据集是小运动的序列，因此对旋转参数的结果进行一般化没有好处。如果所有涉及的转换都很小，那么网络应该这样训练。在下面的实验中，我们不进行数据扩充。3DRegNet细化：我们考虑使用额外的3DRegNet在第二节。五是回归优化。开发两个类似网络的组合以提高结果的准确性。从Tab。4，我们观察到转换估计的整体改进，而没有显着影响运行时间。分类精度下降2%，但不影响最终的回归。这种估计的改进也可以在图11中看到。3，其中仅使用一个3DRegNet的估计（图3（b））仍然有点远离真正的对齐，与使用3DRegNet与细化相比，如图所示。3（c），这是更接近正确的对齐。在本文的其余部分，当我们引用3DRegNet时，我们使用的是细化网络。(a) ICL-NUIM数据集的基线结果。旋转[度]翻译[m]时间[s]方法是说中值是说中值FGR2.571.920.1210.0670.1623ICP3.181.500.1460.0790.0596RANSAC3.001.730.1480.0742.61563DRegNet1.841.690.0870.0780.0398FGR + ICP1.491.100.0700.0460.1948RANSAC + U2.741.480.1340.0612.61573DRegNet + ICP1.261.140.0660.0480.08523DRegNet + U1.161.100.0530.0500.0398(b) 未知序列的结果（SUN3D数据集）。表5：与基线的比较：FGR [65];基于RANSAC的方法[17，48];ICP [6]。7.2. 基线我们使用三个基线。快速全局配准[65]（FGR）几何方法，旨在为某些3D对应集提供全局解决方案。第二个基线是经典的RANSAC方法[17]。第三个基线是国际比较方案[6]。请注意，我们将我们的技术与无对应性（ ICP ）和基于对应性的方法（ FGR ，RANSAC）进行比较。在这个测试中，我们使用ICL-NUIM数据集。为了确定为ICP提供最佳配准先验的策略是什么，我们应用了两种称为 FGR + ICP 和3DRegNet + ICP的方法，其中ICP的初始化分别使用FGR和3DRegNet此外，为了评估分类的质量，我们采用3DRegNet和RANSAC给出的内点，并将其输入到[53]中提出的最小二乘非线性Umeyama细化技术中这些方法分别表示为3DRegNet + U和RANSAC + U。结果见表。第五条（a）款。累积分布函数（即，类似于精确-召回曲线）如图11所示。为了更好地说明3DRegNet和FGR两者的性能，请参见图6（a）。在该图中，示出了旋转误差小于给定误差角的部分测试。可以看出，FGR比3DRegNet执行得更好（直到2倍误差）。之后，3DRegNet开始提供更好的结果。这意味着FGR对于较简单的问题做得更好，但对于大量的情况，旋转[度]翻译[m]时间[s]方法是说中值是说中值FGR1.390.530.0450.0240.2669ICP3.780.430.1210.0230.1938RANSAC1.891.450.0630.0510.84413DRegNet1.190.890.0530.0440.0327FGR + ICP1.010.380.0380.0210.3422RANSAC + U1.421.020.0500.0420.84413DRegNet + ICP0.550.340.0300.0210.06913DRegNet + U0.280.220.0140.0110.032772003DRegNet + ICP FGR FGR + ICP图5：使用3DRegNet、3DRegNet + ICP、FGR和FGR + ICP方法的两个三维点云对齐示例。从SUN3D数据集中的三个场景中选择一对3D扫描：麻省理工和哈佛的序列。这些序列没有用于网络的训练具有高误差（也高于3DRegNet）。换句5.随着问题复杂性的增加，3DRegNet成为一种更好的算法。当我们将它们的性能与ICP相结合时，进一步说明了这一点在这里，我们可以看到，3DRegNet（3DRegNet + ICP）提供的初始估计优于FGR + ICP。特别值得注意的是，即使ICP是局部的，3DRegNet + ICP也比FGR + ICP收敛到更好的最小值。这意味着深度学习方法允许我们在成对对应的质量较低时表现得更好在计算时间方面，我们至少比FGR快8倍，比RANSAC快25倍为了对所有方法进行公平的比较，所有计算时间都是使用CPU获得的。当考虑使用ICP和Umeyama优化技术时，在准确性方面，我们看到3DRegNet + ICP和3DRegNet + U都击败了任何其他方法。根据3DRegNet + ICP的结果，我们得出结论，我们的网络提供的转换解决方案导致ICP达到比FGR + ICP更低的最小值从3DRegNet + U中，我们得到我们的分类更好地选择了内点。在计算时间方面，我们可以得出与以前相同的结论。7.3. Unseen Sequences在这个测试中，我们使用SUN3D数据集。我们运行与上一节相同的测试。然而，在SEC。7.2我们使用序列中的所有对，并将它们分为训练和测试，在这里，我们在保持训练序列中运行测试结果见表。5（b）和图。第6（b）段。结论与前一个类似(a) ICL-NUIM（b）SUN3D图6：3DRegNet与FGR。科.我们观察到，3DRegNet的结果不会显著降低，这意味着该网络能够将分类和注册推广到看不见的序列。图中显示了一些快照。5.8. 讨论我们提出了3DRegNet，这是一种深度神经网络，可以通过联合解决给定3D点对应的离群值拒绝并计算扫描对齐的姿势来我们表明，我们的方法是非常有效的。它的性能与当前的基准一样好，同时仍然明显更快。我们在补充材料中展示了3D配准的其他测试和可视化。确认这项工作得到了葡萄牙国家科学、研究和技术资助机构项目 PTDC/EEI-SII/4698/2014 和 2020-2023 年LARSyS-FCT Plurianual资助的支持。哈佛MIT7201引用[1] Mart´ın Abadi，Ashish Agarwal，Paul Barham，EugeneBrevdo，Zhifeng Chen，Craig Citro，Greg S. Corrado，Andy Davis ， Jeffrey Dean ， Matthieu Devin ， SanjayGhemawat ， Ian Goodfellow ， Andrew Harp ， GeoffreyIrving ， MichaelIsard ， YangqingJia ， RafalJozefowicz，Lukasz Kaiser，Manjunath Kudlu r，JoshLev enbe r g ， DanjayMa ne' ， RajatMon g a ， SherryMoore ，Derek Murray ，Chris Olah ， Mike Schuster ，Jonathe Shlens，Benoit Steiner，Ilya Sutskever，KunalTal war ， Paul Tucker ， Vincent Vanhoucke ， VijayVasudevan，费南达，奥里奥尔，沃登，马丁，魏克，余元，郑小强. 张量-流量：异构系统上的大规模机器学习，2015年。软件可从tensorflow.org获得。[2] 青木康弘，亨特·戈福斯，兰加普拉萨德·阿伦·斯里瓦特山，西蒙·露西. Pointnetlk：使用pointnet的鲁棒高效点云配准。在 IEEE 会议。计算机视觉和模式识别（CVPR），第7163-7172页[3] K Somani Arun，Thomas S Huang和Steven D Blostein。两个三维点集的最小二乘拟合。IEEETrans. PatternAnalysis and Machine Intelligence （ T-PAMI ）， 9（5）：698 -700，1987.[4] 约瑟芬·本吉奥，杰罗姆·罗拉多，罗南·科洛伯特，杰森·韦斯顿.课程学习。在[5] 作者声明： Frank R. Schmidt ， Johan Thunberg ， andDaniel Cremers.非刚性三维形状与图像匹配的组合解决方案。在 IEEE 会议上。计算机视觉和模式识别（CVPR），第1436-1445页[6] Paul J. Besl和Neil D.麦凯一种三维形状配准方法。IEEETrans. Pattern Analysis and MachineIntelligence （ T-PAMI），14（2）：239[7] Alvaro Parra Bustos和Tat-Jun Chin。保证离群点去除点云配准与对应。IEEE Trans.模式分析和机器智能（T-PAMI），40（12）：2868[8] Avishek Chatterjee和Venu Madhav Govindu。鲁棒相对旋转平均。 IEEE Trans. 模式分析和机器智能（ T-PAMI），40（4）：958[9] Sungjoon Choi，Qian-Yi Zhou，and Vladlen Koltun.室内场景的鲁棒重建。在IEEE Conf. ComputerVision andPattern Recognition（CVPR），第5556-5565页[10] 塔可S Cohen，Mario Geiger，Jonas Koehler，and MaxWelling.球形cnns。在[11] Zheng Dang，Kwang Moo Yi，Yinlin Hu，Fei Wang，Pascal Fua，and Mathieu Salzmann.具有零特征值损失的深度网络的无特征分解在欧洲会议中计算机视觉（ECCV），第792-807页，2018年。[12] Haowen Deng，Tolga Birdal，and Slobodan Ilic. Ppfnet：全局上下文感知局部特征，用于鲁棒的3d点匹配。在IEEE会议上。计算机视觉和模式识别（CVPR），第195-205页[13] Haowen Deng，Tolga Birdal，and Slobodan Ilic. 用于直接成对配准的3D局部特征。在IEEE会议计算机视觉和模式识别（CVPR），第3239-3248页[14] 李丁和陈锋。深度映射：从多个点云进行无监督地图估计。在IEEE会议计算机视觉和模式识别（CVPR），第8650-8659页[15] Gil Elbaz，Tamar Avraham，and Anath Fischer.使用深度神经网络自动编码器进行定位的3D点云配准。在IEEE会议上。计算机视觉和模式识别（CVPR），第2472 -2481页[16] Carlos Esteves 、 Christine Allen-Blanchette 、 AmeeshMaka- dia和Kostas Daniilidis。用球面cnn学习so（3）等变在欧洲会议中计算机视觉（ECCV），第52-68页，2018年。[17] Martin A. Fischler和Robert C.波尔斯随机样本一致性：模型拟合的范例，应用于图像分析和自动制图。Commun. ACM，24（6）：381 -395，1981.[18] Stuart Geman和Donald E.麦克卢尔贝叶斯图像分析：在单光子发射断层摄影中的应用。在proc 美国统计协会，第12-18页，1985年。[19] 周彩发，詹戈伊契奇.Wegner和Andreas Wieser。完美匹配：具有平滑密度的三维点云匹配。在IEEE会议。计算机视觉和模式识别（CVPR），第5545-5554页[20] Venu Madhav Govindu和A. Pooja.三维扫描配准中多视图关系的平均化。IEEE图像处理（T-IP），23（3）：1289[21] 雷寒，梦琪姬，陆方，马蒂亚斯·尼斯纳。Reg- net：学习直接图像到图像姿态配准的优化arXiv：1812.10212，2018。[22] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在IEEE会议计算机视觉和模式识别（CVPR），第770-778页[23] Joao F.亨里克斯和安德里亚·维达尔迪Mapnet：一个面向地图环境的异中心空间存储器.在IEEE会议上。计算机视觉和模式识别（CVPR），第8476-8484页[24] 放大图片作者：Dirk Holz，Alexandru E.放大图片作者：Eddie B.鲁苏和斯文·本克使用点云库注册：一种用于三维对齐的模块化框架。IEEERobotics

下载后可阅读完整内容，剩余1页未读，立即下载