学习多视图3D点云配准算法的端到端聚合学习方法

41 浏览量更新于2023-10-23 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1学习多视图3D点云配准Zan Gojcic周采发JanD.韦格纳·列奥尼达斯·J.Guibas<$ Tolga Birdal<$瑞士苏黎世联邦理工学院摘要我们提出了一种新的，端到端可学习的，多视图三维点云配准算法。多次扫描的配准通常遵循两阶段流水线：初始成对比对和全局一致细化。前者往往是模糊的，由于低重叠的相邻点云，对称性和重复的场景部分。因此，后一种全局细化旨在建立跨多个扫描的循环一致性，并有助于解决不明确的情况。在本文中，我们提出，据我们所知，第一个端到端的算法，这两个阶段的问题的两个部分的联合学习。Experimental evaluation on well accepted bench- markdatasets shows that our approach outperforms the state-of-the-art by a significant margin, while being end-to- endtrainableand computationallyless costly. 此外，我们提出了详细的分析和消融研究，验证我们的方法的新组件源代码和预训练模型可在https公开获得//github.com/zgojcic/3D_multiview_reg 网站。1. 介绍3D计算机视觉中的下游任务，诸如语义分割和对象检测，通常需要场景的整体表示。因此，将仅覆盖环境的一小部分的单个点云片段对齐和融合相邻碎片的成对配准是一个经过充分研究的问题，传统方法基于几何约束[51，66，56]和手工设计的特征设计，脚本[37，27，54，59]在一定程度上显示了成功的结果。然而，近年来，对3D点云成对配准的局部描述符的研究集中在深度学习方法[67，38，21，64，19，28]上，这些方法成功地捕获和编码了隐藏在手工设计的描述符中的证据此外，提出了一种新的点云配准方法，前两位作者对这项工作的贡献相当图1.我们对来自3DMatch基准的60次厨房场景扫描的端到端重建结果[67]。最近提出[62，42]。虽然对许多任务表现出良好的性能，但场景的各个视图的成对配准具有一些概念上的缺点：（i）相邻点云的低重叠可能导致不准确或错误的匹配，（ii）点云配准必须依赖于非常局部的证据，如果3D场景结构稀少或重复，这可能是有害的，（iii）需要单独的后处理以将所有成对匹配组合成全局表示。与成对方法相比，无组织点云片段的全局一致多视图对齐尚未完全受益于深度学习方法的最新进展。最先进的方法通常仍然依赖于成对映射的良好初始化，它们试图在随后的解耦步骤中全局地细化[30，61，2，3，5，4，43，11]。这种分层过程的一般缺点是姿态图的所有节点上的全局噪声分布最终远非随机的，即，由于高度相关的初始成对映射，显著的偏差持续存在。在本文中，我们提出，尽我们所知，边缘，第一个端到端的数据驱动的多视点云配准算法。我们的方法将一组可能重叠的点云作为输入，并为每个输入扫描输出一个全局/绝对变换矩阵（c.f.图1）。我们脱离了传统的两阶段方法，其中各个阶段彼此分离，并直接学习以全局一致的方式注册场景的所有视图。我们工作的主要贡献是：• 我们制定了传统的两阶段方法，17591760端到端神经网络，在前向传递中解决两个可微优化问题：（i）估计成对变换参数的Procrustes问题;（ii）变换同步的谱相关性。• 我们提出了一个置信度估计块，使用一个新的重叠池化层来预测估计的成对变换参数的置信度。• 我们将多视图3D点云配准问题转化为迭代加权最小二乘问题（IRLS）问题，并迭代地细化成对和绝对变换估计。由于上述贡献，所提出的多视点配准算法（i）计算非常有效，（ii）由于残差以迭代方式反馈到成对网络，因此实现了更精确的扫描对准，（iii）在成对以及多视点云配准上优于当前的现有技术2. 相关工作成对配准传统的成对配准管道包括两个阶段：粗对准阶段，其提供相对变换参数的初始估计;以及细化阶段，其通过在刚性变换的假设下最小化3D配准误差来迭代地细化变换参数。前者传统上是通过使用手工[54，59，58]或学习[67，38，21，20，64，3D局部特征描述符结合RANSAC类鲁棒估计器[26，52，40]或几何特征描述符建立逐点候选对应。hashing [24，8，32].一个平行的工作流[1，57，44]依赖于使用4点全等集建立对应。在细化阶段，通常使用迭代最近点（ICP）算法的变体对粗变换参数进行微调[6]。ICP类算法[41，63]通过交替假设对应集和估计新的变换参数集来执行优化已知它们对离群值不具有鲁棒性，并且仅当以良好的prealingment开始时才收敛到全局最优值[9]。ICP算法通常被扩展以使用额外的辐射测量、时间或里程限制[69]。与我们的工作同步，[62，42]提出将粗配准和精配准成对阶段集成到端到端可学习的al-task中。使用深度网络，[31]将对象跟踪公式化为两个点集的相对运动估计。多视图配准多视图、全局点云配准方法旨在解决困难或不明确的情况通过结合来自多个视图的线索，在成对方法中出现。第一类方法采用多视图ICP类方案来优化相机姿态以及3D点对应[36，25，45，9]。这些中的大多数遭受增加的对应性估计的复杂性。为了缓解这种情况，一些方法仅优化运动并使用扫描来评估配准误差[69，56，7]。更进一步，其他现代方法利用全局循环一致性并且仅在从成对映射的初始集合开始的姿势上进行优化这种有效的方法被称为同步化[10，61，2，56，3，5，43，69，7，35]。全球结构-从运动[17，70]旨在通过分解旋转，平移和尺度分量来同步观察到的相对运动[23]提出了一种使用两个网络的全局点云配准方法，一个用于姿态估计，另一个通过估计全局坐标的发生状态来对场景结构进行建模。可能与我们最相似的工作是[35]，其中作者的目标是通过学习数据驱动的加权函数来适应变换同步层的边缘权重。我们的方法的一个主要概念差异是，相对变换参数是使用FPFH [54]结合FGR [69]估计的，因此，与我们的方法不同，不需要学习。此外，在每个迭代中[35]必须将点云转换为深度图像，因为加权函数由2D CNN近似。另一方面，我们的整个方法直接在点云上操作，是完全可微的，因此有助于以端到端的方式学习全局多视点点云配准。3. 端到端多视图3D配准在本节中，我们将所提出的多视图3D配准算法导出为取决于数据的函数的组合第4节详细解释了用于近似这些功能的网络架构。我们从学习成对点云配准的新算法开始，该算法使用两个点云作为输入并输出估计的变换参数（Sec.第3.1节）。该方法通过使用服从反向传播的变换同步层扩展到多个点云（Sec.3.2）。该同步层的输入图与相对变换参数一起编码这些成对映射中的置信度，该置信度也使用新型神经网络来估计，作为边缘信息。最后，我们提出了一个IRLS方案（第二节。3.3）通过更新边缘权重以及成对姿态来细化所有点云的全局配准考虑一组潜在重叠的点云 S={Si∈RN×3 ，1≤i≤NS}，从不同的视点（即，姿势）。多视点配准的任务是恢复刚体的、绝对的姿态1761我纪IJJ我我我2给定扫描集合，{M∈SE（3）}i其中，wl：=（w）l是假定的对应的权重SE（3）=.M∈R4×4： M=ΣΣΣR t0⊤1、（1）随机响应γl∈R6={pl，φ（pl，Q）}由某个加权函数w=φinit（Γ）计算，其中Γ：={γl}：={P，{φ（pl，Q）}l}和φinit：RNP×6→RNP。假设Ri∈SO（3），ti∈R3. S可以用连通性信息扩充，从而得到有限图G =（S，E），其中每个顶点表示一个点集，边（i，j）∈ E编码了顶点之间的相对旋转Rij和平移tij的信息.这些相对变换参数满足Rij=RT和tij= −RTtji以及兼容性约束[4]当假定的对应关系为内点，否则接近于零，Eq. 4将产生正确的变换参数，同时保留可区分的封闭形式解[55]。在下文中，我们将这种封闭形式的解表示为加权最小二乘变换WLS变换，并且为了完整起见，在附录中提供了它的推导。材料3.2. 可微变换同步RijRiRTtij−RiRjTtj+ti（2）回到多视图配准的任务，我们再次在当前的最新技术水平[69，35，7]中，G的边缘E用（噪声）相对变换参数{Mij}初始化，通过独立的辅助成对配准算法全局场景一致性通过子帧同步算法来实现.相比之下，我们提出了一种联合方法，其中成对注册和transformation同步紧密耦合为一个完全不同的组件，这导致了端到端的学习，全球注册管道。3.1. 点云的成对配准在下文中，我们介绍了一种可微的成对配准算法，该算法可以很容易地并入端到端多视图3D配准算法中。让考虑点云S的初始集合。如果没有先验关联。给出了点云信息，通过构造N个S点云对并估计它们之间的关系，可以初始化图G如在第12节中所描述第3.1条全局变换参数可以联合地估计（变换同步）[30，5，4，11]，或者通过将问题划分为旋转同步[2，3]和平移同步[34]。在这里，我们选择后一种方法，它在谱关系下允许一个可微的封闭形式的解决方案[2，3，34]。旋转同步旋转同步的目标是通过基于观测到的比率{Rij}求解以下最小化问题来检索全局旋转矩阵{R}{P，Q}：={Si，Sj|i/=j}表示一对点R*= arg min Σ C||R— RR T||2（五）其中（P）l=：pl∈R3和（Q）l=：ql∈R3的云表示点中各个点的坐标向量云P∈RNP×3和云Q∈RNQ×3。的伊伊杰Ri∈SO（3）（i，j）∈E我J F成对登记的目标是检索最优R_i_j，我不知道。卢塞恩山口Rij，tij=argmin||Rijpl+tij−φ（pl，Q）||2（三）其中，权重cij：=finit（r）表示置信度在相关的变换参数M∈i，j中。在谱弛豫方程下，5承认一个封闭形式的解决方案，这是在supp中提供的。材料[2，3]。Rij， tijl=1翻译同步同样的，跨文化的目标--lation同步是检索全局翻译向量，其中φ（p，Q）是映射点P到点云Q中的对应点。的最小化以下最小二乘问题的变量{t}Σ公式Eq. 3有利于可微封闭形式解决方案，这是受噪声分布接近地面真相解决方案[55]。但是，最小二乘法-tt= arg min我不是（i，j）∈Ecij||Rijti+tij−tj||第二章（六）解决方案是不稳健的，因此Eq.3将在高异常值比率的情况下产生错误的在实际中，映射φ（p，Q）远非理想，错误的对应通常占主导地位。为了规避这一点，Eq。3可以通过引入一个异方差加权矩阵[60，55]：卢塞恩山口1762方程的可微封闭形式解。第六章又一次在苏材料3.3. 配准的迭代细化上述公式（Sec. 3.1和3.2）有助于在迭代方案中实现，这反过来又可以被视为IRLS算法。我们可以开始每一个subse-Rij，tij=argminRij， tijl=1WL||Rijpl+tij−φ（pl，Q）||第二（四）条通过预对准点云对进行quent迭代（k+1）使用相对变换的同步估计，1763IJIJIJIJlΣIJl=1L.IJijij图2.用于端到端多视图3D点云配准的拟议流水线对于每一个。我们提取的输入点云SiNFCGF [16]特征被馈送到softNN层，以计算2的随机对应对.这些对应关系是用作初始配准块的输入（即， Reg. init. ），其输出每个对应的权重，初始变换参数，和每点残差。与对应关系一起，初始权重和残差然后被输入到配准细化块（即， Reg. ITER。），其输出用于构建图形。在Transf-Sync层的每次迭代之后，估计的变换参数用于预对准与来自先前迭代的权重和残差级联的对应关系，并重新馈送到Reg.iter。块我们在注册表上签名。和Transf-Sync层进行了四次。（k）（k）（k）−1但我们选择FCGF是因为它的高精度和低COM-运动参数Mij =Mi来自迭代（k）的M j使得Q（k+1）：= M（k）<$Q，其中<$表示将变换M（k）应用于点云Q。此外，前一次迭代的权重w（k）和残差r（k）可以用作对应关系中的边信息加权函数因此，Ekinit（·）扩展为计算复杂性令F P和F Q表示使用相同的网络权重获得的点云P和Q的FCGF嵌入。然后，可以通过在这种高分辨率下的最近邻（ NN ）搜索来建立逐点对应 {φ（·）}。维特征空间然而，选择规则w（k+1）：=0ITER（r（k+1），w（k），r（k）），（7）这种硬分配是不可微的。因此，我们以概率的方式形成NN选择规则，其中，r（k+1）：={γ（k+1）}：={P，{φ（pl，Q（k+1））}l}。计算所述分类分布的概率向量sbition [49].点p的随机对应类似地，输入M_k（k）和的同步M（k）变换参数，第（k）次迭代可以用作估计的附加线索在点云中，Q被定义为：φ（p，Q）：= sTQ，（s）：=exp（−dl/t）（九）匹配置信度c（k+1）。因此，init（·）可以用ext结尾NQexp（−dl/t）到c（k+1）：=整数（r（k+1），M（k），M（k））.（八）其中dl：=||fp−（FQ）l||fp是点p的FCGF嵌入，t表示温度参数。在当t→0时，φ（p，Q）收敛于确定性的4. 网络架构我们将我们提出的多视图配准算法实现为一个深度神经网络（图1）。2）。在本节中，我们首先描述用于近似 φ （ · ）、 Rollinit （ · ）、 Rolliter （ · ）、Rollinit（·）和Rolliter（·）的体系结构，然后进行积分将它们整合成一个完全可区分的、端到端的可训练的人工智能系统，NN-搜索[49]。我们遵循[16]并使用对应损失Lc来监督φ（·）的学习，该对应损失L c被定义为最难的对比损失并对FCGF嵌入进行1ΣΣ Σ2L=d（f，f）− m /|P|gorithm.cNFCGFijp+（i，j）∈PΣ Σ2S1764++2我们对对应函数φ（·）e的近似扩展了最近提出的全卷积3D特征描述符FCGF [16]有一个软分配层。FCGF对稀疏十元[15]进行操作，并在单次通过中为稀疏点云的每个点计算32维描述符注意，函数φ（·）可以用最近提出的学习特征描述符[38，20，21，28]中的一个来近似+0。5mn−min d（fi，fk）/|Ni|k∈NΣ ΣΣ+0。5mn−mind（fj，fk）/|NJ|k∈N其中P是FCGF迷你批NFCGF中所有正对的集合，N是用于最难的负挖掘的所有特征的随机子集。mp=0。1且mn=1。4是正负对1765IJIJIJθIJIJ2IJIJijijij ijIJ尊重我。该算法提供了φ（·）的详细网络结构以及训练结构和参数。材料深度成对配准尽管FCGF描述符的性能良好，但几个假定的对应关系，证据Γ′πΓ将为假。此外，分布成对变换esti的局部置信度c局部mation和（ii）从变换同步导出的全局置信度c全局。我们制定的估计c本地作为一个分类任务，并认为，所需的一些信息包含在第二个到最后一层的注册块的功能。让内值和离群值的组合并不像噪声，confIJ =f（−2）（·）表示第二个-to-last的输出有规律性[53]。因此，我们的目标是使用深度神经网络从数据最近，已经提出了几种表示用于过滤2D[46，53，68]或3D [29]特征对应的复杂加权函数的在本文中，我们建议使用[68]中提出的顺序感知块扩展基于[46]的3D离群值过滤网络[29]。具体来说，我们创建一个成对的配准块fθ：RNP×6<$→RNP，其将假定对应关系Γ的坐标作为输入，并输出权重w：=tanh（ReLU（fθ（Γ），这些权重与Γ一起被馈送到封闭形式中，因此层的注册块，我们提出了一个重叠池-通过执行加权平均池化来提取全局特征x_conf的层f重叠为xconf= wT Xconf.（十二）所获得的全局特征与内点的比率δi，j（即，权重高于给定阈值的对应关系的数量），并被馈送到具有三个完全连接层（129-64-32-1）的置信度估计网络，然后是ReLU激活功能因此，局部置信度可以表示为Eq的解 4以获得Rij 和，j。未批准人cl〇cal：=MLP（cat（[xconf，δij]））（13）ij ij在[53，68]中的结果中，我们添加另一个配准块将r（·）添加到我们的网络中，并将权重w和逐点残差r附加到原始输入s. t。w（k）：=置信度估计块的训练是su-i的。使用置信损失函数Lconf=（cat（[r（k），w（k−1），r（k−1）]））（参见第二节。 3.3）。的1BCE（clocal，cGT）（N表示云的个数ITERN（i，j）ij ij然后，权重w（k）再次与初始对），其中BCE是指二进制交叉熵对应于方程的封闭形式解。4至和地面真实置信度cGT标签是com-得到细化的成对变换参数。为了确保fθ（·）的绝对变异性，在两个配准块中使用了一种对单个对应进行操作的PointNet类[50]架构由于每个分支仅对单独的对应关系进行操作，使用对称上下文归一化[65]和顺序感知过滤层[68]在中间层中收集局部3D上下文信息。注册模块的详细架构可在supp.材料注册网络的训练使用registra进行监督，对于具有N个reg示例的批次，定义为Lreg=α regL class+β regL transs（10）损失，其中Lclass表示二进制交叉熵损失，通过对角度误差τa进行阈值化，Tr（R<$TRGT）−1arccos（ijij）。该函数将局部置信度并入相对变换参数中。另一方面变换同步层的输出提供输入相对变换如何与其它边全局一致的信息事实上，传统的同步算法[13，4，34]仅使用该全局信息来执行迭代解中的边缘的重新加权，因为它们无法访问局部置信度信息。相对变换参数cglobal的全局置信度可以用柯西加权函数表示[33，4]cglobal=1/（1+r/b）（14）1 Σ1L=卢塞恩山口||Mˆ布吕普−MGTPump||（十一）ijij不反式N N伊季勒ijl2其中r* 为||Mij−MM||F和Follo Wing[33，4]reg（i，j）Pl=1i j i j∗ ∗b=1. 2019- 04 - 22 01：02：02（|r−med（r）|），其中med（·）表示用于惩罚与地面实况变换参数MGT的偏差。αreg和βreg用于控制各个损失函数的贡献。置信度估计块加上估计中值算子和r是残差r的向量化。由于局部和全局置信度提供了有关相对变换参数的补充信息，因此我们使用其调和平均值将它们组合成联合置信度cij相对变换参数M_i，j，2全球当地图G对这些估计中的置信度cij进行编码。反C：=（c局部，c全局）：=（1+βX1766）cij ·cij（十五）在图的每个边中编码的证据包括（i）伊日特尔 ijijβ2cglobal+clocalij ij17672每个片段对整个场景NN搜索模型估计[s][s]总时间[s]RANSAC0的情况。380的情况。231106 3我们的（softNN）0的情况。100的情况。01八十3表1. 3DMatch数据集的配准召回。1-iter和4-iter分别表示成对配准网络的结果并输入到第四个最好的结果，除了由全局信息通知的4- iter之外，以粗体显示。其中β平衡局部和全局置信度估计的贡献，并且在训练期间学习。端到端多视图3D配准网络的各个部分连接到端到端多视图3D配准算法中，如图所示。2个2. 我们预先训练各个子网络（训练细节可在supp. 材料），然后使用官方的训练/测试数据分割在3DMatch数据集[67]上以端到端的方式微调整个在微调中，我们使用NFCGF=4来提取FCGF 特征，并随机采样每个片段2048个点的特征向量。这些在软屁股I中使用特征。gn元（softNN），以形成NS点云对3，其被馈送到成对注册网络。成对配准的变换参数的迭代细化被执行四次。我们使用联合多视图注册损失L=Lc+Lreg+Lconf+Lsync（ 16）表2.估计成对变换的平均运行时间注意，软分配的GPU实现比基于CPU的kd树NN搜索更快。Redwood数据集（Sec. 5.1）。然后，我们评估了从RGB-D图像生成的点云片段的全局配准的整个管道，这些图像是ScanNet数据集的一部分[18]。5.1. 成对配准性能我们首先评估我们的算法的成对注册的一部分，对传统的几何注册任务。我们将我们的方法的结果与最先进的数据驱动特征描述符3DMatch [67]，CGF [38]，PPFNet [21]，3DSmoothNet（3DS）[28]和FCGF [16]进行比较，这也是我们算法的一部分，最近的基于网络的注册算法3DR [22]。遵循3DMatch[67]的评估程序，我们使用基于RANSAC的变换参数估计来补充所有基于描述符的方法。对于我们的方法，我们报告的结果后，成对的注册-配置网络（选项卡中的1-iter 1）以及在第4次迭代（Tab中的4-iter）中的多项式r（·）的输出。 1）。后者已经被告知全局信息，并且主要用作验证我们对Transf-Sync层的输入是否随着迭代而改进。符合3DMatch评估程序，我们报告每个场景以及整个数据集的平均1.一、配准结果表明，我们的方法达到最高的召回所有评估的方法。更重要的是，它表明，使用相同的功能1Σ∗L=（λ R— RGT赛车+-tGT）。（十七）（FCGF），我们的方法可以优于基于RANSAC的es-同步Nij（i，j）ijFij ij2估计变换参数，同时具有更低的时间复杂度（Tab. 2）。1-iter和4-iter结果的比较也证实了直觉我们微调整个网络2400次迭代，亚当优化器[39]，学习率为5×10−6。5. 实验我们对公开可用的基准数据集3DMatch[67]、Red-wood[14]和ScanNet[18]进行了方法评估。首先，我们评估了所提出的成对配准算法在3DMatch上的性能、效率和推广能力，2该网络在Pytorch中实现[47]。在supp中提供了所提出的方法的伪代码。材料3.我们在训练过程中假设一个完全连接的图，但如果提供了连接信息，则能够考虑连接信息。将先前估计的残差和权重反馈到成对配准块有助于细化所估计的成对变换参数。推广到其他领域为了测试我们的成对配准模型是否可以推广到新的数据集和看不见的领域，我们对合成室内数据集Redwood indoor[14]进行了推广评估。我们遵循[14]的评估方案，并报告所有四个场景的平均配准召回率和精确度。我们将我们的方法与最近的数据驱动方法 3DMatch [67] ， CGF [38]+FGR [69] 或 CZK[14]，RelativeNet（RN）[22]，3DR [22]以及传统方法CZK [14]和潜在RANSAC（LR）[40]进行比较。图3示出3DMatch[67个]CGF[38个]PPFNet[21日]3DR[22日]3DSN[28日]FCGF[16个]我们1-iter4-iter厨房0的情况。850的情况。720的情况。900的情况。800的情况。960的情况。950的情况。960的情况。98主场10的情况。780的情况。690的情况。580的情况。810的情况。880的情况。910的情况。920的情况。93主场20的情况。610的情况。460的情况。570的情况。700的情况。790的情况。720的情况。700的情况。731768IJ2ijij2方法旋转误差转换误差（m）3◦5◦10◦30◦45◦平均值/中位数0.050.10.250.50.75平均值/中位数成对FGR[69]9.916.823.531.938.4七十六。3个/-5.513.322.029.036.31.67/-（全部）我们的（第一个）32.637.241.046.549.4六十五9分48秒。8◦25.134.140.043.446.81.37/0.94边缘修剪我们的（第四iter.）34.338.742.248.251.962. 3分37秒。0◦26.735.741.845.549.41.26/0.78（全部）我们的（同步后）40.745.750.856.258.452岁2000/9。0◦29.342.150.954.758.30.96/0.20FGR（好）FastGR[69][14]第十四话EIGSE 3（FGR）[4]旋转平均值（FGR[12]）L2Sync（FGR）[35]12.421.429.538.645.168岁8分/-7.717.628.236.243.41.43/-0.20.62.816.427.187岁2/-0.10.74.816.428.41.80/-1.54.312.134.547.768岁1/-1.24.114.732.646.01.29/-6.010.417.336.146.1六十四4个/-3.79.219.534.045.61.26/-34.441.149.058.962.3四十二9个/-2.07.322.336.948.11.16/-我们的（好）EIGSE 3[4]我们的（第一个）我们的（第四iter.）我们的（同步后）63.370.275.680.581.623岁0分/1。7◦42.258.569.876.979.70.45/0.0657.765.571.376.578.128岁三分之一。9◦44.860.369.673.175.50.57/0.0660.668.373.778.981.0二十四岁2分之1。8◦47.163.372.276.278.70.50/0.0565.872.877.681.983.220.3度/1.6度48.467.276.579.782.00.42/0.05表3. ScanNet[18]数据集上的多视图配准评估。我们报告旋转和平移误差的ECDF值。最佳结果以粗体显示。我们的方法可以在没有经过合成训练的情况下实现比最先进的方法高出104个百分点实验数据，从而证实了我们的方法具有良好的推广能力。请注意，虽然所有方法在场景中的平均精度都很低，但一些工作[14，38，22]表明，使用修剪可以轻松提高精度，而几乎不会损失召回率。5.2. 多视图配准性能最后，我们使用Scan-Net[18]数据集评估了我们完整方法在多视图配准任务ScanNet是室内场景的大型RGBD数据集它提供了1513个场景的重建，地面实况为了确保公平的比较，我们遵循[35]并使用相同的32个随机采样场景进行评估。对于每个场景，我们随机采样30个RGBD图像，这些图像相隔20帧，并将它们转换为点云。帧的时间序列结合框架之间的大的时间间隔，这使得测试设置极具挑战性。与[35]不同的是，我们不在 ScanNet 上训练我们的网络，而是对在3DMatch数据集上训练的网络进行直接泛化。评估方案我们使用标准评估方案[13，35]，并报告角度ae和平移te偏差的经验累积分布函数（ECDF），定义为：Tr（RTRGT）−1ae= arccos（ijij）te=tGT−t2（18）地面真实旋转RGT和平移tGT由ScanNet的作者提供[18]。在选项卡中。我们报告了三种不同情况下的结果如果变换之后重叠区域中的中值点距离大于0。1 m（FGR）或0. 05米（我们的）。“Ours（Good）”中的EIGSE 3使用以下方法我们的成对估计O. 另一方面，“all”表示所有NS对用于构建graph.在所有场景中，如果该边缘c局部的相对变换参数的置信度估计下降到τ p = 0以下，则我们修剪图的边缘。八十五该阈值是在3DMatch数据集上确定的，并在supp中详细分析了它材料如果在迭代过程中，边的修剪产生了一个断开的图，我们只需在图断开之前报告每个节点的最后一个有效值。一个更复杂的处理边修剪和断开的图形是留给未来的工作。结果分析如表1所示。3.与基线相比，我们的方法可以在多视图配准任务上实现很大的改进不仅使用我们的方法估计的初始成对相对变换参数比FGR [69]更准确，而且它们还可以在子迭代中进一步改进这清楚地证实了我们算法的反馈循环的好处。此外，即使直接考虑所有输入边，我们的方法仍然被证明是占主导地位的，即使考虑到我们的竞争对手的情况下的结果多视图配准评价的更多定性结果（包括失败案例）可参见supp。材料计算复杂度成对和多视图配准的低计算成本对于增强现实或机器人等各个领域都很重要我们首先比较我们的成对注册组件RANSAC的计算时间在选项卡中。2我们还报告了注册3DMatch数据集的一个片段对所4重叠区域被定义为部分，其中在变换之后，点小于0。距离另一个点云2m。[35]第三十五届17690的情况。250的情况。200的情况。150的情况。100的情况。050的情况。500550600650。700750。80召回率[%]0的情况。50的情况。40的情况。30的情况。20的情况。12019 - 06 - 24 0.32 0.4te[m]图3. Redwood室内数据集上的配准结果。一个完整的场景。所有的计时都是在具有Intel（R）CoreTM i7- 7700KCPU@4.20GHz、GeForceGTX 1080和32 GBRAM的独立计算机上进行的.对一个片段对执行软神经网络的平均时间约为0. 1s，这比传统的最近邻搜索（使用scikit-learn实现[48]）快大约4倍。在模型估计阶段获得了更大的加速（约23倍），其中我们的方法需要单个前向传递（恒定时间），而当内围值比为5%，期望置信度为0。995.这导致对于具有1770个碎片对的厨房场景，我们的整个多视图方法（包括特征提取和变换同步）的总运行时间约为80相比之下，特征提取和成对估计的变换参数与RANSAC需要>1100s。这清楚地表明了我们方法的效率，计算速度快了13倍（对于具有60个片段的场景）。5.3. 消融研究为了更好地直观了解我们方法中的单个新关系对最终性能的贡献程度，我们对ScanNet[18]数据集进行了消融研究。特别地，我们分析了基于置信度估计块和柯西函数的边缘修剪算法，以及相关变换参数的迭代细化对算法的影响。6消融研究的结果见图6。4.第一章受益于迭代细化我们利用权重和残差为它们的估计提供额外的条件的概念来激励输入到Transf-Sync层的变换参数的迭代细化。结果见图。4、证实了这个假设。第4次迭代中的输入相对参数比初始估计值高出约2个百分点。另一方面，图4显示，在高存在下，5我们使用基于CPU的RANSAC实现，该实现在3DMatch数据集的原始评估代码中提供[67]。6消融研究的其他结果包含在附录中。材料。FGRCZK3DMatchCGF+FGRCGF+CZKLR3DR我们精密度[%]第一个iter。w/o（4 iter.）w/o（sync.）因为（4 iter.）因为（同步）w-conf.（4 iter.）w-conf。（同步）ECDF1770图4. ScanNet数据集上的消融研究。异常值或低效的边缘修剪（参见例如，结果（w/o边缘修剪）、权重和残差实际上提供了负偏置并使结果恶化。边缘修剪方案有几种可能的方法来实现对假定的离群边缘的修剪。在我们的实验中，我们修剪的基础上的置信度估计块（w-conf。）的输出的边缘。其他选项是使用全局置信度来实现该步骤即（14）（w-Cau.）或者根本不执行（W/O）。图4清楚地显示了使用我们的置信度估计块的优势（增益超过20个百分点）。更重要的是，由于保留了大量的离群值，甚至比成对配准更差。6. 结论我们介绍了一种端到端可学习的多视点云配准算法。我们的方法不同于常见的两阶段方法，而是直接学习以全局一致的方式注册所有视图。我们通过一个软对应层来增加3D描述符FCGF [16]，该软对应层将所有扫描配对以计算初始匹配，这些初始匹配被馈送到一个可微分的成对配准块，从而产生变换参数以及权重。构造姿态图，并且新颖的可微分迭代变换同步层全局地细化权重和变换。对常见基准数据集的实验评估表明，我们的方法在旋转误差统计方面平均超过25个百分点此外，在60次扫描的多视图设置中，我们的方法比基于RANSAC的方法快>13对新场景的记忆力更好（红木室内相比，国家的最先进的）。鸣谢。这项工作得到了斯坦福-福特联盟，NSF资助IIS-1763268，Vannevar Bush教师奖学金，三星GRO计划和斯坦福SAIL丰田研究中心的部分支持。感谢NVIDIA Corp.提供这项工作中使用的GPU。1771引用[1] Dror Aiger，Niloy J Mitra，and Daniel Cohen-Or. 4-点全等集合，用于稳健的成对表面配准。在ACM图形交易（TOG）中，2008年第3期。2[2] MicaArie-Nachimson 、 ShaharZKovalsky 、 IraKemelmacher-Shlizerman、Amit Singer和Ronen Basri。基于点匹配的全局运动估计。在3D成像，建模，处理，可视化传输，2012年。一、二、三[3] Federica Arrigoni ， Luca Magri ， Beatrice Rossi ，Pasqualina Fragneto，and Andrea Fusiello.通过低秩和稀疏矩阵分解的鲁棒绝对旋转估计。在IEEE 3D视觉国际会议（3DV）中，第491-498页，2014年。一、二、三[4] Federica Arrigoni、Beatrice Rossi和Andrea Fusiello。se中多视图的谱同步（3）。SIAM Journal on ImagingSciences，9（4）：1963-1990，2016。一、三、五、七[5] Florian Bernard，Johan Thunberg，Peter Gemmar，FrankHer- tel，Andreas Husch，and Jorge Goncalves.通过变换同步的多对准的解决方案在IEEE计算机视觉和模式识别会议（CVPR），第2161-2169页一、二、三[6] PJ Besl和Neil D McKay。一种三维形状配准方法IEEETransactions on Pattern Analysis and Machine Intelligence（TPAMI），14（2）：239-256，1992. 2[7] Uttaran Bhattacharya和Venu Madhav Govindu。三维特殊欧氏群上的高效鲁棒配准。在IEEE国际计算机视觉会议（ICCV），2019年。二、三[8] Tolga Birdal和Slobodan Ilic。基于点对特征的目标检测和姿态估计。在IEEE 3D视觉国际会议（3DV），2015年。2[9] Tolga Birdal和Slobodan Ilic。精确灵活的实例重建Cad先验。 IEEEInternational Conference on Computer Vision（ICCV），2017年。2[10] Tolga Birdal和Umut Simsekli。使用birkhoff多面体的黎曼结构的概率置换同步。在IEEE计算机视觉和模式识别集，第111052[11] Tolga Birdal，Umut Simsekli，Mustafa Onur Eken，andSlo-bodan Ilic.基于宾汉分布和缓和测地线mcmc的贝叶斯姿态图优化。神经信息处理系统（NIPS）进展，第308- 319页，2018年。第1、3条[12] 一个叫查特吉的和一个叫范·戈文杜的。鲁棒的相对旋转平均。 IEEE transactions on pattern analysis andmachine intelligence，40（4）：958-972，2018。7[13] Avishek Chatterjee和Venu Madhav Go

下载后可阅读完整内容，剩余1页未读，立即下载