顺序感知网络学习两视图对应和姿态

81 浏览量更新于2023-10-12 收藏 1.5MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5845利用有序感知网络学习两视图对应和张嘉慧13孙大伟2罗梓鑫3姚安邦2§周磊3沈天伟4陈玉荣2龙泉3廖鸿恩1§1清华大学2英特尔实验室中国3香港科技大学4珠峰创新科技（Altizure）{jiahui-z15@mails.，liao@} tsinghua.edu.cn{ dawei.sun，anbang.yao，yurong.chen} @ intel.com{zluoag，lzhouai，quan} @tianwei@altizure.com cse.ust.hk摘要建立两幅图像之间的对应关系需要局部和全局的空间背景。在给定两个视图中特征点的假定对应关系的情况下，本文提出了顺序感知网络，它可以推断出对应关系是内点的概率，并回归由本质矩阵编码的相对姿态。特别是，该网络是分层构建的，包括三个新的操作。首先，为了捕获稀疏对应的局部上下文，网络通过学习软分配矩阵来聚类这些簇是在一个规范的顺序和不变的输入排列。接下来，聚类被空间相关以形成对应的全局上下文。之后，上下文编码的聚类通过建议的上采样算子恢复到原始大小。我们在室外和室内数据集上进行了深入的实验。与现有技术相比，双视图几何形状和对应关系的准确性显著提高1. 介绍双视图几何估计是计算机视觉中的基本问题，其在从运动恢复结构（SfM）[37，33]和视觉同时定位和映射（SLAM）[21]中起重要作用。当前最先进的SfM[37，33]和SLAM [21]流水线通常从局部特征提取和匹配开始然后应用离群点剔除算法，这是精确的相对位姿估计所必需的。之后该*表示平等缴款。†英特尔中国实验室实习生。深圳市筑科创新科技有限公司实习生。§表示相应的作者。可以从内点恢复相对姿态。直到最近，人们一直在努力将深度学习技术应用于几何匹配流水线，其中大多数都专注于学习局部特征检测器和描述符[40，4]。更有趣的是，基于学习的离群值拒绝也被重新审视[20，29]，并取得了吸引人的结果。我们的工作还将基于学习的离群点拒绝作为两视图几何估计的核心组件。我们利用一个神经网络来推断每个对应的概率作为一个内点，然后通过一个封闭的形式和可微的计算回归的本质矩阵恢复的相对姿态。工作流程概述如图所示。1.一、以前的工作[20，29]利用PointNet类架构[26]和上下文规范化[20，35]来对假定的对应进行分类，我们将其称为PointCN。它具有以下缺点：（1）类PointNet架构在每个点上单独地应用多层感知器（MLP）。因此，它不能捕获本地上下文[27]，例如。，由相邻像素共享的类似运动[1]，这已被证明有利于离群值拒绝[1，44]。(2) PointCN依赖于上下文规范化来编码全局上下文。这种简单的操作通过特征图的均值和方差来归一化特征图，这忽略了不同点之间的潜在复杂关系，并且可能妨碍整体性能。缓解上述限制的挑战之一是利用邻居来编码本地上下文。与3D点云不同，稀疏匹配没有明确定义的邻居，其中该问题先前在双边域[14]（2D空间域和2D运动域）中或通过图形模型[44]解决此外，另一个挑战是对对应关系进行建模，因为它们是无序的，没有稳定的关系可以捕获。为了解决上述两个问题，我们从图神经网络的分层表示中5846输入对应订单感知网络内点概率可微双视图几何计算6×PointCN6×PointCNC兰布P乌伦普U级-16×顺序感知过滤块2级P可微池化U可微解池化C级联图1.顺序感知网络学习双视图对应和几何。PointCN块在级别1中用于处理无序输入。此外，我们还引入了三种新的操作来利用局部上下文和全局上下文：（1）DiffPool层（左），它将无序节点映射到一组簇中，以获取局部上下文;（2）Order-Aware DiffUnpool层（右），它使用输入节点的空间信息对簇进行上采样，以建立层次结构;（3）级别2中的顺序感知过滤块，其使聚类器相关，从而允许网络更好地对全局上下文进行建模。工作（GNN）。特别是，我们将微分池（DiffPool）[41]运算符（它是置换不变的，最初是为GNN设计的）推广到一个类似PointNet的框架中，以捕获本地上下文。具体地说，如图1、DiffPool将输入节点映射到集合通过学习软分配矩阵，而不是使用预定义的启发式邻居。同时，置换不变的DiffPool本质上为所得到的聚类产生了一个规范的顺序，这避免了对启发式排序的需要，如[22，43]。此外，在规范顺序中进一步使我们能够利用具有有效空间相关操作者的聚类关系，即所提出的顺序感知过滤块，以捕获更复杂的全局上下文。最后，为了分配每个对应的预测，我们开发了一个新的可区分的Unpooling（DiffUnpool）层，以将这些集群上采样到原始大小。值得注意的是，所提出的DiffUnpool算子被专门设计为具有顺序意识，以便将上采样特征与原始输入对应关系精确对齐。所提出的方法在具有不同场景的大规模室内和室外数据集上进行了广泛的评估，并在相对姿态估计方面取得了显着的精度提高。我们的主要贡献有三方面：• 我们引入DiffPool和DiffUnpool层，以可学习的方式捕获无序稀疏对应的局部上下文。• 通过DiffPool算子的协同使用，我们提出了顺序感知过滤模块，它利用了稀疏对应的复杂全局上下文。• 我们的工作显着提高了室外和室内数据集上的相对姿态2. 相关工作2.1. 学习匹配随着深度学习的出现，许多工作试图采用基于学习的方法来解决几何匹配任务，包括密集方法[36，45，13，30]和稀疏方法[40，23，4，3，18，17]。对于这些稀疏方法，它们中的大多数专注于使用卷积神经网络（CNN）进行兴趣点提取和描述，以取代SIFT等手工特征[16]。同时，一些工作[2，20，29]也试图用基于学习的方法来解决离群点拒绝问题，以提高相对位姿估计的精度，这是本文的主题。2.2. 异常画面排除通常，由手工制作或学习的特征建立的假定对应包含许多离群值，例如.在宽基线的情况下。因此，为了提高相对位姿估计精度，必须剔除野值.RANSAC [6]是标准的，仍然是最流行的离群值拒绝方法。USAC[28]为RANSAC变体提供了一个通用框架。BF [14]利用双边域上的分段平滑约束来过滤离群值。GMS [1]将平滑约束的思想简化为一个统计公式。RMBP [44]定义了一个图形模型，描述了匹配的空间组织以拒绝离群值。在深度学习时代，DSAC [2]模仿RANSAC的优点，提出了一种使用概率选择的可微计数器。PointCN [20]将离群值拒绝任务重新定义为内点/离群值分类问题和本质矩阵回归问题。该算法利用类PointNet结构将输入对应标记为内点或外点，并引入加权八点算法直接回归本质矩阵。提出了上下文规范化方法，可以大大提高性能。并发工作DFE [29]也使用了类似PointNet的架构和上下文规范化，但采用了不同的损失函数和迭代网络。N3Net [25]插入了软k-最近邻（KNN）层来增强PointCN。我们的工作也建立在PointCN的基础上，但通过借鉴几何深度学习的思想，努力改善本地584711 222.3. 几何深度学习几何深度学习处理非欧几里德域上的数据，例如图[11，19，8，5]和人，Ifolds [26，39，12，7，42].类PointNet架构可以被视为图神经网络的一种特殊情况，它处理没有边的图。与3D点云不同，稀疏对应没有明确定义的邻域。这也是图上的许多任务所面临的困难[41]。我们没有像以前的作品[14，44]那样为对应关系定义启发式邻居，而是利用可区分池[41]以可学习的方式对节点进行然而，原始的DiffPool网络不适用于我们的情况，因为它没有给出完整的预测。因此，我们提出了一种新的DiffUnpool层来对粗化的特征图进行上采样，并构建一个分层架构。此外，我们还引入了一个具有空间连接的顺序感知过滤块来捕获全局上下文。3. 订单感知网络我们将介绍用于学习双视图对应和几何的顺序感知网络，它包含三个新颖的操作：可微分池化层、顺序感知可微分解池化层和顺序感知过滤块。首先介绍问题的形式，然后依次介绍这些子模块.3.1. 问题公式化architecture可以写成：z =fφ（C），（2）w =tanh（ ReLU（z）），（3）E=g（w，C），（4）其中z是分类的logit值。 fφ（·）是一个置换等变神经网络，φ表示网络参数。w是对应关系的权重对于每个权重w i∈ [0，1），w i= 0表示离群值。tanh和ReLU应用于轻松去除离群值[2 0]。 g（·，·）在等式 4是加权八点算法。 E是回归本质矩阵。g（·，·）表示8个以上的核响应及其权重来计算本质矩阵通过自伴特征分解。加权八点算法比传统八点算法[9]对离群值更具鲁棒性，因为它考虑了每个对应关系的贡献。此外，它相对于w是不同的，这使得可以以端到端的方式回归基本矩阵。该神经网络的优化目标是使分类损失和基本矩阵损失最小化，如下所示：loss=lcls（z，s）+αless（Es，E），（5）其中，less是预测的基本矩阵E*与地面实况基本矩阵E之间的基本矩阵损失。它可以是L2损失[20]给定图像对，我们的任务的目标是从假定的对应关系中去除离群值，并恢复相关性。L2损失=最小值{E±E}（6）姿势。更具体地说，在使用手工特征[16，32]或学习特征[40，4]提取每个图像中的关键点及其描述符之后，假定的对应关系或几何损失[29，9]（pTEP1）2可以通过在另一图像中找到它们的最近邻居来建立关联然后应用离群点剔除方法损失geo=第1集2[1]第一章+Ep12[二]《中国日报》2Tp22[1]第一章Tp2二、[二]《中国日报》来建立几何上一致的对应关系最后，本质矩阵可以通过封闭形式的解从内点对应中恢复[15，20]。离群值拒绝过程的输入是一组假定的对应关系：（七）其中p1，p2是对应关系，t [i]表示向量t的第i个元素。Lcls是分类项的二进制交叉熵损失 s表示对应关系的弱监督标签，其也是使用上述几何误差导出的，并且阈值10-4用于确定C=[c1; c2;. ;cN]∈RN×4，c i=（xi，yi，xi，yi），（1）有效的对应。α是平衡这两者损失其中ci是对应关系，并且（xi，yi），（xi，yi）是11 22这两幅图像中关键点的坐标。坐标-使用摄像机内部函数对nate进行归一化[20]。在[20]之后，我们将双视图几何估计任务表示为内点/离群点分类问题和本质矩阵回归问题。我们使用神经网络来预测每个对应关系成为内点的概率，然后应用加权八点算法[20]直接回归本质矩阵。的3.2. 可区分池层无序输入对应要求网络fφ（·）是置换等价的。因此，PointNet类似于一种架构被使用[20，29]。类似PointNet [20]架构中的每个块都包括一个上下文规范化层，一个带有ReLU的批量规范化层，以及一个共享感知器层。这个所谓的PointCN块如图所示。二、建议的上下文规范化层ǁǁǁǁ5848电子池布里100+1兰布尔布里尔池池池池××��×��×��×��泳池（泳池）乌伦普尔��×��×��×��×��×��图2.可区分池层。DiffPool以软分配方式将节点映射到集群。软分配矩阵由hpool（·）学习，其中包含一个PointCN块（红色虚线框中）和一个softmax层。[20] 使用统计数据对每个样本的特征进行归一化，可以大大提高性能。然而，类PointNet架构在捕获本地上下文方面具有缺点为了捕获稀疏对应的本地上下文，我们从DiffPool层[41]中汲取了学习将节点聚类到更粗糙的表示的想法，如图所示。二、 DiffPool 层类似于 CNN 中的Pooling层，它将节点分配给不同的集群。而不是为每个人节点，DiffPool层学习软分配矩阵。将分配矩阵表示为Spool∈RN×M，Diff- Pool层将N个节点映射到M个集群：X1+ 1=STX1，（8）其中Xl∈RN×D和Xl+1∈RM×D分别是水平l和水平l+1的特征D是特征的尺寸，通常为M N，例如：N=2000，M=500。如前所述，分配矩阵为学习而不是预先定义。更具体地说，取l层的特征，我们使用置换等变网络直接生成分配矩阵，如下所示：S池=softmax（h池（X1）），（9）其中，置换等价变量函数hp_0_l（·）在这里是一个PointCN 块它将特征从 N×D 映射到 N×M 。使用Softmax层对分配矩阵进行归一化处理沿着行维度。这些聚类可以看作是前一级节点的加权平均结果。置换不变性DiffPool是一个置换-(a) 普通DiffUnpool（b）订单感知DiffUnpool图3.可区分的非池化层的设计（a）Plain Dif- fUnpool层。它使用l+1级的特征学习软分配矩阵。(b)顺序感知DiffUnpool层。它学习一个软分配矩阵使用功能在级别l，它可以编码的顺序信息的节点在级别l。我们的设计假设用置换矩阵P∈{0，1}N×N置换Xl，等式9变得S_p_oo_l=softmax（h_p_oo_l（P_X_l））=P_S_p_oo_l，（10）因为 hp00l（ ·）和softmax都是置换等变函数。根据Eq。8，l + 1级的特征变为X1+ 1=STPX1=STPTPX1=STX1，（11）因为PTP = I对每个置换矩阵成立。当量11、Eq.8证明了DiffPool层的置换不变性置换不变性还意味着，一旦网络被学习，无论输入如何置换，它们都将被映射到特定通过DiffPool层学习规范顺序。该正则序由hpool（·）的参数决定.3.3. 可区分的非池化层DiffPool网络用于预测整个图的标签[41]。然而，它不适用于我们的稀疏匹配问题，因为我们需要对所有对应关系进行预测。因此，我们开发了一个受DiffPool层启发的Differentiable Un- pooling层，以对粗略表示进行上采样并构建分层架构。实现DiffUnpool层的一种直接方法是反转DiffPool层的行为，如图所示。3a. 更具体地说，类似于Eq。8、Eq. 9，一个非池化分配矩阵Sunpool∈ RM× N首先是′预测采用特征X1+ 1至：不变1操作[41]，这将在Sunpool =softmax（h取消合并′（Xl+1））），（十二）1等变性意味着将变换应用于输入等于将相同的变换应用于输出，而不变性意味着将′其中Xl+1∈RM×D 表示同时具有新功能对输入的转换不会影响输出。l等于Xl+1，它是从Xl+1计算出来的。我们然后地图泳池（泳池）电子邮件游泳池1联合国l+龙池YL+1乌伦普尔LY上下文规范BN+ReLU共享感知器SoftmaxunpoolL+YL+1LY布里尔（）5849′特征XN× D 在l级l+1到一个新的嵌入Xl∈R如下所示TXl = SunpoolXl +1。（十三）然而，我们发现上述实现不是最优的，′因为它不能将未合并的要素Xl与特征Xl在前一阶段（见第4.4节）。关键是DiffPool是一个置换不变的操作，意味着一个X1+ 1可以对应于各个输入X1。在换句话说，特征Xl+1′X1+ 1在l+1级，图4.顺序感知过滤块。我们将空间核心-关系层到PointCN ResNet块。这一层是完整的-在级别l处的特征Xl的空间顺序信息。我们不能期望学习的分配矩阵，如在方程中。 12可以恢复Xl的原始空间顺序或生成可以与Xl精确对准的特征，因为S在等式12中未合并。 12只利用l +1级的信息。考虑到这一点，我们提出了一个订单感知的DIF-fUnpool层，如图所示。3b，其可以知道前一级中节点的特定顺序（位置）。与上述实现不同，用于解池的分配矩阵是从级别l的特征学习的，其存储了输入顺序信息，如下所示：Sunpool= softmax（h unpool（Xl））。（十四）有了这个非池化分配矩阵Sunpool∈RN×M，我们可以通过以下方式将级别l+1的特征映射到级别l有助于PointCN有效地捕捉全球环境我们可以重复应用PointCN块来处理这些新生成的集群。然而，正如我们上面讨论的，PointCN在建模复杂的全局上下文时可能有弱点，因为它忽略了节点之间的关系。在这里，我们提出了一个简单但比PointCN块更有效的操作，称为空间相关层，以显式地建模不同节点之间的关系并捕获复杂的全局上下文。正如我们上面所展示的，池化特征在DiffPool层之后是规范顺序的。这是一个有用的属性，但类似PointNet的架构无法充分利用它。感知器直接在空间维度上建立Xl = SunpoolXl +1。（十五）由于该Sunpool∈RN×M中的每一行对应于Xl中的一个节点，因此它已经编码了Xl的特定顺序信息，并确保未合并的特征可以很好地与前一阶段对齐中的映射当量15还要求学习的分配矩阵是节点之间的连接。请注意，此操作与完全连接层不同，因为权重沿通道维共享，这有助于防止过拟合。空间相关层与PointCN正交，因为一个沿着空间维度，另一个沿着信道维度。这两个操作′知道Xl+1. 但是对于那些是互补的，所以我们把它们组合成一个块，′网络这一次因为特征Xl+1是在一个典型的更好地捕捉全局上下文，如图所示。4.第一章奥德河 hunpool（·）在等式14也是PointCN块，它将特征从N×D映射到N×M。这次我们沿着列维度应用softmax，所以未合并的fea结果可以被视为不同的加权平均结果′集群然后，将Xl与Xl级联以浅功能.所提出的订单感知Dif- fUnpool层的另一个优点是它不需要固定大小的输入。当图像中的关键点少于或多于2000个时，我们仍然可以将节点集中到固定的500个集群，然后将集群上采样到相同的大小。这在实践中是有用的。3.4. 顺序感知过滤块通过DiffPool和DiffUnpool层，我们可以构建一个多尺度网络，这是CNN中的常见做法。2实际上，我们发现改变等式中的归一化方向。9、Eq. 14对结果的影响很小。它们甚至不需要是正交的。空间相关层上下文规范BN+ReLU共享感知器转置BN+ReLU共享感知器转置上下文规范BN+ReLU共享感知器′5850空间相关层由transpos实现设置特征的空间和通道维度。在权重共享感知器层之后，我们将特征转置回来。还使用了ReLU的残差连接和批量归一化我们将空间相关层插入PointCN ResNet块的中间，并将此复合模块称为有序过滤块，它可以按规范顺序处理数据请注意，在DiffPool层之前因此，我们只在DiffPool层之后的级别应用这个简单的块，并发现它可以显着提高性能。4. 实验我们在室外 YFCC 100M [34] 数据集和室内SUN3D [38]数据集上进行了实验实验结果和网络解释如下。5851阈值SLmAP 5（%）mAP 10（%）mAP 20（%）0.01C17.53/12.5027.61/21.1542.06/34.210.001C44.50/12.5054.50/21.1565.27/34.21C47.98/23.5558.13/36.5868.67/53.08表1.基线网络[20]在YFCC 100M未知序列上的性能。所有报告了在误差阈值为5μ m、10μ m和20μ m 的情况下具有/不具有RANSAC的结果改变RANSAC中的内点阈值和使用更多的数据可以显著地提高性能。S：仅使用序列L：使用68个序列。4.1. 数据集户外场景。我们使用Yahoo[10]的作者后来从集合的子集中生成了72个旅游地标的3D重建。我们使用四个序列[20]作为未知场景来测试泛化能力。对于训练序列，与PointCN不同，我们使用剩余的68个序列进行训练，而[20]仅使用两个序列。我们的背景是表2.YFCC 100M的烧蚀研究在有/没有RANSAC后处理的情况下报告已知和未知场景两者上的mAP（%）UnA：普通DiffUnpool层。UnB：顺序感知的DiffUnpool层. OF：在第二级中使用顺序感知过滤块而不是PointCN块L3：具有三个级别的Geo：使用几何损失而不是L2损失.Iter：使用迭代网络。不是最佳的。从0开始更改阈值。01到0。001将大大改善RANSAC的结果，如表1所示。1.一、我们将使用5◦以下的mAP作为默认度量，因为它在3D重建上下文中更有用。4.3.实现细节不容易对已知序列进行过拟合，并且具有更好的泛化能力，如表1所示。1.一、为了进行公平的比较，我们在相同的数据上重新训练所有模型。如果将配对选择到数据集中，则需要最小视觉重叠。对于室外场景，重叠是重建模型中的稀疏3D点的数量，这些点都可以被图像对看到。我们使用[10]提供的相机姿势和稀疏模型来生成地面实况。室内场景。我们将SUN3D数据集[38]用于室内场景，这是一个RGBD视频数据集，其相机姿态通过广义光束平差计算关注-在[36]中，我们将数据集分为253个场景进行训练，15个场景作为未知场景进行测试。这种分割可以确保训练数据集和测试数据集之间没有空间重叠我们发现训练集中的一些序列不提供相机姿势，所以我们放弃这些序列，最终得到239个序列用于训练。我们每隔10帧对视频进行二次采样。通过将深度图投影到另一图像来计算室内场景的视觉重叠。在[20]之后，我们在已知场景和未知场景上进行测试。已知场景是训练序列。我们将它们分成不相交的子集，用于训练（ 60% ），验证（ 20% ）和测试（20%）。未知序列是上述测试序列。4.2. 评估指标我们使用旋转和平移的地面实况和预测向量之间的角度差作为误差度量。报告了具有和不具有RANSAC后处理的mAP结果。我们找到了[20]中使用的OpenCV函数findnumeralMat（）基线网络[20]有12个PointCN ResNet块。在此基础上，我们增加了一个DiffPool层和一个DiffUnpool层。如图所示，在第二级使用另外6个顺序感知过滤块。1.一、这些块中的通道尺寸都是128的网络的输入是使用SIFT特征建立的N×4个假定对应，通常N=2000。在DiffPool层之后，节点的数量减少到固定500，表现最好此外，我们还使用了一个迭代网络[29]，它将前一阶段的残差和权重作为额外的输入。这可以进一步改善性能。我们的网络是用Pytorch实现的[24]。我们使用Adam solver，学习率为10−4，批量大小为32。权重α在前20k次迭代期间为0，然后为0。1在其余的480k迭代中，如[20]中所示4.4.消融研究在本节中，我们将在YFCC 100M数据集上对所提出的操作、损失函数和网络结构进行消融研究。DiffUnpool层设计。为了证明DiffUnpool层的有效性，我们将 DiffPool 和 DiffUnpool 层添加到基线PointCN模型中。测试第3.3在DiffPool层之后，使用另外六个PointCN ResNet块。DiffUnpool层之后的特征连接到前一阶段。如Tab.所示2、在不使用RANSAC的情况下，我们的顺序感知DiffUnpool（PointCN + UnB）在未知场景上实现了5.23%的改进，而普通DiffPool（PointCN + UnB）在+ UnA）相对于基线的改善可忽略不计普通PointCN块与订单感知过滤PointCN UnAUNB 的L3GeoITER已知未知C34.36/13.9347.98/23.55C C34.38/14.0447.93/24.10CC36.33/17.8849.65/28.78CCC40.78/25.9451.63/32.55CCCC39.69/26.0450.70/30.48CCCC40.79/28.3951.10/33.68CCCCC42.46/33.0652.18/39.335852圣心堂白金汉宫圣母院brown_cogsci_6 brown_cs_7 harvard_c4 mit_w85g图5.使用RANSAC（上），PointCN [20]（中）和我们的方法（下）的匹配结果。图像取自YFCC 100M和SUN3D数据集的测试集。如果它们符合地面真实基本矩阵（真阳性），则相关性为绿色，否则为红色（假阳性）。最好用彩色。块我们用第3.4节中描述的顺序感知过滤块替换第二级的PointCN块，这可以更好地利用集群内的空间关系。如Tab.所示。2、建议区块（PointCN+ UnB + OF）可以显著提高简单PointCN块（PointCN+ UnB）的性能，在没有RANSAC的未知场景下实现了3.77%的更大的模型有帮助吗？我们训练了一个更大的模型，这是一个有三个层次的U-Net [31]第一级使用12个PointCN ResNet块，第二级和第三级使用12个和6个Order Aware第二层和第三层中的节点数量分别为500和125。然而，我们发现这个更大的模型甚至会在未知场景中下降，如Tab中所示。二、这可能表明顺序感知过滤块的表示能力因此，我们在其余的实验中使用两级网络。基本基质损失。L2损失在以前的实验中被用作基本的基质损失。然而，L2损失没有几何意义.因此，我们用黄金标准几何损失代替L2损失[29，9]。α设置为0.5.在我们的情况下，将几何损失限制为0.1效果最好。使用几何损失对已知的和未知场景，如Tab中所示二、迭代网络。迭代网络具有相似性[29]采用传统的引导匹配方法。残差并且权重被迭代地传递到下一阶段以指导估计。这里我们使用一个初始化网络和一个细化网络。每个网络都有6个PointCN ResNet块和3个顺序感知过滤块，以保持几乎相同数量的参数。我们发现确实有必要将梯度与后期分离。选项卡. 2表明，迭代网络可以很大程度上提高mAP从33.68%到39.33%，而无需RANSAC对未知场景。4.5. 与其他基线的比较我们在室外和室内数据集上将我们的网络与[20，25，26，29所有这些模型都是在相同的设置下训练的。对于N3Net [25]，我们使用官方实现。我们发现N3Net在训练过程中不稳定，所以我们运行了三次，并在这里给出了最好的结果。PointNet++ [26]是PointNet的扩展，也旨在提高捕获点集局部上下文的能力。正如我们之前所讨论的，它可能不是我们稀疏匹配问题的最佳选择，因为对应关系没有很好的-5853图6. DiffUnpool层可视化。15个最佳答案S的异列取消合并在同一图像对中可视化。表3.与YFCC 100M和SUN 3D上其他基线的比较。报告mAP（%）（具有/不具有RANSAC后处理）。我们的++使用几何损失和迭代网络，而我们的没有使用。带 * 的方法表示使用SuperPoint [4]，否则使用SIFT。定义邻居在这里，我们实现了一个4D版本的Point-Net++，它利用4D欧几里得空间作为底层度量空间。DFE [29]是一种并发工作，[20]他们有着相似的核心设计。我们在[20]的基础上，采用了[29]的损失公式和迭代网络，并在作者的帮助下结果见表1。3，我们的方法在所有设置下都取得了最佳效果，在没有RANSAC的室外和室内未知场景上比PointCN [20]分别提高了15.78%和7.03%，并且在强RANSAC后处理下仍然工作良好。我们还提供了精确度（内围比），召回率和F-评分的补充材料中的每种方法图5显示了我们的方法和其他基线的可视化结果。可以发现，我们的方法可以给一些困难的场景，如宽基线，无纹理的对象，重复的结构，和大的照明变化，更好的结果我们还评估学习的功能，如SuperPoint[4]如图所示。3 .第三章。令人惊讶的是，当使用学习的离群值拒绝方法时，发现超级点在户外场景中给出的结果比SIFT更差虽然它的表现比SIFT时，只使用RANSAC好得多。这可能表明SuperPoint具有更好的描述符，但关键点不太准确。它可以给出具有更高内点比的假定对应，从而在仅使用RANSAC时具有更好的性能。但当内点率大大提高时，瓶颈可能成为关键点精度，在这种情况下，SuperPoint的性能会变差。4.6. 网络可视化为了理解所提出的有序感知网络的机制，我们可视化了DiffUnpool层的分配矩阵Sunpool∈RN×M，它反映了第一层中不同节点之间的空间关系。水平更具体地说，我们将Sunpool的每列中的前k个响应可视化。Sunpool中的每一列表示一个聚类，每行对应于一个假定的对应。不同的聚类可能对应不同区域的不同运动。最好的彩色观看与200%放大。图7.DiffUnpool层可视化。在不同的图像对中可视化Sunpool的同一列中的前20个响应不同对的运动大致一致。最好的彩色观看与200%放大。证明这些前k个对应被我们发现DiffUnpool可以捕获有意义的上下文进行稀疏匹配。图6示出了不同的聚类器可能对应于不同的局部运动。此外，我们发现一个特定的集群的相应的运动是大致一致的，在不同的对，甚至在不同的场景中，如图所示。7，它支持池化特征是规范顺序的。5. 结论在这项工作中，我们提出了学习两视图对应和几何的顺序感知网络引入的 DiffPool 层和 Order-AwareDiffUnpool层可以学习聚集有意义的节点以捕获本地上下文。此外，我们开发了顺序感知过滤块来捕获全局上下文。这些操作可以显著提高室外和室内数据集上的相对姿态估计精度。确认本工作得到了国家自然科学基金（ 81427803 ，81771940 ）、国家重点研究发展计划（ 2017 YFC0108000 ）、北京市自然科学基金（ 7172122 ，L172003）和清华-苏浙创新项目（2016 SZ 0206）的资助。部分工作是在张嘉慧在ILC实习期间访问香港科技大学时完成的。我们还要感谢Vladlen Koltun，Rene'Ranftl和David Hafner帮助我们重新实施他们的工作。户外（%）室内（%）已知未知已知未知RANSAC5.82/-9.08/-4.38/-2.86/-[20]第二十话34.36/13.9347.98/23.5520.44/11.2815.98/9.36[26]第二十六话34.15/9.2846.23/14.0420.28/7.1515.61/5.59N3Net[25]34.18/12.4949.13/23.1820.31/7.9515.38/7.13DFE[29]36.87/18.4049.45/29.7020.97/14.0916.45/12.45我们40.78/25.9451.63/32.5521.82/16.0916.51/12.54我们的++42.46/33.0652.18/39.3322.50/21.4417.50/16.39RANSAC*15.21/-21.95/-18.17/-14.58/-[20]第二十话30.48/13.8243.18/24.8323.66/12.0418.52/10.21我们的 *33.42/23.8546.28/32.1824.31/14.8119.04/12.125854引用[1] JiaWang Bian ， Wen-Yan Lin ， Yasuyuki Matsushita ，Sai-Kit Yeung，Tan-Dat Nguyen，and Ming-Ming Cheng.Gms：基于网格的运动统计，用于快速、超鲁棒的特征对应。在计算机视觉和模式识别（CVPR），2017年。一、二[2] Eric Brachmann、Alexander Krull、Sebastian Nowozin、Jamie Shotton、Frank Michel、Stefan Gumhold和CarstenRother。用于摄像机定位的可微分变换。在计算机视觉和模式识别（CVPR），2017年。2[3] Daniel DeTone，Tomasz Malisiewicz，and Andrew Rabi-novich. 自我改善视觉里程计。 arXiv 预印本 arXiv ：1812.03245，2018。2[4] Daniel DeTone，Tomasz Malisiewicz，and Andrew Rabi-novich. Superpoint：自监督兴趣点检测和描述。在计算机视觉和模式识别研讨会（CVPRW），2018年。一二三八[5] Matthias Fey，Jan Eric Lenssen，Frank Weichert，Hein-richMüller. Splinecnn：使用连续b样条核的快速几何深度学习在计算机视觉和模式识别（CVPR），2018年。3[6] Martin A Fischler和Robert C Bolles。随机样本一致性：一个范例模型拟合与应用程序的图像分析和自动制图。ACM通讯，1981年。2[7] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。基于子流形稀疏卷积网络的三维语义分割。在计算机视觉和模式识别（CVPR），2018年。3[8] Will Hamilton，Zhitao Ying，and Jure Leskovec.大图上的归纳表示学习神经信息处理系统进展，2017年。3[9] Richard Hartley和Andrew Zisserman。计算机视觉中的多视几何学。剑桥大学出版社，2003年。三、七[10] Jared Heinly，Johannes L Schonberger，Enrique Dunn，and Jan-Michael Frahm. 6天内重建世界（由雅虎1亿张图片数据集捕获）。在计算机视觉和模式识别（CVPR），2015。6[11] Thomas N Kipf和Max Welling图卷积网络的半监督2017.3[12] 罗曼·克洛科夫和维克多·伦皮茨基逃离细胞：用于三维点云模型识别的深度kd网络。2017年国际计算机视觉会议（ICCV）。3[13] Ruihao Li，Sen Wang，Zhiqiang Long，and DongbingGu. Undeepvo：通过无监督深度学习的单眼视觉里程计。2018年国际机器人与自动化会议2[14] Wen-Yan Daniel Lin，Ming-Ming Cheng，Jiangbo Lu，Hong- sheng Yang，Minh N Do，and Philip Torr.全局运动建模的双边函数。欧洲计算机视觉会议（ECCV），2014。一、二、三[15] 克里斯托弗·朗盖-希金斯。一种从两个投影重建场景的计算机算法。Nature，1981. 3[16] 大卫·G·洛从尺度不变关键点中提取独特的图像特征。国际计算机视觉杂志（IJCV），2004年。二、三[17] Zixin Luo， Tianwei Shen，Lei Zhou，Jiahui Zhang ，Yao Yao，Shiwei Li，Tian Fang，and Long Quan.上下文描述：局部描述符增强与跨模态上下文。在计算机视觉和模式识别（CVPR），2019年。2[18] Zixin Luo，Tianwei Shen，Lei Zhou，Siyu Zhu，RunzeZhang ， YaoYao ， TianFang ， andLongQuan.Geodesc：通过整合几何约束学习局部描述符。在欧洲计算机视觉会议（ECCV），2018年。2[19] Federico Monti ， Davide Boscaini ， Jonathan Masci ，Emanuele Rodola ， Jan Svoboda ， and Michael MBronstein.使用混合模型cnns对图和流形进行几何深度学习。在计算机视觉和模式识别（CVPR），2017年。3[20] Kwang Moo Yi ， Eduard Trulls ， Yuki

下载后可阅读完整内容，剩余1页未读，立即下载