双视图对应学习：T-Net框架及其在特征匹配中的应用

62 浏览量更新于2023-10-08 收藏 728KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1950||−-|||−−T-Net：一种有效的置换-等变双视图对应学习Zhen Zhong1，Guobao Xiao1，*，Linxin Zheng1，Yan Lu1 and Jiayi Ma21闽江大学计算机与控制工程学院2武汉大学电子信息学院摘要我们开发了一个概念上简单，灵活，和effec- tive框架（命名为T-Net）的双视图对应学习。给定一组假定的对应关系，我们拒绝异常值，并通过端到端框架回归由基本矩阵编码的相对姿态，该框架由两个新结构组成：“结构”和“结构”。“”结构采用迭代策略学习对应特征。“”结构集成迭代的所有特征并输出对应权值。此外，我们引入置换等变上下文挤压和激励模块，一个适应版本的SE模块，处理稀疏对应的置换等变的方式和捕获全局和通道的上下文信息。室外和室内场景的大量实验表明，提出的T-Net实现了最先进的性能。在户外场景（YFCC 100 M数据集）上，T-Net实现了52的mAP。28%，34。22%的精度提高从最好的公布结果（38。95%）。在室内场景（SUN 3D数据集）上，T-Net（19. 71%）获得21分。82%的精度提高，从最好的出版结果（ 16 。 18% ）。源代码：https://github.com/x-gb/T-Net。1. 介绍双视图特征匹配是许多基本计算机视觉问题的核心[15，12]，包括运动结构（SfM）[32，25]，视觉同步定位和映射[17，3]和图像检索[29，18]。然而，建立可靠的对应关系不是一项简单的任务，这是由于存在大量的错误对应关系（即，错误对应关系）。异常值），这是由大的视点和照明变化、遮挡、模糊和缺乏纹理引起的。最近，基于学习的离群点拒绝算法- s[16，22，26，36]由于在特征提取和非线性方面的强大能力而获得优异的匹配性能* 通讯作者“权重，残差C权重，残差C特征特性C特性C级联“|“结构子网络PCSE模块输入输出图1. 提出的T-Net架构。耳朵表情最流行的网络通常采用迭代网络[22，36]，其中后一次迭代继承前一次迭代的权重和残差，因为它可以极大地提高离群值拒绝的性能。然而，我们发现，大量的信息在前一次迭代没有得到充分利用，只有最后一次迭代的结果可以作为预测的权重，这可能会导致次优性能。为了进一步提高性能，我们开发了一种新的网络（命名为T-Net），它集成了所有迭代的功能，全面利用所有的迭代信息。为了便于理解，我们将所有迭代视为整个网络，并且将每次迭代视为该网络中的子网络的特征学习。如图1、T-Net由两种结构组成：“”结构和“”结构。“ ”此外，以前的作品[16，22，36]通常依赖于具有上下文规范化的PointNet类架构来学习功能。尽管该模块是处理无序和稀疏数据（例如，稀疏对应），该模块对异常值不是非常鲁棒[26]。为了解决这个问题，我们引入了一个新的置换-等变上下文压缩和激发1951PCSE模块，其可以替代PointCN[16]来捕获全局和信道上下文信息，因此，它可以极大地提高性能。我们工作的贡献总结如下：我们提出了一个简单而有效的框架，称为T-网，它不仅学习两个视图的对应，通过迭代策略，但也综合了不同的信息，每次迭代。我们提出了一个重新制定的SE模块的上下文稀疏对应，以捕获上下文信息的等变方式。我们实现了国家的最先进的性能双视图对应学习。在YFCC 100 M未知数据集上，T-Net实现了52的mAP。28%，34。与最佳发表结果相比，精度提高22%（38. 95%）。在SUN 3D数据集上，T-Net（19. 71%）获得21分。82%的精确度从最好的公布结果（16。18%）。2. 相关工作2.1. 手工制作方法通常，手工方法的最流行的公式是RANSAC [7]及其变体[30，4，21，2]。这些方法的共同思想是采用假设验证的方法来寻找最大的一致对应集。受RANSAC的启发，已经提出了许多方法。例如，MLESAC[30]使用似然代替重投影，并显示了对图像几何问题的改进DEGENSAC[4]采用单应性进行退化检查。USA[21]将多个广告整合到一个统一的框架中。GC-RANSAC[2]使用局部优化来区分内点和离群点。这些方法性能良好，通常被认为是建立对应关系的标准解决方案。然而，这些方法依赖于样本子集的可靠性，使得当数据涉及大量离群值时，这些方法受到限制甚至失败。2.2. 基于学习的方法最近的作品[34，5，19，6，23]被提出来改进手工制作的特征（例如，SIFT[14]）用于局部特征检测。然而，它们不可避免地生成在现实世界的应用程序中包含许多离群值的对应关系。其他方法通过图神经网络生成对应关系[37，24]，其将匹配问题视为分配问题或最优运输问题。例如，CMPNN[37]提出了一种图神经网络，将特征点的坐标转换为局部特征。SuperGlue[24]采用上下文聚合机制基于注意力来联合地推断底层3D场景和特征分配。虽然图神经网络为特征匹配提供了一个新的视角，但这些方法需要大量的内存和庞大的网络参数。当数据涉及每个图像对的大量对应时，它们经常失败。作为一个新的方向，一些作品[16，22，26，36]试图通过将匹配问题公式化为内点/离群点分类问题来建立可靠的对应关系。例如，CNe-Net[16]引入了一种类似 PointNet 的架构和上下文规范化，我们称之为PointCN，以分类假定的对应关系，并采用加权八点算法回归基本矩阵。 DFE[22]不仅使用PointCN，而且还使用因此采用迭代策略来显著地提高性能。 ACNe-Net[26]提出了Attentive Contex-t Normalization来建立可靠的对应关系。OA-Net ++[36]使用微分池层、顺序和感知过滤块以及微分解池层，我们将其称为DP OADUP模块，以捕获局部和全局空间上下文。此外，OA-Net++采用迭代网络，并实现了显着的性能提高姿态估计。在本文中，我们的网络也是基于迭代网络。然而，与DFE和OA-Net++不同，它们只使用最后一个子网络的残差和权重信息此外，我们还提出了一种新颖的模块（即，PCSE模块），它可以捕获更多的上下文信息，并提高匹配性能比PointCN。2.3. 频道关注最近，通道注意力机制在深度卷积神经网络中取得了重大成功。例如，SE-Net[11]提出了“挤压和激励”（SE）块，并实现了有希望的性能。SK-Net[13]提出了CNN中的动态选择机制，可以自适应地调整其感受野。MobileNetV3[10]采用SE块和硬启动功能来构建轻量级注意力模块。ECA-Net[31]采用自适应内核大小来替换SE块中的FC层。然而，所有上述方法都集中于规则网格数据，诸如图像数据。相比之下，我们的PCSE模块的目的是处理稀疏和无序的数据在一个置换等变的方式。3. T-Net在本节中，我们将详细介绍用于学习双视图对应和几何的T-Net。具体来说，我们首先描述了我们的问题，在第二节的制定。3.1. 然后，我们开发了一个T-结构网络来综合所有迭代子网络···1952|||··图2. 建议的子网架构。节中3.2. 之后，在SEC。3.3，我们提出了一种新的基本模块（命名为PCSE模块），可以有效地捕获全局和通道的上下文信息。最后，我们描述的网络架构在第二。三点四分。3.1. 问题公式化给定同一场景中的一对图像，我们的目标是建立可靠的对应关系并恢复相对姿态。具体地，我们首先采用局部特征（例如，SIFT[14]）来检测关键点并提取描述符。然后，通过最近邻搜索计算描述符以创建一组N个推定对应：3.2. T型结构网络正如以前的工作[22，36]所报道的，关于迭代网络有两个重要的发现：1）迭代网络可以显着提高网络对离群点的拒绝能力。2）具有更多子网络的网络迭代）意味着网络往往具有优越的实验性能。然而，在先前工作[22，36]的迭代网络中，仅最后一个子网络结果被用作预测权重，而忽略了先前子网络中的大量信息。这种操作将导致大量信息丢失。C=[cl;c2;........................;cN]，ci=[ ui， vi，ui， vi]，（一）在本节中，我们开发了一个新的结构（称为T-结构），它包括两个结构：11 22和“|”结构。“其中ci表示推定对应;（ui，vi）并且迭代子网络，其中后一子网络在11是来自图像对的关键点坐标，它是前一个子网络的权重和残差22分别为。在[16]之后，关键点坐标通过相机固有函数进行归一化。之后，我们把两个视图的几何估计任务作为一个离群/内点分类问题和一个基本的矩阵回归问题。如图2.我们的T-Net以假定的对应集C作为输入，输出权重集W：W=[wl; w2; w3;…;wN]，（2）其中wi∈[0，1）是对应“ ” 特征提取、特征连接和特征学习）。特征提取：““结构提取每个子网络中最后构建的块的特征。此操作用于从每个子网络捕获有价值的信息。功能串联：“”结构采用concatate策略来整合各个子网的特性：Fall=F1LF2···LFS，（5）c岛w1>0指示内点，否则指示外点。最终-其中F表示S子网络中的特征L indi-ly，我们采用加权八点算法[16]来回归基于权重集W的本质矩阵。整个架构可以写成：W=f（C），（3）E=g（W，C），（4）其中f（·）表示置换等价变异神经网络。表示网络参数。E代表回归基本矩阵。 g（，）是通过自伴特征分解计算本质矩阵E（的加权八点算法。1-DPP++++++++++++++PPReLUTanhReLUTanhP+++++++PReLUTanh特征128-D128-D128-D128-D128-D128-D128-D128-D（···）（···）（···）（···）（···）（···）（···）（···）（···）（···）共享PCSE模块1PCSE模块2PCSE模块3DP OA DUPPCSE模块4PCSE模块5PCSE模块6PCSE模块7共享权重1953·S指定串联操作。特征学习：在特征级联操作之后，我们采用四个PCSE模块来学习级联特征：Ffinal=f|其中，F_final是特征学习操作的输出。F|（）表示由四个PCSE模块组成的特征学习模块。最后，我们通过两个作用函数 W=tanh （ ReLU（Ffina l））来获得最终的权重。基于上述运营，我们的T型结构将增强1954我∈f−ucN×××××fc，oc=，（f c− uc）。（八）Σ卷积层该操作可以为每个对应关系嵌入全局上下文信息，这对于稀疏对应关系是至关重要的。形式上，令f c是第c个通道C的输出对于i对应，上下文归一化被公式化为：C lCN（f）=i，（7）ioc哪里1Σ1ΣN图3.前15个响应对应的视觉结果（N我我顶行）和w > 0的固定阈值。9（最下面一行）来自不同子网络的相同图像对。从左到右：第一子网络、第二子网络、第三子网络的结果如果它们符合地面真实极线几何，则我们将对应性绘制为黄色。该模型这是因为我们的T结构不仅依赖于最后的子网络结果，而且还从每个子网络中捕获有价值的信息。为了进一步说明我们的网络，我们展示了一个示例，以可视化每个子网络中的输出和图中网络的最终结果。3.第三章。对于第一行，我们可视化了每个子网络中的前15个响应和最终输出。我们可以看到，每个子网络的焦点是不同的，但我们的T网络将结合每个子网络的焦点。与其他子网相比，T-Net具有更广泛的兴趣点。对于最下面的一行，我们可视化权重大于0的匹配。9 .第九条。在收集所有特征后，与其他子网络相比，T-Net将为内点分配更高的权重。3.3. PCSE模块SE模块是许多神经网络架构的关键基本模块[11，27，10]。标准SE模块涉及具有11或33内核的三个卷积层以及挤压和激励块。特别地，用于提取局部信息的3- 3卷积层是SE模块的关键卷积层然而，3 - 3卷积核将以点云的形式混合稀疏且无序的假定对应。因此，SE模块不适合处理无序对应。为了解决上述问题，我们提出了PCSE模块（即，置换等变模块）来学习稀疏和无序的对应关系。如示于图在图4中，所有卷积层使用11卷积核，因此，该框架将以特定规范顺序学习对应特征。此外，我们在每个上下文之后引入上下文规范化[16]在上下文归一化之后，我们采用批量归一化和ReLU激活函数来处理特征映射。所有过程的公式如下：f_out=δ （ BN （ CN （ f_in ），（9）其中f_in表示卷积层的输出。BN表示批量归一化。δ是ReLU。为了捕获不同通道中的上下文信息，我们在第二个ReLU层之后采用了挤压和激励策略[11]具体地，给定第c个特征图fc，我们首先采用全局平均池化来捕获通道全局上下文信息gc：1Ngcc=fc i，（10）Ni=1其中c是第c层特征图。其次，为了学习不同通道中的上下文信息，我们采用了两个完全连接（FC）层的瓶颈和一个软最大运算符来处理全局上下文并得到gc′。之后，第c个特征图的加权融合为：Vc=gc ′c × FGC。（十一）最后我们获得的输出V的PCSE通过连接所有特征图（即， V=cat （ V1 ， V2 ， V3 ， . . . 、 V（C））。请注意，我们还采用PCSE模块的剩余结构来防止网络降级：fy=fx+FPCSE（fx），（12）其中f x和f y表示输入和输出特征，关于iv el y。FPCSE（·）是PCSE模块。3.4. 网络架构在本小节中，我们详细描述了我们的T-Net。如图1、T-Net由两种结构组成：“−“结构和“|”结构。 “ 的|“结构从每个uc=i=1N i=11955··[1]第一章[二]《中国日报》[1]第一章[二]《中国日报》×公司简介其中lc（，）表示分类项的二进制交叉熵损失。W是预测的权重。特别是，L表示弱监督标签，由几何误差[22]评估，阈值为10−4用于确定有效对应。Ig（·，·）是es-基本矩阵损失Eq和Eq是预测的基本图4. 所提出的PCSE模块架构。矩阵和地面真值基本矩阵。α是平衡二进制交叉熵损失和本质矩阵损失的权重。对于基本基质损失，我们通过以下公式计算：（p′TE（p））le（E，E）=||Ep||2 +的||EP||2+的||Ep′||2、+的||Ep′||2子网络，并通过四个PCSE模块学习特征。对于每个子网络（见图2），堆叠七个PCSE模块PESA模块的详细结构（图4）为C（128，1）-C（128，1）-P（128）-FC（64）-FC（128）-C（128，1），其中C（c，k）表示具有c个输出通道的卷积层，并且卷积核=kk。P（c）和FC（c）分别是全局池化层和全连接层此外，DP OA DUP模块在第3PCSE模块之后。3.4.1DP OA DUP模块DP OA DUP模块[36]可以有效地提取对应关系的局部和全局信息。在T-Net中，我们在每个子网络中使用DP OA DUP模块来帮助提取局部和全局特征。这里，我们简单介绍一下DP OA DUP模块。具体地说，DP OA DUP模块包括三个部分：可微分池化层、有序和感知过滤模块和可微分解池化层.可区分池化层首先由图神经网络[35]提出，它是置换不变的，最初是为GNN设计的。OA-Net++将其推广到捕获对应关系的本地信息。微分池层采用软分配矩阵将对应特征映射到一组聚类中，并采用Softmax函数对聚类进行归一化。对于顺序感知滤波块，其通过直接在空间维度上应用多层感知器（MLP）来Diff-ferentiableUnpooling层首先反转DiffPool层的行为并将簇恢复到原始大小。接下来，它通过与POA UP模块的输入特征的通道乘法来嵌入聚类特征。3.4.2损失函数在[8，22]之后，我们采用混合损失函数来优化T-Net：损失=Ic（W，L）+αle（E（，E），（13）（十四）其中p和p’表示形成对应关系的两个关键点位置。 A[i]指示向量A的第i个元素。4. 实验在本节中，我们评估了T-Net的性能，并将其与室外YFCC 100 M[28]和室内SUN 3D[33]上的最新方法进行了比较，用于相机姿态估计和离群值拒绝任务。此外，我们还测试了不同的本地功能和报告的结果。在下文中：我们首先介绍了数据集和评估指标，然后我们报告的实施细节和实验结果。最后，我们分析了消融研究。4.1. 数据集4.1.1室外场景我们使用雅虎[9]的作者将其分为来自不同旅游景点的72个图像序列。在[36]之后，我们使用4个序列（即，白金汉宫、圣心教堂、国会大厦和圣母院正面）作为未知场景来测试泛化能力，其余68个序列作为训练序列。此外，我们使用[9]来恢复相机姿势并生成地面实况。4.1.2室内场景对于室内数据集，我们在SUN 3D数据集上进行评估[33]，其中包括一系列具有相机姿势的RGB-D视频我们每隔10帧对视频进行子采样以生成图像。此外，我们保留与[36]相同的设置（即，15个场景作为未知场景用于测试，239个场景用于训练）。在这项工作中，我们在相同的设置中重新训练所有模型，并测试已知场景和未知场景。未知序列是上面介绍的测试序列。对于已知场景，我们将训练序列分成三个集合，即，训练集（60%），valida-K=1K=1K=1池FC FCReLU Sigmoid21956表1. YFCC100M和SUN3D数据集上相机姿态估计的性能比较。报告了在5◦和20◦的误差阈值下不具有/具有RANSAC后处理的结果。每个数据集的最佳结果以粗体显示。局部特征数据集YFCC 100M（%）SUN3D（%）匹配器已知场景未知场景已知场景未知场景场景集（20%）和测试集（20%），并选择测试集作为已知场景。4.2. 评估指标我们使用两组不同的评估度量用于两个不同的测试，即，摄像机姿态估计和离群点剔除。对于相机姿态估计，我们采用旋转和平移的平均精度（mAP）来评估预测向量和地面实况之间的角度差。对于离群点拒绝，我们采用三种流行的度量标准，包括精确度（P），召回率（R）和F-测量（F）来验证性能。4.3. 实现细节T-Net在PyTorch中实现我们用32的批量训练我们的网络。在训练过程中，我们采用Adam[1] opti-mizer，学习率为10-3，以最小化损失。此外，参数α在前2k次迭代期间为0，并且在前2k次迭代期间为0。1在其余480k。所有实验都在Linux 3上进行。10个。0与NVIDIA TESLA P100 GPU。4.4. 相机姿态估计相机姿态估计是一项极具挑战性的测试。在室外数据集上测试时，光照变化和遮挡通常会限制匹配器的性能。对于室内数据集，缺乏纹理和大的视点变化是主要的挑战。在这里，我们用五个最先进的基线在室外和室内数据集上测试我们的网络。实验结果表明，T-Net可以克服这些挑战，并实现最佳性能。4.4.1基线我们评估了 T-Net 和六个最先进的基线（即，RANSAC[7] ，Point-Net++[20] ，CNe-Net[16] ，DFE[22]，OA-Net++[36]和ACNe-Net[26]）使用手工制作的特征（即，[14]和学习特征（即，Su- perPoint [5]）。对于Point-Net++，我们将3D欧氏空间替换为4D来搜索邻居。对于CNe-Net[16]和DFE[22]，我们将其原始损失公式替换为我们的混合损失函数。对于OA-Net++，我们采用官方实现。对于ACNe-Net，我们在作者的帮助下在PyTorch版本上实现了它。为了进行公平的比较，我们在相同的设置下训练所有这些模型。4.4.2结果我们在表1中显示了YFCC100M和SUN3D数据集上相机姿态估计的性能比较。我们可以看到，当在SIFT上进行评估时，我们的网络在所有设置下都表现出最先进的基线。T-Net的平均精度（mAP）为52。28%和19.71%的室外和室内未知场景在5μ m的误差阈值没有RANSAC ，这是 13。 33% 和3 。比 OA-Net++ 提高了53%。此外，我们还实现了一个明显的改善增益基线OA-Net ++在室外和室内的未知场景与RANSAC后处理。这些结果证明了我们的T-Net的有效性。有效性的原因之一是使用我们的与迭代网络不同的是，我们收集所有的特征，并尽可能减少子网络的特征损失。图5显示了我们的网络和其他基线的一些典型结果。此外，我们观察到RANSAC后5◦20◦5◦20◦5◦20◦5◦20◦RANSAC-/12.85-/31.22-/17.47-/38.83-/14.93-/38.16-/12.15-/33.01Point-Net++11.87/28.4633.35/51.0117.95/38.8349.32/64.0411.40/21.1931.96/47.039.38/17.0831.16/40.13CNe-Net12.18/30.2534.75/52.1324.25/42.5752.70/66.8912.63/21.8132.46/46.9610.68/17.3632.68/40.66SuperPointDfE18.79/31.7240.53/53.5629.13/43.0058.41/67.5113.35/22.5735.45/47.8412.04/17.4133.62/40.99OA网络++29.52/35.7253.76/57.7535.27/45.4566.81/70.9920.01/24.4345.97/49.7715.62/18.5640.95/42.66ACNe-Net26.72/31.1649.29/56.6832.98/45.3462.68/69.1918.35/21.1243.97/48.7613.82/18.0537.73/41.78T-Net35.73/37.9958.95/59.0140.62/46.3770.62/71.0121.62/24.6647.60/50.1717.18/19.0942.83/43.25RANSAC-/5.81-/16.88-/9.07-/22.92-/4.52-/15.46-/2.84-/11.19Point-Net++10.49/33.7831.17/56.2416.48/46.2542.09/67.5310.58/19.1735.75/44.068.10/15.2930.97/35.83CNe-Net13.81/34.5535.20/57.2723.95/48.0352.44/69.1011.55/20.6036.12/44.339.30/16.4031.32/37.23SIFTDfE19.13/36.4642.03/59.1530.27/51.1659.18/70.8814.05/21.3239.12/44.6712.06/16.2636.17/37.72OA网络++32.57/41.5356.89/63.9138.95/52.5966.85/72.9920.86/22.3148.06/47.1716.18/17.1841.83/39.39ACNe-Net29.17/40.3252.59/62.1133.06/50.8962.91/71.2518.86/22.1246.35/46.9014.12/16.9939.17/39.01T-Net44.49/47.0066.75/68.3052.28/56.0875.85/75.4624.96/23.8152.69/48.4619.71/18.0046.33/40.751957表2.YFCC100M和SUN3D数据集上离群值拒绝的比较结果数据集YFCC 100M（%）SUN3D（%）匹配器已知场景未知场景已知场景未知场景处理可能会损害性能，特别是在SUN3D数据集上，这是一个极具挑战性的数据集。这是因为SUN3D数据集包含大的视点变化、缺乏纹理、以及大量的自相似性，这使得SIFT描述符难以提供有效的信息，导致SIFT生成大量的离群值。通过不同子网络的特征融合和PCSE提取的丰富上下文信息，我们的网络可以保留许多关键内点，但RANSAC主要关注最大的集合，并可能删除一些关键内点。表1的底部可以支持我们的观点。RANSAC可以在评估SUN3D数据集的SuperPoint时提高性能。请注意，我们的网络在极其复杂的场景中得到了最好的结果，包括光照变化，遮挡，缺乏纹理和大的视点变化。在SuperPoint上进行评估时，我们的网络在室外和室内场景中均排名第一，并且在有和没有RANSAC后处理的情况下都超过了所有基线。此外，如表1所报告的，我们观察到，当方法执行得更差时，SuperPoint可以提高性能，但是当方法执行得更好时，SuperPoint降低性能。主要原因是SuperPoint具有更好的描述符，但遭受关键点位置的准确性。较好的描述子在假定的对应集中能提供较高的内点率。然而，当该方法拒绝足够的离群值时，较低的关键点准确度将主要限制最终性能，因此，SuperPoint性能较差。4.5. 异常画面排除离群点剔除是两视图匹配中的关键步骤。在测试中，我们进一步评估了T-Net的离群拒绝性能。我们使用SIFT局部特征测试室外和室内数据集，并设置比较方法- 与相机姿态估计任务相同。如表2所示，我们的T-Net在所有评估指标中获得了最佳结果（即，精确度、召回率和F度量）。基于学习的方法明显优于经典的方法。图 5. 两个具有挑战性的数据集的可视化结果，即，YFCC100M、SUN3D。从左至右：白金汉宫、圣母院正面、国会大厦、圣心教堂、Te-mit 1、Te-brown 1、Te-harvard 1和Te-hotel 1。从上到下：原始图像对，以及RANSAC[7]，OA-Net++[36]和我们的网络的结果。如果它们符合地面实况对极几何，则我们用绿色绘制对应关系，否则用红色CAL方法（即，RANSAC），这表明基于学习的方法可以有效地拒绝离群值。另外，如表1和表2中所报告的，相对姿态估计的性能与离群值去除的性能正相关。4.6. 消融研究我们网络的核心是两个关键思想：一种新颖的体系结构（T结构）广泛地收集每个子网络的所有特征并输出权重，并且PCSE模块不仅全局地而且信道地捕获上下文信息以提高性能。考试-P（%）R（%）F（%）P（%）R（%）F（%）P（%）R（%）F（%）P（%）R（%）F（%）RANSAC47.3552.3949.7443.5550.6546.8351.8756.2753.9844.8748.8246.76Point-Net++49.6286.1962.9846.3984.1759.8152.8986.2565.5746.3082.7259.37CNe-Net54.4386.8866.9352.8485.6865.3753.7087.0366.4246.1183.9259.52DfE56.7287.1668.7254.0085.5666.2153.9687.2366.6846.1884.0159.60OA网络++60.0389.3171.8055.7885.9367.6554.3088.5467.3246.1584.3659.66ACNe-Net60.0288.9971.6955.6285.4767.3954.1188.4667.1546.1684.0159.581958××表3. YFCC 100M的烧蚀研究结果是在已知和未知场景下使用加权8点算法在5μ s的误差阈值下的mAP（%）POU：使用D-POA UDP模块.Iter：使用迭代网络。SE：使用SE模块。SE-P：使用SE模块的置换等变版本。PCSE：使用PCSE模块。T：T结构网络。PointCNP O UITERSEse-PPCSE不已知未知C21.7930.08CC31.9936.95CCC36.1640.88CCC25.5532.68CCC31.0036.85CCC40.4347.73CCC44.4952.28考虑到这两种选择的影响，我们用25个构建块来实现每个网络，以确保它们的参数几乎相同，并使用加权8点算法来计算本质矩阵。此外，我们将在YFCC100M上与SIFT检测器的图神经网络进行4.6.1简单网络、迭代和T结构我们考虑三种不同的设置：一个没有迭代或T结构的普通网络，一个具有迭代结构的精化网络，以及一个具有T结构的网络。从实验结果来看，我们发现我们的T-结构可以很好地完成任务。虽然迭代结构的性能比疼痛网络好得多，但它们会丢失前一个子网络中的大量信息表3报告了我们的T结构可以大大提高迭代结构的mAP ，从 47 。 73% 到 52 。 28% 的未知场景没有RANSAC。4.6.2PointCN vs SE模块vs SE-P模块vs PCSE模块我们用PCSE模块代替PointCN，PCSE模块可以提取全局和信道上下文信息。此外，我们还与SE模块进行了比较，SE模块是一种流行的常规数据架构（即，图像数据），以及SE-P模块，用于SE模块的置换等变版本，其简单地将3 × 3卷积核替换为11。从表3中，我们观察到SE模块的性能比SE-P模块差。它表明，置换等变结构是非常重要的无序和稀疏的对应。此外，SE模块和SE-P模块的性能都比PointCN差。这是因为SE模块和SE-P模块不能捕获足够的上下文信息，这对于稀疏对应是至关重要的与SE模块和SE-P模块相比，我们的PCSE模块不表4. 与图神经网络的比较。报告了在室内未知场景（具有/不具有RANSAC处理）上在5◦的误差阈值下的mAP（%）的结果方法5、10、参数GFLOPSRANSAC-/12.07-/19.86--强力胶6.30/16.0911.21/25.9612.02M19.59T-Net14.45/16.3524/08/26/233.73M1.01PCSE模块不仅以置换等变的方式学习特征，而且提取了更多的上下文信息，因此，PCSE模块相对于其他方法获得了更好的改进。4.6.3与图神经网络的我们将我们的T-Net与最先进的图神经网络进行比较，即SuperGlue [24]，用于特征匹配。如第在图2.2中，图神经网络直接从局部特征生成可靠的对应关系。评估度量包括有效性（即，平均精度（mAP））和效率（即，网络参数和浮点运算）。为了进行比较，我们再次在极具挑战性的数据集上进行测试（即，SUN3D），具有512个SuperPoint关键点。为了进行公平的比较，T-Net和SuperGlue都分别使用了之前的测试和官方实现提供的预训练模型结果报告于表4中。我们观察到SuperGlue非常依赖RANSAC进行后处理，当通过加权八点算法直接恢复姿势时，T-Net优于Su-perGlue 8。15%和12。在网络参数和计算代价明显较少的情况下，在5◦和10◦阈值上的识别率为87%5. 结论在这项工作中，我们提出了T-Net，一个新的端到端的可训练模型，用于学习双视图对应和几何。我们的工作主要有两个贡献：（i）T结构架构，其迭代地学习对应特征并基于来自每个子网络的所有特征来预测最终权重。(ii)PCSE模块，其能够不仅从全局而且从信道方面捕获上下文信息。大量的实验表明，T-Net实现了显着的im-profies在摄像机姿态估计和离群拒绝任务的现有方法。确认本工作得到国家自然科学基金项目62072223和福建省自然科学基金项目2020J01131199的资助。1959引用[1] Paszke Adam，Gross Sam，Chintala Soumith，ChananGregorry ， Yang Edward ， D Zachary ， Lin Zeming ，Desmaison Alban，Antiga Luca，and Lerer Adam.pytorch中的自动微分。在NIPS，2017年。[2] Daniel Barath和Jiˇr´ı Matas。图形切割ransac。在CVPR中，第6733-6741页[3] 塞萨尔·卡德纳、卢卡·卡隆、亨利·卡里略、亚西尔·拉蒂夫、大卫·斯卡拉穆扎、何塞·内拉、伊恩·里德和约翰·J·伦纳德。同时定位和绘图的过去、现在和未来：走向强健感知时代。IEEE Transactions on Robotics，32（6）：1309[4] Ondrej Chum，Tomas Werner，and Jiri Matas.不受主导平面影响的双视图几何估计在CVPR，第772-779页[5] Daniel DeTone，Tomasz Malisiewicz，and Andrew Rabi-novich. Superpoint：自监督兴趣点检测和描述。在CVPR，第224-236页[6] Mihai Dusmanu、Ignacio Rocco、Tomas Pajdla、MarcPolle-feys、Josef Sivic、Akihiko Torii和Torsten Sattler。D2-net：一个可训练的cnn，用于联合检测和描述局部特征。在CVPR，2019年。[7] Martin A Fischler和Robert C Bolles。随机样本一致性：模型拟合的范例及其应用于影像分析和自动制图。Comm. ACM，24（6）：381 -395，1981.[8] Richard Hartley和Andrew Zisserman。计算机视觉中的多视几何学。剑桥大学出版社，2003年。[9] Jared Heinly，Johannes L Schonberger，Enrique Dunn，and Jan-Michael Frahm. 6天内重建世界（由雅虎1亿张图片数据集捕获）。在CVPR，第3287-3295页[10] Andrew Howard ， Mark Sandler ， Grace Chu ， Liang-Chieh Chen，Bo Chen，Mingxing Tan，Weijun Wang，Yukun Zhu，Ruoming Pang，Vijay Vasudevan，et al.正在搜索mobilenet v3。在ICCV，第1314-1324页[11] 杰虎，李申，孙刚。挤压-激发网络。在CVPR中，第7132-7141页[12] Yuhe Jin ，Dmytro Mishkin ，Anastasia Mishchuk，JiriMatas，Pascal Fua，Kwang Moo Yi，and Eduard Trulls.跨宽基线的图像匹配：从纸到实践。arXiv预印本arXiv：2003.01587，2020。[13] 李翔、王文海、胡小林、杨剑。选择性内核网络。在CVPR中，第510-519页[14] 大卫·G·洛从尺度不变关键点中提取独特的图像特征。International Journal of Computer Vision，60（2）：91[15] Jiayi Ma，Xingyu Jiang，Aoxiang Fan，Junjun Jiang，and Junchi Yan.从手工制作到深层特征的图像匹配：一个调查。International Journal of Computer Vision，129（1）：23[16] Kwang Moo Yi ， Eduard Trulls ， Yuki Ono ， VincentLepetit，Mathieu Salzmann，and Pascal Fua.学会寻找好的对应关系。在CVPR中，第2666-2674页[17] Raul Mur-Artal，Jose Maria Martinez Montiel，and JuanD Tardos. Orb-SLAM：一种多功能且精确的单目SLAM系统IEEE Transactions on Robotics，31（5）：1147[18] Hyeonwoo Noh 、 Andre Araujo 、 Jack Sim 、 TobiasWeyand和Bohyung

下载后可阅读完整内容，剩余1页未读，立即下载