基于种子图匹配网络的特征匹配学习

26 浏览量更新于2023-10-15 收藏 1.6MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6301OOO基于种子图匹配网络的特征匹配学习陈宏凯1罗梓鑫1张家辉2周磊1白旭阳1胡泽宇1台捷兰1龙泉11香港科技大学2清华大学{hchencf，zluoag，lzhouai，xbaiad，zhuam，taicl，quan}@jiahui-z15@mails.tsinghua.edu.cn cse.ust.hk摘要图像间的局部特征匹配是计算机视觉中的一个基本问题以高精度和高效率为目标，提出了种子图匹配网络（Seeded Graph Matching Network），这是一种具有稀疏结构的图神经网络，用于减少冗余连接和学习紧凑表示。该网络由1）播种模块组成，该播种模块通过生成一小组可靠的匹配作为种子来初始化匹配。2)种子图神经网络，它利用种子匹配在图像内/图像间传递消息提出了三种新颖的操作作为消息传递的基本元素：1)Attentional Pooling，它将图像中的关键点特征聚合到种子匹配中。2)种子过滤，增强种子功能并在图像间交换消息3）注意力解池，其将种子特征传播回原始关键点。实验结果表明，与典型的基于注意力的网络相比，该方法显著降低了计算和存储复杂度，同时具有竞争力或更高的性能。1. 介绍在图像之间建立可靠的对应关系是在许多计算机视觉任务中恢复相对相机姿态和场景结构的重要步骤，例如运动恢复结构（SfM）[37]、多视图立体（MVS）[17]和同时定位和映射（SLAM）[31]。在经典的流水线中，通过局部特征描述符的最近邻搜索（NN）获得对应关系，并且通常通过启发式技巧进一步修剪，例如相互最近邻检查（MNN）和比率测试（RT）[24]。在过去的几年里，人们在设计可学习的匹配策略方面做了大量的工作。在这个方向上的早期作品[60，43，62]利用PointNet [32]类网络来拒绝假定对应的离群值。在这些工作中，对应坐标被馈送到置换等变网络中，然后为每个对应预测内点似然得分。尽管显示出令人兴奋的结果，但这些方法在两个方面受到限制：（1）他们自我关注2交叉注意2注意力集中×种子过滤2注意力分散×(a) SuperGlue（b）SGMNet图1.消息传递层的设计。(a)SuperGlue密集连接图中的每个节点，导致（N2 ）计算复杂度。(b)相反，所提出的网络SGMNet采用池化/解池化操作，将复杂度降低到O（NK），其中KN。操作预匹配的对应关系，而找到比香草最近邻匹配更多的匹配是不可能的。2)它们只考虑了假定对应的几何分布，而忽略了原始局部视觉描述符的关键信息。方法的另一线程将特征匹配转换为图匹配问题[35，5，49]，这减轻了香草最近邻对应的限制。代表性工作SuperGlue [35]在图像关键点之间构建密集连接的图形，以交换关于视觉和几何背景的消息。然而，优异的性能伴随着高计算和存储器成本，特别是当应用于较大数量的关键点（例如，高达10K）。如图所示。1（a），SuperGlue的消息传递层首先详尽地计算每两个节点之间的相似度得分，然后在图中密集地收集特征以传递消息。这导致矩阵乘法的计算复杂度为（N2C），并且假设关键点数量为N并且特征通道为C，则存储器消耗为（N2）以保持注意力矩阵。对于更深的图形网络，复杂性甚至急剧增加。鉴于此，探索更高效、更紧凑的消息传递操作具有实际意义。除了主要的效率瓶颈，它是有争议的6302≪OO如果这种密集连接的图引入了太多的冗余或不重要的消息交换，这可能妨碍表示能力，特别是在特征匹配的上下文中，其中匹配集是高度离群污染的并且大部分关键点是不可重复的。因此，SuperGlue [35]中的大多数图边倾向于具有零强度，正如其原始论文中所报告的那样，也在我们的实验中观察到这种现象表明，即使是稀疏的图在很大程度上也是足够的，并且较少从不必要的消息交换中分心。在本文中，我们提出了种子图匹配网络（SGMNet），以减轻上述限制从两个方面。首先，受引导匹配方法[10，42，29]的启发，我们设计了一个播种模块，该模块从一小组可靠的匹配中初始化匹配，以便更有效地识别内点兼容性。其次，我们从图池操作[61，55]中获得灵感，构建了一个种子图神经网络，其图结构在很大程度上是稀疏的，以降低计算量并减少冗余。具体来说，三个操作提出了构建我们的消息传递块。如图所示。在图1（b）中，代替密集地关注图像内/跨图像的所有特征，原始关键点特征首先通过1）通过种子节点的小集合的注意力池化来池化，其中特征将通过2）种子过滤来进一步增强，并且最后通过3）注意力解池化来恢复回到原始关键点。通过使用种子作为图像之间的注意力瓶颈，注意力的计算复杂度从（N2C）降低到（NKC），其中K是种子的数量。当K N时，例如，将8k个特征汇集成512个种子，实际计算将显著减少。砍掉。我们在不同的任务下评估SGMNet，以证明其效率和有效性，并将我们的贡献总结为三点：• 在图匹配框架中引入种子机制，以有效地识别内点兼容性。• 设计了一个大大稀疏化的图神经网络，使消息传递更有效，更干净。• 竞争力或更高的准确性，报告与显着提高效率超过密集的注意力GNN。例如，当匹配10k个特征时，SGMNet的运行速度比SuperGlue快7倍，消耗的GPU内存比SuperGlue少50%2. 相关作品可学习的图像匹配。将深度学习技术集成到基于几何的计算机视觉任务中，例如MVS [57，58，63，64]和视觉定位[66，45]，在过去几年中取得了令人鼓舞的成功。作为用于几何估计的前端组件，可学习图像匹配也已被证明是有效的，其中这方面的工作大致可分为两类。第一种方法专注于使用卷积神经网络改进局部描述符[59，40，26，25，30，48]和关键点[52，12，27，34，11]，而第二类方法试图将学习技术嵌入匹配策略中，其中涉及可学习的离群值拒绝[60，43，62]和鲁棒估计器[4].最近，提出了一种新的框架SuperGlue [35]，将特征匹配和离群点拒绝集成到单个图神经网络（GNN）中。尽管SuperGlue在不同的任务中表现出有希望的结果，但它仍然受到完全连接的自我/交叉注意操作的过度计算成本的影响，特别是当用于匹配大量特征时。与SuperGlue相比，我们的方法具有相同的优点，即特征匹配和细化集成到一个单一的网络中，并允许端到端的训练。然而，我们的网络显着降低了计算和内存成本，由于其有效的atten- tion块，这是专门为图像匹配设计的高效的Transformer架构。 Transformer [51]体系结构在过去几年中获得了广泛的关注。特别地，在图卷积的上下文中，Transformer中的注意力机制可以用于在图结构中的节点之间传递消息[13，53]。尽管它在广泛的任务中是有效的，但关于Transformer的一个主要输入的大小，这阻碍了它在大查询/关键字元素数量下的应用近来，已经做出了许多努力来解决注意力效率问题。在[23，7]中，采用预定义的稀疏注意模式来降低存储器/计算成本。在[46，18]中，通过对输入元素使用可学习的分区或分组来修剪注意广度。在[54，20]中，使用池化操作来减少元素数量。尽管取得了令人鼓舞的进展，在这一领域的工作一般集中在自我注意，其中的关键字和查询是来自同一个元素集，而其有效性的交叉注意，其中的关键字和查询来自两个未对齐的集，仍然没有研究。我们从诱导集合注意力（ISA）[20]中获得灵感，其中一组学习但固定的节点被用作有效自我注意力的瓶颈。为了与图匹配中的交叉注意相兼容，我们在种子匹配和原始点集之间建立了注意。所选择的可靠对应关系将两侧的特征对齐，并以低成本的方式传递消息。图形匹配。图匹配旨在生成跨图的节点对应关系，是用于2D [49，5]和3D [21，2]域中的特征匹配的广泛使用的模型。在数学上被表述为二次分配问题（QAP）[50]，图匹配在其最一般的形式中是NP困难的，并且需要不可行的昂贵的6303我联系我们我我我我我我做种模块种子GNN1座2~6座m × d注意力池化注意力解卷m × c× d× 2d× d...播种+种子过滤n × d注意力池化注意力解卷n × c6B0字节6？0？图2.SGMNet的网络结构以局部特征为输入，从种子模块生成种子匹配，最后从多个注意块的种子GNN在实践中，更新的特征将被馈送到重新播种模块和3层种子GNN中进行细化，而为了简单起见，我们在这里省略了这个过程求解器，用于精确求解。尽管一般图匹配的棘手性质，一些方法[14，15，28]利用部分预匹配的对应关系（也称为种子）来帮助匹配，这被称为种子图匹配（SGM）。受SGM的启发，我们的网络将种子集成到GNN框架中，以实现紧凑的消息传递和强大的匹配。3. 方法我们提出了种子图匹配网络，简称SGMNet，用于学习两组关键点及其相关视觉描述符之间的对应关系如图2所示。2、我们的网络在两个阶段产生匹配：1）种子模块生成种子以引导紧凑的消息传递，以及2）种子图神经网络利用种子作为消息瓶颈来更新每个节点的特征。在下面的部分中，我们将首先介绍我们的网络架构的概述，然后详细描述每个模块。3.1. 概述给定一对图像A和B，分别具有η和m个关键点和相关联的视觉描述符，由α：= 1，…n，β：= 1，…m，我们的目标是建立跨两个图像的可靠且鲁棒的关键点匹配。我们将关键点匹配任务制定为图匹配问题，其中节点是每个图像的关键点。代替应用完全连接的图，我们生成一组关键点对应关系，我们将其称为种子匹配，以引导消息在两个图中的节点之间传递以进行后续匹配。这一关键差异允许使用显著降低存储器和计算成本。我们的网络的输入是中的关键点KA、KB。di∈Rd是d维视觉描述子。关键点的位置被嵌入到高维特征空间中，并且通过针对初始表示的逐元素求和与描述符组合。0FB。0Fi=di+MLP（pi），I∈ {A，B}，（1）接着是播种模块以构造种子匹配S的集合。然后，将0FA、0FB和S馈送到我们的种子图神经网络中，该种子图神经网络对视觉外观相似性、邻域一致性以及由种子匹配联合提供的指导进行推理以更新关键点特征。受OANet [62]中的级联细化结构的启发，引入了第二个种子模块或重新播种模块，以基于更新的特征生成更准确的种子，这有助于进一步细化与另一个种子GNN的匹配。最后的匹配，然后gener- ated通过制定分配矩阵。3.2. 做种模块提出一组种子匹配为后续匹配奠定了基础。对于初始播种，我们采用简单而有效的策略：我们通过最近邻匹配生成推定匹配，并使用距离比的倒数，即，与第一和第二最近邻的距离之比[24]，作为可靠性分数。我们采用非最大值抑制（NMS）以获得更好的种子空间播种模块的更多详细信息可参见附录A.2。尽管初始种子中存在潜在的噪声，但我们的网络通过提出的加权非池化操作和重新播种策略保持了鲁棒性，这将在后面讨论两个图像，Ki=（pi，di），其中I∈ {A，B}且播种模块输出S=（SA，SB），其中SA，SB=（SA，SB）。pi=（xi，yi）是图像I中的关键点i的坐标。SB是每个图像中的种子匹配的索引列表我我我6304我一5t21t t一BB一I IJB3.3. 种子图神经网络（Seeded GNN）种子GNN采用初始位置嵌入特征OFA、OFB，并利用种子匹配S作为消息传递的注意力瓶颈为此，在每个处理单元中采用池化-处理-解池化策略：种子特征首先通过注意池化从每一侧的全点集中收集信息，然后通过种子过滤操作进行处理，最后通过注意解池化恢复到原始大小。我们的种子GNN是通过堆叠6（3）个这样的处理单元来构建的，用于初始（细化）阶段。加权注意力聚合。我们首先介绍了一个加权版本的注意力聚合，它允许更清晰，更干净的数据依赖的消息传递。在d维特征空间中，对于向上的m个向量图3.注意力集中/分散的可视化。在注意力池化中，一对种子匹配聚合来自其他关键点的上下文，而在注意力解池化中，每个原始关键点从种子匹配检索更新的消息。日期：X∈Rm×d，n个待处理向量：Y∈ Rn×dn输出tS3，tS3，其编码视觉和以及权重向量：w∈R，加权注意力ag-AB将分离Δt定义为，Xr=Att（X，Y，w）=X + MLP（X||∆），（2）哪里∆ =θ（QKT）WV，W=Diag（w），W∈Rn×n（3）θ（·）表示反向softmax。Q是X的线性投影每个图的位置上下文和来自种子匹配本身的信息被馈送到后续操作中。种子过滤。我们提出了种子过滤操作(1)在种子匹配之间进行图内/图间通信，以及（2）抑制离群种子匹配的影响。更具体地，图内/图间注意力聚集被应用于输入种子对应fea。tS3∈Rk×d，I∈ {A，B}.t4t3T 3K、V是Y的线性投影。Xr是X的新表示。通过注意力聚合，X中的元素从Y中的元素检索和聚合信息。在V上应用加权向量w以调整Y中的每个元素的重要性。注意力集中。作为消息传递的第一步，种子匹配从完整的关键点集中S1=Att（S1，S1，1），（7）tS5=Att（tS4，tS4，1），I，J∈ {A，B}，I=J，（8）此外，上下文归一化[60]分支用于预测每个种子对应的内点似然得分γ，其将在稍后的解池化阶段中用作种子特征的加权得分。通过注意力聚集，对于图层t中的输入要素tFA、tFB，种子要素tγ= CN（tS5||不SB），（9）匹配首先通过索引（SA，SB）检索其中CN是轻量级堆叠上下文规范化[60]块。CN分支的详细结构可以是1SI= tFI[SI]，I∈ {A，B}，⑷见附录A.2。种子滤波的输出是经滤波的特征其中[ ]是索引操作。然后通过从每个图，tS5一和种子匹配的内点得分γ∈[0，1]kSI=Att（SI，FI，1），I∈ {A，B}，（5）其中，1是全部一个向量，这意味着不应用权重。然后由多层感知器融合种子特征，注意力分散。在种子匹配和内点得分预测之间的消息交换之后，采用内点得分加权的注意力聚合来将池化的上下文广泛投射到每个图中的每个关键点，这被称为注意力解池。服用tS5 ，tS5，内点得分γ和tF ，tF作为输入，不3t3不2t2注意力池注意力分散不6305注意力分离输出更新的关键点特征t +1 FA，t +1 FB。[SA||SB] =MLP（SA||（6）哪里||表示沿行维度的串联。t+1FI =Att（tFI，5Sl， γ），I∈{A，B}（10）不不6306ΣΣ∈∈.E∈R联系我们{}∈ ×将内点得分应用于聚合过程抑制了来自错误种子匹配的信息广播，并导致更干净的特征更新，这有助于鲁棒的哪里L赋值=−Σ[Σlog（Mi，j）+我们的网络w.r.t.播种噪声（附录D.2，附录图10）。M∈{Mr，Mf}（i，j）∈lmlog（Mi，m+1）+log（Mn+1，j）]分配矩阵公式。在所有处理单元之后，更新的特征用于构造分配矩阵。Sinkhorn [8]算法应用于相应的i∈luAj∈luB（十四）与垃圾箱通道的特征的配准矩阵产生不重量是内点/外点二进制类交叉熵损失最终分配矩阵M。给定N个处理块之后的关键点特征NFARn×d、NFBRm×d，我们通过下式计算分配矩阵：M=Sinkhorn（C）（11）在第t个处理单元中，如果种子对应的核线距离小于阈值，则将其标记为内点δ是平衡两个损失项的权重。3.6.实现细节我们在GL 3D数据集[38]上训练我们的网络，该数据集覆盖室内/室外场景，以获得通用的Ci，j=Ci，j，forin，jm，C（n+1）×（m+1）z，否则（十二）模型我们在训练过程中采样了1k个关键点和128个种子我们使用Adam优化器，学习率为10- 4在优化和内点评分中，损失中的权重δ被设置为250. 我们使用6/3处理块用于初始/细化阶段其中，C=NFANFBT，z是垃圾箱的可学习参数。我们从分配矩阵M中获得最终匹配，其中置信度阈值用于去除离群值。并且在早期迭代（140k次迭代）中阻塞两级之间的梯度流。我们在注意力集中/非集中操作中使用4-headatten- tion。对于所有实验，我们使用0.2的置信度阈值来保留128#关键点的匹配和播种数量，其中3.4. 补播#关键点2000是关键点的数量更多详情-虽然基于初始播种的播种GNN表现出很强的识别底层匹配的能力，但使用更新特征的第二播种模块提供了更干净和更丰富的种子，以进一步提高性能。因此，我们采用了补种模块。与使用NN匹配和原始描述符的比率得分的初始种子化不同，重新播种模块采用更新特征的分配矩阵M来重新生成种子。更具体地，选择在行和列两者中具有最高分数的匹配作为候选，其中前k个匹配被选择作为新种子并且被馈送到第二种子GNN中用于细化。更多详情见附录A.2。3.5. 损失播种模块仅输出不需要梯度反向传播的种子索引，因此我们的网络是完全可区分的，并且可以在来自地面实况匹配Im=（i，j）α β和不可匹配点IuA、IuB的索引的监督下进行端到端训练，其中如果在另一图像中不存在可匹配点，则点被视为不可匹配根据用于重新播种的分配矩阵Mr、最终分配矩阵Mf和内点得分tγ、t1、2、…对于L个处理单元，我们将损失表示为两部分，包括训练数据生成和超参数，可以在附录A中找到。4. 实验在接下来的会议中，我们提供了我们的方法在广泛的任务下的实验结果，以及其计算和内存效率的进一步分析。4.1.图像匹配数据集。我们的方法的性能首先在图像匹配任务上进行评估，并使用两视图姿态估计中的三个基准YFCC100 M [47]、FM-Bench [3]和ScanNet [9]数据集进行演示。对于YFCC100M [47]，我们遵循OANet [62]中的设置并选择4个序列进行测试。FM-Bench [3]包括不同场景中的四个子集：KITTI [16]用于驾驶设置，TUM [41]用于室内SLAM设置，Tanks and Temples（T& T）[19]和CPC [56]用于宽基线重建任务。Scan- Net [9]是一种广泛使用的室内重建数据集。根据SuperGlue [35]，我们在测试集中使用1500对进行评估。评估方案。在YFCC100M和ScanNet数据集上，对相应LL6307的L=L分配+δΣ t ∈{1，2，…L}试验重量（十三）在RANSAC后处理之后的事件。我们报告1）在不同阈值下的AUC[35，62，60]，计算自6308表1. FM-Bench [3]上的评估结果，其中%召回率表示所有对的平均召回率，#Corrs（-m）表示RANSAC之后/之前的内点对应的平均数量。SuperGlue*表示从正式发布的模型获得的结果。旋转和平移的地面真实向量与估计向量之间的角度差;2）平均匹配得分（M.S. ）[35，11]，正确匹配和总关键点数量的比率; 3）平均精密度（Prec. ）[35，11]的匹配。我们为YFCC100M上的所有特征检测多达2k个关键点，为ScanNet上的超点检测多达1k个关键点，为其他特征检测多达2k个关键点。在FM-Bench数据集上，我们使用RANSAC后处理估计每个评估对的基本矩阵，并使用FM-Bench论文中最初定义的归一化对称对极距离（SGD）[65，3]来测量估计的基本矩阵与地面真实值之间的差异。如果估计的归一化SGD与地面实况的比值低于阈值（0. 05默认使用），并且对于每个测试对检测多达4K个关键点根据FM-Bench文件[3]，我们报告：1）基本矩阵估计的召回率（%召回率）;2 ）在 RANSAC 之后 / 之前的正确对应的平均数（#Corrs（-m））。比较方法。我们将我们的方法与启发式修剪策略，比率测试[24]或MNN以及各种基于学习的匹配方法[62，35，44，10，60，39]进行了比较。这些方法应用于手工制作的描述器[24，1]和基于学习的局部特征[25，11]。为了公平比较，OANet，SuperGlue和SGMNet都使用相同的GL3D序列进行重新训练[38]，其中每个图像采样1k个关键点。注意到SuperGlue的官方训练代码不可用，其公共模型（表示为SuperGlue*）在MegaDepth [22]和牛津和巴黎数据集[33]上训练。相反，我们使用原始论文中描述的类似数据选择标准在GL3D [38]上重新训练SuperGlue。这种重新实现在YFCC100M（表3）上实现了比原始论文中报告的RootSIFT更好的结果然而，在使用SuperPoint [11]时仍然存在一些性能差距，即使我们已经仔细调整了训练并询问了作者有关细节。尽管如此，我们认为我们的重新实施AUC表2. YFCC100M [ 47 ]上的结果，其中AUC评估姿态准确度，M.S. 表示平均匹配分数，并且表示平均匹配精度。SuperGlue*表示从原始论文或正式发布的模型获得的结果。特征匹配器AUCM.S.预处理@5°@10°@20°NN + RT [24]9.0819.7532.662.2828.83RootSIFTAdaLAM [6]OANet [62]8.2410.7118.5723.1031.0137.423.103.2047.5936.93强力胶13.1227.9943.928.5042.53SGMNet12.8227.9244.558.7945.55NN + RT11.0723.5237.665.2928.71ContextDescAdaLAMOANet8.4511.9519.8124.4933.1140.566.585.1244.0840.43强力胶15.7031.6748.2210.7542.83SGMNet15.4631.5548.649.9948.14MNN9.4421.5736.4113.2730.17AdaLAM6.7215.8227.3713.1944.22SuperPointOANet10.0425.0938.0110.5644.61强力胶13.9529.4846.0715.8244.18超级胶水*16.1933.8251.8618.5047.32SGMNet15.4032.0648.3216.9748.01表3.扫描网上的结果[9]。SuperGlue*表示从正式发布的模型获得的结果。[35]这是一个忠实的信徒，可以与之比较。我们报告的结果都官方模型和我们的重新-特征匹配器中共T TTUMKITTI%召回率校正次数（-m）%召回率校正次数（-m）%召回率校正次数（-m）%召回率校正次数（-m）NN+RT52.9九十二（一百二十三）82.1208（287）61.9三六五（四三八）90.6八四七（九二八）RootSIFT[1]OANet [62]超级胶水[35]58.661.1一百一十九（一百六十七）218（466）84.786.8219（306）三八二（七六七）62.365.9454（396）六五五（一〇三七）89.091.0七七三（八五四）一二六一（一七四六）SGMNet62.0248（524）85.9397（789）66.6704（1132）91.21097（1506）NN+RT62.4169（277）85.5222（426）58.7四五六（六二五）90.6一一三四（一四一六）ContextDesc[25]OANet65.367.0187260（579）86.789.1二九四四九一（六九五）53.260.1二九五408（690）89.091.1七九一一四零一（一八九七）特征匹配器M.S.预处理@5°@10°@20°NN + RT [24]49.0758.7668.588.2329.79RootSIFTAdaLAM（4k）[6]OANet [62]57.7858.0068.0167.8077.3877.467.925.8483.1581.80SuperGlue* [35]59.2570.3880.44--强力胶63.8273.3382.2616.5981.08SGMNet62.7272.5281.4817.0886.08NN + RT57.9068.4778.359.3959.72ContextDescAdaLAM（4k）[6]OANet60.7562.2870.9172.5680.2381.809.129.3385.4588.49强力胶65.9875.1783.6420.3882.95SGMNet66.6376.2184.3320.5787.34MNN31.0540.8552.6415.1224.64AdaLAM（2k）[6]40.2049.0359.1110.1772.57SuperPointOANet48.8059.0670.0212.4871.95超级胶水*67.1076.1884.3721.5888.64强力胶60.3770.5180.0019.4778.74SGMNet61.2271.0280.4522.3685.44中国[60]47.9858.1368.67--SIFTACNe [44]LGLFM [10]-49.60-60.3678.0071.37-----[39]第三十九话64.8873.3181.56--6309acc@2，0.25mSIFT + MNN + RT SIFT + SuperGlue SIFT + SGMNet图4.通信可视化。我们展示了SIFT特征，并比较了传统匹配（MNN+RT），SuperGlue和我们的方法（SGMNet）的结果。附录中提供了更多可视化实施.结果对于YFCC 100 M，ScanNet和FM-Bench的两个宽基线数据集（CPC和T T），我们的方法大多表现出竞争力的结果相比，国家的艺术。对于FM-Bench中的两个小基线数据集（TUM和KITTI），由于匹配难度降低，所有可学习方法的优势趋于退化。我们的方法匹配几乎所有关于MS的数据集上的大多数内点对应。在YFCC 100 M/ScanNet上进行匹配，在FM-Bench上进行校正（- m），同时保持高匹配精度，这有助于最终的位姿精度。虽然我们的方法没有在室内场景中专门训练，在室内设置上通用性很好。4.2. 视觉定位表4.亚琛昼夜数据集的评估结果。我们-在不同阈值下的端口姿态精度，用于挑战夜间溢出。我们包括官方发布的Super-Glue with SuperPoint模型的结果（表示为SuperGlue*）。54.5SuperGlue，带4.392500075SuperGlue（试验）70为了评估我们的方法如何使真正的下游应用程序受益，我们将其集成到视觉定位管道中并评估其性能。数据集。我们求助于亚琛昼夜数据集[36]来评估我们的方法对视觉定位的有效性43.532.521.510.50辛克霍恩SGMNet不带SinkhornSuperGlue，带SinkhornSGMNet，带Sinkhorn3.181.580.4720000150001000050000SGMNet（测试）65SuperGlue（train）60SGMNet（train）5550456785四十个49362565三十五个3025任务。亚琛昼夜包括4328参考im-1k2k3k4k5k6k7k8K 9K10k#功能1k2k3k4k5k6k7k8k9k 10k#功能2k 4k 6k 8k#功能年龄和922个（824个白天，98个夜间）查询图像。所有照片都是在城市场景中拍摄的。评估方案。我们使用亚琛昼夜基准的官方管道。参考图像之间的对应关系首先用于对3D重建进行三角测量。然后生成每个查询与其检索的参考图像之间的对应关系以恢复相对姿态。与官方基准一致，我们报告了不同阈值下的姿态估计精度。我们为RootSIFT，ContextDesc提取了8k关键点，为SuperPoint提取了4k结果与SuperGlue相比，我们的方法在使用RootSIFT和竞争性重定向时表现出更好的结果(a)(b)（c）第（1）款图5.计算（ a ）和存储器（ b ）效率将所提出的方法与SuperGlue进行比较。我们报告的内存占用平均批量大小的培训。关键点数量对亚琛昼夜数据集的影响在（c）中示出。使用SuperPoint或ContextDesc时的结果。我们的方法始终优于OANet使用所有三个描述符。整体性能证明了我们的方法在真正具有挑战性的应用程序的泛化能力4.3. 扩展性在上述实验中，所提出的方法已经显示出对国家的最先进的竞争结果。在这场比赛中-SuperGlueSGMNet室内我们的门时间（s）内存（M）特征匹配器0.25m，2°0.5m，5°5米，10°RootSIFT[1]MNNOANet[62]超级胶水[35]SGMNet43.9 56.1 65.369.4 83.7 94.963.3 80.698.070.4 85.7 98.0ContextDesc[25]MNNOANetSuperGlueSGMNet65.3 80.6 90.874.5 86.799.077.686.799.075.587.8 99.0超级点[11]MNNOANetSuperGlue*SuperGlueSGMNet71.4 78.6 87.877.6 86.7 98.079.6 90.8 10076.5 88.8 99.077.6 88.8 99.06310表5.消融研究结果。w/o A. P.代表w/o attentional pooling，其中种子特征被直接发送到种子过滤过程，而不涉及原始关键点。不含W.U. 代表w/o加权解池，其中vanilla注意力在解池过程中预先形成。随机的种子意味着随机选择种子对应关系，而不是挑选前k个分数。w/o重新播种意味着仅使用初始播种。通过与基于GNN的SuperGlue方法的比较，我们证明了我们的方法在时间/内存效率方面的主要优势。时间/内存消耗。如图如图5（a）所示，我们的方法的时间成本显著低于Su-perGlue。具体来说，我们报告了在GTX 1080 GPU上使用和不使用Sinkhorn迭代的运行时间，以便更精确地展示GNN设计本身的实质性改进。值得注意的是，在10k个关键点上并且在没有Sinkhorn迭代的情况下，所提出的方法将运行时间减少了一个数量级。此外，由于减少了冗余，SGMNet在训练过程中也提供了更好的收敛性（见附录C）。如图如图5（b）所示，在测试阶段，当关键点数量大于2k时，我们的方法比SuperGlue消耗一半的内存，其中我们的方法的主要内存峰值是播种阶段和sinkhorn迭代。这种优势在训练中变得更加明显。批量大小为16，关键点数量为1k，Super- Glue占用高达23 GB的GPU内存进行训练，而SGMNet只占用不到9 GB的内存。使用更多关键点时的性能增益。在合理的范围内，较大的关键点数目通常可以提高下游任务的性能，因此可管理的匹配代价对于扩展算法的适用性具有实际意义.作为展示，我们在亚琛昼夜数据集上进行评估时改变了RootSIFT的关键点编号。根据图如图5（c）所示，SGMNet和SuperGlue的准确度随着使用更多关键点而增加。考虑到我们的方法的效率优势，SGMNet在增加关键点数量时提供了更好的权衡。我们还在附录D.3中提供了一个典型的关键点消耗应用程序SfM的实验。5. 讨论5.1. 消融研究为了评估我们的方法的不同组成部分的有效性，我们对YFCC100M进行了消融研究表6.使用4k SIFT特征的YFCC100M结果。-10表示将sinkhorn迭代次数设置为10而不是100使用RootSIFT的数据集。如表5所示，我们的网络中的所有不同组件都对最终性能有显著贡献。特别地，种子可靠匹配起着重要的作用，这进一步证明种子匹配能够跨图像引导消息以进行鲁棒匹配。5.2. 与基于滤波器的方法的为了进行全面比较，我们在表6中提供了使用基于滤波器的方法（离群值拒绝）的更多实验结果。当使用4k关键点时，SGMNet在所有比较方法中实现了最佳性能，同时在将sinkhorn迭代次数设置为10时，运行速度比SuperGlue快4倍。尽管基于SOTA滤波器的方法推理速度快，但与基于GNN的方法相比，仍然存在相当大的性能差距。5.3. SGMNet的设计我们对 SGMNet 的其他设计进行了实验，包括GNN/Transformer架构中的其他种子策略和池化操作[51，54，61]，例如diff-池[62，61]和设置Transformer [20]。我们发现1）可学习的种子化比我们简单的启发式种子化策略实现了有限的改进2）其他一般的池化操作，这些操作通常在GNN/Transformer架构中的自注意力上得到验证，不是我们基于种子的池化的有效替代品。我们的实验详情见附录B。接种数量的超参数研究见附录D。6. 结论在本文中，我们提出了SGMNet，一种新的图形神经网络的高效图像匹配。我们开发的新操作使消息传递具有紧凑的注意模式。不同的任务和数据集上的实验证明，我们的方法提高了特征匹配和下游任务的准确性，以竞争力或更高的水平对国家的最先进的适度的计算/内存成本。谢谢。本研究获香港研资局 GRF 16206819 、16203518、T22-603/15 N及广州奥凯信息技术有限公司与项目GZETDZ18EG05.匹配器AUC@20°M.S.预处理NN + RT68.5810.0556.38SGMNet w Rand. 种子71.2512.9455.57SGMNet不带W.U.78.6417.0781.26SGMNet，不含A.P.79.3517.1182.15SGMNet，不带重新播种80.4117.1284.47类型匹配器AUC时间（ms）@5°@10°@20°SGMNet-1066.6276.3384.71114.81GNNSGMNetSuperGlue-1067.4265.8576.6375.3584.6684.05284.66458.52强力胶66.6575.4184.12604.11滤波器OANet63.7573.6082.4321.30痤疮63.3773.6782.7418.26手工制作AdaLAM57.7868.0177.384.59GMs26.1533.5342.135.446311引用[1] Relja Arandjelovic和Andrew Zisserman每个人都应该知道的三件事CVPR，2012。六、七[2] Xuyang Bai，Zixin Luo，Lei Zhou，Hongkai Chen，LeiLi ， ZeyuHu ， HongboFu ， andChiew-LanTai.Pointdsc：使用深度空间一致性的鲁棒点云配准。在CVPR，2021年。二个[3] Jia-Wang Bian，Yu-Huan Wu，Ji Zhao，Yun Liu，LeZhang，Ming-Ming Cheng，and Ian Reid.用于基本矩阵估计的特征匹配器的评价。在BMVC，2019。五、六[4] Eric Brachmann和Carsten Rother。神经引导的ransac：学习在哪里采样模型假设。在ICCV，2019年。2[5] T. S.卡埃塔诺麦考利湖成角，澳-地V.Le和A.杰·斯莫拉。学习图匹配。IEEE Transactions on Pattern Analysisand Machine Intelligence，2009。一、二[6] Luca Cavalli ， Viktor Larsson ， Martin Ralf Oswald ，Torsten Sattler，and Marc Pollefeys.手工离群值检测重新审视。在ECCV，2020年。六个[7] Rewon Child ， Scott Gray ， Alec Radford ， and IlyaSutskever.用稀疏变换器生成长序列。在arXiv，2019年。二个[8] 马可·库图里Sinkhorn距离：最佳运输的光速计算。InNeurIPs，2013. 五个[9] AngelaDai ， Matthi asNießner ， MichaelZollo¨fer ，ShahramIzadi，and Christian Theobalt.Bundl

下载后可阅读完整内容，剩余1页未读，立即下载