没有合适的资源?快使用搜索试试~ 我知道了~
4938SuperGlue:使用图神经网络学习特征匹配Paul-Edouard Sarlin1丹尼尔·德通2托马斯·马利谢维奇2安德鲁·拉比诺维奇21苏黎世联邦理工学院2Magic Leap,Inc.摘要本文介绍了SuperGlue,一种神经网络,它通过联合寻找对应关系并拒绝不匹配的点来匹配两组局部特征。通过求解一个可微最优运输问题来估计分配,其费用由图神经网络预测。我们引入了一个灵活的上下文聚合机制的基础上的注意力,使SuperGlue的推理有关的基础3D场景和功能分配联合。与传统的手工设计的算法相比,我们的技术通过图像对的端到端训练来学 习 3D 世 界 的 几 何 变 换 和 几 何 变 换 的 先 验 知 识SuperGlue优于其他学习方法,并在具有挑战性的真实世界室内和室外环境中的姿态估计任务上取得了最先进的结果所提出的方法在现代GPU上实时执行匹配,并且可以容易地集成到现代SfM或SLAM系统中。代码和 训 练 的 权 重 可 在 www.example.com 公 开 获 得github.com/magicleap/SuperGluePretrainedNetwork。1. 介绍图像中的点之间的对应关系对于在诸如同时局部化和映射(SLAM)和运动恢复结构(SfM)的几何计算机视觉任务中估计3D结构和相机姿态是必不可少的。这种对应性通常通过匹配局部特征来估计,该过程被称为数据关联。大的视点和照明变化、遮挡、模糊和缺乏纹理是使2D到2D数据关联特别具有挑战性的因素。在本文中,我们提出了一种新的思维方式的特征匹配问题。而不是学习更好的任务不可知的本地功能,然后简单的匹配技巧和技巧,我们建议学习匹配过程中预先存在的本地功能使用一种新的神经架构称为SuperGlue。在SLAM的上下文中,通常[7]将问题分解为视觉特征提取前端和光束法平差或姿态估计后端,我们的网络直接位于中间– SuperGlue是一个可学习的中端(见图1)。图1:与SuperGlue匹配的特征。 我们的方法从现成的局部特征建立逐点对应:它充当手工制作或学习的前端和后端之间的中间端。SuperGlue使用图形神经网络和注意力来解决分配优化问题,并优雅地处理部分点的可见性和遮挡,从而产生部分分配。在本文中,学习特征匹配被视为寻找两组局部特征之间的部分分配。通过求解线性分配问题,我们重新审视了经典的基于图的匹配策略,当将线性分配问题放松为最优运输问题时,可以微分地求解线性分配问题。该优化的代价函数由图神经网络(GNN)预测。受Transformer [55]成功的启发,它使用自我(图像内)和交叉(图像间)注意力来利用关键点的空间关系及其视觉外观。该公式化实施预测的分配结构,同时使成本能够学习复杂的pri- ors,优雅地处理遮挡和不可重复的关键点。我们的方法是从图像对进行– 我们从一个大的注释数据集中学习姿势估计的先验知识,使SuperGlue能够推理3D场景和分配。我们的工作可应用于各种需要高质量特征对应的多视图几何问题(见图2)。*在Magic Leap公司完成的工作攻读硕士 作者感谢他的学术导师:塞萨尔·卡迪纳,马尔辛·迪姆奇克,胡安·涅托.检测器描述符深度前端强力胶深中端匹配器后端优化器4939SuperGlueR:2.5°t:1.4°内值:59/68场 景 0743_00/ 帧 -000000sce ne0743_00 / fram e -001275SuperGlueR:2.1°t:0.8°内点:81/85sce ne 0744_00/ fram e -000585sce ne0744_00 / fram e -002310图2:SuperGlue对应关系。对于这两个具有挑战性的室内图像对,使用SuperGlue进行匹配可以获得准确的姿势,而其他学习或手工制作的方法则会失败(对应关系被极线误差着色)。我们展示了SuperGlue与手工制作的匹配器和学习的内点分类器相比的优越性当与SuperPoint [16](一种深度前端)相结合时,Super- Glue推进了室内和室外姿态估计任务的最新技术,并为端到端深度SLAM铺平了道路2. 相关工作局部特征匹配通常通过i)检测兴趣点,ii)计算视觉描述符,iii) 用最近邻(NN)搜索来匹配这些iv) 过滤不正确的匹配,以及最后v)估计几何变换。21世纪初开发的经典管道通常基于SIFT [28],过滤器匹配Lowe用于匹配的深度学习的最新工作通常集中在使用卷积神经网络(CNN)从数据中学习更好的稀疏检测器和局部描述符[16,17,34,42,61]为了提高它们的区分度,一些作品使用区域特征[29]或对数极坐标补丁[18]明确地查看更广泛的背景其他方法通过将匹配分类为内点和离群点来学习过滤匹配[30,41,6,63]。这些操作仍然通过NN搜索估计的匹配集,因此忽略分配结构并丢弃视觉信息。到目前为止,学习执行匹配的作品都集中在密集匹配[43]或3D点云[59]上,并且仍然表现出相同的局限性。相比之下,我们的可学习中端同时执行上下文聚合、匹配和过滤。在一个单一的端到端架构中运行。图匹配问题通常被公式化为二次分配问题,其是NP难的,需要昂贵、复杂并且因此不切实际的求解器[27]。对于局部特征,21世纪初的计算机视觉文献[4,24,51]使用手工制作的成本,具有许多复杂性,使其复杂而脆弱。Caetano等人[8]学习更简单的线性分配的优化成本,但只使用浅层模型,而我们的SuperGlue使用深度神经网络学习灵活的成本。与图匹配相关的是最优运输问题[57]点云等集合的深度学习旨在通过聚集元素间的信息来设计置换等或不变函数。一些作品通过全局池化[62,37,13]或实例归一化[54,30,29]平等地对待所有元素,而其他作品则专注于坐标或特征空间中的局部邻域[38,60]。注意力[55,58,56,23]可以通过关注特定元素和属性来执行全局和数据相关的通过证明自我注意力可以被视为完整图上的消息传递图神经网络[21,3]的实例,我们将注意力应用于具有多种类型边的图,类似于[25,64],并使SuperGlue能够学习关于两组局部特征的复杂推理。3. SuperGlue建筑动机:在图像匹配问题中,可以利用世界的一些规则:3D世界在很大程度上是平滑的,有时是平面的,如果场景是静态的,则给定图像对的所有对应关系都来自单个对极变换,并且某些姿态比其他姿态更可能。此外,2D关键点通常是突出的3D点的投影,如角点或斑点,因此图像之间的对应性必须遵守某些物理约束:i)关键点在另一图像中最多可以具有单个对应;以及ii)由于检测器的遮挡和故障,一些关键点将不匹配。一个有效的特征匹配模型的目标应该是找到相同3D点的重投影之间的所有对应关系,并识别没有匹配的关键点。我们将SuperGlue(见图3)表述为解决优化问题,其成本由深度神经网络预测。这减轻了对领域专业知识和启发式的需求配方:考虑两个图像A和B,每个图像具有一组关键点位置p和相关联的视觉描述符d-我们将它们联合地(p,d)称为局部特征。位置由x和y图像坐标以及检测置信度c组成,pi=(x,y,c)i。视觉描述符di∈RD可以是由CNN(如SuperPoint)提取的那些视觉描述符4940我注意力图神经网络最优匹配层图3:SuperGlue架构。SuperGlue由两个主要组件组成:注意力图神经网络(3.1节)和最佳匹配层(3.2节)。第一个组件使用关键点编码器将关键点位置p及其视觉描述符d映射到单个向量中,然后使用交替的自我和交叉注意层(重复L次)来创建更强大的表示f。最佳匹配层创建一个M×N得分矩阵,用垃圾箱对其进行扩充,然后使用Sinkhorn算法(T次迭代)找到最佳部分分配或者像SIFT这样的传统描述符 图像A和B具有M个和N个局部特征,由A:={1,…M}和B:={1,… N}。部分分配:约束i)和ii)意味着对应性源自两组关键点之间的部分分配。为了集成到下游任务中并获得更好的可解释性,每个可能的对应都应该有一个置信度值。因此,我们定义部分软分配矩阵P∈[0,1]M×N为:P1N≤1M且P≤1M≤ 1N。(一)我们的目标是设计一个神经网络,从两组局部特征预测分配P3.1. 注意图神经网络除了关键点的位置及其视觉外观之外,整合其他上下文线索可以直观地增加其独特性。例如,我们可以考虑其与其他共同可见的关键点的空间和视觉关系,例如显着的[29],自相似的[48],统计上共同出现的[65]或相邻的[52]。另一方面,第二图像中的关键点的知识可以通过比较候选匹配或从全局和明确的线索估计相对光度或几何变换来帮助解决模糊性。当被要求匹配一个给定的模糊关键点时,人类会来回看两张图像:他们筛选出初步匹配的关键点,检查每个关键点,并寻找关键点编码器:每个关键点i的初始表示(0)xi组合其视觉外观和位置。我们使用多层感知器(MLP)将关键点位置嵌入到高维向量中,如下所示:(0)xi= di+ MLP enc(pi)。(二)这种编码器使图形网络能够在以后联合推理外观和位置,特别是当与注意力结合时,并且是语言处理中流行的“位置编码器”的实例多路图神经网络:我们考虑一个单一的完全图,其节点是两个图像的关键点。图有两种类型的无向边图像内边缘或自边缘Eself将关键点i连接到图像内的所有其他关键点相同的图像。 图像间边缘,或交叉边缘,E交叉,con-将keypointsi复制到其他图像中的所有关键点。我们使用消息传递公式[21,3]沿着两种类型的边传播信息。由此产生的多路复用图神经网络从每个节点的高维状态开始,并通过同时聚合所有节点的所有给定边缘上的消息,在每一层计算更新的表示。令(x)xA为图像A中位于层x处的元素i的中间表示。 消息mE→i是来自所有关键点{j:(i,j)∈ E}的聚合的结果,其中E ∈ {Eself,Ecross}。A中所有i的剩余消息传递更新为:上下文线索,有助于消除歧义的真正匹配,自相似性[10]。这暗示了一个迭代过程(+1)xA=()xA+MLP.()xA||mE→i、 (3)可以将注意力集中在特定的位置。因此,我们将超级胶水的第一个主要模块设计为注意力图神经网络(见图3)。在给定初始局部特征的情况下,通过特征间的通信来计算匹配描述符fi∈RD。正如我们将展示的,长距离特征会增加-图像内和图像间的配准对于鲁棒匹配至关重要我我我其中[||·]表示级联。可以对图像B中的所有关键点同时执行类似的更新。具有不同参数的固定数量的层L被链接并且交替地沿着自边缘和交叉边缘聚集 因此,从=1开始,如果是奇数,则E=Eself如果E是偶数,则E=Ecross局部特征注意聚集匹配描述符Sinkhorn算法视觉描述符+自横得分矩阵行归一化部分转让位置关键点编码器列范数+L垃圾箱评分N+1个不=1M+14941Σ我N图像A图像B1相似或突出关键点的位置。这使得能够表示几何变换和分配。最终匹配描述符是线性投影:fA= W·(L)xA+ b,n∈A,(6)我我对于B中的关键点也是如此。3.2. 最佳匹配层SuperGlue的第二个主要模块(见图3)是最佳匹配层,它产生一个部分分配矩阵。在标准的图形匹配公式中,0lation,分配P可以通过计算所有可能匹配的得分矩阵S∈RM×N来获得,并且最大-图4:可视化自我和交叉注意。注意力聚集在关键点之间构建动态图。权重αij显示为射线。自我注意力(顶部)可以出现在同一图像中的任何位置,例如不同的位置,因此不限于附近的位置。交叉关注(底部)关注其他图像中的位置,例如具有相似外观的潜在匹配总分最小化i,jSi,jPi,j在等式1中的约束下。这相当于解决一个线性分配-问题。评分预测:为所有M×N个潜在匹配构建单独的表示将是禁止的。相反,我们将成对得分表示为匹配的相似性-ing描述符:Si,j=fA,fB>,<$(i,j)∈ A × B, (7)是内积。而不是博学视觉描述符,匹配描述符不正常-并且它们的幅度可以根据特征以及在训练期间改变以反映预测置信度。遮挡和可见性:为了让网络抑制一些关键点,我们用一个垃圾箱来增加每个集合,以便将不匹配的关键点显式分配给它。这个技术-mE→i=j:(i,j)∈Eαijvj,(4)nique在图匹配中很常见,SuperPoint [16]也使用垃圾箱来解释图像单元,可能不会被发现我们将分数S增加到S其中注意力权重α ij是。Softm在关键字上的扩展-查询相似性:α ij=Softmax jq<$kj。通过附加一个新的行和列,点到箱和箱到箱的分数,用一个可学习的参数填充:键、查询和值被计算为线性投影。图神经网络的深度特征。考虑到查询关键点i在图像Q中并且所有源关键点都在图像S中,(Q,S)∈ {A,B}2,我们可以写为:qi = W1(n) xQ + b1S<$i,N+1=S<$M+1,j=S<$M+1,N+1=z∈R.(八)虽然A中的关键点将被分配给B或垃圾箱中的单个关键点,但每个垃圾箱的匹配数量与另一集中的关键点数量相同:N,M代表垃圾箱Σ Σ ΣΣkjW2我的天(三)S b2(五)分别在A、B 我们表示为a =1991年,和vj= W3XJ+b3.b =100Σ⊤M是 每个的预期匹配数每个图层都有自己的投影参数,可以为两个图像的所有关键点学习和共享。在实践中,我们通过多头注意力来提高表达力[55]。我们的公式提供了最大的灵活性,因为网络可以学习基于特定属性关注关键点的子集(参见图4)。SuperGlue可以基于外观和关键点位置两者进行检索或参与,因为它们被编码在表示中。这包括关注附近的关键点并检索相对层2自我注意0层5交叉注意力头0交叉注意Self-AttentionM4942关键点和垃圾箱。增加的分配-mentPNo w有以下限制:P<$1N+1=a和P<$1M+1=b。(九)Sinkhorn算法:上述优化问题的解对应于具有分数S'的离散分布a和b之间的最优传输[36]。它的熵正则化公式自然会导致去-软指派,并可在GPU上高效求解4943使用Sinkhorn算法[49,11]。它是匈牙利算法[32]的一个可微版本,经典地用于二分匹配,包括迭代正常-沿ro w和列调整exp(S<$),类似于ro w和柱Softmax。在T次迭代之后,我们丢弃垃圾箱并重新计算P=P<$1:M,1:N。3.3. 损失通过设计,图神经网络和最佳匹配层都是可区分的-这使得能够从匹配到视觉描述符进行反向传播。SuperGlue以监督的方式从地面实况匹配中进行训练M={(i,j)}<$A × B。这些是从地面实况相对变换估计的-使用姿势和深度图或单应性。这也允许我们将一些关键点I_A和J_B标记为不匹配,如果它们在其附近没有任何重新投影的话。给定这些标签,我们最小化分配P的ng ativ elog-lik:Σ4. 实现细节SuperGlue可以与任何局部特征检测器和描述符结合使用,但与Super- Point[16]配合使用效果特别好,它可以生成可重复的稀疏关键点– 从而实现非常有效的匹配。视觉描述符是从半密集特征图中双线性采样的。为了与其他匹配器进行公平的比较,除非明确说明,否则我们在训练SuperGlue时不会训练视觉描述符网络。在测试时,可以使用置信度阈值(我们选择0.2)来保留来自软分配的一些匹配,或者在后续步骤(诸如加权姿态估计)中使用所有这些匹配及其置信度架构细节:所有中间表示(键、查询值、描述符)具有与SuperPoint描述符相同的维度D = 256。我们使用L=9层的交替多头自我和交叉注意,每个4头,并执行T=100Sinkhorn迭代。该模型在PyTorch中实现[35],包含12M损失=−logP<$i,j(i,j)∈M(十)参数,并在NVIDIA GTX 1080 GPU上实时运行:向前传递平均需要69 ms(15 FPS),Σ-logP'i∈Ii,N+1Σ-logP'j∈JM+1,j.室内图像对(见附录C)。培训详情:为了增加数据,超级该监督旨在同时最大化匹配的精确度和召回率。3.4. 与相关工作的比较SuperGlue架构与图像内关键点的排列是等变的与其他手工制作或学习的方法不同,它也是图像排列的等变,这更好地反映了问题的对称性,并提供了有益的归纳偏差。此外,最佳传输公式强制执行匹配的互惠性,如相互检查,但以类似于[43]的软方式,因此将其嵌入训练过程中。SuperGlue 与 实 例 规 范 化 [54] :SuperGlue 使 用 的Attention是一种比实例规范化更灵活、更强大的上下文聚合机制,实例规范化平等地对待所有关键点,如先前的特征匹配工作所使用的那样[30,63,29,41,6]。点检测和描述步骤是动态执行的,在训练中的批次进一步添加了多个随机关键点,更多详情见附录E。5. 实验5.1. 单应性估算我们使用真实图像和具有鲁棒(RANSAC)和非鲁棒(DLT)估计器的合成单应性进行大规模单应性估计数据集:我们通过对随机全息图进行采样并将随机光度失真应用于真实图像来生成图像对,遵循类似于[14,16,42,41]的配方。底层图像来自牛津和巴黎数据集[39]中的1M distractor图像集,分为训练集、验证集和测试集。SuperGlue与ContextDesc [29]:SuperGlue可以联合推理外观和位置,而ContextDesc单独处理它们。此外,ContextDesc是一个前端,它还需要一个更大的区域提取器,并损失关键点评分。SuperGlue只需要本地功能,学习或手工制作,因此可以简单地替代现有的匹配器。当地单应性估计AUCSuperGlue 与 Transformer [55] : SuperGlue 借 用 了Transformer的自我注意力,但将其嵌入到图神经网络中,并额外引入了交叉注意力,这是对称的。这简化了架构,并导致更好的跨层功能重用。表1:单应性估计。SuperGlue恢复几乎所有可能的匹配,同时抑制大多数离群值。由于SuperGlue对应关系是高质量的,因此直接线性变换(DLT),一种基于最 小 二 乘 的 解 决 方 案 , 没 有 鲁 棒 性 机 制 , 优 于RANSAC。特征匹配器RANSACDLTPRNN39.470.0021.7 65.4NN + mutual42.450.2443.8 56.5SuperPoint NN + PointCN43.0245.4076.2 64.2NN + OANet44.5552.2982.8 64.7强力胶53.6765.8590.7 98.3494420 °时的AUC基线: 我们将强力胶与几种匹配物进行比较-当地姿势估计AUC应用于SuperPoint局部特征的ers-特征匹配器◦◦@5@10◦@20P Msbor(NN)匹配器和各种离群值拒绝器:的相互NN约束,PointCN [30]和订单感知网络(OANet)[63]。所有学习的方法,包括SuperGlue,都是在地面实况对应上训练的,通过将关键点从一个图像投影到另一个图像来我们生成单应性和光度失真的飞行度量:匹配精度(P)和召回率(R)从地面真实对应计算。使用RANSAC和直接线性变换[22](DLT)进行单应性估计,DLT具有直接最小二乘解。我们计算图像的四个角的平均重投影误差,并报告累积误差曲线(AUC)下的面积,直到10个像素的值结 果 : SuperGlue 有 足 够 的 表 达 能 力 来 掌 握homography,实现了98%的召回率和高精度(参见ORBNN + GMS5.2113.65二十五点三十六72.05.7D2-NetNN + mutual5.2514.5327.9646.712.0ContextDescNN +比率检验6.6415.0125.7551.29.2NN +比率检验5.8313.0622.4740.31.0SIFTNN + NG-RANSACNN + OANet6.196.0013.8014.3323.7325.9061.938.60.74.2强力胶NN + mutual6.719.4315.7021.5328.6736.4074.250.49.818.8NN +距离+互9.8222.4236.8363.914.6SuperPointNN + GMS8.3918.9631.5650.319.0NN + PointCN11.4025.4741.4171.825.5NN + OANet11.7626.9043.8574.025.7强力胶16.1633.8151.8484.431.5表2:宽基线室内姿势估计。 我们报告了姿态误差的AUC、匹配得分(MS)和精度(P),所有均以百分比%为单位。SuperGlue在应用于SIFT和SuperPoint时优于所有手工制作和学习的匹配器。表1)。 估计的对应关系是如此之好,不需要强大的估计器DLT优于RANSAC。离群拒绝法-30像PointCN和OANet这样的ods不能预测更正确的20匹配比NN匹配器本身,过度依赖初始描述符(见图6和附录A)。05.2. 室内姿态估计室内图像匹配是非常具有挑战性的,由于室内SIFT + NN+比率检验SIFT + NN + OANetSIFT +SuperGlue户外6050403020100SuperPoint+NN+mutual SuperPoint + NN+OANetSuperPoint+SuperGlue纹理的缺乏、自相似性的丰富、场景的复杂3D几何形状以及大的视点变化。正如我们在下面所展示的,SuperGlue可以有效地学习先验知识来克服这些挑战。数据集:我们使用ScanNet [12],这是一个大型室内数据集,由具有地面真实姿势和深度图像的单目序列组成,以及与不同场景对应的定义良好的训练,验证和测试分割先前的工作基于时间差[34,15]或SfM共视性[30,63,6]选择训练和评估对,通常使用SIFT计算。我们认为,这限制了对的难度,而不是选择这些的基础上计算的所有可能的图像对在一个给定的序列中,仅使用地面实况姿势和深度的重叠这导致显著更宽的基线对,这对应于现实世界室内图像匹配的当前前沿。对于重叠量过大或过小的梳对,我们选取了230M的训练梳对和1500个测试梳对.度量:与以前的工作[30,63,6]一样,我们报告了阈值(5◦, 10◦, 20◦)处的姿态误差的AUC,其中姿态误差是旋转和平移中的角度误差的最大值。相对姿态是从RANSAC的基本矩阵估计获得的我们还报告了匹配精度和匹配分数[16,61],其中基于其极线距离认为匹配是正确的。图5:室内和室外姿态估计。超 -Glue可与SIFT或SuperPoint本地功能配合使用,similarity大大提高了OANet的姿态精度,OANet是一种最先进的离群值拒绝神经网络。基线:我们使用根归一化SIFT [28,2]和Su-perPoint[16]特征评估SuperGlue和各种基线匹配器。SuperGlue使用来自地面真实姿势和深度的对应和不匹配的关键点进行训练所有基线均基于最近邻(NN)匹配器和可能的离群值剔除方法。在“手工制作”类别中“学习”类别中的方法我们使用上述定义的正确性标准和它们各自的回归损失,在ScanNet上重新训练具有分类损失的SuperPoint 和 SIFT 的 PointCN 和 OANet 。 对 于 NG-RANSAC,我们使用原始训练模型。我们不包括任何图形匹配方法,因为它们对于我们考虑的关键点数量(>500)来说太慢了其他局部特征被评估为参考:ORB [44]与GMS,D2-Net [17]和ContextDesc [29]使用公开的训练模型。64.246.949.430.940.335.351.843.836.428.725.922.540104945结果:与手工制作的和学习的匹配器相比,SuperGlue能够实现显著更高的姿势准确性(参见表2和图5),并且与SIFT和SuperPoint都很好地配合使用。它有一个显着更高的精度比其他学习匹配,证明了其更高的代表性的权力。它还产生了更大数量的正确匹配-比赛姿势匹配◦匹配这是因为它是在可能匹配的全部集合上操作的,而不是在最近邻居的有限集合上操作的。SuperGlue与SuperPoint在室内姿态估计方面实现了最先进的由于可重复的关键点使得即使在非常具有挑战性的情况下也可以估计更多的正确匹配项,因此它们可以很好地互补(参见图2、图6和附录A)。5.3. 室外姿态估计由于室外图像序列呈现出它们自己的一组挑战(例如,照明变化和遮挡),我们训练和评估SuperGlue在户外环境中的姿态估计。我们使用与室内姿态估计任务中相同的评估度量和基线方法。数据集:我们对PhotoTourism数据集进行了评估,这是CVPR'19图像匹配挑战赛的一部分它是YFCC 100M数据集[50]的子集,具有从现成的SfM工具[34,46,47]获得的地面真实姿态和稀疏3D模型所有学习的方法都是在更大的MegaDepth数据集上训练的[26],该数据集 也 具 有 使 用 多 视 图 立 体 计 算 的 深 度 图 。PhotoTourism测试集中的场景将从训练集中移除与室内情况类似,我们选择具有挑战性的图像对进行训练和评估,使用从SfM共视性计算的重叠得分,如[17,34]所示。结果:如表3所示,当应用于SuperPoint和SIFT时,SuperGlue在所有相对姿势阈值下的性能优于所有基线 。 最 值 得 注 意 的 是 , 结 果 匹 配 的 精 度 非 常 高(84.9%),加强了SuperGlue将局部特征“粘合”在一起的类比表4:SuperGlue的消融。虽然最佳匹配层单独改进了基线最近邻匹配器,但图形神经网络解释了SuperGlue带来的主要收益。交叉注意和位置编码对于强粘合都是至关重要的,更深的网络进一步提高了精度。5.4. 了解SuperGlue消融研究:为了评估我们的设计决策,我们使用SuperPoint功能重新进行了室内实验,但这次重点关注不同的SuperGlue变体。表4所示的消融研究表明,所有SuperGlue块都是有用的,并带来了显著的性能提升。当我们在训练SuperGlue的同时通过超级点描述符网络进行反向传播时,我们观察到AUC@20μ m从51.84提高到53.38。这证实了SuperGlue适用于匹配之外的端到端学习。可视化注意力:自我和交叉注意模式的广泛多样性如图7所示,反映了学习行为的复杂性。趋势和内部工作的详细分析见附录D。6. 结论本文展示了基于注意力的图神经网络用于局部特征匹配的能力。Super-Glue的架构使用两种注意力:(i)自我注意力,它增强了局部描述符的接受域,以及(ii)交叉注意力,它使交叉图像通信成为可能,并受到人类回顾的方式的启发-当地姿势估计AUC- 和-forth匹配图像时。我们的方法优雅地处理部分分配和闭塞点,通过解决最佳运输问题。我们的实验表明,SuperGlue比现有的SIFTNN + NG-RANSANN + OANetC 十 五点六一18.0225.2828.7635.8740.3164.455.01.93.7方法,实现高度精确的相对姿态估计,强力胶23.6836.4449.4474.17.2极宽基线室内外影像NN + mutual9.8018.9930.8822.54.9对. 此外,SuperGlue可实时运行,SuperPointNN+ GMS13.9624.58三十六点五十三分47.14.7NN+ OANet21.0334.08四十六点八八52.48.4超级胶水34.1850.3264.1684.9十一点一既有经典又有学问的特点。总之,我们的可学习中端用一个强大的神经模型取代了手工制作的算法,表3:室外姿势估计。 匹配SuperPoint和SIFT功能与SuperGlue的结果显着与手工制作或其他学习方法相比,具有更高的姿态准确度(AUC)、精度(P)和匹配分数(MS)XML在一个统一的架构中执行上下文聚合、匹配和过滤。我们相信,当与深度前端相结合时,SuperGlue是实现端到端深度SLAM的主要AUC@20精度评分NN + mutual36.4050.418.8无图神经网络38.5666.017.2无交叉注意42.5774.025.3强力胶无位置编码47.1275.826.6更小(3层)46.9379.930.0完整(9层)51.8484.431.5特征匹配器◦ ◦@5@10◦@20PMSContextDescNN +比率检验20.1631.6544.0556.23.3NN +比率检验15.19二 十 四点七二35.3043.41.74946SuperPoint + NN +距离阈值SuperPoint + NN + OANet SuperPoint +SuperGlue图6:定性图像匹配。我们比较SuperGlue最近邻(NN)匹配器与两个离群拒绝者,手工制作和学习,在三个环境中。SuperGlue一致地估计更正确的匹配(绿线)和更少的不匹配(红线),成功地应对重复的纹理、大视点和照明变化。图7:视觉化注意力。我们显示了不同层和头部的自我和交叉注意权重αij。SuperGlue展示了多种模式:它可以关注全局或局部上下文、自相似性、独特特征或匹配候选项。NN+距离R:85.2°t:65.8°内点:9/23NN+OANetR:6.2°t:7.6°内值:55/95SuperGlueR:2.1°t:0.3°内值:109/115sc e n e 0 7 1 1 _ 0 0 / fr a m e - 0 0 1 6 8 0s c en e 0 7 1 1 _ 0 0 / fra m e - 0 0 1 9 9 5s c en e 0 7 1 1 _ 0 0 / fra m e - 0 0 1 6 8 0sc e n e 0 7 1 1 _ 0 0 / fra m e - 0 0 1 9 9 5sc e n e 0 7 1 1 _ 0 0 / fra m e - 0 0 1 6 8 0s c en e 0 7 1 1 _ 0 0 / fra m e - 0 0 1 9 9 5NN+距离R:122.7°t:85.9°内点:1/15NN+OANetR:37.4°t:56.4°内点:0/27SuperGlueR:10.5°t:7.7°内点:41/44场 景 0 7 6 8 _ 0 0 / 帧 -0 0 1 0 9 5s c en e 0 7 6 8 _ 0 0 / fra m e - 0 0 3 4 3 5场 景 07 6 8 _ 0 0 / 帧 -0 0 1 0 9 5sc e n e 0 7 6 8 _ 0 0 / fra m e - 0 0 3 4 3 5场 景 0 7 6 8 _ 0 0 / 帧 -0 0 1 0 9 5s c en e 0 7 6 8 _ 0 0 / fra m e - 0 0 3 4 3 5NN+距离R:81.8°t:62.9°内点:3/21NN+OANetR:120.3°t:42.5°内点:17/60SuperGlueR:3.9°t:2.2°内点:60/74sc e n e 0 7 5 5 _ 0 0 / fr a m e - 0 0 0 1 2 0s c en e 0 7 5 5 _ 0 0 / fra m e - 0 0 2 0 5 5s c en e 0 7 5 5 _ 0 0 / fra m e - 0 0 0 1 2 0sc e n e 0 7 5 5 _ 0 0 / fra m e - 0 0 2 0 5 5sc e n e 0 7 5 5 _ 0 0 / fra m e - 0 0 0 1 2 0s c en e 0 7 5 5 _ 0 0 / fra m e - 0 0 2 0 5 5NN+距离R:76.6°t:34.9°内点:7/26NN+OANetR:95.1°t:26.2°内值:37/165SuperGlueR:0.6°t:0.6°内点:169/180sc e n e 0 7 1 3 _ 0 0 / fr a m e - 0 0 1 6 0 5s c en e 0 7 1 3 _ 0 0 / fra m e - 0 0 1 6 8 0s c en e 0 7 1 3 _ 0 0 / fra m e - 0 0 1 6 0 5sc e n e 0 7 1 3 _ 0 0 / fra m e - 0 0 1 6 8 0sc e n e 0 7 1 3 _ 0 0 / fra m e - 0 0 1 6 0 5scene0713_00/frame-001680NN+距离R:162.7°t:51.3°内值:19/137NN+OANetR:14.0°t:36.9°内值:70/177SuperGlueR:2.1°t:4.9°内点:350/3530217 /29 1966 26 79_ 7445 df8 30b _o. jpg0217 /2919 662 679_ 744 5d f830b _o .jpg0217 /29 1966 267 9_74 45 df 83 0b _o .jpg0217 /15 948 52 10_fc6 3a4 9e 68 _o .jpg02 17/15 9485 210 _fc63 a49e 68_o .jpg0217/1 594 8521 0_fc63a4 9e68_ o. jpgNN+距离R:37.3°t:23.8°内值:43/170NN+OANetR:24.9°t:25.0°内点:99/484SuperGlueR:1.6°t:2.9°内点:275/276圣 马 可 广 场 /58 7 5 10 1 0 _ 48 4 9 45 8 3 97圣 马 可 广 场 /1 86 2 7 7 86 _ 5 92 9 2 94 5 9 0圣 马 可 广 场 /5 87 5 1 0 10 _ 4 84 9 4 58 3 9 7圣 马 可 广 场 /1 86 2 7 78 6 _ 5 92 9 2 94 5 9 0圣 马 可 广 场 /5 87 5 1 01 0 _ 48 4 9 45 8 3 9 7圣 马 可 广 场 /18 6 2 77 8 6 _5 9 2 9 29 4 5 90NN+距离高:338.7px分辨率:4.3%P:16.7%NN+OANet高:161.8px分辨率:6.9%P:6.0%强力胶高:7.1pxR:100.0%P:90.6%28 6 7 c 6 2 7 4 d 2 5 9 fc 8 1 d 6 c f0 8 a 4 3 d 2 2 52 8 6 7 c 6 2 7 4 d 2 5 9 fc 8 1 d 6 c f0 8 a 4 3 d 2 2 528 6 7 c 6 2 7 4 d 2 5 9 fc 8 1 d 6 c f0 8 a 4 3 d 2 2 5自我横户外单应室内4947引用[1] 摄 影 旅 游 挑 战 赛 , CVPR 2019 图 像 匹 配 工 作 坊 。https://image-matching-workshop.github.io。2019年11月8日访问。7[2] Relja Arandjelovic和Andrew Zisserman每个人都应该知道的三件事CVPR,2012。6[3] Peter W Battaglia,Jessica B Hamrick,Victor Bapst,Al-varo Sanchez-Gonzalez , Vinicius Zambaldi , MateuszMa- linowski,Andrea Tacchetti,David Raposo,AdamSantoro,Ryan Faulkner,et a
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功