没有合适的资源?快使用搜索试试~ 我知道了~
强化特征点检测与描述算法的训练方法及性能评估
4948强化特征点:高级任务Aritra Bhowmik1,Stefan Gumhold1,Carsten Rother2,EricBrachmann21 TU Dresden,2海德堡大学摘要RootSIFTSuperPoint我们解决了计算机视觉的一个核心问题:用于图像匹配的二维特征点的检测与描述。很长一段时间以来,手工设计,如sem- inal SIFT算法,在准确性和效率方面都是无与伦比的。近年来,出现了学习特征检测器,利用神经网络实现特征的检测和描述.训练这些网络通常采用优化低级匹配分数,通常预先定义图像块的集合,这些图像块不幸的是,这些低级匹配分数的准确性提高并不一定转化为高级视觉任务中的更好性能我们提出了一种新的训练方法,该方法将特征检测器嵌入到完整的视觉管道中,并且可学习的参数以端到端的方式进行训练。我们利用强化学习的原理克服了关键点选择和描述符匹配的离散性。作为一个例子,我们解决了一对图像之间的相对姿态估计的任务。我们证明了最先进的基于学习的特征检测器的准确性可以在训练用于测试时应该解决的任务时增加。我们的训练方法对学习任务几乎没有限制,并且适用于预测关键点热图和关键点位置描述符的任何架构。1. 介绍在图像中寻找和匹配稀疏的2D特征点一直是计算机视觉中的一个长期问题[19]。特征检测算法能够从图像集合中创建生动的3D模型[21,56,45],为机器人代理构建地图[31,32],识别地点[44,24,35]和精确位置[25,52,41],以及识别物体[26,34,38,1,2]。自然,特征检测和描述算法的设计,在下文中被归入特征检测,从其早期开始就在计算机视觉研究中受到了极大的关注。虽然发明于三十年前,但半SIFT算法[26]至今仍是黄金标准特征检测流水线。加强型SuperPoint(我们的)图1.我们显示了使用RootSIFT [1](左上)和SuperPoint [14](右上)估计两个图像之间的相对姿态(基本矩阵)的结果。我们的强化SuperPoint(下图)在我们提出的训练方案中利用[14],实现了明显优越的结果。这里的内围值匹配wrt。地面实况基本矩阵用绿色表示,异常值用红色表示。随着最近强大的机器学习工具的出现,一些作者用神经网络取代了经典的基于特征的视觉管道[22,53,4]。然而,独立研究表明,由于泛化能力有限,这些学习的管道尚未达到其经典对应部分的准确性[46,42,59,43]。或者,当前研究的一个突出特点是保持稀疏特征检测的概念,但用数据驱动的学习表示代替手工设计,如SIFT [26]最初的工作主要集中在学习比较图像补丁,以产生有表现力的特征描述符[18,50,54,29,27,51]。很少有人尝试学习特征检测[12,5]或用于特征检测和描述的完整架构[58,35,14]。这些方法的训练通常是由度量学习启发的优化低级匹配分数[54]必须定义块或图像之间的当评价低-4949水平匹配基准,如H-Patch [3],这样的方法与SIFT基线相比经常实现非常优异的分数。H-Patches [3]定义了经历严重照明和视点变化的匹配图像块然而,这种匹配任务中的准确性提高例如,我们证明了最先进的学习 SuperPoint 检 测 器 [14] , 虽 然 在 H-Patches [3] 上 比SIFT [26在早期的研究中也报告了类似的观察结果,其中据称更好的学习LIFT检测器[58]未能在结构运动管道中产生比SIFT [26]更丰富的重建[一些作者注意到了低级训练和高级性能之间的差异,并开发了模拟高级视觉管道属性的训练协议。Lua等人[27]以模拟在图像级匹配时的自相似性问题的方式执行训练块的硬负Revaud等人[39]训练一个探测器找到少量但可靠的关键点。同样,Cieslewskiet al.[12]学习在鲁棒模型拟合中找到具有高概率为内点的关键点在这项工作中,我们采取了一种更激进的方法。我们不是手工制作一个模拟高级视觉管道的训练过程,而是在训练过程中将特征检测器嵌入到完整的视觉管道中。特别地,我们的流水线解决了相对姿态估计的任务,这是相机重新定位、运动恢复结构或SLAM中的核心组件。该流水线包括关键点选择、描述符匹配和鲁棒模型拟合。我们不需要预先定义地面实况对应关系,这与硬否定挖掘的需要无关。此外,我们不需要推测是否找到许多匹配或很少的可靠匹配更有益。所有这些方面都是完全由任务损失所指导的,即。通过最小化两个图像之间的相对姿态误差。关键点选择和描述符匹配是离散的操作,不能直接区分。然而,由于许多特征检测器将关键点位置预测为热图,因此我们可以将关键点选择重新表述为采样操作。类似地,我们将特征匹配提升到一个分布,其中匹配的概率源于其描述符距离。这使我们能够应用强化学习的原理[48]来直接优化高级任务损失。特别地,在特征匹配阶段之后的所有操作,例如,鲁棒的模型拟合不需要是可微的,因为它们仅提供用于学习的奖励信号。总之,我们的训练方法对要优化的特征检测架构或视觉任务几乎没有限制。我们使用SuperPoint检测器[14]演示了我们的方法,该方法经常在独立评价[16,5,39]。我们通过对基本矩阵的鲁棒拟合来训练SuperPoint以完成相对姿态估计的任务。对于这项任务,我们的训练过程缩小了SuperPoint和最先进的基于SIFT的管道之间的差距,见图。1、比较结果。我们总结了我们的主要贡献:• 一种新的训练方法,它允许学习一个特征检测器和描述符,嵌入在一个COM,完整的视觉管道,以优化其性能,用于高级视觉任务。• 我们将我们的方法应用于最先进的架构Superpoint[14],并训练它执行相对姿态任务估计• 经过训练,SuperPoint [14]达到并略微超过了SIFT[ 26 ]的准确度,SIFT [26]以前在这项任务中取得了最佳效果。2. 相关工作在所有手工制作的特征检测器中,SIFT [26]因其长期的成功而脱颖而出。SIFT在图像的尺度空间中找到关键点位置作为高斯滤波器响应的差异,并使用定向梯度的直方图描述特征[13]。Arandjelovic和Zisserman[1]通过将其描述符归一化来提高SIFT的匹配精度,也称为RootSIFT。其他手工制作的特征检测器提高了实时应用的效率,同时牺牲了尽可能少的精度[6,40]。MatchNet [18]是学习使用补丁相似性网络来计算图像补丁的早期示例。依赖于网络作为相似性度量阻止了有效的最近邻搜索方案的使用。L2-Net [50]和随后的作品,而是学习使用欧几里得距离进行比较的补丁描述符。Balntas等人[54]证明了使用三重损失进行描述符学习的优点,而不是仅在补丁对上定义的损失。一个三元组结合了两个匹配和一个非匹配的补丁,和三元组损失优化相对距离内的三元组。HardNet [29]在组装用于训练的三元组时采用对于每个匹配的补丁对,它们在小批量内搜索最相似的GeoDesc [27]构建了用于训练的小批量,其中包含视觉相似但不匹配的补丁对,以模拟匹配两个图像时的自相似性问题。SOSNet[51]使用二阶相似性正则化来加强描述符空间的结构,从而导致相似补丁的良好学习特征检测最近也开始引起注意。ELF [7]表明,可以在预训练的神经网络中使用梯度跟踪来实现特征检测。Key.Net [5]结合了手工制作和学习的过滤器,以避免过度拟合。该检测器使用可重复性目标进行训练,即。找到相同的点4950J在两个相关的图像中,通过单应性变形合成创建SIP[12]学习预测内点位置的像素概率图作为关键点,内点是可以通过现成的特征跟踪器在整个图像序列中连续跟踪的LIFT [58]是第一个完整的基于学习的特征检测和描述架构。该算法利用神经网络重构SIFT的主要处理步骤,并利用从运动恢复结构数据集中提取的匹配和非匹配图像块集进行训练DELF [35]学习图像检索的检测和描述,其中粗关键点位置通过在密集描述符10之上训练注意力层而出现。排序D2-Net [16]通过搜索预训练CNN的滤波器响应图中的局部最大值来实现特征检测和描述。R2D2 [39]提出了一种学习方案,用于识别可以在图像之间唯一匹配的特征位置,避免重复模式。所有提到的基于学习的作品设计的训练方案,模拟困难的条件下,一个功能检测器时,雇用的视觉任务。我们的工作是第一个直接将特征检测和描述嵌入到完整的视觉管道中进行训练的工作,所有现实世界的挑战都自然发生。类似地,Keypoint-Net [49]描述了一个可微分的管道,该管道自动发现相对姿态估计任务的类别级关键点。然而,[49]没有考虑特征描述或匹 配 。 近 年 来 , Brach- mannet al. 描 述 了 RANSAC(DSAC)[8,9]的可微分版本,以学习端到端的相机定位流水线。与DSAC类似,我们从策略梯度中推导出我们的训练目标[48]。然而,通过经由采样来公式化特征检测和匹配,我们不需要RANSAC的Gra-1,并且因此我们不利用DSAC。我们使用SuperPoint [14]架构实现我们的方法,这是一种用于特征检测和描述的完全卷积CNN,在合成和单应性扭曲的真实图像上进行预训练。原则上,我们的训练方案可以应用于SuperPoint以外的架构,如LIFT[58]或R2D2 [39],以及用于特征检测和描述的分离网络3. 方法作为高级视觉任务的一个例子,我们估计两个图像I和I ′之间的相对变换T =(R,t),旋转R和平移t。我们使用稀疏特征匹配来解决任务。 我们确定由i索引的2D关键点xi,并为每个关键点计算描述符向量d(xi)。利用描述子空间的最近邻匹配,我们建立了图像I和I′之间的一组试探性对应mij=(xi,x′)。我们通过对基本矩阵的鲁棒拟合,基于这些尝试性的对应性来求解相对姿态[20]。我们应用一个鲁棒的估计器,如RANSAC [17]和一个5点求解器[33],以找到在所有对应关系中最大化内点计数的基本矩阵内点被定义为与低于阈值的最近核线的距离的对应关系[20]。本质矩阵的分解产生相对变换T的估计。我们使用两个网络实现特征检测:检测网络和描述网络。在实践中,我们使用联合架构SuperPoint[14],其中大多数权重在检测和描述之间共享。这项工作的主要目标是优化两个网络的可学习参数w,以提高视觉任务的准确性。对于我们的应用,网络应该预测关键点和描述符,使得两个图像之间的相对姿态误差最小化。关键点选择和特征匹配是离散的、不可微的操作.因此,我们不能直接将我们估计的变换T的梯度传播回来以更新网络权重,就像在标准监督学习中一样。我们的视觉管道的组件,如鲁棒估计器(例如,RANSAC [17])或最小解算器(例如,5点求解器[33])也可以是不可微的。为了优化我们任务的神经网络参数,我们应用了强化学习的原理[48]。我们将特征检测和匹配公式化为概率动作,其中采取动作的概率,即。选择关键点或匹配两个特征取决于神经网络的输出。在训练过程中,我们根据神经网络预测的概率分布对关键点的不同实例及其匹配进行我们观察这些关键点及其匹配在视觉任务中的表现,并调整网络参数w,使得具有低损失的结果变得更可能。我们在图中展示了我们的方法的概述。二、在下文中,我们首先描述如何将关键点选择和特征匹配重新表示为概率动作。此后,我们制定我们的学习目标,以及如何有效地近似使用采样。3.1. 概率关键点选择我们假设检测网络预测输入图像的关键点热图f(I;w),这在许多架构中很常见[58,14,39,12]。特征位置通常通过取所有局部最大值并结合局部非最大值抑制来从f(I;w)为了使关键点选择具有概率性,我们将热图解释为由网络参数w参数化的关键点位置f(I;w)=P(x;w)上的概率分布。我们将图像I的一组N个关键点定义为根据下式独立采样的X={xi}:YNP(X;w)=P(xi;w),(1)i=14951CNN相对姿态估计描述符预测RANSAC5点求解器基本矩阵位姿分解损失加强概率特征匹配概率关键点选择输入图像(作物)关键点选择热图关键点图像描述符穷举匹配匹配概率分布精选比赛JJKˆCNN关键点预测1) 概率关键点选择2)概率匹配3)高级视觉任务(不可微黑盒)图2. 法上图:我们的训练管道由概率关键点选择和概率特征匹配组成。基于已建立的特征匹配,我们求解相对姿态并将其与地面真实姿态进行比较。我们将视觉任务视为一个(潜在不可微的)黑盒子。它提供了一个错误信号,用于加强关键点和匹配概率。基于错误信号,两个CNN(绿色和蓝色)都被更新,从而更有可能产生低损失。左下角:我们根据探测器预测的热图对关键点进行采样。右下角:我们实现概率匹配,首先,做一个穷举所有关键点之间的匹配,其次,计算概率分布在所有的匹配取决于他们的描述符距离,第三,采样的匹配子集。我们只将这个匹配子集传递给黑盒估计器。也参见图2左下角。类似地,我们为图像I′定义X′。我们给出每个图像中独立采样关键点的联合概率为P(X,X ′; w)= P(X; w)P(X ′; w).(二)3.2. 概率特征匹配我们假设第二个描述网络预测给定关键点x的特征描述符d(x;w)。为了简化符号,我们使用w来表示与特征检测和描述相关的可学习参数我们将特征匹配定义为分别来自图像I和图像I′的一个关键点的配对:mij=(xi,x′).我们给出两个关键点xi和x′之间匹配的概率作为它们的描述符距离的函数,exp[-||d(xi; w)-d(x′; w)||]我们定义一个完整的M匹配集M={mij}I和I′之间独立采样,YP(M|X,X′;w)=P(mij|X,X′;w).(四)mij∈M3.3. 学习目标我们以监督的方式学习网络参数wI.E.我们假设训练数据的形式为(I,I′,T),具有地面真值变换T。注意,我们不需要地面实况关键点位置X或地面实况图像对应M。我们的学习公式对于如何使用tenta解决视觉任务的实现细节是不可知的动态图像对应M.我们把整个过程-P(mij|X,X′;w)=mkk′J.exp[-||d(xk; w)-d(x′′;w)||]在特征匹配阶段之后将流水线设置为黑盒′(三)请注意,匹配概率取决于我们在前面步骤中选择的关键点集。 匹配分布使用所有可能的匹配mkk′=(xk,x′′),其中xk∈X且x′′∈X′。的它只产生一个输出:损失值(M,X,X),这取决于我们为两个图像选择的关键点X和X',以及我们在关键点中选择的匹配M对于相对姿态估计,计算需要基本矩阵的稳健拟合,其分解,K K以产生估计的相对相机变换T,匹配分布将低概率分配给匹配,如果相关联的关键点具有非常不同的描述符。反过来,如果网络希望在训练期间增加(良好)匹配的概率,则必须减少相关关键点相对于同一图像对的所有其他匹配的描述符距离以及它与地面真值变换T的比较。我们只需要损失值本身,而不是它的梯度。我们的训练目标旨在根据可学习参数化的概率分布对关键点和匹配进行采样时减少预期的采样加权采样加权4952参数w:ing. 我们近似梯度cal中的期望值抽样计算我们近似EX,X′,L(w)=EM,X,X′<$P(M,X,X′;w)[<$(M,X,X)]=E X,X′<$P(X,X′;w)EM<$P(M| X,X′;w)[X(·)],(五)n个X样本X<$,X<$′<$P(X,X′;w). 对于一个给定的点样本,我们近似EM| X,X′,通过绘制nM个样本其中我们将<$(M,X,X′)简称为<$(·)。 我们在关键点选择和比赛选择上对期望值进行了分割。首先,我们根据检测网络P(X,X′;w)的热图预测来选择关键点X和X′(参见等式10)。1和2)。其次,我们选择匹配这些关键点根据概率分布P(M| X,X′;w)从描述符距离计算(参见等式第3和第4段)。精确计算期望值及其梯度需要对所有可能的关键点集和所有可能的匹配进行求和为了使计算易于处理,我们假设网络已经初始化,并做出合理的预测,我们的目标是进一步优化我们的任务。在实践中,我们采用了现成的架构,如SuperPoint [14],它是在低级匹配任务上训练的。对于这样一个初始化的网络,我们观察到以下属性:1. 由特征检测器预测的热图是稀疏的。选择关键点的概率在几乎所有图像像素处为零(见图1)。2底部,左侧)。因此,只有少数图像位置对期望值有影响。2. 不相关的关键点之间的匹配具有较大的描述符距离。这种匹配的概率接近于零,对期望值没有影响。观察1)意味着,我们可以只从关键点热图中采样,而忽略其他图像位置。观察结果2)意味着对于我们选择的关键点,我们不必实现所有关键点的完全匹配,X中的所有关键点。相反,我们依赖于一个k-近邻匹配与一些小k。 所有最近的-超过k的BUR可能具有大的描述符距离,因此概率接近于零。在实践中,我们没有发现使用k >1的优势,这意味着当计算P(M)时,我们可以在训练期间进行正常的最近邻匹配|X,X ′; w)(见图2底部,右)。我们根据以下公式更新可学习参数w:Eq的梯度5,遵循Williams的经典REINFORCE算法[55]MP(M|X,X′;w). 对于每个样本组合,我们运行视觉管道并观察相关的任务丢失率。为了减少梯度近似的方差,我们减去所有样本的平均损失作为基线[48]。我们发现少量的样本nX和nM足够的管道收敛。4. 实验我们训练SuperPoint [14]架构用于相对姿态估计任务,并在第二节中报告了我们的主要结果。4.1.此外,我们分析了在低级别匹配基准上使用SuperPoint进行相对姿态估计的影响(第二节)。4.2),并在一个结构从运动的任务(节。4.3)。4.1. 相对姿态估计网络架构。SuperPoint [14]是一个处理全尺寸图像的全卷积神经网络。该网络有两个输出头:一个头产生热图,可以从热图中拾取关键点,另一个头产生256维描述符作为图像上的密集描述符字段。Su-perPoint的描述符输出两个输出头共享一个共同的编码器,该编码器处理图像并降低其维数,而输出头充当解码器。我们使用作者提供的网络权重作为初始化。任务说明。我们计算相对摄像机之间的一对图像的基本矩阵的鲁棒拟合的姿态。我们在图中展示了处理流水线的概述。二、特征检测器产生一组试探性的图像对应。我们使用5点算法[33]结合稳健估计器估计本质矩阵。对于鲁棒估计器,我们使用标准RANSAC [17]估计器以及最近的NG-RANSAC [10]进行了实验。NG-RANSAC使用神经网络来抑制异常值对应,并L(w)=∂wΣ引导RANSAC采样朝向有希望的候选者,基本矩阵。 作为基于学习的鲁棒估计器,EX,X′EM|X,X∂'[(·)]wlogP(X,X′;w)NG-RANSAC在我们的设置中特别有趣,因为我们可以在结束时与SuperPoint一起完善它,+EX,X′ΣEM| X,X ′Σ(·)|X,X′;w)∂wΣΣ(六)结束训练。数据集。为了便于与其他方法进行比较,我们遵循Yi等人的评价方案。[59]第59话请注意,我们只需要计算关键点选择和特征匹配的对数概率主动姿态估计 他们使用集合进行评估 来自不同来源的7个室外和16个室内数据集4953[47、21、57]。一个室外场景和一个室内场景作为训练数据,其余21个场景作为测试集。所有数据集都带有共同可见性信息,用于选择合适的图像对和地面真实姿态。培训程序。我们将SuperPoint检测头的输出解释为关键点位置的概率分布我们为每个图像采样600个关键点,并从描述符头输出中读取每个关键点的描述符。接下来,我们在关键点之间执行最近邻匹配,只接受两个图像中相互最近邻的匹配。我们计算所有匹配的概率分布,取决于它们的描述符距离(根据等式2)。(3)第三章。我们从这个分布中随机选择50%的所有匹配用于相对姿态估计管道。我们拟合了基本矩阵,并估计了相对姿态的比例。我们测量估计和地面真实旋转之间的角度,以及估计和地面真实平移向量之间的角度。我们把两个角度的最大值作为我们的任务损失。对于困难的图像对,基本矩阵估计可能失败,并且任务损失可能非常大。为了限制如此大的损耗的影响,我们在25Ω的值之后应用损耗的平方根软箝位[10],并且在75Ω的值之后应用硬箝位。为了近似期望的任务损失L(w)及其在等式(1)中的计算,5和Eq。6,我们绘制关键点nX=3次,并且对于每组关键点,我们绘制nM=3组匹配。因此,对于每个训练迭代,我们运行视觉管道9次,在单个Tesla K80 GPU上需要1.5s到2.1s,具体取决于鲁棒估计器我们使用Adam [23] opti- mizer进行训练,学习率为10- 7,迭代次数为150 k,大约需要60小时。我们的训练代码基于PyTorch [37]用于SuperPoint [14]集成和学习,以及OpenCV [11]用于估计相对姿态。我们将公开我们的源代码,以确保我们的方法的可重复性。测试程序。对于测试,我们恢复到确定性的特征检测过程,而不是进行采样。我们使用局部非最大抑制从检测器热图中选择最强的2000个关键点。 我们移除热图值低于0的非常弱的关键点。00015。我们对相应的特征描述子进行最近邻匹配我们在培训之前和之后都遵守SuperPoint的这一程序,以确保结果的可比性。讨论 我们根据Yi报告测试准确度等人[59],其计算位姿误差为旋转和平移角误差的最大值。对于每个数据集,计算累积误差曲线下面积(AUC),并分别报告室外和室内数据集的平均AUC。首先,我们使用标准的RANSAC估计器来训练和测试我们的管道,以进行基本矩阵拟合,参见图。3a)。我们将其与最先进的基于SIFT的[26]管道进行比较,该管道使用RootSIFT描述符归一化[1]。对于RootSIFT,我们应用Lowe我们还比较了LIFT特征检测器[58],有和没有Yi等人的学习内点分类方案。[59](表示为InClass)。最后,我们比较了SuperPoint [14]在我们提出的训练(表示为加强SP)之前和之后的结果。增强的SuperPoint在所有阈值上都超过了SuperPoint的准确性,证明我们的训练方案确实优化了SuperPoint用于相对姿态估计的性能。这种影响在户外环境中尤其强烈。对于室内,训练效果较弱,因为大的无纹理区域原则上使这些场景难以进行稀疏特征检测。Super- Point在很大程度上超过了LIFT的精度,但没有达到RootSIFT的精度我们发现,RootSIFT的出色准确性在很大程度上是由于Lowe我们也尝试了SuperPoint的比率过滤器,但我们没有发现任何比率阈值可以在所有数据集上一致地提高准确性。为了实现用于Su-perPoint的类似有效的离群值过滤器,我们用最近基于学习的NG-RANSAC [10]估计器代替我们的视觉管道中的RANSAC估计器我们使用Brachmann和Rother [10]的公共代码以及Detone等人的SuperPoint 的 初 始 权 重 来 训 练 用 于 SuperPoint 的NG-RANSAC。[14 ]第10段。使用NG- RANSAC作为鲁棒估计器,SuperPoint几乎达到RootSIFT的精度,见图。3,b)。最后,我们将SuperPoint和NG-RANSAC嵌入到我们的视觉管道中,并联合端到端地训练它们。在我们的训练模式之后,Reinforced SuperPoint匹配并略微超过RootSIFT的准确性。图3,c)示出了消融研究 , 其 中 我 们 在 端 到 端 训 练 期 间 仅 更 新 NG-RANSAC、虽然主要的改进来自于更新SuperPoint,但是更新NG-RANSAC也允许鲁棒估计器在整个训练过程中适应SuperPoint的变化的匹配统计。分析. 我们在图中可视化了训练过程对SuperPoint输出的影响。4.第一章对于关键点热图,我们观察到两个主要影响。首先,许多关键点似乎被丢弃了,特别是对于会导致模糊匹配的重复模式。其次,保留了一些关键点,但调整了它们的位置,可能是为了实现较低的相对位姿误差。对于描述符分布,我们看到正确匹配的描述符距离减小,而正确匹配的描述符距离增加的趋势。4954RootSIFT + NG-RANSAC0.59/0.64/0.700.16/0.24/0.34SuperPoint(init)+NG-RANSAC(init) 0.56/0.63/0.690.15/0.24/0.35SuperPoint(init)+NG-RANSAC(e2e)0.56/0.63/0.70.15/0.24/0.35SuperPoint(e2e)+NG-RANSAC(init)0.58/0.64/0.75° 10°20°户外5° 10°20°室内SuperPoint(e2e)+NG-RANSAC(e2e)0.59/0.65/0.710.15/0.24/0.350.590.560.590.640.630.650.700.690.71输入图像变化关键点热图关键点丢弃关键点移动b) NG-RANSACc) 户外消融研究(5°/10°/20°)室内(5°/10°/20°)图3. 相对姿态估计。a)使用基本矩阵的RANSAC估计器的相对姿态误差的AUC。RootSIFT的结果如[10]中所报告,LIFT的结果如[59]中所报告。b)使用NG-RANSAC [10]作为稳健估计量的AUC。c)为了获得最佳结果,我们展示了训练SuperPoint与NG-RANSAC端到端。Init. 对于SuperPoint,表示Detone等人提供的权重。[14],init. 对于NG-RANSAC,意味着根据Brachmann和Rother [10]对SuperPoint进行训练。我们用红色显示比RootSIFT基线差的结果,用绿色显示优于或等于RootSIFT的结果。a) 增强特征检测效果b) 强化特征描述效应具有采样关键点的输入图像对描述符概率的穷举匹配变化图4. 训练的效果。a)我们将SuperPoint在端到端训练之前和之后预测的关键点热图的差异可视化。显示为蓝色的关键点被丢弃,具有从蓝色到红色渐变的关键点被移动。b)我们使用(初始)SuperPoint创建一组固定的匹配,并可视化这些匹配在端到端之前和之后的匹配概率差异。训练红色匹配的概率通过减少其相对于所有其他匹配的描述符距离而增加设置错误匹配的描述符距离。定量分析证实了这些观察结果,见表1。虽然端到端训练后关键点的数量减少了,但整体匹配质量提高了,衡量标准是估计的内点比率和地面真实内点比率。4.2. 低水平匹配精度我们调查了我们的训练方案对低水平匹配分数的影响因此,我们在H-Patches [3]基准上分析了经过相对姿态估计训练的Reinforced SuperPoint的性能(见上一节)。该基准测试包括116个测试序列,显示在增加视角和光照变化下的图像。我们遵循Dus- manu等人的评价方案。[16 ]第10段。也就是说,我们找到关键点和序列图像对之间的匹配,只接受两个图像之间相互最近的邻居的匹配。我们使用地面真值单应性来计算每个匹配的重投影误差。我们测量阈值范围从1px到1px的到10px的重投影误差。我们将Root-SIFT [1]基线与hessian仿射检测器[28](未注明HA+RootSIFT)和几个学习的检测器进行比较,即具有学习的仿射归一化[30](未注明HANet+HN++)的HardNet++[29],LF-Net[36],DELF [35]和D2-Net [16].当结合照明和视点序列时,原始SuperPoint [14]在AUC方面击败了所有特别是,SuperPoint显著超过RootSIFT在H补丁上的匹配精度,尽管RootSIFT在相对姿态估计任务中优于SuperPoint这证实了低水平的匹配准确度不一定转化为高水平视觉任务中的准确度,参见我们之前的讨论。至于Reinforced SuperPoint,我们观察到与SuperPoint相比,匹配精度有所提高,因为它具有更少但更可靠和精确的关键点。4.3. 运动恢复结构我们评估的性能加强超级点,训练相对姿态估计,在一个结构,从-a)RANSACRootSIFT电梯LIFT+InClassSuperPoint(SP)加强型SP5°10°户外20°5°10°室内20°0.540.190.320.420.460.600.240.410.490.520.660.530.560.590.320.150.030.070.130.140.220.060.130.210.220.310.120.220.320.330.160.150.150.240.240.240.340.350.35抑制抑制放大放大00495510.90.80.70.60.50.40.30.20.10观点照明视点+照明123456789101234567891012345678910阈值(px)图5. H-Patch的评价[3].左图:我们展示了训练相对姿态估计之前和之后SuperPoint的平均匹配精度。竞争对手的结果见[16]。右:左侧图的曲线下面积(AUC)户外KPS匹配内点GT Inl.SuperPoint(SP)19931008百分之二十四点八百分之二十一点九加强型SP(我们的)1892955百分之二十八点四百分之二十五点三室内SuperPoint(SP)1247603百分之十三点四百分之九点六加强型SP(我们的)520262百分之十六点四百分之十一点一表1.在我们的训练之前和之后,Su- perPoint发现的关键点和匹配的平均数量我们还报告了内点的估计比率和内点的地面真值比率。数据集方法#稀疏点轨道Len.生殖毒性误差DSP-SIFT15k4.790.41喷泉GeoDesc17k4.990.46(11img.)SuperPoint31k4.750.97加强型SP9k4.860.87DSP-SIFT8k4.220.46海尔热舒GeoDesc9k4.340.55(8 img.) SuperPoint21k4.100.95加强型SP7k4.320.82南楼(128img.)DSP-SIFTGeoDescSuperPointReinf.SP113k170k160k102k5.925.217.837.860.580.640.920.88表2.我们的端到端培训对从运动到结构基准的影响。加强型SP表示在被训练用于相对姿态估计之后的超级点。重投影误差单位为px。运动(SfM)任务。我们遵循的协议的SfM基准的Schonbe r ger等人。 [4 6]。我们从基准测试中选择三个较小的我们使用COLMAP [45]创建稀疏SfM重建,并报告重建的3D点的数量、特征的平均轨迹长度(指示视图间的特征稳定性)和平均重投影误差(指示MMAHA+RootSIFT公司简介LF-NetDELFD2-Net超级点(SP)加强型SP(我们的)观点AUC AUC@5px@10px照明AUC AUC@5px@10px视点+照明AUC AUC@5px@10pxHA+RootSIFT55.2%64.4%49.1%56.1%52.1%百分之六十点二公司简介百分之五十六点四百分之六十五点六57.3%65.4%56.9%百分之六十五点五LF-Net43.9%49.0%53.8%58.5%48.9%53.8%DELF百分之百分89.8%百分51.5%百分4956关键点精度)。我们在表2中报告了我们的结果,并证实了我们以前实验的发现。当关键点数目减少时,匹配质量提高,如轨道长度和重投影误差。作为参考,我们还显示了DSP-SIFT [15]在基准测试[46]上所有SIFT变体中最好的结果,以及GeoDesc [27],这是一种学习描述符,在基准测试中获得了最先进的结果请注意,与DSP-SIFT和GeoDesc的亚像素精度相比,SuperPoint 仅 提 供 像 素 精 度 的 关 键 点 位 置 因 此 ,SuperPoint的重投影误差更高。5. 结论提出了一种新的特征检测和描述的端到端训练方法,包括关键点选择、特征匹配和鲁棒模型估计。我们将我们的方法应用于两幅图像之间的相对姿态估计任务我们观察到,我们的端到端训练通过移除不可靠的关键点并细化剩余关键点的位置来提高最先进特征检测器的姿态估计准确性。我们需要对网络进行良好的初始化,这可能会对训练产生限制作用。特别是,我们观察到网络很少发现新的关键点。初始概率非常低的关键在未来的工作中,我们可以将我们的训练模式与重要性抽样相结合,对感兴趣的位置进行有偏抽样。鸣谢:该项目已获得欧洲社会基金(ESF)和萨克森自由州的SePIA资助100299506,DFG卓越CeTI集群( EXC 2050/1 项 目 ID 390696704 ) , DFG 资 助389792660作为TRR 248的一部分,欧洲研究委员会(ERC)根据欧盟的Horizon 2020研究,创新计划(赠款协议编号647769)和DFG赠款COVMAP:智能卡包括通用GPS和视频数据分析(RO 4804/2-1)。计算是在德累斯顿工业大学信息服务和高性能计算中心(ZIH)的HPC集群上进行的。4957引用[1] R. Arandjelovic和A.齐瑟曼。每个人都应该知道的三件事,以提高对象检索。CVPR,2012。[2] R. Arandjelovic和A.齐瑟曼。 关于VLAD 在CVPR,2013年。[3] V. Balntas , K. Lenc , A. Vedaldi 和 K. 米 科 莱 奇 克HPatches:手工制作和学习本地描述符的基准和评估。在CVPR,2017年。[4] 诉Balntas,S.Li和V.A. 普利斯卡留Relocnet:使用神经网络的连续度量学习重新定位。在ECCV,2018。[5] A. Barroso-Laguna,E. Riba,D. Ponsa和K. 米科莱奇克Key.Net:通过手工制作和学习CNN过滤器进行关键点检测。在ICCV,2019年。[6] H. Bay,T. Tuytelaars和L. V.Gool SURF:加速了强大的功能。在ECCV,2006年。[7] A. Benbihi,M. Geist和C. Pradalier ELF:在预训练的CNN中嵌入本地化特征。在ICCV,2019年。[8] E. Brachmann,A. Krull,S. Nowozin,J. Shotton,F. 米歇尔S. Gumhold和C.罗瑟DSAC:用于相机定位的可区分在CVPR,2017年。[9] E. Brachmann和C.罗瑟学习越少越好-通过3D表面回归进行6D相机定位。在CVPR,2018年。[10] E. Brachmann和C.罗瑟神经引导RANSAC:学习在哪里采样模型假设。在ICCV,2019年。[11] G.布拉德斯基OpenCV库。Dobb博士[12] T. Cieslewski,K. G. Derpanis和D.斯卡拉穆扎SIPs:来自无监督的inlierness probability learning的简洁兴趣点。在3DV,2019年。[13] N. Dalal和B. Triggs用于人体检测的定向梯度直方图在CVPR,2005年。[14] D. DeTone , T.Malisiewicz 和 A. 拉 比 诺 维 奇 。SuperPoint:自监督兴趣点检测和描述。在CVPR研讨会,2018年。[15] J. Dong和S.索阿托 局部描述符中的域大小池:Dsp-sift.IEEE计算机视觉与模式识别会议(CVPR),2015年6月。[16] M.杜斯马努岛Rocco,T. Pajdla,M. Pollefeys,J.西维克A. Torii和T.萨特勒D2-Net:一个可训练的CNN,用于联合检测和描述局部特征。在CVPR,2019年。[17] M. A. Fischler和R. C.波尔斯随机样本一致性:一个范例,模型拟合与应用程序的图像分析和自动制图。Commun. ACM,1981年。[18] X.汉,T.梁,Y.贾河,巴西-地Sukthankar和A. C.伯格。MatchNet:
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功