没有合适的资源?快使用搜索试试~ 我知道了~
15838解耦使弱监督局部特征更好李坤宏1,2王龙光3刘莉3,4秦然5徐凯3郭玉兰1,2,3*1中山大学2中山大学深圳校区3国防科技大学4奥卢大学5阿里巴巴集团摘要弱监督学习可以帮助局部特征方法克服获取具有密集标记对应的大规模数据集的障碍。然而,由于弱监督不能区分由检测和描述步骤引起的损失,因此在联合训练描述然后检测流水线内直接进行弱监督学习会受到有限的性能。在这篇文章中,我们提出了一个解耦的训练描述然后检测管道为弱监督局部特征学习量身定制。在我们的流水线中,检测步骤与描述步骤解耦,并推迟到学习了有区别的和鲁棒的描述符。此外,我们引入了一个线到窗口的搜索策略,明确地使用相机姿态信息更好的描述符学习。大量的实验表明,我们的方法,即PoSFeat(摄像机姿态S监督特征),优于以前的完全和弱监督方法,并实现了最先进的性能在广泛的下游任务。1. 介绍寻找像素对应关系是计算机视觉中的一个基本稀疏局部特征[5,12,22,36,48]作为寻找对应关系的主流方法之一,已被广泛应用于许多领域,如同时定位和映射(SLAM)[29,52],运动恢复结构(SfM)[1,40]和视觉定位[7,16,38,51]。传统的稀疏局部特征方法[5,22,36]遵循检测然后描述的流水线。具体地,首先检测关键点,然后使用以这些关键点为中心的补丁来生成描述符。早期的方法[15,17,19,22]关注于检测步骤,并且被提出来区分独特的区域以检测好的关键点。后来的作品更加关注描述步骤,并尝试使用高级表示来设计强大的描述符[5,8,36]。*通讯作者:郭玉兰(guoyulan@sysu.edu.cn).代码:https://github.com/The-Learning-And-Vision-Atelier-LAVA/PoSFeat。(a) DISK-W,一个DISK模型[46],在弱监督(b) PoSFeat(我们的)图1.弱监督局部特征方法的模糊性影响的说明。将显示成功创建标志和失败创建标志的关键点。(a)通过联合训练描述-然后检测流水线,DISK-W [46]产生不准确的关键点,这些关键点在对象之外。(b)通过我们的解耦训练描述然后检测流水线,PoSFeat可以产生更多合理的关键点。最好用彩色观看。受深度学习成功的推动,人们做出了许多努力[23,27,31,44,50]来用CNN取代检测-然后-描述管道中的检测或描述步骤最近的工作[13,24,34,46]发现关键点和描述符是相互依赖的,并提出了一个联合训练描述然后检测管道。具体地,描述网络和检测网络被组合成单个CNN并联合优化。联合训练描述-然后检测流水线比检测-然后描述流水线实现更好的性能,特别是在具有挑战性的条件下[18,45]。然而,这些方法是完全监督的,并且依赖于密集的地面实况对应标签进行训练。由于收集具有像素级地面实况对应的大型数据集是昂贵的,因此研究了自监督和弱监督学习用于训练。具体而言,DeToneet al.”[12]一个字一个字地说。15839年龄和虚拟单应性来生成图像对以进行自我监督学习。然而,单应变换不能覆盖真实世界中复杂的几何变换,导致性能有限。Noh等人[30]使用地标标签来训练局部特征网络,该网络在视点变化方面的性能非常差由于收集相机姿势的方便性,Wang等人。 [47]引入相机姿势作为描述符学习的弱监督。Al-合理的关键点错误检测正确匹配错误匹配关键点尽管弱监督学习在检测-然后-描述流水线内实现了有希望的结果,但是直接将其应用于联合训练描述-然后-检测流水线难以产生令人满意的结果[46]。当检测网络和描述网络在仅具有弱监督的联合训练描述然后检测流水线内联合优化时(例如,摄像机姿态),这两个分量产生的损失不能区分。具体来说,当只有一个组件发生故障时(图2),检测网络和描述网络都不能在联合训练描述然后检测流水线内正确更新因此,描述网络很难产生高区分度的描述符,并且检测网络可能产生在对象边界之外的错误检测到的关键点,如图1所示。1.一、在本文中,我们提出了一个解耦的训练描述然后检测管道为弱监督局部特征学习量身定制。我们的主要观点是,在只有弱监督的情况下,检测网络在很大程度上依赖于一个良好的描述符来进行准确的关键点检测(图1)。因此,我们将检测网络从描述网络中解耦,以推迟它,直到学习到一个有区别的和鲁棒的描述符。与依赖于用于早期检测的低级结构的检测-然后-描述流水线不同,我们的因此,实现了更好的鲁棒性。与同时执行检测和描述优化的联合训练描述然后检测流水线相比,这两个网络是单独训练的,因此这两个组件的损失函数是解耦的,以解决模糊性。它表明,我们解耦的训练描述然后检测管道有助于局部特征方法,以实现更好的性能,只有弱监督。我们的贡献可概括为:(1) 我们为弱监督局部特征学习引入了一个解耦的训练描述然后检测管道这种简单而高效的流水线显著提高了弱监督局部特征的性能。(2) 我们提出了一种线到窗口的搜索策略,以利用相机构成的弱监督描述符学习。该策略能充分利用摄像机姿态的几何信息,减小搜索空间,图2.脱钩动机。两个合理的关键点可能由于描述符的低区分度而被不正确地匹配(例如,由重复纹理引起)。同时,两个错误检测的关键点也可以以高描述符相似度进行匹配最好用彩色观看。学习高度区分性描述符。(3) 我们的方法在三个数据集上实现了最先进的性能,并在很大程度上缩小了完全监督和弱监督方法之间的差距。2. 相关作品2.1. 完全监督的局部特征方法完全监督方法使用像素级地面实况对应来进行局部特征学习以提供监督。在检测-然后-描述管道之后,基于早期学习的方法[4,14,23,27,39,44]使用CNN来执行检测或描述步骤。具体而言,QuadNet [39]和 Key.Net [4] 被 提 出 使 用 CNN 进 行 关 键 点 检 测 。HardNet [27]和SOSNet [44]被开发用于利用CNN来提取描述符。后来,LIFT [50]和LFNet [31]被引入,将检测和描述步骤集成到端到端架构中,以实现更好的性能。请注意,LIFT [50]还引入了解耦训练,以解决在检测-然后-描述流水线中具有完全监督的不稳定训练问题最近的作品[13,24,34,46]遵循联合训练描述然后检测管道,其中检测和描述被组合到单个CNN中并联合优化。具体来说,Dusmanu等人。 [13]首先使用CNN提取密集特征,然后选择密集特征图的局部最大值作为关键点。Revaud等人 [34]进一步考虑了描述器的可重复性和可靠性,以实现更好的关键点检测。蒂什凯维奇等人[46]用政策梯度来解决 稀疏关键点(即DISK)选择过程中的离散性。Luo等人 [24]采用可变形卷积对几何信息进行建模,并在多个尺度上检测关键点。通过对检测网络和描述网络进行联合优化,联合训练的描述-检测流水线比以前的检测-描述流水线具有更好的性能。15840关键点地图密集描述符L描述描述符损失Lkp关键点损失Lkp描述网描述净(冷冻)检测网描述网络训练检测网络训练图3.提出的解耦训练描述然后检测流水线。检测网络从描述网络中解耦,并推迟到获得好的描述符。2.2. 自监督局部特征方法由于难以收集具有密集标记的对应关系的大型数据集,因此自监督学习已经被研究用于局部特征学习。具体而言,DeToneet al.[12]使用虚拟单应性从单个图像生成图像对以进行自我监督学习。该方法使用在合成数据上预训练的CNN作为检测网络的教师。Christiansenet al. [11]提出了一种端到端的框架,以自监督的方式使用虚拟单应性来训练检测网络和描述网络后来,Par iharet al. [32]利用单应性来增强描述符对旋转的鲁棒性。然而,在这些自我监督方法中使用的简单单应性变换在实际情况下可能不成立。2.3. 弱监督局部特征方法Noh等人介绍了DELF [30],它是用图像检索任务训练的,以实现局部特征提取。然而,由DELF检测到的关键点对vierwpoint changew敏感,因此不能应用于现实世界的设置。对于相机姿势很容易收集,王等人。[47]使用它们作为弱监督,并为描述符学习引入了极线损失。该方法遵循检测-然后-描述流水线并且依赖于现成的检测方法(例如,、SIFT)来检测关键点。最近,Tyszkiewiczet al. [46]开发了DISK-W,通过采用策略梯度将弱监督学习集成到联合训练描述然后检测管道中。然而,当DISK-W直接使用弱监督损失(而不是完全监督损失)进行训练时,它会在像素度量方面遭受显着的性能下降由于弱监督损失无法区分由错误关键点和不准确描述符引入的错误,因此这种模糊性阻碍了联合训练描述然后检测流水线学习良好的局部特征。2.4. 基于学习的匹配方法由于暴力匹配器(也称为NN匹配器)通常产生低质量的原始匹配,基于学习的匹配器被提出来实现更好的匹配结果。Sarlin等人[37]提出了SuperGlue,通过图形神经网络(GNN)和最佳传输算法实现鲁棒匹配。Chen等人[10]改进了GNN的架构,以提高描述符增强的效率Zhou等[53]提出了一种弱监督网络,使用补丁匹配作为先验来细化原始匹配。Sun等人[42]引入了无检测器匹配器,以粗到细的方式实现像素对应请注意,大多数匹配器方法不是局部特征方法的直接竞争者。相反,它们可以被视为后处理步骤,并与本地功能相结合,以实现更好的性能。3. 解耦训练描述-检测流水线3.1. 概述解耦的训练描述然后检测流水线如图3所示。我们分别训练描述网和检测网,以抑制弱监督引起的损失模糊性。在训练过程中,我们首先忽略了检测网络,并优化描述网络,以通过线到窗口的策略学习好的描述符。然后冻结描述网络以训练用于关键点检测的检测网络。我们遵循CAPS [47]使用ResUNet作为描述网,它产生具有1/4分辨率和128维的特征图作为密集描述器。此外,我们设计了一个浅检测网络,以检测的关键点在原始分辨率。有关网络体系结构的更多详细信息,请参阅补充资料。L描述15841我我∈我⊂≡J我J我我 1我21我2我y我查询要素(粗略)和查询点F1F1(xi)当量(一)P(yj|F1(xi),F2(Y面片))当量(四)中心iF2(Y贴片)参考特征(粗)参考特征(精细)F2F2(Y线)u~U(0,1)F2(a) 从粗到细的搜索(b)从行到窗的搜索图4.从粗到细的搜索策略(a)和我们的线到窗口搜索策略(b)的说明F2中的红线表示与F1中的查询点相对应的极线。3.2. 特征描述根据广泛使用的范例[47],我们施加苏-从Y线确定xi的对应的粗略位置的能力:仅在从成对的采样的图像进行描述网络的训练。我们y=argmaxP(yj|F(x)、F(Y))。(二)首先将图像分割成大小为gd×gd的小网格,并且domly每个网格采样一个点作为查询点。然后,我们将相对摄像机姿态转换为极线约束,并引入线到窗口搜索策略,以减少在本地窗口中搜索。由于Y中候选人的离散性所得对应点管线,搜索空间(Sec. 3.2.1)。此外,我们通过鼓励预测的匹配服从极线约束来制定损失函数(Sec. 3.2.2)。3.2.1行到窗口搜索给定查询图像I1中的查询点x,我们的目标是找到它在参考图像I2中的对应关系。由于重复结构广泛存在于自然图像中,因此常用的粗到细策略[42,47]通常会选择不匹配的补丁,从而产生较差的性能(图11)。(见第4(a)段)。直观地,查询点X的对应关系被约束在参考图像中的核线因此,我们引入了一个行到窗口我可以远离地面实况为了补救这一点,随后的搜索是conducted在本地窗口。首先,我们计算局部窗口的中心:y中心=yi+0。5·w贴片·u,(3)其中wpatch是局部patch的窗口大小,uR2是从均匀分布U(0,1)中提取的噪声向量,以避免收敛到平凡解F(x)0。然后,从F2裁剪以y中心为中心的局部块Y块I2作为搜索空间。接下来,我们计算xi在Y贴片上的匹配概率:搜索策略,以减少搜索空间,以获得更好的性能。我们的行到窗口搜索策略包括两个P(yi|F1(xi),F2(Ypatch))=exp(F1(xi)TF2(yj))I.exp(F(x)TF(yk))搜索步骤,如图所示。第4(b)段。沿着核线搜索。Y形补片1i2我(4)对于查询点xi,响应核线∈I1,我们首先计算它的对应-因为直接选择最大值在局部补丁的概率是不可微的,我们称之为-基于相对相机姿态在参考图像I2中确定LX1然后,我们统一采样计算对应关系以可区分的方式:沿着这条极线的N个线点来公式化搜索--j jj空间Y线=yj(j=1,..., Nl在e中)。Ne xt,我们计算xi在Y线上的匹配概率:yi=E(yi)= yj∈Y补片yi·P(yi|F1(xi),F2(Ypatch))。(5)P(yi|F1(xi),F2(Yline))=0exp(F1(xi)TF2(yj))i,exp(F(x)TF(yk))yJ线Y线+15842与之前的粗到细搜索策略[47]相比,我们的线到窗口搜索策略可以更好地使用相机姿态信息来减小搜索空间其中F1和F2分别是I1和I2的特征图。然后,我们选择概率最大的yi并进一步提高描述符的区分度(如第2节所示)。4.3)。(一)15843L··Σiσ(xi)×联系我们联系我们--我我thr∈[1,10]××3.2.2损失函数在仅对摄像机姿态进行弱监督的情况下,我们计算对应yi到极线Lxi的距离作为查询点xi的丢失[47]:Lep i(y_i,x_i)=d is_t_nce(y_i,Lx_i)。(六)然后,我们使用所有查询点上的损失的加权和作为最终损失:其中λreg是正则化惩罚,Lrew(xi,yj)定义为:rew(xi,yj)= Pm(xi,yj)R(xi,yj)log(Pkp(xi)Pkp(yi))。(十一)由于我们的描述符被很好地优化,Pm可以抑制低分数的虚假点。相比之下,在联合管线中,描述符优化不足,使得不能很好地区分伪点。详情请参阅补充材料。Ldesc=0Mi·Lepi(yi,xi)Miiσ(xi).(七)4. 实验4.1.实验设置这里,Mi是二进制掩码(其用于排除其极线不在参考图像中的查询点),并且σ(xi)是Y片上的概率分布的方差,σ(xi)=<$y<$2−E(yj2)<$(8)3.3. 特征检测在特征描述学习之后,描述网络被冻结以产生用于关键点检测的密集描述符,如图3所示。由于选择离散稀疏关键点是不可微的,我们采用DISK [46]中介绍的基于策略梯度的策略来实现网络训练。首先,稠密描述符F1和F2分别从I1和I2中提取,并馈送到检测网络来生成关键点热图。然后,我们将这些热图分成大小为gk gk的网格,最多选择一个每个网格单元格的关键点具体来说,我们基于每个网格单元中的热图分数在该单元上建立概率分布Pkp之后,使用P kp来概率性地选择候选关键点Q1=x1,x2,Q2=y1,y2,分别来自I1和I2接下来,基于该fea计算匹配概率Pm每对候选关键点(xi,yj)之间的真实相似度Si,j。 只有相机姿势监督,我们采用类似于等式的极线奖励。6以鼓励yj接近x i的核线(即,,L xi):.λ, 如果距离(y,L)≤λ数据 集MegaDepth 数据集[21]用于训练。我们使用CAPS的训练分割的子集[47]。总共,196个场景中的127个被用作训练集。在训练阶段,图像的大小被调整为640 480,打破了纵横比。所有网络都使用具有nesterov动量的SGD优化器进行训练[43]。 学习率设置为110- 3和批量设定为6。 描述网络是训练了100,000次迭代,检测网络训练了5,000次迭代。所有实验均在单个NVIDIA RTX3090 GPU上使用Pytorch进行在我们的实验中,采样点的数量N线被设置为100,窗口大小w片被设置为0.1(标准化的高度和宽度),网格大小gd和gk分别被在[46]之后,λp、λn和λreg分别设置为1、-0.25和-0.001更多细节请参考补充资料.4.2. 与以前方法的4.2.1特征匹配设置. 我们首先在广泛使用的HPatches数据集[3]上评估我们的方法。在D2-Net [13]之后,去除了8个高分辨率场景,并包括剩余的52个具有光照变化的场景和56个具有视点变化的场景进行评估。使用阈值范围为1至10的平均匹配准确度(MMA)[13]我们还使用不同阈值的MMA加权和进行总体评估:R(xi,yj)=pλn,Jxi如果距离(yj,Lxi)> 、(9)(2 − 0. 1·thr)·MMA@thr其中奖励阈值λ根据经验被设置为2。总损失函数定义为:MMAscore =[1,10].(2 0. 1 thr)(十二)L= −1。ΣLKP(x,y)包括三种方法用于比较:|年q1|+的|Q2|xi,yj新闻报• 基于补丁的方法:Hessian-Affine关键点[26][2]第二个是根。Aff. + Root-SIFT),仿射15844+λ reg. logP kp(xi)+区域检测器HesAffNet [28]与HardNet++[27]xiyj(十)(HAN + HN++)和SIFT [22]与ContextDesc [23](SIFT + ContextDesc)。15845特征匹配方法Num.Num.他Aff. + Root-SIFT67102851电话:+86-10 - 8888888SIFT + ContextDesc4066 1744D2-净额2994 1182R2D24996 1850ASLFeat4013 2009磁盘7705 3851DELF4590 1940SuperPoint1562 883SIFT + CAPS4386 1450磁盘-W6760 3976PoSFeat(Ours)8192 4275图5.在HPatches数据集上实现的结果[3]。示出了在不同阈值下实现的平均匹配精度(MMA)。具有弱监督的基于学习的方法以实线示出,而其他方法以虚线示出。还报告了每种方法的关键点和匹配的数量。≥10≤1(a) 图像对(b)SIFT + CAPS(c)DISK-W(d)PoSFeat(我们的)错误图6.在HPatches上实现的可视化结果为简单起见,仅显示成功匹配的关键点,并根据其匹配错误对其进行着色颜色条显示在右侧。最好用彩色观看。方法MMAscore整体MMAscore照明MMAscore观点他Aff. + Root-SIFT [2]0.5840.5440.624[27]第二十七话:一个人的世界0.6330.6340.633SIFT [22] + ContextDesc [23]0.6360.6130.657D2Net [13]0.5190.6050.440R2D2 [34]0.6950.7270.665[24]第二十四话0.7390.7950.687[第46话]0.7630.8130.716DELF [30]0.5710.9030.262超级点[12]0.6580.7150.606[47]第四十七话:一个人0.6990.7640.639[第46话]0.7190.8030.649PoSFeat(Ours)0.7750.8260.728表1.通过不同方法在HPatches数据集上实现的MMAscore结果[3]。MMAscores由图1计算。五、• 完全监督的密集特征方法:D2-Net [13],R2D2[34],ASLFeat [24]和DISK [46]。• 弱监督密集特征方法:DELF [30],SuperPoint[12],DISK-W [46]和SIFT与CAPS [47](SIFT +CAPS)。结果如图5和表1所示,所提出的PoSFeat优于所有以前的工作,实现了最高的MMAscore。与现有的弱监督方法相比,我们的方法产生了显着的性能改进。具体来说,我们的方法优于-在照明(0.826 vs. 0.803)和视点(0.728 vs. 0.649)变化下,通过显著的裕度形成DISK-W,因此实现了更高的总体MMAscore(0.775 vs. 0.719)。我们还在图6中可视化了匹配结果。 可以看出,我们的PoSFeat产生了更合理的关键点和更少的错误匹配。与完全监督的方法相比,我们的方法在较高的MMA分数下仍然表现良好这清楚地表明了我们方法的优越性。注意,因为DELF在具有固定网格的低分辨率特征图中检测关键点,所以它在照明变化下产生最佳结果。然而,我们的 方 法 显 着 超 过 DELF 下 的 观 点 变 化 ( 0.728vs.0.262 ) , 并 取 得 更 好 的 整 体 性 能 ( 0.775vs.0.571)。4.2.2视觉定位设置.然后,我们使用Aachen Day-Night数据集[51]在视觉本地化任务上评估我们的方法。我们采用官方视觉本地化管道1,用于在不断变化的条件下进行长期视觉本地化的研讨会本地特征挑战此挑战仅评估夜间查询图像的姿态。具有不同阈值的准确性被用作指标,包括1https://github.com/tsattler/visuallocalizationbenchmark/tree/master/局部特征评价15846亚琛昼夜v1表2.通过不同方法在亚琛昼夜数据集上获得的结果[51]。‘LISRD’ represents LISRD with Super- Point keypoints andAdaLAM [提出了两类方法,包括特征方法(顶部)和匹配器(底部)。(0.5m,2μ m),(1m,5μ m)和(5m,10μ m)。我们将我们的方法与两类方法进行比较:• 局部特征方法:D2-Net [13],SuperPoint [12],R2D2 [34] , ASLFeat [24] , ISRF [25] 和 LISRD[33]。•匹配器方法:[20]第二十话[37][42][43]第一次世界大战期间表3.在ETH本地特征基准测试中使用不同方法获得的结果。Patch2Pix [53]和SGMNet [10] + SuperPoint。如第2.4节所述,匹配器是本地特征的合作者,而不是直接竞争者因此,我们将它们分开分组。结果如表2所示,我们的PoSFeat在特征方法中实现了最先进的性能。具体来说,在亚琛Day-Night v1上,我们的方法在所有指标方面都达到了最佳的准确性请注意,虽然ASLFeat是一个完全监督的方法,但我们的PoSFeat仍然超出-在(1 m,5m)上执行。在亚琛Day-Night v1.1上,我们的方法在所有指标中也产生了最佳性能请注意,尽管R2D2 [34],ISRF [25]和LISRD [33]在亚琛昼夜数据集上进行了完全监督和训练,但我们的PoSFeat仍然取得了更好的结果。我们还包括匹配器方法,以供进一步比较。虽然这些方法采用成对的图像作为输入,但我们的PoSFeat实现了相当甚至更好的性能。4.2.33D重建设置.最后,我们评估我们的方法上的三维重建任务。我们在ETH本地特征基准上进行实验[41]。四个度量用于评估,包括配准图像的数量(# Imgs)、稀疏点的数量(# Pts)、轨道长度和平均重投影误差(Reproj.Err.)。包括四个系列的方法进行比较:• 基于补丁的方法:Root-SIFT [2,22]。•有 监 督 的 密 集 特 征 方 法 : Rein-forced FeaturePoints [6](RFP),DISK [46],DISK-W [46],D2-Net [13]和ASLFeat [24]。•弱监督稠密特征方法:Super- Point [12]和CAPS[47]。• 完全监督的匹配器方法:CoAM [49]。结果如表3所示,我们的方法在3D重建任务上与以前的方法相比表现更好。具体来说,我们的方法在所有基于学习的方法中产生最低的重投影误差。此外,我们的方法在跟踪长度方面实现了最好或第二好的性能,这表明我们的关键点是鲁棒的,因此可以在大量图像中跟踪。4.3. 消融研究在本节中,我们首先在HPatches数据集[3]上进行消融实验,以证明我们的解耦训练描述然后检测管道和线到窗口搜索策略的有效性。然后,我们进行实验来研究超参数在我们的方法中的有效性,即,从epipolar线N线采样的点的数量和窗口大小w片。结果和模型设置见图7和表4。解耦训练描述然后检测管道。我们首先构建了一个网络变体(模型2),遵循联合训练描述然后检测管道。也就是说,描述网络和检测网络是联合操作的。方法亚琛昼夜v1.1(0.5m,2分)(1m,5毫米)(5m,10分)(0.5m,2分)(1m,5毫米)(5m,10分)SP [12]74.578.689.8---[13]第十三话74.586.7100---R2D2 [34]76.590.810071.286.997.9[24]第二十四话81.687.8100---ISRF [25]---69.187.498.4LISRD [33]---73.386.997.9PoSFeat(Ours)81.690.810073.887.498.4[20]第二十话---71.286.997.9SP+SuperGlue [37]79.690.810073.388.098.4Sparse-NCNet [35]76.584.798.0---LoFTR [42]---72.888.599.0[53]第五十三话79.687.8100---SP+SGMNet [10]77.688.899.072.385.397.9子集方法图像数量患者数量轨道长度重复。呃。(px)Root-SIFT [2,22]128108k6.320.55南超级点[12]128160k7.830.92建筑RFP [6]128102k7.860.88(128imgs)[第46话]128115k9.910.59[第46话]128154k个9.630.63PoSFeat(Ours)128148k个9.470.58Root-SIFT [2,22]500116k6.320.60超级点[12]43829k9.031.02马德里[13]第十三话50184k6.331.28都市[24]第二十四话61396k8.760.90(1344imgs)[47]第四十七话851242k6.161.03[49]第四十九话702256k6.091.30PoSFeat(Ours)41972k9.180.86Root-SIFT [2,22]1035339k5.520.70超级点[12]96793k7.221.03甘氨酰-[13]第十三话1053250k5.081.19门马克特[24]第二十四话1040221k8.721.00(1463imgs)[47]第四十七话1179627k5.311.00[49]第四十九话1072570k6.601.34PoSFeat(Ours)956240k8.400.92Root-SIFT [2,22]806239k7.760.61超级点[12]68152k8.670.96塔[13]第十三话785180k5.321.24伦敦[24]第二十四话821222k12.520.92(1576imgs)[47]第四十七话1104452K5.810.9815847型号描述词关键点培训1(完整)L2W学习解耦2个L2W学习接头3 L2W SIFT-4 C2F SIFT-DISK-W弱监督DISK模型w补片N线0.0750.1000.125750.77030.77050.76661000.77260.77480.77321250.77320.77450.7744表4.通过我们的描述网络在HPatches数据集上使用不同的N线和w补丁值来图7. HPatch上的消融结果。“L2W” denotes our line-to-window从两个不同组件产生的错误关键点在我们的解耦训练描述-然后-检测流水线内不相互影响。行到窗口搜索策略。为了验证我们的线到窗口搜索策略的有效性,我们开发了一个网络变体(模型4),将我们的搜索策略替换为粗到细的搜索策略(如[47]中提出的,如图4(a)所示)。为了与模型3进行公平的比较,在这个网络变体中使用了SIFT关键点可以观察到,模型3的性能明显优于模型4。这是因为,我们的线到窗口的搜索策略可以充分利用相机的几何信息,以减少搜索空间的准确定位的对应。因此,可以实现更高的精度。表 示 从 粗 到 精 的 搜 索 策 略 [47] ( 如 图 4 ( a ) 所 示 ) 。“learned” means that the keypoints are generated by a detection胆怯然后,我们开发了基于检测-然后描述管道的模型3。具体地说,在模型3中,描述网络与SIFT关键点相结合。如图7所示,在只有弱监督的情况下,优化期间的模糊性限制了联合训练描述然后检测方法(模型2和DISK-W)的性能。此外,模型2在视角变化下甚至不如与模型2相比,3,模型1与我们的解耦训练描述然后检测管道产生更高的准确性。这清楚地表明,我们的解耦训练描述然后检测管道非常适合弱监督学习,以实现卓越的性能。我们进一步测试了关键点和描述符的不同组合(模型5-8)。可以观察到,改进主要来自于描述符,并且关键点在视点改变上略有改进。此外,我们还在图1中说明了我们的方法和DISK-W产生的关键点。DISK-W从对象中生成相当不准确的关键点(例如,在天空中)。相比之下,我们的模型检测到更合理的关键点。这是因为这些不匹配的描述符和采样点数N线和窗口大小w补丁。我们进行实验,研究我们的线到窗口搜索过程中的N线和w补丁的影响。更多的采样点和较大的窗口大小有利于提高性能,但代价是更高的计算成本。为了实现性能和计算复杂度之间的折衷,w patch=0。100和N线=100用作默认设置。5. 结论在本文中,我们介绍了一个解耦的训练描述,然后检测管道为弱监督局部特征学习量身定制。在我们的管道中,检测网络与描述网络解耦,并推迟到获得有区别的和鲁棒的描述符。此外,我们提出了一个线到窗口的搜索策略,明确使用相机的姿态信息,以减少搜索空间,更好的描述符学习。大量的实验表明,我们的方法在三种不同的评估框架上达到了最先进的性能,并显着缩小了全监督和弱监督方法之间的差距。谢 谢 。 本 课 题 得 到 了 国 家 重 点 研 究 发 展 计 划( No.2021YFB3100800 ) 、 深 圳 市 科 技 计 划(No.RCYX20200714114641140)和国家自然科学基金(No.U20A20185,61972435,62132021)的部分资助。型号1(全)234模型5678弱监督DISK模型PoSFeatPoSFeatPoSFeatDISK-WDISK-W描述符关键点解耦接头--L2W学习L2W学习L2W SIFTC2F SIFT培训描述符关键点15848引用[1] Sameer Agarwal、Yasutaka Furukawa、Noah Snavely、Ian Si-mon 、 Brian Curless 、 Steven M Seitz 和 RichardSzeliski。罗马在一天之内建成Communications of theACM,54(10):105-112,2011. 1[2] Relja Arandjelovic和Andrew Zisserman每个人都应该知道的三件事,以提高对象检索。在IEEE/CVF计算机视觉和模式识别会议(CVPR)的Proceedings,第2911-2918页五、六、七[3] Vassileios Balntas , Karel Lenc ,Andrea Vedaldi, andKrys- tian Mikolajczyk. HPatches : A Benchmark andEvaluation of Handcrafted and Learned Local Descriptors.IEEE/CVF计算机视觉和模式识别会议(CVPR),2017年。五、六、七[4] 阿克塞尔·巴罗佐-拉古纳、埃德加·里巴、丹尼尔·庞萨和克里斯-蒂安·米科莱奇克。通过手工制作和学习CNN过滤器进行关键点检测。在IEEE/CVF计算机视觉国际会议(ICCV)的会议记录中,第5836-5844页,2019年。2[5] 赫伯特·贝、丁尼·图伊特拉尔斯和吕克·范古尔。SURF:加速强大的功能。在欧洲计算机视觉会议(ECCV)的会议记录中,第404- 417页,2006年。1[6] Aritra Bhowmik,Stefan Gumhold,Carsten Rother,andEric Brachmann.增强的特征点:为高级任务优化特征检测和描述。在IEEE/CVF计算机视觉和模式识别会议(CVPR)中,第49487[7] Sudong Cai,Yulan Guo,Salman Khan,Jiwei Hu,andGongjian Wen.具有硬样本重加权三重丢失的地空图像地理定位。在IEEE/CVF国际计算机视觉会议(ICCV)的会议记录中,第8391-8400页1[8] Michael Calonder,Vincent Lepetit,Mustafa Ozuysal,Tomasz Trzcinski,Christoph Strecha,and Pascal Fua.简介:快速计算局部二进制描述符。IEEE Transactions onPattern Analysis and Machine Inteligence(TPAMI),34(7):1281-1298,2011。1[9] Luca Cavalli , Viktor Larsson , Martin Ralf Oswald ,Torsten Sattler,and Marc Pollefeys.手工离群检测再访。在欧洲计算机视觉会议(ECCV)的会议记录中,第770-787页,2020年。7[10] Hongkai Chen,Zixin Luo,Jiahui Zhang,Lei Zhou,Xuyang Bai,Zeyu Hu,Chiew-Lan Tai,and Long Quan.学习用种子图匹配网络匹配特征。在IEEE/CVF计算机视觉国际会议(ICCV)的会议记录中,第6301-6310页,2021年。三、七[11] Peter Hviid Christiansen , Mikkel Fly Kragh , YuryBrodskiy,and Henrik Karstoft.UnsuperPoint:端到端非监督兴趣点检测器和描述符。arXiv预印本arXiv:1907.04011,2019。3[12] Daniel DeTone,Tomasz Malisiewicz,and Andrew Rabi-novich. SuperPoint:自我监督的兴趣点检测和描述。在IEEE/CVF计算机视觉和模式识别研讨会(CVPRW)会议中,第224-236页,2018年。一、三、六、七[13] Mihai Dusmanu、Ignacio Rocco、Tomas Pajdla、MarcPolle-feys、Josef Sivic、Akihiko Torii和Torsten Sattler。D2-Net : A Trainable CNN for Joint Detection andDescription of Loc-cal Features.在IEEE/CVF计算机视觉和模式识别会议论文集(CVPR),2019。一、二、五、六、七[14] Patrick Ebel , Anastasiia Mishchuk , Kwang Moo Yi ,Pascal Fua,and Eduard Trulls.超越局部描述符的笛卡尔表示。在IEEE/CVF国际计算机视觉会议(ICCV)的会议记录中,第253-262页,2019年。2[15] 史蒂夫·冈恩。离散高斯拉普拉斯下的边缘检测误差。在 Proceedings of the International Confere
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功