没有合适的资源?快使用搜索试试~ 我知道了~
5836Key.Net:通过手工制作和学习的CNN过滤器进行关键点检测Axel Barroso-Laguna1Edgar Riba2,3Daniel Ponsa2KrystianMikolajczyk11 Imperial College London2 Computer Vision Center3 Arraiy,Inc.{axel.barroso17,k.mikolajczyk} @ imperial.ac.uk{ eriba,daniel} @ cvc.uab.es摘要我们介绍了一种用于关键点检测任务的新方法,该方法将手工制作和学习的CNN滤波器结合在浅多尺度架构中。手工制作的过滤器为学习过滤器提供锚定结构,其对可重复特征进行本地化、评分和尺度空间表示在网络中用于提取不同级别的关键点。我们设计了一个损失函数来检测存在于一系列尺度上的鲁棒特征,并最大化可重复性得分。我们的Key.Net模型在ImageNet综合创建的数据上进行训练,并在HPatches基准上进行评估结果表明,我们的方法在可重复性方面优于现有技术的检测器图1:H建议的Key.Net架构结合了匹配性能和复杂性。1. 介绍局部特征检测器和描述器的研究进展在图像匹配、目标识别、自主导航或三维重建等领域取得了显著的进步。虽然图像匹配方法的总体方向是向基于学习的系统发展,但在关键点检测中,学习方法相对于手工方法的优势尚未得到明确证明[1]。特别是,卷积神经网络(CNN)能够显着减少局部描述符中的匹配错误[2],尽管初始技术[3,4]的效率不高。这些工作刺激了进一步的研究工作,并导致基于CNN的描述符的效率提高,相反,在学习检测器的有限成功之上,总体趋势是密集而不是稀疏表示,并且将局部特征检测器放在一边。然而,增强现实(AR)耳机以及AR智能手机应用的日益流行已经引起了对可靠且高效的局部特征检测器的更多关注,所述局部特征检测器可以用于表面估计、稀疏3D重建、3D模型获取或对象对准等。传统上,局部特征检测器基于工程滤波器。例如,差异化手工制作和学习的过滤器,以提取不同尺度级别的特征。对特征图进行上采样和关联。最后学习的过滤器组合缩放空间体积以获得最终响应图。Gaussians [5],Harris-Laplace或Hessian-Affine [6]使用图像导数的组合来计算特征图,这与训练的CNN层中的操作非常相似直观地说,只需几层,网络就可以通过学习卷积滤波器中的适当值来模仿传统检测器的行为。然而,与基于CNN的局部图像描述符的成功不同,最近提出的完全基于CNN的方法[7,8,9,10,11]所提供的手工检测器的改进在广泛接受的度量(例如可重复性)方面受到限制。原因之一是它们在估计特征区域的仿射参数时的低精度。对尺度变化的鲁棒性似乎特别成问题,而其他参数(如主导方向)可以通过CNN很好地回归[12,7]。这激励了我们的新架构,称为Key.Net,它利用手工制作和学习的过滤器以及多尺度表示。Key.Net体系结构如图1所示。引入作为软锚的手工制作的滤波器,使得可以减少由最先进的检测器使用的参数的数量,同时保持每个检测器的性能。WM起3米5837在可重复性方面的性能。该模型对全尺寸图像的多尺度表示进行操作,并返回包含每个像素的关键点得分的响应图多尺度输入允许网络提出跨尺度的稳定关键点,从而提供对尺度变化的鲁棒性。理想地,鲁棒检测器能够为经历不同几何或光度量变换的图像提出相同的许多相关的工作都集中在他们的目标函数来解决这个问题,尽管他们是基于局部补丁[9,10]或全局地图回归损失[13,14,11]。相比之下,我们扩展到一个新的目标函数,结合本地和全球信息的协变约束损失。我们设计了一个完全可微的运营商,多尺度索引建议,提出在多尺度区域的关键点。我们根据[15]中的协议,在最近引入的HPatches基准[2]中,在准确性和可重复性方面对该方法进行了总之,我们的贡献如下:a)结合手工制作和学习的CNN特征的关键点检测器,b)用于跨尺度检测和排名稳定关键点的新型多尺度损失和算子,c)具有浅架构的多尺度特征检测。本文的其余部分组织如下。在第二节中我们回顾了相关的工作.第3节介绍了我们提出的手工制作和学习CNN过滤器的混合Key.Net架构,第4节介绍了损失。实施和实验细节在第5节中给出,并且结果在第6节中呈现。2. 相关工作有许多调查广泛讨论了特征检测方法[1,16]。我们将相关作品分为两大类:手工制作和学习的基础上。2.1. 手工制作的探测器传统的特征检测器通过工程算法定位几何结构,这通常被称为手工制作。Harris [17]和Hessian [18]检测器使用一阶和二阶图像导数来查找图像中的角点或斑点。这些检测器被进一步扩展以处理多尺度和仿射变换[6,19]。后来,SURF [20]通过使用积分图像和Hesian矩阵的近似来加速检测过程。KAZE [21]及其扩展A-KAZE [22]中提出了多尺度改进,其中与广泛使用的高斯金字塔相比,Hessian检测器被应用于非线性扩散尺度空间虽然角点检测器被证明是鲁棒和有效的,但其他方法在图像内寻找替代结构。SIFT [5]在多个尺度水平上寻找斑点,MSER [23]分割并选择稳定区域作为关键点。2.2. 学习检测器学习方法在一般对象检测和特征描述符中的成功促使研究团体探索用于特征检测器的类似技术。FAST[24]是使用机器学习来导出拐角关键点检测器的第一次尝试之一。进一步的工作通过优化它扩展了FAST[25],添加了描述符[26]或方向估计[27]。CNN的最新进展也对特征检测产生了影响TILDE[14]训练了多个分段线性回归模型,以识别在恶劣天气和光照变化下稳健的兴趣点。[9]引入了一种新的公式来基于特征协变约束训练CNN。以前的探测器在[10]通过添加预定义的检测器锚点,在训练中显示出改进的稳定性。[8]提出了两个网络,MagicPoint和MagicWarp,首先提取显著点,然后在图像对之间进行 参 数 化 变 换 。 MagicPoint 在 [13] 中 扩 展 为 Su-perPoint,其中包括显着检测器和描述符。LIFT [7]实现了端到端的特征检测和描述流水线,包括每个特征的方向估计。在[28]中使用四重图像块和作为成本函数的点响应的排序方案来训练神经网络。在[29]中,作者提出了一种管道,用于从区域建议网络中自动采样正和负补丁对,以联合优化点检测及其表示。最近,LF-Net [11]通过联合优化检测器和描述符来估计特征的位置、尺度和方向除了上面提出的学习检测器之外,还部署了CNN架构来优化匹配阶段。 [30]学习预测哪些特征和描述符是匹配的。最近,[31]引入了一个网络来学习寻找宽基线立体声的良好对应。此外,其他CNN也被研究用于执行检测或匹配之外的任务。在[12]中,该架构将方向分配给兴趣点,AffNet [32]使用描述符损失来学习预测局部特征的仿射参数。3. 关键.Net架构Key.Net体系结构结合了手工制作和学习方法的成功想法,即基于梯度的特征提取,低级特征和多尺度金字塔表示的学习组合。3.1. 手工制作和学习过滤器手工制作的滤波器的设计灵感来自Harris [17]和Hessian [18]检测器的成功,其使用一阶和二阶导数来计算显着的拐角响应。一个完整的导数集是5838XY图2:暹罗训练过程。图Ia和Ib通过Key.Net生成它们的响应图Ra和Rb。M-SIP为多尺度区域处的每个窗口提出兴趣点坐标。最终损失函数被计算为来自Ia的坐标索引和来自Ib的局部最大坐标的回归。更好地可视化颜色。称为LocalJet[33],并且它们近似于从泰勒展开已知的局部邻域中的信号:Ii1,. in=I0i1,…,其中,gσ表示以-x为中心的宽度σ的高斯分布=-0,并且i,n表示方向。更高阶的deriv ativ es,即,n >2对噪声敏感并且需要大的内核,因此,我们包括导数和它们的组合高达只有第二个命令:• 第一个了. 从图像I,我们导出一阶梯度Ix和Iy。此外,我们计算IxIy,Ix2和Iy2,如Harris检测器[17]的二阶矩矩阵中所示• 第二秩序从图像I,二阶导数Ixx、Iyy和Ixy也被包括在Hessian和DoG检测器中使用的Hessian矩阵中[34,5]。由于Hessian检测器使用Hessian矩阵的行列式,我们添加I xx*I yy和I2。• 学具有M个过滤器的卷积层、批量归一化层和ReLU激活函数形成学习块。硬编码滤波器减少了用于训练架构的总可学习参数的数量,从而提高了反向传播期间的稳定性和收敛性。3.2. 多尺度金字塔我们设计我们的架构是强大的小规模的变化,而不需要计算几个向前通过。 如图1所示,该网络包括输入图像的三个尺度级别,该输入图像被模糊并以因子1进行下采样。二、 手工过滤器产生的所有特征图都被连接起来,以提供每个尺度级别中的学习过滤器的堆栈。所有三个流共享权重,使得相同类型的anchor从不同级别产生并且形成最终关键点的候选集然后,对来自所有尺度级别的特征图进行上采样、级联并馈送到最后一个卷积滤波器以获得最终响应图。4. 损失函数在监督训练中,损失函数依赖于地面实况。 在关键点的情况下,地面实况是 没有被很好地定义为关键点位置是有用的,只要它们可以被准确地检测到而不管几何或光度图像变换。一些学习检测器[9,28,11]训练网络识别关键点,而不限制其位置,其中仅使用图像之间的同态变换作为基础事实来计算作为关键点可重复性函数的损失其他作品[14,13,10]显示了使用锚来指导训练的好处。虽然锚点使训练更稳定并导致更好的结果,但它们阻止网络提出新的关键点,以防出现附近没有锚相反,Key.Net中手工制作的过滤器提供了一个弱约束,具有基于锚点的方法的优点,同时允许检测器提出新的稳定关键点。在我们的方法中,只需要图像之间的几何变换来引导损失。4.1. 索引建议层本节介绍索引建议(IP)层,其在4.2节中扩展到其多尺度版本。提取用于训练关键点检测器的坐标已被广泛研究,并 显示 出 很 大的 改 进 :[7 , 9 , 10]在 面片 级 别 、SuperPoint中提取坐标5839[13]使用通道softmax来获得属于8x8固定网格的最大值,[35]使用空间softmax层来计算特征图的全局最大值,每个特征图获得与先前的方法相比,IP层能够从单个图像返回以局部最大值为中心的多个全局关键点坐标,而不将关键点的数量约束到特征图的深度[35]或网格的大小[13]。类似于手工技术,关键点位置由Key.Net输出的滤波器响应图R的局部最大值指示。空间softmax算子是提取软极大值位置的一种有效方法在一个窗口[7,35,11,13]。因此,为了确保IP层是完全可微的,我们依赖于空间软最大算子来获得每个窗口的单个关键点的坐标。 考虑R中大小为N×N的窗口wi,其中在胜利内的每个坐标[u,v]处的得分值dow,指数缩放和归一化:ewi(u,v)图3:向M-SIP操作者添加较大上下文窗口后获得的关键点。随着M-SIP运营商增加其窗口大小,更稳定的点仍然存在mi(u,v)=ΣNj,k.(二)ewi(j,k)中间行中的特征图包含边缘周围的点或非区分区域,而底部行示出检测区域。由于指数缩放,最大值占主导地位,并且作为加权平均[u¯i,v¯i]计算的期望位置给出了最大坐标的近似值:ΣN[xi,yi]T=[u¯i,v¯i]T=[W⊙mi,W T⊙mi]T+cw ,(3)u,v其中W是大小为N×N的核,沿着其列具有索引值j=1:N,逐点积⊙,并且cw是窗口wi的左上角坐标。这是类似于非最大值抑制(NMS),但不同于NMS,IP层是可微分的,并且它是窗口的全局最大值的加权平均,而不是窗口的精确位置取决于等式2中的功率表达式的基础,多个局部最大值可能对所得坐标具有或多或少的显著影响。如果在不同的图像变换下检测到相同的特征,则检测器是协变的。协变约束在[9]中被表述为回归问题。给定图像Ia和Ib,以及地面真值单应性Hb,其中,损失L基于由IP层提取的点与实际最大坐标之间的平方差从Ia和Ib在对应窗口中显示Nates(NMS):在几何变换下更鲁棒的选择。值,因此仅计算重要特征的损失。由于NMS是不可微的,因此梯度仅在应用IP层的情况下被反向传播,因此,我们切换Ia和Ib并且组合两个损失以强制一致性。4.2. 多尺度索引建议层IP层每个窗口返回一个位置,因此,每个图像的关键点的数量强烈地取决于预定义的窗口大小N,特别地,随着大小的增加,只有少数主导关键点在图像中存活。在[36]中,作者证明了通过不仅在空间窗口内而且在相邻尺度内累积图像特征来提高局部特征的性能。我们建议通过将多尺度表示的局部邻域来扩展IP层损失。多窗口大小鼓励网络找到存在于一系列尺度上的关键点。包含较大窗的额外益处是窗内的其它关键点可充当主导关键点的估计位置的锚。类似的想法在[37]中被证明是成功的,其中使用了稳定的区域边界。L(I,I,HΣ,N)=α[ x,y] T-H[x,y]T2,因此,我们提出多尺度指数建议IP一B甲乙丙我我Ia我细介绍我Ib(M-SIP)层。M-SIP将响应映射多次分割成网格,每个网格的窗口大小为Ns×Ns,并且且αi=Ra (xi ,yi ) a+Rb (x(i ,y(i)b),(4)其中Ra和Rb是Ia和Ib的响应图,其坐标由单应性Hb,a相关。为了简单起见,我们跳过同质坐标参数αicon-计算每个窗口如图2所示。我们提出的损失函数是来自所有尺度水平的协变约束损失的平均值:ΣL(I,I,H)=λL(I,I,H,N),(5)根据每个位置的得分来跟踪其贡献MSIP一B甲乙丙SIP一BSa、b、s5840其中s是尺度水平的索引,Ns作为窗口大小,LIP是协变约束损失,λs是尺度水平s处的控制参数,其随着窗口面积的增加而成比例地减小,因为较大的窗口导致较大的损失,这在某种程度上类似于尺度空间标准化[6]。不同尺度的组合强加了一个内在的过程,即同时对网络中的关键点进行评分和排名。为了使损失最小化,网络必须学会对在一系列尺度上保持主导的鲁棒特征给予更高的分数图3显示了增加窗口大小的不同响应图。5. 实验设置在本节中,我们介绍了实施细节,metrics和用于评估该方法的数据集。5.1. 训练数据我们从ImageNet ILSVRC 2012数据集生成一个合成训练集。我们将随机几何变换应用于图像,并提取相应的区域对作为我们的训练集。该过程在图4中示出。变换的参数为:规模[0。五、三。5],s ke w[−0. 八比零。8]和旋转[−60◦,60◦]。由于无特征区域是无差别的,因此,我们讨论了无特征区域的特征。通过检查任何手工制作的过滤器的响应是否低于阈值来卡它们。我们修改的对比度,亮度和色调值在HSV空间的图像之一,以提高网络此外,对于每一对,我们生成表示图像之间的公共区域的二元掩模在训练中使用这些掩模以避免回归不存在于公共区域中的关键点的gion。有12,000个大小为192× 192的图像对。我们使用其中的9,000个作为训练数据,3,000个作为有效数据-设置。5.2. 评估指标我们遵循[15]中提出的评价方案,并在后续工作中进行了改进[7,9,10,1]。一对图像的可重复性分数被计算为对应关键点的数量与在两个图像中的一个中检测到的关键点的较低 我们固定提取的关键点的数量以在方法之间进行比较,并允许每个关键点仅匹配一次,如[25,14]所示。此外,如[1]所揭示的,我们解决了来自放大因子的偏差,该放大因子被应用于加速多尺度关键点之间的重叠误差的计算。关键点通过检测特征的空间坐标和尺度来识别。为了识别对应的关键点,我们计算交集-图4:我们将随机几何和光度变换应用于图像,并提取相应的区域对作为训练集。通过检查手工制作的过滤器的响应来丢弃红色裁剪。规模独立,我们进行了两组实验。一种是基于检测到的尺度,另一种是假设通过使用地面实况参数正确地检测到尺度。在我们的基准测试中,我们使用属于图像之间的公共区域的前1,000个兴趣点,并且当IoU小于0.4时,匹配被认为是正确的,即,相应区域之间的重叠大于60%。尺度如[1]中那样被归一化,其将一对点中的较大尺寸设置为30像素,并且相应地重新缩放另一个。在评估期间的推断时间执行15×15的非最大值抑制HPatches [2]数据集用于测试。HPatches包含116个序列,这些序列在视点和照明变换之间被分割,59和57个序列重新组合。分别为。HPatches提供了预定义的图像补丁来评估描述符,相反,我们使用完整的图像来评估关键点检测器。5.3. 实施说明训练是在一个连体管道中执行的,两个Key.Net实例共享权值,并同时更新。每个卷积层具有M= 8个大小为5×5的滤波器,具有He权重初始化和L2核正则化器。我们计算了五个尺度水平的协变约束损失LM-SIP,其中M-SIP窗口的大小Ns∈[8,16,24,32,40]和损失项λs∈[256,64,16,4,1],由执行-在验证集上执行超参数搜索较大候选窗口尺寸在坐标点之间具有更大的平均误差,因为最大距离与窗口尺寸成比例。因此,λs对于最小窗口 具 有 最 大 值 我 们 使 用 的 批 量 大 小 为 32 , AdamOptimizer的学习率为10−3,衰减因子为0.5 在20个时期之后。平均而言,体系结构收敛在30个epoch中,在具有运行在3.60GHz的i7-7700 CPU和NVIDIA GeForce GTX 1080 Ti的机器上运行2小时评估基准,合成数据生成器,Key.Net网络和损失使用TensorFlow实现,并可在GitHub1上使用。两个区域之间的过联合误差IoU可以-didates 要评估关键点位置和1的准确性,请访问https://github.com/axelBarroso/Key.Net5841M-SIP区域大小宽8x8宽16x16宽24x24宽32x32宽40x40重复性543210.72 0.74 0.76重复性0.80图5:左图:M-SIP操作符中几个水平的重复性结果比较我们将不同的上下文损失组合作为最终损失,从较小到较大的区域。当使用从8×8到40×40的五种窗口尺寸时,获得了最佳结果。右:手工制作的过滤器和许多可学习层(每个M=8个过滤器)的不同组合的重复性结果。层数越多,结果越好。所有可重复性得分都是在ImageNet的合成验证集上计算的。Num.金字塔等级1 2 3 4 5 6众议员72.5 74.6 79.1 79.479.578.6(a) Key.Net中的输入比例级别数空间Softmax基础1.2 1.4 2.0e5.0 7.5众议员77.5 78.4 77.979.174.6(b) 公式2中使用的空间softmax基础。表1:ImageNet合成验证集上不同设计选择的重复性结果。6. 结果在本节中,我们将介绍实验并讨论结果。我们首先展示了所提出的架构的几个变种的验证数据的结果接下来,Key.Net在单尺度和多尺度上的可重复性得分与HPatches上最先进的检测器一起此外,我们评估的匹配性能,可学习的参数和推理时间,我们提出的检测器的数量,并与其他技术进行比较。6.1. 初步分析我们研究了几种组合的损失条款,不同的手工制作的过滤器和可学习的层或金字塔内的架构水平的数量的影响图5(左)中对M-SIP水平进行了研究,显示M-SIP操作员中的更多标度水平可增加重复性。此外,我们展示了如何与较小的窗口大小N的损失提高了可重复性。然而,当所有水平组合时获得最佳结果。滤波器组合分析见图5(右)。我们示出了1阶和2阶滤波器以及它们组合的结果。所有网络都有相同数量的文件-然而,我们要么用手工制作的内核冻结第一层的10个过滤器(c. f.第3.1节)或根据我们的网络变体学习它们,例如,在完全可学习的Key.Net中,没有手工制作的过滤器,因为所有过滤器都是随机初始化和学习的。结果表明,手工制作的过滤器提供的信息是必不可少的,当可学习的层数是小的。手工制作的过滤器充当软约束,其直接丢弃没有梯度成分的区域,即无差别,重复性低。然而,随着我们添加更多的可学习块,组合网络和完全可学习网络的可重复性得分变得可比较。当然,基于梯度的手工制作的过滤器是简单的,并且如果需要的话,然而,工程功能的使用总之,组合两种类型的过滤器允许显著减少可学习层的数量。在接下来的实验中,我们使用带有三个可学习块的Key.Net架构。网络输入端的多个金字塔等级也会影响检测性能,如表1a所示。对于单个金字塔级别,仅原始图像用作输入。添加金字塔级别类似于增加体系结构中感受野的大小。我们的实验表明,使用三个以上的水平不会导致显着改善的结果。在验证集上因此,我们使用三个级别,实现良好的性能,同时保持计算成本低。等式2中的Spatial Softmax Base定义关键点坐标的估计有多软。高值返回完全可学习的第一阶2阶1阶和第2阶C----70.5CC---74.6CCC--76.8CCCC-77.6----C65.7---CC71.4--CCC73.2-CCCC74.9CCCCC79.1可学习块的5842视点照明重复性IoUSrange重复性IoUSrangeSLLSLLSLSLLSLLSLSIFT-SI [5]43.157.60.180.1278.647.860.40.180.1284.5SURF-SI [20]46.760.30.180.1824.853.064.00.150.1127.4FAST-TI[24]30.463.10.210.10-63.663.60.090.09-MSER-SI [23]56.462.80.120.08503.746.554.50.120.10524.8哈里斯-拉普拉斯-SI[34]45.162.00.200.1395.952.762.00.170.0890.4Kaze-SI [21]53.365.70.200.1112.556.965.70.120.1012.7[22]第二十二话54.065.60.190.1013.564.969.10.110.0913.6[第14话]31.065.10.200.15-70.470.40.110.11-LIFT-SI [7]43.459.40.200.1313.351.665.40.180.1213.8DNet-SI [9]49.462.20.210.1411.459.165.10.140.1317.1TCDET-SI [10]49.661.60.230.166.766.971.00.160.1511.4SuperPoint-TI [13]33.367.10.200.17-69.969.90.100.10-LF-Net-SI [11]32.362.20.230.122.0068.669.10.100.102.0Tiny-Key.Net-SI57.870.30.200.127.656.162.80.140.117.6Key.Net-TI34.271.50.200.11-72.072.00.100.10-Key.Net-SI60.573.20.190.147.661.366.20.120.107.6表2:HPatch上平移(TI)和尺度(SI)不变检测器的重复性结果(%) 我们还报告了平均重叠误差'IoU和最大与最小提取比例SRange的比值。在SL中,尺度和位置被用来计算重叠误差,同时,在L中,仅使用位置,并假设尺度被正确估计。Net和Tiny-Key.NET是L和SL的视点上最好的算法在照明序列上,平移不变的Key.Net-TI获得了最好的精度。在尺度不变的SI检测器中,TCDET在L和LF-Net在SL中是最好的。窗口内的全局最大值的位置,而低值平均局部最大值。碱在表1b中变化。当使用接近e值的等式2中的基数时,获得最佳分数,这与[35]中使用的设置一致。6.2. 关键点检测本节介绍了最先进的局部特征检测器的结果以及我们提出的方法。表2显示了重复性得分、平均交并误差'IoU和标度范围Srange,标度范围S r an g e是提取的兴趣点的最大和最小标度值之间的比率后缀-TI和-SI分别指平移(仅在单个尺度下检测)和尺度不变性(在多个尺度下检测)。关键点位置仅在L下通过假设正确的尺度检测进行评估,而尺度和位置(SL)使用实际检测的尺度和位置来计算重复性和重叠误差。除了Key.NET之外,我们还提出了Tiny-Key.NET,这是一个缩小的架构,所有的过滤器都是手工制作的 , 但 只 有 一 个 可 学 习 的 层 , 其 中 一 个 过 滤 器(M=1)和一个过滤器(M = 1)。单标度输入。Tiny-Key.NET背后的想法是演示了在保持良好性能的同时,复杂性可以降低到何种程度。Key.NET和Tiny-Key.NET是通过在几个缩放图像上评估检测器扩展到尺度不变性,类似于[10]。我们还展示了单尺度输入Key.Net-TI的结果,将其直接与其他TI检测器(如SuperPoint或TILDE)进行比较。我们设置算法的阈值,使它们在每张图像上至少返回1,000个点由于MSER提出的区域没有评分或排名,因此我们随机选取1,000个点来计算结果。我们重复该实验10次,并对MSER的结果进行平均。在位置和比例方面,Key.Net在视点序列上有最好的结果。Tiny-Key.NET的表现不如Key.NET,但它在Key.Net-TI和Key.Net-SI之后的前三名可重复性得分中。在照明序列上,Key.Net-TI在TI检测器中表现最好,不受尺度估计误差的影响。TCDET使用TILDE检测到的点作为锚点,与其他SI检测器相比,TCDET在位置估计方面是最准确的。注意,基于TILDE的检测器是针对照明序列专门设计和训练的。根据SL重叠,LF-Net是最好的SI检测器,不会受到不正确的尺度估计的影响。然而,它的重复性下降最多的从L到SL中的所有SI检测器的视点序列。Key.Net-SI比其他方法更好地解决了尺度变化,但多尺度采样中的误差影响了它5843匹配分数视图Illum[38]第23话11.718.8SIFT [5] + HardNet [38]23.224.8[38]第三十四话:我的世界30.031.7[38]第22话36.441.4[38]第38话32.339.3[38]第七届中国国际汽车工业展览会30.332.8[38]第38话33.534.7[38]第38话27.636.3[38]第十三话:我的世界37.443.0[38]第十一届全国人大代表26.943.8电梯[7]21.826.5超级点[13]38.041.5LF-Net [11]23.029.1Tiny-Key.Net + HardNet [38]37.937.3关键.Net + HardNet [38]38.439.7表3:最佳检测器与HardNet和最先进的检测器/描述符的匹配得分(%)HPatches序列的结果,包括视点和照明。Key.Net架构获得视点的最佳匹配分数,而LF-Net+HardNet获得照明序列的最佳匹配分数。当图像之间没有比例变化时,即,照明序列。这经常被观察到的检测器具有更多的不变性比所需的数据。手工制作的探测器在所有探测器中具有最小的平均重叠误差IoUMSER检测的尺度范围很宽,由于其特征分割的性质,它具有从不同尺度提取局部特征的能力。6.3. 关键点匹配此外,为了证明检测到的特征对于匹配是有用的,表3示出了与HardNet描述符组合的检测器的匹配由于我们的方法只关注检测部分,并且为了公平比较,我们使用相同的描述符并丢弃提供它的所有方法的方向。此外,我们在表中包括LIFT [7],SuperPoint [13]和 LF-Net [11] 及 其 描 述 符 , 但 忽 略 其 方 向 估 计 。SuperPoint和LF-Net具有256个描述符维度,而HardNet[38]和LIFT的维度为128。匹配分数被计算为匹配的特征和检测到的特征之间的比率(前1,000)。最高匹配 分 数 是 由 Key.NET 在 视 点 上 获 得 的 , LF-Net+HardNet在光照上获得的。与描述符[7,13,11]联合优化的特征检测器比IL上的常规学习检测器具有更好的匹配得分可学习参数TCDET SuperPoint LF-Net Tiny-Key.Net Key.Net548k 940k 39k2805.9k表 4 : 最 先 进 架 构 的 可 学 习 参 数 数 量 的 比 较 Tiny-Key.NET只有一个带过滤器的可学习块。照明序列,但不是视点。手工制作的AKAZE在视点和照明序列方面的表现接近顶级学习方法6.4. 效率我们还比较了可学习参数的数量,从而指示预测器的复杂性,这导致过度拟合的风险增加并且需要大量的训练数据。表4显示了不同架构的参数的大致数量。对于SuperPoint和LF-Net检测器,在检测器部分中的推理期间未使用的可学习参数不被计数。最高的复杂度来 自 SuperPoint , 具 有 940k 个 可 学 习 参 数 。 与SuperPoint相比,Key.NET的参数少了近160倍,Tiny-Key.NET的参数少了3100倍,视点场景的可重复性更好对于600× 600的图像,Tiny-Key.Net和Key.Net的推理时间分别为5.7ms(175 FPS)和31 ms(32.25 FPS)分别7. 结论我们引入了一种新的方法来检测局部特征,该方法结合了手工制作和学习的CNN滤波器。我们提出了一个多尺度索引建议层,它可以在一系列尺度上找到关键点,并使用一个损失函数来优化检测的鲁棒性和区分特性。我们演示了如何计算和组合多尺度表示的可微关键点检测损失。大型基准测试的评估结果表明,与其他最先进的关键点检测方法相比,在网络的不同阶段组合手工制作和学习的特征以及多尺度分析提高了可重复性分数。我们进一步表明,过度增加网络的复杂性不会导致改善的结果。相比之下,使用手工制作的过滤器允许显着降低架构的复杂性,导致检测器具有280个可学习的参数和每秒175帧的推断。建议的检测器导致国家的最先进的匹配性能时,使用的描述符的观点。5844引用[1] Karel Lenc和Andrea Vedaldi。单应性数据集上局部图像特征检测器的大规模评估BMVC,2018年。[2] Vassileios Balntas , Karel Lenc ,Andrea Vedaldi, andKrys- tian Mikolajczyk.Hpatches:手工制作和学习的本地描述符的基准和评估CVPR,2017年。[3] 韩旭峰、梁建民、贾阳青、苏坦卡、王建民.伯格。Matchnet:Unifying feature and metric learning for patch-based matching.CVPR,2015年。[4] Sergey Zagoruyko和Nikos Komodakis学习通过卷积神经网络比较图像补丁。CVPR,2015年。[5] David G.洛从尺度不变关键点中提取独特的图像特征。IJCV,2004年。[6] Krystian Mikolajczyk和Cordelia Schmid。尺度仿射不变兴趣点检测器。ICCV,2004年。[7] Kwang Moo Yi , Eduard Trulls ,Vincent Lepetit, andPascal Fua. Lift:学习的不变特征变换。ECCV,2016。[8] Daniel DeTone,Tomasz Malisiewicz,and Andrew Rabi-novich. 向 几 何 深 满 贯 。 arXiv 预 印 本 arXiv :1707.07410,2017。[9] Karel Lenc和Andrea Vedaldi。学习协变特征检测器。ECCV,2016。[10] 作者:张旭,费利克斯. Yu,Svebor Karaman,andShih-Fu Chang.学习判别和变换协变局部特征检测器。CVPR,2017年。[11] Yuki Ono 、 Eduard Trulls 、 Pascal Fua 和 Kwang MooYi。LF-Net:从图像中学习局部特征。NIPS,2018年。[12] Kwang Moo Yi,Yannick Verdie,Pascal Fua和VincentLepetit。学习为特征点指定方向。CVPR,2016年。[13] Daniel DeTone,Tomasz Malisiewicz,and Andrew Rabi-novich. Superpoint:自监督兴趣点检测和描述。CVPR研讨会,2017年。[14] Yannick Verdie、Kwang Moo Yi、Pascal Fua和VincentLepetit。一个时间不变的学习检测器。CVPR,2015年。[15] Krystian Mikolajczyk和Cordelia Schmid。局部描述符的性能评估。TPAMI,2005年。[16] Tinne Tuytelaars和Krystian Mikolajczyk。局部不变特征检测器:调查。计算机图形与视觉的基础与趋势,2008。[17] 克里斯·哈里斯和迈克·斯蒂芬斯。一种组合的角点和边缘检测器。阿尔维视觉会议,1988年。[18] 保罗·博德特旋转不变图像算子。ICPR,1978年。[19] Krystian Mikolajczyk 、 Tinne Tuytelaars 、 CordeliaSchmid 、 Andrew Zisserman 、 Jiri Matas 、 FrederikSchaffalitzky、Timor Kadir和Luc Van Gool。仿射区域检测器的比较。IJCV,2005年。[20] Herbert Bay,Andreas Ess,Tinne Tuytelaars,and LucVan Gool.加速健壮功能(冲浪)。计算机视觉与图像理解,2008。[21] 巴勃罗·弗恩·阿南德斯·阿尔坎塔里拉,阿德里安·巴托利,安德烈·w·J·戴维森。Kaze功能。ECCV,2012年。[22] 巴勃罗·弗尔·纳兹·阿尔坎塔里拉,耶稣你的女儿,阿德里安·巴尔托利.非线性尺度空间中加速特征的快速显式扩散。BMVC,2013年。[23] Jiri Matas、Chum Ondrej、Urban Martin和Pajdla Toms。鲁棒的宽基线立体声从最大稳定的极值区域。图像和视觉计算,2004年。[24] 爱德华·罗斯滕和汤姆·德拉蒙德。用于高速角点检测的机器学习。ECCV,2006年。[25] 爱德华·罗斯滕里德·波特和汤姆·德拉蒙德更快更好:一种用于角点检测的机器学习方法TPAMI,2010年。[26] Stefan Leutenegger Chli Margarita 和 Siegwart RolandBrisk:二进制鲁棒不变可扩展关键点。ICCV,2011年。[27] Ethan Rublee , Vincent Rabaud , Kurt Konolige , andGary Bradski. Orb : 一 个 有 效 的 替 代 筛 选 或 冲 浪 。ICCV,2011年。[28] Nikolay Savinov、Akihito Seki、Lubor Ladicky、TorstenSat tler和Marc Pollefeys。四网络:无监督学习来对兴趣点检测进行排名。CVPR,2017年。[29] Georgios Georgakis,Srikrishna Karanam,Ziyan Wu,Jan Ernst,and Jana Kosecka.用于姿态不变3d匹配的关键点检测器和描述符CVPR,2018年。[30] Wilfried Hartmann , Michal Havlena , and KonradSchindler.预测匹配性。CVPR
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功