学习鉴别和变换协变局部特征检测器

186 浏览量更新于2023-10-15 收藏 817KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6818学习鉴别和变换协变局部特征检测器张旭1，Felix X. Yu2，Svebor Karaman1，Shih-Fu Chang11哥伦比亚大学，2谷歌研究{xu.zhang，svebor.karaman，sc250}@ columbia.edu，felixyu@google.com摘要鲁棒的协变局部特征检测器对于检测局部特征是重要的，所述局部特征是（1）对图像内容有区别的，以及（2）当图像经历不同的变换时，可以在一致的位置处被重复地检测这种探测器对于图像搜索和场景重建等应用至关重要。许多基于学习的局部特征检测器解决了这两个问题中的一个在这项工作中，我们提出了一种新的基于学习的方法，同时解决这两个问题。具体来说，我们通过定义“标准补丁”和“典型特征”的概念来扩展Lenc和Vedaldi [8]提出的协变我们表明，这些概念的引入大大简化了协变检测器的学习阶段，也使检测器更加强大。大量的实验表明，我们的方法优于以前的手工制作和学习为基础的检测器的大幅度的可重复性。1. 介绍局部特征检测器在计算机视觉应用中起着关键作用，例如图像配准[29]，图像匹配[2]和图像检索[26]。传统上，局部特征检测器是精心手工制作的，以处理尺度和视角的变化[9，16]。最近，提出了基于机器学习的检测器[8，24，25]来处理具有挑战性的问题，例如网络摄像头序列中的时间变化[24]。尽管基于机器学习的方法在诸如目标识别等计算机视觉问题中取得了巨大的成功，但基于学习的局部特征检测器的研究仍处于初级阶段。给定图像，局部特征检测器输出一组特征1，即，一组点或一组椭圆。1请注意，特征不同于特征描述符。后者是描述图像的局部块的向量。一个好的局部特征检测器应该满足两个重要的属性：（1）它可以发现图像中的局部判别信息，（2）当场景经历不同变换时，它可以重复地检测一致的模式。第二个属性意味着，给定一个已经经历几何变换的图像，一个好的检测器应该输出与从未变换的图像生成的特征相同的特征，经受与应用于图像的相同的几何变换。这种性质被称为局部特征检测器的协变约束，并在[8]中进行了研究。大多数基于学习的检测器只关注上述两个属性之一。一些特征检测器是使用手动标记的数据或现成检测器的输出作为判别训练特征来学习的[6，24，21，5]。然而，协变约束很难嵌入到这样的训练管道中，这通常会导致无法处理训练数据中没有出现的转换。其他特征检测器被设计为主要关注协变约束[8]，但没有同等重视区分性局部内容的提取在这项工作中，我们提出了一种新的基于学习的方法来解决这两个问题。具体地说，我们通过定义“标准片”和“典型特征”的概念来扩展Lenc和Vedaldi [8]提出的协变约束。标准块定义了区分块以及标准特征的标准位置和形状（例如，单位圆）。我们将展示这些明确的概念，使学习过程更强大，对初始化设置不太敏感。此外，我们从理论上证明了协变约束的所有补丁从图像采样是等价的所有标准补丁的协变约束我们表明，这大大简化了学习阶段。我们的工作和[8]中的学习框架都是为了训练一个变换预测器，而不是一个预测器来确定局部特征的存在因此，局部特征检测器的协变约束变成协变协变。6819我×−1(a) 变换预测器（b）到标准面片的(c)基于预测变换的图1. 图像块、变换和特征之间的关系。(Top)对于给定的图像块，我们提出了一个变换预测网络，用于预测i的变换（gi），）可以将图像块xi打包成标准块x′。（下）预测变换本身也可用于将规范特征（虚线圆圈）映射到每个图像中观察到的特征（椭圆补丁. 由于每个特征被多个重叠的图像块覆盖，因此可以聚合来自多个图像块的输出以预测特征的最可能的位置和形状。变换预测器的约束。后者更容易制定，详见3.2图1说明了我们的方法。使用滑动窗口将整个图像将基于深度学习的模型应用于每个补丁以预测转换（图1（a））。该变换具有两个重要性质：（1）逆变换将观察到的图像块映射到标准块（图1（b））。以及（2）它可以预测变换特征的位置和形状（例如，通过将预测的变换应用于规范特征（图1（c）中的虚线圆），在图像块内进行预测。如果图像中存在一个通过进一步分析重叠预测，可以很容易地确定特征的最终估计（见图1（c）和第5节）。在本文中，我们将从理论和实验上证明基于这种新配方的特征检测器的优越性能。将特征检测公式化为变换预测提供了几个独特的好处。首先，特征检测器的协变约束可以直接嵌入到训练过程的优化准则中，使得在不同的变换条件下能够进行鲁棒的特征检测。阵第二，诸如深度神经网络的强大机器学习模型可以用于训练变换预测器。我们的工作做出了以下贡献：1. 我们定义了一个新的公式的基础上的“标准补丁”和“典型特征”的新概念，把同等重视的歧视性和协变约束。这使得所提出的检测器能够在不同的图像变换下检测有区别的和可重复的特征。2. 而不是限制我们的方法，以特定类型的本地功能，即。点或斑点，我们的方法是由变换群的一般理论支持。它使我们的方法适用于一组不同的功能和转换。3. 在多个标准基准上的大量实验表明，我们的方法优于以前的手工制作和学习检测器的方法。2. 相关工作手工制作的探测器以前的工作已经表明，一些图像结构可以保持在不同类型的变换。因此，提出了不同类型的检测器来检测不同的图像结构。6820F⊗F⊗F• ⊗• ∗∈F以实现不同变换的协方差。例如，角检测器[4，12，28]对平移和旋转是协变的。斑点检测器[9，1]对尺度变化具有协变性。基于矩的检测器，例如Harris-Affine[13]和Hessian-Affine [14，16]进一步将斑点检测器扩展为仿射变换的协变。MSER [11]、LLD [18]和ASIFT[17]也是仿射变换的协变。这些特征检测器的主要缺点是它们是手工制作的，因此无法训练以适应不同的应用。基于学习的探测器正如我们在第1节中提到的，学习局部特征检测器需要解决两个问题：（1）如何定义图像中的判别模式大多数基于学习的检测器专注于解决第一个问题。Kienzle等人[6]提出从手动标记的数据中学习特征检测器Rosten等人[21]提出从FAST检测器学习快速特征检测器，Hartmann [5]et al. 建议学习一个关键点检测器，通过运动结构流水线保留关键点最先进的方法TILDE [24]从不同时间和季节的相同场景的预对齐图像中学习。TILDE堆叠所有对齐的图像，并在SIFT检测器在大多数图像中提供高置信度的位置收集关键点，并使用关键点进行训练。由于它还收集SIFT遗漏的点，因此它在评估的数据集上的性能优于SIFT。Task [22]还可以从预对齐的图像中学习。这些方法擅长预测与训练数据相似的场景的良好特征由于协变约束未嵌入训练中，因此当场景由看不见的变换处理时，这种检测器可能会失败。一些工作集中在提高检测器的可重复性。FAST-ER[21]使用模拟退火优化FAST探测器[21]的参数，以提高重复性。Trujillo和Olague [23，19]建议使用遗传规划来优化重复性。Lenc和Vedaldi [8]建议直接从协变约束中训练特征检测器。通过考虑特征与变换之间的关系，将特征检测问题转化为变换回归问题。因此，协变约束可以直接由Siamese神经网络学习。3. 初步3.1. 特征与转换特征f是一种抽象的几何结构，它描述了位置和形状等几何属性。最常用的特征是点（位置）、圆（位置和比例）和椭圆（位置、比例和形状）。一类特征包含不同的特征相同类型的（例如，在所有可能的位置）。一个几何变换g是一个函数，它的域和值域是点的集合一些示例是平移、旋转和缩放。变换群G包含一组变换。我们定义三个变换算子：在特征上应用变换。例如，gf1=f2意味着将f1移动并扭曲g以生成新的特征f2。对图像或图像块应用变换• G是变换的合成，也是G中的群运算。例如，gh是应用h然后g的变换：（gh）f=g（hf）。G中的变换具有以下性质：• 对任意g和h在G中，gh也在G中。• 在G中有一个单位元e。对于G中的任意g，g−1也在G中，且g−1<$g=e。• G中的运算是结合的。典型的变换群包括平移群、旋转群和仿射群。考虑到变换群的理论为我们提供了一个工具，建立一个通用的理论框架，学习特征检测器上的任何变换特征和变换是密切相关的。有一种重要的情况，即在特征和变换之间存在双射。设f0是一个固定的标准特征，我们说一类特征分解一组变换G，当定义1F解G，如果1. 对任意f ∈ F，存在g ∈ G，使得g <$f0 = f.2. 对任意g∈G，g<$f0∈ F.3. 对任意g1，g2∈G，有g1<$f0=g2<$f0<$g1=g2.例如，点类分解平移群，定向椭圆类分解无反射的仿射群。解析G给出了几个好的性质。通过检测特征f=gf0，我们可以估计对图像执行的变换。包含f的图像块然后可以通过将g-1应用于原始图像块来归一化为“标准块”（包含规范特征f 0的因此，从标准补丁中提取的描述符将是不变的，变换群G.68212X′·◦F′′2′ ∗ ′2∗∗ 2′2∗--关于我们我我我我F我我我我我我我我我我 FF3.2. 学习协变检测器根据以前的工作[24，25]，我们从小图像块训练检测器，假设一个块x∈ X实现为：协变=Σni=1<$φ（g i<$xi）− g i<$φ（xi）<$F。（四）最多只有一个地方特色是所有图像补丁。给定图像块x，训练特征检测器的一种直观方式是训练分类器或回归器，以学习目标可以改写为：Σn2预测x中局部特征存在的置信度得分（实数）[24，25]。由于转换不能φ= argminφi=1<$φ（g i<$xi）− g i<$φ（xi）<$F。（五）虽然将其应用于实数，但是将协变约束因素纳入该方法中是具有挑战性的。最近，Lenc和Vedaldi [8]提出了一种新的框架，用于通过显式地将协变约束嵌入损失函数来从头开始训练协变局部特征检测器。在本节的其余部分，我们将简要回顾这项工作，并讨论局限性和改进方法。我们将特征检测器定义为：定义2特征检测器f：x→f映射图像该问题可以通过Siamese神经网络来解决检测整个图像中的局部特征可以通过将局部特征检测器应用于图像中的所有图像块来完成，详细信息请参见第5.3这项工作的主要缺点是，（5）可能不是唯一的。让我们假设φ（·）是（5）的解，或者φ（·）最小化（4）。首先，我们假设群运算是加法，这是许多变换群的情况对于任意g′∈G，设φ′（·）=φ（·）+g′，则将x修补到x中或与x重叠的特征f。′ ′ 2<$φ（gi<$xi）−（gi+φ（xi））<$F因此，特征检测器的协变约束可以是定义为：=φ（gx）+g−（g+φ（x）+g′）<$2（六）=φ（gx）−（g+φ（x））2，定义3一个特征检测器<$：x<$→f被称为i i i i iF协变，如果（x）.（1）直接处理特征直观但繁琐;这意味着φ′（）也是（5）的解。当群运算是乘法时，这是许多变换群的情况，例如相似群，对于任何g′∈G，使得φg′<$2≤1，设φ′（·）=φ<$（·）g′，我们一些. 然而，当F解决G时，可以处理用变换而不是特征，因为存在一个φ（g）x）−g φ（x）F与G之间的双射映射因此，transform=φ（gx）g−g φ（x）g<$（七）回归量φ：x<$→g可以代替特征≤ <$φ（g<$x）−g φ（x）<$$>g <$。<$x∈ X，g ∈ G：φ（g <$x）= g <$φ（x）.（2）Lenc和Vedaldi [8]提出直接使用协变约束来训练特征检测器。为了优化协变约束，它们随机采样 n 个补丁 xi ，i =1，. . . ，n，从训练图像中。对于每个训练块xi，随机生成变换gi并将其应用于xi。变换后的图像块还把它裁剪成和xi一样的大小。裁剪的片被表示为giXi。图像块、变换和经变换的图像块形成训练三元组。给定 n 个训练三元组（ xi ， gixi ， gi ），i=1，. . .，n，他们将学习问题定义为：具有，我F我探测器（1）可以改写为：F6822F≤ǁ ǁ ≤·我我我··从0开始g′21，φ′（）也是（5）的一个解，甚至是一个更好的解.该缺点可能导致两个问题：(1)训练对神经网络的初始化敏感，不同的初始化可能导致不同的φ，以及（2）由于解可能通过固定变换而不同于这可能会使一个好的局部特征变成无用的特征。在本文中，我们证明了这个问题可以通过将标准补丁嵌入到训练管道中来解决。我们进一步表明，标准补丁的概念可以大大简化协变约束。φ= argminφΣni=1d（φ（g<$x），g<$φ（x））2，（3）4. 从标准补丁程序中其中d（，）是两个变换之间的距离[27]。在实践中，他们把变换参数化为矩阵，用变换因此，协变约束的损失可以是一般来说，标准补丁是具有足够的区分性和多样性以学习回归目标变换组的补丁。然而，要找出标准补丁的确切集合并不是一个容易的问题。Following以前的作品[24，5]，使用的结果，6823X1∈X∈F∈Xi i i i iF--关于我们--∈F∈F××−−∗××我F+αφ（<$）−e，现有的现成的检测器作为锚，我们采用类似的策略来选择潜在的标准补丁。在本节中，我们将标准面片记为x′，将标准面片的集合记为′。如定义1中所述，规范特征是映射到变换群中的恒等式的参考特征。理论上，典型特征可以任意选取为了更好地说明问题，本文将典型特征定义为标准面片的中心点（用于点检测）或标准面片中的内切圆（用于斑点检测）。对于每个变换群，规范特征是唯一定义的。如果任何标准补丁被发送到特征检测器，特征检测器的输出是规范特征。对于所有x，对于所有y，<$，n（x<$）=f0. 由于正则特征f0被映射到变换群 G 中的单位元 e ，因此，对于所有 x'，<$，φ（x<$）=e. Giv enm标准补丁，自然要设计一个亏损才能实现g-1将图像块x映射到其对应的标准块x′。对于所有g∈G，φ（g））=φ（（g）=（gg1）φ（x<$）=g（g1φ（x<$））（11）=g<$φ（g1<$x<$$>）= g<$φ（x）。第二个相等是由于变换基的组成。第三和第五个等式是由于标准面片的协变约束。第四个等式是基于变换群的结合性质命题1给出了一个强有力的结果，为了训练所有图像块的协变特征检测器，我们只需要训练所有标准块的协变特征检测器。因此，前面的训练问题（9）可以简化为，给定n个标准补丁{x<$i}，i=1，. . . ，n，生成训练数据的n个三元组{（x<$i，gi<$x<$i，gi）}，i=1，. . . ，n，通过，这种身份约束：ΣmΣnφ= arg min（φ（g<$x<$$>）−g<$φ（x<$$>）<$2=.（八）φi=1（十二）恒等式jFj=1+α<$φ（x<$）−e<$2），通过考虑（4）和（8），给定n个训练块，xi，i=1，. . .，n，我们可以生成n个面片的三元组（xi，gixi，gi），i=1，. . .，n，如第3.2节所述，连同m个标准面片x<$j，j=1，. . . ，m，学习问题由下式给出：Σn这意味着我们只需要基于标准补丁而不是所有可能的补丁进行训练。5. 执行5.1. 收集训练数据φ=arg min<$φ（g<$x）−g<$φ（x）<$我我我φi=1ΣmIF（九）在实践中，我们选择TILDE [24]检测器的输出作为标准补丁的候选实证研究X2JFj=1其中α是协变约束（4）和恒等式约束（8）之间的折衷参数恒等约束作为正则化项。通过将标准补丁的变换锚定到身份，解决了第3.2为了检测所有可能的特征f特征检测器必须与所有f的所有图像块协变。它需要收集大量的训练三元组以最小化（9）中的协变损失。下面的命题大大简化了这个问题：命题1一个变换回归量φ对所有面片协变，当且仅当它对所有标准面片协变。从形式上讲，∀x∈ X, g∈G, φ(g∗x)=g◦φ(x)⇐⇒<$x<$$>∈X<$，g∈G，φ（g<$x<$$>）=g<$φ（x<$）.因为X是X的子集，所以从左到右是平凡的。让对于所有x∈ X，存在一个变换g1∈G，它将一个标准面片x映射到x，x=g1。或者说是转变的本质选择不同检测器的结果作为候选标准块的方法见6.3节。其中，最先进的局部特征检测器TILDE-P24 [24]为我们提供了最佳性能。我们还注意到，与使用其他检测器的输出训练的模型相比，使用TILDE-P24的输出训练的模型具有最低的身份损失，这表明TILDE-P24的输出可能与身份约束更一致。对于TILDE检测器的每个输出特征，特征周围的32 32图像块被视为一个标准块。在实践中，我们保持一个51 - 51图像补丁，因为生成的trans-formed补丁可能会使用附近的标准补丁的相邻像素。为了生成训练三元组（x<$i，gix<$i，gi），g ivena5151图像补丁，a3232标准面片x′i是距离大面片中心的ex-根据不同的转换组，gi可以由（1）在x和y轴上缩放，其中两个因子从[0. 85，1。15];（2）在x和y轴上剪切，其中两个因子从[ 0. 15，0。15];（3）在x和y轴上的平移，其中两个因子从[8，8]均匀采样;（4）旋转uni-从[0，360]开始采样。然后将gi应用于2（十）6824∗××××××××××(a) 输入图像（b）网格点（c）变换点（d）点的密度（e）输出关键点图2.使用变换预测器检测图像中的局部特征图3.建议的转换预测网络的训练管道51 51图像块以得到大的变换块。我们得到最终的变换后的块gix'i通过也裁剪a32 32面片从大的变换面片的中心。为了得到足够的变化，对于每个标准片，我们生成24个具有不同变换的变换三元组。应该注意的是，一些补丁可能仍然缺乏足够的信息来回归所需的变换组。例如，任何比例的角可能看起来相同，并且可能无法辨别比例变化。这种模糊性可以通过预过滤缺乏线索的候选标准块来消除，以回归所需的变换。5.2. 神经网络模型将特征检测器公式化为变换预测器的一个好处是，它提供了使用强大的回归器（如深度神经网络）来预测变换的可能性。考虑在（12）中定义的问题，标准补丁和变换补丁将同时经过相同的回归量以计算协变损失。很自然地使用修改的暹罗网络来解决这个问题。图3示出了所提出的方法的训练管道。与传统的连体结构不同，（8）中定义的由于网络的输入只是一个32 - 32色的图像块，并且检测时间对于局部特征检测器来说也是非常重要的，所以我们在实验中只使用了一个紧凑的结构。第一层是内核大小为5的卷积层，输出通道为32个，2 2最大池化层。第二卷积层具有5 5和128个输出通道的内核大小，它还遵循2 2最大池化层。第三卷积层的核大小为3 3，输出通道为128。第四卷积层的核大小为3 3，输出通道为256。最后一层是11卷积层，其输出通道的数量等于回归变换中的参数的数量。我们在所有卷积层中使用ReLU激活。5.3. 全局特征检测器到目前为止，我们只讨论了图像块的局部特征检测器（或变换预测器）。为了检测整个图像中的所有特征，在所有图像位置处应用变换预测器。由于我们的神经网络具有“全卷积”结构，因此它可以应用于任何大小和纵横比的图像。图2示出了点检测器的情况。所有图像块中的规范特征定义了图像中的密集网格（图2（b））。每个绿点都是图像块的中心预测变换将规范特征“移动”到最接近的局部特征。由于协变约束，与“好”特征重叠的所有图像块点的密度反映了局部特征的稳定性（图2（d））。我们使用投票方法来估计点的密度。具体来说，每个图像块使用双线性插值投票给图2（b）应用非最大值抑制来选择网格点，该网格点是投票图中的局部最大值（图2（e））。对于与平移协变的检测器，为了避免在高维空间中进行投票，我们只对局部特征的位置进行投票，局部特征的最终形状由6825×√与所选择的点相关联的面片。由于神经网络只能处理固定大小的图像为了提高在更大尺度范围内的性能，在5层图像金字塔上提取特征。底层是原始图像，并且上层中的图像是当前层中的图像-利用高斯平滑以因子2下与大多数CNN一样，拟议的网络架构包括：保留池化层，该层对输出大小进行下采样以提高效率。为了执行密集特征检测，一种解决方案是移除池化层。另一种解决方案是将CNN重新应用于轻微移位的图像。该算法提供了一种有效的方法来做到这一点，通过重用预先计算的结果，以前的密集层[10，20，8]。在这项工作中，我们只考虑下采样输出。6. 实验6.1. 数据集和设置我们使用三个数据集，这被视为在以前的作品中评估特征检测器的标准。网络摄像头[24]包含6个序列，每个序列有140张来自同一场景的图像。其中100幅图像用于训练，20幅图像用于验证，20幅图像用于测试.它包含了一个场景的剧烈的时间和季节变化，包括白天和黑夜，雨雪，冬季和夏季，这是具有挑战性的局部特征检测。EF[28]有5个序列，38个图像。每一个序列都是在不同条件下观察到数据集包含剧烈的照明和背景杂波变化。VGG-Affine[15]是用于局部特征检测器评估的传统数据集。它包含8个序列的48个图像与不同的观点，照明条件和压缩率。我们的评估指标是[14]中定义的可重复性，它考虑了特征的位置、尺度和形状给定图像对和两个图像之间的变换，如果一个区域和投影区域（通过地面实况变换投影的另一图像的区域）的重叠误差小于0，则不同图像中的两个区域被认为是对应的。4.第一章重复性定义为图像对中对应区域的数量与较小区域数量仅考虑位于由两个图像共享的部分中的区域。可重复性的主要缺点是，当特征的数量很高时，由于特征的高密度，特征可能会随机“匹配”。因此，我们计算每幅图像提取1000个特征和200个特征的可重复性。我们将我们的方法与尺度协变手工特征检测器（SIFT [9]，SURF [1]，MSER [11]，Harris Laplace（HarLap）[14]和Hessian Laplace（Hes-Lap）[14]），以及仿射协变特征检测器（Harris Affine（HarAff）[14]和Hessian Affine（HesAff）[14]）。我们还将我们的方法与FAST [21]，TILDE [24]和协变点检测器（CovDet）[8]等学习特征检测器进行了比较。请注意，TILDE是目前最先进的方法。基于不同回归量的三个版本的TILDE [24]检测器用于评估：T-CNN（基于卷积神经网络），T-P（基于分段线性回归）和T-P24（T-P的近似）。对于CovDet，我们使用[8]提供的模型。对于TILDE [24]和Covdet [8]检测器，我们还从多尺度图像金字塔中提取关键点，如第5.3节所述。由于更大的特征总是导致更高的可重复性，为了进行公平的比较，对于TILDE，CovDet和我们的检测器，如[24]中所示，每个金字塔级别中的关键点的尺度为10TILDE和我们的方法共享来自Webcam数据集的墨西哥子集的相同训练对于TILDE，我们使用作者提供的模型。对于我们的方法，我们在训练图像（也在Mexico子集中）上运行在Mexico子集上训练的T-P24检测器，然后从检测结果中随机提取大约5 k个补丁，并生成120 k个训练三元组，如第5.1节所述。所有方法都在Webcam数据集中除墨西哥子集外的所有子集上进行评估。对于网络训练，学习率设置为0。01，训练批大小为128。我们根据经验发现，网络通常在5个epoch后收敛使用TITAN X，基于我们使用TensorFlow的实现，训练大约需要30分钟[3]。对于检测，我们的实现了10FPS运行我们的模型上的1000 - 700像素的图像与泰坦X GPU。6.2. 重复性表1显示了不同数据集的平均重复性。我们的方法在几乎所有的背景下都是明显的赢家特别是，它优于最先进的基于学习的方法T-P24 [24]。虽然使用T-P24的输出进行了训练，但我们的检测器在训练中进一步结合了合成大小的补丁，并使用回归变换来预测特征的位置。这些步骤使我们的探测器超越了T-P24。我们的方法也优于基线方法CovDet [8]。我们的方法和CovDet之间的主要区别是引入了识别损失（8）和使用区分标准补丁而不是随机采样补丁。这表明，通过定义标准块来确定哪些特征是有区别的，总之，我们的检测器的优越性能证实了（1）定义判别斑块的重要性;（2）协变约束。6826数据集检测器SIFTHesAffT-P24CovDet我们Webcam12.913.813.412.019.4VGG42.835.344.543.150.7EF10.25.45.24.86.2平均22.018.221.020.025.4表1.所有数据集上不同方法的重复性（%）80604020表2.不同检测器的匹配得分（%）6.4.匹配分数为了显示匹配性能，我们通过VL- Benchmarks [7]在上述三个基准数据集上评估匹配分数。匹配分数是正确匹配的数量与图像对中检测到的区域的较小数量之间的比率[16]。如果两个对应区域（在第6.2节中定义）是描述符空间中的最近邻，则匹配是正确的由于本实验的目标是比较检测器，而不是描述符，因此SIFT描述符[9]用于所有检测器。表2总结了匹配分数。虽然我们的检测器比SIFT检测器具有更高的重复性，但在EF数据集中，我们的检测器的匹配得分低于SIFT检测器。一个可能的原因是EF数据集包含剧烈的背景杂波变化。我们的检测器检测到的特征可能包含背景VGG-Affine EF网络摄像头平均值图4. 使用不同标准补丁训练的特征检测器的重复性（%）。80604020VGG-Affine EF网络摄像头平均值图5. 使用不同α值训练的特征检测器的重复性（%）。6.3. 标准补丁和身份丢失的影响图4显示了使用不同标准补丁训练的检测器的性能。我们以4种不同的方式收集标准补丁：随机采样块（Ours（R））、SIFT检测器的检测结果（Ours（ S ））、 Hessian 仿射检测器的检测结果（ Ours（H））和T-P24检测器的检测结果（Ours（T））。随机采样的贴片表现最差，T-P24给出了最好的结果。在（12）中，α参数权衡了恒等式（8）和协变式（4）的约束。身份约束是我们工作的关键贡献之一。在图5中，我们可以看到，选择适当的α比将α设置为0或100会带来更好的性能，即使用单一约束。无法通过描述符匹配的更改7. 结论好的局部特征检测器应该具有两个属性：(1) 检测有区别的图像特征，以及（2）检测不同变换下的相同特征。以前的大多数工作只关注其中一个约束，而忽略了另一个约束。在这项工作中，我们提出了一种新的方法，同时解决这两个属性，通过扩展的协变约束[8]与“标准补丁”的概念。我们进一步证明了协变约束可以大大简化的“标准补丁”。我们的原型实现选择的TILDE检测器的输出作为标准补丁的候选人，并导致显着改善的结果在可重复性方面。然而，如何选择我们的原型实现可以从https://github.com/ColumbiaDVMM/Transform_Covariant_Detector下载。致谢本材料基于美国空军研究实验室（AFRL）和国防高级研究计划局（DARPA）根据合同号FA8750-16-C-0166。本材料中表达的任何观点、发现和结论或解释仅由作者负责，并不一定代表AFRL、DARPA或美国的官方观点。政府的我们的（R）我们的（S）我们的（H）我们的（T）α = 0.01 α=0.1 α=1 α=10 α=100可重复性@200方法WebcamEFVGG#功能1000 200#功能1000 200#功能1000 200SIFT29.519.120.810.947.141.7冲浪46.033.439.723.461.258.3MSER45.129.437.118.954.138.4SFOP43.825.636.121.751.244.9HesLap51.137.238.828.066.760.0HarLap48.244.535.733.460.555.5HesAff42.534.526.621.866.459.6哈拉夫38.433.622.720.257.355.7快速56.341.132.028.953.844.1T-P35.429.026.316.354.646.1T-P2461.745.145.432.364.457.6T-CNN51.436.738.021.850.740.6CovDet49.932.242.723.862.048.0我们68.452.646.636.370.261.2可重复性@2006827引用[1] H. Bay，T. Tuytelaars和L. V.Gool SURF：加速强大的功能。在ECCV。2006年[2] M.布朗河，巴西-地Szeliski和S.发条人使用多尺度定向块的多图像匹配。在CVPR，2005年。[3] M. A. 等人TensorFlow：异构系统上的大规模机器学习，2015年。[4] C. Harris和M.斯蒂芬斯一种组合的角点和边缘检测器。在1988年的Alvey视觉会议[5] W. Hartmann，M. Havlena和K.辛德勒预测匹配性。CVPR，2014。[6] W. Kienzle，F.A. 维希曼湾Scholkopf和M.O. 弗兰兹从人眼运动中学习兴趣算子见CVPRW，2006年。[7] K. Lenc，V.Gulshan和A.维达尔迪Vlbenchmarks. 网址：//www.vlfeat.org/benchmarks/，2011年。[8] K. Lenc和A.维达尔迪学习协变特征检测器。在ECCV研讨会几何满足深度学习，2016年。[9] D. G. 洛来自尺度不变关键点的独特图像特征IJCV，60（2）：91[10] S.马拉特信号处理的小波之旅。学术出版社，1999年。[11] J. Matas，O. Chum，M. Urban和T.帕杰拉鲁棒的宽基线立体声从最大稳定的极值区域。图像与视觉计算，2004.[12] K. Mikolajczyk和C.施密特基于尺度不变兴趣点的索引。载于ICCV，2001年。[13] K. Mikolajczyk和C.施密特仿射不变兴趣点检测器。见ECCV，2002年。[14] K. Mikolajczyk和C.施密特尺度仿射不变兴趣点检测器。IJCV，2004年。[15] K. Mikolajczyk和C.施密特局部描述符的性能评估。TPAMI，2005年。[16] K. Mikolajczyk、T.图伊特拉尔斯角Schmid，A. 齐瑟曼J. Matas，F.Schaffalitzky，T.Kadir和L.诉好极了仿射区域检测器的一个计算机IJCV，2005年。[17] J. Morel和G. Yu. ASIFT：一个新的全仿射不变图像比较框架。SIAM Journal on Imaging Sciences，2009.[18] P. Mus e'，F. Su r，F. Cao，Y. Gousseau和J. - M. 莫瑞尔一种形状元素识别的逆判决方法。IJCV，2006年。[19] G. Olague和L.特鲁希略利用遗传规划检测兴趣点的图像算子的进化计算机辅助设计。图像和视觉计算，2011年。[20] G.帕潘德里欧岛Kokkinos和P. - A.萨瓦尔在深度学习中建模局部和全局变形：表位卷积、多实例学习和滑动窗口检测。CVPR，2015。[21] E. Rosten和T.德拉蒙德用于高速角点检测的机器学习。在ECCV，2006年。[22] C. Strecha，黑腹拟步行虫A. Lindner，K. Ali和P. Fua.针对特定任务的关键点检测训练。在联合模式识别研讨会上，2009年。[23] L. Trujillo和G.奥拉格基于遗传规划的兴趣点检测器综合。第八届遗传与进化计算年会论文集。ACM，2006年。[24] Y. Verdie，K.M. Yi，山核桃P.Fua和V.莱珀蒂一种节奏不变的学习检测器.在CVPR中，第5279IEEE，2015年。[25] K. M. Yi，E. Trulls、V. Lepetit和P.呸LIFT：学习不变特征变换。在ECCV，2016年。[26] H. 张志-J. Zha，Y.Yang，S.Yan，Y.Gao和T.-S. 蔡属性增强的语义层次结构：图像检索中的语义鸿沟和意图鸿沟。在MM。ACM，2013年。[27] L.郑角Liu，X. Wang和A.马莱基基于LP复杂近似消息传递及其在稀疏频率步进雷达中的应用信号处理，2017年。[28] C. L. Zitnick和K.拉姆纳特边缘聚焦兴趣点。在ICCV. IEEE，2011年。[29] B. Zitova和J. Flusser。图像配准方法：一份调查报告。图像和视觉计算，2003年。

下载后可阅读完整内容，剩余1页未读，立即下载