基准评估本地图像描述符的方法和结果中的模棱两可和不一致性：来自国际顶级学府的研究

107 浏览量更新于2023-10-15 收藏 1MB PDF 举报

牛津大学

特征匹配

身份认证购VIP最低享 7 折!

30元优惠券

5173HPatches：手工制作和学习的本地描述符的基准和评估伦敦帝国理工学院v. imperial.ac.uk卡雷尔·伦茨（Karel Lenc）牛津大学karel@robots.ox.ac.uk伦敦帝国理工学院k.mikolajczyk@ imperial.ac.uk作者对这项工作牛津大学Universityofvedaldi@robots.ox.ac.uk摘要在本文中，我们提出了一种新的基准评估本地图像描述符。我们证明，现有的数据集和评估协议没有明确规定的所有方面的评估，导致模棱两可和不一致的结果报告的文献。此外，由于最近通过从大型注释数据集学习局部描述符而获得的局部描述符的改进，因此，我们引入了一个新的大型数据集，适合于训练和测试现代描述符，以及严格定义的评估协议，在几个任务，如匹配，检索和分类。这允许在不同的应用程序场景中进行更真实、更可靠的比较。我们评估几个国家的最先进的描述符的性能，并分析其属性。我们表明，传统手工制作的描述符的简单规范化可以在现实的基准评估中将其性能提升到基于深度学习的描述符的水平。1. 介绍局部特征描述子是图像匹配和检索系统的重要随着可学习表示的成功和越来越大的标记数据集的可用性端到端学习允许彻底优化可用基准的描述符，显著优于完全[20]或半手工制作的功能[21，32]。然而，令人惊讶的是，这些据称更好的描述符的采用在应用中受到限制，表1. 在同一基准上评价相同描述符时，文献中报告的结论相互矛盾（Oxford [22]）。由于隐含参数的变化，例如，特征检测器。LIOP> SIFT [24，36]，SIFT> LIOP [39]BRISK> SIFT[18、24]、SIFT> Brisk[19个]ORB> SIFT[29日]、SIFT> ORB[24日]BIN BOOST> SIFT [19、32]、 SIFT> BIN BOOST[5，39]ORB>简介 [29日]、简介>ORB[19个]SIFT [20]仍然主导着这个领域。我们认为，这是由于基于现有基准的报告绩效评估不一致[22，38]。这些数据集要么很小，要么缺乏多样性，无法很好地概括描述符的各种应用。描述符技术和应用需求的进步还没有与基准和评估协议的可比发展相匹配。因此，虽然学习的描述符可能针对特定场景进行了高度优化，但尚不清楚它们是否在更一般的情况下工作良好，例如。在用于训练它们的特定数据集之外。事实上，如表1所示，仅比较基于已发表实验的描述符是困难的且不确定的。在本文中，我们介绍了一种新的基准套件的本地特征描述符，显着更大，明确定义的协议和更好的泛化性能，可以取代现有的数据集。这是受到牛津匹配数据集[22]的成功启发，牛津匹配数据集是最广泛采用且仍然非常受欢迎的局部特征评估基准，尽管只有48张图像。这对于在深度学习和大规模数据集时代评估现代描述符来说是远远不够的。虽然存在一些较大的数据集，如第2节所述，但这些数据集在数据和任务多样性、评估指标和实验再现性方面存在其他重要缺点我们通过以下方式解决这些缺点：5174根据第3节中的基准确定并满足关键要求。数据多样性被认为是特别重要的评估各种属性的描述符。为此，我们收集了大量的多图像序列的不同场景下的真实和变化的捕获条件下，讨论在第4节。场景被选择为代表不同的用例，并在不同的视角、照明或时间条件下捕获，包括应用中经常遇到的具有挑战性的干扰因素。图像用地面实况变换进行注释，其允许识别评估由描述符建立的匹配的质量所必需的唯一对应。在基准中，比较的再现性和公平性至关重要。这通过消除检测器参数的影响来解决。因此，基准是基于提取的局部图像块而不是整个图像，这带来了重要的好处：i）它允许比较检测器的选择的描述器模数，ii）它简化了过程并使实验可再现，并且重要的是，iii）它避免了各种偏差，例如，测量区域的数量或尺寸或半局部几何约束，其使得来自基于图像的基准的结果不可比较（第2节）。任务多样性是在确定评价基准时很少涉及的另一项要求。为此，我们在第5节中定义了三个互补的基准测试任务：补丁验证（补丁对的分类），图像匹配和补丁检索。这些是不同用例的代表，正如我们在实验中所示，检测器的排名取决于所考虑的任务。虽然这项工作的重点是局部描述符，但提议的数据集包含地面实况，包括成对几何变换，这也将允许未来对特征检测器进行评估。我们相信，这个基准将使社区能够在最先进的局部特征匹配方面获得新的见解，因为它比该领域中使用的任何现有数据集都更加多样化和显著更大我们在第6节中评估了各种方法，包括简单的基线，手工制作的基线和最先进的学习描述器。实验结果表明，描述符的性能和他们的排名可能会有所不同，在不同的任务，并与文献报道的结果不同。这进一步强调了为本地描述符引入一个大型、多样和可重复的评估基准的重要性。所有的基准数据和代码执行评估协议是公开的1.1https://github.com/hpatches2. 审查现有基准在本节中，我们回顾了现有的数据集和基准评估的本地描述符，并讨论其主要缺点。2.1. 图像基准在图像匹配基准中，描述符用于建立相同对象或场景的图像之间的对应关系。通过协变检测器从每个图像中提取的局部特征通过比较它们的描述符来匹配，通常使用最近邻方法。然后，评估推定匹配与图像之间的已知几何变换（通常是单应性）的兼容性，并将对应的相对数量用作评估度量。用于评估描述器和检测器的最广泛采用的基准是牛津匹配数据集[22]。它由8个场景的图像序列组成，每个场景包含6个图像和地面实况单应性。虽然Ox-ford数据集包含全部由摄像机捕获的图像，但生成的匹配数据集[14]是通过使用合成变换生成图像获得的，并且包含16个序列的48个图像。然而，变换的合成性质并没有对捕获过程中通常发生的所有噪声进行建模，因此使该数据比牛津数据更具挑战性[4]。DTU Robots数据集[1]包含在受控实验室条件下使用机械臂捕获的3D对象的真实图像，其适用于某些应用场景，但数据多样性有限。Hanover数据集[11]研究高分辨率匹配，包含高达800万像素的图像，具有高度准确的地面实况单应性。然而，它也受到仅包含5个场景的限制。边缘焦点数据集[42]由观看条件变化非常强烈的序列组成，使得评估在某种程度上专门针对极端情况;此外，由于单应性不能很好地近似变换，因此非平面场景的地面实况不能唯一地标识对应性。类似地，WxBs数据集[25]专注于非常宽的基线匹配，随着时间的推移，几何形状，照明和外观发生了极大的变化。所有这些数据集都有一个重要的缺点，即在不同的描述符评估中存在差异：不存在要匹配的预定义区域集合。因此，结果在很大程度上取决于检测器的选择（方法，实施和参数），使得描述符的比较非常困难和不可靠。这在表1中得到了证明，其中不同的论文得出了不同的结论，即使它们是使用相同的方案对相同的数据进行评价的。定义要匹配的特征的中心位置也不能充分约束问题。比如这5175∈∈表2. 使用不同的ρ将检测到的DoG关键点的大小缩放到测量区域的大小的效果。列1 |X表示对于不同的缩放因子ρ，序列中第一个和X个图像之间的匹配分数。ρ1|21|31|41|51 |610.310.130.050.030.0140.680.440.240.150.11120.800.670.540.420.35200.870.770.690.550.50不固定用于计算描述符的图像区域，通常称为测量区域。通常，测量区域被设置为固定但任意设置的特征尺寸的缩放，并且该参数通常没有报道或在论文中变化。这对性能有很大的影响[31]。表2显示了Oxford数据中测量区域的不同比例因子的匹配分数2出现超过50%mAP的变化;事实上，由于这种场景的平面性，较大的测量区域可以改善匹配结果。为了控制测量区域的大小和其他重要参数，例如模糊环的量、用于计算描述符的归一化块的分辨率[34]或半局部几何约束的使用，我们认为描述符基准应该基于图像块而不是整个图像。因此，所有这样的歧义被移除，并且描述符可以被表示和评估为函数 f（x）。RD，将补丁xRH×H×3映射到D维特征向量。下面将讨论这种类型的基准2.2. 基于补丁的基准测试基于补丁的基准测试由从图像中的兴趣点位置提取的补丁组成。然后将补丁标准化为相同的大小，并用指示对应关系的正或负示例的标签注释通常通过使用图像地面实况（诸如图像之间的几何变换）来建立。在基于图像的评估的情况下，提取、归一化和标记块的过程留下变化的范围，并且其参数在评估之间不同。第一个流行的基于补丁的数据集是照片旅游[38]。自从引入以来，使用补丁进行基准测试（第5.3节）的许多好处变得显而易见。PhotoTourism引入了一个简单而明确的评估协议，我们称之为补丁验证：给定一对补丁，任务是预测它们是否匹配，这将匹配任务简化为二进制分类问题。该公式特别适用于基于学习的方法，包括CNN和度量学习，特别是由于大量的使用DoG检测器和SIFT描述符在牛津匹配数据集中的鲁汶序列上计算2表3. 现有数据集和建议的HPatches数据集的比较。数据集旅游景点[37][1]CCCCC牛津-仿射[22]CCSynth.匹配[14]CCCFDS [9]CCC[42]第四十二话CC[26]第二十六话CCRDED [10]CCHPatchesCCCC C此数据集中可用的修补程序。PhotoTourism的主要局限是其数据多样性不足（只有三个场景：Liberty、Notre-Dame和Yosemite）、任务多样性（只有补丁验证任务）和特征类型多样性（只提取DoG特征）。CVDS数据集[9]通过从五个MPEG-CDVS中提取补丁来解决数据多样性问题：图形，绘画，视频，建筑物和常见物体。尽管其显著的多样性，但实验表明，最先进的描述符在此数据上实现了高性能分数[3]。该图像补丁数据集[26]考虑反映图像检索场景的查询排名任务，但限于10K补丁，这使得它比PhotoTourism小一个数量级。2.3. 度量除了选择数据、补丁和任务之外，评估指标的选择也很重要。对于分类，经常使用受试者工作特征（ROC）曲线[12，13]作为比较的基础。然而，补丁匹配本质上是高度不平衡的，具有比正对应候选者更多的负对应候选者; ROC曲线对于不平衡数据的代表性较低，因此，ROC空间中的强大性能不一定推广到应用中的强大性能，例如最近邻匹配[30，39，5，33]。几篇论文[38，32，33]报告了ROC曲线上的单个点（FPR 95，即95%真阳性召回率下的假阳性率），这比等错误率或ROC曲线下面积更适合于不平衡数据;然而，这减少了由整个曲线提供的信息。精度-召回率和平均精度（mAP）是不平衡数据集的更好的指标选择（2000年）01）mAP牛津数据集[19]。3. 基准设计我们通过确定以下要求来解决第2节中讨论的现有数据集的缺点5176图1. 图像序列的示例;注意场景的多样性和干扰因素，包括视点、照明、焦点、反射和其他变化。• 可再现的、基于补丁的：应在补丁上进行描述符评估，以消除检测器相关因素。这导致了不同作品的标准化，并使结果直接可比。• 多样性：代表许多不同的场景和图像捕捉条件.• 真实：由于图像变换中无法建模的干扰因素，真实数据比合成数据• 大：允许准确和稳定的评估，以及为基于学习的描述符提供大量的训练集。• 多任务：多个用例的代表，从匹配图像对到图像检索。这允许跨任务比较相同数据内的描述符性能基于这些所需的属性，我们引入了一个新的大规模数据集的图像序列（第4节）与单应性注释。这是用来生成一个基于补丁的基准套件，用于评估本地图像描述符（第5节）。表3比较了提议的数据集与现有基准的上述属性。4. 图像和补丁图像是从各种来源收集的，包括实验数据集。我们用摄像头拍到了51个镜头-REFE1E2E3E4H1H2H3H4T1T2T3 T4图2. 使用EASY、HARD和TOUGH分布的扩展面片可视化的几何噪声示例。场景[40]。一些序列在图1中示出。1.一、在57个场景中，主要的干扰因素是摄影测量变化，其余59个序列由于视点变化而显示出显著的几何变形。一个序列包括一个参考图像和5个目标图像，具有不同的几何变化的光度。捕获序列，使得图像之间的几何变换可以通过从参考图像到每个目标图像的单应性很好地近似。单应性估计如下[22]。使用以下协议提取修补程序。几个尺度不变的兴趣点检测器，即DoG，Hessian-Hessian和Harris-Laplace用于提取大于1的尺度的特征3。6px，给出稳定的点。近似重复区域基于其交并（IoU）重叠（>0. 5）并且每个簇随机保留一个区域。这使得重叠的区域小于0.5IoU。然后随机选择每个图像大约1，300个对于每个序列，使用地面实况单应性在参考图像中检测补丁并将其投影到目标图像这避开了检测器的限制，检测器可能由于显著的视点或照明变化而无法在每个目标图像中提供对应的区域。此外，它允许提取更多的补丁，从而更好地评估在这种情况下的描述符。未完全包含在所有目标图像中的区域将被丢弃。因此，一组对应的补丁包含来自序列中的每个图像的一个补丁。实际上，当检测器在不同的图像中提取相应的区域年龄，它这样做与一定量的噪音。为了时代，33个场景来自[16]，12个场景来自[1]，5个场景从[10]，从[22]的4个场景，从[35]的2个场景和检测器的13个VLFeat实现使用。5177√√- ∈ −××我P我一我∈≥ ≥··· ≥1nN560的情况。80的情况。70的情况。60的情况。50的情况。42 3 4 56图像格拉夫EASY船HARD 墙TOUGHHes HesAff这些任务旨在模仿本地描述符的典型用例。补丁验证（第5.2节）基于[38]，并测量描述符对是否从同一测量中提取两个补丁进行分类的能力。受[22]启发的图像匹配（第5.3节）测试描述符在多大程度上可以正确识别两个图像中的对应。最后，补丁检索（5.4节）测试描述符将查询补丁与池匹配的程度图3.Hessian和Hessian的平均重叠精度仿射检测器的视点序列[23]。线颜色编码数据集和线样式检测器。EASY和HARD变体的选定重叠用虚线可视化。为了模拟这种噪声，使用三种设置扰动检测：E ASY，HARD和TOUGH。这是通过将随机变换T：R2→R2应用于从许多图像中提取的补丁，包括许多干扰项。这是基于局部特征的图像索引的代理[27，26]。5.1. 评估指标我们首先定义了查准率和查全率评价指标n用于H P匹配。设y =（y，. . . ，y）∈{−1，0，+1}投影前的区域假设该地区的中心-tre是坐标原点，变换包括旋转R（θ）乘以角度θ，各向异性缩放乘以s/a和是针对补丁查询返回的补丁的排序列表的标签，指示否定匹配、忽略匹配和肯定匹配，尊重我。在秩i处的n次确定和n次调用是Sa，并通过[m tx，m ty]平移，因此平移g iv enby 4Pi（y）=i[yk]+/i|yk|且Ri（y）=与检测尺度m成比例。变形金刚Nk=1k=1k=1[yk]+/k=1[yk]+;平均决策（AP）为从间隔中均匀地采样操作参数Σ由AP（y）给出=P（y）/N[y]. 的θ∈[−θmax，θmax]，tx，ty ∈[−tmax，tmax]，log2（s）∈k：yk=+1Kk=1K+[smax，smax]，log2（a）[amax，amax]，其每个设置的值在表4中给出。这些设置反映了Hessian和Hessian的典型重叠精度主要区别是相对于公关的标准定义是可以忽略的条目，即， yi = 0，这将是用于第5.4节中的检查或检索任务。在这种情况下，让仿射检测器在牛津匹配基准。好了K≥k=1 [yk]+是被访者的总数;回忆Σi每个序列中的图像通过增加变换来分类，这导致检测器噪声增加。图3显示EASY、HARD和TOUGH组对应于在此类序列的图像1-2、3-4和5-6中提取的区域。表4.几何噪声分布的范围，以面片为单位规模变体EASYθmax10◦tmax0.15SMax0.15的最大0.2HARD20◦0.30.30.4TOUGH30◦0.450.50.45检测到的区域以因子5进行缩放（参见第2节）。参考图像中的最小斑块大小为1616 px，因为只有来自检测尺度以上的区域1.6px被考虑。在每个区域中，使用梯度方向直方图估计主导方向角[20]。通过将检测到的仿射区域归一化为使用双线性插值的圆并提取65 - 65像素的正方形来校正区域。图1中显示了前补片的示例。2，其中增加的检测器噪声的影响清晰可见。5. 基准任务在本节中，我们定义了基准度量，任务及其评估协议：补丁验证，图像匹配和补丁检索。被计算为aRi（y;K）=k= 1[yk]+/K和AP为AP（y;K）=k：yk=+1Pk/K，其对应于trun-PR曲线）。5.2. 补丁验证在补丁验证中，使用描述符来区分两个补丁是否对应。基准测试从列表开始=（（xi，x′，yi），i=1，. . .，N），其中xi，x′∈R65×65×1是正、负面片对，yi= ±1是它们的标号.数据集用于评估匹配方法即，给定任意两个补丁xi，x′，产生这两个补丁对应的置信度得分siR 该方法的质量被测量为排序的补丁的平均精度，即AP（yπ1，. . . ，yπN），其中π是以降序对分数进行排序的排列（即，sπ1sπ2sπn），以应用第5.1节中的公式。基准测试使用通过改变如第4节中所讨论的投影噪声提取的四组补丁对，即EASY、HARD或TOUGH，以及从相同投影噪声内的图像采样的序列或来自不同序列。方法A的整体性能然后被计算为六个补丁集的平均AP。总共，我们在每个集合中生成2×10个正对和1×10个负对。4这里[]+=max{0， }。Avg. 重叠5178一一D一×一∼请注意，基准测试仅需要算法计算的分数;特别是，这将描述符的评估与自定义相似性度量（包括学习的度量）统一起来。该评价方案类似于[38]。然而，尽管在那里使用了ROC [13]，但在这里优选AP [30]，因为数据集高度不平衡，绝大多数（106）补丁对是负的。后者更能代表典型的匹配场景。5.3. 图像匹配在图像匹配中，描述符用于将来自参考图像的块匹配到目标图像。在该任务中，图像是N 个块的集合Lk=（xik，i = 1，. . . ，N）。考虑一对图像D=（L0，L1），其中L0是L1是目标，L2是目标。因此，在匹配之后，对应于xi1。对D用于评估算法A，给定参考片xi0∈L0，确定索引σi∈{1，. . . ，N}，以及相应的置信度si∈ R.然后？表5.所选描述符的基本属性对于二进制描述器，维数以位（bit）为单位，否则以单精度浮点数为单位。计算效率以每秒提取数千个描述符来衡量。在检索协议中，如果补丁xi对应于查询补丁x0，则给它一个正标签yi= +1，否则给它一个负标签yi=-1由于在同一序列的每个图像Lk中恰好有一个对应的块，因此在D中恰好有K个正块。然而，忽略不对应于查询块x0但至少属于匹配图像Lk 的重新获取的块xi（ yi=0）。这个想法是这样的补丁是无害的以便检索正确的图像，并且在图像中的重复结构的情况下可能频繁地出现这种无害的错误集合P用于评估算法A，benchmark将赋值σi标记为yi= 2[σi=i] −1，为每个补丁xi分配置信度得分si∈R，并且计算AP（yπ1，. . . ，yπN; N），其中π是按降序排列评分的排列（请注意，阳性结果的数量固定为N;参见第5.1节）。我们根据它们是否随视点或光照而变化对序列进行分组，并且每个组都使用EASY，HARD和TOUGH补丁进行实例化。算法的总体性能计算为所有此类图像对和变体的平均AP。注意，基准测试只需要索引σi和算法为每个im计算的得分si 年龄对通常，这些可以通过提取补丁描述符并与相似性度量进行比较来计算。该评价方案的设计与[22]中的方案非常相似。一个显著的区别是，由于块数据集是以这样一种方式构造的，即每个参考块在每个目标图像中具有对应的块，因此最大召回率总是100%。还要注意，与验证任务类似，基准测试评估描述符和测试算法提供的相似性得分的组合性能。5.4. 补丁检索在补丁检索描述符被用来找到补丁对应在一个大的补丁，其中很大一部分是干扰，从混淆图像中提取的大考虑一个集合P =（x0，（xi，yi），i= 1，. . . .，N）包括从参考图像L 0中提取的查询块x0，以及来自图像Lk，k= 1，. . .，Kin相同的序列（匹配图像）以及许多混淆图像。补丁匹配查询x0。然后基准返回AP（yπ1，. . . ，yπN; K），其中π是以降序对分数进行排序的排列。基准测试抽取了1×104个集合P，每个集合对应于不同的查询块x0及其对应的5个块，以及从所有序列中随机选取的2 ×104个此外，还有三个变量-为EASY、HARD和TOUGH实例化的蚂蚁。算法的整体性能被计算为所有此类集合及其变体的平均AP。该基准的设计受到经典图像检索系统的启发，例如[27，28，26]，其使用补丁及其描述符作为图像索引中的条目。可以通过使用PhotoTourism数据集来执行类似的评估，该数据集包括100K小的对应补丁集。不幸的是，由于这些小集合不是最大值，因此不可能在没有地面真实的情况下知道补丁不具有正确的对应关系，这使得评估有噪声。6. 实验结果在本节中，我们使用新引入的基准评估局部描述符，并讨论与文献相关的结果6.1. 描述符我们评估了以下描述符，总结见表5。我们包括两个基线：MSTD，[μ，σ]，它是补丁的平均μ和标准差σ，以及RESZ，通过将补丁缩放到6×6pix获得的矢量10 5 二、383 83256256256 256 512 128 128 12832323264646432323332333 0的情况。3 0的情67 3 2 22 36 128 12865 656565Dims补丁大小速度CPU速度GPU∗∗∗描述MSTDRESZSIFTRSIFT简要BBOOSTORBDC-S公司简介DDESCTF-MTF-R5179然后，将其减去μ，再除以σ。对于基于SIFT的描述符，我们包括SIFT [20]及其变体RSIFT [2]。从二进制描述符家族中，我们测试了BRIEF [8]，基于随机强度计算，ORB [29]，使用不相关的二进制测试，以及BBOOST [32]，其中使用boosting选择二进制测试。最后，我们评估了几个最近的深度描述符，包括DeepCompare [41] （ DC-S ， DC-S2 S ）的 siamese 变体，具有用于一个或两个补丁作物的一个和两个流CNN架构，DeepDesc [30]（DD ESC），它利用硬否定挖掘，以及TFeat描述符[ 4 ]的TFeat margin*（TF-M）和ratio*（TF-R），基于浅层卷积网络，三重学习，NG约束和快速硬否定挖掘。所有基于学习的描述器都是在PhotoTourism数据上训练的，这与我们的新基准不同。在[2，7，17]中已经表明，描述符规范化通常会大大提高性能。因此，我们还包括通过应用ZCA白化[6，第299-300页]和剪切本征值[15]，然后进行幂律归一化[2]和L2归一化来选择描述符的后处理变体。ZCA投影是在数据集的一个子集上计算的（注意ZCA是无监督的）。本征裁剪的阈值分别为每个描述器估计，以最大限度地提高其在数据集子集标准化不用于平凡的基线和二进制描述符。表5显示了每个描述符的维度、测量区域的大小（以像素为单位）和提取时间。DeepCompare [41]变体具有256和512的最高维度，除MSTD和RESZ外，其他实值描述符具有128个维度。所有二进制描述符都是256位。在速度方面，二进制描述符BRIEF和ORB比最有效的基于CNN的特征（即TF-）快4倍。其他描述符至少慢一个数量级。请注意，MSTD和RESZ是在Matlab中实现的，因此应谨慎解释其效率。6.2. 结果描述符在三个基准任务上进行评估：补丁验证，图像匹配和补丁检索，如第5节所定义。在图中的所有图中，4，标记的颜色指示几何噪声的量，即，EASY、H ARD和TOUGH，如第4节所述。每个任务的实验设置有两种变体，如下面的讨论中所解释的，并且标记的类型对应于实验设置。条形图是由三种噪声变体给出的六次运行的平均值，每种噪声变体具有两个虚线条边框和+表示ZCA投影和归一化特征。验证ZCA 预计和归一化+TF-R，+ DC-S2 S，紧随其后的是其他TF-，+DDESC和+DC-S，后处理SIFT和二进制描述符的得分略低。后处理对DC和SIFT有显著的提升，但对基于TF的描述符有较小的提升。CNN特征的良好性能是预期的，因为这样的描述符与它们的距离度量一起被优化，以在验证任务中表现良好。实验针对由来自相同序列SAME SEQ和来自不同序列DIFF SEQ的斑块形成的阴性对进行。来自SAME- SEQ的图像被认为更具挑战性，因为图像不同部分的纹理通常相似。事实上，SAMESEQ的结果始终较低。这表明，不仅正数据中的噪声构成了挑战，而且性能也会因负样本来自何处而异。匹配. 描述符的排名会因此任务而发生变化。虽然规范化+DDESC仍然表现良好，但令人惊讶的是，+RSIFT排在其他描述符之前。+TF-也给出了良好的匹配性能。总体mAP分数比验证任务低得多，因为这里阳性与阴性示例的比率显著较低，并且所有阴性示例都来自相同的序列。此外，SIFT和深度描述符之间的差距是nar-row相比，验证。另一个有趣的发现是，具有光度变化的序列（ILLUM）的结果始终低于视点变化（VIEWPT）的结果。这与牛津数据评价中观察到的情况不同[22]。与对光度变化的鲁棒性相比，在几何不变性方面似乎取得了更多的进展。提出的HPatches数据集包括许多具有极端光照变化的序列。检索。检索场景中的最佳执行者与匹配场景中的相同。特别是，SIFT变体紧随+DDESC之后。与匹配相比，整体性能稍好，这可以再次解释为来自匹配中的相同序列和检索中的不同序列的干扰项。一心多用在这些任务中有几个有趣的观察结果。首先，描述符的排名发生了变化，这证实了需要多个评价标准。其次，SIFT变体，特别是在随后进行归一化时，表现非常好。事实上+RSIFT是图像匹配和补丁检索的第二好的描述符。MSTD在验证上给出了很好的分数，但在匹配和检索上完全失败，因为两者都依赖于最近邻匹配。在验证方面的良好表现显然不能很好地推广到其他任务，这些任务更好地反映了描述符的实际应用。这进一步强调了使用多任务基准来补充PhotoTourism培训和测试的必要性，这在最近的大多数论文中都是这样做的，并且与这里的验证任务类似的5180EASYHARDTOUGHRESZMSTDBRIEFRSIFTORBSIFTBBOOSTDC-S+SIFT+RSIFTDC-S2SDDESC+DC-S+DDESCTF-MTF-R+TF-M+DC-S2SDIFFSEQSAMESEQ48.11%百分之四十八点七五58.07%58.53%百分之六十点一五65.12%66.67%70.04%74.35%76.70%78.23%79.51%81.63%81.65%81.90%81.92%82.69%83.03%MSTDRESZBRIEFBBOOSTORBDC-SSIFTRSIFTDC-S2SDDESCTF-R+DC-S+DC-S2STF-M+SIFT+TF-M+TF-R+DDESCVIEWPTILLUM0.10%7.16%百分之十点五百分之十四点七七15.32%百分之二十四点九二25.47%27.22%27.69%百分之二十八点零五30.61%31.65%32.34%32.64%32.76%34.29%34.37%35.44%MSTDRESZBriefORBBBOOSTSIFTRSIFTDC-S2SDC-STF-R+DC-S2STF-M+DC-SDDESC+TF-M+TF-R+SIFT+RSIFT1.20%百分之十三点一二百分之十六点零三百分之十八点八五22.45%31.98%33.56%34.76%34.84%37.69%38.23%39.40%39.68%39.83%40.02%40.23%40.36%43.84%+TF-R83.24%020406080100补丁验证mAP [%]+RSIFT36.77%020406080100图像匹配mAP [%]+DDESC44.55%020406080100修补修复mAP [%]图4.核查、比对和检索结果。标记的颜色表示EASY、HARD和TOUGH噪音。标记物的类型对应于实验设置的变体（见第6.2节）。条形图是每个任务的6个变量的平均值。虚线条边界和+表示ZCA投影和标准化特征。EASY和TOUGH几何失真以及照明变化的性能差异高达30%，这表明在这两个方面仍有改进的余地。尽管+DDESC [30]接近每个类别中的最高分数，但深度描述符和SIFT的性能在任务中各不相同，但它是计算最慢的。在匹配和检索中，ZCA和归一化使SIFT的性能达到顶级水平。与一些深度描述符相比，SIFT对高度几何噪声的鲁棒性似乎较低，对于EASY和TOUGH基准测试具有较大的扩展。这在补丁验证任务中尤其明显，在该任务中，对于TOUGH数据，大多数其他描述符都优于SIFT。特别是对于图像匹配和块检索任务，二进制描述符被原始SIFT大幅度优于，这可能是由于其区分能力和对几何噪声的更好鲁棒性。二进制描述符仅在补丁验证任务中具有竞争力。然而，二进制描述符具有其他优点，例如紧凑性和速度，因此在精度不如速度重要的应用中，它们可能仍然是最佳选择。此外，+TF表现相对较好，特别是当考虑到它们的效率时。后处理标准化，特别是平方根，有显着的效果。对于大多数描述符，归一化特征的性能比原始特征好得多最后，补丁验证实现平均更高的mAP得分相比，其他任务。这主要可以从平凡MSTD描述符的相对良好的性能看出这证实了补丁验证任务本身是不够的，其他任务至关重要描述符评估。7. 结论随着深度学习的出现，新的、更强大的局部描述符的开发速度大大加快。然而，正如我们在本文中所示，通常用于评估这些描述符的基准从长远来看，这可能不利于进一步的研究。为了解决这个问题，我们引入了HPatches，一个新的本地描述符公共基准。新的基准是基于补丁的，消除了困扰现有的基于图像的基准和有利于严格的，可重复的，和大规模的实验的歧义。该基准测试还通过考虑许多不同的场景和视觉效果类型以及接近描述符实际应用的三个基准测试任务，改进了其他数据集中存在的有限数据和任务多样性。尽管我们的基准测试套件的多任务复杂性，使用评估是很容易的，因为我们提供了开源的协议，可以使用最小的努力。HPatches可以取代诸如PhotoTourism和旧的但仍然经常使用的Ox-ford匹配数据集等数据集，解决它们的缺点，并为对本地描述符感兴趣的研究人员提供有价值的工具。鸣谢Karel Lenc由ERC 677195-IDIU支持， VassileiosBalntas由FACER 2 VM EPSRC EP/N 007743/1支持。我们要感谢Giorgos Tolias在描述符标准化方面的帮助5181引用[1] H. Aanæs，A. L. Dahl和K. S.佩德森。有趣的地方。IJCV，97（1）：18[2] R. Arandjelovic和A.齐瑟曼。每个人都应该知道的三件事，以提高对象检索。在Proc. CVPR，第2911-2918页[3] 诉巴恩塔斯局部图像描述符的有效学习。博士论文，萨里大学，2016年。[4] 诉Balntas，E.Riba，D.Ponsa和K.米科莱奇克用三元组和浅卷积神经网络学习局部特征描述符。 Proc.BMVC，2016.[5] V. Balntas，L. Tang和K.米科莱奇克BOLD -用于高效图像匹配的二进制在线学习描述符。在Proc.CVPR，2015中。[6] C. M.主教用于模式识别的神经网络。奥克斯-福特大学出版社，1995。[7] A. Burgeland湾 Tolias和H. 我去。具有隐式旋转匹配的内核局部描述符在ACM ICMR，第595- 598页[8] M. Calonder，V.莱佩蒂特角Strecha，和P.呸二进制鲁棒独立基本特征。Proc. ECCV，第778-792页，2010年[9] V. Gaserasekhar，G. Takacs，D. M. Chen，S. S. 蔡M. Makar和B.吉罗德用于视觉搜索的紧凑描述符的特征匹配性能。在Proc. Data Compression Conference，第3-12页[10] K.科德湾Rosenhahn和J.奥斯特曼使用差分进化提高特征评估基准在Proc. Med.，第1-8页[11] K. 科德湾Rosenhahn和J.奥斯特曼高分辨率功能评估基准。在Proc. CAIP，第327- 334页[12] J. Davis和M.戈德里奇查准率-查全率与ROC曲线的关系。在Proc. ICML，第233- 240页[13] T.福塞特ROC图：研究人员的注意事项和实际考虑。2004年[14] P. Fischer，A. Dosovitskiy和T.布洛克斯卷积神经网络的描述符匹配：与 SIFT 的比较 arXiv 预印本 arXiv ：1405.5769，2014年。[15] G. 华，M.Brown和S.发条人局部图像描述符的判别式嵌入在proc ICCV，第1-8页，2007年。[16] N. Jacobs，N. Roman和R.求你在许多户外场景中一致的时间变化。在Proc. CVPR，第1[17] Y. Ke和R.苏克坦卡PCA-SIFT：局部图像描述符的更独特的表示。在Proc. CVPR，第2卷，第II-506页[18] S. Leutenegger，M.Chli和R.Y. 西格沃特BRISK：BinaryRobust Invariant Scalable Keypoints（二进制鲁棒不变可缩放关键点）。在Proc. ICCV，第2548[19] G. Levi和T.哈斯纳LATCH：学习了三个补丁代码的排列。2016年冬季计算机视觉应用会议（WACV）[20] D. G.洛基于局部尺度不变特征的目标识别。在Proc.ICCV，第2卷，第1150-1157页[21] K. Mikolajczyk和J.马塔斯利用最佳线性投影改进快速树匹配描述符。载于《国际刑事法院判例汇编》，2007年。[22] K. Mikolajczyk和C.施密特局部描述符的性能评估。IEEE PAMI，27（10）：1615[23] K. Mikolajczyk、T.图伊特拉尔斯角Schmid，A. 齐瑟曼J. Matas，F. Schaffalitzky，T. Kadir和L.范古尔仿射区域检测器的比较。IJCV，65（1-2）：43[24] O. Miksik和K.米科莱奇克快速特征匹配的局部检测器和描述符的评估在Proc. ICPR，第2681-2684页[25] D. Mishkin，J.马塔斯M.Perdoch和K.伦克Wxbs：宽基线立体概括。在proc BMVC，第12.1- 12.12页，2015年。[26] M. Paulin ， M. Douze ， Z. Harchaoui ， J. Mairal ， F.Perronin和C.施密特用于图像检索的非监督训练的局部卷积特征。在Proc. ICCV，第91- 99页[27] J. Philbin，O. Chum，M. Isard，J. Sivic，and A. 齐塞-曼。具有大词汇量和快速空间匹配的对象检索在Proc.ICCV，第1-8页[28] J. Philbin，O. Chum，M. Isard，J. Sivic，and A.齐瑟曼。量化损失：改进大规模图像数据库中特定对象的检索。在Proc. CVP

下载后可阅读完整内容，剩余1页未读，立即下载