预训练CNN特征检测器的新方法

24 浏览量更新于2023-10-12 收藏 1.72MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7940ELF：预训练CNNAssia Benbihi UMI2958 GeorgiaTech-CNRS法国巴黎-萨克雷梅斯高等教育中心abenbihi@georgiatech-metz.frMatthieu Geist谷歌大脑研究团队Ce´dricPradalierGeorgiaTechLorraine-UMI2958GeorgiaTech-CNRSMetz，法国摘要本文介绍了一种新的特征检测器，它仅基于在标准任务（例如，分类）。虽然之前的工作已经表明，经过训练的CNN的特征是合适的描述符，但我们在这里展示了如何从网络中提取特征位置来构建检测器。根据特征图相对于输入图像的梯度来计算该信息。这提供了在相关关键点位置上具有局部最大值与最近的基于CNN的检测器相反，这种方法既不需要监督训练，也不需要微调。我们评估检测到的关键点的可重复性和可匹配性匹配性是衡量一个简单的描述符介绍了为了评估。这种新的检测器在标准评估HPatches数据集上达到了类似的性能，并且对网络摄像头和照片旅游图像上的照明和视点变化具有相当的鲁棒性。这些结果表明，在标准任务上训练的CNN嵌入的特征位置信息与CNN专门训练用于特征检测时一样相关。1. 介绍特征提取、描述和匹配是从运动恢复结构（SfM）、视觉SLAM和场景识别等视觉任务中经常遇到的问题。该方法首先检测图像中的关键点，然后根据关键点的描述符距离对最近的关键点进行匹配。尽管手工制作的解决方案（如SIFT [19]）被证明是成功的，但最近在局部特征检测和描述方面的突破依赖于监督式深度学习方法[12，25，40]。它们检测由卷积神经网络（CNN）学习的显着图上的关键点，然后使用另一个CNN或一个卷积神经网络来计算描述符图1. (1-6)嵌入式探测器：给定一个在标准视觉任务（分类）上训练的CNN，我们将特征图反向传播回图像空间以计算显着图。它被阈值化以仅保留信息量最大的信号，并且关键点是局部最大值。(7-8)：代理描述符。它的一个分支。它们都需要强有力的监督和复杂的培训程序：[40]需要地面实况匹配关键点来启动训练，[25]需要图像的地面实况相机姿态和深度图，[12]通过使用合成数据来避免对地面实况数据的需要，但需要重域适应以将训练转移到现实图像。所有这些方法都需要大量的学习努力。在本文中，我们证明了一个经过训练的网络已经嵌入了足够的信息来构建最先进的（SoA）检测器和描述符。所提出的局部特征检测方法只需要在标准任务（如ImageNet）上训练CNN[11]分类，没有进一步的培训。被称为ELF的检测器依赖于这样的CNN学习的特征，并从特征图梯度中提取它们的位置。以前的工作已经强调了训练的CNN特征是相关的描述符[13]，最近的工作[6，15，31]专门训练CNN以产生适合关键点描述的特征然而，现有的方法都不使用7941用于特征检测的预训练CNN。ELF计算经过训练的CNN特征图相对于图像的梯度：这会输出一个在关键点位置上具有局部最大值的显着经过训练的检测器使用CNN学习这个显着图，而我们使用梯度计算来提取它。这种方法的灵感来自于[32]它观察到分类得分的梯度该图像类似于图像显著性图。ELF的不同之处在于它采用特征图的梯度，而不是与利用CNN梯度的现有工作相反的分类得分这些以前的工作旨在可视化的学习信号的分类具体，而ELF提取的特征位置。然后，对表现显著性图进行阈值处理，以仅保留最相关的位置，标准的非最大值抑制（NMS）提取最终的关键点（图2）。图2.显着图阈值，以保持只有最具信息性的位置。上图：原始图像。（左 - 右： Webcam [39] ， HPatches [5] ，COCO[18]）Middle：模糊的显着图。底部：阈值后的显著性图。（最好在电脑上看）。ELF仅依赖于六个参数：2×2高斯模糊参数用于自动阈值估计和显著图去噪;的两个参数(NMS)窗口和边框可以忽略。检测只需要一个向前和一个向后的传球和接球在简单的Quadro M2200上，每张图像的时间为0.2秒，这使得它非常适合实时应用。将ELF与具有标准重复性的单个检测器进行比较[24]，但结果表明该度量不够有区分力。大多数现有的检测器可以提取具有相似可重复性分数的跨图像重复的关键点。此外，该指标并不表示检测到的关键点有多“有用”：如果我们将所有像素作为关键点进行采样，我们将达到100%的代表性。但是如果许多区域看起来相似，则匹配可能并不完美。因此，检测到的关键点也会根据它们与匹配分数的“匹配程度”进行评估该指标要求来描述关键点，所以我们定义了一个简单的描述符：它基于在检测到的关键点上的CNN特征图的插值，如[12]所示。这避免了通过选择现有的竞争性描述符来使per-pronouncer偏置。实验表明，即使是这个简单的描述符也达到了有竞争力的结果，这使得[13]关于CNN特征作为描述符的相关性的观察得到了安慰。(See 4.1.）ELF在五种架构上进行了测试：在ImageNet分类上训练的三个分类网络：AlexNet，VGG和Xception [17，33，9]，以及SuperPoint [12]和LF-Net[25]描述符网络。虽然超出了本文的范围，但这种比较提供了网络架构，任务和训练数据对ELF性能影响的在HPatches [5]上计算度量，用于一般性能、规模和旋转鲁棒性分析; Strecha和Webcam [36，39]进行光线和3D鲁棒性分析。我们还测试了ELF在图像3D重建（CVPR 19图像匹配挑战[1]）。我们的贡献如下：• 大量的实验表明，在标准视觉任务上训练的CNN将特征位置嵌入其fea中，真梯度。这些数据与特征检测相关，就像CNN专门为此进行训练一样。这种新的检测器是与其他稀疏的。• 我们定义了一个系统的局部特征检测方法他们还更新了以前的结果[13]：自学CNN功能提供SoA描述符尽管最近CNN描述符有所改进[10]。• 我们发布了基于Python的评估代码，以便于将来与ELF代码1进行比较。2. 相关工作早期的方法依赖于手工制作的检测和描述：SIFT[19]检测高斯差异上的3D空间尺度关键点，并用3D直方图（HOG）描述它们。SURF [7]使用图像积分来加速先前的检测，并使用Haar小波响应的总和进行描述。KAZE [4]通过在非线性尺度空间而不是经典的高斯尺度空间中检测特征来扩展以前的多尺度方法。ORB [27]结合了FAST [26]检测和BRIEF [8]描述，并对其进行了改进，以使管道缩放和旋转不变。基于MSER的检测器手工制作关键点的所需不变性，并设计快速算法来检测它们[21]。尽管这些手工制作的方法已经被证明是成功的，并且对于某些应用达到了最先进的性能，但最近的研究集中在基于学习的方法上。TILDE是第一个学习的探测器之一[39]，在网络摄像头1ELF代码：https://github.com/abenbihi/elf7942数据集。他们学习显着图，其中最大值是关键点的位置。地面实况显着图是用“好的关键点”生成的，即SIFT关键点在100多个图像中重复。这种方法的一个缺点是需要依赖于另一个检测器的监督。然而，对于什么是好的关键点，并没有一个通用的明确定义.这种规范的缺乏激发了Quad-Networks[28]采取不受监督的方法：他们训练一个神经网络，根据关键点对随机手工变换的鲁棒性对关键点进行排序。他们将排名的顶部/底部分位数作为关键点。ELF的相似之处在于它不需要监督，但不同之处在于它不需要进一步训练CNN。其他学习的检测器在完整的检测/描述管道中进行训练，例如LIFT [40]、SuperPoint[12]”[25]张云飞。LIFT的贡献在于他们三个CNN的原始训练方法。检测器CNN学习显著性图，其中最大值是关键点。然后，他们裁剪周围的补丁，用另外两个CNN计算它们的方向和描述符。他们第一次训练具有对比度损失的地面实况匹配点周围的补丁的描述符，然后将方向CNN与描述符结合在一起，最后与检测器结合。这种方法的一个缺点是需要地面实况匹配关键点来启动训练。在[12]中，通过在由多边形组成的合成几何数据集上预训练检测器来避免该问题，然后，在COCO [18]的图像对上进行描述符训练期间，使用合成单应性和[10]中介绍的对应对比度损失对检测器进行微调。LF-Net依赖于另一种类型的超级视觉：它使用地面实况摄像机姿态和图像深度图，这些都很容易用激光或标准SfM计算。它的训练管道建立在LIFT之上，并采用投影相机模型将检测到的关键点从一个图像投影这些关键点对形成了地面-真值匹配点来训练网络ELF的不同之处在于匹配性评估中使用的简单描述符是从UCN [10]中借用的给定一个特征图和要描述的关键点，它在关键点位置上插值特征图。经过训练的CNN早就被认为可以提供相关的特征描述符[13]。最近的研究已经采取了专门训练CNN的描述与基于补丁的方法，（例如[31，22，15，41]）或基于图像的方法 [10 ， 38] 。我们赞成 [10] ，也被SuperPoint使用，因为它比[38]简单，并且与O（N）基于补丁的方法相比，它的复杂度为O（1），其中N是关键点的数量。3. 方法本节定义了ELF，这是一种对任何训练过的CNN都有效的检测方法。关键点是作为图像的特征梯度计算的显著图的局部最大值我们使用数据自适应Kapur方法[16]自动对显着性图进行阈值处理，仅保留最显着的位置，然后运行NMS进行局部最大值检测。图3.（大版本在AP。pennsylvania.）赛琳计算的cy映射从特征图梯度。TF l（x）·Fl. . 增强图像.我是。CNN模型已经在标准任务上进行了训练然后，它提取嵌入网络内部的相关信息进行局部特征检测，无需训练或监督。本文的检测方法主要受到[32]中的初始观察的启发：给定一个训练用于分类的CNN，图像的类得分的梯度是输入图像中类对象的显着性图。一系列工作旨在通过优化将CNN表示反转到图像空间中来可视化CNN表示[20，14]。以下工作使用这些显着图来更好地理解CNN训练过程并证明CNN输出。工作主要集中在梯度定义上对比度更好的可视化。顶行：VGG样本池2和样本池3的梯度显示从样本池2到样本池3的分离度损失。Bot-tom：（pool i）i∈[1， 2， 5]of VGG on Webcam，HPatches and Coco images.低水平显着图激活准确，而更高显著图是模糊的。3.1. 特征显著性我们生成一个显着图，它在特定CNN特征水平l的信息量最大的图像区域上激活。设I是维数为DI=HI·WI·CI的向量图像。设Fl是维数为DF的矢量化特征图 =Hl·Wl·Cl. 维度D1的显著性图S1是..[30，34，35，37，42]。ELF简单地将特征映射反向传播回图像空间。据我们所知，这是第一个利用这种梯度进行特征检测的工作。Sl（I）=. tFl（I）·IF l. ，其中IFl是一个DF×DI矩阵。显着性激活的图像区域上的con-最大程度地归功于特征表示F1（I）。的7943N术语“F1”解释了特征空间和一般的图像空间多-设为fs：A=.Σpi皮ΣI s 和B=.pii>=spi Σi>s. 为F1（I）的运算将相关性具体应用于特征F1（I），并在图像空间S1（I）中生成可视化。从几何的观点来看，该操作可以被看作特征信号Fl（I）到图像空间中的投影IFl从信号处理方法来看，F1（I）是通过滤波器F1滤波到图像空间中的输入信号如果CI>1，则将SI转换为灰度通过在各个通道上取平均来成像。3.2. 特征图选择我们提供了视觉指南来选择特征级别l，使得Fl仍然保持高分辨率的本地化信息，同时提供有用的高级别表示。卷积和池化等CNN操作增加了特征图的感受野，同时降低了它们的空间维度。这意味着Fl具有比Fl-1小的空间分辨率，并且反向传播信号Sl结束比Sl-1更大。这类似于当图像太大了，可以在图3中观察到，显示了VGG特征图的梯度。在顶行上，池2在底部的行中，图像随着我们在网络中走得更高而失去分辨率。这种分辨率损失的另一个后果是，如果I太高，则小特征不嵌入在Fl中。这将把潜在关键点的空间减少到仅大的特征，这将妨碍该方法。这一观察激励我们倾向于使用低级特征图进行特征检测。我们通过采用提供准确定位的最高l来选择最终的Fl这是通过稀疏的高强度信号在视觉上可观察到的，这与较高层的模糊方面相反。3.3. 自动数据自适应采样保持阈值是自动的，并且适应于显著性图分布以仅保留信息量最大的区域。图2显示了使用Kapur方法[16]进行阈值化之前和之后的显着性图它选择阈值以最大化图像背景和前景之间的信息，即阈值以下和阈值以上的像素分布。这种方法在这种情况下特别相关，因为它旨在尽可能多地保持关于阈值以上分布的信息该分布描述了局部最大值的集合我们从中选择我们的关键点。更正式地，对于具有n个排序灰度级的N个像素的图像I，（fi）i∈n对应的直方图，pi=fi是empir-一个像素保持值f i的实际概率。设s∈n是阈值水平，A、B是经验背景，前景分布选择水平s以最大化A和B之间的信息，并且阈值为更好的结果，我们用高斯参数模糊图像，在计算阈值电平之前，先计算（µthr，σthr）一旦设置了阈值，我们就用第二个高斯模糊参数（µ 噪声，σ 噪声）对图像进行降噪，并运行标准NMS（与SuperPoint相同），其中我们迭代地选择递减的全局最大值，同时确保它们的最近邻距离高于窗口wNMS∈ N。我们还忽略了图像边界周围的bNMS∈3.4. 简单描述符如引言中所述，可重复性分数不再区分探测器。因此，它们也会被评估其检测到的关键点与匹配分数的“匹配程度”。ELF检测器使用受UCN启发的简单描述符完成[10]：在检测到的关键点上插入CNN它比现有的竞争对手简单，避免了不公平地提高ELF虽然简单，实验表明，这种描述完成ELF到一个有竞争力的特征检测/描述方法。用于描述的特征图可以不同于用于检测的特征图。高级特征图具有更宽的感受野，因此在描述像素位置时考虑了更高的上下文这导致了更多的信息描述符，促使我们倾向于更高级别的地图。然而，我们也受到先前描述的分辨率损失的限制：如果特征图级别太高，则描述符的内插生成彼此太相似的向量。例如，VGG池4层产生比池5更多的区别性描述符，即使池5嵌入了更高级别语义的信息。从经验上讲，我们观察到存在一个层次l′，在该值以上，描述性能在下降之前停止这是通过匹配来score [24].特征图的最终选择是通过测试一些层l′> l来完成的，并在描述符性能停滞之前选择最低的特征图。检测器的评估与他们原来的描述符和这个简单的。动机是检测器可能会偏向于对它们各自的描述器可以“很好地”描述因此，使用原始检测器/描述符对来计算匹配分数是公平的然而，检测器可以对“无用点”（例如，“无用点”）进行采样。用于3D重建的天空像素），其描述符可以“良好地”表征。在这种情况下，描述符这促使一个共同的独立的描述符与所有检测器的集成，以评估它们。79444. 实验本节描述评估指标和数据集以及方法的调优。我们的方法与具有可用公共代码的检测器进行比较：[19]基于学习的LIFT [40]，SuperPoint [12]，LF-Net [25]，单个检测器TILDE [39]，MSER [21]。4.1. 度量我们遵循标准验证[24]，该标准验证通过重复性（rep）评估检测性能。它测量两个图像共有的关键点的百分比。我们还计算匹配分数（ms）作为额外的检测器度量。它捕获在图像空间和描述器空间两者中是最近邻居的关键点对的百分比，即正确匹配的关键点的比率。为了完整起见，度量定义在附录中被调用，它们在发布的代码中实现。达到完美再现的一种方法是对所有像素进行采样或者以高于度量的距离阈值Δkp的频率对它们进行采样。防止第一个缺陷的一种方法是限制关键点的数量，但它不能解决第二个缺陷。由于检测器总是与描述符一起使用，因此另一种思考检测器评估的方法是：“好的关键点是可以区分地描述和匹配的关键点”。人们可能会认为这样的度量可能会被描述符破坏。但是我们确保检测器缺陷不能被具有两个准则的非常执行的描述符隐藏。一个实验必须用一个固定的描述符（3.4中定义的简单描述符）评估所有检测器。其次，ms永远不会高于rep，因此rep较差的检测器会导致ms较差。这里，对于所有方法，检测到的关键点的数量被限制为500。如在[12，25]中所做的那样，我们替换[24]中的在[40]之后，我们还修改了[24]的匹配分数定义，以对所有描述符运行贪婪二分图匹配，而不仅仅是距离低于任意阈值的描述符对我们这样做是为了能够比较所有最先进的方法，即使当它们的描述符维度和范围显著变化时。(More详情见附录）。4.2. 数据集所有图像的大小调整为480×640像素，并相应地纠正图像对变换。一般业绩。HPatches数据集[5]收集了标准评估图像的子集，例如DTU和OxfordAffine [2，23]：它提供了总共696幅图像，其中6幅图像对应116个场景，以及同一场景的图像之间的对应单应性。对于其中的57个场景，主要的变化是摄影测量，图 4. 左 - 右： HPatch ：平面视点网络摄像头：灯光。HPatches：旋转。HPatches：scale. Strecha：3D视点。59示出了由于平面场景上的视点变化而导致的显著几何变形。照明鲁棒性。Webcam数据集[39]收集了具有剧烈自然光变化的静态户外场景，而HPatches主要是在室内场景中保持人造光变化。旋转和缩放鲁棒性。我们从代码中提供的HPatches中获得了两个数据集。对于116个场景中的每一个，我们保留第一个图像，并将其旋转为角度从0度到210度，间隔为40度。四个放大版本的图像生成与尺度[1. 25，1。五一75，2]。3D视点鲁棒性。我们使用三个Strecha场景[36]随着视点变化的增加：喷泉，城堡入口，Herzjesu-P8。HPatches提出的视点变化仅限于平面场景，不能反映三维结构的复杂性。我们使用COLMAP [29]来获得我们发布的“地面实况”无尺度深度。ELF还在CVPR 19图像匹配挑战赛中进行了测试[1]。4.3. 基线我们描述了评估背后的基本原理。测试在QuadroM2200上运行，配备Tensorflow 1.4、Cuda8、Cudnn6和Opencv3.4。我们使用OpenCV实现的SIFT，SURF，ORB，KAZE，MSER与故障参数和作者的代码TILDE，LIFT，SuperPoint，LF-Net与提供的模型和参数。当在特征匹配管道中比较检测器时，我们用它们的原始描述符和ELF简单描述符来测量它们的匹配分数。对于MSER和TILDE，我们使用VGG简单描述符。建筑影响力。 ELF 在五个网络上进行测试：在ImageNet 上训练的三个分类（ AlexNet ， VGG ，Xception [17，33，9]）以及训练的Super- Point和LF-Net的描述符。我们用网络本文比较了i）架构对固定任务的影响（ELF-AlexNet [17] vs. ELF-VGG [33] vs.ELF-Xception [9] ）， ii ）任务（ ELF-VGG 与 ELF-SuperPoint（SP）描述符），iii）训练数据集（摄影旅游上的ELF-LFNet与MS-COCO上的ELF-SP）。这项研究正在进行改进，在期刊扩展中对任务，数据集和架构进行了更独立的比较。我们使用作者7945我们转换为Tensorflow [3]。我们在[3，21]]2范围内搜索模糊参数（µ thr，σ thr），（µ noise，σ noise）;在[ 4，13]]2范围内搜索NMS参数（w NMS，b NMS）。单个组件比较。个别检测器进行比较，其检测的匹配性以及简单VGG-pool 3描述器的描述。这边，多发性硬化症。仅仅取决于检测性能，因为描述对于所有检测器是固定的这个实验还提出了一个问题，即三重态损失是否与训练CNN描述符相关。事实上，这些损失直接约束CNN特征，使得匹配的关键点在描述符空间中彼此接近。更简单的损失，例如用于分类的交叉熵ELF-VGG检测器还集成了现有的描述符。这评估了CNN自学习特征位置与手工制作和学习的特征位置相比有多有用梯度基线。在视觉上，特征梯度图让人想起用Sobel或Laplacian算子计算的图像梯度我们运行两种不同的管道我们用它们替换特征梯度。这旨在显示CNN特征梯度是否比图像强度梯度嵌入更多的信息。5. 结果实验表明，ELF与SoA相比，具有更高的性能并证明了与最近学习的方法类似的鲁棒性。它在非常结构化的图像（HPatches）上生成视觉上类似于Laplacian的显着性图，但在自然条件下的户外场景（Webcam）上证明更强大。当与现有的特征描述符集成时，ELF提高了匹配分数。即使是积分ELF简单描述子也能改善它，但SuperPoint除外，其结果是等效的。这为CNN学习的表示提供了新的线索，并表明深度描述方法可能未充分利用嵌入其训练网络中的信息。数值实验表明，所有方法都能检测出性能相近的可重复关键点尽管点的匹配性（m.s）更具区分性，但两者都没有表达kp对于最终目标任务的这样做的一种方法是评估最终目标任务（例如，从运动结构）。然而，为了使评估严格，所有其他步骤都应针对所有论文进行固定。最近，图像匹配CVPR 19工作车间提出了这样的评估，但还没有完全自动化。这些结果还挑战了当前描述符训练损失是否是一个足够强的信号，可以比简单的交叉熵更好地约束CNN特征。除非另有说明，否则我们计算每个检测器的可重复性，以及检测器与其各自描述符的匹配得分（当它们有一个时）。我们使用图5.自上而下：HPatches-Webcam。左-右：重复性，匹配评分。更好地看到数字屏幕上的颜色。ELF-VGG-TILDE 、 MSER 、 ELF-VGG 、 ELF-SuperPoint和ELF-LFNet的池4描述符我们使用AlexNet和Xception特征映射来构建各自的简单描述器。各变体的元参数见附录。一般业绩。图5（顶部）显示，检测器之间的rep方差较低，而ms更具区分性，因此采用了验证方法（第4.1节）。在HPatches上，SuperPoint（SP）达到最佳代表 [68.6 ， 57.1] ，紧随其后的是 ELF （例如， ELF-VGG：[63.8，51.8]）和TILDE [66.0，46.7]。总的来说，我们观察到基于学习的方法都优于手工制作的方法。尽管如此，LF-Net和LIFT在HPatches上的表现仍然令人好奇：一个原因可能是他们训练的数据与这个数据差异太大。LIFT只在室外图像上训练，LF-Net在室内或室外数据集上训练，而HPatches则是由它们的混合组成的。我们计算两个LF-Net模型的指标，并报告最高的一个（室内）。尽管LF-Net和LIFT落后于顶级学习方法，但它们仍然优于手工制作的方法，这表明它们的框架学习了手工制作的方法无法捕获的特定信息这支持了最近的方向训练检测器和描述符。同样，ms在Webcam上是比rep更好的判别式（图5底部）。ELF-VGG达到最高重复次数[53.2，43.7]，紧随其后的是TILDE [52.5，34.7]，TILDE是最先进的检测器。总的来说，从HPatches到Webcam的性能下降了约20%。HPatches保存具有标准特征的图像，例如最先进的方法ODS通过定义或监督来识别在网络摄像头数据集中这样的特征较少，因为自然光线会使它们模糊。也有7946这些模型不能很好地处理强强度变化。一个原因可能是基于学习的方法从未在其训练集中看到这样的照明变化。但是这个假设被拒绝了，因为我们观察到，即使是在Coco图像上训练的Super- Point，也优于在户外图像上训练的LIFT和LF-Net。另一个理由可能是，最重要的是训练网络的像素分布，而不是图像内容。最好的方法是基于分类器的ELF和Su-perPoint：第一个是在庞大的ImageNet数据集上训练的，并受益于大量的数据增强。超级点还采用了相当大的数据策略来训练他们的网络。因此，这些网络可以覆盖更宽的像素分布，这将解释它们对像素分布变化（诸如光修改）的鲁棒性。在三个分类网络以及Super- Point和LF-Net的描述符网络上测试了架构影响对于固定数据集（ImageNet）上的固定训练任务（分类）正如可以预期的那样，网络架构对检测具有关键影响，并且ELF-VGG优于其他变体。rep差距可以通过AlexNet由比VGG更宽的卷积组成对于ms，VGG的更高表示空间可以帮助构建更多信息特征，这是反向传播的更强信号。这也可以解释为什么ELF-VGG优于具有较少参数的ELF-Xception另一种解释是ELF-Xception的渐变贴图看起来更平滑。然后，不太强调显著位置，这使得关键点检测更难。人们可以暗示深度卷积来解释这个视觉方面，但我们找不到实验方法来验证它。令人惊讶的是，ELF-LFNet在HPatches和Webcam上的表现优于原始LF-Net，ELF-SuperPoint变体达到了与原始相似的结果。图6.自上而下：缩放、旋转。左-右：代表，女士。规模稳健性。ELF-VGG与SoA检测器及其各自的描述符进行了比较（图6，顶部）。对于所有方法，Rep.基本稳定：SIFT和SuperPoint是最不变的，而ELF遵循相同的变化LIFT和LF-Net。同样，MS Better评估了检测器的性能：SuperPoint对尺度变化的鲁棒性最强，其次是LIFT和SIFT。ELF和LF-Net随着尺度的增加，其匹配分数损失50%。令人惊讶的是，当LF-Net的全局性能更高时，LIFT比LF-Net一个合理的解释是，LIFT在同一图像的21个尺度上检测关键点，而LF-Net只在5个尺度上运行其检测器CNN尽管如此，ELF在没有手动多尺度处理的情况下优于旋转稳健性。即使rep显示出很小的变化（图6，向下），所有学习的方法这可以通过SIFT的显式旋转估计步骤来解释。然而，LIFT和LF-Net也运行这样的计算。这表明SIFT的手工定向估计更准确，或者HOG比学习的特征更具旋转不变性LF-Net 的性能仍优于LIFT：这可能是因为它学习关键点特征表示上的关键点取向，而不是像在LIFT中那样学习关键点像素。毫不奇怪，ELF简单描述符不是旋转不变的，因为使CNN的卷积不是。这也解释了为什么SuperPoint也以类似的方式崩溃。这些结果表明，LIFT和LF网络中的方向学习步骤是必要的，但其鲁棒性可以提高。图7.耐用性分析：3D视点。3D视点鲁棒性。虽然SIFT在纯旋转鲁棒性方面表现出明显的优势，但它在3D结构上的真实旋转和平移方面表现出与其他方法相似的退化。图7显示所有方法均均匀地降解。人们可以假设这个小的数据样本不足以代表运行这样的稳健性分析。然而，我们认为，这些结果，而不是建议，所有的方法有相同的鲁棒性的3D视点的变化。尽管先前的分析允许对不同的特征匹配流水线进行排名，但在某些情况下，每个特征匹配流水线都比其他特征匹配流水线具有优势：ELF或Su-perPoint对一般单应性匹配，或SIFT对旋转鲁棒性。这就是为什么本文的目的只是表明ELF达到相同的性能，并分享类似的属性，现有的方法，因为没有通用的排名标准。CVPR 19图像匹配挑战[1]提交后的评价运行支持了错误结论。数值结果见附录。7947图8.左-中-右条形图：原始方法、ELF检测集成、ELF描述集成。单个组件的性能。首先，将所有方法然后，我们计算它们的新ms，并将其与HPatches和Webcam上的ELF-VGG进行比较（图8，条纹）。这里的描述是基于池3而不是池4的，因为它为其他方法产生了更好的结果，同时也为我们的方法产生了更好的结果。除SuperPoint[53.7]具有可比性外，所有方法的ELF均达到更高的ms[51.3]。这表明ELF与以前手工制作或学习的探测器一样相关，如果不是更多的话。这自然会引出一个问题：ELF探测的是什么样的关键点？' 这个复杂的问题目前还没有答案尽管如此，我们观察到ELF主要在高强度梯度区域激活，尽管不是所有区域。一种解释是，当CNN在视觉任务上接受训练时，它学会了忽略对任务无用的图像区域这导致在可能不适合匹配的区域中消除梯度信号另一个令人惊讶的观察是关于 CNN 的描述：SuperPoint（SP）关键点一方面用SP描述符描述，另一方面用简单的ELF-VGG描述符描述。比较两个结果匹配分数是比较SP和ELF描述符的一种方式。结果表明，两种方法导致相似的ms。这一结果令人惊讶，因为SP专门训练了描述CNN，使其特征图适合关键点描述[10]。在VGG训练中，交叉熵损失对特征没有明确的约束。尽管如此，两种特征图达到相似的数值描述性能。这就提出了一个问题，即输入是CNN特征的类似对比度的损失是否可以比输入是分类对数的简单损失（如交叉熵）更好地约束这也表明，CNN不仅仅是训练它们的任务：它们嵌入可以证明对无关任务有用的信息。虽然简单的描述符被定义为评估的目的，这些结果表明，它可以被用作特征提取的描述基线。ELF检测与其他方法的描述符（图8，圆圈）的集成[40]先前提出在同一方法内检测器和描述符之间可能存在相关性，即，LIFT描述符被训练为仅描述关键点输出他们的表演。图9.梯度基线。梯度基线使用的ELF显着图被替换为简单的Sobel或Laplacian梯度图。其余的检测保持不变。它们是用来自VGG、AlexNet和Xception网络的简单ELF描述符完成的，我们计算了它们的性能（图9左）。然后将这些新的杂交体与它们各自的ELF变体进行比较（右）。结果表明，这些简单的梯度可以检测系统的关键点与比较，可代表非常结构化的图像，如HPatches。然而，ELF探测器更好地克服了光的变化（We-bcam）.在HPatches上，Laplacian变体达到了与ELF-VGG相似的 ms （ 55vs 56 ），并且优于 ELF-AlexNet 和 ELF-Xception。这些分数可以用图像结构来解释：对于重纹理图像，高强度梯度位置是足够相关的关键点。然而，在Webcam上，所有ELF检测器的性能都超过了Laplacian 和 Sobel ，其系数为 100% 。这表明 ELF 比Laplacian和Sobel算子更鲁棒。定性结果可在视频2.绿线显示仅基于描述符的最近邻匹配的推定匹配。6. 结论我们已经引入了ELF，这是一种从预先训练的CNN中提取特征位置的新方法，无需进一步训练。大量的实验表明，它执行以及国家的最先进的检测器。它可以很容易地集成到现有的匹配管道，并证明，以提高其匹配性能。即使使用简单的基于特征图的描述符完成，它也会变成一个竞争性的特征匹配管道。这些结果为嵌入在经过训练的CNN内部的信息提供了新的线索。这项工作还提出了关于深度学习方法的描述符训练的问题：它们的损失是否真的限制了CNN学习比它自己学习更好的特征来完成视觉任务。实验结果表明，CNN结构、训练任务和数据集对检测器性能有很大影响。进一步分析这些相关性是未来工作的目标。它的探测器。然而，这些结果表明，ELF可以可以轻松集成到现有的管道中，甚至可以提高2https://youtu.be/oxbG5162yDs7948引用[1] Cvpr19图像匹配挑战。https：//image-matching-workshop.github.io/challenge/，2019.[2] Henrik Aanæs、Anders Lindbjerg Dahl和Kim SteenstrupPedersen 。有趣的兴趣点。 International Journal ofComputer Vision，97（1）：18[3] Mart´ın Abadi， Paul Barham ， Jianmin Chen ， ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe-mawat，Geoffrey Irving，Michael Isard，etal. Tensorflow：一个大规模机器学习系统。在OSDI，第16卷，第265-283页[4] 巴勃罗·费尔·纳兹·阿尔坎塔里拉，阿德里安·巴托利，安德烈·w·J·戴维森。Kaze功能。在欧洲计算机视觉会议上，第214-227页。Springer，2012.[5] Vassileios Balntas ， Karel Lenc ，Andrea Vedaldi， andKrys- tian Mikolajczyk. Hpatches：手工制作和学习的本地描述符的基准和评估。在计算机视觉和模式识别会议（CVPR），第4卷，第6页，2017年。[6] Vassileios Balntas ， Edgar Riba ， Daniel Ponsa ， andKrystian Mikolajczyk.使用三元组和浅卷积神经网络学习局部特征描述符。在BMVC，第1卷，第3页，2016中。[7] 赫伯特·贝、丁尼·图伊特拉尔斯和吕克·范古尔。Surf：加速健壮的功能。在欧洲计算机视觉会议上，第404-417页Springer，2006年。[8] Michael Calonder、Vincent Lepetit、Christoph Strecha和Pascal Fua。简介：二进制鲁棒独立基本特征。欧洲计算机视觉会议，第778-792页。施普林格，2010年。[9] 弗朗索瓦·肖莱。Xception：使用深度可分离卷积的深度学习在2017年IEEE计算机视觉和模式识别会议，CVPR2017，Hon- olulu，HI，美国，2017年7月21日至26日，第1800-1807页[10] Christopher B Choy，JunYoung Gwak，Silvio Savarese，and Manmohan Chandraker.通用通信网。神经信息处理系统的进展，第2414-2422页，2016年[11] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在计算机视觉和模式识别，2009年。CVPR2009。IEEE会议，第248-255页。Ieee，2009年。[12] Daniel DeTone，Tomasz Malisiewicz，and Andrew Rabi-novich. Superpoint：自监督兴趣点检测和描述。在2018年的CVPR深度学习Visual SLAM研讨会[13] Philipp Fischer、Alexey Dosovitskiy和Thomas Brox。使用卷积神经网络的描述器匹配：与SIFT的比较。arXiv预印本arXiv：1405.5769，2014年。[14] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议论文集，第2414-2423页[15] Han Xufeng，Thomas Leung，Yangqing Jia，Rahul Suk-thankar，and Alexander C Berg. Matchnet：统一功能以及用于基于补丁的匹配的度量学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition，第

下载后可阅读完整内容，剩余1页未读，立即下载