局部描述子的直接对数极坐标采样方案及其在深度网络学习中的应用

67 浏览量更新于2023-10-13 收藏 1.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1局部描述子Patrick Ebel1，Anastasiia Mishchuk1，Kwang Moo Yi2，Pascal Fua1，EduardTrulls31洛桑联邦理工学院计算机视觉实验室2维多利亚大学视觉计算组3谷歌瑞士{firstname.lastname}@ epfl.ch，kyi@uvic.ca，trulls@google.com摘要用于学习局部块描述符的主导方法依赖于小的图像区域，其尺度必须由关键点检测器先验地正确估计。换句话说，如果两个补丁不对应，则它们的描述符将不匹配。通常用于缓解该问题的策略是相比之下，我们建议直接用对数极坐标采样方案提取“支持区域”。我们表明，这为我们提供了一个更好的代表性，同时过采样的直接邻域的点和欠采样区域远离我们证明了这种表示特别适合于使用深度网络学习描述符。我们的模型可以在比以前更宽的尺度范围内匹配描述符，并且还利用更大的支持区域而不会受到遮挡。我们在三个不同的数据集上报告了最先进的结果1. 介绍十多年来，关键点匹配在计算机视觉中发挥了关键作用SIFT [23]仍然是计算机视觉历史上引用最多的论文，这一事实清楚地证明了这一点。虽然计算机视觉的许多领域目前由密集的深度网络（即将整个图像作为输入的方法）主导，但一些问题仍然是使用稀疏特征的最佳解决方案。例如，尽管最近尝试使用密集网络来处理6DOF姿态估计，但用于宽基线立体和大规模运动恢复结构（SfM）的性能最好的模型仍然依赖于稀疏特征[49，51，33]。因此，对不断改进的局部特征描述器的追求继续进行[23，5，46，42，39，12，50，38，41，28，45，47，48，49，49]。这项研究的部分资金来自谷歌19、25、15、24、10、31]。这些方法都试图实现对位置、取向、比例、视角和照明的小变化以及成像伪影和部分遮挡的不变性。然而，大多数描述符，无论是学习的还是手工制作的，都在SIFT类关键点上操作，因此依赖于简单的启发式来估计规模。如果两个关键点的尺度不对应，则用于提取其描述符的支持区域也不对应，这被广泛接受为不可恢复的情况。这是有害的，因为水垢检测通常是不可靠的。在本文中，我们证明，这并不需要的情况下。为此，我们超越了当前的局部描述符的范例，我们称之为carbohydrate方法。这种模式将局部描述符限制在小的、定期采样的区域，并依赖于准确的尺度估计。相比之下，我们假设，提取支持区域的对数极坐标采样方案，使我们能够生成一个更好的局部表示过采样的直接neigh- borhood的点。我们表明，这种方法有助于使用现成的深度网络学习尺度不变描述符，使我们能够在不匹配的尺度上匹配关键点;参见图4。此外，我们demon- strate，这种表示是远不如它的笛卡尔对应，这使我们能够利用更大的图像区域比以前可能进一步提高性能的occlus- sions或背景运动敏感。注意，虽然对数极坐标表示已被局部特征广泛使用，但这通常涉及仍在笛卡尔图像网格上计算的局部统计的对数极坐标聚合。相比之下，我们建议使用对数极坐标采样方案来扭曲补丁，并在此数据上学习最佳描述符。图1示出了这两种方法之间的差异。简而言之，我们提出了一种新的方法来表示本地补丁，并展示了如何利用它来实现规模入侵。在本文的其余部分，我们首先简要回顾了规模已处理的大量文献有关的匹配描述符，无论是学习或设计。然后，我们描述了我们的方法，并表明它的表现在几个具有挑战性的数据集的最新技术2532542. 相关作品在本节中，我们首先回顾了许多已被提出来实现局部特征匹配的尺度接下来，我们讨论补丁描述符的学习模型的方法。最后，我们研究了对数极坐标表示在局部特征中的使用。有关当地特色的全面、最新调查，请参阅[8]。通过尺度检测的尺度不变性。文献中的绝大多数工作假设尺度估计由关键点检测器处理，并且只有当它们的尺度匹配时，关键点才能被对应。这包括经典的手工管道，如SIFT [23]或SURF [5]。然后在相应大小的支撑区域上聚集图像测量以提取描述符。结果，不能从中恢复该先验尺度估计中的误差，并且受影响的关键点被简单地注销为潜在的对应。两级管道。在大变焦下，可以使用特殊的策略进行刚性匹配。Zhou等[52]提出了一种两阶段方法，首先在尺度空间中粗略地配准图像，然后将搜索范围缩小到相称尺度的匹配。Shan等人[36]假设密集的SfM模型以及近似姿态是可用的，这两种方法都依赖于SIFT特征，并将直接受益于改进的尺度不变描述符，如我们的。无尺度检测的尺度不变性。一实现尺度不变性的简单方法是连接多尺度描述符并找到它们之间的最佳匹配。这是在[47]中完成的，以提高对ORB特征的尺度变化的鲁棒性[32]。无尺度SIFT（SLS）[14]超越了这一点，并利用了SIFT描述符在接近的连续尺度上不会急剧变化的观察结果，这表明它们嵌入在低维空间中。这种观察可以用来找到比它们的连接更紧凑的表示。得到的特征向量仍然是高维（8k）的，但是可以通过PCA减少到512维向量。然而，这需要对每个关键点进行奇异值分解以找到其子空间，这是非常昂贵的。尺度和旋转不变描述符（SID）[20]在对数极坐标网格上对轴对齐的导数进行采样，并在远离关键点的图像区域上进行增量平滑。因此，尺度变化和旋转导致测量矩阵上的平移。使用该信号的平移不变的傅里叶变换模，使得描述符具有比例和旋转不变。然而，SID需要在大的支持区域上进行精细采样，这在现实世界的场景中失败具有视点改变和遮挡的IOS。Seg-SID [43]通过利用分割线索来抑制来自与关键点不相关的图像区域的图像测量来解决这一缺点，但这需要图像级分割。精神状态，容易失败。SID还具有高维性（103k）。更重要的是，SID和SLS都是为与SIFT流[22]的密集匹配作为后端，并且由于其计算成本而不适合于大规模重建。最后，它们都依赖于手工制作的功能，无法与目前主导该领域的机器学习模型竞争我们现在转向这些。学习的描述符。早期的工作应用PCASIFT [18]、学习的比较度量[40]或具有凸优化的学习的描述符[39]。目前对补丁描述符的研究主要是卷积神经网络。MatchNet [12]和DeepCompare [50]使用Siamese架构训练描述符提取和距离度量网络。DeepDesc [38]使用硬正面和负面挖掘来学习区分特征。在[4]中引入了基于三重态的损失。L2-Net [41]通过在中间特征图中强制相似性并惩罚高度相关的描述符bin来改进损失函数HardNet [28]扩展了[38]的公式，以挖掘批次中的所有样本。在[15]中，挖掘启发式被平均精度度量的可微近似所取代，然后用于优化。在[45]中引入了频谱池来处理几何变换。在[19]中提出了基于连体和三重态的损失函数的替代方案，以解决其缺点。GeoDesc [25]使用几何约束进行优化。ContextDesc [24]结合了全局上下文和来自关键点分布的几何上下文。除了[25，24]之外，所有深度方法都是在相同的数据集上训练的[7]，该数据集由使用高斯差分（DoG）[23]或多尺度Harris角点[13]在关键点上预提取的补丁组成仅考虑通过运动恢复结构（SfM）进行3D重建后幸存的关键点，并且与传统方法类似，如果检测器首先失败，则简单地预期学习的模型失败。据我们所知，目前还没有一种基于学习的方法能够明确地解决尺度不变性问题.另一种工作包括使用深度架构来联合学习关键点和描述符的工作。LIFT [48]在具有相应尺度的SIFT关键点周围提取的补丁上进行训练LF-Net [29]学习通过自我监督来检测尺度，但实际上似乎在非常狭窄的尺度集SuperPoint [9]在描述符级别学习尺度D2-Net [10]专注于困难的成像条件，并依赖于单个网络进行检测和描述。R2D2 [31] ap-255我θi+2πy我1x2x4x(a) 笛卡尔（b）对数极坐标（c）对数极坐标（d）对数极坐标合并（SIFT）合并采样面片图1：合并与采样。（a，b）红色图案描绘了大多数描述符用于汇集在笛卡尔像素网格上计算的特征的区域。图案的大小取决于当地的规模，我们展示了三个版本。在大尺度变化下，笛卡尔和对数极坐标网格的许多区域（如黄点突出显示的区域）不再对应。（c）相比之下，我们首先根据蓝色（32× 32）所示的模式对补丁进行重采样其大小也取决于规模。(d)尽管尺度从1到4变化，但所得到的对数极坐标面片都相当相似，特别是在特征位置的中心附近，由面片的左侧描绘。卷积地叠加L2-Net，同时惩罚可重复但无差别的补丁。利用极轴表示。极坐标表示和对数极坐标表示由于其鲁棒性，在计算机视觉中被广泛用于聚集局部信息对数极坐标网格。Winder和Brown [46]在类似于Daisy的框架内研究了许多池配置，并发现对数极坐标在他们的选择中是最佳的。一些二进制描述符，如BRISK[21]或FREAK [2]，依赖于类似定义的网格上的采样模式来计算强度差异并提取特征。请注意，所有这些方法都为特征池定义了极坐标或对数极坐标区域，也就是说，像素级特征总是在笛卡尔空间中计算，只有它们的聚合发生在对数极坐标空间中。如图1，这与我们的方法截然不同，我们的方法包括扭曲原始像素数据并使用该表示来学习尺度不变模型。3. 方法首先，我们在第3.1节中描述了我们的采样方案，然后在第3.2节中描述了我们的网络架构和训练策略。出于本节的目的，我们假设训练数据由两个图像上的关键点对组成，这两个图像在位置和方向上是对应的，但不一定是比例。用于生成训练数据的实际程序在第4.1节中描述。3.1. 对数极坐标采样与大多数关于学习描述符的论文一样[12，50，38，4，41，28]，我们使用SIFT关键点[23]。给定大小为H×W的图像I，I上的关键点pi完全由其中心坐标（ xi， yi），标度σi∈R+ ，方向θi∈[0 ，2π）。我们使用Polar Transformer Network（PTN）[11]来提取关键点pi周围的L×L补丁。到为此，我们依赖于以下坐标变换：到尺度和旋转的微小变化传统的手-不xs=x+elog（ri）x /Wcos（），（1）我我我精心编制的修补程序描述符通常包括两个阶段：ys=y+elog（ri）xt/Wsin（）。特征提取和特征池。首先，形象意味着-为每个像素计算诸如梯度的确定我我我变量（xs，ys）表示源坐标，并且（xt，yt）表示源坐标。我我我然后，它们聚集在周围的小区域上。变换后的目标坐标。坐标原点-点的位置、方向和比例。 SIFT，用于Gin以（x，y）为中心，角度为不=i，并且例如，聚合特征（梯度方向的直方图，i i iH半径ri由λσi给出，其中λ是一个因子，关键点周围的4×4个单元格上;见图1.一、21几个描述符聚合极坐标或对数极坐标区域上的特征。GLOH [26]计算对数上的SIFT-将SIFT比例转换为图像像素。最后，我们构建- 通过利用双线性插值在坐标（xt，yt）处查找图像I中的强度值来处理翘曲的块，如极坐标网格，然后通过PCA降维我我Daisy [42]使用高斯内核在极性网格上聚合定向图像梯度，其大小与关键点和网格点之间的距离成比例，以绕过混叠效应。开创性的Shape Contexts论文[6]介绍了一种通过在形状轮廓上拾取点并对局部直方图进行对象识别的描述符。在[11]中。该过程如图1所示。1.一、我们将以这种方式提取的补丁表示为LogPol。为了比较的目的，我们还考虑了标准的笛卡尔方法，在规则间隔的采样网格上使用空间 Transformer 网络（STN）[17]，定义为xt=xi+xs cos（θi）σi/W−ys sin（θi）σi/H，（2）我我我每个点相对于其他点的阳离子yi= yi+ xssin（θ i）σ i/W + yssin（θ i）σ i/H。极地仓局部自相似性（LSS）[37]提出了一个i ii通过测量由以下确定的区域上的内部自相似性1给定OpenCV遵循的约定，λ= 12表示SIFT的尺度乘数。设置λ>12可以提取更大的图像区域。256JKK(a)（b）（c）（d）图2：笛卡尔坐标与对数极坐标。（a，c）从不同视点拍摄的两个图像，具有四对对应的关键点，由它们的颜色表示。（b，d）在这些关键点周围提取的具有其估计的尺度和取向的块，其中λ=16，类似地进行颜色编码。在每一列上，我们在左边显示笛卡尔面片，在右边显示对数极坐标面片虽然笛卡尔面片看起来可能非常不同，但对数极坐标面片保持相似。这对于红色关键点尤其明显，其尺度估计在两个图像中非常不同我们将这些补丁表示为Cart。注意，STN和PTN被设计为通过允许深度网络在空间上操纵数据来促进整个图像分类，从而从分类器中去除学习空间不变性的负担。此处不适用：我们仅使用它们各自的采样器，这允许我们通过在提取补丁时应用小的扰动，以可忽略的计算成本利用在线数据增强来有效地对图像进行采样。第网络的输出是单位长度和大小128的描述符我们发现这是一个很好的折衷之间的描述符大小和性能。训练这种网络的标准方法是采用连体结构，即两个网络副本共享权重。在已经提出的许多损失公式中[38，4，19，15]，我们使用[4]的三重态损失，如[28]。为了建立所需的三胞胎，我们考虑一个col-选择包含两个不同的补丁对{Pa，Pb}对数极坐标曲面片的以下性质区分k k从笛卡尔的角度来看：• 旋转在carbohydrate空间对应的移位3D点的视图，其中k = 1。. . K，其中K表示批量大小。我们系统地检查给定批次中的3D点是唯一的，因此Pa和Pb仅对应于对数极坐标空间中的极轴（旋转等方差）。I j• 接近对数极坐标原点的点表示如果i=j，则spond。我们将它们各自的描述符表示为{fa，fb}。我们用最难的过采样，这有助于区分K相邻关键点之间。[ 28 ]的“批内具体地说，我们建立一对-明智距离矩阵Di，j=d（fa，fb），i，j∈[1，K]，其中• 外围区域是欠采样的，这意味着i jd（fa，fb）是描述符fa成对的斑块看起来与眼睛相似，即使在i j i下规模变化剧烈（规模等方差）。这种现象如图所示。二、注意日志-如果i=j，则为fb，我们表示Pa的最难负样本，即the onewith极坐标表示有助于视觉匹配，即使最小距离，如Pbmin，和最难的否定尺度不匹配。我们的方法基于杠杆-将Pb取样为Pa。我们认为Pa和Pb都是kkmink k使用下一节介绍的深度网络和训练框架有效地老化这些信息。可能的锚点，对于所有k。用锚点表示三元组（A），正（+）和负（-）补丁作为（A，+，-），我们以最难的负例子形成三元组k，即3.2. 网络架构与培训{Pa，Pb，Pb}ifd（Pa，Pb）12我们在表1中报告了结果，并在下面讨论它们与最新技术水平的比较。我们用对数极坐标补丁训练的模型在每个序列上都有最好的性能，其次是我们用笛卡尔补丁训练的模型，然后是HardNet。值得注意的是，我们在λ=96时获得了最佳结果，这对应于比最适合传统描述符的那些块大得多的块，用λ= 12提取，我们将在下面更仔细地检查这一事实。注意HardNet和Ours-Cartesian之间的小差距，这是由于数据集之间的先天差异以及使用不匹配的尺度训练后者其他基线表现明显较差。大规模失配下的性能。在图 4我们根据方向和尺度失配来分解表1的结果注意在对数极坐标表示上训练的模型如何能够容忍大范围的尺度失配。我们的结果显示性能的下降可以忽略不计下规模变化高达2- 3倍，并保持有用，甚至在3- 4倍。所有基线在2倍的比例变化下显著退化，并且在此之后变得基本上无用。请注意，这种不变性是通过利用对数极坐标表示而实现的，并且不能通过简单地将模型暴露于表现出尺度变化的笛卡尔面片来实现，如图2所示的Ours-Cartesian的性能所证明的。4-（c）.最后，请记住，此数据是从具有不可靠刻度检测的真实环境中收集的。换句话说，我们的模型允许我们在不改变检测器的情况下检索更多的对应关系增加支撑区域的大小。如图2，用对数极坐标采样提取的补丁在不同尺度上非常相似，因为尺度变化对应于水平维度的移位。这种表示不仅更容易在视觉上解释，而且更容易学习不变模型。此外，过采样点的直接邻域允许我们利用更大的支持区域，因为在对数极坐标补丁的遮挡和背景运动的影响是小于在他们的笛卡尔对应。我们通过针对不同的λ值训练模型来证明这一点，并在表2中报告了结果。我们的模型能够利用支持区域比基于笛卡尔的方法大得多。我们看到性能在λ= 96处变平，并观察到超过该点的边界问题，因此我们将此值用于本文中的所有实验。请注意，确定支持区域的圆的半径是笛卡尔面片的最佳值的8倍，其面积是笛卡尔面片的64倍。请注意，我们使用了相同的架构，它只能有效地利用这些信息，这要归功于对数极坐标表示。4.1.3图像级块检索接下来，我们评估我们的表现，在补丁检索。对于测试序列中的每个图像对，我们执行259[0.0，3.57][3.57，7.14]比例变化比例变化λ 12 16 32 64 96 128100我们的车0.720.77 1.36 4.79 7.03 8.4380[7.14，10.7]60[10.7，14.3][14.3，17.9]40[17.9，21.4]20我们的LogPol 0.67 0.61 0.47 0.400.36 0.36表2：FPR95对λ。我们评估用不同大小的支持区域训练的模型。对于对数极坐标面片，性能随λ增加，但对于笛卡尔面片，性能迅速下降。[21.4，25.0][0.0，3.57][3.57，7.14][7.14，10.7][10.7，14.3][14.3，17.9](a) SIFT(b) L2-Net01008060401.0000.9750.9500.9250.900匹配秩的CDF[17.9，21.4][21.4，25.0][0.0，3.57][3.57，7.14][7.14，10.7][10.7，14.3][14.3，17.9][17.9，21.4][21.4，25.0](c) 我们的推车（λ=12）(e) Ours-LogPol（λ=12）(d)硬网(f) Ours-LogPol（λ=96）2001008060402000.8750.8500.825电话：+86-0512 - 8888888传真：+86-0512 - 8888888匹配分级图5：新数据集上的补丁检索。我们绘制的累积分布函数的排名在补丁检索的情况下，大量的干扰。我们的模型优于所有基线。对数极坐标模型（粉色）明显优于笛卡尔模型（紫色）和基于笛卡尔面片的基线，如HardNet（红色）。每个匹配的排名，并在所有关键点上累积它图4：FPR95与比例和方向变化。我们分解表1的结果，通过关键点检测阶段中的误差对它们进行直方图化方向错误检测从上到下增加，高达25°。比例误检测从左到右递增，最高达4倍。（a、b、d）所有基线在比例尺变化下迅速退化。（c）第（1）款使用具有尺度变化的笛卡尔补丁来训练深度网络是不够的。（e，f）相比之下，我们的对数极坐标表示使它们能够学习尺度不变性。注意，一些箱稀疏地填充，这解释了突然的不连续性。跟踪每个图像上的SIFT关键点，并使用第4.1节中概述的程序建立地面实况对应关系。在取向上具有高达25度的差异的匹配被认为是正的。通常，大百分比的图像像素被遮挡，使得不可能生成大量的匹配。相反，对于每一对图像，我们提取多达Nm= 500个匹配，然后生成Nd= 3000个干扰项，其被定义为距离关键点超过3个像素的关键点。因此我们的任务就是大海捞针，每把钥匙-点有一个正匹配和Nm+Nd−1个负匹配。我们计算描述符之间的距离，提取和图像对。结果总结见图。五、我们使用对数极坐标贴片的模型获得了最佳结果，对于λ= 96，我们的最佳模型在97%的时间内检索到正确的匹配。他们其次是我们的模型与carbohydrate补丁，和硬网。请注意，与之前的实验相反，我们评估了具有大量干扰项的真实补丁检索场景，这表明即使在密集采样关键点时，我们的性能也保持不变，并且无论λ如何。4.2. HPatch上的结果HPatches数据集[3]包含116个序列，每个序列有6个图像，具有视点或照明变化。如在[7]中，HPatches提供了以相应尺度采样的预提取的补丁然而，它也提供了原始图像和地面实况单应性。因此，我们定义了以下协议。我们使用SIFT来找到关键点，并使用地面真值同态来确定它们之间的对应关系我们认为序列的观点和光照变化分开。这为我们提供了20733个对应的照明分裂和22079个对应。SIFT=12TFeat=12L2Net=12硬网=12我们的推车λ=12我们的对数Polλ=96取向改变取向改变取向改变CDF260方法视点分割照明分割SIFT，λ= 120.740 0.607硬网，λ= 120.813 0.707GeoDesc，λ= 120.879 0.727我们的车，λ= 120.828 0.722我们的推车，λ= 160.831 0.732我们的推车，λ= 320.825 0.736我们的推车，λ= 640.752 0.666我们的推车，λ= 960.6810.616我们的，LogPol，λ=120.8330.729我们的，LogPol，λ=160.8380.743我们的，LogPol，λ=320.8490.764我们的，LogPol，λ=640.8490.774我们的，LogPol，λ=960.8470.774表3：关于HPatch的结果。收视率第一-方法等级-1λ61216326496SIFT0.5510.5180.5160.5100.4800.4360.434 0.396 0.389 0.416 0.438 0.417硬网0.529 0.464 0.450 0.451 0.470我们的车0.554 0.507 0.530 0.549 0.524 0.481我们的，LogPol 0.607 0.604 0.625 0.641 0.6480.651表4：AMOS贴片的结果。AMOS补丁数据集上的Rank-1性能。我们注意到，对于这个数据集，使用较小的补丁提取描述符对于大多数基线都会产生更好的结果，因此我们也考虑λ= 6。我们在对数极坐标贴片上训练的模型优于最先进的模型，并且性能随着λ的增加而增加。类型方法立体任务多视图任务mAP 15o排名†mAP 15°排名†硬网（NIPS用于视点分割的场景对于每个匹配，我们计算一对相应描述符之间的距离以及数据集中所有否定项之间的距离，并根据秩-1度量评估我们的模型，即，我们可以检索与秩1正确匹配的样本的百分比年龄我们在表3中示出了结果。正如预期的那样，我们的对数极坐标模型优于大多数基线，并且随着λ的增加表现更好在这个实验中，我们使用在我们的数据集上训练的模型，没有微调。4.3. AMOS贴片我们还考虑了AMOS补丁[30]，这是一个最近发布的数据集，其中包含由网络摄像头捕获的图像对，并经过精心策划以提供对应关系。我们在训练分割上评估我们的方法，训练分割由27个序列组成，每个序列有50个图像，并且还为每个图像提供具有尺度和方向的关键点。我们在所有图像中使用唯一匹配的关键点对，获得13268个唯一关键点对的分裂。我们使用与HPatches相同的度量，并在表4中总结了结果。和以前一样，我们不以任何方式重新训练模型。同样，我们的模型优于现有技术，并且我们的结果随着支持区域的大小而改善，不像基于笛卡尔贴片的方法。4.4. Phototourism挑战赛补丁匹配性能并不总是转化为上游应用程序，如[48，35]所证明的因此，我们还在公共摄影旅游图像匹配挑战中评估了我们的方法[1]。此基准测试包含两个跟踪：立体和多视图匹配，并根据重建姿态的质量评估局部特征。HPatches数据集的点和照明分割我们的日志-SIFT（IJCV0.027790.41468极坐标采样方法的平均性能优于所有基线，并且性能随着λ而增加，直到其饱和。TFeat（BMVC0.03570.04000.04258640.46430.50870.5481751GeoDesc（ECCV0.036870.52984ContextDesc（CVPR0.043930.53993e2eSuperPoint（CVPR0.041550.47786D2-Net（CVPR0.049010.39679我们的笛卡尔坐标，λ= 160.0405-0.5208-261我们我们的对数Pol，λ=320.0420-0.5389-（DoG）我们的对数Pol，λ=640.0432-0.5396-我们的对数Pol，λ=960.044820.54272表5：摄影旅游的挑战。在误差阈值为15o的情况下，姿态估计的平均精度为红色为最佳方法（在可比提交物中），绿色为第二。我们在两条赛道上都排名第二，平均排名第一。特征被提交给组织者，组织者计算结果。我们在表5中提供了它们，包括从公共排行榜中提取的可比基线（每个图像多达8k个特征，通过蛮力最近邻匹配）。我们的方法在这两条赛道上排名第二，平均排名第一。请注意，我们在第4.1.2节中的观察结果结转-在对数极坐标贴片上训练的模型5. 结论和未来工作我们已经引入了一种新的方法来学习当地的描述符，超越了目前的范例，这依赖于在笛卡尔空间采样的图像测量我们表明，通过将对数极坐标采样与最先进的深度网络相结合，我们可以学习更丰富，更尺度不变的这使我们能够在更大范围内匹配本地描述符，几乎是免费的。我们的方法可以用来学习不变性的任意规模的变化。然而，当与SIFT一起使用时，这可能会适得其反，因为其大多数检测都足够准确。相反，我们打算绕过规模检测并学习端到端管道，如[48，29]所示262引用[1] 摄影旅游挑战赛， CVPR 2019 图像匹配工作坊。https：//image-matching-workshop.github.io。2019年8月1日访问。五、八[2] 亚历山大·阿拉希拉斐尔·奥尔蒂斯和皮埃尔·范德海恩斯特。FREAK：快速视网膜关键点。CVPR，2012。3[3] Vassileios Balntas ， Karel Lenc ，Andrea Vedaldi， andKrys- tian Mikolajczyk. Hpatches：手工制作和学习本地描述符的基准和评估。在CVPR，2017年。五、七[4] Vassileios Balntas ， Edgar Riba ， Daniel Ponsa ， andKrys- tian Mikolajczyk.用三元组和浅卷积神经网络学习局部特征描述符。在BMVC，2016年。二三四五[5] 赫伯特 ·贝、丁尼 ·图伊特拉尔斯和吕克· 范古尔。SURF：加快了强大的功能。在ECCV，2006年。一、二[6] Serge Belongie Jitendra Malik和Jan Puzicha。基于形状上下文的形状匹配和目标识别PAMI，24（24）：509-522，2002年4月。3[7] 马修·布朗，华刚，西蒙·温德。局部图像描述符的区分学习。PAMI，2011年。二、五、七[8] Gabriela Csurka和Martin Humenberger。从手工制作到深度局部不变特征。在arXiv预印本arXiv：1807.10254，2018。2[9] Daniel DeTone，Tomasz Malisiewicz，and Andrew Rabi-novich. Superpoint：自监督兴趣点检测和描述。CVPRWorkshop on Deep Learning for Visual SLAM，2018。2[10] Mihai Dusmanu、Ignacio Rocco、Tomas Pajdla、MarcPolle-feys、Josef Sivic、Akihiko Torii和Torsten Sattler。D2-Net ： A Trainable CNN for Joint Detection andDescription of Loc-cal Features.在CVPR，2019年。一、二[11] Carlos Esteves 、 Christine Allen-Blanchette 、 XiaoweiZhou和Kostas Daniilidis。Polar Transformer Networks.在ICLR，2018年。3[12] 韩旭峰、梁建民、贾阳青、苏坦卡、王建民.伯格。MatchNet ： Unifying Fea- ture and Metric Learning forPatch-Based Matching. CVPR，2015。一、二、三[13] 克里斯托弗·G Harri

下载后可阅读完整内容，剩余1页未读，立即下载