无监督学习的局部描述符

62 浏览量更新于2023-10-25 收藏 1.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3926PUMP：用于局部描述符Je' romeRev audV incentLero y PhilippeWeinzaepfel BorisChidlovskiiNAVER LABSEuropefirstname. naverlabs.com摘要现有的局部图像描述子学习方法在广泛的几何任务中取得了显著的成就。然而，它们中的大多数需要逐像素对应级别的监督，这是难以大规模和高质量地获得的。在本文中，我们建议明确地整合两个匹配先验在一个单一的损失，以学习本地描述符没有监督。给定描述同一场景的两幅图像，我们提取像素描述符并构建相关体。第一个先验通过使用非参数模块迭代构造的金字塔结构来强制该体积中的匹配的局部一致性第二先验利用每个描述符应该与来自另一图像的至多一个描述符匹配的事实。我们将我们的无监督损失与从合成图像增强训练的标准自监督损失相结合。通过所提出的方法学习的特征描述符在各种几何基准（如视觉定位和图像匹配）上优于其完全和自监督的对应物，从而实现最先进的性能。项目网页：https：//europe.naverlabs.com/research/3d-vision/pump网站。1. 介绍通常作为关键点稀疏提取的局部图像描述符是许多计算机视觉任务的核心，例如大规模视觉定位[60]，姿态估计[25]，运动恢复结构（SfM）[56，70]，密集3D重建[63]和SLAM [6]。如今，基于学习的方法[1，18，26，43，48，62，68，69，76]显着优于标准手工制作的关键点，如SIFT [34]或ORB [53]。它们通常被训练为假定图像对之间的许多地面实况像素对应是可用的。大多数情况下，这些对应关系是通过考虑给定地标的大量图像集合并构建运动恢复结构（SfM）重建来获得的，例如针对MegaDepth数据集[31]所做的。这条SfM管道我们的无人监督损失：（38个正确匹配/2个错误匹配）无监督损失：（16个正确匹配/7个错误匹配）图1.定性的影响，我们的新的无监督损失，对一个具有挑战性的图像对照明变化。我们将提取的关键点与未经训练的模型（顶部）和使用它（底部）进行匹配，仅显示通过几何验证的匹配。我们的无监督模型找到的真实匹配数量是未经训练的模型的两倍多。然而，在许多情况下失败了，对可以生成的地面实况数据的种类产生了深不可测的瓶颈。在这项工作中，我们试图回答的问题是：是否有可能利用无监督图像对的睡眠潜力，即。没有任何地面实况像素对应的图像对？在本文的其余部分，我们遵循Truong etal. [67]并采用无监督学习的实用定义。特征学习任务。我们表示一个学习公式'无监督'，如果它不需要任何监督以外的图像对描绘相同的视觉内容。受表示学习[8，17，24，72]、深度回归[15]和点云配准[2，3]的自监督学习的成功启发它们在合成生成的图像对上进行训练，其中第二图像是通过应用已知的变换来获得的，3927第一个图像，如随机单应性，颜色抖动或甚至风格转移[41]。然而，单应性等不能对真实图像对之间的可能变换的全部范围进行建模。与此同时，弱监督的方法已经被提出，并证明了从例如. [71]第71话然而，这只能通过使用复杂的采集设置来实现，这些设置需要基于不同模态（IMU或GPS）部署传感器，或者再次诉诸SfM重建。最近，局部描述符的无监督学习已经以跨多个图像的循环一致性约束的形式引入[67，79]，要么需要更多图像来提取用于训练的特征，要么以描述符的迭代训练和昂贵的模型拟合为代价[74]。在本文中，我们介绍了一种新的方法来学习本地描述符没有监督。它基于联合执行两个关键匹配先验：局部一致性和匹配的唯一性。前者简单地相当于说明一个图像的两个相邻像素将可能与另一图像中形成类似相邻对的两个像素匹配，直到小的变形。我们认为，这在任何尺度上都是普遍存在的，因此，这一先验可以通过金字塔结构有效地实施。受DeepMatching[49]的启发，我们采用了一个金字塔形的非参数模块，该模块通过设计提取更高级别就其本身而言，唯一性先验仅意味着来自第一图像的一个像素可以对应于第二图像中的至多一个像素。我们在DeepMatching模块输出的高级对应关系上强制执行此属性，该模块沿着金字塔优雅地反向传播到低级像素对应关系，从而在没有监督的情况下实现局部描述符的有效训练。我们硬币我们提出的方法Pyramidal和Uniform匹配先验。它结合应用于合成图像对的自监督损失进行训练。我们对稀疏和密集匹配进行了实验，要么依赖于外部稀疏关键点检测器，要么在密集匹配的情况下，在测试时再次利用DeepMatching来进一步动态地执行两个匹配先验。我们表明，与仅使用自我监督训练的模型相比，我们的无监督简而言之，我们做出了以下贡献：• 我们重新讨论了描述符学习的匹配先验的关键概念，并在训练和测试时显示了它们的不合理的有效性。• 我们引入了一种新的无监督损失来自这些先验知识，称为训练深度描述符，在像素级。• 我们提出的实验证据表明我们的方法尽管需要较少的监督和训练数据，但在密集和稀疏匹配任务上都显著优于现有技术的方法。2. 相关工作我们的主要贡献是一个明确的整合无监督先验图像匹配。因此，我们回顾了文献中使用的不同先验和它们所需的监督信号类型的相关工作。局部邻域一致性可以说是图像匹配中最常见的先验之一。事实上，使用图像块来检测特征，以及描述和匹配像素的外观，源于局部邻域在视图中是一致的假设。这一先验可以追溯到[16，44]的作品中，并在图像描写作品中普遍存在。最初用于手工制作的方法[34，53]，最近深度学习的成功促使研究人员转向基于监督CNN的方法进行兴趣点检测[26，43，68，76]描述[1，12，18，62]或检测和描述-[4，38，48，69]。一些工作试图通过引入鲁棒[33]或动态卷积核[37]来提高CNN描述非平面区域的能力，但在监督训练场景中。类似的精神，我们的密集匹配过程是能够动态地适应局部图像变形在测试时，在一个层次的方式。随着自我监督学习策略的使用，监督范式正在发生明显的转变这种用于训练局部描述符的方法依赖于使用已知变换的合成生成的图像对e.G.单应性[27，48]与颜色抖动或风格化[41]。一些作品[27，42，50]仅考虑增强的输入图像对来采样正和负局部描述符。Melekhov等人仔细选择硬底片，并将其与色彩增强和照片般逼真的图像风格化相结合。[41]实现优于仅使用合成单应性的监督方法的性能。DeTone等人[10]通过从单应性相关图像对中挖掘阳性和阴性，或将阴性样本挖掘与单应性结合，取得了一定的成功[41]。然而，单应性或其他类型的合成变换受到自然的限制，并且将无法对真实图像对之间的复杂外观变化进行因此，在像素对应级别的强有力的监督仍然是强制性的匹配任务，如视觉定位[12，48]。我们的工作还表明，利用无监督图像对是可能和有效的，以提高视觉定位。匹配的局部一致性是上述思想的扩展：因为局部邻域是一致的，所以它们之间的匹配也是一致的。这个想法已经被明确地表述为在[5，32，39]中的稀疏匹配步骤期间去除假关联的强先验。专注于3928×∈→密集匹配问题说明了对检测器的需要它已经通过分层金字塔匹配来解决，无论是手工制作[49]，在测试时优化[19]，还是在完全监督的环境中学习[21，42，66]。在本文中，我们建议利用DeepMatching [49]的非参数金字塔结构来学习没有监督的描述符请注意，这不要与深度匹配先验[19]混淆，尽管名称相同，但它是一种根本不同的方法，依赖于每个图像对的在类似的方向上，学习从4D成本卷预测密集匹配最近也受到了NCNet [52]的关注，这是第一次在4D对应空间中估计邻域一致性。后来，提出了多个变体来克服大量的理论消耗、缓慢的推理时间和较差的局部对应。Rocco等人[51]稀疏化包含试探性匹配的相关张量，并使用子流形稀疏卷积用4D CNN对其进行后续Li等[28]引入非各向同性4D滤波以更好地处理尺度变化。DualRC-Net [29]通过提取第一个粗分辨率特征图来避免计算昂贵的全4D相关张量。然后使用粗糙图来产生完整但粗糙的4D重建体积，然后通过可学习的邻域一致性模块对其进行细化。匹配的可靠性也可以使用相关量来预测，并用于以自我监督的方式改进匹配[65]。我们还使用4D相关体积，但我们使用高效的金字塔结构来处理它，该金字塔结构固有地编码强匹配先验。这允许我们在没有监督的情况下学习局部描述符，并在测试时指导匹配。图像上下文保持是文献中经常使用的另一种先验。局部特征是非常准确的，但在不明确的情况下容易失败，例如。重复的结构，具有挑战性的照明条件，甚至季节变化。为了规避这一限制，一些以前的作品介绍了使用场景的全局上下文，无论是以粗略的图像描述符[9，35]的形式，还是在结构级别推理的图形操作符[7，54]。为了在特征提取期间增加感受野，LoFTR[59]提出了与变换器匹配的无检测器局部特征。同样，COTR [22]以类似于[12]的不对称方式然而，这样的方法需要强有力的监督，并且不强制预测的匹配的一致性。循环一致性通常用于补充光流文献中的光度损失，最近已用于监督[22]和无监督[40，58]设置。局部描述符的无监督学习也可以依赖于多个图像的周期一致性[79]，代价是需要在更多图像上提取特征进行训练。类似地，Truonget al. [67]第六十七话回归稠密相关在无人监督的环境下进行的自发行为不幸的是，循环一致性很难优化，因为它需要最小化可微分流。与这些作品不同的是，我们的非超验的失落更多地利用了独特性，该关键点使得一个图像中的像素最多可以对应于另一图像中的一个像素。最终还可以利用多视图几何约束来提高匹配性能。例如，可以将它们用于训练数据选择[36]或直接作为训练损失[13，14]。通常，围绕该先验设计的方法依赖于来自对极几何[9，73，75，78]或相对相机姿态[4，13，71]的监督信号Yang等[74]提出了一种自我监督的方法，该方法在两个任务之间交替，即估计相机姿态和学习局部描述符，每个任务由另一个任务监督。这种方法的主要缺点是它们需要复杂且计算量大的采集和训练设置，需要处理整个SfM数据集、构建SfM图、知道或计算相机本质等。相比之下，我们的方法理论上可以从一组通过不同手段获得的图像对中进行训练，包括基线图像检索和现成的几何验证。3. 局部描述符我们的目标是训练一个具有参数θ的神经网络fθ，给定一个尺寸为H W的图像I，为I的每个像素提取一个高度区分但鲁棒的局部描述符。从数学上讲，我们有fθ：I其中，RH×W ×d是一个d维特征图，可以看作是密集的归一化局部描述符的集合。正如许多最近的方法[28，29，51，52]，我们的方法建立在4D相关体积C（F1，F2）的基础上，该4D相关体积C（F1，F2）被计算为来自图像I1和I2的描述符F1，F2之间的点积。为了便于阅读，我们简单地将C（F1，F2）记为C.此外，我们表示图像I1中的两个像素p=（xp，yp）之间的相关性，q=（xq，yq）在图像I2中简单地作为Cp，q。我们现在提出我们的方法来训练fθ给定的图像对没有任何像素级的监督。如图2所示，我们首先构建一个全局相关体积，使用非参数DeepMatching模块（第3.1节）以金字塔方式在迭代中聚合和最大池化。输出由高级别的对应，每个跨越一个大的感受野，因为它们是从迭代的低级别对应的聚集。然后，我们应用一种损失，以鼓励这些高层次的独特性，从而加强，对应关系（第3.2节）。3.1. 金字塔局部一致性匹配先验我们首先建议整合局部一致性，这是匹配的一个关键属性，说明图像I1中的一对相邻像素可能会匹配一对同样3929→×××p，q̸×2L4L2L× ××4- -图2.我们的无监督框架概述通过对局部邻域信息进行积分，迭代地聚合初始的低层四维相关体C0，直到将图像I2缩小到W2×H2大小。然后，合并的高水平相关体积CL为在2D矩阵中展开，从该2D矩阵中应用唯一匹配损耗LU。校正xmax（0，xγ）完成每个级别的聚合，以进一步加强一致对应并丢弃伪对应。从数学上讲，父块的感受野在每个金字塔级别沿着x和y维度加倍，因此快速达到完整图像的大小，此时聚合过程停止。图3示出了通过该算法作为先验实施的可变形金字塔结构。输出是合并的相关量图3. 可变形棱锥体的图示。相应的-父级相关性值C+1中的一致性将子级C中的4个对应性与小变形的容限相结合，并且对于所有级别都如此。为了清楚起见，我们只显示了父子补丁关系的一个子集。图像I2中的相邻图像，具有相同的空间偏移直到小的变形。为此，我们利用类似于非参数深度匹配算法的金字塔聚合技术[49];我们提醒下面的主要思想和过程。DeepMatching通过将第一图像I1分解为4 × 4块的规则网格来不对称地进行。在我们的例子中，我们简单地在两个空间维度上以因子4对特征图F1进行子采样。从而得到了H1′的初始相关值C0W1′H2其中H1′=H/4，W1′=W/4。它在下面-CL，其沿着图像I2的维度由于最大池化步幅而减小了因子2L，其中L是金字塔层级的数量。在实践中，我们在训练过程中使用224 - 224个输入特征图运行5个级别的过程，从而产生沿着第二图像维度的大小为7 - 7的最终相关体积。我们在补充材料中显示了金字塔不同层次的相关体积，以更好地直观地了解该过程。3.2. 唯一匹配先验合并的相关体积CL表示跨越整个图像的大的可变形补丁之间的相关性;我们称它们为高级补丁。理想情况下，以像素p为中心的高级块在图像I2中具有唯一的匹配，即，应该只有一个q，计算相关性的主动聚合过程Lp，q具有高值，而所有其他相关性CL’对于后续金字塔级别中较大面片的地图。聚合的关键直觉是相关性C1q ′= q将接近0。虽然由于重复/普通模式，该约束对于像素级描述符并不现实用于p，q可以计算水平为1的8×8或者是严重的外观变化，它就像一个天然的道具，CL中的高级补丁程序。事实上，更大的是一个作为其4个子块在C0中的平均相关性。C1（p，q）=1（C0（pv0，qv0）+. . . +C0（p+v0，q+v0）），其中，补丁，由于更大的上下文，解决歧义和硬对应就越容易。v =（±2，±2）表示父面片中心及其4个子面片。这种聚合可以使用具有固定稀疏内核的4D卷积来实现，其中非零值对金字塔中的父子关系进行编码。到目前为止，我们提出的公式只能处理纯刚性变换。为了允许局部变形，可以使用具有3在每个4D卷积之前插入沿着第二图像维度的步长2和步长3的核。同样，一种力量因此，我们提出了一个损失，鼓励每个高级别补丁的唯一匹配的关键道具。由于每个高级补丁是动态地建立在测试时间上的像素级相关性的可变形子集，这种损失是自动反向传播到最佳的像素相关性拟合的金字塔前，因此像素级描述符。形式上，我们将CL重塑为二维张量尺寸为（W1′H1′）×W2H2。我们首先将相关性归一化C3930¯L×××1⁄2升×LLL×UL=L+0。3LAP12H′× W′2Σ¨¨体积，使得每行总和为1：CL主干架构。我们的网络f θ建立在最近的ConvMixer架构上[64]。具体来说，首先是...Cp，q=Qp，qLp，q、（1）联系我们使用步长1和128个输出通道进行5× 5卷积。然后使用核的卷积将44个不重叠的梯度块嵌入到512维特征中其中，k用作处理oc的正则化项包括所有相关性接近于零的区域。然后，唯一性损失被简单地表示为L（F，F）= −C.（二）11假设CL是1-归一化的，唯一性损失具体地鼓励CL中的所有值接近0ex。除了每行一个（即，每个高级补丁一个），其将接近1，参见补充资料以获得证明。请注意，该公式与稀疏Lasso正则化密切相关[55]。3.3. 实现细节训练因为我们的损失是不对称的，我们平均其44、stride4。然后，应用一系列逐点卷积和逐深度卷积。我们使用 7 个这样的块，使用 9 个内核的dependency卷积。最后，我们应用最后的逐点卷积和PixelShuffle操作来获得d=128维的特征图F4. 实验在展示数据集（第4.1节）之后，我们使用各种关键点检测器（第4.3节）密集地（第4.2节）和稀疏地评估我们的方法。最后，我们在4.4节中提供了一个消融性研究。4.1. 数据集和基准Hpatches[1]由116个具有不同光度和视点变化的图像序列组成每一个序列每一对的值及其反向值：U =LU（F1，F2）+得到一个参考图像和5个源图像，U（F2，F1）.为了减少计算成本和内存占用，我们在将特征图F1和F2传递给损失之前，对它们进行因子2的子采样我们训练我们的模型16对的批次，其中一半的对是用我们提出的无监督损失训练的，另一半是通过自监督方式的单个图像的标准数据增强合成生成的。对于后面这些对，所有地面实况对应都是从增强中获得的，并且我们使用与R2D2中相同的像素排序损失AP[48]。我们发现重要的是使用这种辅助的自我监督损失，以获得良好的结果。那是-最终损失被计算为加权和。我们固定=0。03在Eq. 设γ=1。5forpowerrectifiU-[49]第一次的时候，我就在这里我们实施我们在PyTorch中的方法[45]。我们执行了50000次训练迭代，这足以让模型收敛，使用Adam优化器[23]，固定学习率为10-4，权重衰减为5。10-4。训练数据。我们使用SfM-120 k数据集[46]，其中包含来自世界各地著名地标的图像这些训练对是使用COLMAP构建的SfM模型中的观测重叠获得的，并与数据集一起提供注意，该过程是用SIFT完成的，其不需要监督，并且仅用于验证两个图像是否描绘了相同的场景，但根本不指导金字塔匹配。在数据扩充方面，我们只对这些对执行大小为256256的随机为了生成合成对，我们从该数据集中随机采样图像，并应用标准数据增强技术。特别是，我们使用随机像素和颜色抖动，随机缩放，旋转和单应性。对在不同视点或照明下拍摄的源图像进行运动学处理。ETH3D[57]包含使用手持式摄像机拍摄并在SfM注册的室内和室外序列。通过以固定间隔对帧进行采样来生成图像对。我们用它来评估的鲁棒性，随着基线加宽的间隔增加的观点的变化。亚琛Day-Nightv1.1 [77]是一个大型户外视觉定位基准。我们特别考虑昼夜分裂来衡量我们的方法的泛化性能，因为它具有大的视点变化和严重的照明变化，由于白天/黑夜的二元性。对于这项任务，我们使用Kapture [20]管道：在第一步中，从数据库图像构建全局SfM图，在第二步中，查询图像本地化w.r.t.这张地图。通过使用具有AP-GeM-LM 18 [47]全局描述符的图像检索来处理完全匹配的计算复杂性在映射和查询阶段，我们将图像对的数量减少到前20个最近的邻居我们为这些检索到的图像中的每一个提取20，000个局部描述符，并将它们进行匹配以首先估计全局地图，然后估计相机姿势。4.2. 密集匹配我们使用DeepMatching [49]（DM）以密集或准密集的方式与训练阶段类似，我们用我们训练的描述符替换DeepMatching的基本像素描述符。管道的其余部分保持不变，除了内置的周期一致性验证，我们增强了包括最近邻居。我们发现这种修改很重要，因为DeepMatching往往会产生许多C3931≈↓方法方法AEPE↓ PCK@1↑ PCK@3↑ PCK@5↑ LiteFlowNetCVPRPWC-NetCVPR[42]WACV[61]欧洲共同体GLU-NetCVPRGLU-Net+GOCorNeurIPS[67] 2016年中国国际汽车工业展览会COTR + Interp. [22]ICCV[19] 2019年国际汽车工业展览会---------------------------药物（S）+DM + Interp.4.19 76.36 90.11（S+U）+DM + Interp.3.76 77.05 90.86COTRICCV水（S）+DM2.87 74.72 96.0597.14（S+U）+DM2.97 74.01 95.86 97.27表1. HPatch上不同阈值的平均端点错误（AEPE）和正确关键点百分比（PCK）稀疏方法只返回它们确信的对应子集。最佳和次佳结果分别以粗体和下划线表示。 DM 是DeepMatching和In-terp的缩写.是指插值。我们仅使用自监督对（S）和无监督训练对（S+U）来评估我们的方法。孤立的虚假对应，但通过内置的相互验证。总而言之，正如在我们的论文中一样，DeepMatching在计算对应关系的输出集时，以全局方式通过设计强制执行局部一致性和唯一性先验。我们的GPU implementa-tion执行多尺度匹配两个640像素的images在约3秒。对于更大的分辨率，我们采用COTR [22]中的粗到精策略。请注意，DeepMatching的输出不是密集的，而是准密集的，因为它从第一个图像输出每个原子补丁的一个对应关系。我们依靠一个简单的致密化技术时，密集曲速场是必需的。也就是说，我们遵循COTRHPatch。我们遵循[22，42，66]的评估协议我们在表1中报告了准致密和全致密（即，内插）输出。我们评估了两个模型：一个是单独从自监督对（S）训练的，即，一个是通过数据增强获得的，另一个包括无监督对（S+U）。在没有插值的情况下，我们的自监督模型（S）的性能略好于使用无监督对（S+U）训练的模型。这并不奇怪，因为它是专门从精确拟合测试集分布的合成增强（单应性）训练的。在全密集模式下，我们的无监督模型（S+U）优于自监督模型（S），这表明无监督损失允许产生更少的离群值（因为它们强烈损害De- launay插值），因此更鲁棒。总的来说，无论是使用或不使用插值，这两个提议的模型优于所有国家的最先进的方法，由一个大的利润。请注意，我们不使用任何显式的AEPE速率3 速率5码率7率9率11率13率15LiteFlowNetCVPR1.662.586.05十二点九十五分29.6752.4174.96PWC-NetCVPR1.752.103.21 5.5914.3527.4943.41[42]第四十二话2.493.284.18 5.356.789.0212.23GLU-NetCVPR1.982.543.49 4.245.617.5510.78[61]第六十一话1.922.122.33 2.583.908.6313.74[19]第十九届中国国际汽车工业展览会COTR +Interp.[22]第二十二届国际会议1.781.712.071.922.52 3.072.162.474.722.856.143.237.473.76表2.ETH3D数据集上不同速率的平均终点误差（AEPE）最佳和次佳结果分别以粗体和下划线表示。几何约束也没有过滤，与RANSAC- Flow [58]相反它也显著优于最近提出的无监督WarpC匹配损失[67]。然而，我们假设他们的模型的GLU-Net架构（需要训练他们的非监督扭曲一致性损失）是他们性能的瓶颈。总之，这些结果突出了优秀的（和预期的）能力，我们的金字塔匹配之前的情况下，大平面区域没有不连续性。ETH3D。接下来，我们评估我们的模型在一个更具挑战性的设置与真实的图像对具有复杂的3D形状的视点变化和许多不连续的光流。我们再次遵循[22，42，66]的评估方案。由于地面实况是稀疏的，不一定与准密集输出对齐，因此我们仅报告各种帧间隔（例如，率）在表2中。我们观察到，使用无监督对训练的模型显著优于自监督模型，最高可达25%（相对增益）。这突出了通过注入匹配先验训练的模型对真实噪声的卓越鲁棒性总体而言，它也优于所有现有的方法，对所有频率间隔的第一或第二AEPE进行评分。请注意，自监督模型仍然表现良好，仅排在COTR之后 [22]，这是一种在密集监督下使用50倍以上数据和更大网络（18.5Mvs.3.5M参数）。这证明了在现实条件下在测试时强制执行先验的好处。我们的方法也比其他方法快得多，例如在每个测试对上需要多图4呈现了来自“湖边”序列的对的定性结果，具有挑战性的视点变化、复杂的3D形状、遮挡、照明伪影和光照变化。我们的方法能够在具有挑战性的条件下准确地重建第二帧（当然，在遮挡区域除外）。它也可以匹配小的区域，例如第一列中的白色板或第二列中的工作台右侧（见放大插图）。密集流稀疏药物（S）+DM +Interp.1.772.812.392.393.563.874.57（S+U）+DM +Interp.一点六七1.86二点一二二点三七2.813.413.693932图4. ETH3D中最具挑战性的“湖畔”序列的宽基线匹配。前两行显示要匹配的图像对。第三行显示了根据我们的模型预测的密集匹配将第一个图像变形为第二个图像。地面实况控制点上的误差用面积与误差成比例的圆表示，使用KITTI误差颜色代码。我们观察到，大的误差主要出现在运动边界附近。更多的例子显示在补充视频。1.00整体照明0.750.500.250.001 2 3 4 5 6 7 89101 2 3 4 5 6 7 8 910阈值[px]图5.根据各种错误阈值的平均匹配精度（MMA），在HPatches数据集上稀疏匹配结果价格（S）33.81 55.35 63.26 67.02 76.96 90.58价格（S+U）34.94 58.02 67.37 73.30 86.91 97.91ABS. 增益↑ +1.1↑ +2.7↑ +4.1↑ +6.2↑ +10.0↑ +7.3R2D2 33.17 75.53 83.84 72.25 85.86 97.91价格（S）37.46 83.38 91.46 69.63 84.82 96.86单位面积（S+U）37.83 84.16 92.42 73.30 86.91 98.43ABS. 增益↑ +0.4↑ +0.8↑ +1.0↑ +6.2↑ +2.1↑ +1.6超级点27.03 65.22 75.54 70.16 86.91 97.91价格（S）32.48 71.44 78.81 67.54 81.68 93.19单位（S+U）33.36 73.41 81.4 74.35 87.96 98.43ABS. 增益↑+0.9↑ +2.0↑ +2.6↑ +6.2↑ +6.3↑ +5.2表3. HPatches上的平均匹配精度（MMA）和亚琛之夜上的本地化查询的百分比在三个错误阈值内，具有不同的稀疏关键点检测器。绝对增益显示了与仅自监督对（S）相比，使用无监督对（S+U）进行训练时的性能提高。4.3. 稀疏关键点匹配我们通过再次比较RNN（S）和RNN（S+U）模型所实现的性能，评估了稀疏匹配设置中训练期间利用的匹配先验的影响由于我们的方法产生密集的描述符地图，我们需要求助于外部关键点检测器来选择图像尺度中的可重复位置空间为了使评估尽可能全面，我们测量了3个标准检测器的性能：SIFT [34]，R2D2 [48]和SuperPoint [10]。请注意，对于每个检测器，我们在完全相同的位置和尺度上为每个方法提取描述符，使评估公平并严格集中在描述符上。我们进行了全面的研究的整体描述符的质量，共同评估两个互补的任务，即在关键点匹配的HPatches和亚琛之夜的定位精度。对于HPatches，我们遵循[11]的实验方案并测量平均匹配精度（MMA）。MMA对应于所有图像对的正确匹配的平均百分比。以像素为单位的指定误差阈值。可视化本地化性能是衡量成功本地化w.r.t.查询的百分比。相机位置和方向的特定阈值。表3报告了两个基准测试中每个关键点检测器和每个描述符的我们首先注意到，我们的模型，包括自监督模型（S），在HPatches上显著优于它们有趣的是，这并没有转化为定位精度：事实上，自监督模型不断产生较差的定位观点他Aff. + Root-SIFTHAN + HN++DELFSuperPointLF网络1 2 3 4 5 6 7 8910D2-Net培训MSR2d2D2-Net MSCAPS-U稀疏网络（Ours）R2d2SuperPointMMASIFTDet-描述-HPatches亚琛昼夜埃克托 RiptorMMA@1↑SIFT 29.79MMA@3↑43.89MMA@5↑46.740.25米，2米0.5米，5米5米，10米45.55 53.40 63.873933火车+风格损失HPatches亚琛日夜数据传输？MMA@1↑MMA@3↑MMA@5↑0.25m，20.5m，5 5m，10SfM120kS37.4683.3891.4669.6384.8296.86SfM120kS+U37.8384.1692.4273.3086.9198.43SfM120k✓S37.9784.7792.6772.7786.9198.43SfM120k✓S+U37.6484.9692.9773.3087.4398.43亚琛✓S+F36.3883.7791.4972.7789.0198.43表4.对HPatches和Aachen Day-Night在训练集和监督层上的剥离研究。我们评估了训练对SfM120k的影响，无论是否使用样式转移生成的图像对，或者使用R2D2 Aachen训练集进行全面监督。自监督损失、非监督损失和全监督损失分别表示为S、U和F。最好和第二好的结果分别是。用粗体加下划线与基线关键点相比的精度。这种差异是由这样一个事实解释的，即自我监督很好地涵盖了像单应性这样的简单变换，但未能对更现实的变化进行建模。相比之下，用无监督对（S+U）训练的模型平均比自监督模型好6个点，并且所有基线关键点也比自监督模型好6个点，尽管在没有像素级监督的情况下训练。这清楚地表明，在训练过程中注入强大但无监督的先验知识有助于模型建立硬的、现实的对应关系，并在具有挑战性的任务中产生重要影响。图5将我们的性能与HPatches上的最新技术进行了比较（在本例中，我们使用了R2D2我们的方法显着优于所有最先进的方法，包括最近的稀疏NCNet [51]和自监督方法CAPS-U [41]。4.4. 先进的增强和全面的监督大多数最先进的描述符学习方法目前都是在相应级别进行全面监督的训练，这要归功于外部监督或使用先进的数据增强技术进行自我监督[41，48]。为了评价这些组件对w.r.t.我们的方法，我们进行了联合研究的HPatches和亚琛昼夜基准。具体来说，我们认为自动样式转换[30]是一种先进的数据增强技术，因为它已被证明可以有效地学习鲁棒的描述符。我们附加了从R2D2 [48]官方训练集下载的风格转换对，专门针对亚琛图像上的我们还考虑了完整的R2D2训练集，主要由Aachen图像（75%）组成，其中还包括使用复杂的流量估计管道预先计算的全监督对。为了建立一个公平的比较，每次我们从头开始重新训练ConvMixer骨干模型，对每个训练集使用相同的超参数和损失函数（如果适用）。结果报告于表4中。第一行和第二行对应于所有先前实验中使用的模型。我们观察到，向SfM120k训练集添加风格迁移对会导致性能稳定提高，两个模型。然而，我们的无风格转移的无监督方法的整体表现与风格转移对增强的自监督方法相当虽然很难估计SfM120k中昼夜对的比例，但由于照片是在一天中的不同时间拍摄的，因此这种对肯定存在这表明我们的非监督方法可以利用这些困难的对，从而显着提高匹配的鲁棒性。最后，我们指出，我们用额外的风格转移对训练的无监督方法在整体上比在相同条件下专门在以亚琛为中心的数据集上训练的完全监督方法更好。事实上，虽然这两种方法在亚琛昼夜的性能相当，但我们的方法在HPatches上的性能明显4.5. 限制虽然我们的方法不需要任何监督给定的真实图像对，但它仍然需要接收描述相同场景或对象的图像对。虽然这些在理论上很容易使用例如图像检索方法，这还有待证明。此外，尽管超过了现有技术，但在经典的挑战性情况下，例如无纹理区域或重复图案，特别是在稀疏匹配的测试时间没有匹配先验的5. 结论学习的像素描述符已成为多个视觉任务，如SfM和视觉定位的黄金然而，他们的训练通常需要大量的地面实况注释，这是麻烦的，收集起来也很昂贵，例如。使用SfM技术本身依赖于局部图像特征。在这项工作中，我们展示了在无监督环境中学习判别性和鲁棒性局部描述符的可行性我们预计，在SfM管道目前失败的地方，潜在的新训练数据源的数量和多样性将大大增加，从而扩大可能的应用范围。3934引用[1] Vassileios Balntas ， Karel Lenc ，Andrea Vedaldi， andKrys- tian Mikolajczyk.HPatches：手工制作和学习本地描述符的基准和评估在CVPR，2017年。一、二、五[2] 穆罕默德·埃尔·巴纳尼和贾斯汀·约翰逊引导你自己的通信。ICCV，2021。1[3] Gabriele Moreno Berton ， Carlo Masone ， ValerioPaolicelli，and Barbara Caputo.视觉地理定位的视点不变稠密匹配。ICCV，2021。1[4] Aritra Bhowmik，Stefan Gumhold，Carsten Rother，andEric Brachmann.增强的特征点：为高级任务优化特征检测和描述。在CVPR，2020年。二、三[5] 边佳旺，林文燕，刘云，张乐，杨世杰，郑明明，和伊恩·里德。GMS：基于网格的运动统计，用于快速、超鲁棒的特征对应。IJCV，2020年。2[6] 塞萨尔·卡德纳、卢卡·卡隆、亨利·卡里略、亚西尔·巴夫、大卫·斯卡拉穆扎、何塞·内拉、伊恩·里德和约翰·J·伦纳德。同时定位和映射的过去、现在和未来：走向鲁棒感知时代。IEEE Trans. Robotics，2016. 1[7] Hongkai Chen，Zixin Luo，Jiahui Zhang，Lei Zhou，Xuyang Bai，Zeyu Hu，Chiew-Lan Tai，and Long Quan.使用种子图匹配网络学习匹配特征。ICCV，2021。3[8] 陈婷、西蒙·科恩布里斯、穆罕默德·诺鲁齐和葛offrey E.辛顿视觉表征对比学习的一个简单框架。在ICML，2020。1[9] 弗朗索瓦·达尔蒙，马蒂厄·奥布里，和帕·斯卡尔·莫纳塞。学习引导局部特征匹配。在3DV，2020。3[10] Daniel DeTone，Tomasz Malisiewicz，and Andrew Rabi-novich. Superpoint：自监督兴趣点检测和描述。在CVPR研讨会，2018年。二、七[11] MihaiDusmanu ， IgnacioRocco ， Toma'sPajdla ，MarcPolle-feys ， Josef Sivic ， Akihiko Torii 和 TorstenSattler。D2-Net：一种可训练的CNN，用于联合描述和检测局部特征。在CVPR，2019年。7[12] 雨果·热尔曼，纪尧姆·布尔莫，文森特·勒佩蒂特。S2DNet：学习图像特征以实现精确的稀疏到密集匹配。在ECCV，2020年。二、三[13] 雨果·热尔曼，文森特·勒佩蒂特，纪尧姆·布尔莫。神经重投影误差：融合特征学习和相机姿态估计。在CVPR，2021年。3[14] 雨果·热尔曼，文森特·勒佩蒂特，纪尧姆·布尔莫。视觉对应幻觉。在ICLR，2022年。3[15] Vitor Guizilini，Rares Ambrus， Sudeep Pillai和AdrienGaidon。PackNet-SfM：用于自监督单目深度估计的3D打包。在CVPR，2020年。1[16] 克里斯托弗·G哈里斯和迈克·斯蒂芬斯一种组合的角点和边缘检测器。载于AVC，1988年。2[17] Kaiming He，Haoqi Fan，Yuxin Wu，Saying Xie，andRoss B.娘娘腔。无监督视觉表征学习的动量对比。在CVPR，2020年。1[18] 昆河，炎栾，斯

下载后可阅读完整内容，剩余1页未读，立即下载