Patch2Pix：像素级对应的新视角和细化网络

27 浏览量更新于2024-01-22 收藏 1.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4669Patch2Pix：核线引导的像素级对应QunjieZhou1TorstenSattler2LauraLeal-Taixe'11慕尼黑工业大学2CIIRC，捷克布拉格工业大学摘要用于视觉定位的经典匹配流水线最近出现的对应网络提出在单个网络内执行这些步骤，但由于内存瓶颈而导致匹配分辨率低在这项工作中，我们提出了一个新的视角来估计对应的检测到细化的方式，我们首先预测补丁级匹配的建议，然后再细化。我们提出了Patch 2 Pix，一种新的细化网络，通过从这些propos-als定义的局部区域回归像素级匹配，并联合拒绝离群匹配与置信度得分来细化匹配建议。Patch2Pix是弱监督的，以学习与输入图像对的对极几何一致的correspondence。我们表明，我们的细化网络显着提高了correspondence网络的图像匹配，单应性估计和本地化任务的性能。此外，我们还证明了我们的学习细化可以推广到完全监督的方法，而无需重新训练，这使我们获得了最先进的本地化性能。代码可以在https：//github.com/GrumpyZhou/patch2pix网站。1. 介绍寻找图像对应关系是几个计算机视觉任务中的基本步骤，例如运动恢复结构（SfM）[36，41]和同时定位和映射（SLAM）[8，24]。给定一对图像，通常通过局部特征匹配流水线建立像素级对应关系，该流水线包括以下三个步骤：i）检测和描述局部特征，ii）使用特征描述符匹配最近的邻居，以及iii）拒绝离群匹配。传统手工制作的本地特色，如SIFT [15]该研究由洪堡基金会通过Sofja Kovalevskaya奖，欧盟地平线2020项目RICAIP（赠款协议编号857306）和欧洲区域发展基金项目IMPACT（编号CZ.02.1.01/0.0/0.0/15 003/0000468）资助。图1. Patch2Pix对应关系的一个例子。在上图中，Patch2Pix细化的匹配根据预测的置信度得分进行着色。不太自信的匹配（蓝色）主要出现在道路或空白墙上。在下图中，我们表明，内点匹配可以很好地处理大的视点变化。我们展示了更多的定量结果处理各种挑战性的条件下的supp。垫（c.f.秒D）的情况。或SURF [2]容易受到极端光照变化、运动模糊和重复性以及弱纹理场景的影响。因此，最近的工作[5-7，在-[3，22，38，42]建议从对应集合中学习过滤函数以拒绝离群匹配，而不是专注于改进局部特征。最近的一种方法[33]进一步提出通过图形神经网络和Sinkhorn算法[4，37]联合学习匹配函数和结合学习的特征[5]和学习的匹配器[33]已经在几个几何任务上设置了最先进的结果，显示了一个有希望的方向，以实现完全可学习的匹配管道。学习整个匹配管道已经在几个作品中进行了研究[13，30，31]，其中单个网络直接从输入图像对输出对应关系。这些对应网络面临的主要挑战是如何在达到像素级精度的同时有效地执行为了保持计算速度和可管理的内存占用，[29]4670以相当低的分辨率进行匹配，这在相对姿态估计中显示出不太准确[43]。虽然稀疏卷积已经在[30]中应用于以更高的分辨率进行匹配，但它们仍然无法实现像素级匹配。对应网络[30，31]的一个优点是它们被弱监督以最大化匹配对的平均匹配分数并最小化非匹配对的平均匹配分数，然而，它们在像素级匹配中学习效率较低。这与需要从地面实况（GT）对应中进行全面监督的方法相反[5，6，10，17，28，33]。虽然GT对应关系为训练提供了非常精确的信号，但它们也可能会给学习过程带来偏差。例如，使用由SfM流水线生成的稀疏关键点以及特定的检测器作为监督，关键点检测器可以简单地学习复制这些检测，而不是学习更一般的特征[26]。为了避免监督中的这种类型的偏差，最近的工作[40]提出使用相对相机姿势作为弱监督来学习局部特征描述符。与[30，31]中使用的平均匹配分数损失相比，它们通过包含图像对之间的几何关系而更精确在本文中，我们提出了Patch2Pix，一个新的视图设计的通信网络。受对象检测社区[27]中大量检测到细化实践的启发，我们的网络首先获得补丁级匹配建议，然后将其细化为像素级匹配。参见图1中的匹配示例。我们的新的细化网络是弱监督的极几何计算相对相机的姿态，这是用来回归几何一致的像素匹配补丁的建议。与[40]相比，我们直接优化匹配位置来学习匹配，而他们通过匹配分数来学习特征描述符。我们的方法进行了广泛的评估一组几何任务，显示国家的最先进的结果。我们总结我们捐款如下：i）我们提出了一种寻找对应关系的新观点，首先获得补丁级匹配建议，然后将其细化为像素级匹配。ii）我们开发了一种新的匹配细化网络，通过回归和拒绝异常值预测来改进匹配。它是在不需要逐像素GT对应的情况下训练的iii）我们证明了我们的模型一致地改进了对应网络的匹配精度，用于图像匹配，单应性估计和视觉定位。iv）我们的模型可以推广到完全监督的方法，而不需要再训练，并在室内和室外长期定位方面取得了2. 相关工作研究人员最近选择利用深度学习来检测鲁棒和有区别的局部特征[5D2Net [6]通过查找CNN特征上的局部最大值，分辨率是相对于输入图像，导致较不精确的检测。基于D2Net，ASLFeat [17]使用可变形卷积网络并在多个级别提取特征图以获得像素级匹配。R2D2 [28]使用扩张卷积来保持图像分辨率并预测每像素的关键点和描述符，这以计算和内存使用为代价获得了准确性给定关键点，CAPS [40]融合了几种分辨率的特征，并通过插值获得每个像素的描述符。上述方法被设计为学习局部特征，并且需要进一步的匹配步骤来预测对应性。匹配和离群值拒绝。一旦检测到并描述了局部特征，就可以基于两个特征表示之间的欧氏距离使用最近邻（NN）搜索[23]来获得对应关系。离群值通常根据相互一致性或匹配分数进行过滤。从通过NN搜索获得的一组对应关系中，最近的作品[3，22，38，42]学习网络来预测二进制标签以识别离群值[22，38，42]，或者可以由RANSAC [9]用于对输入匹配进行加权的概率[3]。注意，这些方法不学习用于匹配的局部特征和匹配函数本身，因此它们只能在给定的对应集合内进行改进。最近的工作进一步提出学习整个匹配函数[10，33]。SuperGlue [33]学习改进SuperPoint [5]描述符，以使用具有注意力的图神经网络进行匹配，并使用Sinkhorn算法计算对应关系[4，37]。S2DNet [10]在一个图像的SuperPoint关键点位置提取稀疏特征，并将它们与为另一个图像提取的密集特征进行穷举匹配，以基于相似性得分的峰值计算对应性虽然这些方法专门针对匹配过程优化关键点位置处的特征描述符，但是它们没有解决关键点检测问题。端到端匹配。最近出现的对应网络[13，30，31]不是分别解决特征检测，特征匹配和离群值拒绝，而是在单个前向传递中完成所有步骤。NC- Net使用相关层[29]来执行匹配，在网络内部执行匹配操作，并通过利用由4D卷积层获得受可用内存的限制，NCNet以16倍的缩小分辨率计算特征图上的相关性得分，这已被证明对于相机姿态估计不够准确[43]。SparseNCNet[30]通过存储前10个相似性得分来使用相关张量的稀疏表示，并用稀疏卷积代替密集4D卷积。这允许SparseNCNet以4倍缩小的分辨率w.r.t.起源，467100nal image.与我们的方法同时开发的DualRC-Net [13]通过结合从粗分辨率和细分辨率特征图获得的匹配分数，优于SparseNCNet。我们使用回归层来细化图像分辨率下的匹配位置，而不是像[13，30全面监管与弱监管我们认为需要精确对应信息来计算损失函数的方法是完全监督的，而不需要GT对应的方法大多数局部特征检测器和描述符都是在使用相机姿势和深度图[6，10，17]或使用合成同态变换[5，28]计算的精确对应关系上训练的，除了使用对极几何作为弱监督的CAPS [40S2DNet [10]和SuperGlue [33]都需要GT对应来学习特征描述和匹配。异常值过滤方法[3，22，38，42]通常受到对之间的几何变换的弱监督DualRC-Net [13]也对精确对应进行了完全监督，而其他两个对应网络[30，31]是弱监督的，以优化图像对而不是单个匹配的平均匹配得分。我们使用对极几何作为弱监督来学习几何上一致的对应关系，其中匹配的坐标直接回归和优化。相比之下，CAPS [40]使用相同级别的监督来学习特征描述符，并通过匹配分数（其索引给出匹配位置）优化其损失我们提出了我们的两阶段匹配网络，基于概念这种方式受到两步对象检测器的启发，例如Faster R-CNN [27]。在第一个对应检测阶段，我们采用对应网络，例如，网络，预测一组补丁级匹配建议。与FasterR-CNN一样，我们的第二阶段以两种方式细化匹配建议：（i）使用分类来识别建议是否可信，以及（ii）使用回归来检测以建议匹配为中心的局部补丁内的像素分辨率的匹配我们的直觉是，对应网络使用高级特征来预测补丁级别的语义匹配，而我们的精化网络可以专注于局部结构的细节，以定义更准确的对应位置。最后，我们的网络使用我们的弱监督epipo- lar损失进行训练，这强制我们的匹配满足由相对相机姿势定义的我们将我们的网络命名为Patch2Pix，因为它预测来自本地补丁的像素级匹配，网络架构的概述如图2所示。在下文中，我们以NC网络作为我们的基线来获得匹配建议，但我们不限于对应网络来执行匹配检测。我们在后面的实验中表明，我们的细化网络也可以推广到其他类型的匹配方法（c.f。秒5.3和5.4）。下面几节将详细介绍它的架构和训练损耗。3.1. 细化：像素级匹配特征提取给定一对图像（IA，IB），具有L层的CNN主干从每个图像。我们认为{fA}L和{fB}L是[30，31]，它学会预测1l=零l l=0在图像分辨率下几何一致的匹配。分别针对图像IA和IB的层l处的激活图，活泼地在层索引l=0处，特征图是输入图像本身，即，f A=I A和f B=I B。用于3. Patch2Pix：匹配优化网络对应网络的益处是直接针对特征匹配目标优化网络而不需要显式地定义关键点的潜力。特征检测和描述由网络隐式地执行，并反映在所发现的对应中。然而，有两个主要问题导致现有对应网络的不准确性[30，31]：i）由于存储器而使用缩小的特征图瓶颈受相关图的大小限制。这导致每一场比赛都在两个局部范围对于空间分辨率为H × W的图像，特征映射f l的空间维度为H/2l×W/2l，其中l∈[0，L− 1]。对于最后一层，我们将卷积步长设置为1，以防止失去了太多的分辨率。特征图被提取一次，并用于对应性检测和细化阶段。检测阶段仅使用包含更多高级信息的最后一层特征，而细化阶段使用包含更多低级细节的最后一层之前的特征。从比赛提案到补丁。给定匹配方案i=（p A，pB）=（x A，y A，x B，y B），我们的目标是伊伊补丁. ii）NCNet [31]和SparseNCNet [30]都有使用弱监督损失进行训练，该弱监督损失简单地为非匹配对的所有匹配提供低分数，并为匹配对的匹配提供高分数。这无助于识别好的或坏的匹配，使得该方法不适合定位像素精确的对应关系。为了解决这两个不准确的来源，我们赞成-精细化阶段是通过在局部区域内搜索逐像素匹配来找到像素级上的精确匹配。由于建议是在缩小的特征图上匹配的，特征图中一个像素的误差会导致图像中2L−1像素的不准确度因此，我们将搜索区域定义为以pA和pB，其中我们认为S >2L−1可以覆盖更大的我我在两阶段检测到细化中执行匹配的姿势区域比原来的2L−1×2L−1局部补丁。一旦4672我我我我我我我我我我我我我我我我我图2. 使用Patch2Pix进行通信优化。上图：对于一对图像，首先使用我们改编的ResNet34主干提取特征，并将其输入对应网络，例如，NC匹配层[31]，用于检测匹配建议。然后Patch2Pix对这些建议进行优化，重新使用提取的特征图。底部：我们设计了两个具有相同架构的回归器级别以在图像分辨率上逐步改进匹配建议。对于以匹配建议m i为中心的一对S×S局部补丁，补丁的特征被收集作为我们的中间层回归器的输入，以输出（i）指示匹配建议质量的置信度得分和（ii）在局部补丁内找到的像素层局部匹配。更新的匹配建议m^更新搜索相应地通过一对新局部片间隔开。精细向量回归器输出最终置信度分数c_i和δ_i，以获得最终pi × el-精确匹配m×el。整个网络是在弱监督下训练的，而不需要显式的GT对应关系。扩展块的大小为2S×2S，仍覆盖原来的S×S搜索空间。补丁扩展到补丁建议M补丁在训练因为网络被迫在空间上接近和相似的特征中识别正确的建议。图3. 补丁扩展。给定匹配建议pA=（xA，yA）和pB=（xB，yB），我们通过沿着x轴和y轴移动d个像素来将pA向其四个角移动，这些像素与pB匹配以组成4个新的匹配建议。从pB到pA重复它，总共得到8个匹配建议，它们都是公告补充垫（Sec.B）我们的扩展机制可以加快学习过程，也提高了模型的性能。虽然也可以在推理过程中应用它来增加搜索区域，但这将导致更高的计算开销。因此，我们在测试期间避免使用它。与原始的S×S块相比，该方法使我们能够在两个2S×2S的局部区域内进行搜索。对于所有的匹配建议，我们获得一组局部补丁对，像素级匹配由我们的网络从局部补丁对的特征图回归。我们在下面详细描述每个组件。本地补丁扩展。我们还提出了一个补丁扩展机制，通过包括相邻区域来扩展搜索区域，如图所示3 .第三章。我们首先渐进匹配回归。为了定位像素级的匹配，我们定义的细化任务，找到一个良好的匹配内的对本地补丁。我们使用两个具有相同结构的回归器来实现这一点，即，中级和精细级回归，逐步确定最终的匹配，这是在图的下部显示二、给定一对S×S贴片，我们首先收集cor-响应先前提取的激活图，即， {f A}，{f B}. 对于每一个局部点-L l沿着x轴和y轴向其四个角移动pA，每个角移动d个像素。这为pA提供了四个锚点，我们将其匹配到pB以组成四个新的匹配建议。同样，我们也展开pB，得到它的四个角锚点与pA进行比对，对于块上的位置（x，y），其在L层特征图上的对应位置是（x/2l，y/2l）。我们从层{0，. . . ，L-1}并将它们连接成单个特征向量。这两个聚集的要素补丁PFA和PFB沿着特征维度连接我我我提案最后，扩大后的八项建议确定了-求出8对S×S局部曲面片。我们设d=S/2像素，使得由前像素定义的扩展搜索区域被扩展然后输入到我们的中级回归器中。回归量首先将具有两个卷积层的输入特征聚合成紧凑的特征向量，然后将其亲ResNet34特征提取器CNNConv+BN+ReLuMaxPool+ResBlock*3CNNResBlock*4ResBlock*6Patch2Pix：渐进式匹配优化修补程序功能集合产品特点集录中级回归精细水平回归匹配建议检测Patch2Pix4673i=1i=1^^ ^您的位置：i=1^˜˜我我我我像素1N我我N^^我K iK通过两个完全连接（FC）层来进行计算，并且最后从实现为两个FC层的两个头输出我们的网络预测。第一磁头是回归磁头，用于分类。所有其他对都被标记为阴性。给定预测置信度得分C和二进制标签C的集合，我们使用加权二进制交叉熵4输出一组局部匹配：={δ^i}NR为了测量分类损失，N在S×S局部补丁内w.r.t.它们的中心像素，∗1Σ∗ ∗其中δ^i =（δxA，δyA，δxB，δyB）。在第二个头中，B（C，C）=−wcilog ci+（1−ci）log（1−ci），（2）即，分类头，我们应用一个sigmoid函数，FC层的输出以获得置信度分数其中，权重w=|{c}|c=0}|/|{c}|c=1}|是C^=（C^，. . . ，c^）∈RN，它们表示有效性我我我检测到的匹配。这使我们能够检测和识别-卡坏匹配的建议，不能提供一个良好的像素匹配。我们获得中级匹配M像素：{mi}通过将本地匹配添加到补丁匹配，即，m i=m i+δ i。特征被再次收集，用于以中间级匹配为中心的新的局部S×S补丁对集合，并被馈送到精细级回归器，其如下与中级回归相同的过程来输出对.我们在中级和精细级分类损失中使用单独的阈值θcls和θcls，将其相加以获得总分类损失Lcls。几何损失。为了避免训练我们的回归器来细化将被分类为无效的匹配建议内的匹配，对于每个细化的匹配，我们仅在其父匹配建议的Sampson距离在特定阈值θgeo内时才优化其几何损失。我们的地理-finalpix el-lev elmatchesMpixel：={mi}Ndencescores Cpixel=（c1，. . . ，c<$N）∈RN.3.2. 损失和confi-度量损失是我们想要优化的细化匹配集的平均Sampson距离我们使用阈值θgeo和θgeo作为相应的中级和精细级几何损失，两种损失的总和给出了我们的像素级匹配损失Lpixel涉及两个项：(i)分类损失Lcls用于置信度分数，训练用于预测匹配建议是否包含真实匹配，以及（ii）几何损失Lgeo用于判断回归匹配的准确性。最终损失被定义为Lpixel=αLcls+Lgeo，其中α是平衡两个损失的加权参数。我们根据训练过程中两次损失的大小经验性地设置α=10桑普森距离为了识别像素级匹配，我们监督网络以找到与图像对之间的对极几何一致的对应关系它定义了两个正确匹配的点在使用相对相机姿态变换投影到另一图像时应位于其对应的核线上。匹配预测在多大程度上满足对极几何可以可以用桑普森距离精确测量给定匹配mi和由图像对的相对相机姿态计算的基本矩阵 F∈R3×3 ，其Sampson距离φi度量匹配的几何误差w.r.t.基本矩阵[11]，其定义为：（（PB）TFPA）2总几何损失Lgeo.4. 实现细节我们训练Patch2Pix与我们适应的NCNet检测到的匹配建议，即，[31]中的预训练NC匹配我们的细化网络是在大规模户外数据集MegaDepth [14]上训练的，在那里我们构建了60661个匹配对。我们设置距离阈值来计算训练损失（c.f. 秒3.2）当θ^cls=θ^geo=50时，中尺度回归方程θcls=θgeo= 5，精细尺度回归方程θ cls=θgeo=5。在图像分辨率下，我们不断地将局部补丁大小设置为S=16像素。使用Adam [12]优化像素级匹配，初始学习率为5e−4，持续5个epoch，然后是1e−4，直到收敛。小批量输入包含4对分辨率为480×320的图像。我们提出了关于我们的回归器和我们的适应性NCNet[31]，训练数据处理，超参数消融以及我们在supp中匹配的定性结果的架构细节。mat.（c.f.秒AB）。5. 几何作业评价φi=A2、（1）（FP1+（FPA）2+（FTPB）2+（FTPB）2我我2我1我25.1. 图像匹配其中P A =（x A，y A，1）T，P B=（xB，yB，1）T和伊伊（FPA）2，（FPB）2表示第k项的平方，载体FPA，FPB作为我们的第一个实验，我们在图像匹配任务下的HPatches [1]序列ii其中一种方法应该检测对应性分类损失。给定从匹配建议m i=（x A，y A，xB，y B）获得的一对补丁，我们将该对标记为在输入图像对之间。我们遵循D2Net [6]中提出的设置，并报告平均匹配精度i i i ii为正，因此将其分类标签定义为ci=1，如果φi θcls.这里，θcls是我们的几何距离阈值（MMA）[19]在从1到10个像素变化的阈值下，以及匹配和特征的数量。Ni=1用于平衡正负贴片46741.00.80.60.40.20.0整体照明观点方法#特征/匹配HesAff [18] + RootSIFT + NN 6.7K /2.8KHAN [21] + HN++ [20]+ NN 3.9K /2.0KSuperPoint [5]+ NN 2.0K /1.1KD2Net [6]+ NN 6.0K /2.5KR2D2 [28]+ NN 5.0K /1.6KASLFeat [17]+ NN 4.0K /2.0KSuperPoint + SuperGlue [33]（c=0.2）0.5KSuperPoint + SuperGlue [33]（c=0.9）0.4KSuperPoint + CAPS [40]+ NN 2.0K /1.1KSIFT[15] + CAPS + NN4.4K /1.5KDELF[25]+ NN4.6K /1.9KSparseNCNet [30]（im3200，top2k）2.0KNCNet（[31]（Our Adapted）1.5KPatch2Pix（c=0.5）1.1K1 2 3 4 5 6 7 8 9 101 2 3 4 5 6 7 8 9 101 2 3 4 5 6 7 8 9 10Patch2Pix （c=0.9）0.7K阈值[px]图4. HPatches上的图像匹配[1]. 我们用虚线表示弱监督方法，用实线表示基于全监督的方法。实验装置。我们使用精细水平回归器产生的置信分数来过滤离群值，并研究了它在两种设置下的性能， c = 0。5/0。9，其呈现匹配的数量和质量之间的权衡为了显示我们的细化概念的有效性，我们将其与我们的NCNet基线进行比较，该基线提供了我们的匹配建议。对于NCNet和Patch2Pix，我们调整图像的大小，使其具有1024的较大边，以减少运行时间。我们还比较了SparseNCNet [30]，这是相关工作中与我们最相似的一个，因为它也建立在NCNet的基础上，旨在通过重新定位机制提高其匹配除了与使用NN搜索进行匹配的几种局部特征方法进行比较外，我们还考虑了与 SuperGlue [ 33 ] 匹配的SuperPoint [5]特征，并研究了其在默认阈值c = 0下的性能。2和更高的阈值c=0。9为离群值拒绝。结果如图4所示，NCNet对于具有恒定视点的照明序列执行竞争性，这是NCNet的特殊情况，因为它使用固定的上采样来将补丁匹配带到像素对应。光照变化下的匹配性能表明了其在块级匹配上的有效性，而视点变化下的匹配精度表明其在像素级匹配上的不足。我们的细化网络将NCNet预测的补丁级匹配带到像素级对应，这大大提高了视点变化下的匹配精度，并进一步提高了照明变化下的匹配精度当将Patch2Pix与所有弱监督方法进行比较时，我们的模型在光照变化下的两个阈值下都是最好的。对于视点变化，我们的模型阈值c=0。9是最好的，SparseNC- Net在阈值c = 0下的表现与我们的模型相似。五、与完全监督训练的方法相比，我们的阈值c = 0的模型。9在光照变化下的性能优于所有这些对于视点变化，我们不如SuperPoint +SuperGlue准确，但仍然优于所有其他全监督方法。从图4中的曲线和表格来看，SuperPoint + SuperGlue和我们的方法都提高了性能，设置更高的阈值以删除不太可信的预测。5.2. 单应性估算具有准确的匹配并不一定意味着可以从它们估计准确的几何关系，因为在估计几何关系时，匹配的分布和数量也很重要。因此，我们接下来在相同的HPatches [1]序列上评估Patch2Pix以进行单应性估计。实验装置。我们遵循[5，33，40]中使用的角点正确性度量，并报告正确估计的平均角点误差距离低于1/3/5像素的单应性的百分比。在以下实验中，其中使用基于RANSAC的求解器来估计几何关系，我们使用c=0。25作为我们的默认置信度阈值，这总体上为我们提供了良好的跨任务性能。设置较低阈值的直觉是过滤掉一些非常糟糕的匹配，但留下尽可能多的信息，让RANSAC自己进行离群值拒绝。我们比较的方法，更有竞争力的匹配任务，这是根据其监督类型分类：全监督（全），弱监督（弱），和混合（混合），如果这两种类型都使用。我们在我们的环境下运行所有的方法，并测量从输入图像到输出匹配的匹配时间。我们在我们的supp中提供更多的实验设置细节垫（c.f.秒C）的范围内。结果从Tab中显示的结果。 1，我们再次观察到NCNet由于其固定的上采样而在照明变化下表现得非常好（c.f.秒5.2）。在这里，我们验证了Patch2Pix在视点变化下的匹配的改进也反映在估计的单应性的质量SparseNC- Net和我们的方法都是基于提高匹配精度的概念，通过在匹配的局部补丁内搜索，逐步重新定位更准确的匹配在更高分辨率的特征图。虽然我们的方法以原始分辨率预测匹配并且完全可学习，但他们的非学习方法以4倍的缩小分辨率产生匹配。正如我们在Tab中所展示的那样。1、我们的细化网络比他们的重新定位MMA4675方法整体照明精度（%，±1/3/5观点px）监督匹配数量时间（秒）SuperPoint [5] + NN0.46/ 0.78 /0.850.57/ 0.92 /0.970.35/ 0.65 /0.74充分1.1K0.12D2Net + NN0.38/ 0.72 /0.810.65/ 0.95 /0.980.13/ 0.51 /0.65充分2.5K1.61R2D2 + NN0.47/ 0.78 /0.830.63/ 0.93 /0.980.33/ 0.64 /0.70充分1.6K2.34[17]第十七话0.48/ 0.81 /0.880.63/ 0.94 /0.980.34/ 0.69 /0.78充分2.0K0.66[33]第三十三话0.51/ 0.83 /0.890.62/ 0.93 /0.980.41/ 0.73/0.81充分0.5K0.14[40]第40话0.49/ 0.79 /0.860.62/ 0.93 /0.980.36/ 0.65 /0.75混合1.1K0.36SIFT + CAPS [40] + NN0.36/ 0.76 /0.850.48/ 0.89 /0.950.26/ 0.65 /0.76弱1.5K0.73SparseNCNet [30]（im3200，top2k）0.36/ 0.66 /0.760.62/ 0.92 /0.970.13/ 0.41 /0.57弱2.0K5.83[31]第31话0.48/ 0.61 /0.710.98/ 0.98 /0.980.02/ 0.28 /0.46弱1.5K0.83Patch2Pix0.51/ 0.79 /0.860.72/ 0.95 /0.980.32/ 0.64 /0.75弱1.3K1.24Oracle0.00/ 0.15 /0.540.00/ 0.23 /0.70.00/ 0.07 /0.39-2.5K0.04Patch2Pix（带Oracle）0.55/ 0.85 /0.920.68/ 0.95 /0.990.43/ 0.76 /0.82弱2.5K0.76表1. Hpatch上的单应性估计[1]. 我们报告的百分比正确估计的单应性，其平均角误差距离低于1/3/5像素。我们用'Full'表示完全监督方法的监督类型，'Weak'表示弱监督方法，'Mix'表示使用这两种我们用黑体标出最佳准确度。机制，将整体精度提高到1个像素方法监督局部湿度（%，0.25m，2<$/0.5m，5<$/1.0m，10<$）白天夜间15%。对于照明的变化，我们是第二个-最好的NCNet之后，但我们比所有完全监督的方法更好。在视角变化的情况下，我们在弱监督方法中的1像素误差方面是最好的，并且我们实现了与最好的完全监督方法SuperPoint + SuperGlue非常接近的整体精度。甲骨文调查。由于我们的方法可以过滤掉不好的建议，但不能产生新的建议，如果NCNet不能产生足够的有效建议，我们的性能将受到影响，这可能是我们对视点变化的性能相对较低的原因。为了验证我们的假设，我们用Oracle匹配器代替NCNet来预测匹配建议。给定一对图像，我们的Oracle首先从GT对应中随机选择2.5K个匹配使用GT单应性计算，然后随机移动以GT位置为中心的12×12局部补丁内的匹配中涉及的每个点。通过这种方式，我们获得了我们的合成匹配建议，其中我们知道在16×16内存在至少一个GT对应关系以这些匹配建议为中心的本地补丁，这些建议让我们衡量我们真正贡献的性能，细化网络。如Tab.所示。1，由我们的Oracle产生的匹配的低准确度显然证明了留给我们的精化网络的匹配任务仍然具有挑战性。通过使用Oracle提案，我们的结果得到了很大的改进，这意味着我们目前的精化网络受到NCNet性能的严重限制。因此，在下面的本地化实验中，为了看到我们的细化网络的潜力，我们还将研究使用SuperPoint + SuperGlue生成匹配建议时的性能5.3. 亚琛白天夜晚我们通过在亚琛昼夜基准测试（v1.0）[34，35]上评估Patch2Pix，进一步展示了我们方法的潜力，用于昼夜照明下的户外定位夜间天气局部特征评价SuperPoint [5] + NN充分-73.5/ 79.6 /88.8D2Net + NN充分-74.5电话：0755 -8666888传真：0755 - 8666888R2D2 + NN充分-76.5/90.8/100.0[10]第十届全国人大代表充分-74.5/ 84.7 /100.0[17]第十七话充分-77.6 100.0/ 89.8 /100.0[40]第40话混合-82.7/ 87.8 /100.0[13]第十三话充分-79.6 88.8 /100.0SIFT + CAPS [40] + NN弱-77.6/ 86.7 /99.0SparseNCNet [30]弱-76.5/ 84.7 /98.0Patch2Pix弱-79.6电话：0755 -8888888传真：0755 -88888888[32]第三十二话SuperPoint [5] + NN充分85.4 1993年至1997年，75.5 1999年1月至1999年12月，[40]第40话混合86.3/ 93.0 /95.983.7/ 90.8 /96.9[33]第三十三话充分89.6/ 95.4 /9886.7/ 93.9 /100.0Patch2Pix弱84.6 1992年1月至1996年5月，82.7/ 92.9 /99.0Patch2Pix（带CAPS）混合86.7 1993年至1996年，85.7/ 92.9 /99.0Patch2Pix（含SuperGlue）混合89.2/95.5/98.587.8/ 94.9 /100.0表2.评价对亚琛昼夜基准（v1.0）[34，35]。我们报告在特定错误阈值下正确本地化查询的百分比。我们遵循Tab中描述的1并以粗体标记最佳结果。结果变化。实验设置。为了本地化亚琛夜间查询，我们遵循网站1的评估设置。为了同时评估白天和夜间图像，我们采用了[32]中提出的分层定位流水线（HALP2然后将匹配方法插入到管道中以估计2D对应关系。我们报告在特定错误阈值下正确本地化查询的百分比。我们使用NC- Net 建议和 SuperPoint [5] + SuperGlue [33] pro-structures测试我们的Patch 2 Pix模型。请注意，模型仅在NCNet提案上进行了训练。由于本地化流水线内的三角测量阶段，我们通过用其平均位置表示彼此接近超过4个像素的关键点来对匹配进行分类。我们提供了一个更详细的讨论我们的supp内的量化。垫（c.f.秒C）的范围内。结果如 Tab.所示。 2、对于局部特征评价，第1页https://github.com/tsattler/visuallocalizationbenchmark2https://github.com/cvg/Hierarchical-Localization网站4676方法监督局部反射率（%，0.25m/0.5m/1.0m，10Ω）DUC 1 DUC 2SuperPoint [5] + NN充分40.4 1999年1月至1999年6月，42.0 1998年12月31日至1999年12月31日D2Net + NN充分38.4 1999年12月31日至1999年12月31日，37.4/ 55.0 /64.9R2D2 + NN充分36.4 1999年12月31日至1999年12月31日45.0 1999年1月1日至1999年6月[33]第三十三话充分49.0 1998年1月至1999年12月53.4 1997年1月至1998年12月，[40]第40话混合40.9 2006年12月31日至2007年12月31日43.5 1998年12月31日至1999年12月31日，SIFT + CAPS [40] + NN弱38.4 1996年12月至1997年12月，35.1 48.9 /58.8SparseNCNet [30]弱41.9 1999年12月31日至1999年12月31日35.1/ 48.1 /55.0Patch2Pix弱44.4 1999年12月31日至1999年12月31日49.6 1999年12月31日至1999年12月31日Patch2Pix（带SuperPoint+CAPS）混合42.4 1996年12月31日至1997年6月31日43.5/ 61.1 /71.0Patch2Pix（含SuperGlue）混合50.0/ 68.2 /81.857.3 / 77.9/80.2表3. [39]第三十九话我们报告了在特定错误阈值下正确本地化查询的百分比。方法在Hacking [32]管道内进行评估，以共享相同的检索对，RANSAC阈值等。我们使用Tab中的1并以粗体标记最佳结果。对于夜间查询，我们的性能优于其他两种弱监督方法。虽然比涉及全面和弱监督的Su- perPoint [5] +CAPS [40]更差，但我们与所有其他全监督方法相当或更好。对于所有查询的完整本地化，使用HALLESS，我们表明，我们比超级点+NN在夜间查询和竞争力的白天图像。通过进一步用SuperGlue建议替代NCNet匹配建议，我们在白天的图像上与SuperGlue竞争我们的直觉是，我们受益于我们的对极几何监督，其在没有来自训练数据的任何偏差的情况下学习潜在的更一般的特征，这进一步得到了我们下一个实验的支持。5.4. InLoc上的室内定位最后，我们在InLoc基准上评估Patch2Pix[39]大规模室内定位。场景中大量的无纹理区域和重复的结构使得这个数据集非常具有挑战性。实验设置。继 SuperGlue [33]之后，我们通过使用Hacking内部的预测对应来评估匹配方法我们报告的百分比正确本地化的查询在特定的错误阈值。值得注意的是，与亚琛昼夜评估相比，由于量化，我们的方法损失了高达4个像素的精度，我们在InLoc（不需要三角测量）上与其他方法进行了更公平的比较。结果直接反映了与其他方法相结合时，我们的改进除了SuperPoint+SuperGlue之外，我们还评估了其他方法的几种配置，并与它们的最佳结果进行了比较请看supp。mat.欲知详情，秒C）的范围内。结果如Tab.所示。3、Patch2Pix是弱监督方法中最好的方法，优于除SuperPoint + SuperGlue之外的所有其他方法注意，我们是14.5在DUC2上，在最小误差上比SparseNCNet好%，这进一步强调了我们学习的细化网络比他们手工制作的重定位更有效机制再看看最后几行Tab。3，当我们用SuperPoint +Super-Glue预测的更准确的建议替换NCNet建议时，我们的精化网络在所有方法通过在SuperGlue匹配的SuperPoint关键点的局部区域内进行搜索，我们的网络能够检测到更准确和更强大的匹配，以超越SuperPoint+ SuperGl

下载后可阅读完整内容，剩余1页未读，立即下载