基于深度神经网络的图像对应关系变换器

106 浏览量更新于2023-10-14 收藏 20.29MB PDF 举报

图像匹配

深度神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

162070COTR：用于图像匹配的对应变换器0Wei Jiang 1，Eduard Trulls 2，Jan Hosang 2，Andrea Tagliasacchi 2，3，Kwang Moo Yi 101 英属哥伦比亚大学，2 谷歌研究，3 多伦多大学0摘要0我们提出了一种新的框架，用于在图像中找到对应关系。0基于深度神经网络的图像中的点之间的对应关系，给定两个图像和其中一个图像中的查询点，在另一个图像中找到其对应点。通过这样做，可以选择只查询感兴趣的点并检索稀疏对应关系，或者查询图像中的所有点并获得密集映射。重要的是，为了捕捉局部和全局先验，并让我们的模型使用其中最相关的先验来关联图像区域，我们使用了一个变换器来实现我们的网络。在推理时，我们通过递归地放大估计值周围的区域应用我们的对应网络，从而得到一个能够提供高精度对应关系的多尺度流水线。我们的方法在多个数据集和任务上显著优于现有技术，在稀疏和密集对应问题上，从宽基线立体视觉到光流，无需为特定数据集重新训练。我们承诺发布数据、代码和所有必要的工具，以便从头开始训练并确保可重现性。01. 引言0在图像对之间找到对应关系是一个有趣的问题。0计算机视觉中的一项基本任务，应用范围从相机标定[22,28]到光流[32, 15]、运动结构(SfM)[56, 28]、视觉定位[55,53, 36]、点跟踪[35, 68]和人体姿态估计[43,20]。传统上，存在两个基本的研究方向。一种是从两幅图像中提取一组稀疏关键点，并将它们进行匹配以最小化对齐度量[33, 55,28]。另一种是将对应关系解释为一种密集过程，其中第一幅图像中的每个像素映射到第二幅图像中的一个像素[32, 60,77, 72]。0稀疏和密集之间的分歧自然而然地出现。0从它们被设计用于的应用中。稀疏方法主要用于恢复单个全局相机运动，例如在宽基线立体视觉中，使用几何约束。它们依赖于局部特征[34, 74, 44, 13]。0图1. 对应变换器 - (a) COTR0将对应问题作为从点x到点x0的函数映射，条件是两个输入图像I和I0。(b)COTR能够在不同的运动类型下进行稀疏匹配，包括相机运动、多目标运动和物体姿态变化。(c)COTR为立体图像生成平滑的对应关系图：给定(c.1,2)作为输入，(c.3)显示了预测的密集对应关系图(颜色编码的'x'通道)，(c.4)使用预测的对应关系将(c.2)变形到(c.1)上。0并在与它们形成的潜在对应关系的分离阶段中使用基于采样的鲁棒匹配器[18, 3, 12]或它们的学习对应物[75, 7, 76, 64,54]进一步修剪。相比之下，密集方法通常模拟小的时间变化，例如视频序列中的光流，并依赖于局部平滑性[35,24]。以这种方式利用上下文使它们能够在任意位置找到对应关系，包括看似无纹理的区域。0在这项工作中，我们提出了一种解决方案，弥合了这种分歧。0一种能够表达全局和局部先验知识的新型网络架构，并从数据中隐式地学习它们。为了实现这一点，我们利用密集连接网络在表示平滑函数方面具有的归纳偏差[1, 4,48]，并使用一个变换器[73, 10, 14]。62080通过其注意力机制，自动控制先验的性质并学习如何利用它们。例如，地面真实光流在物体边界上通常不会平滑变化，而简单（不考虑注意力）的密集连接网络在建模这种不连续的对应关系图时会面临挑战，而transformer则不会。此外，transformer允许编码输入数据不同位置之间的关系，使其成为对应问题的自然选择。0以函数形式表示图像I和I0之间的对应关系，如x0 = FΦ(x | I,I0)，其中FΦ是我们的神经网络架构，由Φ参数化，x索引I中的查询位置，x0索引其在I0中对应的位置；参见图1。与稀疏方法不同，COTR可以通过这种函数映射匹配任意查询点，只预测所需的匹配数量。与稠密方法不同，COTR隐含地学习平滑性，并能有效处理大的相机运动。0我们的工作是首次将transformers应用于获得准确的0准确的对应关系。我们的主要技术贡献包括：0•我们提出了一种函数对应架构，可以匹配任意查询点；0结合了稠密和稀疏方法的优势；0•我们展示了如何在多尺度上递归地应用我们的方法；0在推理过程中，通过多个尺度计算高精度的对应关系；0•我们证明COTR在多个数据集上实现了最先进的性能；0在多个数据集和任务上，在不重新训练的情况下，我们的方法在稠密和稀疏对应问题上都表现出色。0•我们证实了我们的设计选择，并展示了transformer在稀疏和稠密对应问题上的优势；0transformer对我们的方法至关重要，通过用基于多层感知器（MLP）的简化模型替换它。02.相关工作0我们回顾了稀疏和稠密匹配的文献0包括特征检测、特征描述和特征匹配三个阶段。经典的检测器包括DoG[34]和FAST[51]。流行的补丁描述符范围从手工设计[34, 9]到学习[42, 66,17]。学习特征提取器在LIFT[74]的引入后变得流行，有许多后续工作[13, 44, 16, 49, 5,71]。局部特征设计时考虑稀疏性，但在某些情况下也可以密集应用[67,32]。学习的局部特征是通过中间度量进行训练的，例如描述符距离或匹配数量。0特征匹配被视为一个独立的阶段，在该阶段中0然后进行特征描述符的匹配，接着使用诸如比值测试和鲁棒匹配器等启发式方法来处理高异常值比例。后者是许多研究的重点，无论是手工设计的还是遵循RANSAC[18, 12,3]的方法。0基于共识或基于运动的启发式方法[11, 31, 6, 37]或学习方法[75, 7, 76,64]。目前的技术水平建立在注意力图神经网络[54]的基础上。需要注意的是，虽然其中一些理论上允许端到端训练特征提取和匹配，但这个方向仍然很少被探索。我们展示了我们的方法，它不将流程分为多个阶段，并且是端到端学习的，可以胜过这些稀疏方法。稠密方法旨在解决光流问题。这通常意味着小的位移，比如连续视频帧之间的运动。经典的Lucas-Kanade方法[35]解决了局部邻域上的对应关系，而Horn-Schunck[24]则强调全局平滑性。更现代的算法仍然依赖于这些原则，但在算法选择上有所不同[59]，或者关注更大的位移[8]。在大基线和剧烈外观变化下估计稠密对应关系直到DeMoN[72]和SfMLearner[77]等方法出现之前还没有被探索，这些方法可以恢复深度和相机运动，但它们的性能在某种程度上不及稀疏方法[75]。邻域一致性网络[50]探索了4D相关性，虽然功能强大，但限制了它们能处理的图像尺寸。最近，DGC-Net[38]采用了粗到精的CNN方法，在合成变换上进行训练，GLU-Net[69]在特征金字塔中结合了全局和局部相关层，GOCor[70]改进了特征相关层以消除重复模式的歧义性。我们展示了我们在多个数据集上优于DGC-Net、GLU-Net和GOCor的性能，同时保留了我们查询单个点的能力。注意机制。注意机制使神经网络能够关注输入的一部分。硬注意力由空间变换器[26]首创，引入了一个强大的可微分采样器，并在[27]中得到了改进。软注意力由transformers[73]首创，后来成为自然语言处理的事实标准，其在视觉任务中的应用仍处于早期阶段。最近，DETR[10]使用transformers进行目标检测，而ViT[14]将其应用于图像识别。我们的方法是将transformers应用于图像对应问题的首次尝试。0使用深度学习的功能方法。虽然这个想法已经存在，例如生成图像[58]，但使用神经网络以功能形式的方式最近变得越来越受关注。DeepSDF[45]使用深度网络作为一个函数，返回查询点的有符号距离场值。这些想法最近被[21]扩展，以建立不完整形状之间的对应关系。虽然与图像对应关系没有直接关系，但这项研究表明功能方法可以实现最先进的性能。0对于无特征图像匹配的并发相关工作，有一项相关工作0我们的工作公开后不久，就提出了一项相关的工作[63]。arx I, I0��22 ,(2)x | I, I0| I, I022 ,(3)c =x|I, I0p1(x), p2(x), . . . , p,(6)(7)620903. 方法0我们首先形式化我们的问题（第3.1节），然后详细说明0我们的架构（第3.2节），以及推理时的递归使用（第3.3节）和我们的实现（第3.4节）。03.1. 问题定义0设x∈[0, 1]2为查询点在图像I中的归一化坐标0图像I中的点，我们希望在图像I0中找到相应的点x0∈[0,1]2。我们将学习找到对应关系的问题定义为找到最佳参数Φ的参数化函数FΦ。0最小化0ΦE0(x, x0, I, I0) �D0Lcorr + Lcycle，(1)0Lcorr =0�� x0 − FΦ0Lcycle =0� FΦ0其中D是训练数据集的地面对应关系，Lcorr衡量对应关系估计误差，Lcycle强制对应关系具有循环一致性。03.2. 网络架构0我们使用Transformer实现FΦ。我们的架构0受[10,14]启发，如图2所示。我们首先将输入裁剪和调整大小为256x256的图像，并将其转换为具有共享CNN骨干E的下采样特征图大小为16x16x256。然后，我们将两个对应图像的表示并排连接在一起，形成大小为16x32x256的特征图，然后添加坐标函数�（即大小为16x32x2的MeshGrid（0:1,0:2））的位置编码P（具有N=256个通道）以生成上下文特征图c（大小为16x32x256）：0� E(I), E(I0)0+ P(�), (4)0其中[∙]表示沿着空间维度的串联——这是我们架构中的一个微妙重要的细节，我们稍后会更深入地讨论。然后，我们将上下文特征图c输入到一个Transformer编码器TE中，并使用Transformer解码器TD以及由P编码的查询点x来解释其结果，P是用于生成�的位置编码器。最后，我们使用全连接层D处理Transformer解码器的输出，以获得相应点x0的估计值。0x0 = FΦ0= D(TD(P(x), TE(c))). (5)0对于每个组件的架构细节，请参考补充材料。上下文串联的重要性。沿着空间维度串联特征图是至关重要的，因为0图2. COTR架构-我们首先使用（共享的）骨干CNN E处理每个图像，以产生大小为16x16的特征图，然后将它们连接在一起，并添加位置编码，形成上下文特征图。结果与TransformerT一起输入，以及查询点x。Transformer的输出由多层感知机D解码为对应点x0。0它允许Transformer编码器TE在图像内部（自注意力）和图像之间（交叉注意力）之间建立关联。请注意，为了使编码器能够区分两个图像中的像素，我们对整个连接的特征图使用了单一的位置编码；详见图2。我们沿着空间维度而不是通道维度进行连接，因为后者会在每个图像中来自相同像素位置的特征之间创建人为关系。连接允许每个特征图中的特征以类似于句子中的单词的方式进行处理[73]。然后，编码器将它们关联起来，以便在给定上下文的情况下确定要关注哪些特征——这可以说是一种更自然的找到对应关系的方式。0线性位置编码。我们发现使用线性增加频率的位置编码非常关键，而不是常用的对数线性策略[73,10]，后者会导致我们的优化不稳定；请参见补充材料。因此，对于给定的位置x = [x, y]，我们写成0P(x) =04(x)0i0pk(x) =0� sin(k�x>), cos(k�x>)0�0其中N =256是特征图的通道数。请注意，pk生成了四个值，因此编码器P的输出大小为N。0查询多个点。我们将我们的框架作为一个在单个查询点x上操作的函数进行介绍。然而，如图2所示，将其扩展到多个查询点是很简单的。我们可以一次输入多个查询，Transformer解码器TD和解码器D将其转化为多个坐标。重要的是，在这样做的同时，我们禁止查询点之间的自注意力，以确保它们是独立解决的。256 ⇥ 256. While this may seem a limitation on images withnon-standard aspect ratios, our approach performs well onKITTI, which are extremely wide (3.3:1). Moreover, wepresent a strategy to tile detections in Section 4.4.Discarding erroneous correspondences. What should wedo when we query a point is occluded or outside the viewportin the other image? Similarly to our strategy to compensatefor scale, we resolve this problem by simply rejecting corres-pondences that induce a cycle consistency error (3) greaterthan ⌧cycle=5 pixels. Another heuristic we apply is to termi-nate correspondences that do not converge while zoomingin. We compute the standard deviation of the zoom-in es-timates, and reject correspondences that oscillate by morethan ⌧std=0.02 of the long-edge of the image.Interpolating for dense correspondence. While we couldquery every single point in order to obtain dense esti-mates, it is also possible to densify matches by computingsparse matches ﬁrst, and then interpolating using barycentricweights on a Delaunay triangulation of the queries. Thisinterpolation can be done efﬁciently using a GPU rasterizer.62100通过递归应用我们的功能方法，放大先前迭代的结果，并在放大的裁剪对上运行相同的网络，我们可以通过应用我们的功能方法递归地获得准确的对应关系，逐渐聚焦于正确的对应关系，提高准确性。03.3. 推理0接下来我们讨论如何在推理时应用我们的功能方法。0为了获得准确的对应关系，我们需要进行递归推理和放大推理时间。将强大的Transformer注意力机制应用于视觉问题是有代价的——它需要对特征图进行大量下采样，而在我们的情况下，这自然会导致对应关系定位不准确；详见第4.6节。我们通过利用我们方法的功能性质来解决这个问题，递归地应用我们的网络FΦ。如图3所示，我们迭代地放大先前估计的对应关系，以获得更精确的估计。计算和放大步骤之间存在着计算和放大步骤之间的权衡。我们在验证数据上进行了仔细的消融实验，并在每个步骤上选择了两倍的放大因子，共进行了四个放大步骤。值得注意的是，多尺度细化在许多计算机视觉算法中都很常见[32,15]，但由于我们的功能对应模型，实现这样的多尺度推理过程不仅是可能的，而且也很容易实现。补偿尺度差异。在递归匹配图像时，必须考虑图像之间的尺度不匹配。我们通过使裁剪的补丁尺度与每个图像中常见的可见区域成比例来实现这一点，我们在第一步中使用整个图像计算出这个区域。为了提取这个区域，我们在最粗糙的级别上为每个像素计算循环一致性误差，并将其阈值设为�visible =5个像素在256�256图像上；详见图4。在后续的阶段——放大步骤中，我们只需调整I和I0上的裁剪尺寸即可。0使它们的关系与有效像素的总和成比例（图4中未掩盖的像素）。处理任意大小的图像。我们的网络期望固定大小为256x256的图像。为了处理任意大小的图像，在初始步骤中，我们只需将其调整大小（即拉伸）为256x256，并估计初始对应关系。在随后的缩放中，我们从原始图像中围绕估计点裁剪正方形补丁，大小与当前缩放级别相称，并将它们调整大小为256x256。虽然这可能限制了具有非标准宽高比的图像，但我们的方法在KITTI上表现良好，这些图像非常宽（3.3:1）。此外，我们在第4.4节中提出了一种平铺检测的策略。丢弃错误的对应关系。当我们查询的点在另一个图像中被遮挡或在视口之外时，我们应该怎么办？与我们解决尺度补偿问题的策略类似，我们通过简单地拒绝引起循环一致性误差（3）大于�cycle=5像素的对应关系来解决这个问题。我们应用的另一个启发式方法是在缩放过程中不收敛的对应关系终止。我们计算缩放估计的标准差，并拒绝振荡超过图像长边的�std=0.02的对应关系。插值密集对应关系。虽然我们可以查询每个点以获得密集估计，但也可以通过首先计算稀疏匹配，然后使用Delaunay三角剖分上的重心权重进行插值来密集化匹配。这种插值可以使用GPU光栅化器高效地完成。0图4. 通过找到共视区域来估计尺度 -我们展示了我们希望对应的两个图像，以及估计的共同区域 -具有高循环一致性误差的图像位置被掩盖。03.4. 实现细节0数据集。我们在MegaDepth数据集上训练我们的方法。0数据集[30]提供了图像和相应的密集深度图，由SfM[56]生成。这些图像来自于摄影旅游，显示出外观和视点的巨大变化，这是学习不变模型所必需的。深度图的准确性足以学习准确的局部特征，如[16, 54,71]所示。为了找到可以进行训练的共视图像对，我们首先过滤掉SfM模型中没有共同3D点的图像对。然后，通过将一个图像的像素投影到另一个图像上，计算剩余图像对之间的公共区域。最后，计算投影像素的交并比，考虑到不同的图像尺寸。我们保留每个图像与具有最大重叠的20个图像对。这个简单的过程产生了一组具有高/低重叠混合的图像。我们使用115个场景进行训练，1个场景进行验证。实现。我们使用PyTorch[46]实现了我们的方法。对于骨干E，我们使用一个在ImageNet[52]上预训练的ResNet50[23]，并使用其第四次下采样后的特征图作为输入。0对于骨干E，我们使用在ImageNet上预训练的ResNet50进行初始化。我们使用其第四次下采样步骤后的特征图作为输入。我们使用PyTorch实现了我们的方法。62110第三个残差块，大小为16x16x1024，我们用1x1的卷积将其转换为16x16x256。对于Transformer，我们使用6层编码器和解码器。每个编码器层包含一个具有8个头的自注意层，每个解码器层包含一个具有8个头的编码器-解码器注意层，但没有自注意层，以防止查询点之间的通信。最后，对于将Transformer输出转换为坐标的网络D，我们使用一个3层MLP，每层有256个单元，后面跟着ReLU激活函数。即时训练数据生成。我们随机选择训练对，从第一张图像中随机选择一个查询点，并使用地面真实深度图找到其在第二张图像上的对应点。然后，在对数尺度上均匀间隔地从1x到10x之间的十个级别中随机选择一个缩放级别。然后，我们从第一张图像中以查询点为中心，在所需的缩放级别上裁剪一个正方形补丁，并在第二张图像中包含对应点的正方形补丁。给定这对裁剪，我们在两个裁剪之间随机采样100个随机有效对应点 -如果我们无法收集到至少100个有效点，我们将丢弃该对并转到下一个对。分阶段训练。我们的模型分为三个阶段进行训练。首先，我们冻结预训练的骨干E，并使用ADAM优化器[29]、学习率为10^-4和批量大小为24来训练网络的其余部分，进行300k次迭代。然后，我们解冻骨干并以学习率为10^-5和批量大小为16的方式进行端到端的微调，以适应增加的内存需求，进行2M次迭代，此时验证损失趋于平稳。注意，在前两个阶段，我们使用整个图像，调整大小为256x256，作为输入，这使我们能够将整个数据集加载到内存中。在第三个阶段，我们引入了如上所述的缩放，并进行进一步的端到端训练，进行额外的300k次迭代。04.结果0我们使用四个不同的数据集评估我们的方法，每个数据集都针对不同类型的对应任务。我们不进行任何形0旨在进行不同类型的对应任务。我们不进行任何形式的重新训练或微调。它们是：• HPatches[2]：一个包含平面表面的数据集，从不同角度观察0不同角度/照明设置和地面真实的单应性。我们使用这个数据集来与在整个图像上操作的密集方法进行比较。0• KITTI [19]：一个用于自动驾驶的数据集，0通过LIDAR收集地面真实的3D信息。通过该数据集，我们与在相机和多目标运动下的复杂场景上的密集方法进行比较。0• ETH3D [57]：一个包含室内和室外场景的数据集0使用手持相机拍摄的场景，通过SfM进行注册。由于它包含视频序列，我们使用它来评估方法在基线扩大时的性能，方法是增加样本之间的间隔，参考[69]。0方法AEPE # PCK-1px "PCK-3px" PCK-5px"0LiteFlowNet [25] CVPR'18 118.85 13.91 - 31.640PWC-Net [61, 62] CVPR'18, TPAMI'19 96.14 13.14 - 37.140DGC-Net [38] WACV'19 33.26 12.00 - 58.060GLU-Net [69] CVPR'20 25.05 39.55 71.52 78.540GLU-Net+GOCor [70] NeurIPS'20 20.16 41.55 - 81.430COTR 7.75 40.91 82.37 91.100COTR + Interp. 7.98 33.08 77.09 86.330表1.HPatches上的定量结果-我们报告平均端点误差（AEPE）和不同阈值下的正确关键点百分比（PCK）。对于PCK-1px和PCK-5px，我们使用文献中报告的数字。我们将最佳方法加粗并划线标出第二最佳方法。0•图像匹配挑战（IMC2020）[28]：一个数据集0和挑战，包含来自照片旅游图像的宽基线立体对，类似于我们用于训练的图像。它以匹配作为输入，并测量使用这些匹配估计的姿态的质量。我们在测试集上评估我们的方法，并与稀疏方法的最新技术进行比较。04.1. HPatches0我们遵循[69, 70]的评估协议0计算所有有效像素的平均端点误差（AEPE），以及给定重投影误差阈值下的正确关键点百分比（PCK）-我们使用1、3和5个像素。图像对是通过将每个场景的第一张（六张中的一张）图像作为参考图像生成的，该图像与其他五张图像匹配。我们为我们的方法提供了两个结果：'COTR'，每个图像对使用1,000个随机查询点，以及'COTR +Interp.'，使用第3.3节中介绍的策略对剩余像素进行插值。我们在表1中报告了我们的结果。0我们的方法提供了最佳结果，无论是否有0插值，除了PCK-1px外，在最佳基线附近保持接近。我们注意到，这个阈值的结果应该带有一定的保留，因为有几个场景不满足所有像素的平面假设。为了提供一些证据，我们使用作者提供的代码重现了GLU-Net[69]的结果，使用3个像素来测量PCK，这在论文中没有计算。2 COTR的性能明显优于它。04.2. KITTI0为了在更复杂的环境中评估我们的方法0比简单的平面场景更复杂，我们使用KITTI数据集[39,40]。根据[70,65]的方法，我们使用该评估的训练集，因为测试集的地面真实信息保持私有-所有方法，包括我们自己的方法，都是在一个单独的数据集上进行训练的。我们报告AEPE和'Fl.'的结果-02 虽然GLU-Net+GOCor略微超过了GLU-Net，但代码在提交时尚未0可用。KITTI-2012KITTI-2015AEPE#F�"�#�EPE#F�"�#L�F�� P��P�� P�TP��D�� L�� P��FT�� E��L�� P��COTR31.287.362.629.92COTR +Interp. 32.2610.506.1216.90MethodAEPE #� � � � � � �L�F�� P�1.662.586.0512.9529.6752.4174.96PWC-Net [ 61, 62] CVPR’18,TPAMI’191.752.103.215.5914.3527.4943.41DGC-Net [ 38] WACV’192.493.284.185.356.789.0212.23GLU-Net [69] CVPR’201.982.543.494.245.617.5510.78RAFT [65] ECCV’201.922.122.332.583.908.6313.74COTR1.661.821.972.132.272.412.61COTR +Interp.1.711.922.162.472.853.233.7662120输入（显示：一张图像）GLU-Net [ 69 ] CVPR’20 COTR （我们的）GLU-Net [ 69 ] CVPR’20 COTR （我们的）0光流光流误差图误差图0图5. KITTI上的定性示例 - 我们展示了来自KITTI-2015的三个示例的光流及其对应的误差图（“jet”颜色方案），以GLU-Net [ 69]作为基线。COTR成功恢复了场景中的全局运动和个体对象的运动，即使附近的汽车朝相反方向移动（顶部）或部分遮挡彼此（底部）。0方法0表2. KITTI上的定量结果 -我们报告了KITTI数据集2012和2015版本的平均端点误差（AEPE）和光流异常值比率（'Fl'）。我们的方法在大多数基线方法中表现优异，插值版本与RAFT持平，并略微超过GLU-Net+GOCor。0光流异常值的百分比。由于KITTI图像较大，我们每个图像对随机采样40,000个点，这些点位于有效地面真值覆盖的区域。0我们报告了在KITTI-2012和KITTI-上的结果0表2中的2015.我们的方法在所有基线方法中都表现出很大的优势。请注意，插值版本在流准确性方面与现有技术相似，略优于AEPE，相对于RAFT [ 65]稍差。在这里很重要的一点是，虽然COTR相对于比较方法提供了显著的改进，但我们仅在COTR返回自信结果的点上进行评估，这约占查询位置的81.8% -在被拒绝的查询中，有67.8%超出了另一幅图像的边界，这表明我们的过滤是合理的。这表明COTR在我们查询和检索估计的点上提供了高度准确的结果，目前受到插值策略的限制。这表明基于CNN的改进插值策略，如[ 41]中使用的策略，将是未来研究的一个有希望的方向。0在图5中，我们进一步突出了我们的方法0显示出与竞争对手相比的明显优势 -我们可以看到运动中的物体，即汽车，导致高误差03 我们过滤掉不满足循环一致性约束的点，0因此，结果不能直接进行比较。0表3. ETH3D上的定量结果 -我们报告了不同采样“速率”（帧间隔）下的平均端点误差（AEPE）。随着速率的增加和问题的难度增加，我们的方法表现得更好。0GLU-Net偏向于单一的全局运动。另一方面，我们的方法也成功地恢复了这些情况下的流场，边界处有一些小错误，这是由于插值引起的。这些示例清楚地展示了在估计具有移动物体的场景中，注意力的作用。0最后，我们强调，虽然我们的方法是在0MegaDepth是一个城市数据集，仅显示全局刚体运动，其中仅在静止物体（主要是建筑物立面）上提供了地面真值，我们的方法能够恢复不同方向上移动的物体的运动；参见图5底部。换句话说，它学会了在图像内部找到精确的局部对应关系，而不是全局运动。04.3. ETH3D0我们还在ETH3D数据集上报告了结果，参见0ing [69,70]。这个任务更接近于“稀疏”场景，因为性能仅在与具有有效地面真值的SfM位置相对应的像素上进行评估，这些像素比HPatches或KITTI要少得多。我们以AEPE的形式总结了结果，表3中采样一对图像，它们之间的帧数逐渐增加（采样“速率”），这与基线和难度相关。我们的方法在每个设置中产生最准确的对应关系，与LiteFlowNet[25]在3帧差异处并列，并且在��62130GLU-Net [69] COTR GLU-Net [69] COTR0室内室外0图6. ETH3D上的定性示例——我们展示了GLU-Net[69]和COTR在两个示例上的结果，一个室内和一个室外。如果重投影误差低于10个像素，则用绿色绘制对应关系，否则用红色绘制。0基线增加4；在图6中展示了定性结果。04.4. 图像匹配挑战0在不受限制的城市环境中进行准确的6自由度姿态估计0对于密集方法来说，禁止场景仍然是一个过于具有挑战性的问题。我们根据一种使用局部特征进行姿态估计的流行挑战来评估我们的方法，该挑战以平均准确度（mAA）在5°和10°误差阈值下评估姿态估计的质量；详见[28]。0我们专注于立体任务。由于该数据集只包含0对于宽高比不受限制的图像，我们不会在第一个缩放级别之前拉伸图像，而是将短边调整为256，并在粗略的图像级别估计上进行平铺处理——例如，宽高比为2:1的图像将调用两个平铺实例。如果此过程生成重叠的平铺（例如，4:3的宽高比），我们选择在其中具有最佳循环一致性的估计。我们将我们的方法与DEGENSAC[12]配对以检索最终的姿态，这是[28]推荐的，并且是大多数参与者所做的。0我们在表4中总结了结果。我们考虑前02020年挑战赛的参与者（总共有228个条目在排行榜[链接]中）的表现。由于挑战赛对关键点的数量有限制，我们考虑两个类别（每个图像最多2k和8k个关键点），以保证公平性——请注意，我们的方法没有关键点的概念，而是在随机位置查询。0使用2k个匹配点，并排除具有0语义遮罩——挑战中使用的一种启发式方法04由于未能报告GLU-Net+GOCor的确切数字，因为它们0在提交时，这些方法尚未公开报告，也没有公开可用的实现，但是我们的方法在每个场景中都应该表现得更好；参见[70]，图4。05挑战包括两个赛道：立体视觉和多视图（SfM）。我们的0该方法适用于任意位置，并且没有“关键点”的概念（我们使用随机点）。因此，我们不考虑多视图任务，因为SfM需要“稳定”的点来生成3D地标。我们计划在将来重新训练模型并探索其在关键点位置的使用。06虽然我们限制了每个图像对的匹配数，但因为我们0对于每对图像，我们使用随机点，我们使用的点数可能会变得非常大。因此，我们的方法不适用于“传统”的图像匹配流程，需要额外的考虑来使用此基准测试；我们感谢组织者满足我们的要求。0图7. IMC2020的定性示例-我们可视化了COTR（N =512）在图像匹配挑战数据集中的一些立体对中产生的匹配。根据它们的重投影误差（从高到低），匹配以红色到绿色着色。0方法内点数 "mAA(5°)" "mAA(10°)"0� DoG [34] + HardNet [42] + Modi�edGuidedMatching 762.0 0.476 0.6110� DoG [34] + HardNet [42] + OANet [76] + GuidedMatching 765.3 0.471 0.6030� DoG [34] + HardNet [42] + AdaLAM [11] + DEGENSAC [12] 627.7 0.460 0.5830� DoG [34] + HardNet8 [47] + PCA + BatchSampling + DEGENSAC [12] 583.1 0.464 0.5900� SP [13] + SG [54] + DEGENSAC [12] + SemSeg + HAdapt (441.5) (0.452) (0.590)0� SP [13] + SG [54] + DEGENSAC [12] + SemSeg (404.7) (0.429) (0.568)0� SP [13] + SG [54] + DEGENSAC [12] 320.5 0.416 0.5520� DISK [71] + DEGENSAC [12] 404.2 0.388 0.5130� DoG [34] + HardNet [42] + CustomMatch + DGNSC [12] 245.4 0.369 0.4920� DoG [34] + HardNet [42] + MAGSAC [3] 181.8 0.318 0.4380� DoG [34] + LogPolarDesc [17] + DEGENSAC [12] 162.2 0.333 0.4570COTR + DEGENSAC [12] (N = 2048) 1676.6 0.444 0.5800COTR + DEGENSAC [12] (N = 1024) 840.3 0.435 0.5710COTR + DEGENSAC [12] (N = 512) 421.3 0.418 0.5550COTR + DEGENSAC [12] (N = 256) 211.7 0.392 0.5290COTR + DEGENSAC [12] (N = 128) 106.8 0.356 0.4920所有测试场景上，前IMC2020参赛者的平均准确率(mAA)在5°和10°以及内点匹配数量。我们用粗体突出显示最佳方法，并用下划线标记第二名。我们排除了专门针对挑战的组件，这些组件用括号括起来，但为了完整性而报告它们。最后，我们报告了不同匹配数(N)下的COTR结果。在2k关键点类别中，它以每张图像仅512个匹配的数量超过了所有方法（除了那些特别排除的方法）。我们用�表示可点击的排行榜网页链接。0一些参与者为了过滤掉瞬态结构（如天空或行人）上的关键点-COTR在总体上排名第二。这些结果展示了我们的方法的鲁棒性和普适性，考虑到它并不是专门针对解决宽基线立体问题进行训练的。相比之下，其他顶级参赛作品都是针对这个特定应用进行设计的。我们还提供了降低匹配数上限的结果（见表4中的N），显示我们的方法仅使用512个输入匹配就超过了香草SuperGlue[54]（2k关键点类别的冠军）以及DISK[71]（亚军）仅使用256个输入匹配。IMC的定性示例如图7所示。04.5. 目标为中心的场景0尽管我们的评估重点是户外场景，但我们的模型可以应用于非常不同的图像，例如那些0这些模型可以应用于非常不同的图像，例如那些SourceTargetGLU-Net [69] CVPR’20COTRFiltering. We validate the effectiveness of ﬁltering out badcorrespondences (Section 3.3) on the ETH3D dataset, whereit improves AEPE by roughly 5% relative. More importantly,it effectively removes correspondences with a potentiallyhigh error. This allows the dense interpolation step to pro-duce better results. We ﬁnd that on average 1.2% of thecorrespondences are ﬁlt

下载后可阅读完整内容，剩余1页未读，立即下载