无监督稠密对应学习中的Warp一致性

35 浏览量更新于2023-10-13 收藏 1.49MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10346我无监督稠密对应学习中的Warp一致性Prune Truong Martin Danelljan Fisher Yu Luc Van Gool计算机视觉实验室，瑞士{prune.truong，martin.danelljan，vangoolvision.ee.ethz.chi@yf.io摘要学习密集对应的关键挑战在于缺乏真实图像对的地面实况匹配虽然光度一致性损失提供了无监督的替代方案，但它们在几何和语义匹配任务中普遍存在的大的外观变化中挣扎。此外，依赖于合成训练对的方法通常遭受对真实数据的较差概括。我们提出了Warp Consistency，这是一种用于密集对应回归的无监督学习目标。我们的目标是有效的，即使在设置与大的外观和视点的变化。给定一对真实图像，我们首先通过对原始图像之一应用随机采样的扭曲来构建图像三元组。我们推导和分析所有的流量一致性约束 aris-ing 之间的三重。从我们的观察和emperative结果，我们设计了一个一般的无监督objec-tive采用两个派生的约束。我们通过训练三个最近的密集对应网络来验证我们的翘曲一致性损失，以完成几何和语义匹配任务。我们的方法在几个具有挑战性的基准上设置了新的最先进的水平，包括MegaDepth，RobotCar和TSS。代码和模型在github.com/PruneTruong/DenseMatching上。1. 介绍寻找图像之间的密集对应关系仍然是一个基本的视觉问题，在视频分析[44]，图像配准[48，42]，图像处理[7，25]和风格转移[19，24]中有许多应用虽然监督式深度学习方法已经取得了令人印象深刻的结果，但它们受到地面实况注释的可用性的限制。事实上，收集真实场景的密集地面实况因此，当前的方法采用人工渲染的数据集[4，14，45，13]，稀疏计算的匹配[5，55]或稀疏手动注释[3，34，10]。这些策略缺乏现实性、准确性或可扩展性。相比之下，有一个几乎无穷无尽的来源估计流量已知翘曲图1. 我们引入了图像三元组（I，I′，J）的翘曲一致性图。通过根据随机采样流W（黑色箭头）扭曲I来构建图像I’。蓝色箭头表示预测流量。我们的无监督损失来自实线箭头表示的两个约束，它们通过组合I′→J→I和直接通过I′→ I预测W。这就要求设计有效的无监督学习方法。光度物镜依赖于亮度恒定性假设，在非监督光流的背景下盛行[35，57，31]。然而，在几何匹配的更一般的情况下，图像通常源于在不同场合和在不同条件下捕获的完全不同的视图。这导致帧之间的大的外观变换，这显著地破坏了亮度恒定性假设。它在语义匹配任务[25]中进一步无效，其中图像描绘相同对象类的不同实例作为测光对象的一个突出替代方案，翘曲监督[50，49，36，32]，也称为自我监督学习[37，40，34]，在图像的合成扭曲版本上训练网络。虽然受益于直接监督，缺乏真正的图像对-10导致不良的泛化到真正的数据。我们介绍了经一致性，一个无监督的学习目标密集对应回归。我们的损失10347→→→查询引用变形查询图2.根据我们预测的流扭曲查询图像（右）。几何和语义匹配应用程序提出了高度挑战性的外观和几何变换。利用真实图像对而不调用摄影测量一致性假设。与以前的方法不同，它能够处理大的外观和视点的变化，同时也推广到看不见的真实数据。从真实图像对（I，J），我们通过用已知流场W扭曲I来构造第三图像I’，所述已知流场W通过随机采样例如单应性，从指定的分布。然后，我们考虑由所得图像三元组（I，I′，J）产生的一致性图，如图11所示。1.一、它被用来推导一族新的流动一致性约束。通过仔细分析它们的性质，我们提出了一种基于组合I′预测流W的无监督损失，JI经由图像J（图1）。我们的最终翘曲一致性目标然后通过将其与翘曲监督约束相结合来获得，该约束也是通过直接路径I′I从我们的一致性图导出的。我们进行全面的实证分析的对象，从我们的翘曲一致性图和比较，他们现有的无监督的替代品。特别地，我们的翘曲一致性损失优于基于多个几何匹配数据集上的光度一致性和翘曲监督的方法。我们通过将我们的方法集成到三个最近的密集匹配架构中，即用于几何匹配的GLU-Net [50]和RANSAC-Flow [41]以及用于语义匹配的SemanticGLU-Net [50]，进一步对两个任务进行了广泛的实验我们的无监督学习方法实质性收益：+18。GLU-Net的MegaDepth [ 23 ]上的2%PCK-5 ， +2 。 8% PCK-5 用于机器人 - 汽车上的RANSAC-流量[20，29]，以及+16。1%和+4。4%PCK-0.05 ，分别在 PF-Pascal [9] 和 TSS [46] 上，用于SemanticGLU-Net. 这导致了所有四个数据集上的新的最先进技术示例预测如图所示。二、2. 相关工作无监督光流：虽然监督光流网络需要精心设计的合成数据集进行训练[4，30]，但无监督方法不需要地面实况注释。受经典的基于优化的方法的启发[11]，他们转而深入学习基于亮度恒定性和空间平滑度损失的模型[35，57]。主要的技术主要依赖于光度损失，例如.[57]，人口普查损失[31]，或SSIM [54，52]。这种损失与前后一致性[31]和边缘感知平滑正则化[53]相结合。遮挡估计技术[16，31，53]也用于从目标中屏蔽遮挡或异常区域最近，一些作品[27，28，26]使用数据蒸馏方法来改善闭塞区域的流量预测。然而，所有上述方法都依赖于两个连续帧之间的有限外观变化的假设。虽然该假设在很大程度上在光流数据中成立，但是它受到几何或语义匹配应用中遇到的剧烈外观变化的挑战，如图1B中所示。二、无监督几何匹配：几何匹配集中在两个帧之间的几何变换和外观变化可能很大的更一般的情况。方法要么估计密集流场[32，50，49，41]，要么输出成本体积[39，55]，可以进一步细化以提高准确性[38，22，47]。后一种方法训练特征嵌入，然后用于计算密集相似性得分。最近的工作进一步利用视频中的时间一致性来学习用于特征匹配的合适表示[6，15，51]。我们的工作集中在第一类方法，它直接学习回归稠密流场。最近，Xenet al. [41]使用经典的光度和前后一致性损失来训练RANSAC-Flow。它们通过用Ransac预对准图像来部分地减轻光度损失对大的表观变化的敏感性。几种方法[32，50，49]反而使用扭曲监督损失。通过在训练过程中使网络回归随机采样的偏差，获得了直接的监督信号，但代价是对实际数据的泛化能力较差语义对应：由于类内外观和形状变化，语义匹配提出了额外的挑战。在这种情况下，手工注释定义不清，含糊不清，因此开发无监督的目标至关重要。方法依赖于翘曲监督策略[36，37，3，40，50]，使用代理损失的成本卷[12，39，37，34]，从成本卷的前后一致性中识别正确的匹配[17]，或者联合学习与属性transfer [19]或segmentation [21]的语义对应。与我们的工作最相关的是[58，56，59]。Zhou等[58]通过利用多个CAD模型之间的地面实况匹配，学习使用3D引导的周期一致性来对齐多个图像。然而，对3D CAD模型的需要极大地限制了其在实践中的适用性。在FlowWeb [59]中，作者使用集合中图像之间流的循环一致性优化在线预先存在的成对对应关系。语义几何10348∈∈^→^··→→→◦◦^ ^您的位置：^∥· ∥^联系我们^·第与这些方法不同的是，我们需要对图像作为唯一的监督，并提出了一个一般的损失公式，学习回归密集的对应关系直接。3. 方法3.1. 问题表述和符号我们解决的问题，找到两个图像I Rh× w ×3和JRh× w ×3之间的像素对应。我们的目标是估计一个稠密的位移场FI→ J∈ Rh× w ×2，通常称为流，将I中的像素与J中的像素相关联。流场Fl-J表示图像I的坐标系中的逐像素2D运动矢量。是(a)向前backw.（二）(b)曲速监控（3）（c）经向一致性图3.替代无监督策略。网络使用光度损失[57，31，53，41]。在光度一致性假设下，其最小化图像I与根据以下条件扭曲的图像J之间的差异对于所估计的流场F^I-J，直接与映射MI→J∈Rh×w ×2相关，该映射编码J对应的绝对位置MI→J（x）∈R2。L照片 =ρ。I、ΦF^I→J （J）Σ。（一）对应于图像I中的像素位置x∈R2。因此，它与通过MI-J（x）=x+FI-J（x）的流动有关。是重要的是要注意流和映射表示是不对称的 M I→ J参数化来自图像I中的每个像素的映射，其不一定是双射的。稍微滥用一下符号，我们可以互换地看到FI→J和MI→J作为Rh×w ×2的元素或作为函数这里，ρ（，）是测量两个图像之间的差异的函数，例如L2[57]、SSIM [54]或普查[31]。前后一致性：通过约束反向流F JI以产生其前向对应物F I→ J的反向位移，我们实现了前向-后向一致性损失[31]。反应FI-J，MI-J：R2R2。后者通常通过前者的双线性插值获得，Lfb=¨F^I→J+ΦF^I→J（F^J→I）¨。（二）当重要时，解释将从上下文清楚我们定义函数T：R2Rd通过流F的扭曲Φ F（T）为ΦF（T）（x）= T（x + F（x））。这更紧凑地表示为ΦF（T）= TM F，其中M F是由F定义的映射并且表示函数复合。最后，设I：R2R2是恒等映射I（x）= x.这项工作的目标是学习一个神经网络f θ，参数θ，预测一个估计的流量FI→ J=f θ（I，J）将I与J联系起来。我们将始终使用帽子来表示估计或预测的数量。直男-学习fθ的前向方法是在真实训练图像对（I，J）的集合上最小化估计流FI→J与真实流FI→J之间的差异。然而，这样的监督训练需要大量的密集注释的数据，这对于真实场景是极其难以这激发了对用于学习密集对应的无监督替代方案3.2. 无监督数据丢失为了开发我们的方法，我们首先简要回顾了现有的无监督学习流的替代方案虽然在文献中没有普遍的一致意见，但我们在我们的背景下采用了无监督学习的实用如果一个学习公式不需要任何信息，我们称之为监视），而不是描绘相同场景或对象的图像对（I，J）具体而言，无监督方法不需要人类或其他匹配算法做出的任何注释光度损失：大多数无监督方法训练这里，表示合适的范数。虽然好动机-vated，（2）通过总是预测零流的平凡退化解FI-J=FJ-I=0来实施。因此，即使与光计量损失（1）相结合，它也会通过将预测偏置为零来降低性能的风险。上述两种损失最常与可见性掩模一起使用，所述可见性掩模从物镜滤除遮挡区域的影响Warp-supervision：另一种方法依赖于综合生成的训练对，其中通过构建获得地面实况流[50，36，32]。仅给定单个图像I，通过应用随机采样变换W来创建训练对（I，I’），例如一个单应性，到I为I′=ΦW（I）。这里，W是合成流场，其通过回归损失用作直接监督Lwarp=FI′→I−W。（三）虽然这会产生强大而直接的训练信号，但翘曲监督方法很难推广到真实图像对（I，J）。这可能导致在存在不可见的外观变化的情况下的过度平滑预测和不稳定性。3.3. 经向一致性图我们着手寻找一种新的无监督客观适用于具有大的外观和视点变化的场景，其中基于光度的损失挣扎。虽然在向前-向后一致性中避免了光度一致性假设（图1B）。3 a）和翘曲-监督（图3 b）目标，这些方法遭10349受10350◦1◦→ →→→→→ →→◦◦(a) I′J-双径（b）JI-双径（c）W-双径（d）圈一致性（e）成对一致性图4.一致性关系从我们的经线一致性图之间构造的图像（I，I′，J）。对于双路径约束a、b和c，红色和蓝色箭头分别指示用于（4）-（5）中的约束的左手侧和右手侧的路径分别在退化解和缺乏现实性方面存在严重缺陷为了解决这些问题，我们认为，sider所有可能的一致性关系，从上述两个目标涉及的三个图像。使用这种推广，我们不仅检索前向-后向和翘曲监督的特殊情况下，但也得到了一个家庭的新的一致性关系。从一个图像对（I，J），我们首先构造一个图像三元组（I，I′，J），通过用已知的流场W扭曲I来生成新的图像I′= ΦW（I）。我们现在考虑完全一致性图，如图2所示图3c，包含从图像三元组（I，I’，J）导出的所有流一致性约束。重要的是，我们利用了变换FI′→I=W是已知的这一事实。我们的目标是找到一致性关系，转化为合适的学习目标。特别地，我们希望改进真实图像对（I，J）之间的网络预测。因此，我们首先探索可能的一致性约束，可以从图中所示的图导出。3 C.为了简单起见，我们没有明确表示所述一致性关系的可见或有效区域它们应当被解释为针对所有像素位置X的等式约束，其中两侧表示有效的、未被遮挡的映射或流。成对约束：我们首先考虑从图像对恢复的一致性约束，如图1所示。4e.第4a条从对（I，J）和类似地（J，I′），我们恢复标准的前向-后向一致性约束I=MJ→ IM I→ J，从中我们导出（2）。此外，从对（ I′ ， I ），我们可以导出翘曲监督约束（ 3 ）FI′→I=W。双路径约束：新的一致性关系源于涉及三元组（I，I′，J）中所有三个图像的约束。这些出现在两个不同的类型，这里称为双路径和循环约束，分别。我们首先考虑前者，其形式为M1→2=M3→2M1→3。也就是说，我们通过直接从图像1到图像2或通过绕道图像3来获得相同的映射。因此，我们通过两条不同的路径计算相同的映射：12和132，从中我们得到约束的名称。图像1、2和3表示[1]虽然I=MI→I′◦MW和I=MW◦MI→I′也是可能的，但它们并没有提供比标准翘曲监督更好的优势：MI′→I=MW。三元组（I，I′，J）的任何枚举，其遵循由已知经线W指定的方向I ′I。因此，存在三种不同的双径约束，在第2节中详述。三点四分。周期限制：约束的最后类别通过从图1中的三个图像中的任一个开始来公式化。4d，并在全循环中组成映射。由于我们返回到起始图像，因此所得到的合成等于恒等映射。这用一般形式表示为 I=M3→1M2→3M1→2，其中我们在循环1中进行231 .一、再次约束方向我I中，我们获得三个不同的约束，如图1中所示。4便士与双路径约束相比，循环变量需要两个连续的扭曲操作，源于额外的映射组合。在实践中，每个因此，需要涉及较少翘曲操作的约束，这是双路径约束类的优点。在接下来的部分中，我们there-forth集中在后面的类，以找到一个合适的无监督目标密集对应估计。3.4. 双路径约束如前一节所述，存在三个不同的双径约束，它们保持已知扭曲W的方向。这些在映射方面被陈述为，MI′→J=MI→J◦MW（4a）MJ→I=MW◦MJ→I′（4b）MW=MJ→I′MI→J.（4c）从（4）中，我们可以推导出等效的流量约束为：FI′→J=W+ΦW（FI→J）（5a）FJ→I=FJ→I′+ΦFJ→I′（W）（5b）W=FI′→J+ΦFI′→J（FJ→I）。（5c）每个约束在图中可视化4分别为a、b和c乍一看，（5）中的任何一个约束都可以通过最小化左手侧和右手侧之间的误差来用作无监督损失。然而，通过分别10351^^^∈→∈^ ^您的位置：联系我们^·J→′I^→^^′I→J→^Fb用雅可比矩阵DW缩放∥ ∥ →1I→J2FI′→JJ→I22联系我们分析（4）-（5）中的每个约束，我们将发现它们具有根本不同的属性，这些属性影响它们作为无监督学习目标的适用性。I′J-双路径：约束（4a）、（5a）是从I′到J的两条可能路径导出的（图12）。（见第4a段）。虽然从（5a）不是显而易见的，但是可以从（4a）直接验证该约束具有退化平凡解。事实上，通过简单地将所有输入x映射到恒定的pixel位置c，对于任何W，（ 4a ）都是满意的R2 为MI′→J（ x ）=MI→J（x）=c. 在为了满足这个约束，网络可以学习对于任何输入图像对预测相同的流F = c − I。J1-双路径：从图4 b中的路径J1，我们实现约束（4b）、（5 b）。由此产生的无监督损失为3.5. 经纱稠度损失在本节中，我们开发了我们的翘曲一致性损失，这是一种用于密集对应估计的无监督学习目标，使用第二节中导出3.3和3.4。具体而言，在SEC的意见3.4，我们将损失基于W-双径约束。W-双径一致性项：为了基于W-双路径一致性约束（ 5c）制定目标，我们进一步整合可见性掩模 V[0，1]w×h。对于任何像素x，掩模V取值V（x）=1，其中（4c）、（5c）的两侧表示有效的、未被遮挡的映射，否则V（x）=0。（7）损失，配制为LW-vis=V^·。F^I′→J+ΦF^I′→J（F^J→I）−WΣ¨。（八）LJ→I=FJ→I′+ΦFJ→I′（W）−FJ→I。（六）不幸的是，该目标具有另一理论上的缺点。由于估计的流项FJ→I′和FJ→I之间的抵消效应，对象ive（6）对预测中的恒定偏差不敏感具体地说，∈因为我们不知道真正的V，我们用一个估计V代替它。虽然有不同的技术来估计可见性掩模[16，31，53]，但我们的策略基于[31]。具体来说，我们将可见性掩码计算为：Σ+Φ2如果一个小的恒定偏差bR2被添加到所有流预测中，在（6）中，可以表明损失（6）V^=1.F^I′→JF^I′→J2（F^J→I）− W.2<α2+（9）近似以¨Φ^（DWb）¨为界。这里偏移误差经纱. Wα。. F^′。 +。（F）。2个以上|W|2ΣΣ。由于平滑且可逆的翘曲W意味着通常小的雅可比DW，损耗的变化将是可忽略的。结果（6）对预测偏差的不敏感性进一步通过我们的实验经验地证实。我们在Supply中提供衍生产品A.1. 为了进一步理解和比较双径约束（5），考虑减小双径约束（5）的幅度的限制情况也是有用的。经线W→0。通过设置W=0，可以观察到这里，如果输入语句为true或false，则1[ ]分别取值1或0。标量α1和α2是控制掩模估计灵敏度的超参数。对于扭曲操作ΦF（F J→ I），我们通常发现不通过流FI’反向传播梯度是有益的。J用于包装。我们相信这个赌-ter鼓励网络直接调整流量F^J-I，.则（6）变为零，即没有学习信号保留。而不是F^I′→JW-双径：第三双径约束（4c）、（5c）是从路径I’导出的。I，其由W确定（图4c）。它导致W-双径一致性损失，LW=FI′→J+ΦFI′→J（FJ→I）−W。（七）我们首先分析极限情况W0，这导致标准的前向-后向一致性（2），因为I′=I。 W-双径因此是后者约束的直接推广重要的是，通过对非零经线W进行随机采样，避免了退化除了避免退化解之外，W-双径不经历预测偏差的消除，如在（6）中。此外，与翘曲监督（3）相比，它能够直接学习真实对（I，J）之间的流预测FJ→I。因此，在下一节中，我们基于W-双径一致性开发了最终的无监督目标。10352翘曲监督期限：除了我们的W-双路径外-jective（8），我们使用warp监督（3），在我们的一致性图中作为成对约束（图2）。第4e段）。从合成流W提供的强且直接的监督中可以看出，扭曲监督项提高了收敛速度，并有助于驱动网络向更高的准确度发展。此外，通过针对构造上平滑的流W的直接回归损失，它也充当平滑性约束。另一方面，通过W-双径损耗（8），网络学习真实图像（I，J）之间存在的真实运动模式和外观变化。因此，两个损失项是相互有利的。从实践的角度来看，扭曲监督损失可以以低的计算和存储器成本被集成，因为三个图像I、I’、J的主干特征提取可以在两个损失项之间共享。自适应损耗平衡：我们最终的无监督对象将损失（8）和（3）组合为L = LW-vis+ λLwarp。这提出了如何设置折衷λ的问题。在-10353∼^≈×∥∥^代替诉诸手动调整，我们通过自动平衡每个训练批次上的权重来消除该超参数，如λ=LW-vis/Lwarp。查询参考GLU-Net* WarpC-GLU-Net3.6. 采样扭曲W我们的偏差一致性目标的关键元素是采样偏差W。在训练过程中，我们随机抽样查询引用RANSAC-流量WarpC-RANSAC-Flow从分布W pW，我们需要设计。如第在图3.4中，当扭曲的幅度减小时，W-双径损耗（8）接近前向-后向一致性损耗（2）。也是独家抽样查询参考语义GLU网小经纱W0因此有使预测产生偏差的风险朝零的方向。另一方面，太大的翘曲将使得FI’→J的估计具有挑战性并且引入不必要的无效图像区域。作为一个粗略的指导，分布pW应该产生与实变换FJ→I类似大小的扭曲，从而对（8）中的所有三项产生类似的幸运的是，正如补充的SEC中所分析的。G，我们的方法对这些设置不敏感，只要它们在合理的范围内。我们通过随机采样单应性、薄板样条（TPS）和仿射TPS变换来构造W，遵循与使用翘曲监督的先前方法类似的过程[36]。（i）通过随机平移四个图像角点位置来构造单应性。通过高斯或均匀采样独立地选择平移的幅度，其中标准偏差或范围等于σH。（ii）对于TPS，我们随机抖动33个独立控制点的网格-翻译每一个点。我们使用相同的标准去-对于我们的单应性来说，σ H或范围σH。（iii）为了产生更大的尺度和旋转变化，我们还合成仿射和TPS。我们首先根据高斯或均匀采样通过选择缩放、旋转、平移和剪切参数对仿射变换进行采样。然后如上所述对TPS变换进行采样，并且最终合成流W是两个流的合成。为了使经线W更硬，我们可选地还将从⑴、（ii）和（iii）获得的流与随机采样的弹性变换组合。具体来说，我们生成一个弹性变形运动场，如[43]所述，并将其应用于随机选择的多个区域详细设置见补充章节。C、D和E。4. 实验我们评估了三个密集匹配网络和两个任务的无监督学习方法，即几何匹配的GLU-Net [50]和RANSAC-Flow [41]，以及语义匹配的SemanticGLU-Net [50]我们广泛地分析我们的方法，并将其与早期的未监督目标进行比较，在多个数据集上定义了一种新的最先进的方法。补充资料中提供了进一步的结果、分析、可视化和实施细节图5.根据基线网络和我们的方法进行扭曲查询。在中间一行中，我们将基于RANSAC-Flow的网络的预测掩码可视化为红色（不可匹配的区域）。4.1. 方法分析我们首先对我们的方法进行全面分析。我们采用GLU-Net [50]作为我们的基础架构。它是一个4级金字塔网络，在两个图像分辨率下运行，以估计稠密流场。GLU-Net的实验设置：我们通过用标准残差块替换密集解码器连接来稍微简化GLU-Net [ 50 ]架构，这大大减少了网络参数的数量，对性能的影响可以忽略不计。与[50]一样，特征提取网络被设置为VGG-16 [2]，具有ImageNet预训练的权重。我们从零开始分两个阶段训练架构的其余部分。我们首先使用我们的无监督目标训练GLU-Net，如第2节所述。3.5，但没有可见性掩模V。作为第二阶段，我们添加可见性掩模并采用具有弹性变换的更强扭曲W。对于这两个阶段，我们使用MegaDepth数据集的训练分割[23]，该数据集包括196个不同世界古迹的各种互联网图像。数据集和指标：我们在具有稀疏地面实况的标准数据集上进行评估，即RobotCar [29，20]和MegaDepth[23]。对于后者，我们使用[41]的测试分割，其中包括训练期间未看到的19个场景。Robotcar中的图像描绘室外道路场景，并且由于其许多无纹理区域而特别具有MegaDepth图像显示极端的视点和外观变化。与[41]一致，我们使用给定像素阈值T（PCK-T）处的正确关键点百分比作为评估度量（以%计）。我们还采用单应性数据集HPatches[1]的59个序列。我们用平均终点误差（AEPE）和PCK进行评价。扭曲一致性图损失：在选项卡中。1，我们凭经验比较从我们的翘曲一致性图中提取的约束（Sec.3.3）。所有网络仅在第一阶段在相同的合成变换W上进行训练。由于我们观察到它给出了一个总体的改进，因此我们停止了用于扭曲的流中的梯度（但没有10354^弯曲的流动）。I′J-双径（II）和JI-双径(III)损耗分别导致退化解和大的预测偏差，这解释了网络的非常差的性能。循环损耗（V）获得了好得多的结果，但没有达到W-双径约束（IV）的性能我们在这里只显示从I′开始的循环（V），因为它在所有循环损失中表现最好（见附录1）。A.3）。虽然扭曲监督损失（I）在所有数据集（用于HPatch的PCK-1和PCK-5）上导致更好的准确性，但是其对大的视点变化的鲁棒性显著低于W-双路径目标（IV），如PCK-10和AEPE中的结果所证明的。这两种损失具有互补的行为，并且将它们（VIII）组合导致准确性和鲁棒性两者的显著增益。相反，将翘曲监督损耗（I）与（VI）中的I′J-双径（II）或（VII）中的JI在（IX）中具有翘曲监督（I）的周期损失（V）也稍差。消融研究：在选项卡中。2我们分析了我们的方法的关键组成部分。我们首先展示了在翘曲操作中不反向传播梯度的重要性添加具有恒定权重λ=1的扭曲监督目标可以提高网络进一步使用自适应损耗平衡（Sec. 3.5）提供了MegaDepth的准确度（PCK-1）的显著改进在第二个训练阶段中包括我们的可见性掩模V大大提高了所有数据集的所有度量最后，进一步采样更难的转换结果更好的准确性，特别是PCK-1的MegaDepth。因此，我们在下面的实验中将其用作我们的标准设置，其中我们将其表示为WarpC。与替代损失的比较：最后，在Tab. 3.将我们提出的目标与其他损失进行比较和结合。在光流中流行的普查损失[31]（I）对外观变化不具有足够的不变性，因此导致几何匹配数据集的结果较差。SSIM 损失[54]（II）对MegaDepth中存在的大的外观变化更鲁棒。进一步将SSIM与前向-后向一致性损失（III）组合导致小的改进。与SSIM相比(III)在MegaDepth上，我们的WarpC方法（VI）以子像素精度略微降低为代价实现了此外，我们的方法通过在RobotCar和HPatches数据集上优于所有其他替代方案，展示了卓越的泛化能力为了完整性，我们还评估了我们的损失与光度SSIM损失的组合（VII）。这导致MegaDepth上的PCK-1得到改进，但与WarpC（VI）相比，其他指标有所下降。然而，添加WarpC显著改善了SSIM(II)对于所有阈值和数据集。此外，将翘曲监督（IV）与前向-后向我gaDepthRobotCar HPatchesPCK-1 PCK-5 PCK-10PCK-1 PCK-5 PCK-10AEPE PCK-5我翘曲监控（3）35.9857.2163.882.4333.6354.5028.5076.76III′J-双径（5a）0.000.050.210.000.000.13370.800.01IIIJI-双通道（5 b），（6）0.000.060.210.000.050.21162.500.04IVW-双路径（5c）、（7）29.5567.7074.422.2533.8855.3826.1370.51VI′-循环25.0464.4471.752.1932.7954.5527.5166.16VII′J-双路径+warp-sup。0.000.110.450.010.351.52255.400.02VIIJI-双路径+warp-sup。33.7261.1067.442.2634.0655.0728.9171.52VIII W-双路径+翘曲-向上。43.4769.9075.232.4935.2856.4522.8378.60IXI′-循环+翘曲-向上。 42.1168.8474.282.5235.7556.9624.1678.58表1.翘曲一致性图损失的分析（第3.3-3.4 ）。MegaDepth RobotCar HPatchesPCK-1 PCK-5 PCK-10PCK-1 PCK-5 PCK-10AEPE PCK-5W-双路径（7），翘曲渐变20.0658.5767.832.0431.7053.5729.3760.40W-双路径（7）29.5567.7074.422.2533.8855.3826.1370.51+ 翘曲监控（3）39.6670.3876.062.4534.9256.3722.5278.65+ 自适应损耗平衡43.4769.9075.232.4935.2856.4522.8378.60+可见性遮罩V^（8）+ 较硬经纱48.8650.6177.5878.6182.2782.942.512.5135.7835.9257.1957.4421.6321.0082.5583.24表2.通过递增添加每个组件进行消融研究我gaDepthRobotCar HPatchesPCK-1 PCK-5 PCK-10PCK-1 PCK-5 PCK-10AEPE PCK-5我人口普查（1）33.4958.4461.421.8528.2548.3759.8548.15IISSIM（1）51.9369.5871.582.1831.4851.6538.6262.61IIISSIM⑴ + f-b ⑵52.5970.7872.782.1231.8652.1335.7964.48IV曲速监控（三）38.5059.6066.212.3633.2854.4725.0478.60V曲速监控+ 中文（简体）45.6271.3675.922.5036.0457.1323.1079.64VIWarpC（8）+（3））50.6178.6182.942.5135.9257.4421.0083.24VIIWarpC+ SSIM54.9275.6578.042.4335.0156.4426.0174.64VIII 监督38.8372.4277.342.1532.5253.8837.9156.15IXWarpC+ Sup. 英尺56.6881.3384.762.4134.6755.8922.7878.19表3.学习目标的分析与比较（V）中的损失导致与（IV）相比的改进。然而，这明显比将翘曲监督与我们在（VI）中的W-双径损耗组合更差，这可以被视为前向-后向损耗的概括。最后，我们比较使用稀疏的地面实况超视觉提供的SfM重建的MegaDepth训练图像。有趣的是，与我们的无监督目标（VI）相比，仅使用稀疏注释（VIII）从头开始训练密集预测网络会导致较差的性能最后，我们用稀疏注释微调（IX）我们提出的网络（VI）。虽然这导致MegaDepth的适度增益，但它的代价是RobotCar和HPatches的泛化性能较差。4.2. 几何匹配在这里，我们用我们的无监督学习方法训练最近的GLU-Net [50]和RANSAC-Flow [41]架构，并将它们与最先进的密集几何匹配方法进行比较。GLU-Net的实验设置：我们遵循第节中解释的培训程序。4.1，并将结果模型称为WarpC-GLU-Net。原始GLU-Net [50]仅使用不同训练集上的warp-supervision（3为了公平比较，我们还报告了在MegaDepth上使用我们的warp分布进行训练时，我们改变的GLU-Net架构的结果。这对应于选项卡中的设置（IV）。3，我们这里称之为GLU-Net*。RANSAC-Flow的实验设置：我们添加-10355·^^[29，20]第23话PCK-1PCK-3PCK-5PCK-10PCK-1PCK-3PCK-5PCK-10SIFT-流量[25]8.7012.1913.30-1.128.1316.45-NCNet [39]1.9814.4732.80-0.817.1316.93-[32]第三十二话3.5520.3332.28-1.199.3520.17-GLU-Net [50，49]21.5852.1861.7869.812.3017.1533.8755.67[49]第四十九话37.2861.1868.0874.392.3117.6235.1857.26GLU-Net*38.5059.6060.3366.212.3617.1833.2854.47WarpC-GLU-Net50.6173.8078.6182.942.5118.5935.9257.44[41]第四十一话52.6083.4686.8088.802.0915.9431.6153.06WarpC-RANSAC-Flow53.7784.2388.1890.532.2917.2334.4256.12表4.最先进的几何匹配比较使用我们的无监督策略来训练RANSAC-Flow [41]。在原始工作[41]中，网络在MegaDepth [23]图像对上进行训练，这些图像对是粗略的表5.最先进的语义匹配比较具体来说，我们从SemanticGLU-Net权重开始使用特征匹配和Ransac进行预对准。培训分为三个阶段。首先，使用SSIM损失（1）来训练网络，在第二阶段中，SSIM损失（1）进一步与前向-后向一致性损失（2）相结合。在最后一个阶段，还通过用预测的掩码对先前的损失进行加权并包括掩码正则化项来训练匹配性掩码。对于我们的WarpC-RANSAC-Flow，我们也使用相同的训练对进行三步训练。至于WarpC-GLU-Net训练，我们在第二个训练阶段添加可见性掩码V。在第三阶段，我们通过简单地用预测掩码替换（8）中的V，并添加与RANSAC-Flow中相同的掩码正则化器来训练匹配性掩码。结果：在选项卡中。 4 ，我们报告 MegaDepth 和RobotCar的结果。请注意，我们只比较那些没有在测试集上进行微调的方法。我们的方法WarpC-GLU- Net在所有PCK阈值下都大幅优于原始GLU-Net和基线GLU- Net*。我们提出的无监督目标使网络能够处理真实图像对中存在的大型复杂3D运动，如图所示。5，顶部。与 RANSAC-Flow 相比，我们的无监督方法WarpC-RANSAC-Flow也实现了实质性的改进。重要的是，WarpC-RANSAC-Flow在RobotCar上显示出更好的泛化能力。基于光度的物镜（如此处的SSIM [54]）的泛化较差，进一步支持了我们在第12节中的发现。4.1.有趣的是，用我们的目标训练RANSAC-Flow的匹配性分支会导致更准确的掩码预测。这在图1中可视化。图5，中间，其中我们的方法WarpC-RANSAC-Flow有效地识别不可靠的匹配区域，例如天空（红色），而用SSIM损失训练的RANSAC-Flow不能将天空和场丢弃为不可靠的。4.3. 语义匹配最后，我们通过训练SemanticGLU-Net [50]来评估我们用于语义匹配任务的方法，SemanticGLU-Net是专门为语义图像设计的GLU-Net版本，其中包括多分辨率特征和NC-Net[39]。实验设置：在[37，3]之后，我们只对语义对应数据的预训练网络进行微调。由作者提供，其在不使用来自流注释的任何对应的情况下用翘曲监督来训练。我们在PF-PASCAL训练集[9]上微调这个网络，该训练集由20个对象类别组成，使用我们的无监督损失（第二节）。3.5）。数据集和指标：我们首先在PF-Pascal [ 9 ]的测试集上进行评估。与[10]一致，我们报告具有等于αmax（hq，w q）的像素阈值的PCK，其中h q和w q是查询图像的维度，并且α=（0. 05，0。①的人。为了证明泛化能力，我们还在TSS[46]上验证了我们的训练模型，该模型为每对中的前景对象提供了密集的流场注释我们报告α = 0时的PCK。05.我们还提供了PF-Willow [8]和SPair-71 K [33]的结果。K.3.结果：结果报告在表1中。五、我们的方法WarpC-SemanticGLU-Net设置一个新的国家的最先进的TSS获得显着的改善相比，以前的作品。在PF-Pascal数据集上，我们的方法在小阈

下载后可阅读完整内容，剩余1页未读，立即下载