没有合适的资源?快使用搜索试试~ 我知道了~
176630具有共面感知的无监督单应性估计0洪明波 1 , 2 * 陆宇航 1 , 3 � 叶年锦 1 林春雨 4 赵启军 2 † 刘帅成 5 , 1 †01 Megvii Technology 2 四川大学 3 南卡罗来纳大学 4 北京交通大学 5 电子科技大学0摘要0从图像对中估计单应性是图像对齐中的一个基本问题。无监督学习方法由于其有希望的性能和无标签训练而受到越来越多的关注。然而,现有方法并没有明确考虑到由平面引起的视差问题,这将导致预测的单应性在多个平面上受到影响。在这项工作中,我们提出了一种新的方法HomoGAN,以引导无监督单应性估计专注于主导平面。首先,设计了一个多尺度变换网络,以粗到精的方式从输入图像的特征金字塔中预测单应性。此外,我们提出了一个无监督的GAN,通过使用生成器预测对齐区域的掩码,然后使用判别器检查两个掩码特征图是否由单一的单应性引起,从而对预测的单应性施加共面性约束。为了验证HomoGAN及其组件的有效性,我们在一个大规模数据集上进行了大量实验,结果显示我们的匹配误差比之前的SOTA方法低22%。代码可在https://github.com/megvii-research/HomoGAN找到。01. 引言0单应性估计是计算机视觉中的一个基本问题,在诸多应用中起着重要作用,如图像/视频拼接[14,37],相机标定[40],HDR成像[12]和SLAM[24,41]。它被定义为在3D空间中的同一平面上的两个视图之间的投影变换的估计[28]。传统方法通常通过特征提取[2, 22,26],对应点匹配和求解直接线性变换[15]以及异常值剔除[10]的流程来解决这个问题。但是在处理无纹理或模糊图像时,这些方法往往缺乏有区分性的关键点。最近,无监督学习方法取得了很大的流行度0* 同等贡献. † 通讯作者.0(a) 输入图像对 (b) 预测的平面掩码0(c) 无掩码结果 (误差=0.577) (d) 有掩码结果 (误差=0.353)0图1.对于具有多平面场景的图像进行单应性预测将导致虚拟视差。我们提出了一种无监督的单应性估计方法,通过利用共面性约束来使模型专注于主导平面,从而显著减小匹配误差。(c)和(d)是通过将变形的源图像叠加在目标图像上生成的。0在单应性估计中,这些方法直接使用神经网络从源图像和目标图像对中预测单应性,其中一个重要的优化目标是将变形的源图像与目标图像的距离最小化。它们不依赖于关键点,并且在无纹理场景中可能比传统方法表现更好。然而,当场景中存在多个平面时,优化整个图像将导致结果受损,即预测的单应性在所有平面上平均分布,并且在主导平面上不准确,如图1所示。请注意,感兴趣的平面不仅限于刚性平面,如地面、建筑物和墙壁,还包括可以由单应性近似引起的平面,如远处的山脉。一些现有方法提出通过预测掩码[18,39]来从输入图像中去除大的前景或移动物体。但是它们的掩码是作为单应性估计的副产品隐式优化的,并且缺乏明确的指导,因此无法解决平面引起的视差问题。在这项工作中,我们引入了一种无监督方法,使单应性估计器能够专注于主导平面。176640平面而不是整个图像。假设场景中有多个平面,除非两个图像由共轭旋转相关,否则我们不能用一个单应性将整个图像对齐[15]。相反,我们可以通过预测的单应性获得一个掩码,指示每个像素是否对齐良好。如果单应性是由主平面引起的,那么对齐区域应该在同一个平面上并占据一个显著大的区域。基于这个知识,我们的主要思想是在掩码的对齐区域上施加额外的共面性约束和面积惩罚。为了实现这个目标,我们提出了一种新的方法Homo-GAN,具有两个独特的设计。首先,为了引导模型关注主平面,我们引入了一个无监督的GAN来施加共面性约束,在这个GAN中,生成器从一对特征图中预测对齐区域的软掩码,而鉴别器则检查掩码特征是否共面。生成的掩码预计应该突出显示主平面,从而可以引导单应性估计器的训练。其次,设计了一个多尺度变换器网络,以粗到精的方式从一对特征金字塔中预测单应性。与基于CNN的替代方法相比,变换器的查询-键相关性对于单应性估计的局部对应关系更加自然。总之,本文的贡献如下:0•我们提出了一个共面性感知的GAN来解决单应性估计中由平面引起的视差问题,而无需地面真实数据。0•我们设计了一个粗到精的单应性估计变换器,其中包含自注意力编码器用于捕捉局部对应关系,以及类注意力解码0•我们的方法在无监督单应性估计上达到了最先进的性能,并且在匹配误差上超过了以前的方法22%。02. 相关工作0传统单应性估计传统的单应性估计流程通常包括特征提取[2,22,26],特征匹配和直接线性变换求解[15]以及外点拒绝[10]等步骤。经典的特征提取方法包括SIFT [22],SURF [2,3],ORB [26],LPM [23],GMS [4],BEBLID[29]等。最近,提出了一些基于学习的特征,如LIFT[36],SuperPoint [9],SOSNet [32]和OAN[38]。还有用于特征匹配的深度学习方法,包括SuperGlue[27],LoFTR[30]等。最后,应该拒绝异常值以进行鲁棒估计,其中RANSAC [10],MAGSAC [1]和IRLS[16]被广泛使用。深度单应性估计深度单应性估计可以分为监督和无监督两类0方法。监督方法[8, 18,28]通过具有地面真实单应性的图像对进行学习,但在野外自然图像中很难获得这些图像对。如果从合成图像中学习,缺乏真实变换将降低它们的泛化能力。无监督方法[25, 35,39]通常通过最小化源图像由预测单应性变换得到的距离与目标图像之间的距离来优化模型。[39]和[18]将掩码预测引入到单应性估计中,但他们的目标是去除大的前景或移动物体,而我们的目标是保留具有明确约束的单个主平面。最近,邵等人[28]提出了一种用于跨分辨率单应性估计的监督变换器。然而,由于目标任务不同,我们的架构设计也不同,他们提出了一个具有局部注意力的变换器,而我们的变换器包含一个自注意力编码器和一个类注意力解码器。0主平面检测在图像中检测主平面的方法已经在过去的文献中进行了研究。例如,Conrad等人[6]提出了一种基于单应性的方法来检测机器人导航的地面平面。在[7]中,提出了一种基于学习的方法来识别室内场景中的主平面。最近,[19,20, 31,34]提出了使用各种神经网络从单个图像中检测和恢复3D平面的方法。然而,这些方法对于我们的问题不适用,因为它们要么只适用于刚性物理平面,要么需要大量的地面真实掩码进行训练。相反,我们的平面检测GAN可以帮助单应性估计器集中在主平面上,而无需直接监督。03. 方法03.1. 概述0在本节中,我们介绍了一种新的方法HomoGAN,用于无监督的小基线单应性估计。给定一对大小为H×W的灰度图像块Ia和Ib,我们预测从Ia到Ib的单应性变换,表示为Hab。根据[35],我们将单应性矩阵分解为8个正交流基,并预测8个基的权重,而不是回归单应性矩阵或角点偏移[8,25,39]。我们的方法的流程如图2所示。我们首先使用特征投影器F(∙)将输入图像Ia和Ib转换为特征图Fa和Fb,其中F是一个轻量级的CNN模块,具有三个基本的卷积块。该模块不改变输入维度,即F�∈R1×H×W。其目的是将图像投影到一个对亮度变化鲁棒的浅层特征空间[39],以便后续步骤可以专注于几何变换。随后,我们使用多尺度CNN编码器为粗到细的单应性估计准备特征金字塔。编码器由k个级联的卷积块组成,其中每个块将输入按比例缩小2倍,并输出一个级别的特征金字塔。我们将特征金字塔表示为Pa和Pb,将P�的第i级表示为P(i)�,其特征大小为HGDMC...CC...At the core of our method are the newly-proposed Ho-mography Estimation Transformer and Coplanarity-Aware GAN. The former is a transformer network thatis specifically designed for homography estimation, whichconsumes the extracted feature pyramids Pa and Pb, andpredicts the homography from coarse to fine. The latteris an plug-in module that can be applied to any homogra-phy estimation networks to impose coplanarity constraint.It could guide the model to focus on the dominant plane inIa and Ib by predicting soft plane masks via unsupervisedadversarial learning. Finally, the entire model is optimizedby minimizing a hybrid unsupervised objective function.3.2. Homography Estimation Transformer176650多尺度CNN编码器 单应性估计变换器0特征投影器0共面感知GAN0G D 真实0变形0平面软掩码假0真实0变形0单应性估计变换器0变形0变形0自注意力编码器0类别注意力解码器0MLP头0自注意力权重令牌特征0自注意力编码器0类别注意力解码器0MLP头0自注意力编码器0类别注意力解码器0MLP头0变形M 掩码C 连接0掩码0掩码0图2.HomoGAN的整体流程。我们的网络架构包括四个模块:1)特征投影器。一个将输入图像投影到浅层特征空间的CNN模块。2)多尺度CNN编码器。为每个图像生成特征金字塔的CNN模块。3)单应性估计变换器。一个具有级联编码器-解码器块的变换器,从粗到细预测单应性。4)共面感知GAN。通过预测主平面的软掩码,对模型施加共面性约束的对抗网络。红色箭头表示推理流程。0我们方法的核心是新提出的单应性估计变换器和共面感知GAN。前者是专门为单应性估计设计的变换器网络,它使用提取的特征金字塔Pa和Pb,并从粗到细预测单应性。后者是一个插件模块,可以应用于任何单应性估计网络,以施加共面性约束。它可以通过无监督对抗学习预测软平面掩码,引导模型专注于Ia和Ib中的主平面。最后,整个模型通过最小化混合无监督目标函数进行优化。0给定一对特征金字塔Pa和Pb,我们提出了一个变换器网络来估计潜在的单应性变换。变换器的设计采用了粗到细的策略。我们从顶层特征开始0P(1)�,并逐渐估计更细粒度的尺度上的单应性,直到P(k)�,如图2所示。单应性的细化通过具有独立权重的k个级联变换器模块T1,T2,∙∙∙,Tk来实现。在第i个变换器模块中,我们首先使用先前的H(i−1)ab对特征图P(i)a进行变形,然后Ti接受P(i)b和扭曲的P(i)a作为输入,并预测它们的单应性变换。最后,Hab通过将T i的输出与当前尺度的先前结果以当前尺度的权重累积来更新。这个过程可以表示为:0H(i)ab = H(i−1)ab + 2k−i+1∙Ti(W(H(i−1)ab, P(i)a),0其中i∈[1,k],W是变形操作,H(0)ab是一个相同的变换。我们将Hab和Hba相加,因为它们是流基的形式。类似地,我们可以通过交换Pa和Pb从Ib到Ia计算单应性Hba。在每个变换器模块中,我们使用编码器-解码器架构来计算特定尺度级别上的单应性,它由自注意力编码器、类注意力解码器和MLP头组成。自注意力编码器的作用是将特征对应关系编码为中间嵌入。176660拼接扭曲的P(i)a和P(i)b以获得一个新的大小为R2Ci×(HiWi)的特征。我们使用Swin Transformer[21]作为编码器的骨干,因为它计算基于窗口的自注意力而不是全局注意力,这在计算上是高效的,并且适合捕捉局部特征对应关系。与其原始设计相反,我们将其用于全局到局部的细化,而不是局部到全局的抽象。在第i个模块中,我们使用(i−1)个补丁合并层对输入特征进行下采样,以保持所有模块的输出自注意力特征的维度为2C1×(H1W1),这将有助于后续的解码。我们还将补丁合并中的像素洗牌操作替换为卷积块,以增强局部信息交换。0类注意力解码器在解码阶段,我们从通用自注意力特征中总结任务指定的信息。受中间类令牌[33]的启发,我们将一个权重令牌引入模型,它是一个可学习的大小为2Ci×8的张量。它与自注意力特征连接在一起,构成一个大小为2C1×(H1W1+8)的特征,然后输入到类注意力子块中计算权重令牌与自注意力特征之间的注意力,使得权重令牌收集所有补丁的信息来预测单应性流的权重。由于所有自注意力特征具有相同的大小,我们在整个网络中保持一个单一的权重令牌,但不需要在每个模块中重新初始化它。最后,我们获取处理后的权重令牌,并使用具有两个线性层的MLP头将其投影到长度为8的权重向量,这是第i个模块Ti(∙)的结果,并用于更新方程(1)中的单应性。03.3. 共面感知GAN0如果没有任何约束,上述的转换器在计算Hab和Hba时会考虑Ia和Ib中的所有区域,这在存在多个平面时可能不是估计单应性的期望结果。为了让转换器专注于主导平面,我们提出了一个无监督的GAN来通过利用共面性约束来检测主导平面,如图2所示。首先,我们将预测的Hab和Hba分别应用于Fa和Fb,并获得扭曲的特征图Fa'和Fb'。通过将Fa与Fb'或Fb与Fa'进行对比,我们可以通过预测的单应性检查区域是否对齐良好。在理想情况下,对齐的区域位于场景的主导平面上。为了实现这一点,我们使用一个生成器网络G来检查一对特征图之间的空间一致性。它生成一个软掩码,突出显示对齐良好的区域。G的架构由三个卷积层组成,插入了一个ASPP[5]模块。我们使用G来获取两个掩码Ma和Mb,其中Ma =G(Fa,Fb')和Mb = G(Fb,Fa')。0对于一般位置的平面,单应性是由平面唯一确定的,反之亦然[15]。因此,如果M a 和M b的前景在主导平面上,诱导的单应性是唯一的。受此启发,我们设计了一个鉴别器网络D,用于判断输入对中的变换是否是单一的单应性。我们将(Fa, F'a)和(Fb,F'b)作为真实对,其中唯一的单应性分别是Hab和Hba。掩码后的Fa和Fb,即(MaFa,MbFb),被视为伪造对。鉴别器D由7个卷积层和一个全局平均池化层构成。通过对抗训练,我们隐式地将共面性约束加在Ma和Mb上。根据WassersteinGAN-GP[13],我们利用Wasserstein距离来衡量真实对和伪造对之间的差异,以稳定训练。我们还采用了梯度反转层[11]进行一阶段的对抗训练,对抗损失表示为:0L adv = D(MaFa, MbFb) - (D(Fa, F'a) + D(Fb, F'b)), (2)0其中在反向传播中,D(MaFa,MbFb)的梯度符号被反转。为了稳定训练,对D应用梯度惩罚项[13]以强制Lipschitz约束:0L gp = E((∥▽D∥2 - 1)2), (3)0其中E是均值函数,▽是梯度算子。此外,我们计算Ma、Mb与常数掩码ˆM之间的交叉熵损失作为辅助损失:0L aux = CE(Ma, ˆM) + CE(Mb, ˆM), (4)0这鼓励Ma和Mb具有更大的前景,同时保持共面性。最后,平面检测GAN的损失函数为:0L plane = α1Ladv + α2Lgp + α3Laux, (5)0其中α1、α2和α3是每个项的权重,分别设置为0.01、10和0.1。03.4. 网络训练0除了平面检测损失Lplane之外,我们还最小化其他两个无监督损失用于网络训练。第一个是对齐损失Lalign,用于比较通过预测的单应性进行变形前后的特征图。我们首先计算像素级的三元组损失[39],得到距离图Gab:0G ab = max(||F'a - Fb||1 - ||Fa - Fb||1 + 1, 0), (6)0类似地,可以通过将Fa - F'b替换为Fb -Fa来获得距离图Gba。我们进一步将预测的掩码应用于Gab和Gba以强调主导平面,并通过以下方式计算Lalign:0500010000150000.250.500.7505000100001500064babbab1(8)Ltotal = Lalign + LF IL + Lplane.(9)176670(a) 平均掩码强度0i M' a M b G ab �0图3. 训练中的平均掩码强度和对抗损失。0i M a M' b G ba �0L align = �0其中码,二个损失影器0i M' a M b + �0∥F(IF(0i M' a M b, (7)0Ltotal = Lalign + LFIL + Lplane. (9)0L F IL = ∥W(Hab, F(Ia)) - F(W(Hab, Ia))∥1 +0它强制F在保持几何变换的同时过滤亮度变化。最后,整体损失函数表示为:0为了达到最佳性能,我们采用了两阶段的网络训练策略。我们首先排除GAN部分,只训练剩余的部分,因为我们经验性地发现早期异常的单应性预测可能导致不稳定的对抗训练。在这个阶段,方程(7)中的掩码和方程(9)中的Lplane被临时禁用。当第一阶段收敛时,我们将共面感知的GAN添加回模型,并启用所有损失项开始第二阶段的训练。0讨论在GAN中构建真实对时,我们不将预测的掩码应用于它们,以避免退化解决方案,即G只生成全零掩码。有人可能会质疑真实对和伪造对之间的外观差异会分散D对共面性的判别。然而,GAN并不是独立训练的,而是作为变换器的正则化。如果D仅通过外观差异进行判别,G将输出全一掩码,对主要目标L align没有任何影响。为了达到全局最优,优化器将引导D进行几何差异的判别,以便G可以输出共面区域的掩码。为了证明这一点,我们在图3中可视化了训练中的平均掩码强度和对抗损失。我们可以看到,掩码强度首先增加到约1,然后下降到0.2-0.4,这意味着G首先偏向于全一掩码,但然后被纠正为输出平面掩码。同时,对抗损失持续下降,表明我们的训练策略的有效性。04. 实验0数据集根据[35]和[39],我们在一个自然图像数据集[39]上评估我们的方法,该数据集包含75.8k个训练对和4.2k个测试对,图像大小为320×640。在两个子集中,图像对大致均匀分为五种类型的场景,分别是常规(RE),低纹理(LT),低光(LL),小前景(SF)和大前景(LF),其中后四种场景对于单应性估计是具有挑战性的。对于评估,每个测试图像提供了6对地面真实匹配点。我们采用从预测点到目标图像上的地面真实点的平均L2距离作为评估指标。0实现细节在训练中,我们随机裁剪原始图像中心附近大小为384×512的补丁作为输入,以避免变形后出现超出边界的坐标。尺度级别的数量设置为k=3。我们使用PyTorch实现网络,并在四个NVIDIA RTX 2080TiGPU上进行训练。我们采用Adam优化器[17]进行模型优化,初始学习率为1×10-4,并且每个时期衰减0.8倍。批量大小为8。两个训练阶段分别进行10和2个时期。在第二阶段,我们将学习率重新初始化为1×10-5。04.1. 与现有方法的比较0比较方法我们与三类现有的单应性估计方法进行比较:1)传统的基于特征的方法,包括SIFT [22],ORB [26]和BEBLID[29];2)基于学习的特征方法,包括LIFT [36],SOSNet[32]和SuperPoint[9];3)基于深度学习的方法,包括有监督 [8],无监督[25],CA-无监督 [39]和BasesHomo[35]。对于所有传统和基于学习的特征方法,我们分别使用RANSAC [10]和MAGSAC[1]两种不同的异常值拒绝算法进行测试。此外,SuperPoint还使用两种自定义的拒绝算法SuperGlue-RANSAC(SG-RAN)和SuperGlue-MAGSAC(SG-MAG)进行测试。0定性比较我们首先将HomoGAN的定性结果与其他方法进行比较。在图4中,我们展示了我们的方法和四种最相关的比较方法(即基于深度学习的方法)在三个具有挑战性场景的图像上的结果。图4(a)具有挑战性,因为感兴趣平面占据了图像的相对较小部分,并且包含移动和静止的车辆。在图4(b)中,大喷泉导致前景到背景的深度差异显著。图4(c)是一个低光和远处建筑的场景。如红色和黄色框所示,现有方法不能像我们的方法那样对齐这些图像。(a)(b)(c)2)I3×37.75(+2572.41%)7.65(+1316.67%)7.21(+1009.23%)7.53(+1134.43%)3.39(+726.83%)6.70(+1240.00%)176680有监督的[8] 无监督的[25] CA-Unsupervised[40] BasesHomo[36] HomoGAN (我们的方法)0图4. 我们的方法和其他四种基于深度学习的方法的定性结果。通过将变形的源图像叠加在目标图像上生成图像。错误区域用红色和黄色框标出。最好放大查看。01) RE LT LL SF LF 平均03) SIFT [22] + RANSAC [10] 0.30(+3.45%) 1.34(+148.15%) 4.03(+520.00%) 0.81(+32.79%) 0.57(+39.02%) 1.41(+182.00%) 4) SIFT [22] + MAGSAC [1]0.31(+6.90%) 1.72(+218.52%) 3.39(+421.54%) 0.80(+31.15%) 0.47(+14.63%) 1.34(+168.00%) 5) ORB [26] + RANSAC [10] 0.85(+193.10%) 2.59(+379.63%)1.67(+156.92%) 1.10(+80.33%) 1.24(+202.44%) 1.48(+196.00%) 6) ORB [26] + MAGSAC [1] 0.97(+234.48%) 3.34(+518.52%) 1.58(+143.08%) 1.15(+88.52%)1.4(+241.46%) 1.69(+238.00%) 7) BEBLID [29] + RANSAC [10] 0.78(+168.97%) 2.83(+424.07%) 1.38(+112.31%) 1.04(+70.49%) 1.33(+224.39%) 1.47(+194.00%)8) BEBLID [29] + MAGSAC [1] 0.94(+224.14%) 3.73(+590.74%) 3.49(+436.92%) 1.17(+91.80%) 1.25(+204.88%) 2.12(+324.00%)09) LIFT [36] + RANSAC [10] 0.40(+37.93%) 2.01(+272.22%) 1.14(+75.38%) 0.77(+26.23%) 0.68(+65.85%) 1.00(+100.00%) 10) LIFT [36] + MAGSAC [1]0.35(+20.69%) 1.85(+242.59%) 0.96(+47.69%) 0.72(+18.03%) 0.50(+21.95%) 0.88(+76.00%) 11) SOSNet [32] + RANSAC [10] 0.29(+0.00%) 2.42(+348.15%)3.71(+470.77%) 0.77(+26.23%) 0.59(+43.90%) 1.56(+212.00%) 12) SOSNet [32] + MAGSAC [1] 0.30(+3.45%) 3.00(+455.56%) 3.66(+463.08%) 0.87(+42.62%)0.49(+19.51%) 1.67(+234.00%) 13) SuperPoint [9] + RANSAC [10] 0.43(+48.28%) 0.85(+57.41%) 0.77(+18.46%) 0.84(+37.70%) 0.8(+95.12%) 0.74(+48.00%) 14)SuperPoint [9] + MAGSAC [1] 0.45(+55.17%) 0.90(+66.67%) 0.77(+18.46%) 0.76(+24.59%) 0.67(+63.41%) 0.71(+42.00%) 15) SuperPoint [9]+SG-RAN [27] [10]0.41(+41.38%) 0.87(+61.11%) 0.72(+10.77%) 0.80(+31.15%) 0.75(+82.93%) 0.71(+42.00%) 16) SuperPoint [9] + SG-MAG [27] [1] 0.36(+24.14%) 0.79(+46.30%)0.70(+7.69%) 0.71(+16.39%) 0.70(+70.73%) 0.63(+26.00%)017) 有监督的[8] 1.51(+420.69%) 4.48(+729.63%) 2.76(+324.62%) 2.62(+329.51%) 3.00(+631.71%) 2.87(+474.00%) 18) 无监督的[25] 0.79(+172.41%)2.45(+353.70%) 1.48(+127.69%) 1.11(+81.97%) 1.10(+168.29%) 1.39(+178.00%) 19) CA-Unsupervised[39] 0.73(+151.72%) 1.01(+87.04%) 1.03(+58.46%)0.92(+50.82%) 0.70(+70.73%) 0.88(+76.00%) 20) BasesHomo[35] 0.29(+0.00%) 0.54(+0.00%) 0.65(+0.00%) 0.61(+0.00%) 0.41(+0.00%) 0.50(+0.00%)021) HomoGAN (我们的方法) 0.22(-24.14%) 0.41(-24.07%) 0.57(-12.31%) 0.44(-27.87%) 0.31(-24.39%) 0.39(-22.00%)0表1. 我们的方法和所有比较方法的点匹配误差。红色表示最佳结果,蓝色表示次佳结果。括号中的百分比表示与次佳结果相比的相对变化。0有监督的[8]方法失败是因为它是在没有真实深度差异和动态内容的合成对上进行训练的,而无监督的[8]方法是基于整个图像预测单应性,因此在主平面上的准确性较差。CA-Unsupervised[39]和BasesHomo[35]在其方法中隐式抑制了不需要的区域,但由于缺乏明确的指导,它们的性能仍然有限。相比之下,我们的方法可以自动聚焦在主平面上。在图5中,我们还与基于特征的方法进行了比较。这些特征方法应该通过离群值拒绝算法对平面诱导的视差具有鲁棒性。然而,在具有模糊边界或低纹理的场景中,如图5的第1列和第3列中的山和海,它们仍然很困难。在不依赖于关键点的情况下,我们的方法在这些场景中仍然很稳健。0定量比较我们在表1中报告了所有比较方法的定量结果,其中第3-8行是传统的基于特征的方法,第9-16行是学习的基于特征的方法,第17-20行是基于深度学习的方法。第1行中的I3×3表示单位变换,其误差反映了点对之间的原始距离。从表1中可以看出,我们的方法在数据集的所有类别上都实现了最先进的性能,并且比最好的现有方法BasesHomo提高了22%,匹配误差从0.50降低到0.39。在常规(RE)场景中,基于特征的方法通常表现良好,因为这些图像具有高信噪比并提供足够的特征。但是与SOSNet+RANSAC相比,我们的模型在该类别上的误差仍然降低了24.14%。在低光(LL)和低纹理(LT)176690SIFT+MAGSACSuperPoint+SG-MAGSOSNet+RANSACLIFT+MAGSACBEBLID+RANSACORB+RANSAC我们的方法0图5.基于特征的方法和我们的方法的定性结果。对于每种基于特征的方法,我们展示了其与表现最佳的异常值拒绝算法的结果。0在大多数场景中,大多数传统的基于特征的方法无法提取或匹配足够的关键点,导致性能不佳,而我们的方法仍然在所有方法中具有最低的误差。这表明了所提出的多尺度变换器的强大特征提取能力。小前景(SF)和大前景(LF)场景通常伴随着动态内容和多个平面,这对单应性估计造成了问题。与其他具有异常值拒绝机制的深度学习方法相比,即CA-Unsupervised中隐式生成的掩码[39]和BasesHomo中的低秩表示[35],我们的方法在LF和SF中的误差分别减少了至少24.39%和27.87%,显示了我们的共面感知GAN在异常值拒绝方面的优越性。0鲁棒性评估为了进一步研究所有方法的鲁棒性,我们计算了与距离阈值相关的内点预测比例。具体而言,对于每种方法,我们绘制一条曲线,其中X轴是距离阈值,Y轴是预测误差小于阈值的点的比例,这些点被称为内点。这条曲线可以反映方法在单应性估计上的鲁棒性。如图6所示,我们的方法在大多数阈值上明显优于其他方法。0图6.在不同阈值下各种方法的内点比例。内点表示误差在阈值以下的点。0级别1 级别2 级别30图7. 多尺度变换器在每个级别上的结果。它显示了从粗到细如何预测单应性变换。0大多数阈值。在阈值为1时,我们的内点比例比第二名高出7.5%(93.9%对86.4%)。04.2. 消融实验0单应性估计变换器为了展示所提出的变换器网络在单应性估计中的能力,我们将其改为Base- sHomo[35]的骨干,该骨干是一个具有自定义低秩表示块的ResNet-34架构,并在表1中取得了第二好的结果。通过将表2中的第2行与第8行进行比较,我们可以看到我们的方法的平均误差从0.39增加到0.46。这个结果证明了所提出的变换器在单应性估计中优于CNN的优越性。同时,我们的变换器的参数数量(2.045M)远低于BasesHomo骨干(21.296M)。从另一个角度来看,这个实验还证明了我们的共面感知GAN适用于不同的单应性估计器,因为具有我们的GAN的BasesHomo骨干的平均误差为0.46,低于其原始误差0.50。0权重令牌在我们的变压器的类注意解码器中,我们使用一个权重令牌来总结自注意特征中的权重相关信息,以进行单应性估计。在这个实验中,我们从网络中移除这个令牌,并直接将自注意特征输入到MLP中预测单应性。结果在表2的第3行报告。将第3行与第8行进行比较,我们可以看到误差从0.39增加到0.46,增加了17.95%。这表明,在解码阶段使用独立的可学习令牌来总结全局信息对于单应性估计是有益的。1767001)修改RE LT LL SF LF Avg02)改为BasesHomo骨干0.29(+31.82%)0.50(+21.95%)0.63(+10.53%)0.54(+22.73%)0.36(+16.13%)0.46(+17.95%)3)无权重令牌0.23(+4.55%)0.47(+14.63%)0.66(+15.79%)0.56(+27.27%)0.37(+19.35%)0.46(+17.95%)4)无多尺度0.43(+95.45%)1.01(+146.34%)1.25(+119.30%)1.13(+156.82%)0.61(+96.77%)0.89(+128.21%)5)无平面掩码0.26(+18.18%)0.59(+43.90%)0.59(+3.51%)0.63(+43.18%)0.40(+29.03%)0.49(+25.64%)6)无共面性约束0.24(+9.09%)0.50(+21.95%)0.64(+12.28%)0.59(+34.09%)0.36(+16.13%)0.44(+12.82%)7)改为CA掩码0.25(+13.64%)0.66(+60.98%)0.57(+0.00%)0.54(+22.73%)0.38(+22.58%)0.48(+23.08%)08)我们的方法0.22(+0.00%)0.41(+0.00%)0.57(+0.00%)0.44(+0.00%)0.31(+0.00%)0.39(+0.00%)0表2.消融研究结果。每一行都是我们的方法在特定修改下的结果。详细信息请参阅正文。0输入图像CA掩码我们的掩码0图8. CA-Unsupervised[39]和我们的方法预测的掩码。通过共面性约束,我们的掩码能够聚焦于主导平面。最好以彩色查看。0多尺度架构在变压器网络中,我们使用三个连续的变压器模块从粗到细预测单应性。在这个实验中,我们改为只使用一个模块直接预测最终的单应性,以验证多尺度架构的有效性。从表2的第4行可以看出,当只使用一个变压器模块时,平均误差增加到0.89,这显著高于使用三个模块时的误差0.39。这个结果表明,在粗到细的过程中,将高层的丰富语义特征与低层的高分辨率特征进行桥接对于单应性估计是有益的。此外,我们在图7中可视化了每个变压器模块之后的对齐结果,它展示了不同层次的预测单应性如何逐渐对齐两个图像。0平面掩码为了验证生成的平面掩码的有用性,我们从网络中移除所有与掩码相关的操作,并检查性能,这实际上是训练的第一阶段的结果。仅通过第一阶段的训练,我们的网络的平均误差为0.49,如表2的第5行所报告,这已经优于先前的SOTA,但仍然可以进一步减小。在将与掩码相关的操作重新添加到网络并进行2个额外的时期的微调后,我们进一步将平均误差减小到0.39。这清楚地显示了我们平面掩码的有用性。0共面性约束[39]引入了无监督单应性估计的掩码预测。但在这项工作中,我们提出对掩码施加共面性约束,使其聚焦于主导平面。0通过共面感知的GAN实现的平面。在这个实验中,我们尝试使用不同的方法生成掩码,以验证共面性约束的必要性。首先,我们从网络训练中移除鉴别器和对抗性损失,这样生成的掩码就没有共面性约束。其次,我们将掩码生成方法改为与[39]相同,其中掩码是从特征投影器的输出生成的,然后应用于提取的特征和三元组损失。它也缺乏共面性约束。我们的方法使用这两种掩码生成方法的结果在表2的第6行和第7行中报告。通过比较第6行、第7行和第8行,我们可以看到我们的共面感知GAN生成的掩码在这三种方法中取得了最好的性能。这表明,施加明确的共面性约束比隐式生成掩码在单应性估计中更有效。此外,我们在图8中展示了[39]和我们的方法在三个代表性图像上生成的掩码。可视化结果显示,我们的方法能够生成聚焦于主导平面的掩码,在各种场景中不受前景物体的干扰。05. 结论0我们提出了HomoGAN用于无监督的单应性估计。我们注意到在没有约束条件下学习单应性时,会出现平面诱导视差的问题,并提出了一种考虑共面性的GAN来解决这个问题。与之前的方法相比,我们的方法可以生成具有明确共面性约束的主平面掩码,从而引导单应性估计器集中在主平面上。此外,我们提出了一种多尺度变换网络,从粗到细估计单应性,相对于以前的基于CNN的估计器有所改进。通过这两个设计,我们在标准基准测试中取得了SOTA性能。0致谢0本工作得到了中国国家自然科学基金(NSFC)的部分支持,批准号为(No. 62176170, 61872067,62066042和62172032),并得到了四川省重点研究与开发项目(No.2020YJ0282)的部分支持。176710参考文献0[1] Daniel Barath,Jiri Matas和Jana Noskova.MAGSAC:边缘化采样一致性。在CVPR会议记录中,页码为10197-10205,2019年2月5月6月0[2] Herbert Bay,Andreas Ess,Tinne Tuytelaars和Luc Van Gool.加速鲁棒特征(SURF)。计算机视觉与图像理解,110
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 多传感器数据融合手册:国外原版技术指南
- MyEclipse快捷键大全,提升编程效率
- 从零开始的编程学习:Linux汇编语言入门
- EJB3.0实例教程:从入门到精通
- 深入理解jQuery源码:解析与分析
- MMC-1电机控制ASSP芯片用户手册
- HS1101相对湿度传感器技术规格与应用
- Shell基础入门:权限管理与常用命令详解
- 2003年全国大学生电子设计竞赛:电压控制LC振荡器与宽带放大器
- Android手机用户代理(User Agent)详解与示例
- Java代码规范:提升软件质量和团队协作的关键
- 浙江电信移动业务接入与ISAG接口实战指南
- 电子密码锁设计:安全便捷的新型锁具
- NavTech SDAL格式规范1.7版:车辆导航数据标准
- Surfer8中文入门手册:绘制等高线与克服语言障碍
- 排序算法全解析:冒泡、选择、插入、Shell、快速排序
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功