没有合适的资源?快使用搜索试试~ 我知道了~
基于运动基学习的子空间投影
13117×基于运动基学习的子空间投影叶念金1王传1范浩强1刘帅成2,1*1旷视科技2电子科技大学摘要在本文中,我们介绍了一个新的框架,无监督的深度单应性估计。我们的贡献是三倍。首先,不同于以往的方法,回归4个偏移的单应性,我们提出了一个单应性流表示,它可以通过8个预定义的单应性流基地的加权和估计。其次,考虑到单应性包含8个自由度(DOF),其远小于网络特征的秩,我们提出了一种低秩表示(LRR)块,其重新定义了网络特征的秩。网络输入偏移直接线性变换单应矩阵引入特征秩,使得与主导运动相对应的特征被保留,而其他特征被拒绝。输入权重单应性流最后,我们提出了一个特征识别损失(FIL),以执行学习的图像特征扭曲等变,这意味着如果扭曲操作和特征提取的顺序交换,结果应该是相同的。有了这个约束,无监督优化实现更有效,更稳定的功能学习。进行了大量的实验,以证明所有新提出的组件的有效性,结果表明,我们的方法优于国家的最先进的homography 基 准 数 据 集 的 定 性 和 定 量 。 代 码 可 在https://github.com/megvii-research/BasesHomo获得1. 介绍单应性是图像配准中一种基本而重要的配准模型,已被广泛应用于图像配准[1]。单应性是33矩阵,包含8个自由度(DOF),每个2个用于缩放、平移、旋转和透视[9]。传统上,通常通过检测和匹配图像特征[16,20],然后用离群值去除[7]求解直接线性变换(DLT)[9]来相反,深度单应性方法将两个图像作为网络输入,并直接输出单应性矩阵[5]。相比*通讯作者图1. (a)先前的深度单应性方法估计4个运动偏移并且针对结果求解DLT(b)我们通过修改单应矩阵的矩阵元素来构造8个流运动基,然后回归8个权重来组合流基以得到结果。对于高度依赖于所提取的特征匹配的传统方法,深度方法更鲁棒。深度方法可以分为两类,监督[5,14]和无监督[28,18]。前者采用具有地面真实标签的合成示例来训练网络,而后者直接最小化两幅图像之间的光度或特征差异。由于合成样本不能反映场景视差和动态对象,无监督方法往往比有监督方法具有更好的泛化能力。对于无监督方法,Nguyenet al. [18]最小化整个图像的误差,而张等人。[28]提出学习掩模以在最小化期间跳过离群区域。直接回归单应矩阵的元素不是最佳的,因为它们具有不同的幅度。目前的解决方案是回归4个偏移[5,14,28,18],如果将它们馈送到DLT求解器,则相当于单应性(图12)。1(a))。在这项工作中,我们从一个新的方向开始,提出了一个“单应性流”的表示(图。(b)款。 具体地,我们首先通过修改单应性矩阵的条目来生成8个流基,其中一个在(a)先前解决方案基础配方8个预先计算的流量基准网络(b)我们的解决方案13118LRR块最大池转换块组转换自适应平均池1x1转换子空间投影插入两个LRR块的ResNet-34架构权重LRR块W W W·图2.我们的网络管道将灰度图像块Ia和Ib作为输入,并产生8个权重以组合8个预定义的单应性基,以产生单应性流作为输出。该网络由两个模块组成,即翘曲等变特征提取器f(·)和同态估计器h(·),其中插入了2个LRR块以降低运动特征的秩。一次因此,获得8个单应性矩阵,其中的每一个可以被进一步转换成给定图像坐标的流图,从而产生8个单应性流基。在小基线场景中,可以通过学习组合权重在由这些流基跨越的空间内重构由于单应性只有8个自由度,单应性流位于低秩子空间中。然而,通过网络的运动特征的秩通常比单应性的秩高得多。从这一观察,我们提议,pose通过将它们投影到其子空间来降低特征的秩具体地,投影包含两个步骤,包括发现特征图的子空间基,然后将特征图变换到子空间。为了实现这种投影,我们提出了一个低秩表示(LRR)块,它可以插入到正常的CNN中,并进行端到端的训练,以降低特征秩。当秩降低时,与主导运动相对应的特征,即通常保留可以由单应性描述的运动。由非主导运动引起的特征,例如,多深度和动态内容经常被移除或抑制。此外,先前方法的三重态损失仍然引入平凡解[28]。具体地说,在无监督训练过程中,不能很好地保持特征的经向等变性,而这个属性应该在理想情况下保持,即.F((I))=(f(I)),其中,f()表示扭曲操作和特征提取。 特征扭曲等方差的缺乏导致三元组损失的不正确优化,其收敛方向由目标特征(锚)和源特征(负)之间的距离支配。然而,目标特征(锚点)和扭曲的源特征(正性)之间的更近距离对于对准任务是更重要的。为此,我们提出了一个强制图像特征为扭曲等变的。实验证明,使用FIL,模型可以获得更有效的无监督优化,学习到更稳定的特征。我们通过大量的实验和消融研究证明了所有新提出的技术和组件实验结果也验证了我们的方法优于国家的最先进的公共基准定性和定量。总而言之,我们的贡献如下:• 我们提出了一种新的表示• 我们提出了一个新的LRR块,减少运动fea-真实秩,以便隐式地拒绝运动噪声。• 我们提出了一个新的FIL损失,强制学习图像特征的经等方差,以促进稳定的无监督优化。2. 相关作品传统的单应性。通常通过首先检测和匹配图像特征来估计单应性,例如SIFT [16]、ORB [20]、SURF [3]、LPM [17]、GMS [4]、SIFT [16]、ORB[ 17]、SURF [[24][26][27][28][29]建立了这两组点对应。[11][12][ 13][14][15][16][17][18][19最后,针对单应性求解DLT[8]。已经提出了一些深度方法SuperPoint [6]或匹配,例如,SuperGlue [21].深层单应性。深度单应性可以分为监督[5,14]和无监督[18,28]方法。与从缺乏深度差异的合成图像中学习变换的有监督方法相比,无监督方法可以在真实图像上进行训练13119×····××----我特征提取器共享权重并产生特征图Fa和Fb。实际上,具有绝对翘曲的特征-图3.预计算的8个正交和归一化流基h1h8的可视化以及中心的流图例。通过最小化两个图像之间的光度损失,使用空间变换网络(STN)[12]将源扭曲到目标,从而对图像进行处理。Nguyen等人。[18]最大限度地减少了整个图像上的光度损失,而Zhang等人。 [28]学习掩码以跳过异常区域。基础学习。我们的方法也与基础学习有关[15]。Tang等人表明,在低级视觉问题中存在可以用于正则化的子空间[23]。PCAFlow从电影中学习流基,表明流估计可以转换为学习的流基的加权和的学习[25]。受这些工作的启发,我们学习系数以组合8个预定义的流基来估计单应性流。3. 算法3.1. 网络结构我们的方法是建立在卷积神经网络,它需要两个灰度图像补丁一个和一个大小为H W作为输入,并产生一个单应性流Hab从一个到一个相同大小的输出。整个结构由两个模块组成,一个扭曲等变特征提取器f()和一个单应性估计器h()。f()是接受任意大小的输入的全卷积网络,并且h()利用我们新引入的LRR块来适配ResNet-34 [10]的主干,并产生8个权重,其用于线性组合8个预先计算的流基以获得Hab。图2说明了网络结构。单应流及其基本公式。同态矩阵具有8个DOF,并且通过求解如[28,18]中所述,预测图像的4个角偏移之后的DLT。本文从一个新的角度来解决这一问题。具体来说,我们的网络学习一个特殊的opti- cal流的大小H W2约束的单应性,称为由于该约束,同态流落入一般光流的整个2HW-D空间内的8-D子空间中它可以用8个正交的流基来表示,即:{hi}s.t. hab=αihi( i= 1,2,…,第八章)这里hab是Hab的展平形式,αi是流基的系数。为了获得正交流基,我们首先通过修改单位单应性矩阵的每个单个条目来生成8个单应性矩阵,除了总是被归一化为1的位置处的条目给定图像坐标,单应矩阵可以通过变换图像坐标并减去它们的原始位置来转换为流图然后,8个单应性流通过它们的最大流幅度被归一化,随后进行QR分解。在数学上,它被描述为,M=Q·R(M,Q∈R2HW×8,R∈R8×8)(2)其中矩阵M的每列是如上所述的平坦化归一化单应性流Hi通过QR分解,Q的列是正交的,并且它们自然地用作跨越单应性子空间的流基I.E. Q=[h1,h2,…h8]。 换句话说,每个流基与单应性组的原点处的切线空间相关联。用这8种碱基,一个同源可以通过准确地预测它们的权重αi来获得图形流。考虑到在小基线任务中可以用线性模型很好地近似透视变换,我们可以使用这样的线性加权解来近似单应性。我们将图中的碱基3 .第三章。讨论与上述基学习方法如PCAFlow [25]相比,我们的方法与它们具有然而,我们的解决方案具有其特异性,因为与预测需要更多灵活性的一般光流的PCAFlow [25]不同,我们仅处理小基线场景的背景这意味着在解空间中存在较少的灵活性,使得“单应性流”的分析推导因此,为了简单起见,我们在这项工作中只使用预先计算的基,尽管确实存在不能用它们精确表示例如在大基线场景中的那些。经向等变特征提取器。在[28]之前,先前的基于无监督DNN的方法通常最小化用于配准的像素强度值。在[28]中,作者提出最小化学习的深度特征的差异,而不是使用原始图像。在本文中,我们类似地遵循[28]的思想,但使用扭曲等方差来约束学习的特征,这意味着如果我们交换扭曲的顺序,结果应该是相同的手术W.和f eΣaturee。在fgiven输入im上提取iΣΣ年龄I,即W我(一)f(I)=fW(I)。对于输入Ia和Ib,其中hi∈R2HW,hThj=0很少实现等方差。 因此,我们引入一个新的13120..Σ。Σ。W−W·∈∈∈∈--··|−||−|(8、82%)(8.75%)(8、41%)(8.34%)3.25.3图4.在第一和第二LRR块之前和之后的运动特征的主分量的累积能量。损失LW=f(I)f(I)作为近似该属性的约束,其在第2节中详细描述三点三具有LRR块的单应性估计器。给定特征图Fa和Fb,我们将它们连接以构建特征图[Fa,Fb]。然后,它被馈送到单应性估计器网络以产生8个权重。这些权重线性组合{hi}以产生最终的单应性流Hab。我们用h(·)来表示整个过程,即Hab=h([Fa,Fb])(3)h()的骨架通常遵循ResNet-34 [10]结构,除了在两层插入两个新引入的LRR块。每个LRR块由浅残差卷积层组成,并学习由前一层转发的输入运动特征的K个基础。然后通过子空间投影生成秩最多为K的输出运动特征。具体地说,给定一个输入的运动特征M在RH×W×C中,残差卷积层将其转换为K个通道的特征M vRH×W×K。然后,每个通道用作特征基,k=1,2,…,K被压扁后。最后,将M_in投影到特征基的子空间中,得到一个低秩的运动特征M_out ∈R_H×W ×C,即M_out ∈ R_H×W×C。Mout=V(VTV)−1VT·Min(4)其中V=[v1,v2,...,vK]RHW×K。请注意,由于特征为:基{vk}不确保正交。图5.用FIL比较有无经向等方差.更多详情请参阅正文。更准确和容易地,其中在秩减少期间排除了运动异常值。运动异常值是由单个单应性的解空间之外的动态内容或非平面深度变化引起的运动传统上,运动异常值通常被RANSAC拒绝[16]。在DNN中,Zhanget al.s [28]预测掩模以跳过运动离群值。在本文中,LRR块服务于这一目的。它降低了运动特征的等级,在此期间,对应于离群值的特征等级被降低。因为我们强制网络学习由homography基跨越的运动,所以子空间之外的任何运动都被视为运动噪声。以这种方式,非单应性运动可以在秩减少期间被自动消除。因此,不再需要掩模预测器[28]。如表1所示,插入LRR块后,我们的网络产生的错误较低,并且与[28]相比表现更好我们还分析了运动特征Min和Mout的主分量的累积能量。参见图4.在第一次LRR块后,主成分(NPC)的数目从19个减少到5.3个,其累积能量为60%。第二个LRR块的有效性更明显,在50%能量方面将NPC从18减少到3.2,反映出运动特征的秩被高度降低。3.3. 基于特征扭曲等方差的三重态损失在估计了单应性流Hab的情况下,我们将特征映射Fa扭曲到Fa’,并在不涉及注意掩模的情况下公式化三重损失,如[28]所示,即。LT(Ia,Ib)= Lab= |F ′− F b|1− |F a− F b|1(5)在第二LRR块之后,计算的运动特征Ta被转发到组卷积和自适应池化层,以产生用于单应性流基组合的最终8个权重αi我们在图1中示出了LRR块的结构。2,并且在我们所有的实验中K被设置为16。3.2.基于LRR的如SEC所示。在图3.1中,单应性流具有低秩,这意味着应该降低通过h()中的各个层的运动特征的秩。我们的观察是,如果运动特征的秩降低,则可以预测关于三重丢失的原始想法试图同时学习区分特征和准确的单应性以很好地对齐输入图像。尽管在[28]中已经证明它在大多数情况下是成功的,但它仍然有可能被不正确地优化,使得Fa Fb被过度最大化,而Fa′Fb仍然被欠最小化。由于f()的足够的DOF。为此,我们添加一个新的约束名为服务于学习特征的扭曲等方差,这意味着如果我们交换扭曲操作和特征提取的顺序,即,结果w/o。填w/。填13121∼WW·|−|W|−|有监督无监督CA-无监督我们的(一)(b)第(1)款图6.与最近基于DNN的方法的定性比较。 第14列是监督[5],无监督[18],CA无监督[28]和我们的结果。行2的对齐难度大于行1。大小为320×576的原始图像作为输入。LW(I a,f,Wab)= Lab= |Wab(f(I a))− f(Wab(I a))|1(6)其中ab是通过单应性流Hab的扭曲操作。我们观察到,有了这个约束,优化 f()可以被稳定,从而提高估计的单应性流的准确度。我们在图中形象化一个例子5,其中没有FIL的情况下,三重态损失LT(Ia,Ib)小于FIL优化的三重态损失LT(Ia,Ib),即使Fa′Fb变大.背后的原因是,在没有FIL的情况下,FaFb项因此,对齐准确性被降级。在实践中,我们还交换Ia和Ib的顺序以计算对称损耗L(Ib,Ia)和LW(Ib,f,ab),并且添加约束以强制单应流Hba和Hab是逆的。能量可以写成min(Lab+ Lba)+ λ(Lab+ Lba)+ µ|Hab+ Hba|第二章(七)4.2.与现有方法的我们比较了我们的方法与两组同源性估计方法,基于DNN的和基于特征的。前一组包括Supervised [5],Unsupervised [18]和CA-Unsupervised [28],后一组包括14种方法,包括6种类型特征的12种组合(3种传统:SIFT [16] / ORB [20]/BEBLID [22]和3基于DNN的:LIFT [26]/S 0 SNet [24] / SuperPoint [6])和2个异常值拒绝算法(RANSAC [7] / MAGSAC [2]),以及2个额外的定制描述符匹配方法Super-Glue [21],仅针对SuperPoint[6]。定性比较。图6示出了与基于DNN的方法的比较。图6(a)来自LL猫-f,hT T W W2egory与重复的动态纹理在河流,监督[5]失败,因为它是训练的合成其中,在我们的实验中,λ和μ分别设置为1.0和0.0014. 实验4.1. 数据集和实施详细信息我们使用与Zhang等人相同的数据集来评估我们的方法。s [28],即CA-无监督。训练集由真实场景中的5类小基线图像对组成,包括常规(RE)、低纹理(LT)、低光照(LL)、小前景(SF)和大前景(LF)。除了RE之外,其他4个场景对于单应性估计是具有挑战性的。 随机选择的4个子集。2k个样本作为测试集,每个样本包含6对用于评估的标记匹配点。我们的网络由Adam优化器[13]进行了360k次迭代训练,参数l r=10−4,β1=0。9,β2=0。999,ε=10−8。批量大小被设置为16,并且每个时期Ir减少20%该实现基于PyTorch,网络训练在一个NVIDIA RTX 2080 Ti.为了减轻扭曲图像中空边界的影响,我们随机裁剪补丁没 有 动 态 内 容 的 数 据 。 Unsupervised [5] 和 CA-Unsupervised [28]的结果包含一些小的误差,因为这两种方法都不能精确地拒绝动态流动的河流。相比之下,我们的离群值拒绝是通过LRR实现的,与CA无监督的掩码相比,获得了准确的主要特征注意力[28]。我们的方法在图中显示出优越性。第6(b)段。此场景来自LT类别,其中纹理质量极差,如雪和天空。前景中行走的人使任务更具挑战性。其他方法尝试对齐移动的人,因为他比他周围的区域有更多的纹理,而只有我们的方法成功地对齐场景,而不注意的人,由突出显示的极点区域证明。图7进一步比较了我们的方法与所有上述基于特征的解决方案。图在图7(a)、(d)和(g)中,我们在雪场景中验证了各种基于特征的方法,其中由于特征提取或前方干扰,所有基于特征的方法都不能产生令人满意的结果相比之下,我们的方法将此13122SIFT+RANSAC SIFT+MAGSAC ORB+RANSAC ORB+MAGSAC BEBLID+RANSAC(一)(b)第(1)款(c)第(1)款BEBLID+MAGSAC LIFT+RANSAC LIFT+MAGSAC SOSNet+RANSAC SOSNet+MAGSAC(d)其他事项(e)(f)第(1)款SuperPoint+RANSAC SuperPoint+MAGSAC SuperPoint+SG-RAN SuperPoint+SG-MAG Ours(g)(h)(一)图7.定性比较与基于特征的方法3个例子。各种描述符和离群值消除方法的组合产生了总共14种方法。场景更准确。对于后两个示例,包括低光照和低纹理场景,它们都对特征检测和匹配提出挑战。例如,在低光场景中(图1)。在图7(b)、(e)和(h)中,仅 图 像 的 一 小 部 分 包 含 显 著 区 域 。 在 海 的例 子(图)。图7(c)、(f)和(i)),难以获得关于海纹理的可靠特征匹配。相比之下,我们的方法自然更能适应fea-图,受益于低秩特征的追求定量比较。如表1所示,对于每对测试图像,变形的源点和目标点之间的平均距离被认为是误差度量。我们报告每个场景类别的错误。 具体地,第3行和第5行是深同源的。摄影方法;第6至11行是传统的基于要素的方法和行12-19是基于DNN的特征方法。13123我第一章RELt会SFLFAvg(二)I3×37.75(+2483.33%)7.65(+868.35%)7.21(+930.00%)7.53(+960.56%)3.39(+621.28%)6.70(+963.49%)第三章监督[5]1.51(+403.33%)4.48(+467.09%)2.76(+294.29%)2.62(+269.01%)3.00(+538.30%)2.87(+355.56%)四、无监督[18]0.79(+163.33%)2.45(+210.13%)1.48(+111.43%)1.11(+56.34%)1.10(+134.04%)1.39(+120.63%)第五章)[28]第二十八话0.73(+143.33%)1.01(+27.85%)1.03(+47.14%)0.92(+29.58%)0.70(+48.94%)0.88(+39.68%)六、SIFT [16] + RANSAC [7]0.30(+0.00%)1.34(+69.62%)4.03(+475.71%)0.81(+14.08%)0.57(+21.28%)1.41(+123.81%)第七章)SIFT [16] + MAGSAC [2]0.31(+3.33%)1.72(+117.72%)3.39(+384.29%)0.80(+14.08%)0.47(+0.00%)1.34(+112.70%)第八章)ORB [20] + RANSAC [7]0.85(+183.33%)2.59(+227.85%)1.67(+138.57%)1.10(+54.03%)1.24(+163.83%)1.48(+134.92%)九、ORB [20] + MAGSAC [2]0.97(+223.33%)3.34(+322.78%)1.58(+125.71%)1.15(+61.97%)1.40(+197.87%)1.69(+168.25%)10)、BEBLID [22] + RANSAC [7]0.78(+160.00%)2.83(+258.23%)1.38(+97.14%)1.04(+46.48%)1.33(+182.98%)1.47(+133.33%)第十一章BEBLID [22] + MAGSAC[2]0.94(+213.33%)3.73(+372.15%)3.49(+398.57%)1.17(+64.79%)1.25(+165.96%)2.12(+236.51%)12)LIFT [26] + RANSAC [7]0.40(+33.33%)2.01(+154.43%)1.14(+62.86%)0.77(+8.45%)0.68(+44.68%)1.00(+58.73%)十三、LIFT [26] + MAGSAC [2]0.35(+16.67%)1.85(+134.18%)0.96(+37.14%)0.72(+1.41%)0.50(+6.38%)0.88(+39.68%)14)SOSNet [24] + RANSAC [7]0.29(-3.33%)2.42(+206.33%)3.71(+430.00%)0.77(+8.45%)0.59(+25.53%)1.56(+147.62%)第十五章)SOSNet [24] + MAGSAC[2]0.30(+0.00%)3.00(+279.75%)3.66(+422.86%)0.87(+22.54%)0.49(+4.26%)1.67(+165.08%)第十六章)SuperPoint [6] + RANSAC[7]0.43(+43.33%)0.85(+7.59%)0.77(+10.00%)0.84(+18.31%)0.80(+70.21%)0.74(+17.46%)十七、SuperPoint [6] + MAGSAC [2]0.45(+50.00%)0.90(+13.92%)0.77(+10.00%)0.76(+7.04%)0.67(+42.55%)0.71(+12.70%)十八)[21]第二十一届中国国际纺织品展览会0.41(+36.67%)0.87(+10.13%)0.72(+2.86%)0.80(+12.68%)0.75(+59.57%)0.71(+12.70%)第十九章[21]第二届中国国际汽车工业展览会0.36(+20.00%)0.79(+0.00%)0.70(+0.00%)0.71(+0.00%)0.70(+48.94%)0.63(+0.00%)第二十章)我们0.29(-3.33%)0.54(-31.65%)0.65(-7.14%)0.61(-14.08%)0.41(-12.77%)0.50(-20.63%)表1.比较我们的方法和所有其他方法之间的点匹配误差。SG-RAN和SG-MAG分别是SuperGlue [21] + RANSAC [7]和SuperGlue[21]+ MAGSAC [2]。括号中的百分比表示相对于第二最佳结果的改进红色表示最佳性能,蓝色表示次佳结果。1.000.950.900.850.800.750.700.650.600.550.500.450.400.300.00稳健性0.10.30.5电话:+86-021 - 88888888传真:+86-021 - 88888888LRR块的低秩性质。因此,我们的方法实现了至少14。08%和12。77%,低于其他人的SF和LF的错误,分别 。 总 体 上 , SuperPoint [6] 、 SuperGlue [21] 和MAGSAC [2]的组合对于所有场景产生相当有竞争力的结果,但它们的平均误差仍然比我们的高20。百分之六十三稳健性评价。此外,我们通过设置一个阈值来判断是否有单应性匹配的标记点来评估所有方法的鲁棒性关于呃-图8.所有匹配点对中内点的比例,为所有方法设定各种阈值。曲线的较高位置表示较高的稳健性。耗氧物质3×3是指一个单位单应性,它反映了点对之间的原始距离。对于RE场景,丰富的纹理为单应性估计提供了充足的高质量特征使得基于特征的解决方案在这一类中显示出明显的优势。然而,我们的方法以及SOSNet [24]和RANSAC [7]的组合优于其他方法,并实现了0.29的最低误差。对于LT和LL的场景,大多数基于特征的解决方案由于难以提取有效特征而变得不那么鲁棒。相比之下,我们的方法一致地工作得很好。特别地,由3种最新算法(SuperPoint [6]、SuperGlue [21]和MAGSAC [2])构成的第二最佳方法的结果实现了强性能。在包含小(SF)和大(LF)前景的场景中,虽然有足够的纹理特征可用,但动态对象和多平面遮挡给离群点去除带来麻烦。在我们的方法中,对象和多平面深度倾向于在编码空间中引入高秩特征,这被我们的方法所抛弃。3 × 3监督无监督CA-无监督SuperPoint+MAGSAC阈值SuperPoint+SGMAG我们SuperPoint+SGRANSuperPoint+RANSACSOSNet+MAGSAC电梯+磁吸SOSNet+RANSACLIFT+RANSACBEBLID+RANSACBEBLID+MAGSACORB+RANSACORB+MAGSACSIFT+RANSACSIFT+MagSAC比例13124低于阈值的误差被认为是匹配的内点,否则它们被判断为外点。因此,我们报告了给定单应性估计方法和阈值的匹配点总体标记点的百分比,使得在图1中报告了一系列曲线。通过将阈值设置为0.1至3.0,可获得8。如图所示,如果阈值大于0的情况。8,表明我们的方法可以更好地处理棘手的情况下比其他人。它得出与表1类似的结论,即我们的方法在具有挑战性的场景(诸如LT和LF场景)中优于其他方法。4.3. 消融研究我们通过消融研究验证了所有三种贡献的有效性,并在表2中报告了结果。单应流与偏移量表2的第2行显示了CA无监督[28]的结果,其采用了具有掩码离群值去除的偏移表示。我们将其回归目标从偏移替换为我们的单应性流基的权重,并且观察到在行3中实现的LT、LL和SF场景中的较低平均误差和可比误差。它表明,即使对于一个网络不是专门设计的,单应性流表示优于旧的偏移量的解决方案。13125·····- -1)面罩/LRR偏移/基准填充RELt会SFLFAvg2)口罩偏移0.73(+151.72%)1.01(+87.04%)1.03(+58.46%)0.92(+50.82%)0.70(+70.73%)0.88(+76.00%)3)口罩基础0.53(+82.76%)1.05(+94.44%)1.04(+60.00%)0.95(+55.74%)0.56(+36.59%)0.83(+66.00%)4)口罩基础✓0.45(+55.17%)1.02(+88.89%)0.93(+43.08%)0.96(+57.38%)0.50(+21.95%)0.77(+54.00%)5)LRR基础0.37(+27.59%)0.69(+27.78%)0.75(+15.38%)0.75(+22.95%)0.45(+9.76%)0.60(+20.00%)6)LRR基础✓0.29(+0.00%)0.54(+0.00%)0.65(+0.00%)0.61(+0.00%)0.41(+0.00%)0.50(+0.00%)表2.在偏移和基础(单应性流)中选择单应性表示解决方案,并且将离群值拒绝模块选择为Mask [28]或LRR。FIL作为可选的推广效果的模型。0层1层2层3层3层 *填充0.000.140.310.350.11MSE0.760.690.610.600.50表3. 当f()包含不同数量的卷积层时点匹配误差的比较。 0层表示没有f(·)的网络。 *表示FIL在训练中无效。LRR块。我们通过移除掩码模块并将LRR块插入到单应性估计器h()中,将行3中的网络修改为我们的结构(行5)。通过这种替换,LRR块和同态流的组合产生显著的优点,在所有场景中将误差减少至少约20%一个合理的解释是,LRR块鼓励利用低秩特征进行单应性估计,这有利于特征提取和离群点剔除。FIL用于翘曲等方差。我们还验证了FIL在两种结构中的有效性,即:修改后的CA-无监督[28]如表2中的第3行和第5行中的我们。通过比较第3行与第4行以及第5行与第6行,我们可以观察到误差从0.83减小到0.77(8%)以及从0.60减小到0.50(17%)。特别是在场景LL和LF中,误差减少更显著。为了进一步研究FIL如何改进优化,我们通过将f()中的卷积层的数量从0修改为3来进行另一个实验。所示表3,从含有0至2个层的f(),不含FIL。均方误差(MSE)在FIL增加的同时逐渐减小,反映了翘曲等方差被破坏。这里,如果我们继续将层添加到3,则MSE不能减小,这表明网络不能始终优化,而FIL保持增加。如果我们将FIL添加到优化目标,我们可以看到MSE从0.6降低到0.5,FIL从0.35显著降低到0.11。这种现象反映了在保持翘曲等方差的情况下,优化变得更稳定,使得可以实现更高的性能。4.4. 泛化由于固定基是通过数学推导获得的图9描绘了根据本发明的实施例的对准结果。图9.手机拍摄的照片。在低光和低纹理的场景中用移动电话拍摄的看不见的照片等。4.5. 失败案例预定义的流量基础对小基线情景是友好的。相比之下,当应用于大基线情况时,它可能会引入误差,因为基h7和h8是线性的。给出了小范围透视变换在直角坐标系下的近似表示。5. 结论我们已经提出了一种用于单应性估计的新的深度解决方案,涉及3个新组件以改善先前方法的性能:一个新的表示称为单应性流,一个LRR块,以减少排名的功能和功能身份损失,以稳定的优化过程。大量的实验证明了所有新引入的组件的有效性和优越的性能比以前的方法。尽管如此,我们的方法有其局限性,包括它可能会失败,在大基线的场景,其单一的单应性输出可能是不够的一个真实的场景,其固定的基地可能会限制其更广泛的应用。我们考虑将这个想法扩展到基于网格的多单应性,并探索学习基地的优越性作为我们未来的工作。确认本研究得到了科技部国家重点研发&计划(项目编号:2000000000)的部分资助。2020AAA0104400),部分由中国国家自然科学基金(NSFC)资助,资助号为61872067和61720106004,部分由四川省科学技术研究计划资助,资助号为2019YFH 0016。13126引用[1] Alex ,M. 还 有安 德 鲁 计算 机 视 觉中 的 多 视图 几 何Kybernetes,1972年。1[2] Daniel Barath Jiri Matas和Jana Noskova MAGSAC:边缘化样本共识。在Proc. CVPR,第10197-10205页,2019年。二、五、七[3] 赫伯特·贝、丁尼·图伊特拉尔斯和吕克·范古尔。SURF:加速了强大的功能。在Proc. ECCV,第404-417页,2006中。2[4] JiaWang Bian , Wen-Yan Lin , Yasuyuki Matsushita ,Sai-Kit Yeung,Tan-Dat Nguyen,and Ming-Ming Cheng.Gms:基于网格的运动统计,用于快速、超鲁棒的特征对应。在Proc. CVPR,第4181-4190页,2017年。2[5] Daniel DeTone,Tomasz Malisiewicz,and Andrew Rabi-novich. 深 度 图 像 单 应 性 估 计 。 arXiv 预 印 本 arXiv :1606.03798,2016。一、二、五、七[6] Daniel DeTone,Tomasz Malisiewicz,and Andrew Rabi-novich. Superpoint:自监督兴趣点检测和描述。在Proc.CVPRW,第224-236页,2018年。二、五、七[7] Martin A. Fischler和Robert C.波尔斯随机样本一致性:模型 拟合 的范 例, 应用 于图像 分析 和自 动制 图。Commun. ACM,24(6):381-395,1981. 一、二、五、七[8] 安德鲁·哈蒂和安德鲁·齐瑟曼。计算机视觉中的多视几何学(2。ed.). 2006. 2[9] Richard Hartley和Andrew Zisserman。计算机视觉中的多视几何学。剑桥大学出版社,2003年。1[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.深度剩余网络中的身份映射 在proc ECCV,第630-645页,2016年。三、四[11] Paul W. Holland和Roy E.欢迎鲁棒回归使用迭代重加权最小二乘。Communications in Statistics,6(9):813-827,1977. 2[12] Max Jaderberg,Karen Simonyan,Andrew Zisserman,Koray Kavukcuoglu.空间Transformer网络。在procNeurIPS,第2017-2025页,2015年。3[13] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。InProc. ICLR,2015. 5[14] Hoang Le,Feng Liu,Shu Zhang,and Aseem Agarwala.动态场景的深度单应性估计。在procCVPR,第7649-7658页,2020年。一、二[15] Guangcan Liu , Zhouchen Lin , Shuicheng Yan , JuSun,Yong Yu,and Yi Ma.基于低秩表示的子空间结构鲁棒恢复。IEEE Trans. on Pattern Analysis and MachineIntelligence,35(1):171-184,2012。3[16] David G.洛从尺度不变关键点中提取独特的图像特征。Int. J. Comput. 目视,60(2):91一二四五七[17] Jiayi Ma,Ji Zhao,Junjun Jiang,Huabing Zhou,andXiaojie Guo. 局 部 保 持 匹 配 。 International Journal ofComputer Vision,127(5):512-531,2019。2[18] 放 大 图 片 作 者 : Steven W. Chen , Shreyas S.Shivakumar,Camillo Jose Taylor,and Vijay Kumar.无监督深度单应性:一种快速鲁棒的单应性估计方法13127模 型 IEEE Robotics Autom. Lett. , 3 ( 3 ) : 2346-2353,2018. 一二三五七[19] 卡尔·皮尔森莉莉在最接近空间点伦敦,爱丁堡和都柏林哲学杂志和科学杂志,2(11):559- 572,1901。3[20] Ethan Rublee、Vincent Rabaud、Kurt Konolige和Gary R.布拉德斯基ORB:SIFT或SURF的有效替代方案。在Proc. ICCV,第2564-2571页,2011中。一、二、五、七[21] PaulEdouardSarlin , DanielDeTone , TomaszMalisiewicz,and An
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- ***+SQL三层架构体育赛事网站毕设源码
- 深入探索AzerothCore的WoTLK版本开发
- Jupyter中实现机器学习基础算法的教程
- 单变量LSTM时序预测Matlab程序及参数调优指南
- 俄G大神修改版inet下载管理器6.36.7功能详解
- 深入探索Scratch编程世界及其应用
- Aria2下载器1.37.0版本发布,支持aarch64架构
- 打造互动性洗车业务网站-HTML5源码深度解析
- 基于zxing的二维码扫描与生成树形结构示例
- 掌握TensorFlow实现CNN图像识别技术
- 苏黎世理工自主无人机系统开源项目解析
- Linux Elasticsearch 8.3.1 正式发布
- 高效销售采购库管统计软件全新发布
- 响应式网页设计:膳食营养指南HTML源码
- 心心相印婚礼主题响应式网页源码 - 构建专业前端体验
- 期末复习指南:数据结构关键操作详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功