迭代式深度单应性估计的两个版本：基于静态场景和动态场景的IHN

172 浏览量更新于2023-10-26 收藏 13.98MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0510152025DLKFM 1-scale IHN (Ours)0510152025DLKFM 1-scale IHN (Ours)18790迭代式深度单应性估计0曹思远，胡建新，盛泽华，沈辉亮浙江大学0karlcao@hotmail.com, {hujianxin, shengzehua, shenhl}@zju.edu.cn0摘要0我们提出了迭代单应性网络(IHN)，即一种新的深度单应性估计架构。与以前通过网络级联或不可训练的IC-LK迭代器实现迭代细化的方法不同，IHN的迭代器具有固定权重并且完全可训练。IHN在包括具有挑战性场景在内的几个数据集上实现了最先进的精度。我们提出了两个版本的IHN：(1)用于静态场景的IHN，(2)用于具有移动物体的动态场景的IHN-mov。这两个版本可以以1尺度进行高效处理或以2尺度进行更精确的处理。我们展示了基本的1尺度IHN已经超过了大多数现有方法。在各种数据集上，2尺度IHN的性能超过了所有竞争对手很大的差距。我们通过生成一个内点掩码来引入IHN-mov，以进一步提高移动物体场景的估计精度。我们通过实验证明，IHN的迭代框架可以实现95%的误差减小，同时大大节省网络参数。在处理连续图像对时，IHN可以实现32.7帧/秒的处理速度，约为IC-LK迭代器的8倍。源代码可在https://github.com/imdumpl78/IHN上获得。01. 引言0单应性估计旨在找到两个图像之间的全局透视变换。它是许多计算机视觉任务的关键步骤，如图像/视频拼接[13,32]、视频稳定化[16]、SLAM[9,24]、增强现实[29]、GPS拒绝导航[12,40]和多模态图像融合[37,42]。文献中的方法可以大致分为基于光度和基于特征的方法[32]。基于光度的方法旨在从像素强度估计单应性。Lucas-Kanade (LK)算法[2,19]是最广泛采用的基于光度的方法，它使用预先计算的迭代器迭代估计残差单应性。基于特征的方法通常包括三个步骤：特征提取、特征匹配和单应性估计[32]。00 2 4 6 8 10 12 # 迭代次数0平均角点误差0(a) 在Google Earth上的单应性估计。00 2 4 6 8 10 12 # 迭代次数0平均角点误差0(b) 在Google地图和卫星上的单应性估计。0图1. 我们的IHN和DLKFM[40]（使用传统的IC-LK迭代器）在每次迭代中通过平均角点误差(ACE)进行单应性估计的可视化。左侧2个图像：用于单应性估计的图像对，左侧是源图像IS，右侧是目标图像IT。绿色多边形表示IS在IT上的真实位置。蓝色多边形表示使用MHN+DLKFM估计的位置。红色多边形表示使用我们的IHN估计的位置。右侧图表：前12次迭代的ACE。IHN在第6次迭代停止，而DLKFM具有动态停止准则，平均迭代21次。0众所周知，SIFT [18]、SURF [4]和ORB[4]是一些常用的特征提取器。单应性估计方法包括RANSAC [11]、DLT [8]和MAGSAC[3]。最近，深度单应性方法因其卓越的性能而受到越来越多的关注。首先由DeTone等人提出的VGG风格网络被采用来直接估计单应性。基于这项工作，许多最近的方法通过级联多个VGG风格网络[10, 14,41]来提高估计精度。级联实际上是一种迭代的方式，可以显著提高估计性能。然而，这种迭代方式仅限于固定数量的级联，更多的网络级联并不一定会导致更好的性能[14]。为了进一步提高单应性估计精度，一些工作[5,40]采用了Lucas-Kanade (LK)算法。We make a brief introduction of deep homography es-timation, challenges in homography estimation, and itera-tive homography estimation that are most relevant to ourmethod. For the basic knowledge of homography estima-tion, the readers are referred to [32,43].Deep Homography Estimation. Deep homography es-timation is ﬁrst proposed by DeTone et al. [6], who adopteda VGG-style network to directly predict the homographybetween the concatenated source and target images. Fol-lowing this pioneering work, several works [10,14,41] pro-posed to cascade multiple VGG-style networks to improvethe homography estimation accuracy. Nowruzi et al. [10]proposed to arrange similar stacked networks to succes-sively reﬁne the homography estimation. Le et al. [14] pro-posed to use multiscale VGG-style networks to iterativelyestimate the residual homography. Nevertheless, comparedto the Lucas-Kanade iterator [2,19], the cascaded deep ho-mography methods still lack accuracy [5,40].Another kind of works accomplishes iterative deep ho-mography estimation by combining the LK algorithm withCNNs. Chang et al. [5] adopted the inverse compositionalLK (IC-LK) iterator as an untrainable layer of the deep net-work. A CNN is employed to extract the feature maps thatare optimal for the IC-LK iterator. Zhao et al. [40] proposedto construct a one-channel deep Lucas-Kanade feature map(DLKFM) using CNNs. The DLKFM is then sent into theIC-LK iterator. Similar approaches can be found in [12,34].However, the LK iterator is untrainable, and therefore theo-retically the drawbacks such as rank-deﬁcient Jacobian can-not be avoided.Challenges in Homography Estimation. According tothe recent works [14, 25, 28, 39, 40], there are mainly twochallenges in homography estimation. The ﬁrst challengecomes from the photometric inconsistency such as illumi-nation change or modality variation. Nguyen et al. [25]18800作为一个不可训练的迭代器，并将其与CNN结合起来。然而，LK算法中的Hessian矩阵的近似在雅可比矩阵秩亏损时失败[26]。更糟糕的是，网络的训练仅限于特征提取器，这意味着上述缺点在理论上是不可避免的。为了解决这些问题，我们提出了迭代单应性网络（IHN），它是完全可训练的。我们引入了两个版本的IHN：（1）用于静态场景的IHN，（2）用于具有移动物体的动态场景的IHN-mov。这两个版本可以安排在1尺度上以提高效率或2尺度上以提高准确性。我们表明，基本的1尺度IHN已经超过了大多数现有方法。在MSCOCO[15]上，2尺度IHN的性能超过了所有竞争对手，平均角点误差（ACEs）低于0.1像素的比例超过90%。在跨模态数据集[40]上，IHN优于使用传统LK迭代器在改进MHN[14]的深度单应性估计中使用的MHN + DLKFM[40]方法。在移动物体数据[35]上，IHN和IHN-mov都超过了竞争对手。IHN-mov通过生成模拟RANSAC[11]本质的内点掩码进一步提高准确性。IHN的动机来自传统的IC-LK迭代器[2]。与IC-LK不同，IHN是完全可训练的，因此可以直接从数据中学习残差单应性预测的先验信息。图1说明了我们的IHN和使用IC-LK迭代器的DLKFM[40]的单应性估计结果和平均角点误差（ACEs）的每次迭代。迭代0时的初始ACEs不同，因为DLKFM使用了MHN的初步估计。观察到我们的基本1尺度IHN可以在6次迭代内产生准确的单应性估计，而使用传统的IC-LK的DLKFM失败。此外，IHN可以以32.7fps的速度连续处理图像对，这是IC-LK迭代器速度的约8倍。我们进一步通过将我们的全局运动聚合器（GMA，直接估计残差单应性）替换为[6,14,39]中的网络架构来探索我们迭代框架的有效性。实验结果表明，与[6,14,25,39,41]中的特征/图像连接策略相比，我们的迭代框架实现了约95%的误差减小。由于迭代框架的存在，我们的全局运动聚合器可以以比以前的架构更少的参数实现可比较的准确性，例如[14]中的36.4%和[39]中的3.6%。同样，显著提高光流估计准确性的深度迭代概念已经在RAFT[33]中提出，这激发了我们构建一个完全可训练的深度单应性估计网络的灵感。总结起来，本文的主要贡献如下：0• 我们提出了一种迭代单应性网络，即0IHN是完全可训练的。IHN在包括具有挑战性场景在内的几个数据集上实现了最先进的准确性。IHN的迭代是稳定的，不需要额外的参数。0•我们表明，提出的迭代框架对于准确的单应性估计至关重要，无论具体的网络架构设计如何，都可以实现95%的误差减小。迭代框架还可以大大节省参数。0•我们特别为移动物体场景设计了一个名为IHN-mov的网络架构，其中违反了单应性假设。该网络生成一个模拟RANSAC的内点掩码，可以进一步改善单应性估计。02. 相关工作ISISITITHk1Hk1H1H1C1; C121C1; C121WarpingHk2Hk2H2H2Correlation UpdaterGlobal Motion Aggregator (GMA)Coordinate Projector¢Dk¢DkDkDkHomography UpdaterSkSkHk+1Hk+1FkFkDk+1Dk+1Local Motion InformationGlobal Motion InformationHkHkX0kX0kConvolutionGroup normalization + ReLUMax-poolingUp-samplingSigmoid...Skip connection Weight sharingConcatenationDot productN2N2NN1 Scale2 Scales C2; C122C2; C122CNNCNNCNNCNN¢Dk¢DkNLkLk...MkMkFkFkSkSk12N2NNC; C12C; C12N2N2N2N2N2N2FIS;1FIS;1FIT;1FIT;1FIT;2FIT;2FIS;2FIS;2H1H1Iterative Homography Estimator (IHE)CorrelationComputationCorrelationComputationIterative Homography Estimator (IHE)Image warpingWarping...NNNN2¢Dk¢Dk...NNNN2FkFkSkSk18810(b) 迭代单应矩阵估计器（IHE）0(c) 全局运动聚合器（GMA）0GMA0GMA-mov0(a) 迭代单应矩阵网络（IHN）01尺度IHN 2尺度IHN0IHE0图2. 迭代单应矩阵网络（IHN）的示意图和详细架构。 (a) IHN的整体示意图，包括基本的1尺度IHN和2尺度IHN的说明。 (b)迭代单应矩阵估计器（IHE）的结构，它在实现迭代单应矩阵优化中起到主导作用。 (c)全局运动聚合器（GMA）的架构，用于静态场景的残差单应矩阵估计和用于移动物体场景的GMA-mov。详细信息请参阅正文。0提出了一种无监督学习方法来改善网络在光照变化方面的容量。Zhao等人[40]提出了用于交叉模态输入的强度一致的DLKFM提取方法。他们使用多个级联的VGG风格网络MHN[14]估计单应矩阵，并使用IC-LK迭代器进行进一步的优化。第二个挑战来自于单应矩阵假设的违反。例如，在存在移动物体的场景中，源图像和目标图像之间的匹配并不总是满足均匀的单应矩阵。Zhang等人[39]提出了一种掩码预测网络，通过对特征图进行加权来实现内容感知的单应矩阵估计。然而，由于掩码是分别在源图像和目标图像上计算的，该方法无法排除匹配异常值。Le等人[14]提出了通过PWC-Net[31]光流产生的移动物体掩码来教导网络。然而，如果光流估计失败，就无法学习到掩码。迭代单应矩阵估计。最广泛使用的迭代单应矩阵估计框架是Lucas-Kanade（LK）算法[2，19]。最广泛采用的逆组合Lucas-Kanade（IC-LK）算法的目标函数为0min ∆ H ∥ I T ( W ( X ; ∆ H ) - I S ( W ( X ; H ))0其中∆ H表示残差单应矩阵，W表示坐标变换操作。通过对IT(W(X;∆ H)进行一阶泰勒展开，可以得到∆ H的闭式解0∆ H = ( J T J ) - 1 J T r , (2)0其中J表示I T的雅可比矩阵，J T J是Hessian矩阵的近似。r= vec(I T -0I S ( W ( X ; H)))表示更新的向量化残差图像，每次迭代都会更新。IC-LK算法通过3个步骤迭代地估计单应矩阵：(1)使用局部坐标更新I S ( W ( X ; H))，从而更新r中的局部信息；(2)使用公式(2)聚合残差全局单应矩阵；(3)将更新的全局单应矩阵投影到局部坐标中，以更新下一次迭代的局部信息。据我们所知，我们的IHN之前没有任何完全迭代可训练的深度单应矩阵估计网络。最相关的工作是在RAFT[33]中提出的深度迭代光流估计。03. 方法0我们的迭代单应矩阵网络（IHN）的概述如图2a所示。IHN接收一对源图像I S和目标图像I T，并输出估计的单应矩阵H1（1尺度）或H 1和H2（2尺度）。IHN的主要步骤包括使用CNN进行特征提取，计算相关性，以及使用迭代单应矩阵估计器（IHE）进行递归单应矩阵估计。03.1. 特征提取0我们使用一个共享的CNN提取源图像和目标图像的特征图。我们将1个最大池化层（步长为2）和2个残差块的组合作为基本单元。图像首先经过1个卷积块，卷积核大小为7×7。然后我们添加q个基本单元，以产生1/2q×1/2q分辨率的特征图。最后，通过1个线性卷积层对特征图进行重新投影HkHk2r + 12r + 1Hk+1Hk+1G(x0k)G(x0k)G(x0k+1)G(x0k+1)x0kx0kx0k+1x0k+1XX0X03132Fk = X′kX.(5)Sk(x) = C(x, Gr(x′k)),(6)18820tional layer with kernel 1 × 1. Specifically, we set q = 2 inpractical implementation. As illustrated in Fig. 2a, the1-scale IHN uses the feature maps at 1/4 × 1/4 resolution,and the 2-scale IHN uses both feature maps at 1/4 × 1/4and 1/2 × 1/2 resolution. For the 2-scale IHN, the firstbasic units of both resolution feature maps share thesame weights. We found that the 1-scale IHN alreadyachieves considerable homography estimationperformance, while the 2-scale IHN can further improvethe accuracy. The Siamese CNN is also used forcross-modal data. We will show in Section 4.4 that ourIHN can produce promising homography estimationwithout a specific feature extractor setting (e.g., thepseudo-Siamese network in [40] for cross-modal inputs).03.2. 相关性0与大多数先前的深度单应性估计工作[6, 10, 14, 25,41]不同，我们明确计算相关性以实现迭代细化。我们将源图像和目标图像的特征图分别表示为FIS∈RD×H×W和FIT∈RD×H×W。对于所有特征图，我们设置D=256。我们计算成对的相关性，即相关体积，如下所示：0C ( x S , x T ) = ReLU( F I S ( x S ) T F I T ( x T )) , (3)0其中xS和xT分别表示源特征图和目标特征图的坐标位置。相关体积C的大小为H×W×H×W。在一次迭代中，通过相关更新器从C中采样一个固定的搜索窗口，详细描述在第3.3节中。正如[33]中提到的，相关体积也可以在迭代过程中按需计算，这可以减少空间复杂度。相关池化。为了在特征尺度内扩大感知范围，我们在最后2个维度上以步长2对C进行平均池化，形成另一个相关体积C12，其大小为H×W×H/2×W/2。对于这两个体积，我们使用相同大小的搜索窗口，这意味着与C相比，C12的采样操作具有2×2更大的感知范围。03.3. 迭代单应性估计器0我们的迭代单应性估计器（IHE）的设计受到IC-LK迭代器的启发。IHE在迭代单应性细化的实现中起到了主导作用。如图2a和2b所示，IHE接收相关体积C、C12，并输出估计的单应性H。从坐标投影器到全局运动聚合器，局部运动信息被聚合到全局单应性估计中。从全局运动聚合器返回到坐标投影器（在下一次迭代中），全局单应性估计被转换为局部坐标以进行局部信息更新。IC-LK迭代器中也可以找到类似的本质。0x0图3. 坐标投影器和相关更新器的迭代过程示意图。左:FIS的坐标，表示为X。右: FIT的坐标，表示为X'。0坐标投影器。以迭代k为例，源特征图FIS和目标特征图FIT之间的逐点对应关系由当前单应性矩阵Hk映射。我们将FIS的网格坐标集合表示为X，将FIT中对应的网格坐标集合表示为X'。对于每个坐标位置，我们表示为x = (u, v)，x∈X，和x'= (u',v')，x'∈X'。通过Hk将X和X'k的逐点对应关系投影为：0�0我们在图 3 中说明了迭代 k 和 k + 1中的坐标投影。为了进一步促进局部运动信息的学习，我们还计算了单应流 F k，如下所示0然后将 F k发送到全局运动聚合器。相关性更新器。相关性更新器使用单应投影坐标 X ′ k 对相关性体 C进行采样，并输出更新后的相关性切片 Sk。采样过程可以表示为0其中 G r ( x ′ k ) 表示一个固定搜索半径 r的局部方形网格。方形网格采样如图 3所示。请注意，相关性切片也在汇聚的相关性体 C 1 2上进行采样，以使得 S 1 2 ,k 具有 2 × 2更大的感知范围。全局运动聚合器。全局运动聚合器通过全局运动聚合器估计残差单应矩阵，其中单应矩阵由 4个角点的位移向量参数化，如 [6, 14, 28] 所示。如图 2 c所示，我们设计了用于静态场景的 GMA和用于移动物体场景的 GMA-mov。N表示卷积核的过滤器数量。GMA主要由多个基本单元组成。每个基本单元包括一个 3 × 3卷积块，1 组归一化 [36] + ReLU [22]，和 1个最大池化层（步长为2）。我们不断添加基本单元，直到特征图的空间分辨率达到 2 × 2。然后，卷积块将特征图投影到一个 2 × 2 × 2的立方体中。Dk+1 = Dk + ∆Dk.(7)18830∆ D k 是估计的 4 个角点的残差位移向量。在迭代 k中，GMA 将串联的相关性切片 S k 和单应流 F k作为输入。GMA-mov是专门为移动物体场景设计的。GMA-mov显式地生成一个掩码 Mk，以加权满足单应变换假设的匹配内点。值得注意的是，与需要额外的光流监督的 [14] 或依赖图像内容的 [39]不同，我们的 GMA-mov可以根据组合的局部和全局运动信息生成一个内点掩码，类似于RANSAC。该掩码可以在没有监督的情况下生成，但可以提高单应估计的准确性。如图 2 c 所示，GMA-mov使用一个卷积块将逐点的局部运动信息编码到特征图 L k中。然后，将 L k 发送到多个基本单元中，如 GMA中所示，以初步提取包含全局运动信息的 N × 2 × 2特征图。与 GMA不同，提取的全局运动信息不直接用于残差单应估计，而是用于内点掩码预测。GMA-mov的后半部分通过跳跃连接将包含全局运动信息的特征图上采样，并将其与局部运动信息相结合。通过 sigmoid函数预测与 L k 大小相同的内点掩码 M k。将 M k 和 L k进行点乘，并将其发送到与 GMA相同的结构中，以生成残差单应估计。我们注意到，用于提取初步全局运动信息和残差单应估计的基本单元共享相同的权重。单应更新器。如 [6, 14, 28] 所示，我们使用图像的 4个角点的位移向量来参数化单应矩阵，即位移立方体D。在迭代 k 中，D 更新为0有了 D k +1，可以方便地通过最小二乘法、直接线性变换[1] 或其他方法得到单应矩阵 H k +1。更新后的 H k +1将被发送到下一次迭代的坐标投影器中。初始位移立方体设置为 D 0 = 0，即表示相同的变换 H。03.4. 多尺度策略0我们引入了一种多尺度策略，可以进一步提高单应性估计的准确性。根据我们的实验，1个尺度的IHN可以胜过大多数现有的单应性估计方法。如图2a所示，将在1/2×1/2分辨率特征图上计算的相关体积附加到1个尺度的IHN上。目标图像IT使用在1/4×1/4分辨率上估计的单应性H1进行变形。0分辨率。右下角的下标1或2表示在1/4×1/4分辨率或1/2×1/2分辨率上计算的结果。来自两个尺度的单应性矩阵H1和H2被组合以产生2尺度IHN的最终单应性估计，如[14,28]中所示。在第4节中，我们将展示相比于基于3或4个尺度的IC-LK方法[5,40]，IHN只需要2个尺度就能达到非常高的准确性。03.5. 损失函数0我们在每次迭代中的估计位移D和地面真实位移Dgt之间的L1距离上应用监督。将所有迭代的加权和作为损失函数。0L =0k = 0 α (K - k - 1) | Dk+1 - Dgt |, (8)0其中K表示每个分辨率的总迭代次数，k的范围从0到K-1。如果应用多尺度策略，则分别计算两个分辨率的损失，并求和得到最终损失。04. 实验04.1. 实现细节0我们使用PyTorch实现了我们的网络。网络使用AdamW[17]优化器进行训练，最大学习率设置为2.5×10-4。网络的批量大小为16，训练迭代次数为120000。训练时每个分辨率的总迭代次数K设置为6。我们将相关更新器的搜索半径r设置为4，并在损失函数中设置α=0.85。基本的1个尺度IHN中的GMA设置为N=128，2个尺度IHN中的额外尺度的GMA设置为N=80。对于提到的不同网络结构和尺度，我们使用相同的超参数。04.2. 数据集0我们在常见和具有挑战性的数据集上评估IHN。我们在常见的MSCOCO数据集[15]上对静态场景进行测试，如[5, 6, 14,28, 40]中所示。我们还在跨模态的Google Earth和GoogleMap & Satellite数据集上评估IHN[40]。对于动态场景，我们在基于SPID监控数据集[35]生成的具有移动物体的挑战性场景上测试IHN和IHN-mov。由于相机抖动或过低的图像质量，SPID中的部分图像被丢弃。图像以两种不同的方式进行处理：（1）对于低分辨率的场景，直接使用原始图像。我们随机选择同一场景中的两个图像形成图像对。（2）对于高分辨率的场景，我们先随机选择一张图像，然后使用提供的行人注释。10 210 11001011020.00.20.40.60.81.0LocalTransAffNetLFNetUDHNDHNMHNPFNetPWC+ALLPWC+RANSACSIFT+ContextDesc+RANSACSIFT+GeoDesc+RANSACSIFT+MAGSACSIFT+RANSACCLKN1-scale IHN (Ours)2-scale IHN (Ours)10 210 11001011020.00.20.40.60.81.0LKSIFT+RANSACSIFT+MAGSACCLKNDHNMHNDHN+DLKFMMHN+DLKFM1-scale IHN (Ours)2-scale IHN (Ours)10 210 11001011020.00.20.40.60.81.0LKSIFT+RANSACSIFT+MAGSACCLKNDHNMHNDHN+DLKFMMHN+DLKFM1-scale IHN (Ours)2-scale IHN (Ours)10 210 11001011020.00.20.40.60.81.0SIFT+RANSACSIFT+MAGSACDHNMHNUDHN(no mask)UDHN1-scale IHN (Ours)1-scale IHN-mov (Ours)2-scale IHN (Ours)2-scale IHN-mov (Ours)18840平均角点误差（以像素为单位）0图像数量的比例0(a) 在MSCOCO上的评估。0平均角点误差（以像素为单位）0图像数量的比例0(b) 在Google Earth上的评估。0平均角点误差（以像素为单位）0图像数量的比例0(c) 在Google Map & Satellite上的评估。0平均角点误差（以像素为单位）0图像数量的比例0(d) 在SPID上的评估。0图4. 在MSCOCO、Google Earth、Google Map &Satellite和SPID数据集上评估单应性估计方法。MSCOCO包含常见的RGB图像。Google Earth和Google Map &Satellite是跨模态数据集。SPID数据集提供具有前景移动物体的监控图像。0表1. 在使用不同网络架构时，拼接和迭代框架在MACE上的比较。0DHN [6] MHN [14] UDHN [39] GMA0拼接 3.54 4.01 3.47 3.54 迭代框架 0.19 0.20 0.20 0.190参数 2.8M 2.2M 22.3M 0.8M0确定前景移动物体的位置。我们扩展行人注释，使裁剪区域包含对象和背景。然后在同一场景中随机选择另一幅图像，并在相同位置进行裁剪，以获得包含不同前景移动物体但相同背景的图像对。我们使用80％的图像作为训练数据，20％的图像作为测试数据。为了公平比较，所有用于评估的方法都是通过每个数据集内的相同对应训练和测试划分进行训练和测试的。04.3. 在MSCOCO上的评估和消融研究0我们在MS-COCO数据集[15]上评估了我们的IHN，使用了LocalTrans [28]，AffNet [23]，CLKN [5]，LFNet[27]，DHN [6]，UDHN [39]，MHN [14]，PFNet[38]，PWC [31]，SIFT+ContextDesc+RANSAC[20]，SIFT+GeoDesc+RANSAC [21]，SIFT+MAGSAC[3]和SIFT+RANSAC[18]。实验设置与大多数深度同质性变换估计方法[5, 6, 14,40]相同。将128×128图像的角随机偏移在[-32,32]像素范围内以生成变形图像。与大多数深度同质性变换工作[5, 6, 14, 28,40]类似，我们使用平均角误差（ACE）作为评估指标。然后进行了我们提出的迭代框架和网络架构的消融研究。所有消融研究都在0表2. IHN设置的消融研究。0实验设置 MACE 参数0相关池化无池化 0.23 1.2M 池化 0.19 1.3M0参数化同质性变换 ∞ 1.3M 位移 0.19 1.3M0同质性变换流无流 0.21 1.3M 流 0.19 1.3M0尺度 1尺度 0.19 1.3M 2尺度 0.06 1.7M0迭代01 3.15 1.3M 6 0.19 1.3M 120.19 1.3M 100 0.19 1.3M0基本1尺度IHN，除非另有说明，否则评估基于MSCOCO的性能。在MSCOCO上的统计结果如图4a所示。观察到基本1尺度IHN已经超过了大多数竞争对手，除了CLKN和LocalTrans。我们注意到MHN在3个尺度上进行，而我们的基本1尺度IHN超过了它。我们的2尺度IHN在同质性变换估计方法中表现出色。2尺度IHN产生的ACE低于0.1像素的比例超过90％，明显优于采用传统IC-LK迭代器的CLKN。迭代框架的消融研究。为了揭示迭代框架在IHE中的有效性，我们专门对我们的迭代框架和[6, 14, 25, 39,41]中的特征/图像拼接策略进行了同质性变换估计性能比较。我们在先前引入的深度同质性变换估计架构之间切换全局运动聚合器。18850包括DHN [6]，MHN [14]，UDHN[39]的工作。为了避免特征提取器的影响，我们统一使用第3.1节介绍的特征提取器。提取的特征图在通道维度上进行拼接，以实现[6, 14,39]中的特征/图像拼接策略。表1列出了使用不同架构的网络的平均角误差（MACE）和参数。观察到与特征/图像拼接策略相比，我们的迭代框架在IHE中显著提高了估计准确性，误差减少了约95％，而网络设计相同。另外，得益于我们的迭代框架，我们的GMA在参数方面与先前的同质性变换估计架构相比可以实现相当高的准确性，例如MHN[14]的36.4％和UDHN [39]的3.6％。0IHN设置的消融研究。表2列出了不同设置下IHN的平均角误差（MACE）和参数。参数计数包括第3.1节介绍的特征提取器，与表1不同。符号∞表示训练不收敛且MACE为无穷大的情况。观察到相关池化、使用位移参数化以及添加单应性流可以在很少的参数成本下提高准确性。引入另一个尺度可以提高准确性，尽管1尺度版本已经达到相对较高的准确性。我们进一步测试了在训练迭代6次的情况下推理迭代的影响。观察到网络在6次和12次迭代时的性能明显优于1次迭代，再次表明迭代对于高精度是至关重要的。另一个有趣的现象是，当我们将迭代次数提高到100次时，IHN仍然稳定，没有发散。表2中的粗体设置选项在后续实验中被采用。0在跨模态数据集上的评估0我们在跨模态数据集[40]上评估了我们的IHN，包括季节变化的Google Earth和具有大的模态差异的GoogleMap和卫星图像。值得注意的是，我们没有像[40]中那样专门为跨模态数据修改IHN，其中采用了两个独立的特征提取器（即伪孪生）。我们还包括了原始的LK[2]、SIFT+RANSAC [18]、SIFT+MAGSAC [3]、CLKN[5]、DHN [6]、MHN [14]、DHN+DLKFM[40]和MHN+DLKFM[40]进行比较。如图4b和4c所示，我们的1尺度和2尺度IHN相对于竞争对手有很大的优势。我们注意到最近的MHN+DLKFM使用了3尺度的VGG风格网络和3尺度的LK迭代器的组合。我们对MHN+DLKFM的优越性进一步揭示了深度迭代框架的潜力。0在移动物体数据集上的评估0我们进一步对包含前景移动物体的SPID数据集进行评估。我们将我们的IHN与SIFT+RANSAC [18]、SIFT+MAGSAC[3]、DHN [6]、MHN [14]和UDHN[39]进行比较。前景移动物体通常会遮挡满足单应性假设的背景，这使得准确的单应性估计变得困难。我们专门针对这种情况提出了一种架构，称为IHN-mov，它可以生成一个明确加权匹配内点的掩码，以提高估计的准确性。我们将UDHN转化为有监督的方法进行公平比较，因为它在SPID上的无监督训练不收敛。如图4d所示，两个不同尺度的IHN版本都优于其他竞争方法。1尺度的IHN-mov超过了1尺度的IHN，ACE小于1像素的比例增加了约6%。我们进一步在图5a中可视化了上述方法的单应性估计。观察到SIFT+RANSAC和SIFT+MAGSAC失败了。深度单应性方法DHN、MHN、UDHN和基本的1尺度IHN受到前景移动物体的影响，而1尺度的IHN-mov产生了相对更准确的单应性估计。2尺度的IHN优于1尺度的IHN-mov，说明额外的尺度可以提高估计的准确性。另一方面，2尺度的IHN-mov超过了2尺度的IHN，表明加权掩码可以提高相同尺度下的估计。我们在图5b中进一步可视化了UDHN [39]、PWC-Net[31]光流和我们的1尺度IHN-mov生成的内点掩码。由于缺乏地面真值内点掩码，我们计算源图像IS和变形目标图像IT,W之间的差异，并反转其强度以粗略地表示匹配的内点。UDHN的掩码是通过点积计算IS和IT,W的分离UDHN掩码获得的。我们分别展示了以IS为参考的光流掩码PWCST，以IT为参考的光流掩码PWC TS和它们的点积PWCD。我们反转了光流掩码的归一化幅度以显示内点的权重。观察到UDHN生成的掩码受到图像内容的影响。左侧场景背景中的阴影区域被赋予非常低的权重，但它应该属于匹配的内点。至于光流掩码，由于移动物体消失，估计失败。相反，我们的1尺度IHN-mov直接从局部和全局运动信息（如RANSAC）生成内点掩码，因此更合理。值得注意的是，我们训练了一个没有权重掩码的UDHN版本，即UDHN（无掩码），准确性略有提高，如图4d所示。04.6. 跨数据集评估0我们对1-scale IHN和DLKFM [ 40]进行了跨数据集评估，该评估使用了不可训练的IC-LK，结果如下所示。SIFT+RANSACSIFT+MAGSACDHNMHNUDHNACE: 72.62ACE: 61.66ACE: 6.50ACE: 1.11ACE: 2.24ACE: 4.03ACE: 5.74ACE: >100ACACE: 1.80ACE: 6.93ACE: 8.001-scale IHN (Ours)1-scale IHN-mov (Ours)ISISDifference image

下载后可阅读完整内容，剩余1页未读，立即下载