数据驱动的图像对齐方法及其性能优于其他方法的研究

69 浏览量更新于2023-10-15 收藏 1.08MB PDF 举报

数据驱动方法

网络架构

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于图像对齐张哲汉。张宏达电研究{Chehan Chang，Jason.CN Chou，Edward Chang}@ htc.com摘要本文提出了一种数据驱动的图像对齐方法。我们的主要贡献是一种新颖的网络架构，它结合了卷积神经网络（CNN）和Lucas-Kanade算法的优势。该架构的主要组件是Lucas-Kanade层，它在卷积特征映射上执行逆合成算法。为了训练我们的网络，我们开发了一种级联特征学习方法，该方法将粗到细的策略纳入训练过程。该方法以级联方式学习卷积特征的金字塔表示，并产生级联网络，该级联网络对特征金字塔执行从粗到细的对齐。我们将我们的模型应用于单应性估计任务，并对从MS-COCO数据集生成的大型标记数据集进行训练和评估。实验结果表明，该方法的性能明显优于其他方法。1. 介绍图像对齐或估计两个图像之间的参数运动模型对于全景图像拼接 [5] 、光流 [6] 、同时定位和映射（SLAM）[11]、视觉随机化（VO）[12]等任务至关重要。一个强大的图像对齐算法应该处理光度变化和大的运动变化，同时给出一个亚像素精度对齐。大多数图像对齐方法可以分为两类[26]：基于特征的方法和基于像素的方法。基于特征的方法提取不同的特征，匹配它们，然后从点对应性估计运动模型这些方法对尺度、方向和照明的巨大差异具有鲁棒性，因为SIFT[21]和HOG[9]等特征描述符对这些变化不敏感。然而，实现亚像素精确对准在很大程度上依赖于精确定位和均匀分布的特征，这在低纹理场景中是具有挑战性的。相比之下，基于像素（或直接）的方法，主要是初始运动图1.我们的网络将模板图像，输入图像和初始运动作为输入。具有共享权重的两个CNN将两个图像转换为两个多通道特征图。然后，Lucas-Kanade层将这两个特征图和初始运动作为输入，执行逆合成Lucas-Kanade算法[3]以获得估计的运动。基于Lucas-Kanade算法[22]，直接从原始像素强度估计运动模型。这些方法通常在低纹理图像上执行得更好，因为所有像素都用于估计少量参数。基于像素的方法由于其有效性最近在SLAM[11]和VO[12]中受到了极大的关注。尽管如此，基于像素的方法对于照明变化和大运动并不鲁棒最近，提出了几种方法[1][2][8]将Lucas-Kanade算法与特征描述符相结合。我们将这些方法称为FBLK，代表基于特征的Lucas-Kanade方法。FBLK的中心思想是对密集采样的特征描述符执行图像对齐。FBLK结合了基于特征和基于像素的方法的优点，并且对于光照变化和低纹理场景都是鲁棒的。然而，FBLK仍然有两个缺点。首先，常用的特征描述符是手工设计的，用于查找稀疏对应，这在某些场景中可能是次优的。第二，FBLK在大运动的情况下容易失效。2213CNN模板特征图模板图像共享CNN输入特征图Lucas-Kanade层输入图像估计运动2214在本文中，我们提出将深度学习与Lucas-Kanade算法相结合，以解决FBLK的缺点。其关键思想是获取大数据来训练一个卷积神经网络（CNN），该网络添加了一个Lucas-Kanade层。CNN学习数据驱动的特征，Lucas-Kanade层执行逆组合Lucas-Kanade算法[3]。图1描述了我们的网络架构.我们的Lucas-Kanade层是可重构的，这使我们能够通过标准的反向传播算法来训练我们的网络。我们的网络结合了CNN和Lucas-Kanade算法的优势。CNN提供了学习功能的能力，这些功能对于对齐和对光度变化都很有用。Lucas-Kanade层提供实现子像素精度的能力。在训练中，我们使用铰链损失来有效地训练我们的网络。此外，为了解决大运动的问题，我们提出了一种级联特征学习方法，该方法以级联方式学习卷积特征的金字塔表示。产生的模型是一个级联的卢卡斯-卡纳德网络（CLKN），执行粗到精的功能金字塔对齐。我们的方法适用于任何参数运动的卢卡斯-卡纳德算法支持。在本文中，我们将我们的模型应用于单应性估计任务，该任务在图像处理和增强现实中具有重要应用[23]，例如图像拼接[27]，视频稳定[19]和平面对象跟踪[4]。通过在MS-COCO图像上生成随机单应性扭曲[18]，我们构建了一个大型标记数据集，用于ho-利用CNN的力量来解决几何计算机视觉问题。DeTone等人[10]提出了用于单应性估计的深度单应性网络，这与我们的工作最相关。他们训练了一个VGG风格的CNN来直接回归两个图像之间的单应性。然而，他们的CNN模型无法达到亚像素精度。贡献总结综上所述，我们的工作主要做了以下三个方面的工作：按钮：1. 我们提出了一种新的网络架构，该架构对卷积特征执行Lucas-Kanade算法2. 我们的级联特征学习方法使我们的网络能够执行从粗到精的对齐。3. 实验结果表明，该方法的性能明显优于其他方法。该方法具有更大的收敛范围和更高的亚像素精度.2. 模型架构给定输入图像I和模板图像T，我们的目标是通过估计I和T之间的潜在参数运动来使这两个图像对齐。I和T之间的运动模型由通过矢量p参数化的扭曲函数W（x;p）表示。 W需要a像素x= [x，y]T，并将其映射到输入图像坐标中的子像素位置x′=[x′，y′]T=W（x;p）一个单应性有八个部分-参数p =[p1，...，p8]T，可以参数化为[3]运动估计我们训练并评估了我们的模型在这个数据集上。实验结果表明，该方法能达到亚像素级的精度，对颜色变化具有较强的鲁棒性W（x;p）=11 +p7x+p8yΣΣ（1 +p1）x+p 2y+p 3p4x+（1 +p 5）y+p 6 .（一）和大的运动。相关工作我们回顾了以前的工作相关的发展，我们的方法。Szeliski[26]提供了基于特征的方法和基于像素的方法的全面概述。Baker等人[3]提出了Lucas-Kanade算法及其变体的统一框架。在直接图像对齐中采用手工特征描述符的想法最近在3D模型跟踪[8]、面部图像对齐[2]和模板跟踪[1]中进行了探索。Crivel- laro和Lepetit [8]开发了一种基于导数的特征描述器，用于直接对齐，以解决镜面反射和低纹理问题。Antonakos等人[2]提出了Lucas-Kanade算法和主动外观模型（AAM）的手工特征描述符的使用他们试验了各种特征描述符，并证明SIFT和HOG是最有效的。Alismail等人[1]提出了位平面，一种用于剧烈光照变化下实时跟踪的二进制描述符。最近，人们越来越关注这一问题--我们的模型包括两个阶段：第一阶段包含两个CNN，用于提取I和T的多通道特征图。第二阶段是Lucas-Kanade层，其对这两个特征图执行逆合成Lucas-Kanade算法以估计运动参数p。2.1. 卷积神经网络我们通过使用两个具有共享权重的CNN来提取I和T我们在这里使用的CNN是完全卷积的[20]，因此可以接受任意大小的输入。每个卷积层后面是一个校正线性单元（ReLU）[24]，然后是一个批归一化[16]。在卷积层中，我们使用一组3×3可学习过滤器如果所有过滤器的步幅都为1，则输出的特征图是全分辨率的。如果一个失败者-需要一个因子为2k的pled特征图，我们通过将前k个卷积层设置为具有步幅来实现这一点2. 我们将I和T的输出特征图表示为T，分别。2215i=1i=1（a）计算J翘曲雅可比矩阵当量（十）当量(6)（&九）双线性采样器扭曲减去整形网格生成器（b）计算r逆组合物图2. 我们的Lucas-Kanade层的完整示意图，它执行逆组合Lucas-Kanade算法。(a)雅可比矩阵J是从模板特征图的翘曲雅可比矩阵和空间梯度构造的。(b)残差向量r是根据模板特征图与变形的输入特征图之间的差而重新整形的向量。2.2. Lucas Kanade图层通过将输入特征图FI、模板特征图FT和初始运动作为输入，Lucas-Kanade层执行Lucas-Kanade算法并输出估计的运动参数p。图2描述了我们的Lucas-Kanade层。在下文中，我们简要回顾基于特征的Lucas-Kanade算法，然后描述Lucas-Kanade层的细节。基于特征的Lucas-Kanade算法的目标是找到然后通过逆合成将运动参数更新为W（x; p）<$W（x; p）<$W（x; p）−1。（四）逆合成Lucas-Kanade算法利用Gauss-Newton方法优化了E（λp）。首先通过对FT（W（x;n p））在np=0处执行一阶泰勒展开来近似E（np），然后它具有以下封闭形式的解[3]：使运动参数p最小化以下误差函数：1Σ2ΣP=H−1J（x）T（FI（W（x;p））−FTx∈Ω（x））。（五）E（p）=2<$FT（x）−FI（W（x;p））<$.（二）这里，J（x）是FT（W（x;n p））的雅可比矩阵，x∈Ωp=0。 H =x∈ J（x）TJ（x）是Hessian矩阵。在这里，规则网格N ={xi}N={（xi，yi）}N是等式5可以重写为更紧凑的形式。为了实现这一点，我们引入了两个符号：残差模板图像中的像素位置的集合，并且N是模板图像像素数E（p）表示和向量r和雅可比矩阵J。它们被定义为模板特征图之间的平方误差FT（x）ΣJ=J（x1）T···J（XN）TT（6）以及变形的输入特征图FI（W（x;p））。F（W（x;p））−F（x）最小化E（p）是一个非线性优化问题，因为特征图FI（x）是高度非线性的。我r=01T1..。（七）像素坐标x。为了优化E（p），Lucas-Kanade算法假设初始运动已知，然后迭代地求解增量式更新BQP。特别地，我们通过使用逆组合优化E（p）FI（W（xN;p））−FT（xN）利用J和r，等式5中的更新公式可以重写为：算法[3]，其最小化以下误差函数：问题：∆p= .JTΣ−1J2216JTr.（八）E（λp）=1 Σ2 x∈Ω2<$FT（W（x;p））−FI（W（x;p））<$（三）等式8表示Lucas-Kanade层的主要计算，其需要计算J和r，然后2217.布吕普将它们组合成BLP。在下文中，我们将解释Lucas-Kanade层的细节。计算J。如等式6所示，J由{J（x）}x∈N的垂直级联构造。根据J（x）的定义和链式规则，我们有.迭代次数。一般来说，Lucas-Kanade al-tain需要运行多次迭代来找到真正的运动。收敛所需的迭代次数各不相同，通常取决于图像之间的运动幅度。运动较大的图像通常需要大量的迭代，而运动较小的图像通常需要大量的迭代，J（x）=FT（W（x;p））。.p=0可以在几个步骤中收敛。因此，更有理由-.能够以自适应的方式设置迭代次数，=F T（x′）.n（x; p）.将其设置为一个固定的数字。我们的Lucas-Kanade层充当nxx′ =W（x， 0）=xnp.p=0就像卢卡斯-卡纳德算法一样，=100000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000W（x）· （x;0），（9）2218布吕普Xi=1∆ΣΣ不当运动参数的变化低于阈值时，或者当超过最大迭代次数时，其迭代过程。它是空间梯度的乘积，Warp Jacobian矩阵Wr（x;0）。FT（x）= F（x），FT（x）是C×2矩阵，其中C是FT的通道数。翘曲雅可比矩阵完全取决于运动模型的类型及其参数化。考虑参数化为等式1的单应性，则其对应的扭曲矩阵求逆等式8和12都需要计算矩阵逆，这是可微分运算。由于需要反向传播算法来导出梯度，我们在下面给出矩阵梯度的公式考虑一个方阵A，它的逆矩阵W=A−1，以及损失函数L，则RSL和RSL是雅可比矩阵写成[3]Σ[25]第25话AW（x;0）=布吕普.（十）LA=−A−TLA−TW.（十三）结果J是CN×8矩阵。因为J是独立的。对于p，我们计算J一次，并在每次迭代中重复使用它康比特河等式7中的r的主要计算来自扭曲的输入特征图 FI （W （ x;p）），其需要在子像素位置W（x;p）处内插FI。它可以使用空间变换器网络来实现[17]。空间Transformer层由网格生成器和双线性采样器组成。在这里，网格生成器充当扭曲函数W，在我们的情况下，这是一个homography它取运动参数p和规则网格n ={xi}N作为输入，并输出总而言之，我们的Lucas-Kanade层首先计算J和r，然后将它们组合成Pwp（公式8），最后执行逆合成（公式12）以更新p。3. 学习在本节中，我们首先描述用于训练网络的损失函数然后，我们描述了我们的级联特征学习方法，它结合了粗到精采样网格N′={W（xi;p）}N. 然后，一个双线性sam-策略融入学习过程。普勒拿了一个i=1和FI作为输入，并呈现扭曲的输入特征图FI（W（x;p））。逆合成。给定计算出的pkp，我们然后执行等式4中的逆合成以更新p。首先，如等式1所参数化的单应性也可以由3 ×3单应性矩阵表示为：1+p1p2p33.1. 损失函数训练Lucas-Kanade网络具有挑战性，因为训练可能需要动态数量的迭代。为了解决这个问题，我们建议用一个专门设计的损失函数来训练一个单步Lucas-Kanade网络。考虑地面实况运动P（1）和序列P（1），P（2），.，p（t）是通过运行多个p41+p5p6p7p81（十一）在Lucas-Kanade层中进行迭代（或步骤）。为了验证基本事实，我们希望每一步都能我们分别将p和np的对应单应矩阵表示为Hp和Hn p然后，单应性的逆合成可以写为：Hp←HpH−1。（十二）最后，缩放Hp，使得Hp[3，3]= 1，并且我们获得更新的p。mak e进展方面的距离p，即。例如，d（p（t+1），p）d（p（t），p），（14）其中d是测量两个运动模型之间的不相似性的距离函数。设e1，...，e4是模板图像的四个角位置，并且我们通过翘曲的角的平方距离的和来定义d（p1，p2）Xy10 00 −x2−xy000X y1 −xy−y22219输入图像模板图像图3.三电平CLKN的原理图详情请参见正文纳斯阿斯图4. 数据生成。初始扭曲W（x;p0）将深色正方形映射到蓝色正方形。地面真值warpW（x;p）将黑色正方形映射到绿色四边形，扰乱蓝色正方形的四个角每个角的扰动范围显示为灰色正方形。模板图像T由T（x）<$I（W（x;p<$））渲染。图3示出了3级CLKN的图。在每个阶段k= 1. 在级联中的K，在k级的CNN，分别来自I和T的束特征图F（k）和F（k），I TΣ4d（p，p）=<$W（e;p）−W（e;p）<$2。（十五）活泼地特别地，CNN产生输出特征12j1j22下采样因子为2K-k的贴图。基于F（k），j=1F（k）我p（k-1），这是以前的卢卡斯-卡纳德网，基于等式14，我们提出用以下0-1损失训练一步不工作新的运动估计p（k）。L01（p0，p，p）=ΣΣd（p，p）>d（p0，p）−δ.（十六）在训练阶段，这些K个CNN以从粗到细的方式依次一个接一个地学习。更具体-在此，p0、p1和p2是相对于速度的初始、估计和地面实况运动参数。δ[·]是指标函数，δ∈R+是控制在一步中实现的期望改进量的裕度超参数。由于0-1损失难以优化，我们通过铰链损失来近似：L（p0，p，p）=max（0，1+δ+d（p，p）−d（p0，p））.（十七）铰链损失是0-1损失的凸上界。此外，当δ足够大时，最小化铰链损失减少到最小化d（p，p）。在训练阶段，我们的网络被强制运行单-GLE迭代，并通过铰链损失进行训练。在测试阶段，我们的网络与Lucas-Kanade算法相同，它运行多次迭代，直到满足停止条件。3.2. 级联特征学习为了解决大运动的问题，我们提出了一个级联的特征学习方法，它将粗到精的策略纳入我们的学习过程。特别地，我们的目标是通过特征金字塔来表示图像，其中每个特征图都是从与该级别相关联的CNN的前向传递中获得的然后，我们执行卢卡斯- Kanade算法顺序从粗到细的水平。这样的过程可以等效地由级联卢卡斯-卡纳德网络（CLKN）表示，该级联卢卡斯-卡纳德网络是渐进地细化运动参数的估计的卢卡斯-卡纳德网络最后，在原始训练集{（T，I，p0，p0）}上训练金字塔顶层（k = 1）的CNN。p0为初始运动参数，p2为地面参数真相动议对于其他水平，k=。二... K，在训练集上训练CN_N_v_v_k （T，I，p（k−1），p）其中p（k−1）是第k−1阶段的结果，初始运动在阶段k中的作用。3.3. 数据集生成从头开始训练CNN需要大量标记的训练数据。在我们的例子中，我们的目标是构建一个大的标记集，其中每个样本是一个四元组（T，I，p0，p）。我们的数据生成过程是基于DeTone等人的。s work [10]. 这使我们能够与他们的方法进行直接比较。我们在图4中说明了数据生成的过程，并在下面描述了其细节。我们通过对MS-COCO图像应用随机单应性生成了大量标记示例[18]。为了从图像中生成训练样本，我们首先对该图像进行下采样，使得较短的边是240.然后我们随机裁剪一个大小为192×192的正方形窗口，并将其指定为输入图像I。接下来，我们将初始扭曲W（x;p0）定义为将模板图像的域映射到正方形win的以I为中心的dow（图4中的蓝色方块）。然后，我们随机扰动窗口的四个角，通过使用内的均匀分布来构造四边形。x和y值的范围[−β，β]。β设定为32。类似地，我们将地面真值warpW（x;p≠）定义为：美国有线电视新闻网1CNN1美国有线电视新闻网2CNN3CNN3Lucas-Kanade层Lucas-Kanade层Lucas-Kanade层22204我不我不图5. 我们的训练集中的代表性示例，该训练集是从MS-COCO数据集生成的。将模板边界（图4中的黑色方块）映射到四边形（图4中的绿色方块）的单应性。最后 y ， T 由 I （ W（x;p≠））生成，其尺寸为128×128。为了避免不切实际的形状扭曲，导出的单应性，四边形的最大角度在随机扰动过程中，横向被限制为小于3π。同形图hyW（x;px）可以被解释为从正面视图到非正面视图观看2D自然图像。为了创建一个更真实和更具挑战性的数据集，我们进一步合成了I和T之间的光度变化。我们从I和T中随机选择一个，并操纵它的颜色。在[15]之后，我们增强亮度，对比度和饱和度，数量在0. 五比一五是随机排序。然后，我们加入标准偏差为0的高斯噪声。02在我和T。图5显示了我们的训练图像的一些代表性示例。我们分别从MS-COCO数据集的相应数据集创建了训练集、验证集和测试集我们使用MS-COCO的整个训练集来构建我们的训练集（82K图像）。对于我们的验证/测试集，我们使用MS-COCO的子集，其中6。4K图像。4. 实验评价指标。基于[3]和[10]，我们使用角误差作为我们的评估指标，定义为1Σ4表1. CLKN的超参数设置。d：下采样因子。T-size：模板特征图的大小。 L：CNN中卷积层的数量。LR：学习率。α：设置裕度超参数δ所需的角误差减小量。X2：Lucas-Kanade层中的停止阈值（像素）。显示了每种实验方法的性能此外，我们还通过测试样本成功收敛的百分比来衡量对准精度.在文献[3]的基础上，我们定义了一个测试样本是成功收敛的，如果它的角点误差小于1。0像素。实作详细数据。我们的CKLN中的阶段数设置为4。这个超参数的影响将在本节的最后更详细地讨论对于k= 1的CNN，K，它的所有卷积层都有64个滤波器，除了最后一层，它有C个滤波器来产生C个通道的输出特征图。我们将C= 4设置为准确性和效率之间的良好折衷此外，前K-k个卷积层被设置为步幅为2，以产生因子为2K-k的下采样特征图。对于Lucas-Kanade层中的停止准则，运动参数的变化由原始分辨率下的角误差（等式18）测量。每个Lucas-Kanade层的最大迭代次数设置为20，这在我们的实验中已经足够了。对于方程17中的铰链损失，Ginδ由角误差驱动。如果每个角都减小其L2误差为αpi× els，则这种改进量对应于δ=d（p0，p0）-max（0，d（p0，p）−2α）2.我们利用开源的Torch框架[7]来实现所提出的方法。我们使用NVIDIA GeForce GTX TITAN X GPU训练我们的网络。用大约25个小时的时间来训练我们的网络，有四个级别，每个级别训练50个epoch。我们网络ec（p，p≠）=4j=1<$W（ej;p）−W（ej;p<$）<$2。（十八）通过随机梯度下降来训练。我们进行了预处理通过标准归一化（减去平均值并除以标准偏差）来处理图像。小批量角点误差测量翘曲的四个角，然后取四个角的平均值。注意，e c与等式15中的距离函数d相似但不同。ec测量像素数的平均L2距离，而d测量平方距离（作为铰链损失的一部分）。我们计算每个测试样本的角点误差，然后绘制测试集的累积误差分布，为64.网络的参数由He的方法初始化[14]。表1. 列出了CLKN的超参数设置。超参数是通过评估验证集上的平均0-1损失（公式16）来确定的我们在最后一级使用了较浅的CNN（三层），以减少内存使用和训练时间。我们发现，这样的CNN足以将粗略对齐的图像带入亚像素对齐。水平DT型尺寸LLRαǫ184× 16× 1675 ×10−64.03.5244× 32× 3271 ×10−54.01.0324× 64× 6471 ×10−41.00.1414×128 × 12831 ×10−40.10.05222110.90.80.70.60.50.40.30.20.100.010.11 10角点误差（像素）100204810245122561286432168421IC-LK（1level）IC-LK（2级）IC-LK（3levels）0 20 40 60 80 100 120 140 160 180 200收敛所需的迭代次数图6. 在测试集上与我们的方法和IC-LK算法进行了比较。左：累积误差分布。X轴是对数标度的角误差，Y轴是测试图像数量的分数。右：成功收敛所需迭代次数的直方图（即，角误差小于1。0像素）。X轴是用于收敛的迭代次数。Y轴是对数标度的测试图像数量。10.90.80.70.60.50.40.30.20.100.010.11 10角点误差（像素）1001. SIFT-LK[2]：一种基于特征的Lucas-Kanade方法，在密集的SIFT特征上执行逆组合(We实现了自己的方法）。2. SIFT+RANSAC[13]：一种基于特征的方法，提取SIFT特征点，执行稀疏特征匹配，然后应用具有RANSAC的直接线性变换（DLT）来估计单应性。(We使用OpenCV库中的实现3. DHN[10]：一种基于深度学习的方法，图7.给出了本文方法和四种典型方法在测试集上的累积误差分布。与Lucas-Kanade 算法的比较我们首先将我们的方法（CLKN）与逆合成Lucas-Kanade（IC-LK）算法[3]进行比较。IC-LK采用由粗到精的策略来处理大运动。在该实验中评估了三个不同数量的金字塔级别。图6（左）显示了CLKN和IC-LK的累积误差分布。我们还显示了角误差的分布使用的初始运动参数p0作为估计的。结果表明，我们的方法的性能明显优于IC-LK。可以看出，IC-LK采用由粗到精的策略并没有提高收敛范围。主要原因是下采样图像之间的运动幅度仍然太大，这使得IC-LK给出大但不准确的图6（右）显示了迭代次数的直方图，我们可以看到我们的方法需要更少的迭代来收敛。与其他方法的比较。我们比较了以下三种代表性的方法：VGG风格的CNN直接回归单应性。(We实现他们的方法，并在我们的训练集上训练他们的图7显示了我们的方法与上述方法的比较。IC-LK（1级）作为一种基于像素的方法，也包括在比较中。由于其对颜色变化的鲁棒性，SIFT-LK在阈值3处比IC-LK享有更高的准确度然而，与IC-LK相比，SIFT-LK的对准精度较低。IC-LK和SIFT-LK在大幅度运动时均会退化。SIFT+RANSAC在对准精度方面是第二好的，而它在处理低纹理图像时经常失败。在这些方法中，DHN在所有测试样本中表现最一致。不过，也只能给出一个大概的定位。原因可能是其网络架构对于单应性估计的任务而言是次优的。我们的方法明显优于所有的竞争方法。我们的成功在于数据驱动特征的金字塔表示，它在不同的情况下有效地学习/提取特征。特征金字塔的可视化。在图8中，我们展示了我们学习的金字塔代表的例子。不同同一级别的要素地图侧重于不同方面ULTRA-LK（1level）IC-LK（2级）IC-LK（3levels）CLKN图像数量的分数公司简介SIFT-LKDHNSIFT+RANSACCLKN图像数量的分数数量的图像2222图片3x192x192第一层4x24x24（粗）第二层4x48x48第三层4x96x96第四层4x192x192（finest）图8.我们的4级卷积特征金字塔的代表性示例，其中每一级都是一个4通道特征图。#水平#参数迭代次数时间（ms）379岁。1K十五岁62654九十八0K十三岁92605一百一十六9K19号。6304表2. 不同金字塔层数的CLKN性能分析。突出信息，相互补充。第1级和第2级的CNN捕获中级语义信息，10.90.80.70.60.50.40.30.20.100.010.1110角点误差（像素）例如对象部分，并以空间平滑的方式渲染特征图。另一方面，第3级和第4级的CNN捕获语义边缘信息以及精细尺度结构。金字塔的层数。在我们的方法中，金字塔的层数是一个重要的超参数。我们评估了不同数量的金字塔等级，结果如图9所示。使用3层金字塔已经超越了所有竞争方法。采用四电平进一步提高了对准精度。使用更多的金字塔等级（例如，5）可能会降低准确性。原因在于，随着阶段一的特征图变得更小， Lucas-Kanade层具有更少的信息来执行对齐。表2总结了性能分析。我们将金字塔的层数设置为4，因为它在准确性和效率方面都达到了最佳性能。图9.不同金字塔层数的CLKN的累积误差分布5. 结论在本文中，我们提出了一种新的网络架构，执行卢卡斯-Kanade算法的卷积特征映射。采用我们的级联特征学习方法会导致级联Lucas-Kanade网络，该网络以粗到细的方式执行对齐。实验结果表明，我们的金字塔表示显着提高了Lucas-Kanade算法的收敛范围。在未来的工作中，我们计划将我们的模型应用于其他任务，如非刚性配准和多模态图像匹配。CLKN（3级）CLKN（4级）CLKN（5个级图像数量的分数2223引用[1] H.阿利斯梅尔湾Browning和S.露西在弱光和突然光照变化下的鲁棒跟踪。在3DV，2016年。[2] E. Antonakos，J. Alabort-i Medina，G. Tzimiropoulos，以及S. P. Zafeiriou。基于Lucas-Kanade和主动应用模型。IEEE Transactions on Image Processing，2015。[3] S.贝克和我马修斯Lucas-Kanade 20年：统一的框架。IJCV，2004年。[4] S. Benhimane和E.马利斯使用有效的二阶最小化的实时基于图像的飞机跟踪。InIROS，2004.[5] M. Brown和D. G.洛使用不变特征的自动全景图像拼接。IJCV，2007年。[6] A. Bruhn，J. Weickert和C. Sch norérr. Lucas/Kanade遇到Horn/Schunck：结合局部和全局光流方法。IJCV，2005年。[7] R. Collobert，K. Kavukcuoglu和C.法拉比特Torch7：类似matlab的机器学习环境。BigLearn，NIPS Workshop，2011年。[8] A. Crivellaro和V.莱珀蒂强大的3D跟踪与描述符字段。CVPR，2014。[9] N. Dalal和B. Triggs用于人体检测的定向梯度直方图在CVPR，2005年。[10] D. DeTone，T.Malisiewicz和A.拉比诺维奇。深度图像单应性估计。arXiv：1606.03798，2016。[11] J. Engel，T. Scho ¨ ps和D. 克莱姆斯LSD-SLAM：大规模直接单眼SLAM。2014年，在ECCV[12] C. Forster，M. Pizzoli和D.斯卡拉穆扎SVO：快速半直接单眼视觉里程计.InICRA，2014.[13] R. Hartley和A.齐瑟曼。计算机视觉中的多视图几何。剑桥大学出版社，2003年。[14] K.他，X。Zhang，S. Ren和J. Sun.深入研究整流器：在imagenet分类上超越人类水平的性能在ICCV，2015年。[15] A. G.霍华德基于深度卷积神经网络的图像分类的一些改进。arXiv：1312.5402，2013年。[16] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML，2015。[17] M. Jaderberg，K. Simonyan、A. 泽瑟曼，K. Kavukcuoglu空间Transformer网络。在NIPS，2015年。[18] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Dolla'r 和 C.L. 齐特尼克Microsoftcoco ：上下文中的通用对象。 2014 年，在ECCV[19] S.柳湖，加-地Yuan，P. Tan，and J.太阳Steadyflow：用于视频稳定的空间平滑光流。CVPR，2014。[20] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR，2015。[21] D. G.洛从尺度不变的关键点中提取独特的图像特征。国际计算机视觉杂志，2004。[22] B. D. Lucas和T.卡纳德一种迭代图像配准技术及其在立体视觉中的应用载于IJCAI，1981年。2224[23] E. Marchand，H.Uchiyama和F.斯平德勒增强现实的姿态估计：实践调查。IEEE Transactions on Visualizationand Computer Graphics，2016。[24] V. Nair和G. E.辛顿校正线性单元改进了受限玻尔兹曼机。ICML，2010年。[25] K. B. Petersen和M. S.佩德森。黑客帝国食谱。丹麦技术大学，2008年。[26] R. 塞利斯基图像对齐和拼接：教程。基金会和TrendSRinComputerG r aphicsandVision，2006.[27] J. Zaragoza，T. J. Chin，M. S. Brown和D.苏特使用移动DLT实现尽可能投影的图像拼接。CVPR，2013。

下载后可阅读完整内容，剩余1页未读，立即下载