Kanade光流算法的空间变换网络

72 浏览量更新于2023-10-15 收藏 12.46MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

125680Inverse Compositional Spatial Transformer Networks0Chen-Hsuan Lin Simon Lucey TheRobotics Institute CarnegieMellon University0chenhsul@andrew.cmu.edu slucey@cs.cmu.edu0摘要0在本文中，我们建立了经典的Lucas & Kanade(LK)算法与新兴的空间变换网络（STNs）之间的理论联系。由于STNs在同一理论框架中自然地结合了对齐和分类的能力，因此STNs对视觉和学习社区具有很大的兴趣。受LK算法的Inverse Compositional(IC)变体的启发，我们提出了Inverse CompositionalSpatial Transformer Networks(IC-STNs)。我们证明了IC-STNs可以在比传统STNs更少的模型容量下实现更好的性能；特别是在纯图像对齐任务以及现实世界问题的联合对齐/分类问题上展现出卓越的性能。01. 引言0深度学习的最新快速进展使得通过卷积神经网络（CNNs）学习复杂函数成为可能，CNNs在众多计算机视觉任务中取得了最先进的性能[9, 17,4]。大多数网络通过以下方式来容忍空间变化：(a)空间池化层和/或(b)数据增强技术[16]；然而，这些方法都有一些缺点。数据增强（即根据已知噪声模型合成生成新的训练样本的几何失真）可能是增加视觉学习系统中空间容忍度的最古老和最知名的策略。然而，这会导致训练样本数量的指数增加，从而增加了模型的容量。空间池化操作可以在一定程度上缓解这个问题，因为它们在网络架构中自然地编码了空间不变性，并使用子采样来减少模型的容量。然而，它们对几何变化的容忍度有固有的有限范围；此外，这些池化操作破坏了图像中可能对后续任务的性能至关重要的空间细节。0与其设计一个仅仅给予空间变化容忍度的网络，另一个选择是让网络解决输入图像中的一些几何失真[12,6]。然而，这种策略只有在具有较低的容量和计算成本以及比传统的空间不变CNNs更好的性能时才有意义。空间变换网络（STNs）[7]是将低容量和计算效率高的策略与传统CNNs解决几何失真的尝试之一。Jaderberg等人提出了一种将图像变形整合到神经网络中的新策略，并展示了这种操作是（次）可微分的，从而可以将标准反向传播应用于图像变形框架。0在计算机视觉中，学习图像外观和几何失真之间的低容量关系的问题并不新鲜。三十多年前，Lucas & Kanade (LK)[14]提出了梯度下降图像对齐的开创性算法。LK算法可以解释为多个对齐模块的前馈网络；具体来说，每个对齐模块包含一个低容量的预测器（通常是线性的），用于从相对图像外观预测几何失真，然后是图像重采样/变形操作。然而，LK算法与STNs在应用上有根本的区别：图像/对象对齐而不是分类。0将应用程序放在一边，LK和STN框架具有相似的特征，但有一个关键的例外。在具有多个前馈对齐模块的STN中，前一个对齐模块的输出图像直接输入到下一个对齐模块中。正如我们将在本文中展示的那样，这是有问题的，因为随着几何预测层数的增加，它可能会产生不需要的边界效应。LK算法不会遇到这样的问题；相反，它将变形参数通过网络传递（而不是变形后的图像），以便网络中的每个后续对齐模块重新采样原始输入源图像。此外，LK算法的InverseCompositional (IC)变体[2]已经证明可以实现等效的效果。min∆p ∥I(p + ∆p) − T (0)∥22 ,(1)min∆p��I(p) + ∂I(p)∂p∆p − T (0)��22.(2)min∆p ∥I(p) − T (∆p)∥22 ,(3)min∆p��I(p) − T (0) − ∂T (0)∂p∆p��22.(4)∆p =�∂T (0)∂p�†(I(p) − T (0)) ,(5)∆p = R · I(p) + b,(6)25690通过在组合更新形式中重复使用相同的几何预测器，实现了有效的对齐。受IC-LK算法的启发，我们提出了对STN框架的改进扩展，(a)通过网络传播warp参数，而不是图像强度，并且(b)使用相同的几何预测器，可以重新应用于所有对齐模块。我们提出了逆组合空间变换网络(IC-STNs)，并展示了它在纯图像对齐和联合对齐/分类问题等各种任务中的优越性能。我们将本文组织如下：在第2节中，我们对高效图像/物体对齐进行了一般回顾，在第3节中概述了空间变换网络。我们在第4节中详细描述了我们提出的IC-STNs，并在第5节中展示了不同应用的实验结果。最后，在第6节中得出结论。02. 高效的图像和物体对齐0在本节中，我们回顾了高效和低容量图像/物体对齐的常规方法。02.1. Lucas & Kanade算法0Lucas & Kanade(LK)算法[14]是解决图像和物体稠密对齐问题的一种流行方法。对于由warp参数p参数化的几何变换函数，可以将LK算法表达为在图像空间中最小化平方差和(SSD)目标函数，0其中I是源图像，T是要对齐的模板图像，∆p是正在估计的warp更新。在这里，我们将I ( p)表示为用参数p扭曲的图像I。LK算法假设外观和几何位移之间存在近似线性关系；具体来说，它通过对一阶泰勒近似进行线性化(1)0因此，通过p ← p + ∆ p 进行加法更新warp参数，可以看作是一种拟牛顿更新。项∂ I (p )0∂p，称为最陡下降图像，是图像梯度和预定义的warp雅可比矩阵的组合，其中图像梯度通常通过有限差分估计。由于外观和几何之间的真实关系很少是线性的，必须迭代地估计和应用warp更新∆ p，直到达到收敛。0使用加法更新warp参数的经典LK公式存在一个基本问题，即∂ I ( p )0对于每次迭代，必须在重新扭曲的图像上重新计算∂p，这对计算效率产生了很大影响。Baker和Matthews[2]设计了一种计算效率高的LK算法变体，称为逆组合(IC)算法。IC-LK算法将(1)重新表达为对模板图像进行warp更新的预测，写作0线性最小二乘解为0最小二乘解为0其中上标†表示Moore-Penrose伪逆算子。然后进行逆组合更新p ← p ◦ (∆ p ) −1，其中我们将符号◦缩写为由p参数化的warp函数的组合，(∆ p ) − 1是由∆p参数化的逆warp函数的参数。(2)和(4)的解具有线性回归的形式，可以更一般地表示为0其中R是一个线性回归器，建立了外观和几何之间的线性关系，b是偏置项。因此，LK和IC-LK可以解释为属于级联线性回归方法的类别，用于图像对齐。已经证明[2]，LK的IC形式与原始形式等效；IC形式的优势在于计算固定最陡下降图像∂T(0)的效率。0∂p在最小二乘目标中。具体来说，它在静态模板图像T上以恒等变换p =0进行评估，并且在迭代过程中保持不变，因此得到的线性回归器R也是如此。这为固定的几何更新预测器在迭代图像/对象对齐策略中成功应用提供了重要的理论概念证明，进一步减少了不必要的模型容量。02.2. 从数据中学习对齐0更一般地，可以通过学习数据来学习级联回归方法以实现对齐，前提是已知变形位移的分布。一个值得注意的例子是监督下降法（SDM）[19]，它旨在从数据中学习一系列线性几何预测器{R，b}。SDM的学习目标的公式为minR,bN�n=1M�j=1∥δpn,j − R · In(pn ◦ δpn,j) − b∥22 ,(7)25700这种方法的一个例子是监督下降法（SDM）[19]，它旨在从数据中学习一系列线性几何预测器{R，b}。SDM的学习目标的公式为0其中δp是从已知生成分布中使用蒙特卡洛采样得到的几何位移，M是每个图像的合成示例数。这里，图像外观I通常用图像的预定义特征提取函数（例如SIFT [13]或HOG[3]）替换。这个最小二乘目标通常通过添加正则化（例如岭回归）来求解，以确保良好的矩阵条件。SDM是以顺序方式学习的，即从相同的生成分布中绘制用于学习下一个线性模型的训练数据，并通过先前学习的回归器应用。这是一种简单而有效的方法，适用于各种对齐任务，导致了大量类似框架的变体[15，1，11]。像LK和IC-LK算法一样，SDM是利用多个低容量模型建立外观和几何之间的非线性关系的另一个例子。我们引起读者对[11]的注意，以了解LK和SDM之间更正式的联系。人们普遍认为，如果数据之间的不对齐被消除，计算机视觉问题可以更高效地解决。尽管SDM从数据中学习对齐，并在应用每个线性模型后保证最优解，但不清楚这种以贪婪方式学习的对齐是否对后续任务（例如分类）最优。为了在最终目标上进行优化，更有利的做法是将模型参数化为深度神经网络，并使用反向传播来优化整个模型。03. 空间变换网络0在迅速崛起的深度学习领域中，随着可用数据的爆炸性增长，深度神经网络在各种视觉问题中取得了巨大成功。然而，在给定数据中解决几何变化的方法还没有一个原则性的方法。最近提出的空间变换网络[7]对图像或特征图执行空间变换，具有（次）可微分模块。它具有减少数据内部几何变化的效果，并引起了深度学习界的极大关注。在前馈意义上，空间变换器根据输入对图像进行变形。这可以数学化为0图1：空间变换器的网络模块[7]。蓝色箭头表示外观信息的传递，紫色箭头表示几何信息的传递。黄色的3D梯形表示几何预测器，其中包含可学习的参数。0可以写成如下形式：0I out ( 0 ) = I in ( p ) ，其中 p = f ( I in ( 0 )) 。0这里，非线性函数f被参数化为可学习的几何预测器（原始论文中称为定位网络），它从输入图像中预测warp参数。我们注意到原始论文中的“网格生成器”和“采样器”可以合并成一个单一的warp函数。我们可以看到，当几何预测器由一个单一的线性层组成时，f也由一个线性回归器R和一个偏置项b组成，从而使得几何预测器等价于（6）的形式。这个洞察力将STN和LK/SDM框架巧妙地联系在一起。图1显示了STN的基本架构。STN非常有趣，因为它可以学习变换预测，同时还显示出网格采样函数可以（子）可微分，允许在端到端学习框架中进行反向传播。尽管STN与经典的对齐算法有一些相似之处，但与LK/SDM相比存在一些根本性的缺点。首先，它试图直接预测最优的几何变换，而不是利用多个低容量模型在分类之前实现更高效的对齐。尽管已经证明可以在特征图之间插入多个空间变换器，但这种使用对提高性能的效果尚不明确。此外，从（8）可以观察到，在输出图像之后没有保留几何变换p的任何信息；这导致了在输入源图像之外重新采样时的边界效应。关于这一部分的详细处理在第4.1节中提供。在这项工作中，我们旨在通过理论上将其与LK算法相连接来改进STN。我们展示了在深度网络中使用多个低容量模型学习空间变换可以在后续任务中获得显著的改进。我们进一步证明了学习单个几何预测器用于循环变换的有效性，并提出了逆组合空间变换器网络（IC-STNs），在各种问题上相对于原始STN有显著的改进。,(11)25710图2：空间变换器在真实图像上的边界效应。（a）原始图像，绿色框表示裁剪区域。（b）作为空间变换器输入的裁剪图像。（c）放大变换：采样发生在输入图像的范围内。（d）（e）缩小变换：丢弃输入图像外的信息引入了边界效应（STNs），而保持几何信息的情况下则不会出现（c-STNs）。白色虚线框表示从原始图像的变形。04.1. 几何保持04. 逆组合空间变换器（IC-STNs）0在真实图像上的空间变换器的边界效应0原始空间变换器架构的一个主要缺点是输出图像仅从裁剪的输入图像中采样；裁剪区域外的像素信息被丢弃，引入了边界效应。图2说明了这种现象。从图2（d）可以看出，在需要边界框外的像素信息的缩小转换中，这种效应是可见的。这是因为几何信息在空间变换后没有被保留。在迭代对齐的情况下，边界效应会累积到每个缩小转换中。虽然对于具有干净背景的图像来说，这不是一个问题，但对于真实图像来说，这是有问题的。然而，一系列的空间变换可以通过精确的表达式来组合和描述。图3说明了一个改进的对齐模块，我们称之为组合空间变换器（c-STNs）。在这里，几何变换也是由几何预测器预测的，但是保持了warp参数p的跟踪、组合和通过网络传递，而不是通过变换后的图像。重要的是要注意，如果将多个空间变换器级联起来，几何变换将会...0图3：一个保持几何性质的可学习warp模块，称为c-STNs。warp参数通过网络传递，而不是通过warp后的图像。0这些变换通过对图像进行多次重采样来隐式地组合。我们主张这些变换能够并且应该被明确地定义和组合。与图1中的空间变换器模块不同，几何变换在p中保持而不是被吸收到输出图像中。此外，c-STNs允许重复的串联，如图4所示，可以迭代地预测warp的更新。这消除了边界效应，因为裁剪图像外的像素信息也会保留直到最终变换。warp组合的导数也可以用闭式形式数学表达。以图3中的输入和输出warp参数pin和pout为例，以仿射warp为例，参数p = [p1 p2p3 p4 p5 p6] �与齐次坐标中的变换矩阵相关联0M(p) =0�1 + p1 p2 p3 p4 1 p5 p6 0 0 10�. (9)0根据warp组合的定义，warp参数与变换矩阵之间存在关系0M(pout) = M(∆p) ∙ M(pin). (10)0因此，我们可以推导出导数为0∂pout∂pin= I +0�0�0∆ p 1 0 0 ∆ p 2 0 0 0 ∆ p 1 0 0 ∆ p 2 0 0 0 ∆ p 1 0 0 ∆p 2 ∆ p 4 0 0 ∆ p 5 0 0 0 ∆ p 4 0 0 ∆ p 5 0 0 0 ∆ p 4 00 ∆ p 50�0��0∂pout∂∆p= I +0�0�0p in , 1 p in , 4 0 0 0 0 p in , 2p in , 5 0 0 0 0 p in , 3 p in , 60 0 0 0 0 0 0 p in , 1 p in , 4 00 0 0 p in , 2 p in , 5 0 0 0 0 pin , 3 p in , 6 00�0��where I is the identity matrix. This allows the gradients tobackpropagate into the geometric predictor.25720图4：用于迭代对齐框架的多个c-STNs的串联。0∂p在(11)中的表达式与残差网络[4,5]中非常相似，其中梯度包含单位矩阵I和“残差分量”。这表明，由于预测的warp参数∆p很小，从c-STNs预测的warp参数对于消失梯度现象通常不敏感，并且可以通过大量重复warp/composition操作。我们还注意到，c-STNs与经典对齐算法非常相似。如果每个几何预测器由单个线性层组成，即假设外观-几何关系是线性逼近的，则其执行的操作与组合LK算法相同。它还与SDM相关，在每个回归层之前提取启发式特征，如SIFT。因此，c-STNs可以被视为LK和SDM的泛化，不同之处在于用于预测warp更新的特征可以从数据中学习，并纳入端到端学习框架中。04.2. 循环空间变换0在LK算法的所有变体中，IC形式[2]具有一个非常特殊的属性，即线性回归器在迭代过程中保持不变。最陡下降图像∂T(0)0∂pin(5)与输入图像和当前估计的p无关，因此只需要计算一次。在模型容量方面，与规范LK相比，IC-LK进一步减少了必要的可学习参数，因为相同的回归器可以重复应用并在良好初始化的情况下收敛。与规范LK和IC-LK的主要区别在于warp更新∆p应该以逆形式进行组合应用。我们将读者引导到[2]中对IC-LK的全面处理，这超出了本文的范围。这启发我们提出了逆组合空间变换网络（IC-STN）。图5说明了IC-STN的循环模块：warp参数p通过与相同的几何预测器预测的∆p迭代更新。这0图5：提出的逆合成空间变换网络（IC-STN）的示意图。学习相同的几何预测器来预测组合在一起以对输入图像进行扭曲的循环空间变换。0允许递归地预测输入图像上的空间变换。这是由于自然图像中像素强度的空间接近性：接近距离的像素之间存在高度相关性。在IC-LK算法中，预测的变换参数是逆合成的。由于IC-STN几何预测器在端到端学习框架中进行优化，我们可以将反转操作吸收到几何预测器中，而无需显式定义它；换句话说，IC-STN能够直接预测逆参数。在我们的实验中，我们发现在预测的正向参数上明确执行额外的逆操作几乎没有差异，并且隐式地预测逆参数在使用反向传播的端到端学习框架中更加优雅。尽管如此，我们将我们提出的方法命名为逆合成，因为IC-LK是我们的灵感来源。实际上，IC-STN可以通过将图5中的架构多次展开成c-STN（图4）的形式进行训练，共享所有几何预测器的可学习参数，并按照第4.1节中描述的方式进行梯度反向传播。这将产生一个单一的有效几何预测器，在执行最终的适应后续任务（如分类）的扭曲操作之前可以多次应用。25730图6：平面图像对齐实验的图像和扰动训练样本可视化。（a）原始图像，红色框表示真实变换，黄色框表示示例生成的变换。（b）扰动图像的示例（在这种情况下，仿射变换的σ =7.5）。0模型σ = 2.5 σ = 5 σ = 7.5 σ = 100c-STN-1 2.699 5.576 9.491 9.218 IC-STN-20.615 2.268 5.283 5.502 IC-STN-3 0.434 1.0922.877 3.020 IC-STN-4 0.292 0.481 1.476 2.287IC-STN-6 0.027 0.125 0.245 1.3050表1：在不同初始扰动程度下的平面图像对齐实验的测试误差。模型名称后面的数字表示在训练过程中展开的扭曲操作次数。05. 实验05.1. 平面图像对齐0首先，我们探索了IC-STN在单个图像的平面对齐中的有效性。我们从Caffe库[8]中选择了一张示例图像，并使用仿射变换生成了围绕手工标记的真实值的扰动图像，如图6所示。我们使用了大小为50×50像素的图像样本。扰动框是通过将标准差为σ（以像素为单位）的独立同分布的高斯噪声添加到真实框的四个角落，再加上来自相同高斯分布的附加平移噪声，并将框拟合到初始变换参数p上生成的。为了展示在不同噪声量下迭代对齐的有效性，我们考虑了包含不同数量学习的循环变换的IC-STN。我们使用随机梯度下降和每批100个实时生成的扰动训练样本来优化所有网络的L2误差。测试误差如表1所示。从c-STN-1（相当于只展开一个扭曲操作的IC-STN-1）可以看出，单个几何扭曲预测器0图7：训练的IC-STN的评估，每条曲线上的点对应于训练过程中展开的循环变换次数。0dictor的直接预测最优几何变换的能力有限。将几何预测器重用于多个空间变换，可以在相同的模型容量下获得更好的对齐性能。图7显示了学习对齐模块应用的扭曲操作次数与测试误差之间的关系。我们可以看到，即使将循环空间变换应用的次数超过训练次数，误差仍然会持续减小，直到达到饱和点，这通常对于传统的循环神经网络来说是不成立的。这意味着IC-STN能够捕捉外观和几何之间的相关性，以便在学习的成本表面上执行梯度下降以实现成功的对齐。05.2. MNIST分类0在本节中，我们演示了如何在联合对齐/分类任务中使用IC-STN。我们选择了MNIST手写数字数据集[10]，并使用一个同质性变换噪声模型来扰动图像的四个角并用高斯噪声进行平移，标准差均为3.5个像素。我们使用批量大小为100的扰动样本进行200K次迭代的训练。我们选择了分类网络的学习率为10^-2，几何预测器的学习率为10^-4，因为我们发现几何预测器对于大的变化比较敏感。我们使用相同的变换网络对测试集进行分类准确性评估，使用相同的变换噪声模型。我们将IC-STN与几种网络架构进行比较，包括没有空间变换的基线CNN，Jaderberg等人的原始STN和c-STN。所有具有空间变换的网络都采用相同的分类网络。结果以及架构细节列在表2中。我们可以看到，经典的CNN在数据增强下无法有效处理大的空间变化。在数字可能被遮挡的情况下，CNN(a)6.597 %39079conv(3×3, 3)-conv(3×3, 6)-P-conv(3×3, 9)-conv(3×3, 12)-FC(48)-FC(10)STN(a)4.944 %39048[ conv(7×7, 4)-conv(7×7, 8)-P-FC(48)-FC(8) ]×1 → conv(9×9, 3)-FC(10)c-STN-1(a)3.687 %39048[ conv(7×7, 4)-conv(7×7, 8)-P-FC(48)-FC(8) ]×1 → conv(9×9, 3)-FC(10)c-STN-2(a)2.060 %38528[ conv(9×9, 4)-FC(8) ]×2 → conv(9×9, 3)-FC(10)c-STN-4(a)1.476 %37376[ FC(8) ]×4 → conv(9×9, 3)-FC(10)IC-STN-2(a)1.905 %39048[ conv(7×7, 4)-conv(7×7, 8)-P-FC(48)-FC(8) ]×2 → conv(9×9, 3)-FC(10)IC-STN-4(a)1.230 %39048[ conv(7×7, 4)-conv(7×7, 8)-P-FC(48)-FC(8) ]×4 → conv(9×9, 3)-FC(10)CNN(b)19.065 %19610conv(9×9, 2)-conv(9×9, 4)-FC(32)-FC(10)STN(b)9.325 %18536[ FC(8) ]×1 → conv(9×9, 3)-FC(10)c-STN-1(b)8.545 %18536[ FC(8) ]×1 → conv(9×9, 3)-FC(10)IC-STN-4(b)1.703 %18536[ FC(8) ]×4 → conv(9×9, 3)-FC(10)25740模型测试错误率容量架构0IC-STN-2(b) 3.717 % 18536 [ FC(8) ] × 2 → conv(9 × 9, 3)-FC(10)0表2：扰动MNIST测试集的分类错误率。非递归网络具有相似的层数和可学习参数，但扭曲操作的数量不同（加粗显示）。括号中显示了滤波器的尺寸，其中几何预测器的尺寸为绿色，后续分类网络的尺寸为蓝色（P表示2×2最大池化操作）。最佳观看颜色。0图8：IC-STN-4(a)在扰动MNIST测试集上的样本对齐结果，使用同质性变换扰动。每列的第一行显示初始扰动；中间三行显示对齐过程（迭代1到3）；倒数第二行显示进入分类网络之前的最终对齐结果。最后一行显示原始STN的对齐结果：裁剪的数字是边界效应的结果。0然而，为了单个几何变换的深度预测器而牺牲容量会导致性能不佳。引入多个变换器可以显著提高分类准确性；进一步比较c-STN-4(a)和IC-STN-4(b)，我们可以看到IC-STN相对于其非递归对应物能够在大幅减少容量的同时几乎不损失准确性。图8展示了IC-STN学习分类对齐的过程。在许多手写数字被遮挡的情况下，IC-STN能够自动扭曲图像并从原始图像中揭示被遮挡的信息。在对齐过程中还存在平滑的过渡，这与IC-STN学习的递归空间变换概念相一致。此外，我们可以看到原始STN的结果由于第4.1节中描述的边界效应而变成了裁剪的数字。我们还通过在分类之前对测试集外观取平均值和方差来可视化整体最终对齐性能，如图9所示。0原始STN的均值/方差结果成为原始数字的缩小版本，减少了更好分类所需的信息。从c-STN-1可以看出，单个几何预测器在直接预测几何变换方面效果不佳。当在IC-STN中引入更多的扭曲操作时，所有对齐样本之间的方差显著减少。这些结果支持数据内部空间变化的消除对于提升后续任务性能的重要性。05.3. 交通标志分类0在这里，我们展示了IC-STN如何应用于实际的交通标志识别等分类问题。我们使用德国交通标志识别基准[18]进行评估，该基准包含39,209个训练图像和12,630个测试图像，来自43个类别，拍摄条件各异。考虑到许多图像是以运动模糊和/或15×15像素的低分辨率拍摄的，这被认为是一个具有挑战性的任务。我们CNN8.287 %200207conv(7×7, 6)-conv(7×7, 12)-P-conv(7×7, 24)-FC(200)-FC(43)STN6.495 %197343[ conv(7×7, 6)-conv(7×7, 24)-FC(8) ]×1 → conv(7×7, 6)-conv(7×7, 12)-P-FC(43)c-STN-15.011 %197343[ conv(7×7, 6)-conv(7×7, 24)-FC(8) ]×1 → conv(7×7, 6)-conv(7×7, 12)-P-FC(43)IC-STN-24.122 %197343[ conv(7×7, 6)-conv(7×7, 24)-FC(8) ]×2 → conv(7×7, 6)-conv(7×7, 12)-P-FC(43)IC-STN-43.184 %197343[ conv(7×7, 6)-conv(7×7, 24)-FC(8) ]×4 → conv(7×7, 6)-conv(7×7, 12)-P-FC(43)25750模型测试错误率容量架构0表3：扰动GTSRB测试集上的分类错误。架构描述遵循表2中的描述。0图9：测试集的10个类别的对齐外观的均值/方差（单应性扰动）。0图10：IC-STN-4在与原始STN相比的GTSRB测试集上的样本对齐结果。0重新缩放所有图像，并使用Sec.5.2中描述的相同单应性扭曲噪声模型生成36×36像素的扰动样本。分类网络的学习率为10^-3，几何预测器的学习率为10^-5。我们将受控模型容量设置为约200K个可学习参数，并进行类似的MNIST实验比较。表3显示了扰动GTSRB测试集上的分类错误。再次可以看到，IC-STN从学习重用相同的几何预测器中获得了相当大的分类改进。0图11：GTSRB测试集中来自采样类别的平均对齐外观。0图10比较了IC-STN和原始STN在分类网络之前的对齐图像。再次可以看到，IC-STN能够从输入图像中恢复被遮挡的外观。尽管STN仍然试图将扰动图像居中，但遮挡导致的信息缺失降低了其后续的分类性能。我们还在图11中可视化了每个网络的对齐均值外观，可以观察到随着扭曲操作数量的增加，IC-STN的均值外观变得更加清晰，再次表明良好的对齐对于后续的目标任务至关重要。值得注意的是，并非所有的交通标志都被对齐以完全适应边界框内，例如，网络发现将停止标志的最佳对齐为放大的图像，同时排除了八边形形状外的背景信息。这表明在某些情况下，只有标志形状内的像素信息对于实现良好的分类对齐是必要的。06. 结论0在本文中，我们在理论上将Lucas &Kanade算法的核心思想与空间变换网络相连接。我们展示了通过在对齐框架内进行多个空间变换，可以更有效地消除数据中的几何变化。我们提出了逆组合空间变换网络，用于预测重复的空间变换，并展示了与基线CNN和原始STN相比的优越对齐和分类结果。25760参考文献0[1] A. Asthana，S. Zafeiriou，S. Cheng和M.Pantic。野外增量人脸对齐。在计算机视觉和模式识别IEEE会议论文集上，第1859-1866页，2014年。 30[2] S. Baker和I. Matthews。Lucas-kanade20年：一个统一的框架。《国际计算机视觉杂志》，56（3）：221-255，2004年。 1, 2, 50[3] N. Dalal和B.Triggs。用于人体检测的方向梯度直方图。在2005年IEEE计算机学会计算机视觉和模式识别会议（CVPR'05）上，第1卷，第886-893页。IEEE，2005年。 30[4] K. He，X. Zhang，S. Ren和J.Sun。深度残差学习用于图像识别。arXiv预印本arXiv:1512.03385，2015年。 1, 50[5] K. He，X. Zhang，S. Ren和J.Sun。深度残差网络中的身份映射。arXiv预印本arXiv:1603.05027，2016年。 50[6] G. Huang，M. Mattar，H. Lee和E. G.Learned-miller。从头开始学习对齐。在F. Pereira，C. J. C.Burges，L. Bottou和K. Q.Weinberger编辑的《神经信息处理系统进展》第25卷，第764-772页。Curran Associates，Inc.，2012年。 10[7] M. Jaderberg，K. Simonyan，A.Zisserman等人。空间变换网络。在神经信息处理系统进展中，第2017-2025页，2015年。 1, 30[8] Y. Jia，E. Shelhamer，J. Donahue，S. Karayev，J.Long，R. Girshick，S. Guadarrama和T.Darrell。Caffe：用于快速特征嵌入的卷积架构。在第22届ACM国际多媒体会议上，第675-678页。ACM，2014年。 60[9] A. Krizhevsky，I. Sutskever和G. E.Hinton。使用深度卷积神经网络的Imagenet分类。在神经信息处理系统进展中，第1097-1105页，2012年。 10[10] Y. LeCun，C. Cortes和C. J.Burges。手写数字的mnist数据库，1998年。 60[11] C.-H. Lin，R. Zhu和S. Lucey。条件lucas &kanade算法。在欧洲计算机视觉会议（ECCV）上，第793-808页。Springer International Publishing，2016年。 30[12] J. L. Long，N. Zhang和T.Darrell。卷积神经网络是否学习对应关系？在Z. Ghahramani，M.Welling，C. Cortes，N. D. Lawrence和K. Q.Weinberger编辑的《神经信息处理系统进展》第27卷，第1601-1609页。Curran Associates，Inc.，2014年。 10[13] D. G.Lowe。尺度不变关键点的独特图像特征。《国际计算机视觉杂志》，60（2）：91-110，2004年。 30[14] B. D. Lucas，T.Kanade等人。一种应用于立体视觉的迭代图像配准技术。在IJCAI上，第81卷，第674-679页，1981年。 1, 20[15] S. Ren，X. Cao，Y. Wei和J.Sun。通过回归局部二进制特征实现3000fps的人脸对齐。在计算机视觉和模式识别IEEE会议论文集上，第1685-1692页，2014年。 30[16] P. Y. Simard，D. Steinkraus和J. C.Platt。应用于视觉文档分析的卷积神经网络的最佳实践。在ICDAR上，第3卷，第958-962页，2003年。 10[17] K. Simonyan和A.Zisserman。用于大规模图像识别的非常深的卷积网络。arXiv预印本arXiv:1409.1556，2014年。 10[18] J. Stallkamp, M. Schlipsing, J. Salmen, and C. Igel.德国交通标志识别基准：一个多类分类竞赛。在神经网络（IJCNN）上，2011年国际联合会议，第1453-1460页。IEEE，2011年。 70[19] X. Xiong和F. De laTorre。监督下降方法及其在人脸对齐中的应用。在计算机视觉和模式识别IEEE会议论文集上，第532-539页，2013年。 3

下载后可阅读完整内容，剩余1页未读，立即下载