基于显著性的神经网络采样层及其在任务性能改进中的应用

173 浏览量更新于2023-10-13 收藏 1.35MB PDF 举报

神经网络

输入数据

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

学习缩放：一种基于显著性的神经网络采样层Adria`Rec asens*1，PetrKelllnhofer*1，Si monStent2，WojciechMatusik1，和AntonioTorralba1麻省理工学院，Cambridge MA 02139，USA{recasens，pkellnho，wojciech，torralba} @ csail.mit.edu丰田研究所，剑桥，MA，02139，美国simon. tri.global抽象。我们为卷积神经网络引入了一个基于显着性的失真层，它有助于提高给定任务的输入数据的空间采样。我们的可区分层可以作为预处理块添加到现有的任务网络中，并以端到端的方式进行训练。该层的作用是有效地估计如何从原始数据中采样，以提高任务性能。例如，对于图像分类任务，其中原始数据的大小范围可能高达数百万像素，但其中任务网络的期望输入图像要小得多，我们的层学习如何以比均匀下采样更好地保留任务相关信息的方式从底层高分辨率数据中进行最佳这具有产生扭曲的、漫画状的中间图像的效果，其中图像的改善任务表现的特质元素被放大和夸大。与空间Transformer网络等替代方法不同，我们提出的层受到图像显着性的启发，从均匀下采样的数据中高效计算，并在不确定性下优雅地降级为均匀采样策略我们应用我们的层来改进现有的网络，用于人类视线估计和细粒度对象分类的任务我们方法的代码可在http://github.com/recasens/Saliency-Sampler中获得。关键词：任务显著性，图像采样，注意力，空间Transformer，卷积神经网络，深度学习1介绍计算机视觉中使用的许多现代神经网络模型都有输入大小限制[1，2，3，4]。这些限制的存在有各种原因。通过限制输入分辨率，可以控制训练和测试期间所需的时间和计算，并受益于GPU上的高效批处理训练。在某些数据集上，限制输入特征维度还可以通过提高输入空间上的训练样本覆盖率来提高性能∗ ∗2A. Recasens，P. Kellnhofer，S.Stent，W. Matusik和A.TorralbaI. 典型方法Fig. 1. 我们提出的基于显着性的采样层的概述。计算机视觉中的许多任务由任务网络（以绿色示出）来解决，该任务网络对已经从大得多的原始图像I下采样（出于性能原因）的图像II进行操作。对于这样的任务，我是可用的，但未使用，我们表明，使用显着性采样器下采样的图像（而不是统一的下采样）可以导致显着改善任务网络性能的相同架构，以及击败替代采样方法，如边界框建议或空间Transformer网络。我们的采样器是可区分的，可以进行端到端的培训。采样器的作用是发现并放大（或更密集地采样）对任务特别有用的那些区域在凝视估计的情况下，如图所示，采样器将眼睛定位为任务显著区域（S），并在重采样图像（J）中放大它们当目标输入大小小于原始数据集中的图像时，标准方法是均匀地下采样输入图像。也许最著名的例子是在ImageNet大规模视觉识别挑战[5]上训练分类器时常用的224× 224像素输入，尽管原始数据集中存在一系列图像大小虽然均匀下采样在许多情况下简单有效，但对于需要来自不同空间分辨率和位置的信息的任务来说，它可能是有损的在这种情况下，以必要的（可能是不同的）尺度和位置对显著区域进行采样至关重要。人类通过扫视他们的目光来执行这样的任务，以便以混合的方式收集必要的信息高分辨率原始图像低分辨率输入图像任务网络任务输出例如-注视向量-对象类- 属性类二. 显著性抽样法显著网网格生成器任务输出例如-注视向量-对象类- 属性类采样器任务网络学习缩放：基于显着性的神经网络采样层3高敏锐度中心凹视觉和较粗糙的周边视觉的真实性还尝试赋予机器类似形式的采样行为。来自传统计算机视觉的一个流行示例是SIFT[6]，其中在特征提取之前在空间和图像尺度内定位关键点最近，区域建议网络已被广泛用于对象检测[7]。更紧密地模仿人类视觉系统，正在开发用于任务相关的顺序注意的机制，以允许以高分辨率处理许多场景区域（参见例如[8、9、10]）。然而，这些方法sur- render一些处理速度，使机器视觉有吸引力，并增加了复杂性的建议书生成和评估任务完成。在这项工作中，我们引入了一个基于显着性的采样层：一个简单的插件模块，可以附加到任何输入受限网络的开始，并用于以特定于任务的方式改进下采样。如图1，给定目标图像输入大小，我们的显着性采样器学习将该目标中的像素分配到底层图像中的区域，这些区域被发现对于手头的任务特别重要。在这样做时，该层扭曲输入图像，从而创建变形版本，其中图像的任务相关部分被强调并且不相关部分被抑制，类似于面部的漫画如何在从平均值中获取所述图像的情况下放大一个人的识别的所述部分我们的层由一个显着图估计器连接到一个采样器，根据其相对显着值的图像区域的采样密度的变化。由于该层被设计为完全可区分的，因此可以在任何传统网络之前插入并进行端到端训练。与顺序注意力模型[9，10，11，12]不同，计算是在显着性采样器的单次通过中以恒定的计算成本执行的我们将我们的方法应用于发现小对象或细粒度细节很重要的任务（见图11）。2），并始终发现添加我们的层会导致性能优于基线网络。2相关工作我们将相关工作分为三大类：注意力机制、基于显著性的方法和自适应图像采样方法。注意力机制：注意力已被广泛用于改善CNN的性能。Jaderberg等人[13]介绍了空间Transformer网络（STN），这是一个从输入图像估计参数化变换的层，旨在消除讨厌的图像变化（例如从刚性对象分类任务中的对象姿势），从而改善模型生成。在他们的工作中，作者提出了三种可以学习的转换类型：仿射、射影和薄板样条（TPS）。虽然我们的方法也对输入图像进行变换，但我们的应用程序完全不同：我们不试图撤消诸如本地转换之类的变化或旋转;相反，我们尝试动态地改变分辨率以支持区域（b）细粒∗ ∗凌晨4 Recasens，P. Kellnhofer，S.Stent，W. Matusik和A.Torralba原始图像显著图畸变网格采样图像（a）注视估计（c）细粒图二. 使用我们提出的显着性采样器对各种任务的输入图像进行重采样的示例。我们的模块能够根据以下任务来发现显著性：对于（a）中的注视点，该采样器对所述多个眼睛进行采样以允许更高精度的注视估计;对于（b）中的细粒度分类，该采样器对所述多个眼睛进行采样，同时对空图像进行多次采样;在（c）中，当没有检测到清晰的显著区域时，采样器默认为接近均匀的采样。的输入图像，这是更突出的任务。虽然我们的方法可以封装在[13]的TPS方法中，但我们隐含地防止极端变换和折叠，这对于基于TPS的空间Transformer来说可能容易发生（并且这也使得非参数化采样图的直接估计我们相信，这有助于防止戏剧性的失败，因此有助于使模块更容易学习。可变形卷积网络（DCN），由Dai等人介绍[14]，遵循与STNs相似的动机他们表明，卷积层可以学习动态调整其感受野，以适应输入特征，并提高对干扰因素的不变性他们的提议涉及用可变形层替换CNN中的任何标准卷积层，该可变形层学习根据输入来估计标准内核采样位置的偏移我们注意到我们工作的四个主要区别第一，虽然他们的方法学习缩放：基于显着性的神经网络采样层5我们的显着性采样器可以从与原始CNN架构相同的低分辨率输入中采样，但我们的显着性采样器可以从任何可用的分辨率中采样，从而在可用时利用更高分辨率的数据。其次，我们的方法通过显着性图来估计样本场，显着性图在训练完全卷积神经网络时自然出现[15]。我们发现，直接估计局部空间偏移（如在DCN中）要困难得多第三，我们的方法可以应用于现有的训练网络，而无需modification，而DCN需要通过交换可变形卷积来改变网络配置。最后，我们的方法以显着图和变形图像的形式产生人类可读的输出，这使得易于视觉检查和调试。我们注意到，我们提出的显着性采样器和DCN并不相互排斥：我们的显着性采样器旨在跨尺度空间进行有效采样，并且可能利用可变形卷积层来帮助对局部几何变化进行建模。与可变形网络一样，Li etal.[16]提出了一种使用非平方卷积的编码器-解码器结构。与[13]一样，他们直接预测这些变换的参数化，而不是使用显着图。递归地关注多个对象以前也已经探索过。Eslami等人[11]提出了一种迭代地关注图像中的多个对象的方法。在同一方向上，[12]介绍了一种用于细粒度分类的方法，该方法递归地在低分辨率图像中定位对象，然后从高分辨率图像中裁剪。最近，[17]将这个想法扩展到图像中的多个注意位置，而不是单个位置。最后，[18]描述了一种方法，其中提出了多个作物，然后由CNN过滤。我们注意到，这些方法是专门为分类而设计的，不像我们提出的采样层那样通用。基于显着性的方法：CNN已被证明可以自然地将注意力引导到输入数据的任务显着区域。Zhou等人。[15]发现CNN使用图像的受限部分来告知他们在分类任务中的决策。他们提出使用类激活图（CAM）作为在训练期间没有显式位置反馈的情况下定位图像中对象的机制。Rosendfeld等人[19]提出了一种迭代方法来裁剪图像的相关区域以进行细粒度分类。它们生成一个CAM来突出显示网络最常用的区域，以做出最终决定。这些区域用于裁剪图像的一部分并生成新的CAM，然后突出显示网络使用的图像区域以通知最终预测。如[15]所示，CAM需要使用特定的全卷积架构。为了克服这个限制，[20]引入了一种基于梯度的方法来生成CAM。他们的方法可以用来理解各种各样的网络。在我们的工作中，我们利用CNN自然定位任务突出区域的能力，鼓励网络更多地关注这些区域。自适应图像采样方法：解决我们问题的另一种可能方法是在多尺度策略中预先设计某些特征检测器这种方法∗ ∗早上6 Recasens，P. Kellnhofer，S.Stent，W. Matusik和A.Torralba通常在解决特定问题时使用，其中要使用的特征对人类来说非常清楚。例如，为了解决移动终端显示器上的注视跟踪问题，Khosla等人（2010）提出了一种基于移动设备的注视跟踪方法。[21]提出了iTracker方法，一种基于RGB图像的凝视估计系统。他们的系统使用来自设备的前面部相机的图像，并且沿着这条线的另一个例子是由Wang等人提出的[22]，他们以不同的尺度生成输入图像的特征，然后选择最佳特征并生成最终输出。自适应图像采样也用于计算机图形学中的图像重定向[23]。与我们的情况不同，采样图像仅用作解决另一个问题的中间表示，重定向的目标是使图像变形以适应新的形状，并保留对人类观察者重要的内容，同时避免可见的变形。与我们的概念类似，这可以由显着性[24]驱动，并被公式化为能量最小化[25]或有限元方法[26]问题。3显著性采样器设I是任意大小的高分辨率图像，设Il是适合于任务网络ft的大小为M×N像素的低分辨率图像（图1）。通常，CNN将输入图像I重新缩放到Il，而不利用I的像素的相对大小。然而，如果在来自中心图像区域的形式中k项比其他更多，则可能有利的是更密集地对该区域进行采样。显著性采样器通过首先分析I1，然后与I的感知重要性成比例地对I的区域进行在这样做时，该模型可以捕获增加的分辨率的一些益处，而没有显著的额外计算负担或过拟合的风险。采样过程可分为两个阶段。在第一阶段，CNN用于生成显着图。该图是任务特定的，因为不同的任务可能需要聚焦在不同的图像区域上。在第二阶段中，根据显著图对最重要的3.1显着性网络显著性网络fs从低分辨率图像产生显著性图S：S = fs（II）。该阶段的网络选择是灵活的，并且可以根据任务而改变。对于fs的所有选择，我们在最后一层应用softmax操作来归一化输出映射。3.2采样方法接下来，采样器g将显著图S连同全分辨率图像I一起作为输入，并且计算J=g（I，S），即，具有与I 1相同尺寸的图像，其已经从I采样，使得S中的高加权区域由较大的图像范围表示（参见图1B）（3）第三章。在本节中，我们将讨论学习缩放：基于显着性的神经网络采样层7输入图像坐标显著性图S输入高分辨率图像I显著吸引效应采样图像J = g（I，S）图三. 显著性采样器。显著性图S（中心，顶部）将显著性描述为吸引相邻像素的质量（箭头）。输出低分辨率图像J的每个像素（红色正方形）从输入高分辨率图像I中的位置（青色正方形）进行采样，该位置由显著性采样器g（I，S）定义的该吸引力（黄色箭头）偏移这会扭曲图像的坐标系，并放大比其他区域更频繁采样的重要区域。g可以采取的可能形式，以及哪一种更适合CNN。在所有情况下，我们计算采样图像和原始图像之间的映射，然后使用[13]中介绍的网格采样器这个映射可以用标准形式写成两个函数u（x，y）和v（x，y），使得J（x，y）=I（u（x，y），v（x，y））。设计u和v的主要目标是将像素映射到显着图分配给它们的归一化权重。假设u（x，y），v（x，y），x和y的范围从0到1，这个问题的精确近似是找到u和v，使得：∫u（x，y）∫v（x，y）S（x′，y′）dx′dy′=xy（1）0 0然而，找到u和v等价于找到将S（x，y）的分布集转换为均匀分布的变量的变化这个问题已经被广泛探讨，通常的解决方案在计算上非常昂贵[27]。出于这个原因，我们需要采取一种适用于CNN的替代方法。我们的方法受到每个像素（x′，y′）以力S（x′，y′）拉动其他像素的想法的启发（见图12）。（3）第三章。如果我们添加距离核k（（x，y），（x′，y′）），∗ ∗早上8 Recasens，P. Kellnhofer，S.Stent，W. Matusik和A.Torralba这可以描述为：u（x，y）=ΣΣx′，y′Σx′，yS（x′，y′）k（（x，y），（x′，y′））x′′S（x′，y′）k（（x，y），（x′，y′））（二）v（x，y）= Σx′，y′′S（x′，y′）k（（x，y），（x′，y′））y′′S（x′，y′）k（（x，y），（x′，y′））（三）x为oh该公式对于我们的函数u和u具有某些期望的性质。V，特别是：取样区域：更高显著性的区域被更密集地采样，因为具有更高显著性质量的那些像素将吸引其他像素到它们。注意，内核k可以充当正则化器以避免所有像素收敛到相同值的角点情况。在我们所有的实验中，我们使用高斯内核，σ设置为显着图宽度的三分之一，我们发现这在各种设置中都能很卷积形式：这个公式允许我们用简单的卷积来计算u和v，这是整个系统效率的关键。该层可以很容易地添加到标准CNN中，并保留反向传播训练所需的可微性注意，Eq. 2和Eq。3具有朝向图像中心采样的不期望的偏置。我们通过用显著图的边界值填充显著图来避免这种效果。3.3使用显着性采样器进行训练显著性采样器可以被插入到任何卷积神经网络中，其中期望对更高分辨率的输入进行更多信息的子采样。由于模块是端到端可微分的，因此我们可以使用标准优化技术来训练整个管道我们完整的管道由四个步骤组成（见图1）。1）：1. 我们获得图像I的低分辨率版本11。2. 该图像由显著性网络fs用于计算显著性图S=其中，图像的任务相关区域被分配较高的权重。3. 我们使用确定性网格采样器g根据显著性图对高分辨率图像I进行采样，获得与Il具有相同分辨率的重采样图像J=g（I，S）。4. 原始任务网络fi用于计算我们的最终输出y=f（J）。fs和ft都有可学习的参数，因此可以针对特定任务进行联合训练我们发现在训练过程开始时，在一些时期模糊任务网络的重采样输入图像是有帮助的它迫使显着性采样器更深入地放大图像，以进一步放大小细节，否则会被随之而来的模糊所破坏这甚至对于去除了模糊的模型的最终性能也是有益的学习缩放：神经网络的基于显著性的采样层9低分辨率显著性图网格采样图像低分辨率显著性图网格采样图像见图4。iTracker注视跟踪任务的采样器行为的可视化。我们示出了低分辨率输入图像Il、由fs估计的显著性图S、采样网格g和重采样图像J。注意，显著性网络自然地发现眼睛是图像中信息量最大的区域以推断主体注视，而且还学习保留头部在图像中的近似位置，这是用于估计移动终端上的注视位置的另一有用线索4实验在本节中，我们将显着性采样器应用于计算机视觉中的两个重要问题：视线跟踪和细粒度对象识别。在每种情况下，我们检查的好处，增加标准方法常用的数据集与我们的采样模块。我们还比较了最接近的可比方法。作为显着性网络fs的架构，在所有任务中，我们使用在ImageNet数据集[28]上预训练的ResNet-18 [4]的消融和一个最终的1 ×1卷积层来降低显着性图S的维度。我们发现这个网络对于分类和回归问题特别有效。4.1注视跟踪由于显而易见的原因，注视跟踪系统通常聚焦在眼睛上用于注视跟踪的大多数最先进的方法依赖于眼睛检测，其中以最高可能的分辨率向模型提供眼罩然而，在这个实验中，我们展示了如何用更少的输入，我们能够实现类似的性能，以更复杂的工程系统，旨在只解决视线跟踪任务。我们将我们的模型与iTracker数据集[21]进行基准测试，并展示了如何通过使用显着性采样器来简化他们的原始模型作为任务网络ft，我们使用标准的AlexNet [1]，最后一层改为回归两个输出和一个sigmoid函数作为最终激活。∗ ∗上午10 Recasens，P. Kellnhofer，S.Stent，W. Matusik和A.Torralba模型iPad（cm）iPhone（cm）iTracker3.312.04Plain AlexNet（AN）5.442.63AN+可变形卷积5.212.62AN + STN TPS4.442.39AN + STN4.332.25AN +网格估计器3.912.20AN +显着性采样器（我们的）3.292.03表1. GazeCapture数据集上的性能比较。该表报告了GazeCapture数据集上我们的模型和基准的距离误差（以cm为单位）我们选择AlexNet是为了直接与[21]的iTracker系统进行比较，iTracker系统是最先进的凝视跟踪模型之一该模型有四个输入：两只眼睛的两个裁剪，一个面部的裁剪和图像中面部位置的粗略编码作为显着性网络fS，我们使用ResNet-18的初始10层。我们的目标是证明我们简单的显着性采样器可以允许正常网络通过放大单个输入图像的正确部分来处理四输入iTracker模型的复杂性。我们将我们的模型与各种竞争基线进行比较。首先，我们将AlexNet网络的前三个卷积层（在ImageNet数据集中预训练[1]）替换为三个可变形卷积层[14]（可变形卷积）。其次，我们使用仿射参数化（STN）和TPS参数化（STN TPS）测试空间Transformer网络基线[13作为一个本地化网络，我们使用一个类似于fs的网络来实现公平性。第三，我们修改网络fs以直接估计采样网格函数u和v，而无需显著性图（网格估计器）。我们还与[21]中的系统进行了比较，该系统是专门为该任务设计的（iTracker）。作为误差度量，我们采用预测到捕获数据集的iPhone/iPad设备的屏幕空间中的地面实况凝视位置的平均距离误差。在表1中，我们展示了我们的模型和基线的性能我们的模型实现了类似于 iTracker的性能， iTracker具有四个不同的输入，每个输入224×224像素的优势，而我们的系统将所有信息压缩到227× 227像素的单个图像我们的方法还提高了变形卷积的性能，STN变体和网格估计器的差异范围从0。62比1 92厘米为iPad和0。17cm至0. 59厘米的iPhone。STNs以及可变形卷积很难找到对任务有用的变换，而网格估计器在没有显著性图的帮助下无法直接找到函数u和v我们的方法的中间输出如图所示。4.第一章4.2细粒度分类细粒度分类问题带来了非常特殊的挑战：用于区分两类的信息通常隐藏在非常小的部分中学习缩放：神经网络的基于显著性的采样层11输入图像显著图变换采样图像输入图像显著图变换采样图像图五. iNat细粒度分类任务的采样器行为的可视化。类似于图4，显著性网络自然地发现并放大图像中信息量最大的区域，这些区域往往对应于对象部分。有时在低分辨率下无法分辨。在这种情况下，显著性采样器可以发挥重要作用：放大图像的重要部分，以尽可能多地保留它们的像素，并帮助最终的决策网络。在这个实验中，我们使用包含5，089种动物的iNaturalist数据集来研究这个问题。我们的评估是使用验证集执行的，因为测试集是私有的，并且是为挑战而保留的在这个实验中，我们使用了在ImageNet数据集[28]上预训练的ResNet-101 [4]模型用于任务网络ft，因为它在图像分类中表现出非常好的性能。我们对任务和显着性网络ft和fs使用了227× 227的输入分辨率。作为显着性网络fS，我们使用ResNet-18的初始14层，尽管其他显着性网络的性能网络可以在Tbl中找到。3 .第三章。作为此任务的基线，我们使用与之前相同的方法，再次使用ResNet-101作为基础模型。对于可变形卷积网络，我们根据原始论文[14]中的说明进行了网络修改。我们还测试了STN的仿射和TPS版本（STN仿射和STN TPS）以及直接网格估计器。与我们的方法相同，这些基线被允许在训练时间内访问原始800×800像素的图像在测试时间内，该方法可以访问512×512像素的中心裁剪定位网络类似于公平的fs为了测试单独的高分辨率输入是否可以提高基线Resnet-101网络的性能，我们还使用[15]（CAM）的类激活图方法为Resnet-101227网络我们选择了具有最大最大激活的类，并计算了原始论文中的边界框然后，我们将该区域从∗ ∗12 A. Recasens，P. Kellnhofer，S.Stent，W. Matusik和A.Torralba模型Top-1（%）[diff]前5名（%）[差异]ResNet-101 227（RN）60[-]83[-]RN+可变形卷积四十四[-16]69[-14]RN+ STN仿射60[0]83页[0]RN+网格估计器61[1]83页[0]RN + STN TPS62[2]84[1][15]第十五话62[2]84[1]RN+显著性采样器（我们的）65[5]86[3]表2. iNaturalist细粒度分类结果：iNaturalist Challenge 2017数据集验证集的前1名和前5名准确度比较。原始输入图像，并将其重新缩放为227× 227分辨率。这些作物被用作ResNet-101 227× 227网络的输入，用于最终分类。表2显示了所比较的各种模型的分类准确度。我们的模型能够显著优于ResNet-101基线，前1和前5的准确率分别为5%和3%。基于CAM的方法的性能更接近我们的方法，这是预期的，因为它受益于强调图像细节的相同思想。然而，我们的方法仍然执行几点更好，也许是因为它更大的灵活性，集中在局部图像区域不均匀和选择性放大某些功能比其他更多。它还具有能够放大任意数量的非并置图像位置的主要益处，而对于作物这样做涉及预先确定作物的数量或具有建议机制。空间变换器和网格估计器的性能与ResNet-101基线相似或稍好。像我们的方法一样，这些方法受益于将注意力集中在图像的特定区域的能力然而，空间变换器的仿射版本在整个图像上应用均匀的变形，这可能不是特别适合于该任务，而更灵活的TPS版本和网格估计器，理论上可以更紧密地模仿我们的方法引入的采样，被发现更难优化，并且一直被发现表现更差。最后，可变形卷积方法的性能明显低于ResNet-101架构。尽管我们尽了最大的努力，我们还是无法使模型收敛到具有竞争力的性能。这可能归因于训练在其设计中使用的复杂参数化的难度，其通常以局部最小值结束相比之下，我们的方法受益于神经网络具有预测显著图像元素的自然能力[30]，因此优化可能会明显更容易。为了证明我们的声明，即显着性采样器可以使不同的任务网络架构受益，我们使用Inception V3架构重复我们的实验[31]。原始性能已经非常高（top-1和top-5分别为64%和86%），因为它使用更高的分辨率（299）和更深的网络，但我们的采样器仍然在top-1和top-5中分别获得66%和87%的性能。学习缩放：神经网络的基于显著性的采样层13表3. 显著性网络消融：我们测量不同深度的显着性网络fs对iNaturalist细粒度分类任务的影响。输入图像显著图变换采样图像输入图像显著图变换采样图像见图6。CUB-200数据集采样器行为的可视化：我们展示了使用CUB-200数据库中的显着性采样器训练的ResNet-50的采样图像。这是一个灵活的实施方案，涉及到存储区域的安全性。显著性网络重要性：表中。3，我们用不同深度的显着性网络fs重新训练ResNet-101。我们使用具有6、10或14层的ResNet-18的不同消融（这对应于一次添加一个块以构建ResNet-18）用于实验。整个网络的性能随着显着性模型的复杂性而增加，但收益递减。4.3Cub-200为了进一步证明我们的模型在不同的数据集上是有用的，我们在CUB-200数据集[32]（Tbl.4）.虽然CUB-200也是一个细粒度的识别数据集，但它比iNaturalist数据集小得多，并且图像在主体周围的框架更好（见图2）。（六）。我们使用ResNet-50作为我们的任务网络，ResNet- 18的最初14层作为我们的显着网络。通过添加我们的采样层，我们实现了2.9%的精度提升，这比iNaturalist中的提升要小，可能是因为在CUB-200中感兴趣的对象被更紧密地裁剪与CUB-200中性能最好的模型之一DT-RAM [33]相比，我们的方法使用更简单的模型，比RN-50 DT-RAM的224× 224版本高出1.7%我们的方法不如DT-RAM的448× 448分辨率版本准确，但后者平均使用大约2次通过RN-50，并且输入大小更大，导致计算成本更高。5讨论添加我们的显着性采样器是最有益的图像任务的重要特征是小而稀疏，或出现在多个图像尺度。的无（无fs）6层10层14层前1名（%）60626465前5名（%）83848586RN-50 RN-50+SS DT-RAMRes. （px）227 227 224 448前一名（%）81.6 84.5 82.8 86.0∗ ∗14 A. Recasens，P. Kellnhofer，S.Stent，W. Matusik和A.Torralba表4.上添加采样层带来的性能改进CUB-200数据集[32]。Res. （px）是指模型的输入图像分辨率在放大区域附近引入的变形可能潜在地阻止网络发生强烈变形，如果另一个感兴趣的点将受到影响的话。这可能对文本识别等任务有害。在实践中，我们观察到，学习过程能够很好地处理这种情况，因为它能够放大两个并列的眼睛，而不妨碍注视预测性能。这是特别有趣的，因为该任务需要保存图像中的几何信息该方法被证明比其他修改空间采样的方法更容易训练，例如空间Transformer网络[13]或可变形卷积网络[14]。这些方法通常表现得更接近基线，因为它们未能找到用于其采样策略的合适参数。由我们的显著性图引入的放大的非均匀方法还实现了空间域上的缩放的可变性。这与端到端优化一起导致了在均匀放大的感兴趣区域作物上的性能优势，如在我们的细粒度分类任务中所观察到的。与iTracker [21]的情况不同，我们不需要关于任务中相关图像特征的先验知识。6结论我们已经提出了显着性采样器-CNN的一个新层，可以调整图像采样策略以提高任务性能，同时保留给定图像处理任务的内存分配和计算效率。我们已经认识到，我们的新算法的有效性在于局部识别，并关注对于注视跟踪和细粒度对象识别任务很重要的图像特征。该方法易于集成到现有模型中，并且可以以端到端的方式进行有效培训。与其他一些图像变换技术不同，我们的方法不限于预定义数量或大小的重要区域，它可以在整个图像域重新分配采样密度。同时，我们的技术参数化的一个单一的标量注意力图，使其强大的不可恢复的图像degra-dation由于折叠或奇异性。这导致在需要恢复小图像特征（例如眼睛或相关动物物种之间的细微差异）的问题中的优异性能鸣谢：这项研究由丰田研究所资助。我们感谢NVIDIA公司的硬件捐赠。学习缩放：神经网络的基于显著性的采样层15引用1. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：Imagenet分类与深度卷积神经网络。在：神经信息处理系统会议。（2012年）2. Iandola，F.N.，汉，S.，Moskewicz，M.W.，Ashraf，K.，戴利，W.J.，Keutzer，K.：Squeezenet：Alexnet级精度，参数减少50倍，…0.5 mb模型大小。arXiv预印本arXiv：1602.07360（2016）3. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。ArXiv预印本arXiv：1409.1556（2014）4. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。In：IConfer enceonComuterVisionandPater nRecognition. （2016）7705. Russakovsky，O.，Deng，J.，Su，H.，Krause，J.，Satheesh，S.，妈妈，S.，黄志，Karpathy，A.，Khosla，A. Bernstein，M. Berg，A.C.，李菲菲：ImageNet 大规模视觉识别挑战。 International Journal of Computer Vision（IJCV）115（3）（2015）2116. Lowe，D.G.：从尺度不变的关键点中提取独特的图像特征。Interna-t io-tolJornalofComuterVison（IJCV）60（2）（200 4）917. Ren，S.，他，K.，格尔希克河孙杰：Faster r-cnn：Towards real-timeobject detec- tion with region proposal networks.神经信息处理系统进展。（20 15）918. 伊蒂湖Koch，C.，尼布尔，E.：基于显著性的快速场景分析视觉注意模型。IEEE Transactions on Pattern Analysis and Machine Intelligence20（11）（199 8）12549. Mnih，V.，Heess，N.格雷夫斯，A.：视觉注意的循环模型In：AdvancesinNeuraIin N eura IinPr ocesstem. （2014）220410. Ba，J.，Mnih，V.，Kavukcuoglu，K.：多目标识别与视觉注意。arXiv预印本arXiv：1412.7755（2014）11. Eslami，S.A.Heess，N.Weber，T.，Tassa，Y.Szepesvari，D.，辛顿通用电气等：注意，推断，重复：使用生成模型快速理解场景。In：Ad-vancesinNeuralInforRmatinProcessi ngSyss.（201 6）322512. Fu，J.，郑洪，Mei，T.：看得更近些，看得更清楚：用于细粒度图像识别的循环注意力卷积神经网络。计算机视觉与模式识别（Computer Visionand Pattern Recognition）（2017年）13. Jaderberg，M.，西蒙尼扬，K.，Zisserman，A.，等：空间Transformer网络。In：Ava ncesi nNe ur ali nProces si ngSystem.（2015）201714. Dai，J.，Qi，H.，Xiong，Y.，李，Y.，张，G.，Hu，H.，魏云：可变形对流网络。在：IEEE计算机视觉和模式识别会议上。（2017）76415. Zhou，B.，（1991年），中国地质大学，Khosla，A. Lapedriza，A. Oliva，A.，Torralba，A.：用于区分定位的深度特征学习In：IEEE Conference onComputer Vision andPatternRecognition，IEEE（2016）292116. 李杰，陈玉，Cai，L.戴维森岛Ji，S.：密集Transformer网络。arXiv：1705.08881 [cs，stat]（May 2017）arXiv：1705.08881.17. 郑洪，Fu，J.，Mei T罗杰：学习多注意力卷积神经网络用于细粒度图像识别。IEEE International Conference on Computer Vision（ICCV）（2017年）18. Xiao，T.，徐，Y.，杨，K.，张杰，彭，Y.，张志：两级注意力模型在用于细粒度图像分类的深度卷积神经网络中的应用。在：IEEE计算机视觉和模式识别会议，IEEE（2015）842∗ ∗16章Recasens，P. Kellnhofer，S.Stent，W. Matusik和A.Torralba19. Rosenfeld，A.，Ullman，S.：基于迭代内省的视觉概念识别与定位在：亚洲计算机视觉会议（ACCV），Springer（2016）26420. Selvaraju，R.R.，Cogswell，M.Das，A.，韦丹塔姆河Parikh，D.Batra，D.：Grad-cam：通过基于梯度的定位从深度网络进行视觉解释In：IConfere nceo nCom uterVisio n andPater n Re cognitio n.（2017）618∗ ∗21. Khosla，A.Krafka，K.，Kellnhofer，P.，Kannan，H.，Bhandarkar，S.，马图西克W.，Torralba，A.：每个人的眼动英文名称：IEEE Conference on Computer∗视觉和模式识别，拉斯维加斯，美国（2016年6月）表示平等贡献22. 王，S.，Luo，L.，Zhang，N.，李杰：AutoScaler：Scale-Attention Networksfor Visual Correspondence。英国机器视觉会议（BMVC）（2017年）23. Rubinstein，M.，Gutierrez，D.索尔金岛Shamir，A.：图像重定向的比较研究。ACM Transactions on Graphics（TOG）第29ACM（2010）16024. 沃尔夫湖Guttmann，M.，Cohen-Or，D.：非同质内容驱动的视频重定向。在：IEEE计算机视觉国际会议（ICCV），IEEE（2007）125. Karni ， Z.， Freedman， D. Gotsman， C.：基于能量的图像变形。 In ：ComputterGraphicsForum. 第28卷，WileyOnlineLibrry（2009）125726. Kaufmann，P.，Wang，O.，Sorkine-Hornung，A.，Sorkine-Hornung，O.，Smolic，A.，格罗斯，M.：有限元图像变形。在：计算机图形论坛. 第32卷。，WileyOnlineLibrry（2013）3127. 陈，R.，Freedman，D. Karni，Z.，Gotsman，C. Liu，L.：基于二次规划的内容感知图像缩放In：Computer Vision and Pattern RecognitionWo rks hops（CVPRW），IEEE（2010）128. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库。在：IEEE计算机视觉和定位研究会议，IEEE（2009）248- 255中29. Van Horn，G. Mac A

下载后可阅读完整内容，剩余1页未读，立即下载