没有合适的资源?快使用搜索试试~ 我知道了~
AttentionRNN:一种结构化的空间注意机制
3425TTENTIONRNN:一种结构化的空间注意机制Siddhesh Khandelwal1, 2 and Leonid Sigal1, 2, 31英属哥伦比亚大学2人工智能向量研究所3加拿大CIFAR人工智能主席{skhandel,lsigal}@ cs.ubc.ca摘要视觉注意机制已被证明是许多现代深度神经架构不可或缺的重要组成部分。它们提供了一种高效和有效的方式来选择性地利用视觉信息,这在多模态学习任务中特别有价值。然而,所有先前的注意力框架缺乏明确地建模注意力变量之间的结构依赖关系的能力,使得难以预测一致的注意力掩模。 在本文中,我们开发了一种新的结构化空间注意力机制,该机制是端到端可训练的,可以与任何前馈卷积神经网络集成。所提出的AttentionRNN层通过在双向光栅扫描和逆光栅扫描排序器中顺序地预测空间掩模中的注意力值来显式地在空间注意力变量上实施结构因此,每个注意力值不仅取决于局部图像或上下文信息,而且还取决于预先预测的注意力值。我们的实验表明,在各种识别任务和数据集上,定量和定性的改进是一致的;包括图像分类、问题回答和图像生成。1. 介绍近年来,计算机视觉在许多复杂的识别任务中取得了巨大的进步,包括图像分类[17,44],图像字幕[4,14,38],图像分类[17,44],图像分类[17,44]和图像分类[17,44]。40] ,图像生成[30,41,43]和视觉问题-弯曲(VQA)[2,5,13,22,27,31,37,39]。可以说,这种成功在很大程度上可以归因于视觉注意机制的使用,类似于人类的视觉,识别图像的重要区域。注意力机制通常产生用于给定图像特征张量的空间掩模。在理想情况下,期望掩模在对应于感兴趣区域的特征上具有较高的激活值对于本质上是多模态的任务,如VQA,查询(例如,问题)可以另外用作输入以生成掩码。在这种情况下,图1:AttentionRNN。图示所提出的结构化注意网络作为下游任务的模块。注意力激活通常是图像区域的相应编码与预定义或学习的嵌入空间中的问题之间的相似性的函数。现有的视觉注意力机制可以被广泛地表征为两类:全局的或局部的;分别参见图2a和2b进行说明。全局机制联合预测所有注意力变量,通常基于图像特征图的密集表示。这样的机制易于过拟合,并且仅对于低分辨率图像特征在计算上可行。因此,通常情况下,这些仅应用于CNN的最后一个卷积层[22,45]。局部机制基于对应的图像区域[5,27,28](即,特征列)或与当地上下文的帮助[28,35,43]。因此,局部注意力机制可以以任意分辨率应用,并且可以在CNN网络内的各种地方使用(例如,在[28]中,作者在每个子采样层之前使用它们,并且在[35]中作为每个残差块的一部分)。然而,所有上述模型在生成的注意力掩码中缺乏明确的结构。这通常表现为在所生成的注意力激活值中缺乏连贯性或尖锐的不连续性[28]。考虑一个VQA模型,该模型涉及回答以下问题所需的区域:“彼此相邻的两个球体是否具有相同的颜色?”“.直觉上,注意力机制应该集中在这两个领域。此外,对应于一个球体的注意区域应该通知另一个球体的注意区域估计,无论是在形状还是大小方面然而,大多数传统的注意力机制没有能力编码这种依赖关系。最近3426(a) 全局注意力(b)局部注意力(c)结构化注意力图2:不同类型的注意力机制。 比较的是(a)全球和(b)本地的注意机制探讨在先前的工作中,并在(c)中提出了结构化模块化体系结构[1,10]能够通过仔细的推理来解决这些问题中的一些,但是它们仅与一类狭窄的VQA问题有关。这种模型不适用于涉及自我注意[35]或生成架构的场景,其中通常需要颗粒形状一致的注意力掩模[43]。在本文中,我们认为这些挑战可以通过结构化空间注意来解决。这类注意力模型可以潜在地对注意力变量之间的任意约束进行编码,无论是自上而下的结构化知识还是局部/全局一致性和依赖性。为了加强这种结构,我们提出了一种新的注意力机制,我们称之为AttentionRNN (参见 图2c)。我 们从[33]中提出 的Diagonal BiL-STM架构中因此,AttentionRNN通过对角遍历图像,从顶部的一个角开始,到底部的对角,来生成空间注意力掩码。当预测特定图像特征位置的注意力值时,通过考虑以下因素来实施结构:(i)对应图像特征位置周围的局部图像上下文,以及更重要的是,(ii)关于先前生成的注意力值的信息。我们的模型的一个关键好处是,它可以在一个或多个卷积特征级别上在任何现有的前馈神经网络中不可知地使用(见图1)。为了支持这一主张,我们评估我们的方法在不同的任务和不同的骨干架构。对于VQA,我们考虑了渐进注意力网络(PAN)[28]和多模态紧凑双线性池(MCB)[5]。对于图像生成,我们考虑模块化生成广告网络(MGAN)[43]。对于图像分类,我们考虑卷积块注意力模型(CBAM)[35]。当我们用我们提出的Attention- RNN替换这些模型中现有的注意力机制时,我们观察到更高的整体性能以及更好的空间注意力掩模。贡献:本文的主要工作如下:(1)提出了一种新的空间注意机制,NISM,其通过顺序地预测值来显式地对空间注意变量上的结构进行编码。因此,空间掩模中的每个注意力值不仅取决于局部图像或上下文信息,而且还取决于先前预测的注意力值。(2)我们说明了这种一般的注意力机制可以与任何依赖于或可以受益于空间注意力的现有模型一起工作;在各种不同的任务和数据集上显示其有效性(3)通过实验评估,我们观察到VQA,图像生成和图像分类任务的性能提高和更好的注意力掩模。2. 相关工作2.1. 视觉注意视觉注意机制已被广泛采用在计算机视觉领域,由于他们能够专注于图像中的重要区域。尽管存在部署视觉注意力的各种各样的方法,但是它们可以基于底层注意力机制的关键属性来分类。为了便于理解,我们使用这些属性分离相关研究。网络中的注意力。视觉注意力机制通常应用于由卷积神经网络(CNN)提取的特征。 视觉注意力可以应用于:(1)在CNN网络的末端,或(2)在CNN网络内的不同层迭代。在CNN网络的末端应用视觉注意力是将视觉注意力纳入深度模型的最直接方法。 这导致了各种计算机视觉任务中模型性能的提高,包括图像字幕[4,38,40],图像识别,点火[44],VQA [22,37,39,45]和视觉对话[27]。另一方面,已经有几种方法迭代地应用视觉注意力,在多个CNN特征层上操作[11,28,35]。Seo等人[28]在CNN网络的每个池化层之后渐进地应用注意力Woo等人[35]使用类似的方法,但应用两种不同类型的注意力-一种关注功能通道,另一种关注功能通道。3427空间域。用于计算注意力的上下文。 注意力机制的不同在于它们使用多少信息来计算注意力掩码。它们可以是全局的,即使用所有可用的图像上下文来联合预测注意力掩码中的值[22,38]。作为一个例子,[22]提出了一种VQA的注意力机制,其中注意力掩码是通过将图像特征投影到某个潜在空间中,然后计算其与问题的相似度来计算的。注意力机制也可以是局部的,其中每个变量的注意力是独立生成的或使用相应的局部图像区域[5,27,28,35,43]。例如,[28,35,43]使用k×k卷积核来计算特定的注意力值,允许他们捕获相应位置周围的局部信息。上述作品都没有在生成的注意力掩模上实施结构。然而,图像的值的结构已经在许多训练以生成图像的自回归模型中被利用下一节简要介绍这方面的相关工作。对应于xi,j的值。形式上,我们希望对条件分布p(A)进行建模|X)。在某些问题中,除了X,我们可能还希望以其他辅助信息为条件,例如VQA中的问题。虽然在本文中,我们制定和模型的注意力概率,大多数传统的注意力模型直接预测的注意力值,这可以被视为一个点估计(或期望值)的A在我们的公式。全局注意力机制[22,45]使用全连接层直接从X预测A 虽然这对p (A)的因式分解没有任何假设|X),随着X的大小增加,它变得难以处理。这主要是由于全连接层中的大量参数另一方面,局部注意力机制[27,28,35,43]对注意力变量ai,j之间的相互作用做出强独立性假设。特别地,他们假设每个注意力变量ai,j独立于其他变量giv某个局部空间变量xtδ(xi,j)。更正式地说,对于本地注意力机制,i=m,j=n2.2. 图像生成的自回归模型生成式图像建模是COM中的一个关键问题p(A|X)≈Yi=1,j=1p(ai,j|δ(xi,j))(1)电脑视觉近年来,在这一领域开展了大量工作[6,15,24,26,33,42,43]。虽然大多数作品使用随机潜变量模型,如VAE [15,24]或GAN [6,42,43],但自回归模型[26,32,33]提供了一种更易于处理的方法来模拟像素上的联合分布。这些模型利用图像的固有结构,这使它们能够表达即使这样的因式分解提高了易处理性,强独立性假设往往导致缺乏连贯性和包含尖锐的不连续性的与局部注意机制相反,我们提出的AttentionRNN试图捕捉一些结构依赖性,注意变量ai,j之间的关系。我们假设i=m,j=n条件分布乘积联合分布- 其中下一个像素的值取决于所有先前生成的像素。p(A|X)=Yi=1,j=1i=m,j=np(a)i、j| aj)(4)其中,aj是at-的顶部和右侧的张力变量i、j(绿色区域位于图3:倾斜操作。这使得它更容易计算沿对角线卷积。箭头指示注意值之间的依赖性。为了获得右侧的图像,左侧图像的每一行相对于其前一行偏移一个位置。[33]表明这足以使它能够从所有先前的注意力变量中获得信息。为了使沿对角线的计算更容易,类似于[33],我们首先将X倾斜为新的图像特征X。图3说明了倾斜过程。X的每一行相对于前一行偏移一个位置。 X现在是一个大小为h×m×(2n−1)的图像特征。以对角线方式从左上到右下遍历X现在等价于沿着X的列从左到右遍历X。由于X中的空间位置(i-1,j)和(i,j-1)现在在X中的同一列中,我们可以通过一次对X^的整个列执行计算来有效地实现等式7中描述的递归。令X^j表示X ^的第j列。另外,让h^l和LL图3),并且r是某种组合函数。为了简洁起见,^cj-1表示L的隐藏和记忆状态L我们省略了明确地写δ(xi、j)的情况。 等式4进一步在处理X^j之前。两个h^l和^cj−1的张量通过假设所有分布都是高斯分布来简化大小为t×m,其中t是潜在特征的数量。的如下计算新的隐藏和存储器状态p(a i,j|a< i,j)≈N。µrri,j(五)[oj,fj,ij,gj]=σLKhj−1+ KLX^j(八)p(ai,j |a< i,j)<$N(μi,j,σi,j)其中,^cj=fj⊙^cj−1+ij⊙gjh^l=ojtanh(cl)(µl,σl)=f(a);(µr,σr)=f(a)在这里,表示卷积运算,表示i、ji、jl i,j(μ i,j,σ i,j)= Γ。i、jli,ji、jli,jri,jrjri,j(六)发送逐元素乘法。 KH是一个2 × 1卷积核,它有效地实现了递归关系,等式7中描述的卷积,并且Kx是1×1卷积f1和f2是完全连接的层。 我们的选择组合函数Γ在第3.2节中解释。针对每个替代转录 ,Ll被训练以估计(μl,σl),并且Lr是内核Kh和Ku都产生一个大小为4t× m的张量。j是偏斜局部上下文X的第j列,其i、ji、jR ri、j得到如下。训练以估计(μi,j,σi,j)。现在我们来解释一下compu-为L。Lr是类似的,并且具有相同的公式。Ll需要正确地近似ai<,j包含未来的注意力值。一旦计算了aj(如上所述),我们就可以通过下面的等式6获得注意力变量N(µi,j,σi,j)的高斯分布。然后,注意力ai,j可以通过从N(µ i,j,σ i,j)中采样一个值或简单地通过取期望值并设置ai,j= µ i,j来获得。 对于大多数问题,正如我们将在实验部分看到的那样,采用期望值是最有效和最有效的。然而,在注意力本质上是多模态的情况下,采样可能是有用的在这种情况下,使用相干掩模聚焦于不同模式可能更有益3.2. 组合函数组合函数Γ的选择隐含地对分布和分布之间的相互作用施加了一些约束。3.3. 块AttentionRNN由于LSTM在大信号上的性能差序列,AttentionRNN层不能很好地我们对第3.1节中描述的方法进行了简单的修改,以缓解这个问题,我们称之为块注意RNN(BRNN)。BRNN在计算注意力掩模之前减小输入特征图X的大小这是通过将X分成更小的块来完成的,每个块的大小为γ×γ。这相当于如下将原始图像X下采样到XdsXds=KdsX(11)其中Kds是应用步长γ的大小为γ×γ的卷积核。本质上,Xds中的每个值现在对应于X中的γ×γ区域。BRNN不是为X中的每个空间位置(i,j)预测不同的注意概率,而是为每个γ×γ区域预测单个概率。这是通过首先使用AttentionRNN(第3.1节)计算下采样图像Xds的注意掩模Ads来完成的,然后使用转置卷积层按比例放大Ads以获得原始图像特征的注意掩模AX.图4示出了BRNN过程。BRNN本质上计算粗略的注意力掩码X.直观地说,这种粗略的注意力可以用在深度CNN网络的前几层中,以识别图像中的关键后面的层可以使用这个粗略的信息来生成更细粒度的注意力掩码。4. 实验为了展示我们方法的有效性和通用性,我们对四个不同的任务进行了实验:视觉属性预测、图像分类、视觉问答(VQA)和图像生成。我们强调,我们的目标不一定是获得绝对最高的原始性能(尽管我们在许多实验中都是这样做的),而是将AttentionRNN集成到现有的各种任务和架构的最先进模型由于篇幅限制,补充材料中描述了所有模型4.1. 视觉属性预测贡献;贡献µlli,j 和N.µrri,jΣ。 比如说,数据集。 我们在合成的MREF、MDIST独立性的假设将决定一个简单的刺激-对于Γ的uct,产生(µi,j,σi,j)的运算以封闭形式表示。然而,很明显,由于图像相关性,独立性不太可能成立。为了允许变量和组合函数之间更灵活的交互,我们改用全连接的[28]中提出的MBG数据集。图5显示了检查-从数据集中提取图像数据集中的图像是从MNIST [18]中创建的,通过采样5到9个不同的数字,具有不同的颜色(绿色,黄色,白色,红色或蓝色)和不同的尺度(在0.5和3.0之间)。这些数据集具有大小为100 x100的图像,不同之处仅在于,σ,µ,σ,σ,σ3431ind(a) MREF(b)MDIST(c)MBG图5:合成数据集样本。从[27]中提出的三个合成数据集拍摄的示例图像。关注MREFMDISTMBGRel.运行时SAN [38][28]第二十八话CTX [28]83.4295.6998.0080.0689.9295.3758.0769.3379.001x1.08x1.10x公司简介indARNNindARNNARNN98.7298.5898.6598.9396.7096.2996.8296.9183.6884.2783.7485.844.73x表1:颜色预测精度。MREF、MDIST和MBG数据集的结 果 以 % 表 示 。 我 们 基 于 AttentionRNN 的 模 型CNN+ARNN优于所有基线。背景产生了。MREF具有黑色背景,MDIST具有带有一些高斯噪声的黑色背景,MBG具有从SUN数据库采样的真实图像[36]作为背景。训练集、验证集和测试集分别包含30,000、10,000和10,000张图像。实验设置。AttentionRNN的性能(ARNN)与两个局部注意机制进行比较在[28]中提出的nisms,其被称为CTX和CTX。ARNN假设a i,j=µ i,j,δ=3,其中µ i,j在等式10中定义。 为了计算特定空间位置(i,j)的注意力,CTX 使用 (i,j)周围的 δ = 3 局部上下文, 而<$CTX仅使用来自位置(i,j)的信息。我们还定义了三个变量-表2:MBG上的掩模正确性和比例实验。“Corr”列列出了[20]提出的掩码正确性度量。“比例”列显示了不同比例下的颜色预测准确度(%)对于噪声更大的MBG数据集,ARNN比最接近的基线好6.8%。与ARNN相比,ARNNind表现不佳,这进一步推进了使用神经网络来建模T而不是假设独立的推理。与[28]类似,我们还评估了模型对目标大小的敏感性。将测试集划分为五个统一的尺度区间,计算模型的表2显示了MBG数据集的结果。ARNN对尺度变化具有鲁棒性,并且在小目标和大目标上表现一致。我们还测试了使用[20]提出的度量生成的掩码的正确性,该度量计算感兴趣区域中注意力值的百分比。对于在每个池化层之后应用注意力的模型,来自不同层的掩模通过上采样和在对应的像素值上取乘积来组合。MBG数据集的结果示于表2中。ARNN能够更准确地关注正确的区域,这从高正确性分数中显而易见。从表1和表2中可以看出,ARNN与其确定性计算相比没有显著优势。ARNN的蚂蚁:i)ARNN其中每个ai、j是从第三部分这可以归因于数据集令人鼓舞N(μi,j,σi,j),ii)ARNNind,其中组合函数Γ假设输入分布是独立的,以及点估计,因为每个查询只能有一个正确的一个-swer. 因此,对于每个ai,j,观察到σi,jiii)ARNN其中,Γ假设独立,i,j是低估方差。 然而,在一个∼抽检软注意力机制(SAN)查询可以有多个正确答案可以生成-[38]这是一个额外的基准。相同的基本CNN架构用于所有的注意力机制,以进行公平的比较。CNN由四个3×3卷积的堆栈组成,32个通道,然后是2 × 2最大池层。SAN仅在最后一个卷积层的输出上计算注意力,而CTX、CTX和ARNN的所有变体都在每个池化层之后应用。给定一幅图像,模型被训练来预测查询指定的数字的颜色。几率是20%。结果 表1示出了MREF、MDIST和MBG数据集上的各种模型的颜色预测准确度。可以看出,ARNN及其所有变体明显优于其他基线方法。的性能戴上各种各样的面具。 为了证实这一说法,我们在与MBG数据集相似但具有多种颜色的相同数字的图像上测试了预训练的ARNN。图6a示出了用于固定图像和查询的来自ARNN训练的三个不同样本的各个层参与的特征对于查询“9”,ARNN能够识别三种请注意,由于上述原因,σi,j被低估,因此在生成样本之前将其按尽管被低估了σi,j逆属性预测。图6a导致关于任务的性质的有趣观察。即使ARNN神经网络能够识别正确的数字,关注Corr. 0.5-1.0 1.0-1.5规模1.5-2.0 2.0-2.5 2.5-3.0SAN [38][28]第二十八话[第28话]0.150.280.3153.0568.2077.3974.8576.3787.1372.1873.3084.9659.5261.6075.5954.9157.2863.72公司简介indARNNindARNNARNN0.360.340.390.4282.2382.8982.2384.4589.4189.4789.4191.4086.4688.3486.4686.8484.5284.2284.5288.3981.3580.0081.3582.373432图6:注意力面具的定性分析。(a)从ARNN采样的逐层参与特征图。样本跨越图像中的所有模式(b)通过在来自MBGinv数据集的图像上可视化的不同机制生成的逐层关注特征图补充材料中显示了其他可视化。MBGb的操作过程与MBG相同我们进行了一项消融研究,分析了使用块Atten- tionRNN(BRNN)(第3.3节)代替ARNN对较大图像特征的影响对于基础架构,来自先前实验的ARNN模型用卷积和最大池化层的附加堆栈来的表3:块AttentionRNN。MBGb数据集上的消融结果。比较了块大小为2和3的AttentionRNN(ARNN)和块AttentionRNN(BRNN)仅需要聚焦在目标区域的微小部分上就能够准确地对颜色进行分类。为了进一步证明ARNN对较长依赖关系 建模 的 能力 , 我们 在 MBG inv数 据集 上 测试 了ARNN、CTX和<$CTX的性能,该数据集定义了逆属性预测问题-给定一种颜色,识别与该颜色对应的数字 。 基 本 CNN 架 构 与 之 前 实 验 中 使 用 的 相 同 。ARNN、CTX和¬CTX实现了72.77%、66.37%和40.15%的准确度以及0.39、0.24和0.39的正确性得分[20]。0.20。图6b示出了三个模型的逐层关注ARNN能够捕获整个数字结构,而其他两种方法只关注目标区域的一部分。即使CTX使用一些局部上下文来计算注意掩码,它也无法识别数字“0”的完整结构一个合理的原因是3×3的局部上下文太小,无法捕获整个目标区域。因此,注意力掩模是在补丁中计算的。CTX不保持关于先前计算的注意力值的信息,并且因此不能为所有不同的目标区域块分配相关的注意力分数。另一方面,ARNN捕捉注意力变量之间的约束,使其在这种情况下更加有效。ARNN的可扩展性。表1所示的结果对应于在100×100输入图像上训练的模型,其中第一个注意力层应用于大小为50×50的图像特征。为了分析ARNN在相对较大的图像特征上的性能,我们创建了一个新的224×224图像数据集,称为MBGb。数据生成-在补充材料中提到了详细的体系结构表3示出了MBGb数据集在不同标度区间上的颜色预测准确度由于第一个注意层现在应用于大小为112×112的特征图,因此ARNN的性能比没有注意时的情况更差由于LSTM在大序列上的易处理性差,因此应用了(无)。另一方面,BRNNγ=2能够表现得更好,因为它在应用注意力之前减小了图像特征尺寸然而,当γ=2和γ=3时,BRNN的性能有相当大的差异。当γ=3时,BRNN应用步长为3×3的卷积3 .第三章。这种积极的尺寸减小导致信息丢失4.2. 图像分类数据集。我们使用CIFAR-100 [16]来验证AttentionRNN在图像分类任务该数据集由来自100个类别的60,000张32×32图像组成。训练/测试集包含50,000/10,000个图像。实验设置。我们将ARNN扩展到[35]提出的卷积块注意模块(CBAM)。对于给定的特征图,CBAM计算两种不同类型的注意力:1)通道注意力,其利用特征图中的通道间依赖性,以及2)空间注意力,其使用局部上下文来标识空间域中的关系。我们用ARNN代替CBAM 中 的 空间 注 意 。 这个 修 改 后 的 模块 被 称 为CBAM+ARNN。ResNet18 [8]被用作我们实验的基础模型。ResNet18+CBAM是通过在Resnet18模型中使用CBAM 获 得 的 模 型 , 如 [35] 所 述 。 类 似 地 定 义Resnet18+CBAM+ARNN。我们使用3×3的局部上下文来计算CBAM和CBAM+ARNN的空间结果使用前1和前5误差来评估模型的性能。结果总结在Ta中。总0.5-1.0 1.0-1.5规模1.5-2.0 2.0-2.5 2.5-3.0没有一91.43 85.6392.5794.9694.7793.59ARNN91.09 84.8992.2594.2494.7094.52BRNNγ=3 91.67 85.9793.4694.8194.3593.68BRNNγ=2 92.6888.1094.2395.3294.8094.013433Top-1误差(%)Top-5误差(%)Rel.运行时ResNet18 [8]25.566.871xResNet18 + CBAM [35]25.076.571.43倍表4:图像分类的性能。显示所有模型的Top-1和Top-5误差%基于ARNN的模型优于所有其他基线。是/否Number 其他总Rel.运行时MCB [5]76.0635.3243.87 54.841xMCB+ATT [5] 76.1235.8447.84 56.891.66倍MCB+ARNN77.1336.7548.23 57.582.46倍表5:VQA性能。以%准确度表示。表4. CBAM+ARNN在最接近的基线上提供了0.89%的top-1误差改善。请注意,这个增益虽然看起来很小,但比CBAM在ResNet18上获得的增益要大(前1错误为0.49%)。4.3. 视觉问题回答数据集。我们评估了ARNN在VQA任务上的性能 [2]。实验是在VQA上进行的2.0数据集[7],其中包含来自MSCOCO [19]的图像由于测试集不是公开的,我们评估验证集的性能。实验设置。我们将ARNN扩展到多模态紧凑双线性池(MCB)结构,图7:ModularGAN的定性结果。 注意由原始ModularGAN [43]生成的函数掩码,示 出 了 用 ARNN 增 强 的 ModularGAN 。 请 注 意 ,MGAN+ARNN的头发遮罩更均匀,因为它能够在注意力遮罩中编码结构依赖性。其他结果见补充材料。头发性别微笑Rel.运行时MGAN [43]2.53.212.61xMGAN+ARNN3.01.411.41.96倍表6:图像生成性能。 ResNet18[8]每个属性转换的分类错误(%)-第ARNN在两个任务上实现了更好的性能。实 验 设 置 。我 们 将 ARNN 与 ModularGAN(MGAN)框架[43]中使用的本地注意力机制进行了比较。MGAN使用3×3局部上下文来获得注意力值。我们将MGAN+ARNN定义为用ARNN代替局部注意力得到的网络。训练模型以在给定属性的情况下变换图像结果为了评估模型的性能,类似于[43],我们训练了一个ResNet18 [8]模型,该模型在CelebA(五)以物定志这被称为MCB+ARNN。请注意,尽管MCBMCB+ATT是MCB的一个变体,它使用来自[5]的δ=1的局部注意力机制。为了公平比较,MCB+ARNN也使用δ=1的上下文。结果使用[2]中定义的准确度测量结果总结见表五、MCB+ARNN相对于最接近的基线1实现了0.69%的改善。我们认为这种边际改进是因为对于每个空间位置(i,j),所有模型都没有使用相邻位置的上下文(因为δ=1)。4.4. 图像生成数据集。 我们分析了使用ARNN对图像生成任务的影响。实验是在CelebA数据集[21],包含202,599张名人的面部图像,具有40个二进制属性。数据预处理与[43]相同根据三个属性对模型进行评估:头发颜色={黑色,金色,棕色},性别={male,female},and smile ={smile,nosmile}.1报告的基线性能来自我们的PyTorch [23][5]的重新实现,并且与MCB+ARNN直接相当。我们注意到[7]报告的性能稍好(20%),我们将其归因于框架的差异(PyTorch [23]与Caffe [12])以及可能使用的其他功能(如[5]的表4所示)。数据集。经过训练的分类器达到了对发色、性别和笑容的回复率分别为93.9%、99.0%和93.7%。对于每个变换,我们将生成的图像通过这个分类器并计算分类误差(如表6所示)。MGAN+ARNN在除头发颜色之外的所有类别上都优于基线。为了进一步分析这一点,我们看看这两个模型为头发颜色变换生成的注意力遮罩如图7所示,我们观察到由MGAN生成的注意力掩模由于不连续性而在目标区域上缺乏相干性MGAN+ARNN虽然具有稍高的分类误差,但通过编码结构依赖性在目标区域上生成均匀的激活值5. 结论在本文中,我们开发了一种新的结构化空间注意力机制,该机制是端到端可训练的,可以与任何前馈卷积神经网络集成。所提出的AttentionRNN层通过顺序预测空间掩码中的注意力值来显式地在空间注意力变量上执行结构。实验表明,一致的定量和定性的改进,各种各样的识别任务。致谢:这项工作部分由Vector Institute for AI,CanadaCIFAR AI Chair , NSERC CRC 和 NSERC DG 和Discovery Accelerator Grants资助。3434引用[1] Jacob Andreas,Marcus Rohrbach,Trevor Darrell,andDan Klein.神经模块网络。2016年在IEEE计算机视觉和模式识别会议上发表。2[2] Stanislaw Antol , Aishwarya Agrawal , Jiasen Lu ,Margaret Mitchell,Dhruv Batra,C.劳伦斯·齐特尼克和德维·帕里克Vqa:可视化问答。在IEEE国际计算机视觉会议,第24251、8[3] Dzmitry Bahdanau,Kyunhyun Cho,Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。在2015年国际学习代表会议上。3[4] Long Chen,Hanwang Zhang,Jun Xiao,Ligen Nie,Jian Shao,Wei Liu,and Tat-Seng Chua. Sca-cnn:图像字幕卷积网络中的空间和通道注意力。在IEEE计算机视觉和模式识别会议上,第6298-6306页。IEEE,2017年。一、二[5] Akira Fukui , Dong Huk Park , Daylen Yang , AnnaRohrbach,Trevor Darrell,and Marcus Rohrbach.多模态紧凑双线性池化视觉问答和视觉接地。在自然语言处理的经验方法会议上,第457-468页。ACL,2016。一二三八[6] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展,第2672-2680页,2014年。3[7] Yash Goyal 、 Tejas Khot 、 Douglas Summers-Stay 、Dhruv Batra和Devi Parikh。让vqa中的v变得重要:提升图像理解在视觉问答中的作用。在IEEE计算机视觉和模式识别会议上,第6325-6334页,2017年。8[8] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE Conferenceon Computer Vision and Pattern Recognition,第770-778页七、八[9] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算,9(8):1735-1780,1997。3[10] 胡荣航,雅各布·安德烈亚斯,凯特·萨恩科,特雷弗·达雷尔.通过堆栈神经模块网络进行可解释的神经计算。2018年欧洲计算机视觉。2[11] Max Jaderberg,Karen Simonyan,Andrew Zisserman,等.空间Transformer网络。神经信息处理系统进展,2017-2025页,2015年。2[12] 杨庆贾、埃文·谢尔哈默、
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功