局部稀疏注意力层在生成模型中的应用

44 浏览量更新于2023-10-23 收藏 1.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1您的本地GAN：生成模型的二维局部注意机制设计詹尼斯·达拉斯雅典国立技术大学daras. gmail.comAugustusOdena谷歌大脑augustusodena@google.com张涵谷歌大脑zhanghan@google.com亚历山德罗斯湾Dimakis UT奥斯汀dimakis@austin.utexas.edu摘要我们引入了一个新的局部稀疏注意层，它保留了二维几何和局部性。我们表明，通过用我们的构造替换SAGAN的密集注意力层，我们获得了非常显著的FID，Inception分数和纯视觉改善。在ImageNet上，FID评分从18.65提高到15.94，所有其他参数保持不变。稀疏的注意模式，我们提出了我们的新层设计使用一个新的信息理论标准，使用信息流图。我们还提出了一种新的方法来反转生成的对抗网络的注意力。我们的方法使用的atten- tion层的神经网络创建一个创新的损失函数。这使我们能够可视化新引入的注意头，并表明它们确实捕捉到了真实图像的二维几何形状的有趣方面。1. 介绍生成对抗网络[10]在建模和生成自然图像方面取得了重大进展[25，3]。转置卷积层是一个基本的架构组件，因为它们捕获了空间不变性，这是自然图像的一个关键属性[18，15，26]。中央限制（例如，如在[ 25 ]中所讨论的，卷积不能模拟复杂的几何形状和长距离依赖关系-典型的例子是生成具有少于或多于四条腿的狗。为了弥补这一限制，注意力层[24]已被引入深度生成模型[25，3]。注意力使得能够在单个层中对长范围空间依赖性进行建模，该层自动找到图像的相关部分，即使它们相距很远。第一在SAGAN [25]中引入并在Big-GAN [3]中进一步改进，注意力层已经导致了目前可用的一些最知名的GAN。注意力层有一些限制。首先，它们在计算上是低效的：标准的密集at-tension需要的内存和时间复杂性，规模平方的大小输入。其次，密集的注意力层在统计上是低效的：需要大量的训练样本来训练注意力层，当引入多个注意力头或层时，这个问题变得更加明显[5]。统计效率低下还源于这样的事实，即密集注意力并不受益于局部性，因为图像中的大多数依赖关系与像素的邻近最近的研究表明，大多数注意力层负责人学会主要关注当地社区[23]。为了减轻这些限制，稀疏注意力层最近在稀疏变换器中引入[5]。在那篇论文中，介绍了不同类型的稀疏注意力核，并将其用于图像、文本和音频数据，以获得出色的我们的关键观察是，稀疏变换器中引入的模式实际上是为一维数据设计的，比如文本序列。稀疏变换器[5]通过以显著扭曲图像像素的二维网格距离的方式重塑张量来应用于图像。因此，在稀疏变换器中引入的局部稀疏注意力核不能捕获图像局部性。我们的贡献：我们引入了一个新的局部稀疏注意层，它保留了二维图像的局部性，并可以通过注意步骤支持良好的信息流。为了设计我们的注意力模式，我们使用信息流3图的信息理论框架[8]。这量化了信息如何通过多个...14531··14532∈∈·∈ ∈∈··KK·∈X为oh我−∞--X为oh联系我们--图1：我们的模型YLG-SAGAN在ImageNet上训练后生成的样本。与SAGAN基线相比，图像在视觉上明显更好，这也得到了FID和Inception评分指标的支持。重复步骤并保持二维局部性。我们可视化学习的注意力地图，并表明，不同的头确实学习生成的图像的几何学的不同方面。我们使用新的二维稀疏注意力层修改SAGAN [25]以引入您的本地GAN（YLG）- SAGAN。我们的经验表明，这种变化产生显着的好处。我们在ImageNet-128上进行训练，通过只改变注意力层，同时保持架构的所有其他参数，SAGAN的FID 分数提高了 14.53% ， Inception 分数提高了8.95%我们的消融研究表明，实际上受益来自二维感应偏置，而不是引入多个股骨头。此外，YLG-SAGAN在800k训练步骤中实现了这一性能，而SAGAN为1300k，因此减少了约40%的训练时间。2. 背景密集注意力给定矩阵XRNX×EX，YRNY ×EY，注意X到Y，通过积分Y的向量表示更新X的向量表示。在本文中，X，Y是中间图像表示。更具体地说，注意X到Y将以下矩阵与输入相关联：关键矩阵YK= Y WK，查询矩阵XQ= X WQ和值矩阵YV=YWV，其中WK REY×E，WQREX ×E，WVREY×EV是可学习的权重矩阵。直观，查询与键和值进行比较，将该比较的结果转换为X的新的向量表示，该向量表示从Y中提取信息。马特h。具体地说，注意力是矩阵：O=σ XQ·YT·YV。为了在自然图像上可视化我们的注意力地图，我们遇到了反转生成器的问题：给定图像x，如何找到潜码z，使G（z）尽可能接近x。在这种损失上执行梯度下降的自然逆过程在小型GAN中起作用[2，20，19，14]，但已经被分散注意力。最大的平方复杂度-注意输入的大小是由于计算矩阵AX ， Y=XQYT，RNX×NY。我们可以将注意力分散到多个步骤中，而不是联合执行此计算。在每一步i，我们关注由二进制掩码 Mi 指定的输入位置的子集0 ，1NX×NY。从数学上讲，在步骤i，我们计算矩阵Ai，众所周知，在像SAGAN1这样的大型号中失败了。我们提出了GAN反演问题的解决方案：我们使用区分的注意层-其中：Ai[a，b]=.X为ohAX，Y[a，b]，Mi[a，b]=1 .−∞，M[a，b]=0以获得损失函数上的权重，然后我们使用梯度下降来反转损失函数。我们经验表明，优秀的反演结果的情况下，标准梯度下降反演失败。我们开源我们的代码，预训练鼓励在这一领域开展进一步研究的模式：https://github.com/giannisdaras/ylg2.我的朋友[1]这个事实是民间传说，在试图用GAN解决逆向问题的研究人员中广为人知。有许多其他方法来反转（即，训练编码器），但在现代注意力GAN上也显示出不佳的结果。2基于tensorflow-gan库的代码。在这个表达式中，意味着在softmax之后，位置将被归零，因此对输出矩阵的计算没有贡献掩模Mi的设计是减少所涉及的位置数量的关键。在实践中，有几种方法可以执行多步注意[5]。最简单的方法是让不同的头[24]并行计算矩阵Ai，然后沿着特征维度连接。我们遵循此方法（更多详情见补充材料）。··14533×√------∈∈∈×3. 您的本地GAN3.1. 全信息注意稀疏化如所解释的，p步中的注意力稀疏化由二进制掩码M1，.，Mp.问题是如何为这些步骤设计一组好的掩码。我们引入了一个信息论的工具来指导这个设计。信息流图是在[8]中引入的有向非循环图，用于通过网络信息流[1]对分布式存储系统进行建模。对于我们的问题，这个图模拟了信息如何在注意力步骤中流动对于给定的一组掩码M1，...，MP，我们创建一个多部图G（V=V0，V1，...，其中Vi，Vi +1之间的有向连接由掩码Mi确定。分区Vi中的每个顶点组对应于步骤i的注意力令牌。如果一个注意力稀疏化的信息流图具有从每个节点a V0到每个节点b Vp的有向路径，则称该注意力稀疏化具有全信息性。请注意，子图2a中显示的固定模式[5]没有完整信息：没有从V0的节点2到V2的节点1的路径。稀疏注意力通常被认为是一种以希望很小的性能损失来减少密集注意力的计算开销的方法然而，我们表明，注意力掩模选择偏向二维局部性，可以令人惊讶地优于密集的注意力层（比较表1的第二行和第三行）。这就是我们所说的密集注意力的统计无效性的一个例子。具有局部性的稀疏注意层产生更好的感应偏置，因此可以在有限样本状态下表现得更好。在无限数据的限制下，密集注意力总是可以模拟稀疏注意力或表现更好，就像全连接层可以模拟卷积层以选择可能的权重一样。我们将YLG的稀疏模式设计为[5]模式的自然扩展，同时保证相应的信息流图支持完全信息。第一种模式，我们称之为从左到右（LTR），将[5]的模式扩展到双向上下文。第二种模式，我们称之为从右到左（RTL），是LTR的转置版本。在子图2b、2e（LTR）和2c、2f（RTL）中呈现了对应的9 × 9掩码和相关联的信息流图。这些模式只允许注意到n个位置，显着降低了密集注意的二次复杂性。使用多个注意步骤可以创建非常稀疏的全信息图，但是设计和训练它们仍然需要将来的工作;在本文中，我们关注两步因子分解。我们在补充材料中包括了更多关于信息流图的细节.3.2. 二维局部性稀疏变换器的因子分解模式[5]及其图2中所示的全信息扩展基本上与一维数据（如文本序列）相匹配在图像上应用这些层的标准方法是将三维图像张量（具有三个颜色通道）重塑为进入注意力的二维张量X RN×C这对应于N个令牌，每个令牌包含输入图像的区域的C这种重塑将这N个标记线性地排列，显著地扭曲了图像的哪些部分在二维中是附近的。此行为在图3左侧的子图中进行了说明。我们认为，这就是为什么一维稀疏化是不理想的图像。事实上，[5]的作者提到固定模式（图2a）是为文本序列而不是图像设计的。我们的中心发现是，这些模式可以很好地工作的图像，如果他们的二维结构被认为是。因此，问题是如何考虑二维局部性。我们可以直接在网格上创建二维图案，但这将具有显著的计算开销，并且还阻止我们扩展已知工作良好的一维稀疏化[12，5]。相反，我们使用以下技巧修改一维稀疏化以感知二维局部性：（i）我们基于图像的像素与位置（0，0）的曼哈顿距离来对它们进行枚举（使用行优先级打破联系），（ii）移动任何给定一维稀疏化的索引以匹配曼哈顿距离枚举而不是整形枚举，以及（iii）将这种尊重二维局部性的新的一维稀疏化模式应用于图像的一维重塑版本。我们将此过程称为ESA（Enumerate，Shift，Apply），并在图3中对其进行了说明。与真正的二维距离相比，ESA技巧引入了一些失真然而，我们发现这并不太受限制，至少对于128 128分辨率而言。此外，ESA提供了一个重要的实施优势：它理论上允许使用一维块稀疏kernels [11].目前，这些内核仅适用于GPU，但使其适用于TPU仍在开发中4. 实验验证我们在ImageNet [21]数据集上进行实验。我们选择SAGAN [25]作为我们模型的基线，因为与BigGAN [3]不同，它有官方开源的Ten- sorflow代码。BigGAN不是开源的，因此训练或修改这个架构是不可能的。3有一个“非官方”的PyTorch BigGAN实现。但是，它使用梯度检查点，需要8个V100 GPU15天，14534（a）固定模式的注意掩模[5]。（b）左至右（LTR）模式的注意力面罩-燕鸥(c) 从右到左（RTL）模式的注意掩码(d) 与固定模式关联的信息流图。这种模式没有完整的信息，即节点之间存在注意力层无法建模的依赖关系例如，没有从V0的节点2到V2的节点1的路径。(e)与LTR相关的信息流图。这种模式具有完全信息，即在V0的任何节点和V2的任何节点之间存在路径。请注意，与2d中所示的固定注意力模式[5]相比，边缘的数量仅增加了一个常数。(f) 与RTL相关的信息流图。此模式也具有完整信息。RTL是LTR的图2：该图展示了我们在本文中研究的注意力层的不同两步稀疏化。第一行演示了我们应用于两个步骤中的每个步骤的不同布尔掩码。细胞的颜色[i] j]指示节点i是否可以参与节点j。用深蓝色表示两个步骤中的参与位置。浅蓝色表示第一个掩膜的位置，绿色表示第二个掩膜的位置黄色单元格对应于我们不关注任何步骤的位置（稀疏性）。第二行示出了与上述注意力掩码相关联的信息流图。信息流图可视化信息如何直观地，它可视化了我们的模型如何使用两步分解来找到图像像素之间的依赖关系在每个多部图中，第一顶点集的节点对应于图像像素，就在关注之前。从第一顶点集合V0的节点到第二顶点集合V1的节点的边意味着V0的节点可以在第一关注步骤关注V1V1、V2之间的边缘说明了第二个注意步骤。在我们所有的实验中，我们只改变了SAGAN的注意力层，保持所有其他超参数不变（参数的数量不受影响）。我们在单独的Cloud TPU v3设备（v3-8）4上训练了所有模型多达1，500，000步，生成器使用1e−4学习率，而CPU使用4e−4学习率为所有火车我们根本没有这样的计算资源。我们相信，YLG可以很容易地与BigGAN结合（只需更换其密集的注意力层），并将产生一个更好的模型。4 本研究得到了 NSF Grants 1618689 、 DMS 1723052 、 CCF1763702、AF 1901292以及Google、West- ern Digital和NVIDIA的研究捐赠的TPU由TFRC方案提供。我们报告的模型获得了最佳性能，即使它是在训练期间的早期获得的。注意力机制我们从固定模式（图2a）开始，并对其进行修改：首先，我们创建完整的信息扩展（第3.1节），产生模式从左到右（ LTR ）和从右到左（RTL）（分别见图2b和2c）。我们使用不同的头在并行实现多步注意。由于每个模式都是两步稀疏化，因此会产生4个注意力头。为了鼓励学习模式的多样性，我们使用每个模式两次，14535≈图3：图像网格的单元格的Reshape和ESA枚举，显示图像网格如何投影成一条线。（左）枚举使用标准整形的8×8图像的像素。这个投影只在行中保持局部性（右）使用ESA框架枚举8×8图像的像素我们使用从起点（0，0）开始的曼哈顿距离作为枚举的标准。虽然由于投影到1-D中而存在一些失真，但是局部性基本上被保持。我们新的注意力层中的头的总数是8。我们使用我们的ESA程序（第3.2节），使这些图案知道二维几何。在SAGAN中，关注层中的查询图像和关键图像具有不同的维度。这使事情变得复杂，因为我们讨论的稀疏化模式是为自我关注而设计的，其中查询节点和关键节点的数量是相同的。具体地说，对于SAGAN，查询图像为32×32，关键字为图像为16×16。我们用最简单的方式来处理方法：我们为16×16的图像创建蒙版，然后移动这些蒙版以覆盖32×32的图像区域。因此，32×32查询图像的每个16×16块都以完整的信息参加16×16关键图像。股骨头数量FID成立萨根118.6552.52萨根820.0946.01YLG-SAGAN815.9457.22YLG -无ESA817.4751.09YLG -跨步816.6455.21表1：在ImageNet上训练SAGAN和YLG-SAGAN后的结果表。表格还包括消融研究（SAGAN 8股骨头，YLG- 无ESA，YLG -跨步）。我们最好的模型，YLG，达到15.94FID和57.22Inception得分。我们的分数分别对应于FID和Inception的14.53%和8.95%的改善。我们强调，这些好处是通过SAGAN的一个层变化获得的，用我们引入的局部稀疏注意力层取代结果：如表1所示，YLG-SAGAN（第3行）通过FID和Inception评分测量的大幅度优于SAGAN具体来说，YLG-SAGAN将Inception评分提高到57.22（8. 95%的改善）和IM-证明FID为15.94（14. 53%的改善）。定性地，我们观察到非常好看的样本具有简单的几何形状和同质性的类别。直观地说，二维局部性可以使诸如山谷或山脉之类的类别受益，因为通常这些类别的图像过渡与其他类别相比更平滑，因此依赖性大多是局部的。除了显著提高的分数之外，使用YLG稀疏层而不是密集注意力层的一个重要好处是，我们观察到模型达到以下目标所需的训练时间显著减少这是最佳性能。SAGAN在超过130万个训练步骤后达到了它（减少40%的培训时间）。图4示出SAGAN和YLG-SAGAN FID和Inception评分作为训练时间的函数。我们创建了两个拼贴画来展示我们 YLG 版本SAGAN的样本在图7的上图中，我们展示了由我们的YLG-SAN生成的不同品种的狗在下面板中，我们使用YLG-SAGAN从ImageNet数据集的随机选择的类中生成样本4.1. 消融研究最初的SAGAN实现使用单头注意机制。在YLG中，我们使用多个头来执行并行的多步稀疏注意。以前的工作表明，多个头部提高了自然语言处理任务的性能[24]。为了了解多个头如何影响SAGAN性能，我们训练了SAGAN的8个头版本。结果报告在表1的第二行中。多头实际上显著恶化了原始SAGAN的性能，将Inception评分从52.52降低到46.01。我们提供了一个事后解释这一结果。SAGAN的查询向量的图像嵌入只有32个向量位置。通过使用8个头，每个头仅得到4个位置用于其矢量表示。我们的直觉是，4位置矢量表示不足以对密集头部的图像信息进行有效编码，这是性能下降的原因。值得注意的是，YLG- SAGAN没有这个问题。的原因每个头都是稀疏的，这意味着只关注密集头关注的位置的百分比。因此，较小的矢量表示不会使性能恶化。具有多个发散稀疏头允许YLG层在多步注意中发现图像空间中的复杂依赖关系。二维局部性如第3.2节所述，YLG使用ESA程序，以适应1-D稀疏模式与2-D结构的数据我们的动机是网格-14536∈∈∈z*图4：YLG-SAGAN和SAGAN的训练比较。我们每20万步绘制YLG-SAGAN和SAGAN的Inception得分（a）和FID（b），在ImageNet上多达1M的训练步骤。可以看出，与基线相比，YLG-SAGAN收敛得更快。具体来说，我们在步骤865k处获得最佳FID，而SAGAN需要超过1.3M的步骤才能达到其FID性能峰值。比较两种模型的峰值性能，我们得到了18。六十五比十五。94FID，通过仅改变注意层。局部性可以帮助我们的稀疏注意力层更好地模拟局部区域。为了在实验上验证这一点，我们训练了一个没有ESA程序的YLG版本。我们称这种型号为YLG -无ESA。结果示于表1的第4行：在没有ESA程序的情况下，YLG的性能与原始SAGAN大致相同该实验表明，ESA技巧是必不可少的使用一维稀疏模式的网格结构的数据。有了ESA，FID从17提高到17。四十七比十五94和Inception评分来自51岁09到5722、在建筑上没有任何区别--是的。因此，ESA是一个即插即用的框架，出色的性能提升了FID和Inception评分指标。ESA允许利用快速稀疏1-D模式，发现其对于要适应图像的文本序列工作良好，具有很大的性能益处。在第5.1节中，我们将注意力地图可视化，以展示我们的模型如何在实践中利用ESA框架。稀疏模式我们的YLG层使用LTR和RTL模式（分别见图2b和2c）。我们的直觉是，同时使用多个模式可以提高效率，因为模型将能够使用多个不同的路径发现依赖性为了测试这种直觉，我们使用Strided [5]模式的全信息扩展进行了一个实验。我们选择这种模式，因为它被发现是有效的建模图像[5]，由于其'周期性结构。与LTR和RTL模式一样，我们扩展了Strided模式，使其具有完整信息。我们指的是YLG模型，而不是LTR和RTL模式，有8个头实现的步幅模式为YLG -步幅。在我们的实验中，我们再次使用ESA技巧。我们在表1的第5行报告结果。YLG- Strided在FID和拦截得分上都超过了SAGAN，但是仍然落后于YLG。虽然在稀疏变换器[5]有人声称，跨步模式比我们在YLG中使用的模式更适合于图像，这个实验强烈地表明，这是网格局部性造成的差异，因为两个模型都远远优于SAGAN。此外，该实验表明，与使用单个稀疏模式相比，多个稀疏模式可以提高性能。需要注意的是，在同一个注意层使用虽然SAGAN的YLG变化没有受到注意力头数增加的负面影响，但更严重的头数增加可能会损害性能，类似于8个头数如何损害SAGAN的性能。5. 带注意力的生成式模型反演我们感兴趣的是将我们稀疏的注意力可视化到真实的图像上，而不仅仅是生成的图像。这自然会导致在发生器的范围内投影图像的问题，也称为反转。给定一个真实图像xRn和一个生成器G（z），求逆对应于找到一个潜变量zRk，使得G（z<$）Rn尽可能地近似给定的图像x一种方法是尝试解决以下非凸优化问题：argmin {G（z）− x<$2}。（一）为了解决这个优化问题，我们可以从随机初始化z0执行梯度下降，以最小化潜在空间中的投影距离。这种方法在几篇论文中独立介绍[16，2，20]，并进一步推广到求解反演以外的逆问题[2，20，19，14]。最近的研究[13，22]证明，对于具有随机权重和充分层扩展的全连接生成器，梯度下降将可证明地收敛到正确的最优反演。14537×∈××××不幸的是，这一理论并不适用于具有注意力层的生成器。即使从经验上讲，梯度下降的反演对于SAGAN和YLG-SAGAN等更大的生成模型也是失败的。正如我们在我们的实验中所示，优化器陷入局部极小，产生的重建只隐约类似于目标图像。在文献中已经尝试了其他的反演方法，例如联合训练编码器[9]，但是这些方法都没有成功地用注意层反演复杂的生成模型。我们提出了一种新的反演方法，使用discriminator来解决在不同的表示空间中的最小化问题有趣的是，该模型产生的表示具有更平滑的损失景观，特别是如果我们以特殊的方式使用注意力层更详细地说：我们从一个随机潜变量z和一个给定的真实图像x开始。我们用D0表示鉴别器网络，直到但不包括注意层，并获得表示D0（G（z））和D0（x）。我们可以执行梯度下降来最小化这些判别器表示的距离：反转发电机的标准方法[2]失败了：喙、腿和岩石都不见了。图5c显示了我们的方法的结果。使用我们使用反转找到的z，我们可以将注意力层的地图投影回原始图像，以获得对YLG层如何工作的有价值的见解首先，我们分析了YLG- SAGAN注意中心的差异。对于生成器的每个注意力头部，我们创建如上所述的显着性图，并使用这些图来分析注意力机制。如图5d所示，生成器中的head-7主要忽略聚焦在鸟上的背景。其他头部的功能不同：头部-2的显着图（图5e）显示，该头部在全球范围内参与我们还发现，有些人头出席的情况相当稀疏，例如，人头5出席5-6个背景像素。我们展示了第二个倒置，这次是一只靛蓝鸟（图6a）。图6b显示了标准方法[2]的反相失败：鸟的头部和树枝没有被重建。我们还说明了具体的查询点参加。我们首先说明了该模型利用了ESA的局部偏差：我们绘制了生成器头0的查询点（0，0）的注意力图在这一点上，印度-0 0 2D（G（z））− D（x）然而，我们发现，我们可以使用真实图像的注意力图来进一步增强反转。我们将使用SAGAN架构的示例来说明这一点。在SAGAN鉴别器的注意力内对于3232图像的每个像素，该注意力图是16 16图像的像素上的分布。我们可以用这个注意力图来提取一个显著图。对于16 16图像的每个像素，我们可以平均来自16 16图像的所有像素的概率。32成像并创建形状16 16的分布S。直观地说，这个分布代表了图像的每个像素对图像的重要性。我们提出的反演算法是执行梯度下降以最小化由这些显着图加权的嵌入距离：用一个蓝点标记，是背景的一部分。我们清楚地看到，这一点所涉及的立场存在局部偏见。图6e中示出了二维局部注意力的另一示例。该图显示了generator-head-4对鸟身体上的查询点（蓝点）的注意力图。这一点涉及到鸟体的边缘和鸟头。最后，图6f示出了存在关注长距离的查询点，这表明当这些出现在图像中时，关注机制能够利用局部性和长距离关系。6. 相关工作关于如何使注意力机制更有效的新想法层出不穷。戴等人。[7]将输入分成块，并将状态向量与块i关联起来.00D（G（z））−D（x）Σ′2·S·，（2）输入的几个块。注意力是按块执行的，但是块之间的信息交换经由状态向量是可能的。Guo等人[12]这是一个星形的其中S′是显著图S到D0（x）的维数。我们实际上计算每个头部的一个显着图S′，并使用它们的总和作为我们优化反演的最终损失函数更多细节见补充材料。5.1. 倒置作为注意力的透镜给定一个任意的真实图像，我们现在可以求解一个z，从生成器中生成一个类似的图像，并可视化注意力地图。我们用一个红脚鹬的真实图像的例子来解释我们的方法（图5a）。图5b显示了拓扑结构可以将文本序列的注意成本从O（n2）降低到O（n）有趣的是，在我们的框架下，这个拓扑确实有完整的信息。Sukhbaatar等人[23]引入了每个注意层的可学习自适应跨度的思想。可学习模式的想法也探讨了科雷亚等。al [6]。Calian等人[4]提出了一种利用空间相干性和稀疏性来设计稀疏近似的快速随机化算法。我们相信，所有这些方法都可以与YLG相结合，但到目前为止，还没有任何东西可以证明以即插即用的方式改进生成模型。也有关于使用注意力机制的14538(a)（b）（c）（d）（e）图5：Generator网络不同头部的反转和显着性图。我们要强调的是，这张红脚鹬鸟的图像并不在训练集中，而是通过Google图像搜索获得的通过对关键图像的每个像素从查询图像中获得的关注度进行平均来提取显著性我们用同样的技巧来增强反转。(a)一只红脚鹬的真实形象。(b)标准反演方法[2]失败的证明。(c)这只红脚鹬的倒置图像，使用我们的技术。(d)头部7的显著性图。注意力主要集中在鸟身上。(e)头部2的显著性图。这个头几乎出现在图像中的每个地方。(a)（b）（c）（d）（e）（f）图6：靛蓝鸟的反转图像和特定查询点的注意力地图的可视化。(a)原始图像。同样，这是通过Google图像搜索获得的，并且不在训练集中。（b）显示了以前的反演方法如何无法重建鸟的头部和树枝。(c)利用我们的方法成功地反演了。(d)具体来说，6d显示了注意力如何使用我们的ESA技巧来模拟背景，均匀区域。(e)注意力集中在鸟身上。(f)注意力集中在对分支的查询上。注意注意力是如何非局部的，并捕获整个分支。为图像建模：一个值得注意的例子是 Zhang et al.[25]，我们已经广泛讨论过，它为GAN增加了一个参见Parmar et al.[17]，它使用的局部注意力不是多步骤的。7. 结论和未来工作我们引入了一种新型的局部稀疏注意层，它是为二维数据设计的。我们相信，我们的层将广泛适用于任何关注二维数据的模型。一个有趣的未来方向是注意力层的设计，被认为是多步网络，其连接可以手动选择或学习。这两个相互冲突的目标是使这些网络尽可能稀疏（计算和统计效率），但也支持良好的信息流。我们引入了信息流图作为数学抽象，并提出了完整的信息作为这种网络所需的标准。最后，我们提出了一种新的方法来解决GANs的反演问题我们的技术以两种方式使用该函数：首先，使用其注意力来获得像素重要性，其次，作为版本内损失景观的平滑表示。这种新的反演方法使我们能够在真实图像的近似值上可视化我们的网络，并测试生成模型在这个重要的覆盖任务中的表现。我们认为这是第一个关键这是使用生成模型解决逆问题的一步。图7：上面板：来自ImageNet数据集的不同犬种的YLG条件图像生成。从上到下：爱斯基摩哈士奇，西伯利亚哈士奇，圣伯纳德，马耳他。下面板：从YLG-SAGAN随机生成的样本。14539引用[1] Rudolf Ahlswede，Ning Cai，S-YR Li，and Raymond WYe-ung.网络信息流。IEEE信息论学报，46（4）：1204-1216，2000. 3[2] Ashish Bora，Ajil Jalal，Eric Price，and Alexandros GDi- makis. 使用生成模型的压缩感知在第34届机器学习国际会议上，第70卷，第537-546页JMLR。org，2017.二、六、七、八[3] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN 训练。arXiv电子版，第arXiv：1809.11096页，2018年9月。第1、3条[4] 丹·A放大图片作者：Peter Roelants，Jacques Cali，BenCarr ， Kr- ishna Dubba ， John E. Reid 和 Dell Zhang 。SCRAM ： Spa-tially Coherent Randomized AttentionMaps。arXiv电子印刷品，第arXiv：1905.10308页，2019年5月。7[5] Rewon Child ， Scott Gray ， Alec Radford ， and IlyaSutskever. 用稀疏变换器生成长序列。 arXiv 预印本arXiv：1904.10509，2019。一二三四六[6] Gon cpalaloM. Correia，VladNiculae，andAndr e'F. T. 马丁斯自适应稀疏变压器。2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议（EMNLP-IJCNLP），2019年。7[7] 戴梓航，杨志林，杨一鸣，Jaime Carbonell，Quoc V.Le和Ruslan Salakhutdinov.Transformer-XL：超越固定长度上下文的抽象语言模型。arXiv电子版，第arXiv：1901.02860页，2019年1月。7[8] Alexandros G Dimakis ， P Brighten Godfrey ， YunnanWu，Martin J Wainwright，and Kannan Ramchandran.分布式存储系统的网络编码 IEEE transactions oninformation theory，56（9）：4539-4551，2010。第1、3条[9] Je f fDonahue ， PhilippK raühenbühl ，和 Tr ev 或Darrell 。对抗性特征学习。 arXiv 预印本 arXiv ：1605.09782，2016。7[10] Ian J. Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、Bing Xu 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio。生成对抗网络。arXiv电子印刷品，第arXiv：1406.2661页，2014年6月。1[11] Scott Gray，Alec Radford，and Diederik P Kingma.用于块稀疏权重的 Gpu 内核。 arXiv 预印本 arXiv ：1711.09224，2017。3[12] 郭启鹏，邱希鹏，刘鹏飞，邵云帆，薛向阳，张征.星型变压器arXiv电子版，第arXiv：1902.09113页，2019年2月。三、七[13] 保罗·汉德和弗拉迪斯拉夫·沃罗宁斯基通过经验风险强制执行深度生成先验的全球保证。IEEE Transactions onInformation Theory，2019。6[14] Maya Kabkab，Pouya Samangouei和Rama Chellappa。具有生成对抗网络的任务感知压缩感知。第三十二届AAAI人工智能会议，2018。二、六[15] Tero Karras Samuli Laine和Timo Aila 一种基于风格的生成对抗网络生成器架构。arXiv电子印刷品，第arXiv：1812.04948页，2018年12月。1[16] Zachary C Lipton和Subarna Tripathi。从生成对抗网络中精确恢复潜在向量。arXiv预印本arXiv：1702.04782，2017。6[17] Niki Parmar，Ashish Vaswani，Jakob Uszkoreit，ŁukaszKaiser，Noam Shazeer，Alexander Ku，and Dustin Tran.图像 Transformer 。 arXiv 预印本 arXiv ： 1802.05751 ，2018。8[18] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉深度卷积生成对抗网络的非监督表示学习。arXiv电子版，第arXiv：1511.06434页，2015年11月。1[19] Ankit Raj ， Yuqi Li ， and Yoram Bresler. 基于 Gan 的projec- tor，用于在线性逆问题中实现更快的恢复和收敛保证。在IEEE计算机视觉集，第5602二、六[20] JH Rick Chang，Chun-Liang Li，Barnabas Poczos，BVKVi- jaya Kumar，and Aswin C Sankaranarayanan.一个网络解决所有问题-在IEEE计算机视觉国际会议论文集，第5888二、六[21] Olga Russakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein，Alexander C.伯格和李飞飞。ImageNet大规模视觉识别挑战。国际计算机视觉杂志（IJCV），115（3）：211-252，2015年。3[22] Ganlin Song，Zhou Fan，and John Lafford.冲浪：在增量训练的深度网络上进行迭代优化。arXiv预印本arXiv：1907.08653，2019。6[23] SainbayarSukhbaatar，EdouardGrave，PiotrBojanowski，and Armand Joulin.变换器中的自适应注意广度。arXiv电子印刷品，第arXiv：1905.07799页，2019年5月。 1、7[24] 作者：Ashish Vaswani，Noam Shazeer，Niki Parmar，Jakob Uszko-reit，Llion Jones，Aidan N.戈麦斯，卢卡斯凯泽，伊利亚·波罗苏欣。注意力就是你所需要的。arXiv电子印刷品，第arXiv：1706.03762页，2017年6月。一、二、五[25] 张涵，伊恩·古德费洛，迪米特里斯·梅塔克萨斯，奥格斯图斯·奥德纳.自我注意生成对抗网络。在KamalikaChaudhuri和Ruslan Salakhutdinov编辑的第36届国际机器学习会议论文集，机器学习研究第97卷，第7354-PMLR。一二三八[26] 张涵，徐涛，李洪生，张少庭，王晓刚，黄晓磊，季米特里斯 . Stack-GAN ： Text to Photo-realistic ImageSynthesis with Stacked Generative Adversarial Networks.arXiv电子版，第arXiv：1612.03242页，2016年12月。1

下载后可阅读完整内容，剩余1页未读，立即下载