条件图像生成中的注意归一化模块

197 浏览量更新于2023-10-24 收藏 1.22MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15094用于条件图像生成的王毅1陈颖聪1张翔宇2孙健2 贾佳雅11香港中文大学2MEGVII Technology{yiwang，ycchen，leojia}@ cse.cuhk.edu.hk{zhangxiangyu，sunjian}@ megvii.com摘要传统的基于卷积的生成对抗网络基于分层局部操作合成图像对于具有复杂结构的类别，在本文中，我们用注意规范化（AN）来描述长程依赖具体地说，输入的特征图被软划分成几个区域的内部语义相似性的基础上，分别归一化。它通过语义对应增强了遥远区域之间的一致性。与自注意GAN相比，我们的注意归一化不需要测量所有位置的相关性，因此可以直接应用于大尺寸特征图，而没有太多的计算负担。基于类条件的图像生成和语义修复实验验证了该模块的有效性。1. 介绍生成对抗网络[8]使图像生成引起了人们的广泛关注。它的目的是基于自然图像的集合这允许各种实际应用，例如，图像创建[20，19]，编辑[38，33]，区分任务中的数据增强[1]等。大多数图像生成器依赖于完全卷积生成器[30，31，26]。尽管这些方法已经证明了它们在建模结构化数据（如人脸[19，20]）和非结构化数据（如自然场景[26，25]）方面的成功，但它们在复杂的结构化数据（如猫或狗）上并不有效原因是卷积神经网络（CNN）中的每一层都是局部的，* 部分工作是在MEGVII Technology实习时形成的。本研究得到了国家重点研究发展计划（ 2005 ）的资助。2017YFA0700800）和北京人工智能研究院（BAAI）。(a)（b）第（1）款图1.使用我们提出的专注归一化模块的GAN框架的条件图像生成。(a)类-条件图像生成。(b)图像修复。有界的，并且远距离位置之间的关系依赖于卷积层之间的马尔可夫建模。在这方面，尽管堆叠卷积层可能导致大的感受野，但完全卷积生成器仍然缺乏对远程位置的高阶关系进行建模的能力这种长距离关系是至关重要的，因为它代表了人类感知所熟悉和敏感的语义对应关系，例如：自然物体的对称性和肢体之间的一致性。自注意GAN（SA-GAN）[39]迈出了在类条件图像生成中对长距离依赖建模的第一步。在基于卷积的生成器中引入了自注意模块，这有助于捕捉远距离区域之间的关系。然而，自我注意模块需要计算特征图中每两个点因此，计算成本随着特征图变大而快速增长。在本文中，我们提出了一种不同的方法来进行远程相关性建模，并取得了更好的结果，以及较低的计算负担。我们的方法是建立在实例规范化（IN）。但是（IN）的先前解决方案将特征图的均值和方差沿其空间维度进行归一化。这种策略忽略了这样一个事实，即不同的位置可能对应于具有不同均值和方差的语义。如[28]所示，这种机制往往会在空间上恶化中间特征的学习语义。在本文中，我们规范化的输入特征映射spatially根据从他们预测的语义布局。它改善了输入中的距离关系，15095以及在空间上保持语义。在我们的方法中，语义布局的估计依赖于两个经验观察。首先，特征图可以被视为多个语义实体的组合[9]。其次，神经网络中的深层捕获输入图像的高级语义[22]。我们提出了我们的语义布局学习模块的基础上，这些意见。该模块包含两个组件，即，语义布局预测和自采样正则化。前者产生语义感知的掩码，将特征图分成几个部分。自采样正则化规则化语义布局预测的优化，避免琐碎的结果。在语义布局的基础上，通过对每个区域进行独立的规范化处理，实现空间信息的传播.这自然地增强了具有相似语义的特征点之间的关系，超出了空间限制，因为它们的分布通过归一化变得紧凑。它们的共同特征被保留下来，甚至通过它们独有的可学习仿射变换得到增强。所提出的标准化是通用的。它在类条件图像生成（ImageNet [6]）和生成图像修复（Paris Streetview[29]）中进行了实验验证图1显示了一些结果。我们的主要贡献如下。• 我们提出了一种注意归一化（AN）来捕捉中间特征中的视觉距离关系在图像生成过程中映射AN从输入的特征图中预测语义布局，然后基于该布局对特征图进行区域实例规范化• 提出的AN模块通过同时融合和传播语义相似区域的特征统计信息，具有较低的计算复杂度。• 通过大量的实验证明了AN在远距离关系建模中对类条件图像生成和生成改进的有效性。年龄修复在相同或相似的训练集和模型容量下，所提出的AN模块实现了可比或更好的视觉和定量结果。在类条件图像生成在 ImageNet （ 128×128 ）上的任务中， FrechetInception Distance （FID） [12]达到 17.84，而在ImageNet（128 × 128）上，通过自注意GAN [39]实现，而22.96没有这些远程依赖建模模块。2. 相关工作2.1. 生成对抗网络生成对抗网络（GAN）[8]是一种通过学习将随机噪声映射到真实图像样本来合成新图像的有效模型。然而，GAN考虑到其对模型设计和参数的敏感性，训练通常是困难的。提出了很多方法来改进该过程，包括生成器和迭代器的架构设计[30，19，20，26]，学习目标的更稳定分布测量[24，2，18]，模型权重和梯度约束[10，25]，仅举几例。2.2. 长距离相关建模中的注意力神经网络中的注意力模块基于神经元之间的相关性对它们之间的关系进行显式建模，在各种自然语言处理和计算机视觉任务中充当关键组件。在图像生成中，通过注意力机制的远距离关系建模被证明对于学习高维和复杂的图像分布是有效的[39，37，7，15，13]。在[39]中，提出的自我注意模块使用所有特征点的加权和来重建每个特征点。该模块显著提高了特征图中远距离相关区域之间的相关性，显示了大规模图像生成的明显进步从计算的角度来看，特征图中的成对关系计算需要二次复杂度（时间和空间），限制了其在大型特征图中的应用。2.3. 深度学习中的标准化归一化在神经网络训练中是至关重要的，无论是判别任务还是生成任务。该方法通过共享均值和方差，使输入特征趋于独立同这种特性加速了神经网络的训练收敛，使训练深度网络变得可行。实际的规范化层包括批量规范化[17]，实例规范化[32]，层规范化[3]和组规范化[35]，这些在基于深度学习的分类器中很常见。此外，一些归一化变体在具有附加条件的图像生成任务中得到应用，例如，条件批量归一化（CBN）[26]、自适应实例归一化（AdaIN）[14]和空间自适应（去）归一化（SPADE）[28]。通常，在对给定的特征图进行归一化之后，这些特征被进一步仿射变换，这是在其他特征或条件下学习的。这些条件规范化的方式可以使生成器在创建更合理的标签相关内容方面受益。3. 注意规范化注意规范化（Attentive Normalization，AN）的思想是根据特征图的语义将其划分为不同的区域，然后分别对同一区域内的特征点进行规范化和反规范化。第一项任务由15096F我可以用于不同上下文中的已知新颖对象。这些假设被广泛用于无监督表示学习[22]。在这里，我们感兴趣的方式组的图像特征点，根据它们的相关性的语义实体。它有助于增强同一组中的内部相似性我们给n个初始的期望的语义实体，并定义它们的相关性的图像的特征点作为它们的内积。表示这些实体的语义是通过反向传播学习的。我们根据这些实体的激活状态将输入特征图中的特征点聚合到不同的区域。此外，为了鼓励这些实体接近不同的模式，对这些实体采用正交正则化，图2.提出了注意规范化模块。提出了语义布局学习（SLL）模块，第二个是通过区域规范化进行。For the given feature maps X ∈ Rh×w×c, Attentive Nor-malization (AN) learns a soft semantic layout L ∈ Rh×w×nand normalizes X spatially according to L, where Lp ∈ [0,1], n denotes a predefined class number, and p denotespixel location.AN由所提出的语义布局学习（SLL）模块和区域规范化形成，如图2所示。它有一个语义学习分支和一个自采样分支。语义学习分支采用一定数量的卷积滤波器来捕获具有不同语义的区域（由特定滤波器激活），假设该分支中的每个滤波器对应于一些语义实体。自采样分支是对用于合并的语义学习分支的补充。它规则化语义实体的学习，使得语义学习分支可以避免产生无用的语义-这意味着它们与输入特征不相关。结合这两个分支的输出，通过softmax计算布局。然后根据这种布局对仿射变换后的特征图进行区域归一化。3.1. 语义布局学习模块我们假设每个图像是由n个语义实体。对于来自图像的特征图的每个特征点，其由至少一个实体确定。这种解释给出了一种表达性的表示，因为这些实体Lo=λ o||WWT− I||第二条第一款其中W∈Rn×c是由这n个实体构成的权重矩阵（每行是行向量形式的跨越权重在我们的实现中，采用具有n个过滤器的卷积层作为语义实体。这一层将输入特征将 X 映射到新的特征空间 f （ X ）∈Rh×w×n。直觉上，n越大，可以学习的高级特征就越多样和丰富。n=16对于进行128×128类条件图像生成和256×256生成式图像修复具有经验性然而，仅仅依靠这一组成部分并不能导致合理的训练，因为它倾向于将所有特征点与单个语义实体分组。这是由于没有设置协议来禁止与输入特征点相关性低或没有相关性的无用语义实体从这个角度来看，我们引入了一个自采样分支，提供了一个合理的初始语义布局估计。它可以防止琐碎的解决方案。自采样正则化除了从头开始学习上述语义布局之外，我们还使用自采样分支来正则化语义学习。它受到特征量化[36，5]实践的启发，该实践用非空聚类的质心重新分配空聚类。我们的自采样分支从输入的翻译特征图中随机选择n个特征点，作为语义实体的替代品。当某些实体与输入特征图变得不相关时，它们被激活。该分支利用相同特征图中的相关性来近似语义布局。具体地，该分支随机地（我们使用均匀采样）从转换的特征图k（X）中选择n个特征像素作为初始语义过滤器。捕获更多在显著语义中，k（X）首先通过最大池化处理。然后，激活状态图F被计算为：Fi，j=k（X）Tq（X）j，（2）15097我图3.区域正常化的说明。所示的特征图在空间上被分割成四个不同的区域（每个区域具有颜色）。每个均值和方差都是在每个特征图中相同颜色的特征点上计算的N、H、W和C分别表示批量、通道编号、高度和宽度。其中F∈Rh×w×n. q（X）也是平移的特征映射。i和j表示像素位置。我们设置#{i}=n和#{j}=h×w。3.2. 软语义布局计算利用缓慢更新的f（X）和快速生成的F，原始语义激活图Sraw被计算为：Sraw=tF+f（X），（3）其中t∈R1×1×n是可学习向量，初始化为0的情况。1.一、它自适应地调整自采样分支，使得自采样分支在一些实体在训练期间变得无用时提供有意义的实体替代。然后，我们使用softmax对Sraw进行归一化，以获得软语义布局，（-0.08，4.77）（0.00，0.35）（0.01，0.44）（-0.01，1.09）（-0.17，5.40）（0.01，0.41）（0.03，0.71）（-0.02，0.81）(a)（b）（c）（d）图4.说明特征图的特征统计数据如何受到其计算区域的影响（a）生成结果。(b-d)在ImageNet数据集上学习了我们方法的注意力图[6]。它们的上述元组表示在相应的32×32特征图上计算的平均值和标准差统计量是在（a）的整个区域上计算的，并且仅在（b-d）的突出显示的区域上处理。所提出的模块的最终输出将原始输入特征图视为AN（X）=ρX<$+X，（6）其中ρ是初始化为0的可学习标量这种残差学习方案通过逐渐更加关注区域归一化来平滑学习曲线。3.4. 分析为什么自采样正则化有效它可以适应-exp（τSraw）Sk=ni=1Kexp（τSraw）、（四）从当前特征图中捕获语义在部分选择时，其中i和k索引特征通道。每个Sk是一个软掩模，表示每个像素属于类别k的概率。τ是控制预测语义布局的平滑度的系数，默认值设置为0。1.一、3.3.区域标准化在软语义布局的基础上，通过区域实例规范化对特征图中的长距离关系进行建模它考虑了空间信息，并将每个区域视为一个实例（如图3所示）。具有相同或相似语义的特征点之间的相关性通过共享均值和方差来提高，Mantic实体没有很好地学习。均匀采样使得这样的过程在早期训练阶段不倾向于特定类型的语义，此时深层特征不能捕获语义。此外，这种抽样使就业实体在培训期间发生变化我们注意到，无用实体的激活替代品的变化对于语义实体的学习至关重要，因为它可以刺激当前学习的无用实体来捕获输入特征图中的现有这在我们的实验中得到了实验验证（第二节）。（五）。简而言之，这种策略使SLL从仅仅学习单个语义实体正规化，并导致理解更多现有语义。¯ΣnX−µ（XSi）X=i=1（σ（XS×βi+αi）Si，（5））+习得语义布局的有效性预测的语义布局指示具有高内部其中X Si=X<$Si。β i和α i是仿射变换的可学习参数向量（∈R1×1×c），初始化为1 和0 ，关于iv. µ（·）和σ（·）分别计算实例的均值和标准差语义的连贯性。如图4所示，从我们预测的语义布局突出显示的区域计算的标准差远低于从我们生成的图像的整个中间特征图计算的标准差我15098(a)（b）（c）（d）（e）（f）（g）（h）图5。ImageNet上学习的语义布局的可视化（a）我们的方法产生的类条件生成结果（b）二进制-学习的语义布局的版本。(c-h)由学习的语义实体激活的注意力地图。激活区域它们与所使用的语义实体的相关性越高。输入特征图的分辨率为32 ×32。图6.残差块使用注意归一化。(0.35、0.44和1.09 v.s.第一行为4.77，第二行为0.41、0.71和0.81 v.s.5.40在第二行）。基于它们的相似性对这些点进行区域规范化可以更好地保留学习的语义。如图5所示，学习的语义实体通过激活特征图的不同区域来显示它们的差异注意，显著的前景对象可以被检测为背景部分。一些实体关注对象的部分，因为这些区域与给定的标签信息高度相关。如第一行的（c）和（f）所示，它们分别突出显示了熊猫的耳朵/身体和面部区域，这些区域包含了此类的高度区分特征。复杂性分析除了用于生成中间特征图的卷积计算之外，主要计算在于自采样和区域归一化。malization。它们都花费O（NHWnC），导致最终的O（nNHWC），其中N，H，W和C表示批次大小，高度，宽度和通道数。输入特征图。AN的消耗比自我注意模块少得多（时间复杂度为O（N（H2W2C+HWC2）。它没有关于特征图的空间大小的平方项。与其他规范化的关系我们的工作与现有的条件规范化方法，例如。自适应实例归一化（AdaIN）[14]和空间自适应（去）归一化（SPADE）[28]。一个主要的区别是AN的额外条件（语义布局）是从输入特征中自学，而不是作为额外的输入。此外，AN将来自图像的特征的空间部分（由学习的语义布局指示）视为用于归一化的实例。4. 注意规范化的应用在通常的实践中，AN被放置在卷积层（不考虑全连接层，因为它是全局计算的）和激活层之间。为了进行长距离依赖建模，应该将其放置在相对较大的特征图上。同时，它需要在深层进行自采样正则化。与[26]类似，我们提出的AN被合并到残差块[11]中用于条件图像生成（如图6所示）。由于它比普通归一化具有相对更高的复杂性，因此我们只在生成网络中应用一次，并且发现它足以改善第5节中验证的距离关系。在测试阶段，我们通过在t=0时关闭AN的自采样分支来去除该分支中的随机性。因此，生成过程是确定性的，只受输入的影响。我们将AN集成到两个GAN框架中，分别用于类条件图像生成和生成式图像修补。框架的详细设计见补充文件。类条件图像生成此任务通过对给定图像进行训练来学习合成图像分布。它通过生成器G将随机采样的噪声z映射到图像x，以图像标签y为条件。与[25，39]类似，我们的生成器G由五个残差块[11]顺序形成，并在第三个残差块中采用AN（图6）。它输出32×32特征图。此外，CXD由五个残差块组成第一种是与AN结合。对于优化目标，铰链对抗损失为：15099CDCPC用于训练发电机，LG=−Ez<$Pz，y<$PdataD（G（z，y），y）.（7）其对应的更新损失为表1.我们提出的模块在ImageNet上的定量结果，具有类条件生成。SN-GAN* 将频谱归一化应用于生成器和SNR，而SN-GAN仅将其应用于SNR。LD=E（x，y）P数据[ min（1 −D（x，y））]+E z<$Pz，y<$P数据[min（1 + D（G（z，y），y））]。（八）生成图像修复此任务将不完整图像C和掩码M（缺失像素值为1，已知像素值为0）作为输入，并根据图像上下文预测视觉上可行的结果。生成的内容应该与给定的上下文一致。利用已知的区域来填补缺失的区域对于这项任务至关重要与[38]类似，我们采用两阶段神经网络框架。这两个阶段都使用编码器-解码器结构。AN模块被放置在第二级中，利用上下文来细化预测区域。该任务的学习目标由重构项和对抗项组成，LG=λre c||G（C，M）−Y||1−λadvECP [D（C）]，（9）其中，Y是C的相应基础真值，C=G（C，M）JM+YJ（1−M），P表示数据分布u-tJion，D是针对性训练的参数。表示逐元素乘法。λrec和λadv是两个超参数用于控制重建和对抗项的影响。对于WGAN的对抗训练，采用WGAN-GP损失[10]作为评估对于定量分析，我们采用 Frechet InceptionDistance（FID）[12]，intra FID [25]和Inception Score（IS）[31]进行类条件性imm。年龄生成任务。我们采用峰值信噪比（PSNR），结构相似性（SSIM）和平均绝对误差（MAE）的图像修复。Intra FID给出了特定类别的生成图像和真实图像之间的FID，而在以下实验中单独的FID指示了所有类别的合成大小的图像和真实图像之间的差异。在50k随机生成的图像上计算FID、帧内FID和IS。5.1. 实现细节类条件图像生成使用Adam优化器[21]。双时标更新方案[12]采用了1 ×10- 4的学习率为发电机，和4×10- 4的学习率为发电机。β1=0，β2=0。999此外，我们将谱归一化[25]应用于生成器和稳定器，L=E数据[D（C）]−EYP 数据 [D（Y）]（十）进一步完善培训程序所有基线都是训练+λgpECP[（||C||2-1）2]，具有相同的批量大小256。生成式修复为了稳定训练过程其中C=tC+（1−t）Y，t∈[0，1]，且λgp=10。5. 实验结果及分析我们评估了我们的AN在类条件图像生成和生成图像修复任务中的远程依赖建模能力。这两项任务都严重依赖于远距离视觉关系建模，以便为对象和复杂场景生成令人信服的语义结构第一个任务在ImageNet上进行[6]（128×128分辨率），而第二个是在巴黎街景上进行的[29]（分辨率为256×256）。基线光谱归一化GAN（SN-GAN）[25]和自注意GAN（SA-GAN）[39]被采用作为我们的基线，考虑到它们在具有流行模块化设计的类条件图像生成任务中的改进。BigGAN [4]及其后续工作[23，40]不包括在内，因为大模型容量和大批量超出了我们的计算能力。对于图像修复，我们以上下文注意力（CA）[38]为基线。模型Itr×1KFID↓FID内↓ IS↑AC-GAN [27]/打开/关闭260.0 28.5SN-GAN [26]1千27.6236.80[39]第三十九话1千22.96/42.87S-GAN [39]18.6583.752. 52我们88017. 8483岁4046.5715100并产生上下文相关的内容，采用两阶段训练方案[16，38，33，？，34]。在第一训练阶段，在整个训练收敛之后，仅使用重建损失（通过设置λadv=0）。第二相位开始时设置λadv=1e−3。在这两个阶段中，使用Adam 优化器，学习率= 1e − 4，β1=0。5和β2= 0。9 .第九条。5.2. 类条件图像生成如表1所列，配备有我们提出的AN模块的GAN在FID和内部FID方面优于SN-GAN和SN-GAN*。这意味着与两个基线相比，我们的方法生成了更真实和多样化的视觉结果，通过捕获距离关系验证了AN在此任务中的有效性与SA-GAN 相比，我们的方法产生更低的FID，内FID，和IS。实验结果表明，该模型的性能与自注意模型相当，进一步验证了AN可以提高类条件图像生成的性能。关于训练迭代达到收敛，我们的方法成本15101（970）蘑菇（992）钻井平台（540）纵帆船（780）图7.我们的模型在ImageNet上随机生成的图像（128×128表2.使用类条件生成对ImageNet中的典型图像类进行FID内比较（越低越好）。类名（标签）SN-GAN [26日]SA-GAN [39]第三十九届我们石墙（825）49.357.534.16喷泉（974）19.521.613.97山谷（979）26.039.722.90珊瑚菌（991）37.238.024.02靛蓝狩猎（14）66.853.042.54红脚鹬（141）60.148.939.06圣伯纳德（247）55.335.739.36老虎猫（282）90.288.166.65SN-GAN、SN-GAN * 和SA-GAN的迭代次数分别为880 K和1000 K。该方法在训练中具有更快的收敛速度。我们的AN的另一个优点是它在相对简单的空间约束（例如，表2中前四行中的自然场景或纹理）和复杂的结构关系（例如，表2中最后四行给出的对象）。表2显示，在这两种情况下，与SN-GAN相比，我们的方法提高了帧内FID。与SA-GAN相比，它还产生更好或相当的内部FID评分图7证实，AN井处理纹理（高山和木耳）和敏感结构（钻井平台和纵帆船）在视觉评价。注意，在前面的简单几何图形的情况下，自我注意并没有表现出优越性我们观察到，我们的方法可以在自然场景或纹理上产生更多样化的图案。这是因为自注意使用相似的特征点来重建每个特征点，从而施加了大量的结构约束，这使得所产生的特征趋于一致。同时，AN增强了区域的空间关系，每个区域通过规范化共享相同的语义。与注意机制中所有特征点的加权和相比，区域归一化有利于创建更多样化的模式图8. 分类插值和我们的方法从布伦海姆犬的中间结果（标签：156）到靛蓝狩猎（拉贝尔：14），以及从靛蓝狩猎到纵帆船（标签：780）与固定的噪声信号z。第一和第三行：从我们的方法的类条件生成结果。第二和第四行：由一个语义实体激活的注意力地图。激活区域越亮，它们与所使用的语义实体的相关性越高表3.巴黎街景的定量比较方法峰值信噪比（dB）↑SSIM↑MAE↓美国[38]23.780.84060.0338我们25.090.85410.0334分类插值我们的方法的分类插值可以通过来自具有不同标签和生成器中的固定输入噪声z的所使用的条件批归一化图8给出了一个示例。注意，由一个语义实体给出的注意力图跟踪所生成的图像的几乎前景部分，而不管前景如何逐渐变化它体现了学习的语义实体的通用性5.3. 生成式图像修复技术的应用生成式图像修复依赖于远程交互和类条件图像生成。一个小的区别是来自上下文区域的特征是已知的。图9中给出了修复结果。配备AN的基线产生最吸引人的视觉性能，15102(a)（b）（c）（a）（b）（c）图9.巴黎街景生成式图像修复的视觉比较。(a)输入图像。(b)来自CA的结果[38]。(c)我们的了更多结果在补充文件中给出。表4.使用类条件生成在ImageNet上进行AN模块消融的定量结果。模块IS ↑FID↓注意归一化w BN43.9219.59不带正交区域的45.9918.07不带SSR的37.8623.58注意标准化（n= 8）45.5119.01注意标准化（n= 16）46.5717.84注意标准化（n= 32）47.1417.75关于语义结构（带窗户的建筑立面）和细节纹理的mance。在定量评估中，我们的方法也优于PSRN、SSIM和MAE，如表3所示再次验证了人工神经网络在增强跨空间区域信息融合方面的有效性。5.4. 消融研究所使用的语义实体的数量n特征点之间的相关性由所使用的语义实体隐含地表征。它们的数量n控制着这种特性的精细程度表4中的最后三行示出AN从n=8到n=16的明显性能改进，而这种改进相对于N = 16的性能改进。表5.我们提出的模块和自我注意的推理时间（ms）。所有馈送张量具有相同的批量1和通道号32。决议不同。‘-’ standsfor evaluation time unmeasurable due to out-of-memory in模块128×128256×256512×5121024×1024一个0.732.249.4637.68Self-attention5.2179.42--在区域归一化中使用的归一化的选择这里可以使用各种可用的归一化形式[17，32，35，3]。为了简单起见，我们只插入和评估BN和IN。IN的FID值（17.84）低于BN的FID值（19.59），显示了IN在该任务中的相对优势计算效率的实证评估神经网络模块的计算效率取决于其实现、软件和硬件平台。本文给出了自我注意和我们提出的人工神经网络（n=16）的效率评价，仅供参考.它们都是用Pytorch 1.1.0编程的，运行在同一个计算平台上，有4个CPU，1个TiTAN 2080GPU和32GB内存。表5显示，在时间和GPU内存控制方面，AN比自注意执行得更有效。从n=16至n=32的临界值。考虑为了权衡AN的有效性和效率，本文选择n=16进行实验自我采样的有效性正则化(SSR)SSR有助于语义布局学习（SSL）模块中的实体捕获有意义的语义。如SEC中所述3.1，没有SSR的SSL倾向于产生只有一个有用实体的琐碎语义布局（示例在补充文件中给出）。在这个场景中，区域实例规范化降级为普通实例规范化。表4表明，我们的方法与SSR产生低得多的FID为17.84与没有它（23.58），其中后者接近SN-GAN*（22）。96）在表1中。我们假设相对较低的性能是由于SN-GAN* 中的在相对较大的特征图上进行假设与第3.4节中的复杂度分析一致，AN的时间复杂度（经验上）随着空间大小的增加而线性增长，而自我注意的时间复杂度增长得更快。6. 结论在本文中，我们提出了一种新的方法进行遥远的关系建模的条件图像生成通过规范化。它为研究超范围神经活动之间的相关性我们提出的规范化模块由语义布局学习和区域规范化组成。所学习的语义布局足以用于区域归一化以保持和增强从生成器学习的语义对应我们将探讨它的用法和其他任务中可能的变体（例如分类和语义分割）。15103引用[1] Antreas Antoniou，Amos Storkey，and Harrison Edwards.数据增强生成对抗网络。 arXiv 预印本 arXiv ：1711.04340，2017。[2] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein生成对抗网络在ICML，第214-223页[3] 吉米·雷·巴，杰米·瑞安·基罗斯，杰弗里·E·辛顿.层归一化。arXiv预印本arXiv：1607.06450，2016。[4] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。arXiv预印本arXiv：1809.11096，2018。[5] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。ECCV，第132-149页[6] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，第248-255页[7] 傅军，刘静，田海杰，李勇，鲍勇军，方志伟，卢汉青.用于场景分割的双注意网络。在IEEE计算机视觉和模式识别会议集，第3146- 3154页[8] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NeurIPS，第2672-2680页[9] KlausGreff，SjoerdvanSteenkiste，andJürgenSchmidhuber. 神经期望最大化。在NeurIPS，第6691- 6701页[10] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。在NeurIPS，第5769-5779页[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年[12] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。在NeurIPS，第6626-6637页[13] 郎黄，Yuhui Yuan，Jianyuan Guo，Chao Zhang，XilinChen和Jingdong Wang。用于语义分割的交错稀疏自注意。arXiv预印本arXiv：1907.12273，2019。[14] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在ICCV，第1501-1510页[15] Zilong Huang，Xinggang Wang，Lichao Huang，ChangHuang，Yunchao Wei，and Wenyu Liu. Ccnet：Criss-cross attention for semantic segmentation.在IEEE计算机视觉国际会议论文集，第603-612页[16] Satoshi Iizuka，Edgar Simo-Serra，and Hiroshi Ishikawa.全局和局部一致的图像完成。TOG，36（4）：107，2017.[17] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167，2015。[18] 阿莱克西亚·乔利库-马蒂诺。相对论鉴别器：标准GAN中缺少的关键元素。arXiv预印本arXiv：1807.00734，2018.[19] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv：1710.10196，2017。[20] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。arXiv预印本arXiv：1812.04948，2018。[21] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[22] Quoc V. Le ， Marc'Aurelio Ranzato ， Rajat Monga ，Matthieu Devin ， Greg Corrado ， Kai Chen ， JeffreyDean，and An- drew Y. Ng.使用大规模无监督学习构建高级特征。InICML，2012.[23] Mario Lucic，Michael Tschannen，Marvin Ritter，Xiao-hua Zhai，Olivier Bachem，and Sylvain Gelly. 用更少的标签生成高保真图像。 arXiv 预印本 arXiv ：1903.02271，2019。[24] Xudong Mao ， Qing Li ， Haoran Xie ， Raymond YKLau，Zhen Wang，and Stephen Paul Smolley.最小二乘生成对抗网络。在ICCV，第2813-2821页[25] Takeru Miyato，Toshiki Kataoka，Masanori Koyama，and Yuichi Yoshida.生成式对抗网络的谱归一化。arXiv预印本arXiv：1802.05957，2018。[26] 宫人武和小山正则。具有投影鉴别器的CGNSarXiv预印本arXiv：1802.05637，2018。[27] Augustus Odena，Christopher Olah，and Jonathon Shlens.辅助分类器gans的条件图像合成。ICML，第2642-2651页。JMLR。org，2017.[28] Taesung Park ， Ming-Yu Liu ， Ting-Chun Wang ， Jun-Yan Zhu.具有空间自适应归一化的语义图像合成。在CVPR中，第2337-2346页[29] Deepak Pathak 、 Philipp Krahenbuhl 、 Jeff Donahue 、Trevor Darrell和Alexei A Efros。上下文编码器：通过图像修复进行特征学习。在CVPR，第2536-2544页[30] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉深度卷积生成对抗网络的无监督表示学习。arXiv预印本arXiv：1511.06434，2015。[31] Tim Salimans 、 Ian Goodfellow 、 Wojciech Zaremba 、Vicki Cheung、Alec Radford和Xi Chen。改进的gans训练技术。在NeurIPS，第2234-2242页[32] 德米特里·乌里扬诺夫，安德烈·维达尔迪，维克多·伦皮茨基。实例归一化：快速造型缺少的成分。arXiv预印本arXiv：1607.08022，2016。[33] Yi Wang，Xin Tao，Xiaojuan Qi，Xiaoyong Shen，andJiaya Jia.通过生成式多列卷积神经网络进行图像修复。NeurIPS，2018。15104[34] Yi Wang，Xin Tao，Xiaoyong Shen，and JiayaJia. 宽上下文语义图像外推。在CVPR中，第1399-1408页15105[35] Yuxin Wu和Kaiming He。组归一化。在ECCV，第3-19页[36] 徐林丽，詹姆斯·诺伊菲尔德，布莱斯·拉森，戴尔·舒尔曼.最大间隔聚类。NeurIPS，第1537-1544页，2005年[37] Tao Xu ， Pengchuan Zhang ， Quyuan Huang ， HanZhang ， Zhean ， Xiaeli Huang ， and Xiaodong He.Attngan：使用注意力生成对抗网络生成细粒度文本到图像。在CVPR中，第1316-1324页[38] Jiahui Yu，Zhe Lin，Jimei Yang，

下载后可阅读完整内容，剩余1页未读，立即下载