Styleformer：基于Transformer结构的带风格向量生成网络

36 浏览量更新于2023-10-25 1 收藏 1.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8983Styleformer：基于Transformer的带风格向量的生成式对抗网络Jeeseung ParkJummAy-I Inc.jspark@may-i.io金永根*MINDsLab Inc.younggeun@mindslab.ai摘要我们提出了Styleformer，一个生成器，合成图像使用风格向量的基础上的Transformer结构。在本文中，我们有效地应用了改进的Transformer结构（例如，增加了多头注意和预层规范化），并引入了新的注意风格注入模块，这是自注意操作的风格调制和解调方法。新的生成器组件在CNN的缺点方面具有优势我们提出了两种使用Styleformer生成高分辨率图像的方法。首先，我们将 Linformer 应用于视觉合成领域（Styleformer-L），使Styleformer能够生成更高分辨率的图像，并在计算成本和性能方面有所改善这是第一次使用 Linformer 进行图像生成。其次，我们结合Styleformer和Styleformer-GAN 2（Styleformer-C）来有效地生成高分辨率的组件场景，Styleformer捕获组件之间的长程依赖关系通过这些调整，Styleformer在单对象和多对象数据集中实现了与最先进技术相当的性能。此外，开创性的结果，从风格混合和注意力地图可视化证明了我们的模型的优势和效率。1. 介绍生成对抗网络（GAN）[21]是广泛使用的生成模型之一。自从DC-GAN [43]出现以来，卷积运算被认为是高分辨率图像生成和稳定训练的必要条件。卷积运算是在图像的局部性和平稳性的假设下创建的（即，电感偏置），这对于图像处理是有利的[37]。通过具有这种强归纳偏差的卷积神经网络（CNN），GAN有效地生成了*同等贡献。顺序是随机决定的。逼真、高保真的图像。然而，CNN的缺点显然存在。CNN的局部接收域使得模型难以捕捉对象的长程相关性和理解对象的全局结构堆叠多个层可以解决这个问题，但这会导致另一个问题，即丢失空间信息和细节[55]。此外，当图像中的模式或风格因位置而异时，跨位置共享内核权重会导致不稳定的训练[56]。这也与生成的结构化图像或合成场景的质量差有关（例如，室外场景），不同于单个对象的生成（例如，面）在本文中，我们提出了Styleformer，一个生成器，使用基于Transformer结构的样式向量。不像CNN，Styleformer利用自注意操作来捕获长距离依赖并有效地理解对象的全局结构。此外，我们克服了Transformer的计算问题，并显示出优越的性能，不仅在低分辨率，而且在高分辨率的图像。具体来说，我们介绍以下三种模式：1) Styleformer-Styleformer 的基本块是基于Transformer编码器的，所以我们引入了为了稳定学习而需要改变的组件。受Mo- bileStyleGAN [3]的启发，我们通过增加头部的数量来增强原始Transformer中的多头注意力，从而允许模型有效地生成图像我们还修改了层规范化，残差连接和前馈网络（第3.2节）。此外，我们介绍了新的注意风格注入模块，合适的风格调制，以及自注意操作的解调方法（第3.3节）。这种设计使Styleformer能够稳定地生成图像，并使模型能够处理远程依赖和理解全局结构。2) Styleformer-L- 我们通过应用 Linformer [50]（Styleformer-L）来回避注意力操作的二次模式所产生的可扩展性限制。因此，Styleformer-L可以以线性计算成本生成高分辨率图像。本文是Linformer在视觉合成领域的首次应用（3.4节）.8984×××3) Styleformer-C- 我们进一步结合 Styleformer 和StyleGAN 2，在低分辨率下应用Styleformer，在高分辨率下应用StyleGAN 2的样式块（Styleformer-C）。从我们的实验和分析可以看出（例如，风格混合和可视化注意力地图），我们表明，Styleformer-C与上述结构可以有效地生成合成场景，并显示我们的模型的灵活性。详细地，我们证明了低分辨率下的Styleformer帮助模型捕捉组件之间的长程依赖关系，而高分辨率下的样式块帮助模型细化每个组件的细节，如颜色或纹理。这种新颖的混合结构可以实现快速训练，这是 StyleGAN2 的优势，同时保持了Styleformer可以生成结构化图像的优势。（第4节）。Styleformer在单对象和多对象数据集中实现了与最先进技术相当的性能。我们在CIFAR-10的无条件设置下记录FID 2.82和IS 10.00。这些结果优于所有基于GAN的模型，包括最近记录的最先进的StyleGAN 2-ADA [32]。正如可以预期的那样，Styleformer显示出特别是在多对象图像或合成场景生成（例如，CLEVR，Cityscapes）. Styleformer-C在CLEVR中记录了 FID 11.67 ， IS 2.27 ，在 Cityscapes 中记录了 FID5.99，IS 2.56，表现出比纯StyleGAN 2更好的性能。2. 相关工作在GAN [21]起源之后，已经提出了各种方法[2，31，41，42]来提高其训练稳定性和性能。因此，所生成的图像的保真度和多样性得到了显著改善。除了图像合成任务外，GAN还被广泛用于各种任务，例如图像到图像转换[27，58]，超分辨率[38]，图像编辑[55]和风格转换[7]。特别是，基于StyleGAN的架构已应用于各种应用[16，59，60]。然而，由于所有这些模型都基于卷积主干，因此它们在生成复杂或合成场景方面仅取得了有限的成功[29]。Transformer [49]首次被引入自然语言处理（NLP）领域，在NLP中取得了显著的最近，有人努力在计算机视觉领域中利用trans-former [4，12，57]。使用大量数据和Transformer模块，ViT [12]获得了与现有基于CNN的图像分类模型[35，47]中的最先进模型相当的结果。受[12]的启发，基于这种结构出现了[22，39，53]等各种模型也有人尝试将Transformer用于视频理解[4]和分割[57]以及图像分类等任务即使在GAN中，也有人尝试利用Transformer：GANformer [26]提出了一种二分Transformer结构，图1.由Styleformer生成的高分辨率合成场景。并将其应用于StyleGAN [33，34]。通过这种结构，GANformer成功地推进了结构化图像和场景的生成建模，这在现有的GAN中一直是一个挑战。但是，他们使用的是双向注意，不同于自我注意的操作。Trans-GAN [28]演示了一个基于vanilla GAN结构的无卷积生成器与这些研究不同的是，Styleformer使用样式向量生成具有自我注意力操作的图像，并显示出可比较的性能最先进的模型[33，34]。以往的方法（TransGAN）主要使用预定义的稀疏注意模式来实现有效的注意机制，但我们探索了自注意的低秩特性。我们的模型可以生成高分辨率的图像（512 512），降低计算复杂度，而GANformer和TransGAN显示最多256 256图像合成。3. 定型机3.1. Styleformer架构图2a显示了Styleformer的整体架构，在图2b中，我们显示了Styleformer编码器网络，Styleformer的基本模块。与StyleGAN现有的合成网络一样，我们的生成器以可学习的常数输入为条件不同之处在于，常数输入（88）被平坦化（64）以进入基于变换器的编码器。然后，与可学习的位置编码相结合的输入Styleformer编码器基于Transformer编码器，但有几个变化，以有效地生成图像，这将在第3.2节中讨论。在每种分辨率下通过几个编码器块后，我们通过将编码器输出整形为正方形特征图的形式来进行双线性上采样操作。在上采样之后，再次执行平坦化过程以匹配Styleformer编码器的输入形式。重复此过程，直到特征图分辨率达到目标8985偏置+噪声添加Demod修改残余多头集成Demod增加多头自我注意力Mod值样式值DemodDemodDemod查询关值前层范数样式输入Mod输入...输入(a)（b）第（1）款图2.（a）定型器的总体架构（b）Styleformer编码器结构，这是Styleformer的基本块图像分辨率对于每种分辨率，Styleformer编码器的数量和隐藏维度大小可以选择为超参数。3.2. 来自Transformer的Styleformer组件增加的多头注意力现代视觉架构允许不同通道和不同空间位置之间的通信（即，像素）[48]。传统的CNN同时执行上述两种通信，但这些通信可以像依赖可分离卷积一样清楚地分离 [24] 。我们还分离了Transformer编码器中的像素通信（自注意）、通道通信操作（多头集成）。然而，在深度可分离卷积中，不同的卷积核被应用于每个通道，不像自注意操作仅共享一个巨大的核A（即，注意力地图）。通过将相同的核应用于每个通道，可以减少所生成的图像的多样性我们通过增加多头注意力的头数来克服这个问题（增加多头注意力）。然后，所创建的注意力地图将针对每个头部而不同，并且因此内核应用操作。然后，将为每个头部创建注意力地图，每个头部中的通道遇到不同的内核。然而，过多地增加磁头数量可能会导致注意力图不能正确地创建，从而导致性能差。我们通过实验证明，只有当深度至少为32时，增加头的数量才能提高性能，如图3所示。因此，我们将深度固定为32，用于所有未来的实验。有关增加多头注意力的更多详细信息，请参见附录C。我们改变了Transformer编码器中层标准化的位置。现有Transformer的层规范化是在集成多个头的线性层（层后规范化）之后进行的。我们假设层规范化在Transformer中的作用是为生成atten- tion map做准备。如果我们在Styleformer编码器的末尾执行层规范化（图4中的Layernorm B），则在进行查询和键之前应用样式这分别得到表1和表B中消融研究和注意力地图分析的支持。因此，为了解决这个问题，我们在进行查询、键和值的操作之前进行层规范化（图2b中的Pre-Layernorm……+tRGB不展平Styleformer编码器32✕32FeatN上采样位置编码+变平上采样+tRGB不展平StyleformerFeatM编码器16✕16上采样位置编码+变平上采样+tRGB不展平Styleformer编码器8✕8FeatL位置编码+Const（8 Feat8）FeatC（扁平）8986图3.它在CIFAR-10上显示FID，具有一层Styleformer，其隐藏尺寸大小分别固定为256和32。两个实验都显示当深度为32时的最佳结果。…偏置+噪声层规范B添加残留ADemod残留C残存的B多头集成增加多头Demod自我注意力Style2Mod值Demod…值层范数CStyle1Mod输入层范数A输入图4.用于消融研究的Styleformer编码器结构，包括残余连接、层归一化、注意风格注入。修改后的残差连接与 Transformer 编码器不同，Styleformer编码器中的输入特征图是按样式向量（图2b中的Mod输入）缩放的因此，我们找到了适合于缩放输入的剩余连接。消融研究后，我们应用残余连接，如图2b中的改良残余连接解调操作还在剩余连接中执行，将在第3.3节中进行描述。表1显示了残余连接的消融详情。消除前馈网络如表1所示，我们删除了前馈结构，因为消除前馈结构使模型执行得更好，更有效。3.3. 注意力风格注入与vanilla GAN不同，StyleGAN以逐层样式向量作为输入生成图像规模特定控制。具体来说，样式向量缩放每个层的输入特征图，即，风格调整，放大某些特征图。对于特定于尺度的控制，必须在进入下一层之前消除这种放大效应。StyleGAN允许通过称为AdaIN操作[13，14，18，25]的规范化操作进行特定于尺度的控制，该操作分别对每个特征图进行规范化，然后使用样式向量对每个特征图进行缩放和偏移。StyleGAN 2是StyleGAN的高级形式，解决了AdaIN操作引起的伪影问题，通过解调操作解决了该问题。虽然AdaIN操作直接归一化输出特征图，但解调操作基于关于输入特征图的统计假设。具体而言，类似于归一化操作的目标，解调操作旨在具有具有单位标准偏差的输出特征图，同时假设输入特征图具有单位标准偏差，即，统计假设。我们的目标是设计一个基于Transformer的生成器，通过样式向量生成图像，同时支持特定比例的控制。因此，我们提出了自注意操作的调制、解调方法，注意风格注射。自注意力的调制正如Style-GAN 2的样式块中的输入特征映射是按样式向量缩放的一样，Styleformer编码器中的输入特征映射也是按样式向量缩放的（图2b中的Mod Input ）。 But unlike convolution operation inStyleGAN2, there are two steps in self-attention operation:dot product of query and key to create an attention map (i.e.内核），该值与计算的注意力图的加权和我们假设在每个步骤中应用于操作的样式向量应该是不同的。因此，我们执行两次风格调制，如图2b（Mod输入，Mod值）。表1支持这一假设。在图2b中，样式输入是输入的样式向量，样式值是仅用于值的样式向量。两个样式向量是通过StyleGAN中的普通映射网络创建的如图2b所示，Styleformer编码器通过线性运算对用Style Inputvector缩放的输入特征图创建查询（Q）、键（K）和值（V在此之后，V将与样式值矢量进行额外的调制，因此显然需要用于移除样式输入此外，我们观察到，当使用Q创建注意力地图时，K来自按Style In缩放的输入8987JK·LKLKKσLKσJK′′方法Style1Style2样式1 =样式2残留A残存的B残留C层范数A层规范B层范数C前馈FID基准线O X X X O X X O X 8.56注意力风格注入OXOXOO--哦XxXXxXOooXxXXxXOooXxX11.0111.4010.27残差连接OooOooXxXXOXXXOXxXXxXXxXOooXxX19.0914.709.94层规范化OOOOXXXXXXOOOXXOXXXX9.0010.96前馈OOXXXOXXOO14.75表1. Styleformer组件的消融详情。使用小型Styleformer和CIFAR-10数据集进行消融研究，针对20 M图像进行训练。有关更多实施细节，请参见附录A放，注意力地图中的特定值变得非常大，输出可以导出如下：如附录B所示。这就避免了注意力操作正常。在创建之前，我们通过对Q、K进行解调操作来′ =.Al·2·第二条、第三条注意地图最终，解调操作都是re-·j求Q、K、V。让我们首先看看输入的样式调制，即，Mod Input.每个扁平化的输入特征映射都通过样式向量进行缩放，这相当于缩放线性权重：wi′j=si·wij，（1）其中，w是从平坦化的输入特征图生成（Q，K，V）的原始线性权重，并且w'是调制的线性权重。si是风格向量的第i个分量，其缩放第i个展平的输入特征图，并且j表示（Q，K，V）的维数。假设平坦化的输入特征图具有单位标准偏差（即，解调的统计估计），在传递式调制和线性操作之后，输出的标准偏差如下：其中wj′k =sjwjk，即，调制线性权重 sj缩放V的第j个特征图，k枚举展平的输出特征图。注意力图A的计算与现有的Transformer相同：Q和K的点积，除以深度的平方根，以及softmax函数。表示第l个像素的注意力分数向量然而，通过简单地以1/σ′缩放每个平坦化的输出特征图k，解调存在两个问题（等式3）。首先，用1/σ′缩放输出特征图k将每个像素x像素作为一个单位进行归一化，AdaIN操作，将每个特征图标准化为单位其次，注意力地图是从Q和K导出的矩阵，它取决于输入。对于依赖于输入的变量，不能像[19]中那样应用基于统计假设的解调操作因此我们用1/σ"缩放展平的输出特征图k，其中σ=.Σw′2。（二）σ′′= .ΣjK将每个特征图归一化为一个单元，伊季我并且不包括输入相关变量Al。则输出激活的标准偏差为我们将Q、K和V的每个维度的输出激活缩放1/σj（即，解调），使Q、K和V回到单位标准差。′σlk=lk kk.Σ·一升二。（四）编码器输出的解调在对Q、K和V进行解调操作之后，Styleformer编码器对V（Mod Value）进行风格调制，并使用注意力映射对V进行加权求和（Increased Multi-Head Self-attention），然后进行线性运算（Multi-HeadIntegra- tion），如图2 b所示。编码器的输出将被输入到下一个编码器，因此解调操作是必要的。我们在附录D中显示，假设V具有单位标准偏差（由于V的解调，可以假设这一点），Styleformer编码器然而，在这种方式下，输出的标准差不是单位的，而是当像素数量增加时接近于零，如附录D所述。为了防止这种影响，我们应用了修改的残差连接，如图2b中的修改残差更具体地说，我们对Mod Value执行线性运算，然后执行解调操作（与查询，键，值的解调相同）。通过残差连接中的这些调制和解调操作，具有单位标准偏差的变量被添加到输出。因此，它有助于保持最终输出交流-σW=8988××××当σjk接近零时，具有单位标准偏差的活化3.4. 使用Styleformer进行将Transformer应用于图像生成的主要问题是图像分辨率的效率问题。在本节中，我们将介绍Styleformer中可以生成高分辨率图像的两种不同技术。本文给出了一种应用Linformer的方法，使计算复杂度线性化.然后，我们介绍了一种结合Styleformer和StyleGAN2的方法，它可以获得两种模型的优点。对于高分辨率的图像，Styleformer编码器的输入序列长度以二次方的方式增加，并且标准的自注意机制需要O（n2）的复杂度。到序列长度。这意味着关注所有像素对于高分辨率图像生成来说几乎不可能。因此，我们将Linformer [50]应用于我们的模型，当应用自注意力时，将键和值投影到k维，将时间和空间复杂度从O（n2）降低到O（nk）。我们将k固定为256，并将Linformer应用于32×32分辨率以上的编码器块训练速度快。Styleformer-C的整体架构和细节在附录F中描述。4. 实验我们只改变了StyleGAN 2-ADA中生成器的架构，即，综合网络，同时保持了网络的结构和损失函数。我们使用 Fre'chetInceptionDistance （ FID ） [23] 和InceptionScore（IS）[44]，这些评估指标主要用于图像生成领域我们将我们的模型与顶级GAN模型（如StyleGAN 2-ADA [32]）以及与我们的研究相关的模型（在第4.1节中，我们展示了Styleformer在低分辨率数据集中的性能结果。第4.2节提供了Linformer成功应用的证据，包括Styleformer-L的性能在第4.3节中，我们展示了Styleformer-C的高性能，并通过风格混合和注意力地图可视化证明了我们模型的优势和效率。4.1. 使用Styleformer进行Styleformer在各种低分辨率单对象数据集中实现了与最先进技术相当的性能，包括CIFAR-10（32×32）[36]，STL-10（48×48）[9]，和CelebA（64×64）[40]。只有当n为1024或更高时，我们把这个模型称为Styleformer-L.[50]解释说，这种新的自我注意力机制之所以成功，是因为注意力地图矩阵是低秩的。我们观察到这可以同样应用于图像中的注意力地图矩阵：在图像的情况下，需要关注的像素通常位于特定位置，而不是所有像素（例如，其中对象位于图像中），这导致低秩注意力图矩阵。应用Linformer创建了一个更密集的注意力地图，也减少了计算。这一点在4.2节中通过注意力图的频谱分析得到了证明。有关Styleformer-L的更多详细信息，请参见附录E结合Styleformer和StyleGAN 2即使使用Linformer，仅使用Trans- former也很难生成像512 512这样的超高分辨率图像我们通过结合Styleformer和StyleGAN 2来生成高分辨率图像来解决这个问题，我们称这个模型为Styleformer-C。Styleformer-C由低分辨率的Styleformer和高分辨率的StyleGAN 2样式块组成。如4.1所示，低分辨率帮助模型中的Styleformer编码器用于捕获组件之间的远程依赖关系或对象的全局形状，高分辨率帮助模型中的样式块用于细化每个组件或对象的细节。换句话说，使用Styleformer，模型可以在低分辨率下有效地捕获全局交互，如表2所示，Styleformer的性能优于之前的基于GAN的模型，在FID和IS方面。尤其在CIFAR-10中，Styleformer记录了FID 2.82和IS 10.00，这与当前最先进的StyleGAN 2-ADA 调谐相当，并且优于StyleGAN 2-ADA调谐。这些结果表明，Styleformer编码器已被修改，成功地产生图像实施细节见附录A。4.2. 将Linformer应用于Styleformer我们在第3.4节中实验了我们的方法，该方法将Linformer应用于CelebA上的Styleformer（Styleformer-L）64 64分辨率，LSUN-Church [54]数据集大小调整为128128分辨率。如表3所示，我们发现在速度和内存方面有了显著的改进，比传统的Styleformer在CelebA。在Styleformer-L中，内存性能的效率提高了约三倍，速度性能提高了1.3倍我们还成功地生成图像的128 128分辨率与LSUN-Church数据集，这是很难与纯Styleformer由于昂贵的内存。此外，在CelebA数据集中，Styleformer-L在FID方面表现出比Styleformer更高的性能，将FID评分从3.92提高到3.36。为了分析这一现象，我们从Styleformer中提取了一个用于生成CelebA图像的注意力图与[50]中一样，我们将奇异值分解应用于注意力图矩阵，并绘制在1k个生成图像上平均的归一化累积奇异值如图6所示，大多数信息-8989±±±±±±±××图5.从左起，由Styleformer在CIFAR-10和STL-10上生成的结果，由Styleformer-L在CelebA和LSUN-church上生成的结果，以及由Styleformer-C在AFHQ-Cat上生成的结果。更多生成的样本请参见附录G。CIFAR-10STL-10CelebA方法FID↓方法FID↓IS↑方法FID↓IS↑[31] 2016年10月15日AutoGAN [20] 12.42 8.55 0.10StyleGAN V2 [34] 11.07 9.18对抗性NAS-GAN [20] 10.87 8.74± 0.07TransGAN-XL [28] 9.26 9.02± 0.11StyleGAN2-ADA [32]2.92 9.83± 0.04定型机2.82 10.00±0.12SN-GAN [42] 40.1 9.16 0.12改进MMD-GAN [51] 37.64 9.23 0.08[20] 20.01 2.16 2.12对抗性NAS-GAN [17] 26.98 9.63 0.19[28] 2018年10月28日SNGAN-DCD [46] 17.68 9.33定型机15.1711.01± 0.15法国建筑工程师协会[5]49.2BEGAN-CS [6] 34.14[52]第52话[28]第二十八话[11]第十一话NCP-VAE [1] 5.25Styleformer 3.92表2. Styleformer和其他GAN模型在低分辨率数据集上的比较结果。其他GAN模型的结果来自报告其最佳结果的论文。我们以与StyleGAN 2-ADA相同的方式计算FID，IS，生成50 k个图像，并将其统计数据与FID训练集的50 k个图像进行比较，计算10次相关试验的平均值，每次试验使用5 k个生成的图像进行IS。数据集模型FID ↓每GPU内存↓速度↓CelebA定型机Styleformer-L3.92 14668MiB 6.463.365316MiB 4.93LSUN教会定型机Styleformer-L- 呜-7.998118MiB 9.81表3.应用Linformer的Styleformer-L的结果。“内存”是在4Titan-RTX上测量的，每个GPU有16个批量大小，“速度”是指处理1 k图像的秒数（秒/1 kimg）。我们在Styleformer和Styleformer-L中使用相同的隐藏维度和层数。图6.注意力地图矩阵在32，64分辨率下的频谱分析。我们使用CelebA数据集的预训练Styleformer。注意力映射矩阵中的奇异值可以从少数几个大的奇异值中恢复出来，这意味着注意力映射矩阵的秩是低的。使用低等级注意力地图，GAN [21]25.022.1711.571.63K-GAN [45]28.092.2151.081.66萨根[56]26.042.1712.811.68StyleGAN2 [34]16.052.158.351.70VQGAN [15]32.602.03173.802.82Styleformer-C11.672.275.992.56表 4. 基于 CNN 的 GAN 模型与 Styleformer-C 在 CLEVR 和Cityscapes上的比较。我们将[26]中的结果用于其他模型的性能。可以更有效地应用Linformer [50]。因此，我们证明了在对高分辨率图像应用自注意操作时，不需要对所有像素应用注意并提供可伸缩性以使用Styleformer生成高分辨率图像L.有关实施细节，请参见附录E4.3. Styleformer可以捕获全局交互我们在第3.4节中实验了我们的方法，该方法将Styleformer 和 StyleGAN 2 （ Styleformer-C ）结合在CLEVR（256 256）[30]和Cityscapes（256 256）[10]上用于多对象图像和合成场景，AFHQ CAT（512×512）[8]用于高分辨率单对象图像。Clevr城市景观FID↓IS↑FID↓IS↑方法8990图7.在CLEVR数据集上使用Styleformer-C进行风格混合实验x轴和y轴上的图像是从它们各自的潜在代码（分别是StyleGAN 2源和Styleformer源）生成的;其余的图像是通过将Styleformer源的样式应用于低分辨率的Styleformer和将StyleGAN 2源的样式应用于高分辨率的StyleGAN 2而生成的。图8.在生成的CLEVR图像中可视化注意力地图。如表 4 所示， Styleformer-C 在 CLEVR 中记录了 FID11.67，IS 2.27，在Cityscapes中记录了FID 5.99，IS2.56，这与当前最先进的性能相当，并且在多对象图像和合成场景中显示出比StyleGAN 2更好的性能。这间接地表明Styleformer帮助模型处理组件之间的长距离依赖。为了显示Styleformer捕获全局相互作用的更可靠证据，我们在Styleformer-C中进行风格混合[33]。详细地说，当从CLEVR数据集生成新图像时，我们使用两个不同的潜在代码z1，z2，并在低分辨率下将z1应用于Styleformer，在高分辨率下将z2应用于如图7所示，与Styleformer（低分辨率）对应的样式为结构生成（如对象的位置和结构）提供了基础，而所有颜色或纹理保持不变。相反，对应于StyleGAN 2（高-分辨率）带来颜色和纹理的变化，同时保持对象的位置和形状。这一结果直接证明了Styleformer控制了对象之间的全局结构，并处理了远程依赖。此外，我们可视化的注意力地图，以提供更多的洞察模型的生成过程。图8显示了注意力集中到物体存在的位置。这些可视化结果表明，自注意操作是有效的，使模型能够进行远程交互，克服卷积操作的缺点。5. 结论我们提出了Styleformer，一个基于transformer的生成网络，是新颖和有效的。我们提出了一种方法来有效地生成图像与自我注意操作，并实现SOTA性能在各种数据集上。此外，我们提出了Styleformer-L，它将复杂的计算减少到线性，从而能够生成高分辨率的图像。我们还提出了一种方法，有效地生成一个组合场景，同时通过Styleformer-C捕获与远程依赖。虽然在降低计算成本等方面仍有改进的空间，但我们希望我们的工作能够加快变形金刚在计算机视觉领域的应用，为计算机视觉领域的发展提供帮助。然而，生成模型的开发可以使用合成的面部图像（例如，deep-fake），因此今后应特别注意。Styleformer源StyleGAN2源8991引用[1] JyotiAneja、Alexander Schwing、Jan Kautz和Arash Vah-dat. Ncp-Dec：具有噪声对比先验的变分自动编码器，2020年。7[2] 马丁·阿乔对ky，苏米特·钦塔拉和Le'onBottou。沃瑟斯坦根，2017年。2[3] 谢尔盖·别洛乌索夫移动风格：用于高保真图像合成的轻量级卷积神经网络，2021。1[4] Gedas Bertasius，Heng Wang，and Lorenzo Torresani.时空注意力是你理解视频所需要的全部吗？、2021. 2[5] 瓦内萨·博姆和乌罗·塞尔加克。概率自动编码r，2020年。7[6] Chia-Che Chang ， Chieh Hubert Lin ， Che-Rung Lee ，Da- Cheng Juan，Wei Wei，and Hwann-Tzong Chen.在受限空间中逃离折叠模式，2018年。7[7] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络，2018年。2[8] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-WooHa.Stargan v2 ：面向多个领域的多样化图像合成，2020。7[9] Adam Coates，Andrew Ng，and Honglak Lee.无监督特征学习中单层网络的分析在Geoffrey Gordon、DavidDunson和Miroslav Dud 'ık编辑的《第十四届国际人工智能和统计学会议论文集》（ Proceedings of theFourteenthInternationalConferenceonArtificialIntelligence and Statistics）中，《机器学习研究论文集》第15卷，第2152011年4月11日至13日，美国佛罗里达州劳德代尔堡。PMLR。6[10] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele. 2016年城市场景语义理解数据集。7[11] J. D. 科特岛C. Zarza，FernandodelaTorre，IrwinKing，and Michael R.吕高分辨率深度卷积生成对抗网络，2020年。7[12] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词：大规模图像识别的变形金刚，2020年。2[13] Vincent Dumoulin，Ethan Perez，Nathan Schucher，Flo-rian Strub ， Harm de Vries ， Aaron Courville ， andYoonneBengio. 智能转型。蒸馏， 2018 。https://distill.pub/2018/feature-wise-transformations. 4[14] VincentDumoulin 、 JonathonShlens 和 ManjunathKudlur。艺术风格的学术代表，2017年。4[15] Patr i ckEsse r，RobinRombach，andB joürnOmme r. 用于高分辨率图像合成的驯服变压器，2021年。7[16] Aviv Gabbay和Yedid Hoshen。用于图像增强和动画的样式生成器反转，2019年。2[17] 高晨，陈云鹏，刘思，谭震雄，严水城。Adversarialnas:Adversarial neural archi- tecture search for gans, 2020. 78992[18] Golnaz Ghiasi ， Honglak Lee ， Manjunath Kudlur ，Vincent Dumoulin，and Jonathon Shlens.探索实时任意神经艺术风格化网络的结构4[19] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络的困难。在Yee Whye Teh和Mike Titterington的编辑， Proceedings of the Thirteenth InternationalConference on Artificial Intelligence and Statistics，第9卷 Proceedingsof Machine Learning Research ，第 249-256页，Chia Laguna Re-sort，Sardinia，Italy，2010年5月13-15日。PMLR。5[20] Xinyu Gong ， Shiyu Chang ， Yifan Jiang ， andZhangyang Wang. Autogan：生成对抗网络的神经架构搜索，2019。7[21] Ian J. Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、Bing Xu 、David Warde-Farley 、Sherjil Ozair 、AaronCourville和Yoshua Bengio。生成对抗网络，2014年。一、二、七[22] 本·格雷厄姆，阿拉丁·埃尔-

下载后可阅读完整内容，剩余1页未读，立即下载