内容与风格分离的生成模型在图像生成和翻译中的应用

162 浏览量更新于2023-10-13 收藏 2.83MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1××对角注意和基于风格的GAN在图像生成和翻译Gihyun Kwon1Jong Chul Ye1，2韩国科学技术学院人工智能研究科第2研究科生物脑工学1{cyclomon，jong.ye} @ kaist.ac.kr图1：使用不同的对角线注意力（DAT）内容代码和AdaIN样式代码合成的全分辨率图像。（左）通过使用CelebA-HQ训练的我们的方法生成了1024张图像。（右）通过使用AFHQ训练（a）从任意内容和样式代码生成的源图像通过（b）用固定内容代码改变样式代码，（c）用固定样式代码改变内容代码，以及（d）改变两个代码生成的样本我们可以看到，内容代码控制空间内容，如方向，而样式代码影响样式，如性别，头发颜色等。摘要图像生成模型的一个重要研究课题是将空间内容与空间风格分离，分别控制。尽管StyleGAN可以从随机噪声中生成内容特征向量，但所得到的空间内容控制主要用于较小的空间变化，并且全局内容和样式的解缠绝不是完整的。受规范化和注意力的数学理解的启发，在这里，我们提出了一种新的分层自适应对角线空间注意力（DAT）层，以分层的方式分别操纵使用DAT和AdaIN，我们的方法可以实现从粗到细的级别disen。空间内容与风格的纠缠。此外，我们的生成器可以很容易地集成到GAN反演框架中，以便可以灵活地控制来自多域图像翻译任务的翻译图像的内容和风格通过使用各种数据集，我们证实，所提出的方法不仅优于现有的模型在解纠缠分数，但也提供了更灵活的控制空间特征生成的图像。1. 介绍生成对抗网络（GAN）[11]的最新发展使得能够生成人眼无法区分的高质量图像。1398013981×尽管其高性能，解开所生成的图像的属性仍然是一个悬而未决的问题。例如，内容和风格的分离是许多图像生成任务（如人脸）中的一个重要问题。在这里，内容指的是空间信息，如面部方向，表情，而风格与其他特征，如颜色，化妆，性别。StyleGAN [18]展示了图像生成中最先进的性能，试图分别使用 AdaIN代码[15然后，AdaIN层将样式和内容特征相结合，以在每个分辨率下生成更逼真的特征（见图2）。第2（a）段）。然而，由每像素噪声进行的内容控制主要是针对较小的空间变化，使得全局内容和样式的解缠绝不是完全的。最近，同时使用AdaIN和独立内容潜码[19，1]的生成模型在分离全局样式和内容信息方面表现出良好的性能例如，在最近的结构化噪声注入（SNI）方法[1]中，内容的潜在代码由附加的神经网络生成，该附加的神经网络被用作图像生成器的输入张量，该图像生成器由用于使用AdaIN的风格控制的后续层组成（参见图11）。第2段（b）分段）。虽然SNI在解缠结方面表现出良好的性能，但主要缺点之一是输入张量的大小限于相对小的分辨率（例如，分辨率）。4 4）。因此，由于容量有限，预期的内容控制经常不能正常工作。为了解决这些问题，在这里，我们引入了一种新的Di-agonal空间注意力（DAT）模块来操纵的内容功能，在一个层次化的方式。具体地，内容代码被应用于多个层特征，作为各种分辨率下的对角线注意力图，如图1B所示。第2段（c）分段。尽管对角线注意力很简单，但DAT的一个重要优点是图像内容和风格可以以对称的方式独立调制;与AdaIN的样式相似，DAT支持空间内容的分层控制。这些导致生成的图像此外，我们的方法可以很容易地集成到最先进的GAN反演[42]中，从而允许对来自多域图像翻译的翻译图像中的内容和风格进行更灵活的2. 相关作品2.1. 空间注意空间注意通过突出包含重要信息的特定区域来有几种方法使用空间注意力来提高某些视觉任务的表现：对象检测[35，40]，语义分割[9，25]，图像字幕[2]，等等。空间注意力已经进一步扩展到非传统的图像生成任务。例如，自我注意GAN [39]增强了几何和结构模式的生成在图像到图像翻译任务中，最近的方法通过关注目标对象[27，8]或面部组件[38，13，4]的空间区域的注意力图[30]分层地应用空间AdaIN来传递输入条件图的信息，然而，这与我们的模型不同，该模型通过独立地使用AdaIN和注意力来解开风格和内容。2.2. 解纠缠表示对于解纠缠图像生成，已经提出了几种方法。直接方法依赖于增加潜在空间和图像空间之间的连接[3，23]，限制潜在空间的专门训练[24，7]，操纵潜在空间的先验分布[26]，或使用外部属性信息[33]。用于解纠缠的其他方法依赖于网络的分层结构，其使用VAE中的层相关潜变量来编码解纠缠的属性[34，41，22]，使用树状潜变量结构[16]，或在几个阶段中合成图像分量[32]。尽管有理论上的动机，但是上述方法通常由于有限的网络容量而遭受差的生成质量，或者由于需要附加的属性标签而遭受最近，一些作者提出使用一个额外的潜在的向量，控制独立的属性从原来的。例如，SC-GAN [19]使用AdaIN以及输入内容代码分离样式和内容信息此外，还有一些方法采用风格-内容分解来改善风格转换[20]和图像翻译[10]。最近，在[1]中提出了一种最先进的风格-内容解纠缠，其允许通过注入结构化噪声作为StyleGAN的输入张量具体地，如图所示在图2（b）中，内容潜量z_c由特定神经网络处理并直接用作生成器网络的输入张量。然而，这种方法的缺点之一是它的不对称体系结构：尽管可以使用分层的AdaIN层以多分辨率的方式操纵样式，但是使用单个输入来控制内容。2.3. 我们的贡献我们的方法的架构，我们称之为对角GAN，如图所示2（c），并且与现有的解缠结方法相比具有几个• 与图中的原始StyleGAN相比。在图2（a）中，内容和样式代码生成通过使用类似的代码生成器是对称的。与AdaIN13982∈∈∈图2：各种风格和内容的分解：（a）StyleGAN，分别通过AdaIN和每像素噪声进行样式和内容控制。(b)结构化噪声注入（SNI），具有附加内容代码作为生成器网络的输入张量。(c)我们的方法与对角线注意力（DAT）和AdaIN的内容和风格解开。层，对角线关注层（DAT）使得能够以分层方式对内容进行空间控制，这是图中的SNI难以实现的。第2段（b）分段。• 虽然现有的注意力方法是通过乘以一个完全填充的注意力矩阵来实现的，但我们的方法是独特的，因为它使用对角注意力矩阵来操纵内容信息。虽然使用简单的网络架构，但这是一种更有效的方法，因为与基线StyleGAN模型相比，它可以更强大地控制全局内容（见图1）第2（a）段）。3. 理论3.1. 数学的规范化与注意为了理解所提出的DAT层的动机我们的分析表明，规范化和空间注意力有相似的结构，可以利用风格和内容的解开。具体地，令H、W和C分别表示特征图的高度和然后，对于给定的特征图XRHW×C，AdaIN归一化层输出YRHW×C可以表示如下：Y=XT+R（1）其中通道方向变换T和偏置R是从特征图的统计学中学习的。具体地，T是对角矩阵，其被计算为逐通道输入和目标特征的标准偏差，R是将输入均值转换为目标均值的偏差项类似地，空间注意力可以表示为Y=AX（2）其中ARHW×HW是一个完全填充的矩阵，对于自注意的情况，它是从自己的特征计算出来的，或者对于跨域注意的情况，它是在其他域特征的帮助下计算出来的由于变换矩阵A被应用于逐像素方向以操纵特定位置的特征值，因此它可以控制诸如形状和位置的空间在styleGAN中，经由缩放网络B从每像素噪声生成的内容代码C（参见图2）。2（a））被添加到AdaIN层之前的特征X这导致以下特征变换：Y=（X+C）T+R=XT+R+CT（3）因此，最后一项CT用作附加偏置项，其不同于与特征X相乘的空间注意力（参见（2））。尽管可以潜在地生成C，使得净效果类似于AX，但是这将需要复杂的内容代码生成网络。这解释了原始样式GAN中内容控制的基本限制。3.2. 对角注意（DAT）如果一起应用（1）和（2）中的归一化和注意力，则输出特征可以表示为Y=AXT+R⑷13983××∈2CCCc图3：不同注意力的产生。利用注意力映射网络M，内容代码c被转换成注意力图。将映射逐元素乘以卷积特征。由于每个层的注意力图对内容信息有贡献，因此它们在空间Wc中作为独立代码工作。本文中最重要的观察之一是组合方程（4）是系统风格-内容解纠缠的关键。具体地，来自AdaIN层的（4）中的T在数学上，对角矩阵T控制特征X的行空间，这被证明是样式控制。因此，我们推测空间内容可以通过操纵剩余的因素来控制：特征X的列空间。在数学上，这可以通过（4）使用从另一个内容代码生成器获得的对角注意力矩阵A来对角注意和对角归一化然后彼此互补，其被应用于特征张量的不同轴以同时控制特征张量X的两个独立因子。此外，由于AdaIN和DAT的对称作用，它们可以以分层的方式应用于每一层，如图所示。第2段（c）分段。具体而言，图图2（c）描述了我们提出的模型的总体架构。我们采用了使用两个不同的潜在代码的方法。除了风格潜码zs外，我们还使用一个独立的潜码zc来控制内容信息。更具体地说，我们的风格代码zs被映射到一个线性分布的空间Ws的几个MLP。然后从身份关注中解脱出来。具体地，映射的内容代码c被转换成具有HW1维度的向量。然后，该向量被整形为差分attention映射d Wc，其具有与来自卷积层的输出的空间维度相同的空间维度H W为了避免注意力图中过多的多样性所带来的不期望的伪影由于对角注意力图，网络输出然后在每个通道处与特征图逐元素相乘，该特征图被添加到原始特征图中。在这个阶段，我们使用了一个额外的参数β，允许网络的注意力图学习内容控制的逐层贡献。由于注意力的贡献可以由β来校准，这取决于该层是负责次要变化还是负责主要变化，因此可以防止过度强调次要变化的伪影因此，所得到的特征输出可以表示为：yi=xi+βdxi=（I+βdiag（d））xi（5）其中diag（d）表示对角元素为d的对角矩阵。这表明，由此产生的对角注意力矩阵是A=（I + β diag（d））。DAT层还可以轻松地合并StyleGAN中使用然而，应当注意，因为每像素噪声仅是加性的，使得它可以改变微小的空间变化，而我们的对角注意力是乘法的，使得我们可以控制全局空间变化。4. 方法4.1. 损失函数我们的实现受到原始Style- GAN论文和PyTorch上实现的源代码1的与StyleGAN类似，我们选择非饱和Soft- plus loss和R1正则化用于对抗性损失[28]。具体地，softplus被公式化为f（t）=log（1+exp（t））。因此，我们的对抗性损失表示为：LG=f（−D（Xfake）），Xfake=G（zs，zc）映射的代码s被变换成可作为AdaIN应用于多个层类似于LD=f（D（X假）+f（−D（X房γ））+2 E [||D（X房）||2]样式代码映射，内容代码z。也通过由一系列MLP组成的映射函数映射到线性空间W映射的中间内容代码c可以通过所提出的注意力映射来改变卷积输出的空间信息。图3是我们的注意力映射的详细图网络这里，不是直接估计对角线其中，鉴别器损耗Ld的最后一项是R1正则的。化我们还使用多样性敏感（DS）损失[37]来鼓励注意力网络产生不同的地图。更具体地说，如果我们采样两个内容代码z1，z2和样式码zs，我们的DS损失被定义为：L ds= max.λ−G（zs，z1）−G（zs，z2）1，0Σ1https://github.com/rosinality/style-based-gan-pytorchA的成分，我们感兴趣的是估计pertur-13984×××∼×图4：我们的1024 1024全分辨率示例，具有固定样式和不同的内容代码。顶行上的源图像是从任意DAT内容和AdaIN样式代码中采样的。第二行上的图像是在固定样式代码下的整个层处用改变的内容代码生成的。以下行中的图像是通过改变特定层的内容代码而固定其他层的内容代码来采样的。分层DAT层可以选择性地控制属性改变的程度。其中G（zs，zc）是我们分别关于样式代码zs和内容编码器zc的生成器。我们的DS损失的目标是最大化的L1之间的距离生成的图像从不同的内容代码具有相同的风格。但是，直接优化负L1损耗会导致损耗值的爆炸。因此，我们用阈值λ惩罚DS损耗，使得距离不会超过λ。因此，我们的总发电机损耗函数被描述为：L G总计=L G+ L ds4.2. 实验设置对于定性评估，我们报告了在1024上训练的模型的结果 1024 CelebA-HQ [17]512 512 AFHQ [5]。在补充材料中，我们还提供了使用花卉[29]，鸟类[36]，汽车[21]数据集的实验结果。考虑到高分辨率下注意力映射的参数数量，我们包括DAT层的分辨率高达256×256。对于定量评估，我们将我们的方法与使用输入噪声进行内容控制的基线模型进行了比较。在使用这种方法的几种方法中，我们使用最先进的SNI [1]作为代表性方法。为了公平比较，我们还包括用内容DS损失训练的SNI我们还使用原始的StyleGAN结果与每像素噪声作为另一个比较模型。对于各种参数设置的比较研究，我们使用500K次迭代（总共4.7M个样本）以256 256的降低分辨率训练模型由于基线SNI在添加和不添加每像素噪声的模型上呈现结果，因此我们在两种条件下都显示了我们的结果。在训练我们的模型时，我们将DS损失中的参数λ设置为0.3，因为它显示出最佳性能。有关更多实验设置，请参见补充材料。对于定量指标，我们使用FID [14]测量图像质量，使用感知路径长度（PPL）测量解缠。PPL首先在StyleGAN [18]中提出，用于测量通过略微改变内插代码获得的输出图像之间的感知距离。低PPL值意味着更好的解缠，因为在两个潜在点之间不相关特征的干扰很小。这也可以解释为潜在空间遵循线性趋势。为了测量将样式和内容代码映射到它们各自的线性空间中的映射网络的性能，我们比较了PPL在W（即WS和WC）空间中的解纠缠性能。5. 实验结果5.1. 定性评价内容与风格的分离：图1示出了用不同DAT和AdaIN代码合成的全分辨率图像。左面板显示生成的1024×102413985××∈×××图5：来自内插内容代码的CelebA-HQ结果。每列的图像都是从相同的（内插的）内容代码中采样的。(a)所有图层内容代码插值的结果。(b)内插4×4层内容代码。(c)插值8×8层内容码。(d)在16×16层后插入内容代码。图1显示了使用CelebA-HQ训练的我们的方法生成的512个图像，而右图显示了使用AFHQ训练的我们的方法生成的512个图像。对于从任意DAT内容和AdaIN样式代码生成的给定源图像（a），（b）中的图像示出了具有变化的样式代码和固定内容代码的生成的样本，而(c)说明了具有不同内容代码和固定样式代码的示例。我们可以清楚地看到内容代码的效果：面孔的内容，如方向和成分，是不同的。这与（b）中的样式代码的效果不同，样式代码改变头发颜色、性别等。而面方向和分量是固定的。通过使用（b）（c）中的特定样式和内容代码，（c）中的图像示出了面部方向和分量遵循（b）中的内容，而头发颜色、性别等由（b）中的样式控制该实验清楚地表明了我们的方法的强大的内容和风格的解纠缠虽然很难完全区分风格和内容，因为这两个组件都有助于面对身份，结果表明，我们的DAT提供了解开的内容控制，它可以改变特定的组件，保持身份更好地比现有的方法。层次化的内容分解：我们还通过控制每一层的对角注意图来显示层次化的分解能力。生成的样本如图4所示。顶行上的源图像是从任意DAT内容和AdaIN样式代码中采样的。第二行上的图像是在固定样式代码下通过改变整个内容代码而生成的。我们可以观察到整个空间属性的变化，包括形状，旋转和面部表情具有一致的风格。下面几行中的图像是用chang-在固定其他层的内容代码的同时，在特定层执行内容代码。4×4层的第一个DAT主要集中在几何变化上，第二个4× 4DAT发生变化发型和眼睛饰品。8 8 DAT层主要改变面部表情的下部，并且在较高分辨率下的DAT层给出相对较小的变化，诸如头发卷曲和眼睛。定量地，与原始StyleGAN的5.17相比，我们的CelebA-HQ模型在FID中显示出令人满意的7.32的性能分层潜在插值：图5示出了通过在具有固定样式的两个随机采样点之间内插DAT内容代码c W I而生成的示例。第一行示出了来自所有层的内插内容代码的结果，而其余行通过内插特定层内容代码来说明结果虽然第一行中的类似潜在插值（图5（a））可以由StyleGAN完成，但是图5（b）-（d）中的精细空间细节插值（诸如嘴部表情）在StyleGAN中是不可能另一方面，我们的方法允许通过内插特定的层内容代码的分层内容插值这种分层解缠结也可以在我们的AFHQ结果中看到有关使用AFHQ和其他数据集的其他插值结果，请参见补充资料。对角注意力的直接操纵：为了验证我们的对角线注意力图的意义，图6显示了通过直接操作特定层的对角线注意力图生成的样本。利用4 × 4映射，通过改变激活区域，可以生成任意方向的人脸此外，对于8 - 8个地图，我们可以控制嘴的表达与较大的嘴面积上的高值。在16 16地图中，我们可以通过操纵眼睛的激活像素区域来控制眼睛的大小。与其他基于样式代码的编辑方法[31，12，6]相比，我们的diagonal注意力图显示出与不同空间区域具有清晰和直观的关系。更多的例子和与其他编辑方法的比较结果可以在我们的补充材料中找到。13986×××××每像素噪声WPPLWsPPLWcPPLFIDStyleGAN85.96--8.87CQSNISNI+DS58.21 35.3557.63 20.3529.7431.8310.7912.10我们48.12 18.6124.1910.90StyleGAN97.83--12.93AQSNISNI+DS65.22 43.6269.70 45.7918.8218.2011.3215.35我们63.44 42.1717.7311.73无每像素噪声WPPLWsPPLWcPPLFIDStyleGAN112.23--9.59CQSNISNI+DS70.64 33.1190.81 35.6131.3545.1210.939.89我们53.72 21.9230.1511.40StyleGAN374.72--13.92AQSNISNI+DS127.99 64.49143.22 80.3062.4150.1611.9113.52我们73.51 38.6726.8312.67图6：直接注意力地图操作。通过控制特定的注意区域，我们可以选择性地改变面部属性。改变（a）第一个4 4注意力图，（b）第二个8 8注意力图，和(c)第二张16注意力地图。黄色框表示编辑区域。5.2. 定量比较结果在表1中，我们的模型在几乎所有设置的解纠缠度量方面都显示出更好的性能具体来说，当我们比较在有和没有每像素噪声的条件下训练的模型结果清楚地表明，我们的对角线注意力地图可以获得更好的解开丰富的控制内容比SNI。即使使用DS损失训练的基线SNI，该模型仍然不能克服由较高的PPL分数所指示的容量不足的限制为了进一步比较，我们不仅测量了整个W空间的解纠缠，还测量了风格空间Ws和内容空间Wc的解纠缠。在所有情况下，我们的模型实现了更低的PPL分数改善的解缠结性能。此外，我们的模型在几乎所有的实验设置中显示出可比的FID分数。尽管在某些情况下存在轻微的劣化，但它们来自图像质量和解缠结之间的预期权衡，如[1]中所述。为了支持定量结果，除了广泛的消融研究外，补充材料中还提供了与其他方法的定性比较。5.3. 反解纠缠模型为了进一步突出我们的方法的优势，我们另外实现了一个GAN反演框架，其中真实图像被编码到潜在空间中，从中表1：使用CelebA-HQ和AFHQ数据集以256 256分辨率训练的模型的FID和PPL评分的比较。较低的PPL指示较好的解缠结，并且较低的FID指示较高的图像质量。CQ：CelebA-HQ，AQ：AFHQ，s：样式，c：内容。通过简单地操纵内容和样式代码来生成各种输出图像。对于逼真的图像重建，我们使用最先进的反演方法IDinvert [42]的修改版本来包括DAT和AdaIN。具体来说，我们首先用多域风格预训练了我们的DiagonalGAN。如图所示。在图8中，我们训练具有双头结构的样式编码器SE，使得来自每个头的采样样式代码表示特定域样式（例如，男性、女性）。另外，内容编码器CE被训练，使得其可以生成内容代码。生成的样式和内容代码通过AdaIN和DAT输入到预先训练的Diagonal GAN中。然后，我们训练网络重建现实的输入图像。对于编码器和对角GAN网络训练，我们使用具有256 256分辨率的28，000个CelebA-HQ图像，这些图像分为男性和女性两个域为了测试，我们使用2,000张（1000张男性，1000张女性）图像。详细的培训过程在我们的补充文件中详细说明材料。图7示出了来自我们的反演模型的合成结果。首先，自动编码重建结果证实，该网络可以成功地生成与输入图像相似的输出。然后，无花果。图7（b）示出了通过改变样式代码的结果。我们可以从输入中更改全局样式。图在图7（c）中，我们通过改变每个分辨率层处的内容代码来示出结果。由于DAT层，与现有的图像翻译模型相比，我们的模型具有更大的灵活性，允许分层控制的内容和风格在生成的图像。为了进一步评估，在表2中，我们将性能与最先进的图像转换模型StarGANv2 [5]进行了比较。由于现有的StarGANv2只能改变类似于图7（b）的样式，因此我们测量了13987×××图7：使用我们的反演模型的CelebA-HQ图像合成结果。(a)自动编码器重构结果来自输入。（b）通过固定来自自动编码器的内容使用随机样式代码生成的图像我们可以具体选择域（女性或男性）来翻译样式。（c）利用来自自动编码器的固定样式代码和变化的内容代码，我们可以操纵内容属性。通过改变4 ~ 4层的内容编码，改变人脸的方向性.通过改变8 - 8层的内容代码，改变发型。通过改变16 ~ 16层的内容编码，改变嘴部表情。在补充材料中提供。为了进一步验证我们提出的模型的反演性能，我们还在补充材料中显示了不同基线上的GAN反演的比较结果图8：用于反转预训练生成器G的网络架构。我们的风格编码器SE网络产生多域风格代码。内容编码器CE产生域不变内容代码。方法潜参考FIDLPIPSFIDLPIPSStarGANv213.050.45322.350.405我们11.120.45218.110.407表2：使用GAN转化与CelebA-HQ的花柱合成的定量比较。较低的FID意味着更好的图像质量，较高的LPIPS意味着更多的多样性。风格综合的定量表现，以进行公平的比较。令人惊讶的是，我们实现了更好的图像质量与可比的多样性，即使在风格合成的潜在的采样和基于参考的传输。结果表明，该方法具有明显的优势，与现有的最先进的模型相比，它具有更好的图像生成质量和更灵活的内容控制详细的实验设置和定性比较是6. 结论在本文中，我们提出了一种新的对角线空间注意（DAT）模块作为AdaIN的补充以便理清样式和内容信息。DAT和AdaIN的对称结构使得能够以分层的方式独立控制特征的样式和内容。我们的大量实验表明，图像的风格和内容属性可以以分层的方式独立地操作，从而证实了高质量图像生成中的风格和内容解纠缠此外，所提出的方法也已成功地集成到GAN反演中，以实现高质量的图像翻译，更好地解开内容和风格。鸣谢：这项工作得到了&&韩国政府（MSIT）资助的信息通信技术规划评估研究所（IITP）资助（No.2019-0-00075，人工智能研究生院计划（KAIST））和韩国国家研究基金会（Grant NRF-2017 M3 C7 A1047904）的支持。13988引用[1] 亚泽德·阿尔哈比和彼得·旺卡通过结构化噪声注入的解缠图像生成。在IEEE Conf. Comput.目视模式识别，第5134-5142页，2020。二、五、七[2] Long Chen，Hanwang Zhang，Jun Xiao，Ligen Nie，Jian Shao，Wei Liu，and Tat-Seng Chua. SCA-CNN：图像字幕卷积网络中的空间和通道注意力在IEEE Conf.Comput.目视模式识别，第5659-5667页，2017年。2[3] Xi Chen，Yan Duan，Rein Houthooft，John Schulman，Ilya Sutskever，and Pieter Abbeel. InfoGAN：通过信息最大化生成对抗网络进行可解释的表示学习。在NIPS，第2172-2180页，2016年。2[4] 陈颖聪，沈晓辉，林哲，卢欣，鲍毅，贾佳雅，等.面向人脸属性操作的语义组件分解。在IEEE Conf. Comput.目视模式识别，第9859-9867页，2019年。2[5] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-WooHa.StarGAN v2：多领域的多样化图像合成在IEEE Conf.Comput.目视模式识别，第8188- 8197页，2020。五、七[6] E.柯林斯河巴拉湾 Price和S. 暂停编辑样式：揭示gans的局部语义。在2020年IEEE/CVF计算机视觉和模式识别会议（CVPR），第5770-5779页美国加利福尼亚州，2020年6月。IEEE计算机协会。6[7] Chris Donahue、Zachary C Lipton、Akshay Balsubramani和Julian McAuley。生成对抗网络的潜在空间语义分解。arXiv预印本arXiv：1705.07904，2017。2[8] Hajar Emami 、 Majid Moradi Aliabadi 、 Ming Dong 和Ratna Chinnam。Spa-GAN：用于图像到图像翻译的空间注意力GAN。IEEE Transactions on Multime- Dia，2020。2[9] Jun Fu ， Jing Liu ， Haijie Tian ， Yong Li ， YongjunBao，Zhivei Fang，and Hanqing Lu.用于场景分割的双注意网络。在IEEE Conf. Comput.目视模式识别，第3146-3154页，2019年。2[10] Aviv Gabbay和Yedid Hoshen。改善图像到图像翻译中的风格-内容分离。arXiv预印本arXiv：2007.04964，2020。2[11] Ian J. Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、Bing Xu 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio。生成性对抗网。在高级神经信息中。过程系统，NIPS'14，第2672-2680页，美国马萨诸塞州坎布里奇，2014。麻省理工学院出版社. 1[12] ErikH¨ rko¨ nen ， AaronHertzmann ， Jaakk oLehtinen ，andSylvain Paris.Ganspace：Discovering interpretable gancontrol.In H. Larochelle，M.兰扎托河哈德塞尔M. F. Bal-can 和 H. Lin ，编辑， Advances in Neural InformationProcessing Systems，第33卷，第9841-9850页。CurranAssociates，Inc. 2020. 6[13] Zhenliang He，Wangmeng Zuo，Meina Kan，ShiguangShan，and Xilin Chen.AttGAN：通过只更改您想要的内容来编辑面部属性。 IEEE 传输图像处理。， 28（11）：5464-5478，2019. 2[14] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。在高级神经信息。过程系统，第6626- 6637页，2017年。5[15] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在Int. Conf.Comput.目视，第1501-1510页，2017年。2[16] 金子拓弘平松熏和香野国雄生成对抗图像合成与决策树潜在的控制器。在IEEE Conf. Comput.目视模式识别，第6606-6615页，2018。2[17] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.GAN的逐步增长，以提高质量，稳定性和变化。在国际会议学习中。代表。，2018年。5[18] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在IEEE Conf. Comput.目视模式识别，第4401二、五[19] Hadi Kazemi 、 Seyed MehdiIranmanesh 和 NasserNasrabadi。生成对抗网络中的风格和内容解缠。第848-856页。IEEE，2019。2[20] Dmytro Kotovenko、Artsiom Sanakoyeu、Sabine Lang和Bjorn Ommer。艺术风格转换的内容与风格分离在国际会议计算中目视，第4422-4431页，2019年。2[21] Jonathan Krause，Michael Stark，Jia Deng，and Li Fei-Fei.用于细粒度分类的3d对象表示。第四届IEEE 3D表示和识别国际研讨会，澳大利亚悉尼，2013年。5[22] Zhiyuan Li ，Jaideep Vitthal Murkute ，Prashnna KumarGyawali，and Linwei Wang.渐进式学习和分层表征的解纠缠。arXiv预印本arXiv：2002.10549，2020。2[23] Zinan Lin，Kiran Koshy Thekumparampil，Giulia Fanti，and Sewoong Oh. InfoGAN-CR：用对比正则化器解开生成对抗网络。arXiv预印本arXiv：1906.06034，2019。2[24] Alexander H Liu，Yen-Cheng Liu，Yu-Ying Yeh，andYu-Chiang Frank Wang.一个统一的多域图像翻译和操作的特征分解器在高级神经信息。过程系统，第2590-2599页，2018。2[25] 刘梦雨和尹虎军。用于语义分割的交叉注意网络。在IEEE国际会议上图像处理。，第2434-2438页。IEEE，2019。2[26] Emile Mathieu，Tom Rainforth，N Siddharth，and YeeWhye Teh.变分自动编码器中的解缠。第4402-4412页，2019年。2[27] Youssef Alami Mejjati 、 Christian Richardt 、 JamesTompkin、Darren Cosker和Kwang In Kim。无监督注意力引导的图像到图像翻译。在高级神经信息。过程系统，第3693-3703页，2018年。2[28] 拉尔斯·梅谢德安德烈亚斯·盖格和塞巴斯蒂安·诺沃津。GANs的哪些训练方法实际上是收敛的？arXiv预印本arXiv：1801.04406，2018。4[29] Maria-Elena Nilsback和Andrew Zisserman。在大量类别上的自动花卉分类InIn-139892008年12月，计算机视觉、图形和图像处理的dian会议。5[30] Taesung Park ， Ming-Yu Liu ， Ting-Chun Wang ， Jun-Yan Zhu.具有空间自适应归一化的语义图像合成。在IEEE计算机视觉和模式识别会议论文集，2019年。2[31] Y. Shen，J.Gu，X.Tang和B.舟解释gans的潜在空间用于语义人脸编辑。在2020年IEEE/CVF计算机视觉和模式识别会议（CVPR），第9240-9249页，Los Alamitos，CA，美国，2020年6月。IEEE计算机协会。6[32] Krishna Kumar Singh、Utkarsh Ojha和Yong Jae Lee。FineGAN：用于细粒度对象生成和发现的无监督分层解缠。在IEEE会议Comput. 目视模式识别，第64902[33] 尼基·斯卡夫特和索伦·豪伯格生成模型中外观和透视的明确解缠。在高级神经信息。过程系统，第1018-1028页，2019年。2[34] Casper Kaae Sønderby ， Tapani Raiko ， Lars Maaløe ，Søren Kaae Sønderby，and Ole Winther.梯形变分自动编码器。神经信息处理系统，第3738-3746页，2016年。2[35] Oytun Ulutan ， ASMIftekhar ， and BangaloreSManjunath. VSGNet：空间注意力网络，用于使用图卷积检测人类对象交互在IEEE会议Comput. 目视模式识别，第136172[36] C. Wah，S.布兰森山口韦林德山口Perona和S.贝隆吉Caltech-UCSD birds-200-2011数据集。技术报告CNS-TR-2011-001，加利福尼亚理工学院，2011年。5[37] Dingdong Yang ， Seunhoon Hong ， Yunseok Jang ，Tianchen Zhao，and Honglak Lee. 多样性敏感的条件生成对抗网络。arXiv预印本arXiv：1901.09024，2019。4[38] 张刚、坎美娜、Shiguang Shan和Xilin Chen。用于人脸属性编辑的具有空间注意力的生成对抗网络以Eur.Conf. Comput. 目视，第4172[39] Han Zhang ， Ian Goodfellow ， Dimitris Metaxas ， andAugus- tus Odena.自我注意生成对抗网络。第7354-7363页。PMLR，2019年。2[40] Yunbo Zhang ， Pengfei Yi ， Dongsheng Zhou ， XinYang，Deyun Yang，Qiang Zhang，and Xiaopeng Wei.CSANet：用于行人检测的通道和空间混合注意力CNN。IEEE Access，8：76243-76252，2020。2[41] Shengjia Zhao，Jiaming Song，and Stefano Ermon. 从生成模型中学习分层特征。 arXiv 预印本 arXiv ：1702.08396，2017。2[42] Jiapeng Zhu，Yujun Shen，Deli Zhao，and Bolei Zhou.用于真实图像编辑的域内GAN反演。欧洲计算机视觉会议（ECCV），2020年。二、七

下载后可阅读完整内容，剩余1页未读，立即下载