深度学习：基于全局流局部注意力机制的人物图像生成空间转换

167 浏览量更新于2023-10-25 收藏 13.62MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

ariance to transformation [5].It means that if the inputspatially shifts the output shifts in the same way.Thisproperty can beneﬁt tasks such as segmentation [4, 8], de-tection [26, 11] and image translation with aligned struc-tures [12, 34] etc. However, it limits the networks by lack-ing abilities to spatially rearrange the input data. SpatialTransformer Networks (STN) [13] solves this problem byintroducing a Spatial Transformer module to standard neu-ral networks. This module regresses global transformationparameters and warps input features with an afﬁne trans-formation. However, since it assumes a global afﬁne trans-formation between sources and targets, this method cannotdeal with the transformations of non-rigid objects.Attention mechanism [30, 35] allows networks to takeuse of non-local information, which gives networks abili-ties to build long-term correlations. It has been proved tobe efﬁcient in many tasks such as natural language pro-cessing [30], image recognition [32, 10], and image gen-eration [35]. However, for spatial transformation tasks inwhich target images are the deformation results of sourceimages, each output position has a clear one-to-one rela-tionship with the source positions. Therefore, the attentioncoefﬁcient matrix between the source and target should bea sparse matrix instead of a dense matrix.Flow-based operation forces the attention coefﬁcient ma-trix to be a sparse matrix by sampling a very local sourcepatch for each output position. These methods predict 2-D176900用于人物图像生成的深度图像空间转换0任宇瑞 1 , 2 余晓明 1 , 2 陈俊明 1 , 2 李天华 3 , 1 李戈 1 , 201 北京大学电子与计算机工程学院 2 鹏城实验室 3 北京大学信息科学技术高等研究院0{ yrren,xiaomingyu,junming.chen } @pku.edu.cn tli@aiit.org.cn geli@ece.pku.edu.cn0摘要0姿势引导的人物图像生成是将源人物图像转换为目标姿势。这个任务需要对源数据进行空间操作。然而，卷积神经网络在空间转换输入方面能力有限。在本文中，我们提出了一个可微分的全局流局部注意力框架，以在特征级别上重新组合输入。具体而言，我们的模型首先计算源图像和目标图像之间的全局相关性以预测流场。然后，从特征图中提取流动的局部补丁对来计算局部注意力系数。最后，我们使用获得的局部注意力系数和基于内容的采样方法对源特征进行变形。主观和客观实验的结果表明了我们模型的优越性。此外，视频动画和视图合成中的附加结果表明我们的模型适用于其他需要空间转换的任务。我们的源代码可在https://github.com/RenYurui/Global-Flow-Local-Attention 上找到。01. 引言0图像空间转换可用于处理输出图像是输入图像的空间变形版本的生成任务。这种变形可以由物体运动或视角变化引起。许多条件图像生成任务可以看作是一种空间转换任务。例如，姿势引导的人物图像生成[20, 25, 27, 40, 28,29]将人物图像从源姿势转换为目标姿势，同时保留外观细节。如图1所示，这个任务可以通过在空间域中合理重新组合输入数据来解决。然而，卷积神经网络（CNN）在空间转换输入方面效率低下。CNN使用特定形式的参数共享计算输出，这导致了一个重要的性质称为对变换的等变性[5]。这意味着如果输入在空间上发生偏移，输出也会以相同的方式发生偏移。这个性质可以使分割[4, 8]、检测[26, 11]和具有对齐结构的图像翻译[12,34]等任务受益。然而，它限制了网络在空间上重新排列输入数据的能力。空间变换网络（STN）[13]通过引入空间变换模块到标准神经网络中来解决这个问题。该模块回归全局变换参数，并使用仿射变换对输入特征进行变形。然而，由于它假设源和目标之间存在全局仿射变换，这种方法无法处理非刚性物体的变换。注意机制[30,35]允许网络利用非局部信息，使网络具备建立长期相关性的能力。它已被证明在许多任务中是有效的，如自然语言处理[30]、图像识别[32,10]和图像生成[35]。然而，在目标图像是源图像的变形结果的空间转换任务中，每个输出位置与源位置之间存在明确的一对一关系。因此，源和目标之间的注意力系数矩阵应该是一个稀疏矩阵，而不是一个密集矩阵。基于流的操作通过为每个输出位置采样一个非常局部的源补丁来强制注意力系数矩阵成为一个稀疏矩阵。这些方法预测2D0图1.数据空间转换的可视化。对于每一对图像，左图是我们模型生成的结果，右图是输入源图像。我们的模型在特征级别上将信息从源图像转换到目标图像。热图表示注意力系数。76910坐标偏移量指定了可以从源中采样以生成目标的位置。然而，为了稳定训练，大多数基于流的方法[39，3]在像素级别对输入数据进行扭曲，这限制了网络无法生成新内容。同时，由于需要生成全分辨率的流场[21]，很难提取大的运动。在特征级别上对输入进行扭曲可以解决这些问题。然而，由于两个原因，网络很容易陷入坏的局部最小值[22，33]。(1)输入特征和流场相互约束。没有正确的流场，输入特征无法获得合理的梯度。没有合理的特征，网络也无法提取相似性来生成正确的流场。(2)常用的双线性采样方法提供的梯度传播差进一步导致训练不稳定[14，22]。为了解决这些问题，本文将基于流的操作与注意机制相结合。我们提出了一种新颖的全局流局部注意框架，将每个输出位置强制与源的局部特征块相关联。我们的模型的架构可以在图2中找到。具体而言，我们的网络可以分为两部分：全局流场估计器和局部神经纹理渲染器。全局流场估计器负责提取全局相关性并生成流场。局部神经纹理渲染器用于根据获得的流场从源中采样逼真的纹理到目标。为了避免双线性采样的梯度传播差，我们提出了一种局部注意机制作为内容感知的采样方法。我们将我们的模型与几种最先进的方法进行了比较。主观和客观实验的结果显示了我们模型的优越性能。我们还进行了全面的消融研究来验证我们的假设。此外，我们将我们的模型应用于其他需要空间变换操作的任务，包括视图合成和视频动画。结果显示了我们模块的多功能性。我们论文的主要贡献可以总结如下：•提出了一种用于姿势引导的人物图像生成任务的全局流局部注意框架。实验证明了所提方法的有效性。•精心设计的框架和内容感知的采样操作确保我们的模型能够在特征级别上扭曲和合理地重新组合输入数据。这个操作不仅使模型能够生成新内容，还降低了流场估计任务的难度。•在视图合成和视频动画方面进行了额外的实验，结果显示我们的模型可以灵活应用于需要空间变换的不同任务。02. 相关工作0姿势引导的人物图像生成。在姿势引导的人物图像生成任务上，早期的尝试[20]提出了一个两阶段网络，首先生成具有目标姿势的粗略图像，然后通过对抗训练来改进结果。Essner等人[2]试图解开人物图像的外貌和姿势。他们的模型可以进行条件图像生成和转换。然而，他们使用基于U-Net的跳跃连接，可能导致特征不对齐。Siarohin等人[25]通过引入可变形的跳跃连接来解决这个问题，以空间变换纹理。它通过一组局部仿射变换（例如，手臂和腿等）来分解整体变形。虽然它在人物图像生成方面效果良好，但预定义的变换组件的要求限制了其应用。Zhu等人[40]提出了一种更灵活的方法，通过使用渐进注意模块来转换源数据。然而，在多次转换过程中可能会丢失有用的信息，这可能导致模糊的细节。Han等人[7]使用基于流的方法来转换源信息。然而，他们在像素级别对源进行了扭曲，这意味着需要进一步的精化网络来填补遮挡内容的空洞。Liu等人[18]和Li等人[16]在特征级别上对输入进行了扭曲。但是，它们都需要额外的3D人体模型来计算源和目标之间的流场，这限制了这些模型的应用。我们的模型不需要任何补充信息，并以无监督的方式获得流场。图像空间变换。已经提出了许多方法来实现卷积神经网络的空间变换能力。Jaderberg等人[13]引入了可微分的空间变换模块，用于估计全局变换参数并通过仿射变换对特征进行扭曲。已经提出了几种改进性能的变体。Zhang等人通过添加自由形变的控制点[36]。在论文[17]中提出的模型将变换参数发送到网络而不是变换后的特征，以避免采样误差。Jiang等人[14]证明了常用的双线性采样的梯度传播差。他们提出了一种用于空间变换的线性化多采样方法。基于流的方法比仿射变换方法更灵活。它们可以处理复杂的变形。外观流[39]预测流场并通过对源进行扭曲来生成目标。然而，它扭曲图像像素而不是特征。这个操作限制了模型无法生成新内容。此外，它要求模型以与结果图像相同的分辨率预测流场，这使得模型难以捕捉大的运动[41，21]。Vid2vid[31]通过预测地面真实的流场来解决这些问题。76920局部注意力0力0局部注意力0局部注意力0全局流场估计器0局部神经纹理渲染器0�!�"0� �0�!�" �!0�"0�!0&�"0�ℓ!�$%&�!"'()�*+),0� +0�,0图2.我们模型的概述。全局流场估计器用于生成流场。局部神经纹理渲染器通过使用局部注意力对源特征进行空间变换来产生结果。虚线表示我们的局部注意力模块可以在不同尺度上使用。0首先使用FlowNet[3]计算流场，然后以监督方式训练其流场估计器。他们还使用生成器进行遮挡内容的生成。在特征级别上对源图像进行变形可以避免这些问题。为了稳定训练，一些论文提出通过使用一些假设或补充信息来获得流场。论文[24]假设关键点位于局部刚性的物体部分上。他们从稀疏关键点生成稠密流场。论文[18，16]使用3D人体模型和可见性图计算源图像和目标图像之间的流场。论文[22]提出了采样正确性损失来约束流场并取得良好的结果。03.我们的方法0对于姿势引导的人物图像生成任务，目标图像是源图像的变形结果，这意味着目标的每个位置只与源的局部区域相关。因此，我们设计了一个全局流场局部注意力框架来合理地采样和重新组合源特征。我们的网络架构如图2所示。它由两个模块组成：全局流场估计器F和局部神经纹理渲染器G。全局流场估计器负责估计源图像和目标图像之间的运动。它生成全局流场w和遮挡掩码m，供局部注意力块使用。利用w和m，局部神经纹理渲染器使用局部注意力块将源特征渲染到目标图像上。我们描述了0以下各模块的详细信息请参见下文。请注意，为了简化符号，我们描述的网络只包含一个局部注意力块。如图2所示，我们的模型可以扩展为在不同尺度上使用多个注意力块。03.1.全局流场估计器0设ps和pt分别表示源图像xs和目标图像xt的结构引导。全局流场估计器F以无监督的方式训练，用于预测xs和xt之间的运动。它以xs、ps和pt作为输入，并生成流场w和遮挡掩码m。0w, m = F(xs, ps, pt) (1)0其中，w包含源图像和目标图像之间的坐标偏移量。连续取值在0和1之间的遮挡掩码m指示目标位置的信息是否存在于源图像中。我们将F设计为一个完全卷积网络。除了输出层之外，w和m共享F的所有权重。由于在这个任务中，流场w的标签始终不可用，我们使用[22]提出的采样正确性损失来约束w。它计算了在VGG特征层面上，通过对源特征进行变形和真实目标特征进行对比，计算相似度。设vs和vt分别表示VGG19的特定层生成的特征。vs，w是使用w对源特征vs进行变形得到的结果。采样正确性损失计算相对余弦相似度。𝐟"𝐟#𝒩&(𝐟#, 𝑙)𝑛×𝑛×𝑐𝒩&(𝐟", 𝑙 + 𝐰0 )𝑛×𝑛×𝑐𝒩&(𝐟", 𝑙 + 𝐰0 )𝑛×𝑛×𝑐𝐤0𝑛×𝑛×1𝐟3##401×1×𝑐Lc = 1N�l∈Ωexp(−µ(vls,w, vlt)µlmax)(2)µlmax = maxl′∈Ω µ(vl′s , vlt)(3)Tl = AlSl =�θ11θ12θ13θ21θ22θ23�Sl(4)x1x2...xn×ny1y2...yn×n11...1ˆAl = (SHl Sl)−1SHl Tl(5)ˆxt = G(xs, pt, w, m)(7)76930核预测网络0Softmax 重塑0提取0提取0平均池化 �0空间逐元素乘法 �0图3.我们的局部注意力机制概述。我们首先根据流场从源图像和目标图像中提取特征块对。然后通过核预测网络计算上下文感知采样核。最后，我们对源特征进行采样，得到位于 l 处的变形结果。0v s, w 与 v t 之间的相似性。0其中 µ ( � ) 表示余弦相似度。坐标集合 Ω包含特征图中的所有 N 个位置，而 v l s, w 表示位于坐标 l= ( x, y ) 处的 v s, w 的特征。归一化项 µ l max计算如下：0它用于避免遮挡带来的偏差。采样正确性损失可以约束流场对语义相似区域进行采样。然而，由于图像邻域的变形高度相关，如果我们能够提取出这种关系，将会有所益处。因此，我们进一步为我们的流场添加了一个正则化项。该正则化项用于惩罚变换不是仿射变换的局部区域。设 c t为目标特征图的2D坐标矩阵。相应的源坐标矩阵可以写成 cs = c t + w 。我们使用 N n ( c t , l ) 表示以位置 l为中心的 c t 的局部 n × n 块。我们的正则化假设 N n ( c t, l ) 与 N n ( c s , l ) 之间的变换是仿射变换。0其中 T l = � x 1 x 2 ... x n × n y 1 y 2 ... y n × n0� 每个坐标0( x i , y i ) ∈ N n ( c t , l ) 且 S l =0其中每个坐标 ( x i , y i ) ∈ N n ( c s , l )。可以使用最小二乘估计求解估计的仿射变换参数 ˆ A l，如下所示：0我们的正则化项计算为误差的 ℓ 2 距离。 L r = �03.2. 本地神经纹理渲染器0在流场 w 和遮挡掩码 m的作用下，我们的局部神经纹理渲染器 G负责将信息从源图像空间转换到目标图像空间，生成结果图像 ˆ x t 。它以 x s 、 p t 、 w 和 m作为输入，并生成结果图像 ˆ x t 。0具体而言，信息转换发生在局部注意力模块中。如图2所示，该模块作为神经纹理的渲染器，通过源图像的神经纹理来渲染目标骨骼。设 f t 和 f s 分别表示目标骨骼 p t 和Def-GAN18.4570.23309.12%25.3640.29940.149623.33%82.08MVU-Net23.6670.26372.96%20.1440.32110.174724.48%139.36M76940DeepFashion Market-1501 数量0FID LPIPS JND FID LPIPS Mask-LPIPS JND 参数0Pose-Attn 20.739 0.2533 6.11% 22.657 0.3196 0.1590 16.56% 41.36M0Intr-Flow 16.314 0.2131 12.61% 27.163 0.2888 0.1403 30.85% 49.58M0Ours 10.573 0.2341 24.80% 19.751 0.2817 0.1482 27.81% 14.04M0表1. 与几种最先进的方法（包括Def-GAN [25]，VU-Net [2]，Pose-Attn [40]和Intr-Flow [16]）在DeepFashion [19]和Market-1501[38]数据集上的评估结果。FID [9]和LPIPS [37]是客观指标。JND是通过人类主观研究获得的，它表示生成图像被误认为是真实图像的概率。0源图像xs和目标图像xt。我们首先从ft和fs中分别提取局部补丁Nn(ft, l)和Nn(fs, l +wl)。由于坐标可能不是整数，我们使用双线性采样提取补丁Nn(fs, l +wl)。然后，我们使用一个核预测网络M来预测局部n×n核kl，如下所示：kl = M(Nn(fs, l + wl), Nn(ft, l)) (8)0我们将M设计为一个全连接网络，其中局部补丁Nn(fs, l +wl)和Nn(ft,l)直接连接作为输入。softmax函数被用作M的输出层的非线性激活函数。这个操作使得kl的和为1，从而使梯度反向传播的稳定性得到保证。最后，位于坐标l = (x,y)处的流动特征是通过对提取的源特征补丁Nn(fs, l +wl)进行内容感知注意力计算得到的。0flattn = P(kl � Nn(fs, l + wl)) (9)0其中�表示空间域上的逐元素乘法，P表示全局平均池化操作。通过重复前面的步骤，可以得到扭曲的特征图fattn。然而，由于遮挡或运动的原因，目标图像的并非所有内容都可以在源图像中找到。为了能够生成新的内容，使用连续值介于0和1之间的遮挡掩码m来选择fattn和ft之间的特征。0fout = (1 - m) * ft + m * fattn (10)0我们使用联合损失来训练网络，包括重建ℓ1损失、对抗损失、感知损失和风格损失。重建ℓ1损失定义如下：0Lℓ1 = ||xt - ˆxt||1 (11)0我们采用生成对抗框架[6]来模拟真实图像xt的分布。对抗损失定义如下：0Ladv = E[log(1 - D(G(xs, pt, w, m)))] + E[logD(xt)] (12)0其中D是局部神经纹理渲染器G的判别器。我们还使用[15]引入的感知损失和风格损失。感知损失计算预训练网络的激活图之间的ℓ1距离，可以写成：0Lperc =0i ||φi(xt) - φi(ˆxt)||1 (13)0其中φi是预训练网络的第i层的激活图。风格损失计算激活图之间的统计误差，如下所示：0Lstyle =0j0|||Gφj(xt) - Gφj(ˆxt)|||1 (14)0其中Gφj是从激活图φj构建的Gram矩阵。我们使用整体损失来训练我们的模型，如下所示：0L = λcLc + λrLr + λℓ1Lℓ1 + λaLadv + λpLprec + λsLstyle(15)04. 实验04.1. 实现细节0数据集。我们的实验中使用了两个数据集：行人重识别数据集Market-1501 [38]和DeepFashionIn-shop服装检索基准[19]。Market-1501包含32668张低分辨率图像（128×64）。这些图像在视角、背景、光照等方面有所变化。DeepFashion数据集包含52712张高质量的模特图像，背景干净。我们使用与[40]相同的方法划分数据集。训练集和测试集的个人身份没有重叠。度量指标。我们使用[37]提出的学习感知图像块相似度（LPIPS）来计算重建误差。LPIPS计算生成图像与参考图像在感知域上的距离，它表示输入之间的感知差异。同时，我们使用[9]提出的Fréchet InceptionDistance（FID）来衡量生成图像的真实性。它计算生成图像和真实图像分布之间的Wasserstein-2距离。此外，76950源图像目标姿势目标图像Def-GAN VU-Net Pose-Attn Ours0Intr-Flow源图像目标姿势目标图像Def-GAN VU-Net Pose-Attn Ours Intr-Flow0图4. 与Def-GAN [25]，VU-Net [2]，Pose-Attn [40]和Intr-Flow[16]等几种最先进模型的定性比较。左侧显示时尚数据集的结果。右侧显示Market-1501数据集的结果。0我们进行了一个刚好可察觉差异（JND）测试来评估主观质量。志愿者被要求从真实图像和生成图像的数据对中选择更真实的图像。网络实现和训练细节。基本上，我们使用自动编码器结构来设计我们的F和G。残差块被用作这些模型的基本组件。我们使用256×256像素的图像来训练我们的模型，用于时尚数据集。我们使用两个局部注意力块来处理分辨率为32×32和64×64的特征图。提取的局部块大小分别为3和5。对于Market-1501数据集，我们使用128×64像素的图像，并在分辨率为32×16的特征图上使用一个局部注意力块。提取的块大小为3。我们分阶段训练我们的模型。首先训练流场估计器生成流场。然后我们以端到端的方式训练整个模型。我们采用学习率为10^-4的ADAM优化器。所有实验的批量大小均设置为8。04.2. 比较0我们将我们的方法与包括Def-GAN [25]，VU-Net[2]，Pose-Attn [40]和Intr-Flow[16]在内的几种最先进的方法进行比较。定量评估结果如表1所示。对于Market-1501数据集，我们0我们按照之前的工作[20]计算掩膜LPIPS以减轻背景的影响。可以看出，我们的模型在两个数据集中都取得了有竞争力的结果，这意味着我们的模型可以生成更真实的结果，并且具有更少的感知重建误差。0由于主观指标可能对某些伪影不敏感，其结果可能与实际主观感知不匹配。因此，我们在Amazon MechanicalTurk（MTurk）上进行了一个刚好可察觉差异测试。该实验要求志愿者从真实图像和生成图像的图像对中选择更真实的图像。对于每个模型和数据集，该测试在800个图像上进行。每个图像由不同的志愿者进行5次比较。评估结果如表1所示。可以看出，我们的模型在具有挑战性的时尚数据集中取得了最佳结果，并在Market-1501数据集中取得了有竞争力的结果。0不同方法的典型结果如图4所示。对于时尚数据集，VU-Net和Pose-Attn在生成复杂纹理方面遇到困难，因为这些模型缺乏高效的空间变换块。Def-GAN定义了局部仿射变换组件（例如手臂和腿等）。该模型可以生成正确的纹理。然而，预定义的仿射变换不足以表示复杂的空间变化，这限制了模型的性能。基于流的模型Intr-Flow能够为正面姿势图像生成生动的纹理。然而，由于需要生成全分辨率的流场，该模型可能无法为侧面姿势图像生成真实的结果。同时，该模型需要3D人体模型来生成用于训练的真实流场。我们的模型以无监督的方式回归流场。它可以生成具有正确全局模式以及生动细节（如衣服上的花边和鞋带）的真实图像。对于Market-1501数据集，我们的模型可以生成具有生动背景的正确姿势。竞争对手的结果中可能存在伪影，例如Pose-Attn中的锐利边缘和Def-GAN中的光晕效果。表1还提供了模型参数的数量，以评估计算复杂性。由于我们高效的注意力块，我们的模型不需要大量的卷积层。因此，我们可以在竞争对手的参数数量不到一半的情况下实现高性能。BaselineN-16.0080.2473Global-AttnN-18.6160.2575Bi-SampleYN12.1430.2406Full ModelYY10.5730.2341performance of the model. Flow-based model Intr-Flow isable to generate vivid textures for front pose images. How-ever, it may fail to generate realistic results for side poseimages due to the requirement of generating full-resolutionﬂow ﬁelds. Meanwhile, this model needs 3D human mod-els to generate the ground-truth ﬂow ﬁelds for training.Our model regresses ﬂow ﬁelds in an unsupervised manner.It can generate realistic images with not only the correctglobal pattern but also the vivid details such as the lace ofclothes and the shoelace. For the Market-1501 Dataset, ourmodel can generate correct pose with vivid backgrounds.Artifacts can be found in the results of competitors, such asthe sharp edges in Pose-Attn and the halo effects in Def-GAN.The numbers of model parameters are also provided toevaluate the computation complexity in Table 1. Thanks toour efﬁcient attention blocks, our model does not require alarge number of convolution layers. Thus, we can achievehigh performance with less than half of the parameters ofthe competitors.Source ImageTarget ImageGlobal-AttnBi-SampleFull ModelGlobal-AttnAttention MapBi-SampleAttention MapFull ModelAttention Map76960基于流的内容感知FID LPIPS采样0表2. 切割研究的评估结果。04.3.消融研究0在本小节中，我们训练了几个消融模型来验证我们的假设，并评估每个组件的贡献。基线模型。我们的基线模型是一个自动编码器卷积网络。在这个模型中，我们不使用任何注意力块。图像x s ，p t ，p s直接连接作为模型的输入。全局注意力模型（Global-Attn）。全局注意力模型旨在将全局注意力块与我们的局部注意力块进行比较。我们为这个模型使用了与我们的局部神经纹理渲染器G相似的网络架构。局部注意力块被全局注意力块替换，其中注意系数由源特征f s 和目标特征f t之间的相似性计算得出。双线性采样模型（Bi-Sample）。双线性采样模型旨在评估我们在第3.2节中描述的内容感知采样方法的贡献。这个模型中同时使用了全局流场估计器F和局部神经纹理渲染器G。然而，我们在模型G中使用双线性采样作为采样方法。完整模型（我们的模型）。我们在这个模型中使用了我们提出的全局流局部注意力框架。0源图像目标姿势目标图像基线模型全局注意力模型 Bi-Sample模型完整模型0图5.消融研究的定性结果。0图6.不同注意力模块的可视化结果。红色矩形表示目标位置。热图显示注意系数。蓝色表示低权重。0消融研究的评估结果如表2所示。与基线相比，全局注意力模型的性能下降，这意味着不合理的注意力块不能有效地转换信息。通过使用基于流的方法，如Bi-Sample模型和我们的完整模型，可以获得改进，这些方法强制注意力系数矩阵成为一个5. Application on Other Tasks76970稀疏矩阵。然而，Bi-Sample模型使用了一个预定义的采样方法，具有有限的采样感受野，这可能导致训练不稳定。我们的完整模型使用了一个可调节感受野的内容感知采样操作，带来了进一步的性能提升。这些消融模型的主观比较结果可以在图5中找到。可以看到，基线模型和全局注意力模型生成了正确的结构。然而，源图像的纹理没有很好地保持。可能的解释是这些模型首先提取全局特征，然后将信息传播到特定位置。这个过程导致了细节的丢失。基于流的方法在空间上转换特征。它们能够重建生动的细节。然而，Bi-Sample模型使用了预定义的双线性采样方法。它无法找到精确的采样位置，导致最终结果中出现伪影。我们在图6中进一步提供了注意力图的可视化结果。可以看到，全局注意力模型很难排除无关信息。因此，提取的特征很难用于生成特定的纹理。Bi-Sample模型为每个生成的位置分配一个局部补丁。然而，由于有限的采样感受野，错误的特征经常被流动。我们的完整模型使用内容感知采样方法可以灵活地改变采样权重并避免伪影。0在本节中，我们展示了我们的全局流局部注意力模块的多功能性。由于我们的模型除了图像和结构指导之外不需要任何额外的信息，因此它可以灵活地应用于需要空间变换的任务。以下是两个示例任务。视图合成。视图合成需要根据任意输入视图生成对象或场景的新视图。由于不同视图的外观高度相关，可以重新组装现有信息以生成目标。我们使用ShapeNet数据集[1]进行训练。我们使用单视图输入生成新的目标视图。结果可以在图7中找到。我们提供了外观流的结果作为比较。可以看到，外观流在生成被遮挡内容时很困难，因为它们扭曲图像像素而不是特征。我们的模型生成了合理的结果。图像动画。给定一个输入图像和一个描述结构运动的驱动视频序列，图像动画任务需要生成一个包含特定运动的视频。这个任务可以通过空间移动源的外观来解决。我们使用FaceForensics数据集[23]中的真实视频进行模型训练，该数据集包含来自不同记者的1000个新闻简报视频。为了完成这个任务，我们对人脸区域进行了裁剪。我们使用0来源 AppFlow 我们的结果真实图像图7.视图合成任务的定性结果。我们展示了我们的模型和外观流[39]模型的结果。点击图像在浏览器中开始动画。0来源结果来源结果图8.图像动画任务的定性结果。我们的模型使用参考图像和边缘引导生成结果视频。点击图像在浏览器中开始动画。0将边缘图作为结构引导。对于每一帧，使用输入源帧和先前生成的n帧作为参考。为每个参考计算流场。结果可以在图8中找到。可以看到，我们的模型生成具有生动动作的逼真结果。06. 结论0在本文中，我们使用深度空间变换解决了人物图像生成任务。我们分析了在特征级别对源图像进行变形和转换时导致不稳定训练的具体原因。提出了有针对性的解决方案全局流局部注意框架，使我们的模型能够合理地重新组合源神经纹理。实验证明，我们的模型可以生成具有正确姿势并保持生动细节的目标图像。此外，消融研究表明，我们的改进帮助网络找到合理的采样位置。最后，我们展示了我们的模型可以轻松扩展到其他空间变形任务，如视图合成和视频动画。0致谢。本工作得到深圳市科技计划（编号JCYJ20170818141146428）和国家自然科学基金以及广东省大数据科学研究（编号U1611461）的支持。[27] Sijie Song, Wei Zhang, Jiaying Liu, and Tao Mei.Un-supervised person image generation with semantic parsing76980参考文献0[1] Angel X Chang, Thomas Funkhouser, Leonidas Guibas,Pat Hanrahan, Qixing Huang, Zimo Li, Silvio Savarese,Manolis Savva, Shuran Song, Hao Su, et al. Shapenet: Aninformation-rich 3d model repository. arXiv preprintarXiv:1512.03012, 2015. 80[2] Patrick Esser, Ekaterina Sutter, and Bj¨orn Ommer. Avariational u-net for conditional appearance and shapegeneration. In Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition, pages 8857–8866, 2018. 2, 5, 60[3] Philipp Fischer, Alexey Dosovitskiy, Eddy Ilg, PhilipH¨ausser, Caner Hazırbas¸, Vladimir Golkov, Patrick Van derSmagt, Daniel Cremers, and Thomas Brox. Flownet: Learningoptical flow with convolutional networks. arXiv preprintarXiv:1504.06852, 2015. 2, 30[4] Ross Girshick, Jeff Donahue, Trevor Darrell, and JitendraMalik. Rich feature hierarchies for accurate object detectionand semantic segmentation. In Proceedings of the IEEEconference on computer vision and pattern recognition,pages 580–587, 2014. 10[5] Ian Goodfellow, Yoshua Bengio, and Aaron Courville.Deep learning. MIT press, 2016. 10[6] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, BingXu, David Warde-Farley, Sherjil Ozair, Aaron Courville, andYoshua Bengio. Generative adversarial nets. In Advances inneural information processing systems, pages 2672–2680,2014. 50[7] Xintong

下载后可阅读完整内容，剩余1页未读，立即下载