神经纹理提取与分布操作：明确控制可控人物图像合成中的姿势和外貌

84 浏览量更新于2023-10-25 收藏 15.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

135350神经纹理提取和分布用于可控人物图像合成0任宇睿 1 范晓青 1 格力 1 刘珊 2 李天华 3 , 101 北京大学电子与计算机工程学院 2 腾讯美国 3 北京大学信息科学技术高等研究院0yrren@pku.edu.cn fanxiaoqing@stu.pku.edu.cn geli@ece.pku.edu.cn0shanl@tencent.com tli@aiit.org.cn0摘要0我们处理可控人物图像合成任务，旨在从参考图像中重新渲染人物，并明确控制身体姿势和外貌。观察到人物图像具有高度结构化的特点，我们提出通过提取和分布参考图像的语义实体来生成期望的图像。为了实现这个目标，我们描述了一种基于双重注意力的神经纹理提取和分布操作。该操作首先从参考特征图中提取语义神经纹理。然后，根据目标姿势学习到的空间分布将提取的神经纹理分布到相应的位置。我们的模型被训练用于预测任意姿势下的人物图像，这鼓励它提取表示不同语义实体外貌的解耦和和表达性强的神经纹理。解耦和的表示进一步实现了明确的外貌控制。不同参考图像的神经纹理可以融合以控制感兴趣区域的外貌。实验比较表明了所提出模型的优越性。代码可在https://github.com/RenYurui/Neural-Texture-Extraction-Distribution找到。01. 引言0通过明确控制身体姿势和外貌来合成人物图像是一项具有广泛应用的重要任务。电子商务、虚拟现实和下一代通信等行业需要这样的算法来生成内容。图1显示了典型的示例。可以看出，期望的输出图像与参考图像不对齐。因此，生成逼真的目标图像的一个基本挑战是根据修改准确地变形参考图像。0姿势控制外貌控制0参考文献0骨架合成图像0骨架合成图像0参考文献0头部合成图像0服装0参考文献0合成图像0参考文献0图1.可控人物图像合成。我们的模型可以通过明确控制参考图像的姿势和外貌生成逼真的图像。0然而，卷积神经网络缺乏实现高效空间变换的能力[6,27]。CNN的构建块一次只处理一个局部邻域。为了建模长期依赖关系，需要通过堆叠卷积操作来获得大的感受野。在重复的局部操作中，真实纹理会被“冲刷掉”。流动方法[14, 22, 25,28]被提出来实现高效的空间变换。这些方法通过预测2D坐标偏移来为每个目标点分配采样位置。虽然可以重建真实纹理，但这些方法会产生明显的伪影，尤其在观察到复杂变形和严重遮挡时更为明显[21]。135360注意机制[27, 30,33]已经成为一种捕捉长期依赖关系的高效方法。该操作将目标位置的响应计算为所有源特征的加权和。因此，它可以通过直接计算任意两个位置之间的相互作用来建立依赖关系。然而，在这个任务中，普通的注意力操作存在一些局限性。首先，由于目标图像是源图像的变形结果，每个目标位置只与局部源区域相关，这意味着注意力修正矩阵应该是一个稀疏矩阵，以排除不相关的区域。其次，二次内存占用阻碍了它在高分辨率特征中变形真实细节的应用。为了解决这些限制，我们引入了一种高效的空间变换操作。这个操作的动机是一个直观的想法：人物图像可以通过提取和重新组装语义实体（例如脸部、头发、衣服）来进行操作。为了实现这个目标，我们提出了一种基于双重注意力的神经纹理提取和分布（NTED）操作[3,24]。该操作的架构如图2所示。具体而言，提取操作首先通过收集从参考图像获得的特征来提取神经纹理。然后，分布操作负责根据学习到的语义分布为每个目标位置软选择提取的神经纹理生成结果。我们设计了一个生成性神经网络，使用不同尺度的NTED操作。该网络通过预测条件语义分布并重新组装提取的神经纹理来渲染输入骨架。实验评估在512×352的高分辨率下展示了逼真的结果。比较实验显示了所提出模型的优越性。此外，我们的模型还可以进一步应用于明确的外貌控制。感兴趣的语义可以通过交换不同参考的相应神经纹理来进行操作。我们提出了一种优化方法来自动搜索插值系数，这些系数进一步用于融合提取的神经纹理。我们的方法实现了连贯和逼真的结果。本文的主要贡献可以总结如下：0•提供了一种直观的图像变形思路。通过提取和分布参考图像的语义实体来生成所需图像。0•我们用一种轻量级和计算高效的NTED操作实现了所提出的思路。实验证明该操作是一种高效的空间变形模块。全面的消融研究证明了其有效性。0•由于我们模型提取的解耦和表达丰富的神经纹理，我们可以通过在不同参考之间插值神经纹理来实现明确的外观控制。02. 相关工作0基于示例的图像合成。最近，有条件生成对抗网络（cGAN）在合成逼真图像方面取得了巨大进展[4,8,9,19,29,38,39]。作为cGAN的典型任务，图像到图像的转换[9]旨在训练一个模型，使生成图像的条件分布类似于目标域的分布。为了实现对生成图像的灵活和精细的控制，提出了一些基于示例的图像转换方法[8,20,29,32]。这些方法以具有所需风格的示例图像为条件进行转换。从示例中提取潜在向量来调节生成过程。生成具有特定风格的图像。然而，一维向量可能不足以表示复杂纹理，这限制了模型对逼真细节的重建。一些模型[35,37]通过提取跨域图像之间的密集语义对应关系来解决这个问题。扭曲的示例图像提供了空间自适应纹理，有助于重建局部纹理。0姿势引导的人物图像合成。姿势引导的人物图像合成任务可以看作是一种基于示例的图像转换任务，其中期望在任意姿势下复制参考图像的外观。一些早期的尝试[5,17]通过提取与姿势无关的向量来解决这个问题，以表示外观。然而，不同语义实体的纹理差异很大。直接从参考图像中提取向量将限制模型表示复杂纹理的能力。为了缓解这个问题，提出了从不同分割区域提取属性[18]或使用UV映射预处理参考图像的方法[23]。这些方法可以提取富有表现力的潜在向量，以提高生成质量。然而，由于它们均匀应用调制，细节模式可能在最终输出中被冲淡。为了实现空间自适应调制，通过扭曲参考图像来估计密集变形，以生成对齐特征。提出了基于流的方法[1,13,14,21,22,25,26]来估计参考图像和目标图像之间的外观流。模型可以通过无监督方法或通过人体3D模型获得的预计算标签进行训练。尽管基于流的方法可以生成逼真的细节，但在观察到复杂变形或严重遮挡时，可能无法提取准确的运动。其他一些方法[35,37]使用基于注意力的操作提取密集对应关系。它们可以为最终图像生成准确的结构。然而，这些方法的二次存储占用限制了它们估计高分辨率对应关系的能力。我们的模型通过稀疏注意力可以应用于提取高分辨率的神经纹理，而不会显著增加存储占用。r¯Ci,je=i,j(2)Fe = ¯Cef(Fr)(3)Cd = WdFTt(4)¯Ci,jd=i,j(5)135370�0�0�0�0参考图像0生成的图像0语义神经纹理0语义提取滤波器语义分布滤波器0空间Softmax0通道Softmax0提取操作0分布操作0关键0值0查询0目标0骨架0图2.神经纹理提取和分布操作的概述。首先从参考特征图中提取语义神经纹理。然后根据从目标骨架学习到的空间分布进行分布。热图显示了注意力系数 ¯ C e 和 ¯ C d 。深色表示权重较高。03. 提出的模型0本文提出了一种用于可控人物图像合成的新模型。我们在第3.1节引入了一种高效的空间变换操作，即神经纹理提取和分布（NTED）操作。在第3.2节中，我们设计了一个生成模型，采用分层策略，在不同的尺度上应用NTED操作。我们在第3.3节中介绍了损失函数。03.1. NTED 操作0人物图像合成任务的一个基本挑战是准确地重新组合参考图像。在本小节中，我们介绍了一个NTED操作。如图2所示，该操作包括两个步骤：提取操作和分布操作。0提取操作负责从参考特征图中提取语义神经纹理。该操作通过一个注意力步骤实现，其中每个神经纹理都是通过值的加权和计算得到的。假设 F r ∈ R hw × c 表示从参考图像 I r中提取的特征图。符号 h 和 w是特征图的空间尺寸。特征通道的数量表示为c。注意力相关矩阵是在 F r 和语义提取滤波器 W e ∈ R k× c 之间计算的。0其中，C e ∈ R k × hw 是相关矩阵。C e 的每一行 i包含每个参考特征对第 i个神经纹理的贡献。语义提取滤波器 W e使用卷积滤波器实现。数据集中的所有图像都使用相同的滤波器。这个设置有助于0模型可以自动学习适合的语义组件。同时，由特定滤波器提取的神经纹理始终表示相同的语义组件，这有助于模型解开不同语义外观的纠缠。在获得 C e 后，应用 softmax函数对特征位置上的相关矩阵进行归一化。0∑ exp( C i,j e )(j=1 to hw)0其中，¯ C e是归一化的相关矩阵。神经纹理通过值的加权和进行提取。0其中，通过将 F r 与投影函数 f 进行变换，得到值 f ( F r )。神经纹理 F e ∈ R k × c0表示语义实体的外观。分布操作负责根据目标姿势分布提取的神经纹理。设 F t ∈ R hw × c 表示目标骨架 P t的特征图。分布操作首先对语义神经纹理的空间分布进行建模。0其中，W d ∈ R k × c表示语义分布滤波器。与提取操作类似，我们使用卷积滤波器实现 W d 。输出矩阵 C d ∈ R k × hw包含所有语义实体和所有目标特征之间的相关性。我们沿着k 轴对该矩阵进行归一化。0∑ exp( C i,j d )(i=1 to k)……NTED…tRGBtRGBtRGB……⨁⨁⨁⨁16 × 1632 × 32512 × 512𝐅!"𝐅#"𝐅$"𝐅#"%&𝐅$"%&16×1632×32512×512𝐅#"𝐅$"𝐅#"%&𝐅$"%&𝐅!"%&NTEDNTEDNTEDNTEDNTEDFo = ¯CTd Fe(6)Fo = W(f(Fr), ¯Ced) = ¯CTd ¯Cef(Fr)(7)135380目标0骨架0上采样0卷积 3 × 30编码器0编码器0上采样0上采样0卷积 3 × 30卷积块0卷积块0卷积块0参考图像0生成的图像0骨架编码器0参考编码器0目标图像渲染器0图3.所提出模型的概述。我们的模型通过使用参考特征渲染目标骨架来生成结果图像。在不同尺度上使用NTED操作来变形局部和全局上下文。0¯ C d 的每一列 j 表示生成第 j个特征时每个语义神经纹理的贡献。NTED操作的最终输出计算如下0其中 F o ∈ R hw × c是输出特征图。为了简化表示，我们定义了一个变形符号 W来表示整个NTED操作0其中 ¯ C ed = ¯ C T d ¯ C e表示由NTED操作估计的变形。NTED操作可以看作是一个线性注意力，其计算复杂度与序列长度呈线性关系。更多讨论请参见补充材料。03.2. 人物图像合成模型0我们将人物图像合成模型设计为一个姿势条件的生成神经网络，通过使用从参考图像中提取的神经纹理来渲染目标骨架，生成逼真的图像ˆ I t。该架构如图3所示。可以看出，该模型由三个模块组成：骨架编码器、参考编码器和目标图像渲染器。骨架编码器用于将目标骨架转换为特征图。该编码器接受分辨率为 512 ×512 的骨架表示作为输入。编码器的最终输出分辨率为 16× 16 。编码器中包含了总共 5个编码块，每个块将输入下采样 2倍。参考编码器负责将参考图像编码为多尺度特征图。我们使用了一个0与骨架编码器类似的架构。从 512 × 512 到 16 × 16为每个尺度生成特征图。0目标图像渲染器用于通过使用提取的神经纹理渲染骨架来合成目标图像。该网络以骨架编码器生成的特征图作为输入。对于每一层，使用NTED操作来变形参考特征。我们设计了NTED操作来预测当前结果的残差。第 l个NTED操作的对齐特征图 F l o 加到目标特征图 F l t上。我们采用了Style-GAN2中提出的图像跳跃连接。RGB图像在不同尺度上进行预测。最终输出通过上采样和求和这些RGB输出的贡献来计算。03.3. 训练损失0我们以端到端的方式训练我们的模型，同时学习神经纹理变形和目标图像生成。我们采用了几个损失函数来完成特定任务。0注意力重构损失Lattn。我们使用注意力重构损失来约束NTED操作以提取准确的变形。该损失惩罚每个层l的变形输出与真实图像之间的ℓ1差异。0Lattn =0l ∥Il↓t - W(Il↓r, ¯Cled)∥1 (8)0其中Il↓t和Il↓r是将目标图像It和参考图像Ir调整为第l层分辨率的结果。¯Cled表示NTED操作在第l层估计的变形。we use an optimization method to automatically implementthis task. Let F[1,L]e1≡ {F1e1, F2e1, ..., FLe1} and F[1,L]e2≡{F1e2, F2e2, ..., FLe2} denote neural textures of Ir1 and Ir2.Symbol L is the number of network layers. We define a setof mask tensor m[1,L] ≡ {m1, m2, ..., mL} to interpolatebetween the extracted neural textures. For each layer l, thefused neural textures are obtained by135390重构损失Lrec。使用重构损失来计算生成图像ˆIt与真实图像It之间的差异。我们采用了文献[10]中提出的感知损失。0Lrec =0i ∥ϕi(It) - ϕi(ˆIt)∥1 (9)0其中ϕi表示预训练的VGG-19网络的第i个激活图。该损失计算VGG-19激活之间的ℓ1差异。脸部重构损失Lface。除了重构损失Lrec之外，我们还使用脸部重构损失来计算裁剪脸部之间的感知距离。0Lface =0i ∥ϕi(Cface(It)) - ϕi(Cface(ˆIt))∥1 (10)0其中Cface是根据目标姿势裁剪脸部的函数。对抗损失Ladv。采用生成对抗损失来模拟真实图像的分布。判别器被训练来区分目标域中的真实图像和输出图像。0Ladv = E[log(1 - D(G(Pt, Ir)))] + E[log(D(It))] (11)0其中G和D分别表示生成器和判别器。总损失Ltotal。我们使用联合损失来训练我们的模型。0Ltotal = λattnLattn + λrecLrec + λfaceLface + Ladv (12)0其中λattn，λrec和λface是超参数。04.外观控制的优化0给定训练好的模型，可以通过提取和重新组合参考图像的神经纹理来合成任意姿势的图像。虽然我们没有使用任何语义标签来监督神经纹理的提取，但是所提出的模型可以获得有意义和富有表现力的潜在向量。图4显示了注意力相关矩阵¯Ce和¯Cd的可视化结果。可以清楚地看到，特定的神经纹理总是通过对具有特定语义组件的区域求和来形成，并控制相应目标区域的生成。因此，我们可以通过交换不同参考图像的相应语义神经纹理来控制最终图像的外观。不失一般性，我们假设通过使用I r 2 的语义实体i和I r 1的其他语义组件，从两个参考图像I r 1 和I r 2生成了一张新的图像ˆIt。为了实现这个目标，从I r 2中提取与语义实体i相关的神经纹理，而从I r 1中提取其他神经纹理。受文献[12]的启发，0可视化0##9“背景”#10“上衣”#26“下衣”#28“皮肤”参考和0骨架0可视化0可视化0可视化0图4.在第l层分辨率为64×64的¯Cle和¯Cld中的几个典型通道的可视化结果。对于每个样本，第一行是提取操作的可视化结果，第二行是分布操作的可视化结果。0Fle = Fle1 + ml(Fle2 − Fle1)（13）0其中ml∈Rk×1的值介于0和1之间。我们使用优化方法自动实现这个任务。令F[1,L]e1≡{F1e1,F2e1, ..., FL e1}和F[1,L]e2≡{F1e2, F2e2, ..., FLe2}分别表示Ir1和Ir2的神经纹理。符号L是网络层数。我们定义一组掩蔽张量m[1,L]≡{m1, m2, ...,mL}来插值提取的神经纹理之间的差异。对于每一层l，融合的神经纹理通过以下方式获得：0Lopt = λreguLregu + λr1Lr1 + λr2Lr2（14）0正则化损失Lregu。期望系数m[1,L]0对于与语义实体i相关的神经纹理，应该分配较大的值，而对于其他纹理应该分配较小的值。操作A用于区分神经纹理。回想一下，分布操作的注意力相关矩阵¯Cd∈Rk×hw包含不同语义神经纹理的空间分布。它提供了一个明确的线索来找到生成语义实体i的神经纹理。令St表示通过现成的分割技术获得的生成图像ˆIt的二值分割标签，其中语义实体i的区域被设置为1。操作A定义为：0A(¯Cd, S↓t) =0hwS↓0hw S ↓ t > σ（15）135400256×176图像 512×352图像0PATN ADGAN PISE GFLA 我们的方法 CocosNet2 我们的方法0SSIM ↑ 0.6714 0.6735 0.6537 0.7082 0.7182 0.7236 0.7376 LPIPS ↓ 0.2533 0.2255 0.2244 0.1878 0.17520.2265 0.1980 FID ↓ 20.728 14.540 11.518 9.8272 8.6838 13.325 7.78210表1.在256×176和512×352图像上与几种最先进的方法进行的定量比较。0其中A(¯Cd, S↓t)∈{0,1}k×1包含与语义实体i相关的神经纹理的索引。S↓t∈{0,1}1×hw是调整大小的分割标签。符号⊙表示逐元素乘法。操作A计算语义实体i区域中的平均注意系数。具有大于阈值σ的注意值的神经纹理被视为生成区域i的神经纹理。我们的正则化损失定义为：0Lregu =λreguLregu λr1Lr1 + λr20lA(¯Cld, Sl↓t) ⊙ (1 − ml) + A(¯Cld, 1 − Sl↓t) ⊙ ml0（16）外观保持损失Lr1。外观保持损失鼓励最终图像ˆIt保持Ir1中与编辑无关的语义组件。令ˆIt1和St1分别表示Ir1的姿态变换图像和其分割标签。该损失计算了掩蔽的ˆIt和ˆIt1之间的感知距离。0Lr1 = Lrec(ˆIt ⊙ (1 − St), ˆIt1 ⊙ (1 − St1))（17）0其中Lrec是等式9中的感知重建损失。外观编辑损失Lr2。外观编辑损失鼓励最终图像ˆIt包含Ir2中的语义实体i。令ˆIt2和St2分别表示Ir2的姿态变换图像和其分割标签。该损失计算了掩蔽的ˆIt和ˆIt2之间的感知距离。0Lr2 = Lrec(ˆIt ⊙ St, ˆIt2 ⊙ St2)（18）0使用等式14中的联合损失函数Lopt，我们可以优化插值系数m[1,L]。在获得m[1,L]之后，将融合的神经纹理Fe（等式13）发送到目标图像渲染器以生成编辑结果。05. 实验0在本节中，我们进行实验来评估所提出模型的性能。首先在第5.1节中提供了实现细节。然后，在第5.2节中将我们的模型与几种最先进的方法进行比较。在第5.3节中，训练消融模型以验证所提出模块的有效性。最后，在第5.4节中提供外观控制的结果。05.1. 实现细节0数据集。我们在DeepFashion数据集的In-shop ClothesRetrievalBenchmark上训练我们的模型[15]。该数据集包含52712张时尚模特的高分辨率图像。同一人穿着同一衣服的图像被配对用于训练和测试。骨架由OpenPose[2]提取。我们使用[40]提供的数据集划分。训练集中总共有101966对，测试集中有8570对。评估指标。我们从不同的角度评估模型的性能。使用结构相似性指数(SSIM)[31]和学习的感知图像块相似性(LPIPS)[36]来计算重建准确性。SSIM计算像素级图像相似性，而LPIPS通过使用在人类判断上训练的网络提供感知距离。使用Fréchet Inception Distance(FID)[7]来衡量生成图像的逼真程度。它计算合成图像和真实图像的分布之间的距离。训练细节。在我们的实验中，我们使用256×176和512×352的图像训练所提出的模型。我们使用Adam[16]求解器，β1=0，β2=0.99。学习率对于生成器和判别器都设置为2×10−3。模型训练了200个epochs，批量大小为16。更多细节可以在附加材料中找到。05.2. 比较0我们将所提出的模型与包括PATN [40]、ADGAN[18]、GFLA [22]、PISE [34]和CocosNet2[37]在内的几种最先进的方法进行比较。我们使用相应作者提供的已发布权重来获得结果。定量结果。评估结果如表1所示。我们根据竞争对手的训练集，在256×176和512×352的图像上评估性能。由于CoCosv2使用了不同的训练/测试划分，我们使用他们的源代码重新训练了该模型。可以看出，与最先进的方法相比，我们的模型取得了最好的结果。这意味着我们的模型不仅可以生成具有准确结构的图像，还可以生成具有逼真细节的图像。定性结果。我们在图5和图6中提供了生成的结果。可以看出，由于缺乏高效的空间变换，PATN难以生成逼真的图像。135410参考目标 PATN ADGAN PISE GFLA 我们0图5.在DeepFashion数据集上与几种最先进的方法进行定性比较，图像尺寸为256×176。0变形块。PATN和ADGAN生成具有准确结构的图像。然而，它们使用1D向量提取图像外观，这阻碍了复杂纹理的生成。基于流的方法GFLA可以生成逼真的纹理。然而，在观察到严重遮挡时，它会产生明显的伪影。CocosNet2生成具有准确结构的高分辨率图像。然而，它无法保持复杂纹理的模式。我们的模型既具有准确结构又具有生动纹理，生成的结果视觉上非常吸引人。05.3. 消融研究0我们通过将我们的模型与几个变体进行比较来评估所提出的神经纹理提取和分布操作的有效性。基线模型。训练基线模型以证明神经纹理变形模块的必要性。该模型使用自动编码器网络。将参考图像和目标骨架连接作为模型输入。我们使用重建损失、面部重建损失和对抗损失来训练该模型。基于样式的模型。设计了一个基于样式的模型，将NTED操作与StyleGAN2中提出的基于样式的调制块进行比较。在该模型中，NTED操作被样式调制块替换。参考图像被编码为1D向量以调制生成。我们使用与基线模型相同的损失函数来训练该模型。0参考目标我们的模型 CocosNet20图6.在DeepFashion数据集上与CocosNet2的定性比较，图像大小为512×352。0参考目标基线基于样式注意力我们的模型0图7. 剔除研究的定性结果。0注意力模型。注意力模型用于将NTED操作与普通的注意力操作进行比较。我们用注意力操作替换了我们的NTED操作。注意力相关性是在参考特征F_r和目标骨架特征F_t之间计算的。为了确保比较的公平性，我们在计算注意力时不使用子采样技巧。同时，在计算注意力时不减少特征通道的数量。该模型使用与我们方法相同的损失函数进行训练。135420基线基于样式注意力我们的模型0SSIM ↑ 0.7085 0.7111 0.7158 0.7182 LPIPS ↓ 0.1935 0.1884 0.17610.1752 FID ↓ 8.6568 9.3502 8.5732 8.6838 FLOPs ↓ 53.73 G 62.57 G219.94 G 103.99 G0表2. 剔除研究的评估结果。0我们采用了提出的模型和NTED操作。0我们使用与我们的模型相同的设置训练所有剔除模型。剔除研究的定量结果如表2所示。可以看到，与剔除方法相比，我们的模型取得了有竞争力的结果。基线模型利用生成对抗技术生成具有良好FID分数的逼真人物图像。然而，较差的LPIPS结果表明，由于缺乏高效的空间变换块，该模型无法忠实地重建纹理。基于样式的模型通过利用局部和全局上下文来提高LPIPS分数。然而，1D向量不足以表示复杂的空间分布，这可能导致性能下降。注意力模型试图建立所有源与所有目标之间的关联。然而，如上所述，每个目标位置只需要采样一个局部源块，这意味着一些计算可能是不必要的。通过比较注意力模型与我们的评估结果，可以证实这种推断。我们的模型以不到注意力模型一半的FLOPs取得了有竞争力的结果。0我们在图7中展示了定性结果。可以看到，基线模型无法重现复杂的空间分布。基于样式的模型通过分层注入提取的向量来缓解这个问题。然而，均匀调制阻碍了其生成局部细节。注意力模型和我们的模型可以忠实地重建参考图像的纹理。05.4. 外观控制结果0我们的模型通过结合从不同参考图像中提取的神经纹理来实现外观控制。我们使用第4节中描述的方法来优化插值系数。结果如图8所示。我们观察到我们的模型可以无缝地组合感兴趣的区域并生成连贯的图像。服装是从具有任意姿势的图像中提取的。结构和纹理都被忠实地重建。同时，无关的语义区域也得到了很好的保留，这表明我们的模型用解耦的神经纹理表示不同的语义。0参考0图片0服装0图片0参考0图片0服装0图片0图8.通过控制感兴趣区域的外观生成的图像。对于每个样本，第一行包含服装图像。第二行包含生成的图像。0生成的参考骨架生成的参考骨架生成的参考骨架0图9.由于姿势不足（左），服装不足（中），以及野外身份（右）而导致的失败案例。06. 结论和讨论0我们提出了一种新颖的模型，通过明确控制参考图像的姿势和外观来合成逼真的人物图像。NTED操作用于空间变换的描述。该操作首先从参考图像中提取分层语义神经纹理。然后根据目标姿势学习到的空间分布重新组装提取的神经纹理。我们的模型优于最先进的方法，并且即使对于具有极其复杂纹理的参考图像也能生成逼真的图像。同时，解缠的神经纹理使得进一步的外观控制应用成为可能。通过无缝地合并来自不同图像的感兴趣区域生成了有希望的结果。局限性和伦理考虑。尽管我们的模型生成了有希望的结果，但在一些姿势不足的情况下仍然失败。我们在图9中展示了一些失败案例。这些结果中可能存在伪影或不一致性。姿势转换或外观控制应用可能被滥用并构成社会威胁。我们不赞成使用我们的工作来传播错误信息或玷污声誉。致谢。本工作得到了中国国家自然科学基金（No.62172021）和深圳市基础研究项目（GXWD20201231165807007-20200806163656003）的支持。135430参考文献0[1] Badour AlBahar, Jingwan Lu, Jimei Yang, Zhixin Shu, EliShechtman, 和 Jia-Bin Huang. 姿势与风格:保留细节的姿势引导图像合成与条件StyleGAN.arXiv预印本arXiv:2109.06166, 2021. 20[2] Z. Cao, G. Hidalgo Martinez, T. Simon, S. Wei, 和 Y. A.Sheikh. Openpose: 实时多人2D姿势估计, 使用部分亲和场.IEEE模式分析与机器智能交易, 2019. 60[3] Yunpeng Chen, Yannis Kalantidis, Jianshu Li, ShuichengYan, 和 Jiashi Feng. 双重注意力网络.arXiv预印本arXiv:1810.11579, 2018. 20[4] Yunjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha,Sunghun Kim, 和 Jaegul Choo. Stargan:统一的生成对抗网络用于多领域图像到图像的转换.在IEEE计算机视觉和模式识别会议上的论文集, 页码8789-8797,2018. 20[5] Patrick Esser, Ekaterina Sutter, 和 Bj¨orn Ommer.条件外观和形状生成的变分U-Net.在IEEE计算机视觉和模式识别会议上的论文集, 页码8857-8866,2018. 20[6] Ian Goodfellow, Yoshua Bengio, Aaron Courville, 和Yoshua Bengio. 深度学习, 卷1. MIT出版社, 2016. 10[7] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner,Bernhard Nessler, 和 Sepp Hochreiter.通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡.在神经信息处理系统进展中, 页码6626-6637, 2017. 60[8] Xun Huang, Ming-Yu Liu, Serge Belongie, 和 Jan Kautz.多模态无监督图像到图像的转换.在欧洲计算机视觉会议(ECCV)上的论文集, 页码172-189, 2018. 20[9] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, 和 Alexei A Efros.带条件对抗网络的图像到图像转换.在IEEE计算机视觉和模式识别会议上的论文集, 页码1125-1134,2017. 20[10] Justin Johnson, Alexandre Alahi, and Li Fei-Fei.实时风格转换和超分辨率的感知损失. 在欧洲计算机视觉会议上,页码694-711. Springer, 2016. 50[11] Tero Karras，Samuli Laine，Miika Aittala，JanneHellsten，Jaakko Lehtinen和TimoAila。分析和改进StyleGAN的图像质量。在IEEE/CVF计算机视觉和模式识别会议上的论文集中，第8110-8119页，2020年4月0[12] Kathleen M Lewis，Srivatsan Varadharajan和IraKemelmacher-Shlizerman。通过分层插值进行身体感知的试穿。ACM图形学交易（TOG），第40卷第4期：1-10页，2021年5月0[13] Yining Li，Chen Huang和Chen ChangeLoy。用于人体姿势转移的密集内在外观流。在IEEE/CVF计算机视觉和模式识别会议上的论文集中，第3693-3702页，2019年2月0[14]刘文，朴志新，闵杰，罗文涵，马琳和高胜华。液体弯曲GAN：人体运动模仿，外观转换和新视角合成的统一框架。在IEEE/CVF国际计算机视觉会议上的论文集中，第5904-5913页，2019年1月，2月0[15]刘子伟，罗平，邱石，王晓刚和唐晓欧。Deepfashion：利用丰富的注释提供强大的服装识别和检索。在IEEE计算机视觉和模式识别会议上的论文集中，第1096-1104页，2016年6月0[16] Jonathan L Long，Ning Zhang和TrevorDarrell。卷积神经网络是否学习对应关系？神经信息处理系统的进展，第27卷：1601-1609页，2014年6月0[17] 马立前，孙倩茹，Stamatios Georgoulis，Luc VanGool，Bernt Schiele和MarioFritz。分解人物图像生成。在IEEE计算机视觉和模式识别会议上的论文集中，第99-108页，2018年2月0[18]门一方，毛一鸣，姜宇宁，马伟英和连周辉。具有属性分解GAN的可控人物图像合成。在IEEE/CVF计算机视觉和模式识别会议上的论文集中，第5084-5093页，2020年2月，6月0[19] Mehdi Mirza和SimonOsindero。条件生成对抗网络。arXiv预印本arXiv:1411.1784，2014年2月0[20] Taesung Park，Ming-Yu Liu，Ting-Chun Wang和Jun-YanZhu。具有空间自适应归一化的语义图像合成。在IEEE/CVF计算机视觉和模式识别会议上的论文集中，第2337-2346页，2019年2月0[21] 任玉瑞，吴宇波，Thomas H Li，刘珊和GeLi。将注意力与流结合用于人物图像合成。在第29届ACM国际多媒体会议上的论文集中，第3737-3745页，2021年1月，2月0[22] 任玉瑞，于晓明，陈俊明，Thomas H Li和GeLi。用于人物图像生成的深度图像空间变换。在IEEE/CVF计算机视觉和模式识别会议上的论文集中，第7690-7699页，2020年1月，2月，6月0[23] Kripasindhu Sarkar，Vladislav Golyanik，LingjieLiu和ChristianTheobalt。单个单目视图中的人体图像合成的风格和姿势控制。arXiv预印本arXiv:2102.11263，2021年2月0[24]沈卓然，张明远，赵海宇，易帅和李洪生。高效的注意力：具有线性复杂度的注意力。在IEEE/CVF冬季计算机视觉应用会议上的论文集中，第3531-3539页，2021年2月0[25] Aliaksandr Siarohin，Enver Sangineto，St´ephaneLathuiliere和NicuSebe。用于基于姿势的人体图像生成的可变形GAN。在IEEE计算机视觉和模式识别会议上的论文集中，第3408-3416页，2018年1月，2月0[26]吉林唐，袁毅，邵天佳，刘勇，王梦梦和周坤。具有姿势分解和语义相关性的结构感知人物图像生成。arXiv预印本arXiv:2102.02972，2021年2月135440[27] Ashish Vaswani, Noam Shazeer, Niki Parmar, JakobUszko- reit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, 和 Il-lia Polosukhin. 注意力就是一切. arXiv预印本arXiv:1706.03762,2017. 1 , 20[28] 王庭淳, 刘明宇, Andrew Tao, 刘桂林, Jan Kautz, 和 BryanCatanzaro. 少样本视频到视频合成. arXiv预印本arXiv:1910.12713,2019. 10[29] 王庭淳, 刘明宇, 朱俊彦, Andrew Tao, Jan Kautz, 和 BryanCatanzaro. 带条件GAN的高分辨率图像合成和语义操作. 在2018年IEEE计算机视觉与模式识别会议论文集中, 页8798-8807,2018. 20[30] 王晓龙, Ross Girshick, Abhinav Gupta, 和 Kaiming He.非局部神经网络. 在 2018年IEEE计算机视觉与模式识别会议论文集中, 页7794-7803, 2018. 20[31] Zhou Wang, Alan C Bovik, Hamid R Sheikh, 和 Eero P Si-moncelli. 图像质量评估: 从误差可见性到结构相似性.IEEE图像处理期刊 , 13(4):600-612, 2004. 60[32] 余晓明, 陈元琪, 刘珊, 李托马斯, 和格力.通过学习解耦实现多映射图像到图像的转换. 在神经信息处理系统进展中, 2019. 20[33] 张瀚, Ian Goodfellow, Dimitris Metaxas, 和 Augus- tusOdena. 自注意力生成对抗网络. 在机器学习国际会议上,页7354-7363. PMLR, 2019. 20[34] 张劲松, 李昆, 赖宇坤, 和杨静宇. Pise:人物图像合成和编辑与解耦GAN. arXiv预印本arXiv:2103.04023,2021. 60[35] 张攀,

下载后可阅读完整内容，剩余1页未读，立即下载