文本引导的人物图像合成方法

31 浏览量更新于2023-10-17 收藏 1.08MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3663文本引导的人物图像合成周兴然1黄思宇1李斌1 李英明李佳晨2号张忠飞11浙江大学2南京大学{xingranzh，siyuhuang，li bin，yingming，zhongfei}@ zju.edu.cn，jiachen linju@163.com一个亚洲男人穿着[白衬衫]，黑色裤子，拿着一壶水。他走向摄像机。一个穿黄色衬衫的女人，[一条灰色裤子]和一双粉红色和白色的鞋子。她的头向前。输入黄色蓝色粉红色紫色绿色输入绿色黑色蓝色粉红色白色图1：文本引导的人物图像合成示例。给定参考图像和自然语言描述，我们的算法相应地生成姿态和属性转移的人的图像。如左图所示，我们的算法基于“他正向镜头前进”来传递人物姿势同样的，对于正确的例子。摘要本文提出了一种新的方法来操纵的视觉外观（姿态和属性）的人的形象，根据自然语言的描述。我们的方法可以归结为两个阶段：1）文本引导的姿态生成;2）视觉外观传递的图像合成。在第一阶段，我们的方法推断出一个合理的目标人体姿势的基础上的文本。在第二阶段，我们的方法合成一个现实和外观转移的人的形象，根据文本结合目标姿势。该方法从文本中提取了足够的信息，建立了图像空间和语言空间的映射，使得生成和编辑与描述相对应的图像成为可能。我们进行了大量的实验，以揭示我们的方法的有效性它首次表明，我们可以从自然语言描述中自动编辑人物图像。1. 介绍由于诸如移动电话、可穿戴相机和监视系统的视觉捕获设备的普及，当今在任何时间产生人物图像的* 通讯作者对操纵人物图像的用户友好算法的需求正在迅速增长。在实践中，人们通常以一种非常灵活的形式来表达关于一个人的外表和地位的概念自然语言。我们的理解是，通过文本描述来指导图像的生成和编辑是一种友好和方便的人的图像合成方式。在本文中，我们提出了一个新的任务，编辑的人的图像，根据自然语言的描述。这一任务的两个例子如图所示。1.一、给定一个人的图像，其目标是在文本描述的指导下，在保持人的身份不变性的情况下，具体地，姿势、属性（例如，布料颜色），并且同时编辑身份的其他属性以满足描述。生成对抗网络（GANs）为条件真实图像生成提供了一种解决方案。文本到图像方法[28，22，32，30，29]将图像与给定的文本合成，而没有参考图像，其中从文本中提取的语义特征被转换为视觉表示以构成生成的图像。然而，这些方法中的大多数仅在花卉或鸟类图像生成中成功。关于人物编辑，姿势引导生成方法[18，17，5，1]通过将目标姿势作为输入来传递人物姿势以指示生成过程，而在自然语言描述的引导下的人物图像的编辑很少3664一个穿灰色衬衫，黑色裤子和白色鞋子的男人。他正向左走。文本一阶段输入图像第二姿势和属性传递姿态推断图2：我们的方法的简单说明。在第一阶段，我们从自然语言描述中推断出合理的人体姿势.在第二阶段，我们的方法采取的预测姿态，参考图像，和文本作为输入合成的姿态和属性转移的人的图像，通过保持人的身份。在现有的文献中进行了研究。出于这些考虑，我们提出了一种新的文本引导的人的图像合成框架，这是能够语义编辑的姿势和属性的人与文本描述一致，同时保留- ING的人的身份。如图2、我们的方法由两个阶段依次组成。这两个阶段都是建立在文本描述的对抗性学习基础上的。具体来说，第一阶段是一种新提出的位姿推理网络，它从文本描述中推理出一个从训练数据集中提取一组基本姿势。姿态推理网络首先选择一个基本的姿态相对于准确的方向，然后细化每个关节的细节，以符合文本描述。通过位姿推理网络，保证目标位姿能够建模出人体独特的身体位姿结构的形状和布局。阶段II将预测的姿态、参考图像和文本描述作为输入，以通过操纵参考图像的姿态和外观两者来产生逼真的行人图像提出了一种包含注意机制的多模态学习损失，以建立文本中不同单词和图像中子区域之间的联系。此外，在此阶段开发了一种新的注意力上采样模块，以更好地结合姿势特征和语义嵌入。与以前的图像编辑方法相比，我们的模型能够同时操作多个人的属性，使一个更具交互性和灵活的方法来合成的人的图像。本文的贡献如下。1）我们提出了一个基于自然语言描述的人物图像操作的新任务，以实现用户友好的图像编辑的目标。 2)首次提出了一种基于GAN的姿态推理网络，根据文本描述，尽我们所知，生成人体姿态。3）提出了一种新的文本引导的人物图像合成的两阶段框架，引入了注意力上采样和多模态损失模型，建立了图像、姿态和自然语言描述之间的语义关系4)我们提出了VQA感知评分来评估与特定身体部位相对应的属性变化的正确性2. 相关作品深度生成模型。近年来，包括生成对抗网络（GAN）[6]，变分自动编码器（VAE）[12]和自回归（AR）模型[25]在内的深度生成模型在文献中引起了广泛生成模型的进步也推动了对生成和翻译图像的进一步研究，包括图像到图像的翻译[8，34，2]，超分辨率[13，20，10]和风格转移[31，35，9]。这些技术对计算机视觉的研究具有重要意义，有着广泛的应用前景。人物图像生成。最近的工作已经取得了令人印象深刻的结果，在生成的人的形象，在预期摆姿势例如，Maet al. [18]提出了姿势引导的人物图像生成（PG2），其最初生成粗略的图像，然后以对抗的方式细化模糊的结果。Balakrishnan等人[1]提出了一个模块化的生成网络，它将场景分成不同的层，并将身体部位移动到所需的姿势。Ma等人[17]使用图像因素（前地、背景和姿势）的解纠缠表示来合成新颖的人物图像。Esser等人[5]提出了一种基于VAE的条件U网形状引导图像生成器，用于人物图像的生成和传输。人们希望根据自然语言描述来编辑和操纵人物图像。文本条件生成。Reed等人[22]首先提出了一种基于条件GANs框架的端到端架构，该架构可以从自然语言描述中生成逼真的64×64鸟类和花卉他们的后续工作[23]能够通过合并对象部分的附加注释来生成128×128的图像的StackGAN [30，29]提出通过利用由多个生成器和鉴别器组成的堆叠结构生成不同大小的图像来生成自然图像。Tao等人[28]将注意力机制应用于这个问题的解决方案中，该解决方案能够从文本中合成具有细粒度细节的另一条文学路线则集中于用自然语言描写来编辑图像。例如，Dong等人[4]操纵3665我OOO1×256− dimLSTMs阿勒基本假姿势��ori阿托姿势编码器阿姆瑟发生器1×256− dim鉴别器BIG1基本姿势图3：阶段-I：文本引导姿势生成器。我们将训练数据集中关于姿态的先验归纳为一系列基本姿态。我们首先通过方向选择网络Fo从文本中预测姿势的方向。然后，我们训练一个生成器G1，它学习操纵姿势中的每个关节以获得细粒度的细节。图像语义与文本描述。Nam等人[19]通过从文本自适应学习中学习分离的视觉属性来增强细粒度的细节然而，它们大多只在花鸟形象的生成上取得了成功。在本文中，我们提出了一个文本引导的人的形象，基本姿势。直接从文本合成姿势是困难的，因为方向和其他细节（例如，运动、姿势）。遵循[21]，我们将所有训练图像的姿态分组为K个聚类，并计算第i个聚类的平均姿态pbasic一个可以生成和编辑人物的综合框架ter，形成基本姿态集合{pbasic}K（见图3）i i=1根据自然语言文本进行姿态和属性的调整，保留该人的身份。3. 方法3.1. 问题定义我们的目标是同时转移的姿势和外观的一个人在参考图像对应，ING给定的文本描述。训练数据。对于训练数据集中的每个人，存在包含具有不同姿势的相同身份的源（参考）图像x和目标图像x’的元组（x，x’，p，t）p和t分别是X’我们的管道。为了解决这一具有挑战性的问题，我们将其分解为两个阶段：• 阶段I：我们根据给定的文本t推断合理的姿势。(See秒3.2）• 阶段II：我们生成一个人的图像，其中该人的姿势和属性细节根据目标姿势p和文本t而改变。(See秒3.3）姿势，其中我们使用K = 8，如[21]）。我们假设基本姿势朝向所有K个不同的方向。姿势推断。给定对应于目标图像x′的文本描述t，我们将LSTM的最终隐藏层的输出作为句子表示向量t。我们预测姿势的方向，o=arg maxoFori（f），o∈{1，.，K}。FORI是实现为全连接层的方向选择网络从K个基本姿态中选择与方位o匹配的基本姿态pbasic我们观察到，语篇中的动词在具体化肢体的具体动作时可以是模糊的。例如，单词walking并不指定要跨哪条腿。通过回归方法预测的姿势可以是双腿跨步因此，我们只训练一代人-学习调整姿势细节的算子G 1，公式为G1（pbasic c，pbast）→pbast。CNOID1输出姿势是以文本为条件的真实的概率。D1迫使G1关注文本所描述的与真实姿势一致的姿势细节。ADD1的对抗性损失定义为3.2. 文本引导姿势生成器在第一阶段，我们提出了一种新的方法（见图1）。3）、命名为文本引导的姿态生成器，以推断合理的LD1 =−Ep<$Pr（p）[logD1（p）]-EpPr（p）[log（1 −D1（p））]（一）符合描述的行人姿势。生成器G1的对抗损失是我们在训练数据集中获得关于姿势的先验，基本姿势并在这些姿势中操纵关节。根-LG1=−Etp数据[logD1（G1（p碱性，βt））]（2）通常首先基于描述来估计目标姿态的方向，然后结合详细的微调来生成目标姿态。然而，我们发现，仅使用对抗性损失使得生成的姿势缺乏行人姿势结构，因为姿势热图的值仅在一个女人走到右边。她穿着黑色短裤和白色衬衫，背着一个背包。3666一个女人走到右边。她穿着黑色短裤和白色衬衫，背着一个背包。文本编码器+文本特征矩阵Conv3x3-残余上采样注意力上采样模块（AU）v3u3+*3个小行星5667u3&图4：第二阶段：姿势和属性转移的人图像生成器。它是一种多模态学习方案，它建立了图像，文本和姿势模态之间的联系。此外，我们提出了一个基本的注意力上采样（AU）模块，以更好地将不同的方式和空间尺度的信息到图像生成。AU模块中的合取符号表示连接操作。半径，其余的几乎为0。因此，我们将均方误差项Lmse=p−p2添加到生成器G1的自适应损失中，以帮助保持独特的结构。文本引导姿势生成器的目标函数最终被公式化为• 姿态编码器[17]提取姿态特征表示（s1，s2，.，sm），类似于图像编码r，si∈Rli×hi×wi.文本到视觉的注意力。我们把文本特征矩阵L阶段-I=LG1+λ1Lmse+λ2Lcls（3）e和图像特征图Vi作为输入来计算dy。从文字到视觉的动态注意力，这里，λ1和λ2是用于平衡等式2的三项的超参数。（三）、Lcls是估计取向o与真实取向oreal之间的交叉熵。3.3. 姿态和属性被转移的人图像当生成图像时，每个字负责每个局部视觉区域。第i个尺度的文本-视觉注意力计算为：Fattn（ei，v<$i）=eiSoftmax（ev<$i）（4）我我发生器我们已经基于到目前为止的测试结果预测了目标姿态参数在阶段II中，我们的目标是将姿势转换为目标姿势并编辑外观（例如，布颜色）根据描述T中的某些关键词来确定。1为了解决这个挑战问题，我们提出了一个多任务的姿态和属性转移图像生成器，如图所示。4.第一章我们的多任务的人的图像合成框架是建立在编码器-解码器结构。• 图像编码器提取图像特征图（ v1 ， v2 ，... ，vm）。 vi∈ Rli×hi×wi，其中li，hi，wi是特征图在第i个尺度上的尺寸、高度和宽度，i∈[1，.m]，m是编码器中的下采样的总数。• 文本编码器是双向LSTM，其提取文本t的文本特征矩阵e∈RL×N。L是隐态维数，N是词的个数 e由隐藏状态（h1，h2，...， hN）对应于t中的每个字。[1]在本研究中，我们主要关注的属性是衣服的颜色，而原则上，我们的方法可以很容易地扩展到其他属性。其中，视觉特征vi∈Rli×hi×wi被整形为v<$i∈Rli×hiwi，文本特征矩阵e通过嵌入层被转换到公共语义空间ei=Wie，Wi∈ Rli×L。注意上采样。我们提出了一个基本模块，命名为注意上采样（AU）。动机是我们的姿势和属性传递问题包含多种形式的数据（图像、姿势和文本）。我们应用这个模块，以更好地结合文本到视觉的注意力特征和姿势特征在不同的尺度。姿态特征引导布局和结构，而文本-视觉注意特征将来自词语的属性信息整合到视觉表征中。在我们的实验中，我们观察到，该模块是能够转移的姿势和属性外观的人在源图像中，同时保持不变的身份的源图像和生成的图像。我们的注意力上采样在相同尺度下对图像特征图和姿势特征图进行操作（见图1）。4注意上采样）。为了更好地保留源图像中的信息，用于图像合成和上采样的生成器是权重共享的，其中不同尺度的融合特征对应于较低的分辨率鉴别器两块v&v（vu&+U（*&*（*）8-姿势编码器+微电子显微AU图像编码器AU掩模ℒ&u）AU3667我1222i=11D更高的分辨率。上采样中的总共m个注意操作对应于下采样中的注意操作通过使用Eq. （4）中，我们计算第i个尺度上的文本-视觉注意力为zi=Fattn（e，v<$i）。然后，zi，si和先前的上采样结果ui-1被合并并上采样，多任务人物图像生成器。我们的多任务人物图像生成器的总目标函数被定义为L阶段-II=LG2+γ1L1+γ2LMS（9）其中γ1和γ2是超参数。L1是生成的图像xx ′和真实图像x′之间的L1距离，写为u=Fup（z，s，u）（5）L=<$（x<$−x′）<$M<$（十）我我我我i−1其中M是目标姿态的掩码[18]。我们使用三对于最小尺度（即，i=1），z1和姿态特征s1被级联并上采样为u1=Fup（z1，s1）。以这种递归方式，所有不同尺度的信息被并入最终的注意力上采样结果um中。um通过ConvNet传递到条件概率以提高所生成的图像的质量。发电机G2的对抗损失定义为：LG2=−ExPr（x）[logD2（x，e）]−ExPr（x）[logD2（x，p）]+v} v}输出所生成的图像x。在实践中，我们正文条件丢失−E[logD（x，e，p）]姿态条件损失（十一）上xPr（x）2F作为具有最近邻上采样的ConvNets。多模式损失。多模态损失函数有助于建立文本中每个单词之间的映射，联系我们文本和姿势条件丢失而BHD2的对抗性损失是不同尺度下的图像区域。多式联运损失L2=−Ex′pdata[logD（x′，e）]−ExPr（x）[log（1−D2（x，e）]+在它们之间强加对准以便随后转移-联系我们正文条件丢失环外观由文本控制。−Ex′pdata[logD（x′，p）]−ExPr（x）[log（1−D2（x，p）]+类似于Eq。（4）视觉-文本注意是计算的。联系我们姿态条件损失最后由⊤−Ex′pdata[logD（x′，e，p）]−ExPr（x）[log（1−D2（x，e，p）]ci=viSoftmax（vi（e）（6）联系我们文本和姿势条件丢失首先将视觉特征vi整形为v<$i∈Rli×hiwi，然后将其转换到一个公共语义空间 v<$i=Uiv<$i ，Ui∈RL×li.ci∈RL×N，其中ci的第j列3.4. VQA感知评分（十二）表示第i个单词处第j个规模受[28]的启发，我们计算视觉到文本表示和文本特征矩阵之间的相似性。多尺度视觉到文本距离是现有文献中GAN的评价指标不是专门为属性转移任务设计的文本：这个人穿着一件[紫色->黑色]衬衫。他穿着短裤和凉鞋。他正向左前方走去。ΣmD（Q，T）=i=1. ΣN日志j=1Σexp（r（cij，ej））（7）其中 Q 指的是图像（查询）， T 指的是描述。 r（·，·）是两个向量之间的余弦相似度，m是尺度数。对于一批训练对{（xi，ti）}，，我们叫-计算多尺度视觉-文本距离矩阵Λ;元素Λ （i ，j ）=D（xi，tj）。根据[28]，文本ti与图像xi匹配的后验计算为P（ti|xi）=Softmax（Λ）（i，i）。类似地，图像 xi 与文本 ti 匹配的位置是 P （ xi|ti） =Softmax（Λi）（i，i）。问题Q1：男士衬衫是什么颜色？Q2：男士短裤的颜色是什么A1：黑色。（√）A2：绿色。（×）多模态相似度LMS衡量的是一批中句子和图像配对的ΣIΣILMS= −log P（ti|xi）− log P（xi|（8）i=1i =1文本姿势和属性传递VQA13668图5：VQA感知评分图示。VQA模型返回答案的准确性表征了生成模型属性传递的正确性.Inception Score（IS）[24]衡量合成和结构相似性（SSIM）[26]措施3669N图像的结构完整性为此，我们提出了一种新的度量，命名为VQA感知得分，用于评估属性转移的正确性，即，所生成的图像中的人的属性是否与文本描述一致。我们首先使用我们提出的方法生成图像，通过随机改变文本中衣服的颜色形容词（考虑10种颜色）。相应地，颜色词被记录为正确答案。然后自动生成关于身体部位（衬衫、裤子等）的和它的颜色。我们用问题和图像询问VQA模型[11]。最后，我们从VQA模型中收集响应并计算精度，即，VQA感知评分。假设T是从VQA模型接收所有正确答案的图像的数量，并且总共有N个图像，VQA感知分数被定义为T。4. 实验4.1. 数据集据我们所知，CUHK-PEDES数据集[14]是唯一一个带有字幕注释的行人图像数据集。该数据集包含13，003人的40，206张图像从五个人重新识别数据集收集， CUHK 03 [16] ，Market-1501 [33]，SSM [27]，VIPER [7]，[01 -15]数据集中的每个图像都通过众包进行了注释。为了训练文本引导的姿势生成器，我们添加了一些描述方向的短语，因为原始描述很少包含信息。取向短语是重要的指导，因为否则当缺乏取向信息时，所生成的图像中的取向可能是任意的并且这可能给模型训练和测试带来麻烦对于每个图像，根据第2节中提到的聚类结果附加一个短语。3.2.每个短语对应于K=8个基本方向之一。我们已经手动检查了短语，以确保高质量的数据集。在[18]之后，训练集和测试集的身份是唯一的。数据集中的所有图像都被调整为128×64。在训练集中，我们有149，049对，每我们在测试集中有63,878对。4.2. 与基线的由于没有与这项工作完全可比的现有工作，我们实现了四个不同的基线，并进行了适当的修改，使它们与我们的模型具有可比性，如下所示。22我们在框架中不使用任何额外的预训练模型，因此我们模型中的所有参数都是从头开始训练的，这与[28]不同。1. 修改的语义图像合成（SIS）[4]（mSIS）。SIS使用一个纯文本编码器，没有我们提出的故意上采样模块。SIS只编辑属性，但不涉及姿势我们附加一个姿态编码器，它的姿态转移。生成器基于编码的参考图像特征以及目标姿势和目标文本描述的条件2. 修改AttnGAN [28]（mAttnGAN）。我们将图像编码器和姿态编码器添加到原始AttnGAN [28，19]。具体地说，采用额外的inception v3网络来建立文本中的不同单词与图像中的子区域之间的链接。3. 改良PG2 [18]（mPG2）。姿势引导人物图像生成（PG2）仅生成姿势转移人物图像。在这个基线中，我们附加了一个文本编码器用于属性传输。我们的多任务问题被分解为两个单任务问题，其中的姿态转移图像首先合成，然后根据文本描述一步一步地编辑图像。4. 单次注意上采样（Single attentional upsampling，SAU）它在最小尺度上只进行m=1的注意上采样模块，作为我们完整的注意上采样模块的消融研究。定量分析相在 [17] 之后，我们使用 Inception Score（IS）[24]和Structural Similarity（SSIM）[26]来衡量生成的人物图像的质量我们评估的IS的任务的姿态转移（PT）和姿态和属性转移（PAT）。我们只评估PT上的SSIM，因为SSIM是基于图像的均值和方差值计算的如表1所示，我们对IS和SSIM的四个基线和我们的方法进行了评估。我们可以看到，mSIS，mAttnGAN和mPG2是现有方法的改进变体，而它们的IS和SSIM值低于我们的模型。这表明，对于本文提出的具有挑战性的问题，简单地对现有方法的其余步骤进行补充可能是不可行的SAU优于其他基线，但也比我们的完整框架差这表明，在这项工作中提出的姿态上采样模块，使一个强大的学习的姿态和属性转移。VQA感知评分。我们的模型和基线的VQA感知得分如表2所示。mSIS得到了相对较高的分数，但其生成的图像几乎失去了人体结构，这是视觉效果无法忍受的。mAttnGAN和mPG2的得分相对较低，证实了两项任务的单独训练是可行的。3670（a）穿[黄色衬衫]走路的人穿着深色短裤;（b）一个穿[白色衬衫]、一条黑色裤子和一双灰色鞋子的人。他背着一个黑色的信使包，向右边。鞋他走下楼梯，看着前面。来源目标目标图像图像（GT）图像（我们的）橙棕紫绿红色来源目标目标图像图像（GT）图像（我们的）黄色蓝色粉红色紫色绿色（c）该名男子身穿[蓝色条纹衬衫]，颜色各异他穿着黑色的衣服。这个人背上背着一个红色的书包他穿着短裤和黑鞋，白袜子。他正走向摄像机。同样穿着灰色长袖衬衫。他在向后走。来源目标目标图像图像（GT）图像（Ours）红绿棕黄黑源图像目标目标图像（GT）图像（我们的）黄绿黑橙紫图6：通过我们的模型进行文本引导的人物图像合成的四个示例前两列是参考和目标图像（即，地面实况（GT））。第三列是我们的模型生成的目标图像。我们还证明了如果我们致力于改变属性（例如，颜色）的描述。一个穿皱衬衫的男人一件皱衬衫一件白紫色衬衫一条黑灰色裤子和一双灰色鞋子。他有一双灰色的鞋. 他是站着的，面对镜头（b-1）她穿了一件短袖衬衫，上衣是[粉红->白色]的。她穿着[黑色->紫色]卡普里长度的裤子，走路（b-2）她穿了一件短袖衬衫，上衣是[粉红->白色]的。她穿着[黑色->紫色]卡普里长度的裤子，走路（c-1）女人穿着（c-2）的女人是一件[白色->粉红色]上衣，配上一件[白色->黄色][绿色->黑色]裙子，上衣配上一件[绿色->蓝色]一些棕褐色坡跟鞋。她穿着裙子和棕褐色的坡跟鞋。背对着摄像头她正走向向左前进。低头看头向前倾斜。右后方。对的图7：交互式编辑。通过任意改变输入的单词，我们的模型可以改变一个人不同的姿势为同一个参考图像。我们的模型还可以在同一图像中同时传递不同的属性，这表明图像生成过程是灵活和鲁棒的。型号SSIM（PT）IS（PT）IS（P AT）mSIS 0.239±.1063.707±.1853.790±.182mAttnGAN0.298±.1263.695±.1103.726±.1232模型VQA评分mPG 0.273±.1203.473±.0093.486±.125SAU 0.305±.1214.015±.0094.071±.149我们的0.364±.1234.209±.1654.218±.195表1：用于姿态转移的SSIM分数，以及用于姿态转移和姿态属性转移的IS（越高越好）。很难在姿态和敬意的转换之间取得平衡。我们的模型联合解决这两个任务与多尺度模块，以实现competitve结果。4.3. 定性结果图6示出了我们的阶段II框架基于文本描述和来自阶段I的预测姿势事实上，文本引导的图像合成可以被视为半监督问题，因为在训练数据集中只有图像-文本对，表2：VQA感知评分（越高越好）。输出对应于不同文本的地面实况图像来描述相同的身份。然而，通过编辑各种行人外观部分的描述词（例如，衬衫，裤子），我们的模型能够准确地改变这些部分的图像生成过程中。这表明我们的模型能够从文本中捕获足够的信息，同时对文本进行有效的控制。我们的两阶段的方法可以编辑的姿态和属性的身份在参考图像的自然语言描述，这是一个交互式的编辑过程中的用户。图7显示了预测MSIs0.275mAttnGAN0.139mPG20.110SAU0.205我们0.3343671(a) 这位女士穿着一件[y@d->pypl@]衬衫和黑色裤子，腰上挂着一个黑色腰包，脚上穿着黑白相间的网球鞋。(b) 她穿着一条白色的短裤，短裤的末端刚好在膝盖以下，黑色的露跟鞋，背着一个卡其色的背包。(a) 一名戴眼镜的男子身穿灰色运动衫和浅蓝色牛仔裤，正走向镜头（c）该名男子向后走，身穿浅色短袖衬衫及米色短裤。(b) 一个男人向左走去，胳膊和腿伸展着，穿着一件棕色的马球衫，领口和袖子都是白色的。（d）该名男子身穿红白条纹衬衫、棕色长裤及棕色腰带，手持一个黑色公文包，面朝右前方。（c）年轻的亚洲男性，穿着浅色[gy@@µ-> bl @]马球衫、灰色及踝短裤、深色袜子和鞋子。他还背着一个黑色背包，携带着一件不明物品。地面实况（GT）基本姿势坐标回归我们地面实况（GT）基本姿势坐标回归我们源图像目标图像（GT）mSIS mAttnGAN mPG2 SAU我们图9：我们的文本引导姿势生成器和坐标回归方法之间的定性比较。坐标回归方法可能会导致关节的一些变形，我们的文本引导姿势生成器生成更合理的姿势。图8：我们的方法和基线的定性比较。我们的方法产生更有效和生动的per-son图像。pose姿势and the generated生成images图像.我们的方法增强了文本的姿态和属性插值的能力。我们甚至可以在文本描述中改变多个关于颜色属性的单词，并且合成与文本相对应的合理和正确。图8显示了我们的方法和不同基线的定性比较在实验中，我们发现在身份不变性、姿态转移和属性转移之间存在一个权衡例如，mPG2首先改变姿势，然后转移人的属性。然而，姿势变化越好，mPG2越难转移属性。这主要是因为最优姿态的分布与最优属性的分布不同[3]也指出，学习分布的区别可能会损害生成图像时特征表示的学习。值得一提的是，虽然SAU采用单一注意模块，但其结果相对优于其他基线。然而，SAU仅在最小尺度上集成不同模态在实验中因此，我们在我们的完整框架中使用m=3的注意力上采样。直观地，多尺度上采样模块利用不同范围的感受野来学习不同空间尺度上的视觉-词语映射，以便更好地生成更真实的细节。（例如，女人的包是保存我们的方法图。8（a）.）使用GAN进行姿势推断。图9示出了所选择的基。sic姿势和推断出的姿势给出文本描述。推断出的姿势与基本姿势有很大不同，并且我们的第一阶段模型能够集中于文本中的特定关键词（例如，行走，携带），因为这些关键词暗示特定身体部位的姿势的大的变化（例如，手臂、腿）。我们的模型学习调整这些细节，使推断的姿势更接近真实的姿势，为后续的人物图像生成过程提供精确的目标姿势。我们也实施了一个坐标回归方法作为基线.如图9、坐标回归法可能会导致某些接缝变形。5. 结论在本文中，我们提出了一种新的两阶段的管道来操纵的视觉外观（姿态和属性）的人的图像的自然语言描述的基础上。流水线首先学习基于描述推断合理的目标人姿势，然后根据文本结合目标姿势合成外观转移的人图像。大量的实验表明，我们的方法可以交互式地控制自然语言描述的人物图像生成过程。致谢。本工作得到了国家自然科学基金（61672456）、浙江省实验室（2018 EC 0 ZX 01 -2）、中央高校基础研究经费（第二号）2017FZA 5007），百度公司人工智能研究基金会，浙江省科技攻关项目（第三期）。2015C01027），HIKVision和ZJU融合媒体计算实验室的资助。3672引用[1] Guha Balakrishnan，Amy Zhao，Adrian V Dalca，FredoDu- rand，and John Guttag.合成人类在看不见的姿势的图像。在CVPR，2018年。一、二[2] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络。在CVPR，2018年。2[3] Je f fDonahue ， PhilippK raühenbühl ，和 Tr ev 或Darrell。对抗性特征学习。在ICLR，2017。8[4] 董浩、司淼宇、吴超、郭一珂。通过对抗学习进行语义图像合成。InICCV，2017. 二、六[5] PatrickEsse r，EkaterinaSutte r，andBjoürnOmme r. 用于条件外观和形状生成的可变u-网在CVPR，2018年。一、二[6] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS，2014。2[7] 道格拉斯·格雷，谢恩·布伦南，海涛。评估识别、重新捕获和跟踪的外观模型在proc IEEE跟踪与监视性能评估国际研讨会，2007年。6[8] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在CVPR，2017年。2[9] Levent Karacan ， Zeynep Akata ， Aykut Erdem ， andErkut Erdem.学习从属性和语义布局生成户外场景的图像。arXiv预印本arXiv：1612.00215，2016。2[10] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv：1710.10196，2017。2[11] Vahid Kazemi和Ali Elqursh。显示、询问、参与和回答：一个强大的视觉问题回答基线arXiv预印本arXiv：1704.03162，2017. 6[12] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。2[13] ChristianLedig，LucasTheis，FerencHusz'r，JoseCaballero， AndrewCunningham ， AlejandroAcosta ， Andrew Aitken ， Alykhan Tejani ， JohannesTotz，Zehan Wang，and Wenzhe Shi.使用生成对抗网络的照片逼真的单图像超分辨率。在CVPR，2017年。2[14] Shuang Li，Tong Xiao，Hongsheng Li，Bolei Zhou，Dayu Yue，and Xiaogang Wang.使用自然语言描述进行人员搜索。在CVPR，2017年。6[15] Wei Li，Rui Zhao，and Xiaogang Wang.用转移度量学习进行人类InACCV，2012. 6[16] Wei Li ， Rui Zhao ，Tong Xiao ，and Xiaogang Wang.Deep- reid：深度过滤配对神经网络，用于人物重新识别。CVPR，2014。6[17] Liqian Ma，Qianru Sun，Stamatios Georgoulis，Luc VanGool，Bernt Schiele，and Mario Fritz.解纠缠的个人图像生成。在CVPR，2018年。一、二、四、六[18] 马丽倩，徐佳，孙倩茹，Bernt Schiele，Tinne Tuyte-laars，Luc Van Gool.姿势引导的人物图像生成。在NIPS，2017年。一、二、五、六[19] Seonghyeon Nam，Yunji Kim和Seon Joo Kim。文本自适应生成对抗网络：用自然语言处理图像。在NIPS，2018年。三、六[20] Augustus Odena，Christopher Olah，and Jonathon Shlens.辅助分类器gans的条件图像合成。arXiv预印本arXiv：1610.09585，2016年。2[21] Xuelin Qian，Yanwei Fu，Wenxuan Wang，Tao Xiang，Yang Wu，Yu-Gang Jiang，and Xiangyang Xue.用于人再识别的姿势归一化图像生成arXiv预印本arXiv：1712.02225，2017。3[22] Scott Reed ， Zeynep Akata ， Xinchen Yan ， LajanugenLo- geswaran，Bernt Schiele，and Honglak Lee.生成对抗性文本到图像合成。InICML，2016. 一、二[23] Scott E Reed，Zeynep Akata，Santosh Mohan，SamuelTenka，Bernt Schiele，and Honglak Lee.学习在哪里画什么。在NIPS，2016年。2[24] Tim Salimans 、 Ian Goodfellow 、 Wojciech Zaremba 、Vicki Cheung、Alec Radford和Xi Chen。改进的gans训练技术。在NIPS，2016年。五、六[25] Aaron vandenOord ， NalKalchbrenner ， LasseEspeholt，Oriol Vinyals，Alex Graves，et al.条件图像生成与pixelcnn解码器。在NIPS，2016年。2[26] Zhou Wang，Alan C Bovik，Hamid R Sheikh，and EeroP Simoncelli.图像质量评估：从错误可见性到结构相似性。 IEEE Trans. Image Processing ， 13 （ 4 ）： 600-612，2004。五、六[27] 肖彤，李爽，王博超，林良，王晓刚.用于人员搜索的端到端深度学习。arXiv预印本arXiv：1604.01850，2016年。6[28] Tao Xu ， Pengchuan Zhang ， Quyuan Huang ， HanZhang ， Zhean ， Xiaeli Huang ， and Xiaodong He.Attngan：使用注意力生成对抗网络生成细粒度文本到图像。在CVPR，2018年。一、二、五、六[29] 张涵，徐涛，李洪生，张少庭，王晓刚，黄晓蕾，和Dimitris Metaxas. stack-gan ++：使用堆叠生成式对抗网络进行真实图像合成arXiv预印本arXiv：1710.10916，2017。一、二[30] 张涵，徐涛，李洪生，张少庭，王晓刚，黄晓磊，季米特里斯.Stackgan：使用堆叠的生成对抗网络进行文本到照片般逼真的图像合成。InICCV，2017. 一、二[31] Richard Zhang、Phillip Isola和Alexei A Efros。彩色图像着色。在ECCV，2016年。2[32] Zhang Zizhao，Yuanpu Xie，and Lin Yang.使用层次嵌套对抗网络的照片文本到图像合成。在CVPR，2018年。1[33] 郑良，沈丽月，田璐，王胜金，卜嘉豪，田奇.人物再识别遇上图像搜索。arXiv预印本arXiv：1502.02171，2015。6[34] Jun-Yan Zhu ， Taesung Park ， Phillip Isola ， Alexei A3673Efros.使用循环一致对抗网络的不成对图像到图像翻译。在CVPR，2017年。23674[35] Jun-Yan Zhu、Richard Zhang、Deepak Pathak、TrevorDarrell、Alexei A Efros、Oliver Wang和Eli Shechtman。向多模态图像到图像翻译。在NI

下载后可阅读完整内容，剩余1页未读，立即下载