基于双任务相关性的姿态引导人物图像生成方法

168 浏览量更新于2023-10-25 收藏 1.76MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7713基于双任务相关性的姿态引导人物图像生成方法研究张鹏泽1、杨凌霄1、赖建煌1、2、3和谢小华1、2、3*1中山大学计算机科学与工程学院2广东省信息安全技术重点实验室3机器智能与先进计算教育部重点实验室zhangpz3@mail2.sysu.edu.cn，{yanglx9，stsljh，xiexiaoh6} @ mail.sysu.edu.cn摘要位姿引导的人物图像生成（PGPIG）是将人物图像从源位姿转换为给定目标位姿的任务。现有的纹理映射方法大多只考虑源到目标的不适定问题，而不能实现合理的纹理映射。为了解决这个问题，我们提出了一种新的双任务姿态Transformer网络（DPTN），它引入了一个辅助任务（即，source-to- source任务），并利用双任务相关性来提高PGPIG的性能DPTN是一个连体结构，包含一个源到源的自重构分支和一个源到目标（b）（c）（d）（e）（f）（g）源目标香草CNN关注光流解析图我们一代通过在它们之间共享部分权重，图像图像基础的方法基础的方法基础的方法基础的方法方法knowledge learned by the source-to-source task can effec-tively assist the source-to-target learning.此外，我们提出了一个建议的姿态转换模块（PTM），以适应性地探索双任务的功能之间的映射。这种相关性可以建立源和目标之间所有像素的细粒度映射，促进源纹理传输，增强生成的目标图像的细节。大量的实验表明，我们的DPTN优于国家的最先进的PSNR和LPIPS。此外，我们的DPTN仅包含979万个参数，明显小于其他方法。我们的代码可从以下网址获得：https：github.com/PangzeCheung/Dual-task-Pose-Transformer-Network.1. 介绍姿态引导的人物图像生成（PGPIG）的目标是生成具有任意给定姿态的人物图像。它具有各种应用，如电子商务，电影特效，人的重新识别[5-*通讯作者图1.我们的方法与其他方法的视觉比较，包括基于vanillaCNN [22]，基于注意力[45]，基于光流[24]和基于解析图[21]的方法。与其他方法相比，我们的模型可以生成更真实的图像。PGPIG的位姿转换仍然是一个具有挑战性的任务。由于生成模型的改进，例如，生成对抗网络（GAN）[8]和可变自编码器（VAE）[17]，PGPIG取得了很大进展。然而，早期的工作[4，22]是建立在普通卷积神经网络（CNN）上的，它缺乏执行复杂几何变换的能力[13]（见图1（c））。为了解决这个问题，应用注意力机制[30，45]和光流[18，24，29]来提高空间变换能力。一些方法[21，39]引入了额外的标签，如人类解析图，为姿势变化提供语义指导。然而，上述方法仅集中于在源到目标任务上训练生成器G，该源到目标任务将源图像xs从源姿态ps变换为目标姿态pt：G（xs，ps，pt）=xtt。这是一个不适定的问题，使得训练一个健壮的生成器变得困难。而且，现有的方法不能很好地捕捉到源和目标之间合理的纹理映射7714图像，特别是当人经历大的姿势变化时。因此，这些方法经常产生不真实的图像，如图所示。1（d）-（f）项。在本文中，我们试图利用辅助任务[26]来改进不适定的源到目标变换。在这里，我们将辅助任务实例化为源到源任务，其重建由源姿态引导的源图像：G（xs，ps，ps）=xs。我们观察到模拟学习双重任务（即，源到目标任务和源到源任务）具有以下两个优点：（1）与源到目标任务相比，像素对准的源到源任务更容易学习，因为它不需要复杂的空间变换。通过在两个任务之间共享权重，源到源任务不仅可以利用其知识来辅助源到目标任务，而且还可以稳定整个网络的训练。（2）由于双任务中的中间特征与其生成的图像x_s和x_t_re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re-re以这种方式，自然源纹理可以被容易地散布以增强所生成的目标图像的细节。基于这些思想，我们提出了一种新的PGPIG双任务位姿Transformer网络（DPTN）DPTN的体系结构如图所示。二、具体来说，我们的DPTN是一个连体结构，包括两个分支：用于辅助源到源任务的自重构分支和用于源到目标任务的变换分支。这两个分支共享部分权重，并同时使用不同的损失函数进行训练。通过这种方式，由源到源任务学习的知识可以直接辅助源到目标任务的优化。为了探索双重任务之间的相关性，我们用一种新的姿势转换模块（PTM）将这两个分支连接起来。我们的PTM包括几个上下文增强块（CAB）和纹理传输块（TTB）。CAB首先有选择地收集源到源任务的信息。然后TTB逐渐捕获来自双重任务的特征之间的细粒度相关性。在这种相关性的帮助下，TTB可以有效地促进从真实源图像到源到目标任务的纹理传输，使合成图像能够保留更多的(see图1（g））。总之，主要贡献如下：• 我们提出了一种新的双任务姿态Transformer网络（DPTN），它引入了一个辅助任务（即，源到源任务），并利用其知识来改进PGPIG。• 我们设计了一个姿势Transformer模块（PTM）来研究双任务的相关性。这种关联不仅可以建立源和目标，而且还有效地引导源纹理传输，以进一步细化源到目标任务中的特征。• 两个基准的结果，即，DeepFashion [20]和Market-1501 [43]已经证明，我们的方法在PSNR和LPIPS[42]方面表现出优异的性能。此外，我们的模型仅包含979万个参数，比最先进的方法SPIG [21]相对小91.6%。2. 相关作品姿势引导人物图像生成。Ma等人。 [22]以粗到细的方式生成假图像。Esser等人。 [4]结合VAE和U网[25]来解开人的姿势和外观然而，这些方法都是基于vanilla CNN，不能处理复杂的变形。为了解决这个问题，Zhu等人。 [45]提出了一种姿势注意力转移网络（PATN），通过姿势关系优化外观。此外，Tang等人。 [30]在PATN中添加了更多姿势和外观之间的交叉方式。然而，这些基于注意力的方法没有明确地学习不同姿势之间的空间变换，从而丢失了许多源纹理。为了提高纹理变换，Li等人。 [18]，Ren等人。 [24]和Tabejamaat等人。 [29]提出将扭曲操作引入PGPIG。他们首先估计稠密光流，然后通过扭曲源图像特征来生成图像。然而，在大的姿态变化和遮挡下，这些方法往往产生不准确的光流，导致不满意的图像。此外，Zhanget al. [39]和Lvet al. [21]都使用了额外的人类解析标签来改进PG- PIG。首先预测目标解析图，然后在语义信息的帮助下输出人物图像然而，这些方法估计的目标解析图往往不可靠，这将误导合成图像的生成。此外，像素级注释很难收集，这限制了它们的应用。综上所述，所有上述方法都只关注于源到目标的任务，并且不能准确地捕获源图像和目标图像之间的与之相反，我们发现，通过Siamese结构引入辅助源到源任务，并模拟探索双任务相关性，可以进一步提高PGPIG的性能。双任务学习。双任务学习是一种流行的自然语言处理（NLP）学习框架[9，36，37]，它利用不同的任务来提高学习进度。例如，[9]利用英语到法语翻译和法语到英语翻译的闭环来相互增强，使训练翻译模型成为可能，而无需配对7715自我改造B牧场XspspsxsXsL1辅助任务执行L型改造B牧场Fs→sFs→t姿态Transformer模块FsF→tSx~tXtL1lperclctyIeladv共享权重共享权重公司简介编码器Enc编码器EncResBlocks解码器De图2.我们的模型概述。它包含一个用于辅助源到源任务的自重构分支和一个用于源到目标任务的转换分支。这两个分支共享部分权重，并通过姿态Transformer模块进行通信。数据与这些方法不同的是，我们的双重任务是指源到源任务和源到目标任务。实验结果表明，源到源学习对PGPIG中源到目标任务的训练有视觉任务中的变形金刚。受自然语言处理中transformers [33] 成功的启发，许多研究人员将transformer架构应用于计算机视觉任务，如图像识别[3，31]，对象检测[2，44]和图像生成[12，14]。特别是，对于图像生成任务，Jiang et al. [14]构建了一个具有纯Transformer架构的GAN，没有卷积。 Hudson等人[12]提出了一种GANformer来交换图像特征和潜变量之间的信息。然而，这些GAN被设计用于无条件生成任务，并且不太适合具有复杂空间变形的条件生成任务（即，PGPIG）。在这项工作中，受Transformer的核心思想的启发，我们设计了一个新颖的姿势Transformer模块来探索双任务相关性。3. 我们的方法图2显示了我们的DPTN的总体框架。它主要包含暹罗分支的双重任务，用于探索双任务相关性的姿态Transformer模块。在下面的部分中，我们将详细描述DPTN和损失函数的每个组件。3.1. 双任务连体结构虽然现有的PGPIG方法试图通过各种ap-toggle来学习源到目标的转换，表1.基本网络是否采用源到源学习的比较。以下两个结果都是在源到源任务上测试的。学习方案PSNR↑LPIPS↓源-目标学习19.18550.1962+ 源到源学习23.76060.1468然而，这些方法忽略了一些基本知识，没有源到源的学习，从而限制了它们的潜在改进。为了证明这一点，我们在一个基本网络上进行了一个实验（与图1中的自重构分支结构相同）。2，包括Enc，ResBlocks和De）来探讨源到源学习的影响，并在Tab中显示源到源任务上的测试结果。1.一、与源到目标学习相比，Tab. 1只增加了自重构训练，不改变网络的基本结构。可以看出，这两种学习方案之间存在显著差距单纯从源到目标任务的学习不能很好地重建源图像，并且缺乏对PGPIG的了解。在此基础上，本文在PGPIG中加入了源到源任务，并利用PGPIG中的知识来辅助训练过程中的源到目标转换。为了实现这一目标，我们构建了我们的DPTN与连体架构，包括两个分支：用于源到源重建的自重建分支，7716Fv→~t→ →→Nq kvIN实例规范化MLP多层感知MHSA多头自注意MHCA多头交叉注意+逐元素加法Fs→si-1第i个上下文扩充块（CAB）iMHSA+在Fs→sMLP+在Fs→s我Fs s→sFi-1s→tMHSA+在福伊VKs→t QMHCA+在F^is→tMLP+在Fis→t第i个纹理传输块（TTB）图3. Pose Transformer Module（PTM）的结构。它包含两种类型的块：上下文增强块（CAB）和纹理传输块（TTB）。CAB集成了特征Fs→s的信息，而TTB通过捕获来自双任务的特征之间的相关性来从Fs转移真实源图像纹理以优化Fs→t。以及用于源到目标生成的转换分支如图2、两个分支机构共用三个部分：编码器En_c、一系列ResBlocks和解码器De。更详细地，编码器首先提取两种类型的输入的特征，包括源到目标输入（x s、p s和pt的级联）和源到源输入（xs、ps和p t的级联）。Fs→t通过捕获来自双重任务的特征之间的像素级源到目标对应性。我们的 PTM 是建立在多头注意力（MHA）机制。为了自成一体，我们简要介绍MHA如下：注意力（Q，K，V）=softmax（Q，K，T/k）V，（1）input（xs，ps和ps的串联）。然后，应用Res- Blocks逐步执行姿态变换。ResBlocks的输出是要素Fs→s对齐与源姿态和变换特征F头i=注意（QWi，KWi，V Wi），（2）MHA（Q，K，V）= concat（head1，.，标题h）。（3）Q、K、V是查询、键和值。我我s→tq k与目标姿势对齐。最后，自重构分支中的De接受Fs→s生成伪源图像x，以及变换分支中的DeWi是可学习的参数。h是注意力头的数量dk是键的维数特别是当Q=K，MHA功能为多头自注意伊希斯(output of our pose trans-（MHSA）;否则，它将作为多头交叉注意接受细化特征Fs不前一模块）以产生目标生成图像X。总之，所提出的暹罗体系结构具有以下优点：（1）我们的编码器，ResBlocks和解码器由双任务共享，以便学习的知识可以在这些任务之间轻松传递。(2)引入自重构分支不会显著增加额外的参数，因为我们的大部分模型在不同的任务中被重用。(3)Siamese架构使双任务的中间输出在功能描述中接近（MHCA）。建议的PTM如图所示3 .第三章。与传统的视觉Transformer [3]不同，我们的PTM采用了一种新的架构来探索三重特征之间的关系（即，从源到源任务，源到目标任务和源图像纹理的功能），使其更适合PGPIG。一般来说，PTM包含两种类型的块：上下文增强块（CAB）和纹理传输块（TTB），可以用公式表示为：F Ns = CAB（... CAB（Fs→s）. ）的情况下，n→N N因此，在下一节中，促进PTM来探索双任务的相关性。Fs不 =TTB（. TTB（Fs→t，Fss，Fs）.，Fss，Fs）。上标表示特征的索引N是块的数量Fs→s=F0，Fs→t=F0，且Ns→ss→t3.2. 姿态Transformer模块在我们的Siamese结构中，我们已经得到了与源位姿ps对齐的特征Fs→s，并且Fs→tFs→t=Fs→t。Fs是由附加编码器Ens获得的源图像特征。在拟议的PTM中，CAB逐步集成要素信息Fs→s 从自我重建分支中产生分别与目标姿态PT然而，在这方面，由于基于普通CNN的变换分支（即，Ns→s . 然后，每个TTB组合三种特征：，集成源-由于Fs → t（source-to-target）难以处理复杂的空间变位姿Transformer模块（PTM）Fs→sCAB …N驾驶室Fs→sNFsF…s→tTTBTTB TTBNF*s→tF7717形，因此Fs→t往往会丢失许多源的外观细节，如图12所7 .第一次会议。为了解决这个问题，我们提出了一种新的姿态Transformer模块（PTM），它可以进一步细化源图像纹理特征Fs到源特征Fs→s，以及先前TTB输出Fs→t。这种组合是通过MHCA模块来实现的，以捕获所有输入之间的相关性。接下来我们就分别介绍了CAB和TTB的结构7718s→sSDs→sD联系我们ΣDJJs→×→perc风格3.2.1上下文扩充块第i个CAB的结构如图右上所示。3.第三章。它首先应用具有剩余连接的MHSA单元，在源到目标任务中的额外对抗性损失Ladv，以产生更逼真的纹理。总之，Ls→s和Ls→t可以写为：用于自适应地增强输入特征Fi-1的上下文表示的步骤：Ls→s=λl1Ll1不+λpercLs不+λstyleLs不、（10）福伊=IN（Fi−1+MHSA（Fi−1，Fi−1，Fi−1）），Ls→t=λl1Ll1+λpercLperc+λstyleLstyle+λadvLadv，s→ss→ss→ss→ss→s（四）（十一）其中IN是实例归一化[32]。然后，使用具有多个完全连接的层的多层感知器（MLP）模块来增加CAB中的容量：其中λl1、λperc、λstyle和λadv是双重任务的损失权重。具体地，l1损失惩罚生成的图像和地面实况之间的l1距离伊鲁吉岛L=xd−xd，（12）Fs→s=IN（Fs→s+ MLP（Fs→s））。（五）在N个CAB之后，我们获得最终的细化特征FN并将此功能添加到每个TTB中，用于源到目标任务。l11其中d s，t表示源数据或目标数据。感知损失[15]计算特征距离：3.2.2纹理转移块第i个TTB的结构如右下角所示Lperc =i（xd）−i（xd）1，（13）我图3 .第三章。首先，应用MHSA以选择性地关注变换分支特征Fi-1的关键信息：s→t其中，VGGi表示来自VGG网络的第i个特征[28]。风格损失[15]比较图像之间的风格相似性：福伊=IN（F i−1+ MHSA（F i−1，F i−1，F i−1））。s→ts→ts→ts→ts→t（六）L型=g（xd）−Gram（xd）第1页，（14）然后使用MHCA单元来建立j的相关性Fangi，FN和Fs。具体来说，我们将F i作为s→ts→sNs→t其中，Gram矩阵是特征矩阵的Gram矩阵。最后，查询和Fs→s作为键来计算像素级simi-jj来源和目标之间的差异在MHCA中，利用这种相似性，以Fs为取值，通过传递真实的源数据来细化Fs-是的本程序可以采用具有BDD的对抗性损失，惩罚生成的tar得到图像xt和地面实况xt：可以写成：拉吉s→t尼加拉瓜Ladv=E[log（1−D（xt））]+E[logD（xt）]。（十五）Fs→t = IN（Fs→t + MHCA（Fs→t，Fs→s，Fs））。（七）在这条路上，它承载了更多的真实源代码，这将促进转换分支生成更多的精细模式。最后，与CAB类似，第i个TTB输出4. 实验4.1. 实现细节is→t 如下获得我们在两个数据集上评估我们提出的模型：深度-Fis→t =IN（Fis→t +MLP（Fis→t））。（八）[20]第43话：我的世界DeepFashion数据集包含52，712张高质量的店内服装图像在N次TTB块之后，最终输出特征FN（256× 176）与干净的背景，而市场1501F7719将被输入解码器3.3.损失函数S不De生成目标图像。数据集包含32，668张低分辨率图像（128 64），具有各种照明和视点。为了公平起见，我们使用与[45]相同的设置分割数据集。我们的网络包含源到源任务和源到目标任务的两个分支。 Thus, the overall loss function can be simplyformulated as:L=Ls→s+Ls→t，（9）其中Ls→s和Ls→t分别代表双重任务的丢失。它们都含有l1损失Ll1、表观损失Lperc和风格损失Lstyle。此外，我们应用它为DeepFashion收集了101,966个训练对和8,570个测试对，为Market 1501收集了263,632个训练对和12,000个此外，从人体姿态估计（HPE）[1]中提取在我们的实验中，采用Adam优化器[16]以学习率1 e-4训练所提出的DPTN。我们在两个数据集的PTM中选择h=2和N=2。为方程中的损失函数（10）和Eq. （11），我们设λl1=2。五、λperc= 0。25，λstyle= 250，λadv= 2。7720表2.用几种最先进的方法对图像质量和模型尺寸进行定量比较。* 表示使用附加人工解析标签的方法。最佳和次佳结果分别以粗体和下划线示出。模型Market1501数量参数↓SSIM↑峰值信噪比↑FID↓LPIPS↓SSIM↑PSNR↑FID↓LPIPS↓[22]第0.773017.5324 49.56740.29280.270414.1749 86.02880.3619437.09万VU-net [4]（CVPR0.763917.6582 15.57470.24150.266514.4220 44.27430.3285139.36百万DSC [27]（CVPR0.768218.0990 21.26860.24400.305414.3081 27.01180.302982.08个月PATN [45]（CVPR0.771718.2543 20.75000.25360.281814.2622 22.68140.319441.36个月[18]第十八话0.773816.9004 14.88250.23880.305214.2011 32.87870.305949.58百万DIST [24]（CVPR0.767718.5737 10.84290.22580.280814.3368 19.74030.281514.04个月XingGAN [30]（ECCV0.770617.9226 39.31940.29280.304414.4458 22.51980.305842.77百万[39]第39话：你是谁0.768218.5208 11.51440.2080----64.01个月[21]第21话0.775818.5867 12.70270.21020.313914.4894 23.05730.2777117.13个月我们0.778219.1492 11.46640.19570.285414.5207 18.99460.27119.79百万4.2. 度量根据以前的工作[21，45]，我们采用结构相似性指数度量（SSIM）[38]，峰值信噪比（PSNR），Fre'chet起始距离（ FID ） [11] 和学习感知图像块相似性（LPIPS）[42]作为评价指标。此外，我们使用rank-k和平均精度（ MAP ）通过最先进的重新识别（ re-id ）平台FastReID [10]进一步测试源图像和生成的目标图像之间的纹理一致性。更准确地说，我们在训练集上训练了一个re-id模型。然后，我们使用生成的图像作为查询集和真实图像作为图库集来计算度量。高的rank-k和MAP表明生成的图像没有丢失太多的源外观，并且可以容易地被当前的re-id系统识别。4.3. 与以前工作的4.3.1定量比较我们将我们的方法与几种最先进的方法进行比较，包括PG 2 [22]，VU-net [4]，DSC [27]，PATN [45]，[18][24][25][26][27][28][29]][29][29][29][21 ]第20段。选项卡. 2给出了图像质量和模型尺寸的定量结果。可以看到，我们的方法在所有比较的方法中获得了七个最好的和一个第二好的结果，包括使用额外解析标签的PISE和SPIG这验证了我们的DPTN在生成高质量图像方面的优越性。此外，我们的DPTN只包含9.79 M的参数，比SPIG（117.13 M）低91.6%。它清楚地表明了我们的方法在建模姿势变换的效率。选项卡. 3提供了DeepFashion上纹理一致性的比较。首先，我们在DeepFashion训练集上训练re-id系统。如最后一行所示的Tab。3、本系统的rank-1评分达到99.08%。然后，应用相同的re-id系统来识别人表3.质地一致性的定量比较最佳结果以粗体显示。方法排名-1↑排名-5↑排名-10↑MAP↑PG260.12%75.44%81.95%59.20%VU-net73.49%87.49%91.97%72.01%DSC94.17%98.19% 百分之九十九点零八90.40%PATN74.35%87.95%92.37%73.17%DIAF百分之九十四点八七百分之九十八点零二百分之九十九点一三91.45%Dist百分之九十点八四96.64%98.11%87.56%兴乾59.63%72.48%81.19%58.36%PISE90.09%96.35% 百分之九十八点零二87.22%SPIG94.43%98.23%99.04%91.60%我们百分之九十七点六九99.35%99.63%95.04%真实数据百分之九十九点零八百分之九十九点八99.88%百分之九十八点四在不同方法生成的假图像中。从结果中我们可以发现，我们的方法优于其他在所有四个指标。特别是，我们将以前作品的最佳等级1性能提高了3%。这表明我们的DPTN生成的图像可以有效地保持源人的区别性纹理。4.3.2定性比较定性比较结果如图所示。4.第一章对于DeepFashion数据集，基于注意力的方法PATN和XingGAN往往会生成模糊的图像（见第1行和第2行）。DIAF和DIST试图7721利用光流促进织构转移。然而，在大的姿态变化的情况下，其预测的光流不能表示这样的复杂变形，导致不可接受的结果（参见第2行和第3行）。PISE和SPIG引入了额外的语义解析映射来缓解PGPIG的困难然而，这些方法估计的目标解析图往往不准确，这会误导7722ts→t图4.在DeepFashion（左）和Market1501（右）上与几种最先进的方法进行定性比较合成图像的生成。例如，在图1左侧的第4行中。4、PISE和SPIG在合成图像中不正确地生成夹克。与上述方法不同的是，我们的DPTN在辅助源到源任务的帮助下优化了源到目标任务，使生成的图像更有活力。在Market1501数据集上，我们的DPTN仍然可以生成比其他方法更精细，例如，在图的右边的第四行。4.只有我们的方法保留了源图像的服装图案。4.4. 消融研究我们在DeepFashion上进行了一系列实验，以验证模型中每个组件的贡献。从我们的完整模型中删除相应组件的各种选项如下所示。无双任务学习（Dual-TaskLearning，w/o DTL）。该模型类似于现有的只关注源到目标任务的方法。整个自重构分支，包括De和损失函数，被移除。不带姿态Transformer模块（不带PTM）的模型。此型号删除了PTM。这样，源到目标分支将缺乏双任务相关的指导，并且将直接从 F 产生目标生成图像（x）。没有上下文增强块（w/o CAB）的模型。此模型删除PTM中的CAB。这样，源到源任务（Fs→s）的要素将是c编程图5.消融研究的定性比较。简单地输入TTB来计算双任务相关性。没有编码器Ens（w/oEns）的模型。该模型去除了编码器Ens，并直接使用Fs→s作为MHCA中的值。完整模型（完整）。我们在这个模型中使用我们提出的双任务姿态Transformer网络。图5和Tab. 4显示了消融研究的定性和定量结果。如图5、我们可以看到：（1）与完整模型相比，不带DTL的模型不稳定，容易产生较重的伪影。这表明了源到源任务的重要性7723濦瀂瀈瀅濶濸激瀇瀂激瀇濴瀅濺濸瀇濿濸濴瀅瀁濼瀁濺濗瀈濴濿激瀇濴瀆濾濿濸濴瀅瀁濼瀁濺→→→表4. Deep-Fashion数据集上消融研究的定量比较。最佳结果以粗体显示。方法SSIM↑PSNR↑FID↓LPIPS↓不含DTL0.771318.813414.71680.2143不带PTM0.775518.850315.52810.2195不带CAB0.776019.048912.09320.1989不含Ens0.777819.108412.68580.1976充分0.778219.149211.46640.1957濅濆1.00.5濅濄0.0濄濌图7. MHCA中注意力权重的可视化和F s→t和F st的非线性热图。假图像查询位置表示查询位置。濄濄濄濃濆濃濈濃濊濃濌濃濄濄濃濄濆濃濄濈濃濄濊濃濄濌濃濘瀃瀂濶濻图6.在DeepFashion数据集上使用源到目标学习和双任务学习的FID得分学习曲线。在训练过程中。(2)无PTM模型由于缺乏源图像和目标图像之间的纹理映射，不能很好地利用真实源图像的纹理信息，导致图像模糊。(3)在无CAB模型中，源到源任务的信息没有得到很好的整合，从而误导源到目标任务生成不真实的模式。（4）不含Ens的模型生成的图像丢失了许多外观细节，验证了Ens在为PTM提供精细源纹理方面的作用。(5)与其他模型相比，我们的模型不仅可以生成满意的全局外观，而且可以生成逼真的局部纹理。此外，还进行了表2中的定量比较。4进一步证明了我们完整模型的有效性。4.5. 双任务学习对训练稳定性的影响为了探索双任务学习对训练稳定性的影响，继[23]之后，我们在图中可视化了源到目标学习和双任务学习下FID得分的学习曲线。六、我们可以看到，只有源到目标学习的DPTN的FID分数在50个时期左右达到稳定，而双任务学习的DPTN甚至在之后继续提高。这验证了源到源学习所带来的知识能够有效地辅助源到目标任务的学习。此外，与双任务学习相比，单纯源到目标学习的DPTN这表明，通过在双任务之间共享部分权重，较容易的源到源任务的训练可以将整个网络的训练稳定到一个cer，tain程度，以便更好地优化源到目标的任务。4.6. PTM可视化为了探索PTM如何在我们的框架中工作，我们还可视化了MHCA中的注意力权重以及图1中的Fs→t和Fs→t的热图7 .第一次会议。正如人们所看到的，在PTM中获得的注意力权重可以准确地计算-cus与查询位置相关的区域。这验证了我们的PTM可以有效地探索源和目标之间的像素级变换此外，与Fs→t的热图相比，PTM产生的Fst这表明我们的PTM可以转移自然的源纹理来细化Fs→t，并促进源到目标任务生成更真实的细节。5. 结论在本文中，我们提出了一种新的双任务PGPIG的姿态转换网络（DPTN）与大多数只关注源到目标任务的执行方法不同，我们的DPTN引入了一个辅助任务（即，源到源任务）的暹罗架构，并利用其知识，以协助源到目标的学习。此外，我们还设计了一个姿势Transformer模型（PTM）来研究双任务之间的相关性.这种相关性可以用作将源纹理转移到目标生成图像的强有力的指导。定量和定性的结果都表明，所提出的DPTN可以改善以往的PGPIG方法。致谢。本课题得到了广东省重点领域研究发展计划（ 2019B010155003 ）和国家自然科学基金（62072482）的资助。Fs→tF→tS濙濜濗濦濶瀂瀅濸ĭ濄濊7724引用[1] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第13022017年7月。5[2] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在欧洲计算机视觉会议（ECCV），第213-229页3[3] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词：用于大规模图像识别的变压器在国际学习代表会议（ICLR），2021年。三、四[4] PatrickEsse r，EkaterinaSutte r，andB joürnOmme r. 一个用于条件外观和形状生成的变量u-网。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第88572018年6月。一、二、六[5] Zhanxiang Feng，Jianhuang Lai，and Xiaohua Xie.学习特定于视角的深度网络，用于人员重新识别。IEEETransactions on Image Processing ， 27 （ 7 ）： 3472-3483，2018。1[6] Zhanxiang Feng，Jianhuang Lai，and Xiaohua Xie. 学习模态特定表示用于可见 - 红外人再识别。 IEEETransactions on Image Processing ， 29 ： 579-590 ，2020。1[7] Zhanxiang Feng，Jianhuang Lai，and Xiaohua Xie.解析感知知识蒸馏，实现高效推理。IEEE Transactions onImage Processing，30：6985- 6996，2021。1[8] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展（NeurIPS），第2672-2680页，2014年1[9] 翟和，夏颖策，秦涛，王立伟，于能海，刘铁岩，马伟英。机器翻译的双重学习神经信息处理系统进展（NeurIPS），第820-828页，2016年。2[10] Lingxiao He ， Xingyu Liao ， Wu Liu ， Xinchen Liu ，Peng Cheng，and Tao Mei.Fastreid：一个pytorch 工具箱，用于一般实例的重新识别。arXiv预印本arXiv：2006.02631，2020。6[11] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统进展，第6629-6640页，2017年6[12] Drew A Hudson和C.劳伦斯·齐尼克。再生对抗变形金刚。国际机器学习会议，2021年。3[13] Max Jaderberg，Karen Simonyan，Andrew Zisserman，and koray kavukcuoglu.空间Transformer网络。在Ad-vancesinNeuralInformationProcessingSystems（NeurIPS），pages 2017-2025，2015. 1[14] Yifan Jiang ， Shiyu Chang ， and Zhangyang Wang.Transgan：两个变压器可以使一个强大的根。arXiv预印本arXiv：2102.07074，2021。3[15] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在欧洲计算机视觉会议（ECCV），第694-711页5[16] 迪德里克山口金玛和吉米·巴。 Adam：随机最佳化的方法。国际学习代表大会（ICLR），2015年。5[17] 迪德里克山口金玛和麦克斯·威林自动编码变分贝叶斯。在国际学习代表会议（ICLR），2014年。1[18] Yining Li，Chen Huang，and Chen Change Loy.用于人体姿势转移的密集内在外观流在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第3688-3697页，2019年6月一、二、六[19] 梁文琪，王光聪，赖建煌，谢小华.同质到异质：无监督学习用于rgb-红外人物再识别。IEEE Transactions onImage Processing，30：6392-6407，2021。1[20] Ziwei Liu，Ping Luo，Shi Qiu，Xiaogang Wang，andXiaoou Tang. Deepfashion：支持强大的服装识别和检索与丰富的注释。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第1096-1104页，2016年6月。二、五[21] Zhengyao Lv，Xiaoming Li，Xin Li，Fu Li，TianweiLin，Dongliang He，and Wangmen

下载后可阅读完整内容，剩余1页未读，立即下载