没有合适的资源?快使用搜索试试~ 我知道了~
{wangzijianbupt, XingqunQi @bupt.edu.cn, yuankun03@kuaishou.com,77030自监督相关挖掘网络用于人物图像生成0Zijian Wang 1 , Xingqun Qi 1 , Kun Yuan 2 , Muyi Sun 3 †01 School of AI/Auto, Beijing University of Posts and Telecommunications 2 KuaishouTechnology 3 CRIPAC, Institute of Automation, Chinese Academy of Sciences0muyi.sun@cripac.ia.ac.cn0源源0目标姿势0参考文献0图1.我们的自监督人物图像生成框架合成的示例样本。我们的方法可以生成具有目标姿势的相同人物图像(左图集),或者生成具有特定属性的人物图像,参考不同的人物图像(右图集)。在电子版中放大查看效果更好。0摘要0人物图像生成旨在对源图像进行非刚性变形,通常需要非对齐的数据对进行训练。最近,自监督方法通过合并用于自重构的解耦表示在这个任务中表现出巨大的前景。然而,这些方法未能利用解耦特征之间的空间相关性。在本文中,我们提出了一种自监督相关挖掘网络(SCM-Net),以在特征空间中重新排列源图像,其中集成了两个协作模块,分解风格编码器(DSE)和相关挖掘模块(CMM)。具体而言,DSE首先在特征级别上创建非对齐对。然后,CMM建立特征重新排列的空间相关性场。最后,一个翻译模块将重新排列的特征转换为逼真的结果。同时,为了提高跨尺度姿势变换的保真度,我们提出了基于图形的保留身体结构损失(BSRLoss),以保持半身到全身生成中合理的身体结构。在DeepFashion数据集上进行的大量实验证明了我们方法的优越性。0† 通讯作者。0与其他有监督和无监督方法相比,我们的方法取得了令人满意的人脸生成结果,展示了我们方法在其他变形任务中的多样性。01. 引言0姿势引导的人物图像生成是一个非对齐的图像到图像转换问题,旨在根据目标姿势改变人物图像的姿势[18, 20, 21, 31,36,41]。人物图像生成在电影行业和多媒体创作等许多领域显示出巨大潜力。然而,非刚性变形的困难使得这个任务成为计算机视觉领域的一个活跃话题。由于源图像和目标图像之间存在较大的空间错位,现有方法通常需要非对齐的数据对来监督训练过程[18, 21, 31, 36, 41]。例如,[31,41]计算配对姿势之间的注意力图来指导异常姿势变形。[3,7,25]建立坐标偏移流来促进人物特征对齐的位置级源特征采样。通过这种注意力或流机制,生成方法可以在源图像和目标姿势都是非对齐的情况下进行空间变换。77040然而,收集配对数据需要大量工作量,并限制了这些有监督方法的应用场景。因此,一些无监督方法被提出来解决这个限制[22,30],这些方法利用循环一致性方法或创建伪标签来促进训练过程。然而,这些方法在生成质量上仍然存在局限性。最近,自监督方法展示了只使用源图像就能进行非刚性空间变换的强大前景[4, 19,20]。它们可以学习不同图像类型的解耦表示,并在随后进行自重构时合并这些表示。早期的研究[4,19]采用多分支网络来解耦不同特征并将它们连接起来重构源图像。马等人[20]利用AdaIN[11]将统计信息从风格特征转移到姿势特征以进行特征合并。然而,这些方法仍然面临三个挑战。首先,解耦特征在特征空间中是对齐的,无法为自监督方法中的空间变换提供足够的监督。其次,这些合并方法(如连接或统计转移)是全局操作,受限于利用空间相关信息。第三,由于自监督训练过程中缺乏对不可见区域的先验知识,模型对不可见区域的合理补全在半身到全身变换中受到限制。在本文中,我们提出了一种自监督相关挖掘网络(SCM-Net)用于人物图像生成。SCM-Net的整体架构可以总结为解耦、融合和翻译。在解耦阶段,受[21]中的分解策略启发,我们设计了一个解耦风格编码器(DSE)来提取语义感知的解耦风格特征,这些特征可以与其对应的姿势特征形成“非对齐对”。通过这种设计,源图像本身可以为空间特征变形提供监督。在融合阶段,我们提出了一个相关挖掘模块(CMM)来进一步利用解耦特征对之间的空间相关性。CMM模块计算特征对应位置之间的成对相关性,建立密集的空间相关性场。基于这个相关性场,我们的模型可以通过重新排列风格特征位置来对齐这些解耦特征。在翻译阶段,引入了一个带有跳跃连接的翻译生成器,将重新排列的风格特征转换为逼真的人物图像。整个模型以端到端的方式进行训练。针对下半身缺乏先验信息的问题,我们设计了一种基于图形的身体结构保留损失(BSRLoss),以捕捉不同身体部位之间的语义关系。因此,模型可以根据这些关系进行合理的补全。具体而言,我们采用图形0表示来建模人体部位之间的语义关系。在这个身体图中,每个节点表示每个语义区域的感知特征,每个边度量每个节点对之间的相似性。我们将每个输入人物图像与相应的生成结果之间的图进行匹配,以建立基于图的约束,将身体语义关系融入我们的模型。在推理过程中,我们的模型可以为人体姿势转移引入新的目标姿势,并通过部分替换风格特征进行基于参考的属性编辑。图1展示了我们模型的一些应用。主要贡献如下:•我们提出了一种自监督相关性挖掘网络(SCM-Net),实现了无需对齐数据对的人物图像变形。•我们设计了两个主要的协作模块,分解式编码器(DSE)和相关性挖掘模块(CMM),可以对人物图像进行特征解耦和融合。•我们提出了一种身体结构保留损失(BSRLoss),通过融入身体部位之间的语义关系来获取不可见区域的先验知识。•我们的方法在与最先进的方法进行竞争时取得了竞争性的结果,并且在人脸生成任务上也获得了令人满意的结果,这证明了我们模型的迁移能力。02. 相关工作02.1. 人物图像生成0随着生成对抗网络(GANs)[6]的迅猛发展,人物图像生成在近年来取得了巨大的进展[4,18-22,25,30,31,36,37,41]。Ma等人[18]首次引入了姿势引导的人物图像生成任务,并提出了一个两阶段的生成器来生成目标人物图像。Zhu等人[31,41]提出了一种注意机制,将图像信息从源姿势转移到目标姿势。Ren等人[25]预测了源人物图像和目标姿势之间的流场,用于生成新的姿势图像。Men等人[21]采用分解组件编码策略实现了姿势转移和人物属性编辑。然而,上述所有方法都需要成对的数据来监督训练过程,这将给数据收集带来沉重的工作量。已经提出了几种无监督的人物图像生成方法。Pumarola等人[22]设计了一个双向生成器,并采用循环一致性方法来监督训练。Song等人[30]设计了一种新颖的模式,用于为无监督生成生成伪语义图。然而,这些方法仍然需要额外的目标姿势作为输入,并且在生成的图像中存在一些伪影。…HW×HW 77050密集变形0翻译生成器0人体解析器0姿势编码器0姿势0估计0跨通道0融合0c0�0重塑0转置0重塑0C×H×W0重塑0�0密集空间相关性场0分解式编码器0真假0身体结构保留损失0图0生成器0图0生成器0相关性挖掘模块0C×H×W0图2.我们的自监督人物图像生成框架的整体工作流程。给定输入人物图像I,我们首先利用预训练方法获取其解析图S和姿势骨架P。然后,分解式编码器从姿势特征Fp中解耦语义感知的解耦风格特征Fs。接下来,相关性挖掘模块建立相关性场C来指导特征融合。最后,将融合后的特征Fs*输入到翻译生成器中,得到源图像的重建ˆI。身体结构保留损失和其他损失被设计用于促进训练过程。0图像。最近,[4,19,20]提出了自主驱动的方法来解决这些问题。然而,这些方法在处理大姿势变形问题时存在局限性。受到上述方法的启发,本文提出了一种新颖的自监督框架,利用图表示学习进行人物图像生成。02.2. 空间相关性学习0空间相关性学习的目的是为图像翻译建立密集的空间相关性场。Liao等人[16]提出了一种粗到细的策略,用于计算图像类比和风格转移的空间相关性场。He等人[8]通过测量参考图像和目标图像之间的空间相似性来执行基于示例的着色。Lee等人[14]设计了一个与空间相关性相关的模块,将来自参考图像的信息引入到素描图像中进行素描着色。Zhang等人[36]提出了一种空间感知归一化模块,用于保持人体姿势转移的空间上下文关系。Zhang等人[37]在共享域中建立了空间相关性场,用于跨域图像转换。然而,上述方法只能处理不对齐数据对之间的空间相关性。本文在源图像的分解特征之间建立相关性场,探索了更多的空间相关性学习场景。02.3. 图表示学习0图表示学习在计算机视觉中起着重要作用[1,34,39]。由于关系建模的强大能力,图表示学习已应用于许多任务,如基于骨架的动作识别[34],生物特征识别[24]和人员再识别[28,33,35]。Yan等人[35]构建了一个基于人物特征的图来模拟人物搜索中的图像之间的关系。Ren等人[24]提出了一种用于遮挡生物特征识别的动态图。Wu等人[33]提出了一种自适应图表示学习方案,以促进相关区域特征之间的交互,用于视频人员再识别。Hou等人[10]提出了一种图匹配策略,用于提取道路标记分割的结构知识。Qi等人[23]提出了一种自适应重新加权图,以平衡面部素描合成中不同语义节点的贡献。然而,上述方法应用图表示学习来增强特征提取或特征匹配的能力,忽视了图在跨尺度图像复杂化中的特征。本文将图表示应用于模拟人物图像的语义关系,旨在生成更合理的身体结构。......Position jReshape......Position iReshape......Position iReshape......ReshapeTransposeCHWWWHHCCCHWCCHWHWHWHWCHWCWHWeighted Summation77060人物图像0全局编码器0分解0编码器0人物图像0全局编码器0分解0编码器0图3.全局编码器和DSE模块的特征图可视化。与全局编码器相比,DSE模块表示的结构信息显著减少。03. 方法0在本节中,我们详细介绍我们提出的方法。首先,我们介绍我们的自监督相关挖掘网络(SCM-Net)的整体工作流程。然后,我们根据分解、合并和翻译的三个阶段详细描述整个网络架构。最后,介绍我们模型的总目标函数。03.1. 整体工作流程0不需要不对齐的数据对,我们的方法接收单个源图像作为输入。如图2所示,给定源人物图像I,我们利用预训练的人体姿势估计模型[2]和人体解析器[5]获取其姿势骨架P和语义掩码S。为了进行特征分解,我们使用姿势编码器和DSE模块分别提取姿势特征Fp∈RC×H×W和语义感知解耦风格特征Fs∈RC×H×W。为了进行特征合并,我们提出了CMM模块来建立密集的空间相关性场C。基于这个相关性场,Fs可以进行空间重排以获得合并后的特征F�s。最终,翻译生成器G将特征域中的F�s转换为逼真的图像。03.2. 解耦特征编码0为了进行特征解耦,我们的框架中有两个分支(例如姿势分支、风格分支),分别用于编码姿势特征和风格特征。0姿势编码。在姿势编码分支中,我们使用下采样的卷积神经网络(CNN)从姿势骨架P中提取姿势特征图F p。由于F p是全局编码的,其结构与源图像I天然对齐。解耦风格编码。对于风格编码,我们设计了DSE模块来获取语义感知的解耦风格特征Fs,它可以与对应的姿势特征形成“不对齐的数据对”。与完全编码人物图像的全局编码器相比,DSE模块可以从一个0�0�0姿势0特征0风格0特征0密集的空间相关性矩阵0风格0特征0相关性挖掘模块0特征,传播0加权求和0位置,检索0图4.我们模型中相关性挖掘模块的详细信息。输出的每个位置是输入的加权平均值,权重存储在相关性矩阵中。0根据不同区域将复杂流形映射到特征空间。如图2所示,我们将分割图S分成8个通道的二进制掩码。每个通道表示特定的身体区域(例如裤子、头发)。然后,我们对每个二进制掩码和源人物图像I进行逐元素乘法,以获取身体部位。此外,我们将每个身体部位输入到一个编码器中,该编码器的参数对所有区域都共享,以提取部分风格特征F i s,其中 i ∈[1, 8]。最后,我们沿着通道维度连接所有的F is,构建语义感知的解耦风格特征Fs。风格特征图中的每个位置都包含特定的语义信息。此外,为了消除固定连接顺序带来的限制,我们提出了一个交叉通道融合(CCF)模块,通过从不同的语义区域选择所需的语义特征,为每个位置提供丰富的信息。CCF模块的结构简洁,由两个1×1卷积块组成。为了验证DSE的效果,我们分别可视化了全局编码器和DSE提取的特征图。如图3所示,我们可以观察到全局编码器的信号强度分布清晰地表示了结构信息,而DSE的分布相对平坦,表明结构信息退化了。03.3. 基于相关性的特征合并0在合并阶段,我们提出了CMM模块,旨在建立用于特征重排的密集空间相关性矩阵C。首先,我们将特征F i 重塑为 [F i (1) , F i (2) , ∙ ∙ ∙ , F i ( hw )] ∈ R C × HW,其中 i ∈ {p, s }。特征F i 中的每个向量 F i ( j ) ∈ R C表示特征图中第 j 个位置的语义信息。(1)F ∗s (i) =cijFs(j), i ∈ [1, hw](3)Ladv = EI,P [log(Ds(I) Dp(I, P))]p(4)Lrec = ||ˆI − I||1(5)…Down SamplingVgg Network…Down SamplingVgg NetworkSLperc = ||ϕl(ˆI) − ϕl(I)||1(6)77070j ∈ [1, hw]。如图4所示,给定F s 和F p,F s(i)作为查询用于从F p 中检索相关的键F p(j)。因此,建立了一个形状为C ∈ R HW ×HW的相关性矩阵C,其中元素C ij是键-值对的相关性,后面跟着一个softmax激活函数。0C ij = 0� hw i =1 exp (0s ij = ¯j )0|| ¯ F s ( i ) || || ¯ F p ( j ) || (2)0其中 ¯ F s ( i ) 和 ¯ F p ( j ) 分别表示中心化特征,即 ¯ F s (i ) = F s ( i ) - mean( F s ( i ) )。相关性矩阵 C包含用于特征重排的值向量的权重。具体而言,通过计算特征 F s 中所有位置的加权平均求和,得到重排后的特征 F � s= [ F � s (1) , F � s (2) , ∙ ∙ ∙ , F � s ( hw )] ∈ R C × HW。0hw0基于上述操作,F �s在结构上与输入姿势对齐,可以输入到翻译生成器中合成逼真的人物图像。03.4. 对齐特征翻译0使用重新排列的特征F �s作为输入,翻译生成器可以合成目标图像ˆI进行自重建。为了更好地保留结构信息,我们采用U-Net架构[26]作为我们的翻译生成器,因为其跳跃连接直接从编码器传播信息到解码器。03.5. 目标函数0对抗学习。按照[41]的配置,我们使用两个鉴别器,一个是姿势鉴别器Dp,用于保持姿势一致性,另一个是风格鉴别器Ds,用于保持风格一致性。它们都促使生成器G生成逼真的图像。对抗损失L adv列于下文:0+ E I,P [log((1 − D s ( G ( I, P )))0自监督重建。重建损失Lrec可以表示为源图像I和生成图像ˆI之间的L1距离,鼓励ˆI在像素级别上与I相似。0区域级0平均池化0余弦相似度0区域级0平均池化0余弦相似度0图形匹配0真假0解析解析0I ˆ I0S S0图5.我们模型中图形生成器的详细信息。节点表示每个区域的风格,边表示节点之间的相似性。0感知一致性。感知损失Lperc计算了I和ˆI的预训练VGG特征之间的L1距离,衡量了图像之间的高层语义差异[12]。0风格一致性。风格损失Lstyle计算了I和ˆI的预训练VGG特征之间的统计误差,惩罚了颜色和纹理的差异[12]。如公式(7)所示,ϕl是预训练VGG网络的第j层的激活,G是Gram矩阵。0L style =0l || G ( ϕ l ( ˆ I )) − G ( ϕ l ( I )) || 1(7)0保留身体结构。BSRLoss通过约束身体部位之间的语义关系来赋予不可见区域的先验知识。我们设计了一个图形生成器来建模这种关系。如图5所示,我们使用预训练的VGG网络和区域级平均池化层[40]来获取身体图M,其中节点表示每个区域的风格,边表示节点之间的相似性。由于训练过程是自监督的,每次迭代中只有单个姿势,所以当进行跨尺度姿势变换时,模型无法对未知区域进行合理的补全。应用BSRLoss进行训练可以鼓励输出的人物图像保留合理的结构,有利于半身体到SourceImageTargetPoseGroundTruthPATNXingGANADGANMUSTGANPISEOurs77080源源0目标姿势0目标姿势0图6. 我们方法在姿势引导的人物图像生成中的结果。0全身变换。我们计算 I 和ˆI 之间的BSR损失,即L graph。0L图 = || M ( I, S ) − M ( ˆ I, S ) || 1 (8)0整体目标函数如公式(9)所示,其中αadv,αrec,αperc,αstyle,αgarph是相应损失函数的权重。0L总 = αadv Ladv + αrec Lrec + αperc Lperc (9)0+ α风格 L风格 + α图 L图04. 实验04.1. 实现细节0数据集。我们在DeepFashion In-shop Clothes RetrievalBenchmark[17]上进行实验,该数据集包含52,712张高质量的人物图像。我们按照[20]的相同配置划分数据集。0评估指标。我们使用常见的评估指标,如结构相似性(SSIM)[32],Inception分数(IS)[27],学习感知图像块相似性(LPIPS)[38]和FréchetInception距离(FID)[9]来定量评估生成图像的质量。SSIM指示原始像素空间中成对图像之间的相似性。同时,LPIPS、IS和FID在特征级别上衡量生成图像的逼真程度。0网络架构和训练细节。姿势编码器和风格编码器都采用了几个下采样卷积层来提取特征。分辨率为32×32的特征图用于建立相关性场。我们的方法在PyTorch框架上使用4个Nvidia TitanX GPU实现。损失函数的权重设置为αadv =5,αrec = 1,αperc = 1,αstyle = 150,αgarph = 1。04.2. 姿势引导的人物图像生成0姿势引导的人物图像生成,或称姿势转换,旨在在给定目标姿势的条件下改变人物图像的姿势。姿势转换是人物图像生成的重要应用。如图1(左)和图6(全部)所示,给定源人物图像,我们的模型可以将其转换为任何目标姿势并保持外观细节不变。0图7.与其他最先进的姿势引导人物图像生成方法的比较。放大以获得更好的视图。0来源0定性比较。我们将我们的方法生成的图像与几种最先进的方法进行了比较,包括PATN [41],XingGAN [31],ADGAN[21],MUSTGAN [20]和PISE[36]。所有结果都是使用作者发布的源代码或预训练模型获得的。定性比较的结果如图7所示。PATN和XingGAN生成的结果模糊不清,因为这些模型无法区分不同的特征。ADGAN和MUSTGAN的结果具有正确的姿势,但无法保持细节纹理。这是因为这些模型无法很好地捕捉空间相关性。PISE可以生成理想的结果。然而,由于缺乏语义关系,其结果仍然存在一些不令人满意的伪影。同时,该模型需要非对齐的图像对进行训练。相比之下,我们的模型只需要源图像就能获得竞争性的结果。77090来源0参考文献0来源0参考文献0图8.我们方法在人物属性编辑方面的结果。0定量比较。如表1所示,我们将我们的方法与几种最先进的有监督和无监督方法在DeepFashion数据集上进行了比较。从结果可以看出,我们的方法在大多数指标上都优于这些方法,无论是在有监督还是无监督设置下,这证明了我们的方法在生成高质量人物图像方面的优越性。0表1.在DeepFashion数据集上与其他有监督和无监督方法的定量比较。0方法 FID ↓ SSIM ↑ LPIPS ↓ IS ↑0无监督 VU-Net [4] 23.583 0.786 0.3211 3.087 E2E[30] 29.9 0.736 0.238 3.441 DPIG [19] 48.2 0.6140.284 3.228 MUST [20] 15.902 0.742 - 3.6920有监督 Intr-Flow [15] 16.134 0.798 0.2131 3.251Def-GAN [29] 18.547 0.770 0.2994 3.141 PATN[41] 24.071 0.770 0.2520 3.213 ADGAN [21]18.395 0.771 0.2242 3.329 GFLA [25] 14.061 0.7010.2219 3.635 PISE [36] 13.61 - 0.2059 -0SCM-Net 12.18 0.751 0.1820 3.6320表2. 消融研究的评估结果。0方法 FID ↓ SSIM ↑ LPIPS ↓ IS ↑0无DSE 12.86 0.750 0.187 3.2456 无CCF 17.080.751 0.175 3.605 无BSR 12.61 0.755 0.1783.441 完整 12.18 0.751 0.182 3.63204.3. 消融研究0我们进一步进行消融研究,分析每个模块和我们方法中提出的BSRLoss的贡献。首先,我们介绍了通过从我们的完整模型中交替删除特定组件来实现的变体。0模型。该模块消融有四个设置。1).无DSE。该模型去除了DSE模块,直接使用全局编码器提取风格特征。2).无CCF。该模型从DSE中去除了交叉通道融合模块。3). 无BSR。该模型在训练过程中去除了BSRLoss。4).完整。该模型代表我们的完整模型。表2显示了消融研究的定量结果。我们可以观察到,我们的完整模型在FID和IS指标上取得了最佳性能。同时,任何组件的去除都会降低模型的整体性能。图9显示了不同消融模型的定性比较。我们可以观察到,无DSE模型无法保留源图像的风格,无CCF模型在保留细节纹理方面存在局限性。同时,无BSR模型无法很好地完成下半身,而完整模型可以生成合理的结果。这证明了BSRLoss增强了模型捕捉身体结构信息的能力。此外,我们还通过与先前的自监督方法MUST-GAN[20]进行半身到全身转换的比较。图10显示了我们的方法在进行半身到全身转换时的优势。我们可以观察到,MUST-GAN[20]会产生更多的伪影,而我们的方法可以通过相关学习合理地完成身体的下半部分。4.4. 人物属性编辑0我们的模型还可以通过交换语义感知解耦风格特征中特定语义区域的通道特征,基于参考图像实现人物属性编辑。如图1(右)和图8(全部)所示,我们的方法可以分别编辑上衣、裤子和发型的风格。04.5. 人脸生成任务的应用0在本节中,我们展示了我们方法的多功能性。由于我们的方法可以解开形状和风格特征,因此也可以应用于这种自监督框架下的其他图像生成任务。两个人脸77100源图像0目标姿势0真实值0无DSE 无CCF 无BSR 完整0图9. 消融研究的定性比较。0源图像 目标姿势 MUSTGAN 我们的模型 真实值0图10. 半身到全身转换的结果0生成任务如下所示。0基于参考的边缘上色。基于参考的边缘上色旨在根据参考图像将边缘图转换为逼真的图像。将边缘图视为姿势骨架,将参考图像视为人物图像,我们的自监督模型可以实现边缘上色。我们按照[37]获取边缘图,并使用CelebA-HQ[13]数据集进行训练。结果如图11(顶部)所示。我们可以观察到,结果与参考图像保持良好的风格一致性,并且与输入的边缘图保持良好的形状一致性。0面部属性编辑。与人物属性编辑类似,我们的方法也可以实现面部属性编辑。结果可以在图11(底部)中找到。我们可以编辑特定属性,同时保持其他属性不变。05. 限制0如图12所示,我们的自我监督模型有时会直接将某些源模式转移到最终结果中。0参考文献0边缘0参考文献0来源0图11.我们方法在基于参考的面部边缘上色(顶部)和面部属性编辑(底部)的结果。0在执行姿势转移时,我们的自我监督模型有时会直接将某些源模式转移到最终结果中,这是一种罕见的情况。我们假设,这是自我监督策略固有缺陷的结果,自重构过程使模型容易过拟合。这种现象可能通过在训练过程中采用空间变换进行数据增强来避免。0源图像 目标姿势 真实结果 我们的结果0图12. 模型限制的示意图。头发和左臂直接从源图像转移。06. 结论0在本文中,我们提出了一种自我监督的相关挖掘网络(SCM-Net)用于人物图像生成。我们提出了两个特别设计的模块,即用于特征解缠的DSE模块和基于空间相关性的特征合并的CMM模块。同时,我们提出了BSRLoss来促进我们的网络更好地捕捉结构信息,特别是对于半身到全身的转换。在人物和人脸数据集上进行的大量实验证明了我们方法的优越性。0致谢:本工作部分得到了中国国家重点研发计划(编号2020AAA0140002)和国家自然科学基金(编号62076240,62006227)的支持。77110参考文献0[1] Shaosheng Cao, Wei Lu, and Qiongkai Xu.深度神经网络用于学习图表示。在AAAI人工智能会议论文集中,卷30,2016年。30[2] Zhe Cao, Tomas Simon, Shih-En Wei, and Yaser Sheikh.实时多人2D姿势估计使用部分亲和场。在IEEE计算机视觉和模式识别会议论文集中,页码7291–7299,2017年。40[3] Haoye Dong, Xiaodan Liang, Ke Gong, Hanjiang Lai, JiaZhu, and Jian Yin.基于软门控扭曲GAN的姿势引导人物图像合成。arXiv预印本arXiv:1810.11610,2018年。10[4] Patrick Esser, Ekaterina Sutter, and Bj¨orn Ommer.条件外观和形状生成的变分U-Net。在IEEE计算机视觉和模式识别会议论文集中,页码8857–8866,2018年。2,3,70[5] Ke Gong, Xiaodan Liang, Dongyu Zhang, Xiaohui Shen,and Liang Lin.窥视人物:自我监督的结构敏感学习和人体解析的新基准。在IEEE计算机视觉和模式识别会议论文集中,页码932–940,2017年。40[6] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, BingXu, David Warde-Farley, Sherjil Ozair, Aaron Courville, andYoshua Bengio.生成对抗网络。神经信息处理系统进展,27,2014年。20[7] Xintong Han, Xiaojun Hu, Weilin Huang, and Matthew RScott.Clothflow:用于着装人物生成的基于流的模型。在IEEE/CVF国际计算机视觉会议论文集中,页码10471–10480,2019年。10[8] Mingming He, Dongdong Chen, Jing Liao, Pedro VSander, and Lu Yuan. 深度基于样本的上色。ACM Transactionson Graphics (TOG),37(4):1–16,2018年。30[9] Martin Heusel,Hubert Ramsauer,ThomasUnterthiner,Bernhard Nessler和SeppHochreiter。通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。神经信息处理系统进展,30,2017年。60[10]侯远南,马铮,刘春晓,许德威和陈长乐。用于道路标记分割的区域间亲和力蒸馏。在IEEE/CVF计算机视觉与模式识别会议论文集上,第12486-12495页,2020年。30[11] Xun Huang和SergeBelongie。实时任意风格转移与自适应实例归一化。在IEEE国际计算机视觉会议上,第1501-1510页,2017年。20[12] Justin Johnson,Alexandre Alahi和LiFei-Fei。用于实时风格转换和超分辨率的感知损失。在欧洲计算机视觉会议上,第694-711页。Springer,2016年。50[13] Tero Karras,Timo Aila,Samuli Laine和JaakkoLehtinen。渐进增长的GAN以改善质量、稳定性和变化。arXiv预印本arXiv:1710.10196,2017年。80[14] Junsoo Lee,Eungyeup Kim,Yunsung Lee,DongjunKim,Jaehyuk Chang和Jaegul Choo。基于参考的素描0使用增强自我参考和密集语义对应的图像上色。在IEEE/CVF计算机视觉与模式识别会议论文集上,第5801-5810页,2020年。30[15]李一宁,黄琛,陈长乐。用于人体姿势转移的密集内在外观流。在IEEE/CVF计算机视觉与模式识别会议论文集上,第3693-3702页,2019年。70[16] Jing Liao,Yuan Yao,Lu Yuan,华刚和Sing BingKang。通过深度图像类比进行视觉属性转移。arXiv预印本arXiv:1705.01088,2017年。30[17]刘子伟,罗平,邱石,王晓刚和唐晓欧。Deepfashion:利用丰富注释提供强大的服装识别和检索。在IEEE计算机视觉与模式识别会议论文集上,第1096-1104页,2016年。60[18] 马立前,贾旭,孙倩茹,Bernt Schiele,Tinne Tuytelaars和Luc VanGool。姿势引导的人物图像生成。arXiv预印本arXiv:1705.09368,2017年。1, 20[19] 马立前,孙倩茹,Stamatios Georgoulis,Luc VanGool,Bernt Schiele和MarioFritz。解耦人物图像生成。在IEEE计算机视觉与模式识别会议论文集上,第99-108页,2018年。2, 3, 70[20]马天翔,彭波,王伟,董静。Must-gan:自驱动人物图像生成的多级统计转移。在IEEE/CVF计算机视觉与模式识别会议论文集上,第13622-13631页,2021年。1, 2, 3, 6, 70[21]门一方,毛一鸣,江宇宁,马伟英,连周辉。具有属性分解GAN的可控人物图像合成。在IEEE/CVF计算机视觉与模式识别会议论文集上,第5084-5093页,2020年。1, 2, 6, 70[22] Albert Pumarola,Antonio Agudo,AlbertoSanfeliu和FrancescMoreno-Noguer。任意姿势下的无监督人物图像合成。在IEEE计算机视觉与模式识别会议论文集上,第8620-8628页,2018年。20[23]齐兴群,孙木义,王伟宁,董晓晓,李琦,单彩凤。基于语义驱动的生成对抗网络的人脸素描合成。在2021年IEEE国际联合生物识别会议(IJCB)上,第1-8页。IEEE,2021年。30[24]任敏,王云龙,孙振安和谭铁牛。生物识别中处理遮挡的动态图表示。在人工智能AAAI会议论文集上,第34卷,第11940-11947页,2020年。30[25] Yurui Ren, Xiaoming Yu, Junming Chen, Thomas H Li, andGe Li. 用于人物图像生成的深度图像空间变换. 在IEEE/CVF计算机视觉与模式识别会议 论文集中, 页码7690– 7699,2020. 1 , 2 , 70[26] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: 用于生物医学图像分割的卷积网络. 在医学图像计算与计算机辅助干预国际会议 上, 页码234–241.Springer, 2015. 577120[27] Tim Salimans, Ian Goodfellow, Wojciech Zaremba, VickiCheung, Alec Radford, and Xi Chen. 改进的GAN训练技术.神经信息处理系统进展 , 29:2234–2242, 2016. 60[28] Yantao Shen, Hongsheng Li, Shuai Yi, Dapeng Chen, andXiaogang Wang. 基于深度相似性引导的图神经网络的人物再识别.在 欧洲计算机视觉会议 论文集中, 页码486–504, 2018. 30[29] Aliaksandr Siarohin, Enver Sangineto, St´ephaneLathuiliere, and Nicu Sebe.基于姿势的人体图像生成的可变形GAN. 在IEEE计算机视觉与模式识别会议 论文集中, 页码3408– 3416, 2018. 70[30] Sijie Song, Wei Zhang, Jiaying Liu, and Tao Mei.带有语义解析转换的无监督人物图像生成. 在IEEE/CVF计算机视觉与模式识别会议 论文集中, 页码2357– 2366,2019. 2 , 70[31] Hao Tang, Song Bai, Li Zhang, Philip HS Torr, and NicuSebe. Xinggan用于人物图像生成. 在 欧洲计算机视觉会议 上,页码717–734. Springer, 2020. 1 , 2 , 60[32] Zhou Wang, Alan C Bovik, Hamid R Sheikh, and Eero PSi- moncelli. 图像质量评估: 从误差可见性到结构相似性.IEEE图像处理交易 , 13(4):600–612, 2004. 60[33] Yiming Wu, Omar El Farouk Bourahla, Xi Li, Fei Wu, QiTian, and Xue Zhou. 自适应图表示学习用于视频人物再识别.IEEE图像处理交易 , 29:8821–8830, 2020. 30[34] Sijie Yan, Yuanjun Xiong, and Dahua Lin.基于空间时间图卷积网络的基于骨架的动作识别. 在三十二届AAAI人工智能会议 上, 2018. 30[35] Yichao Yan, Qiang Zhang, Bingbing Ni, Wendong Zhang,Minghao Xu, and Xiaokang Yang. 人物搜索的学习上下文图. 在IEEE/CVF计算机视觉与模式识别会议 论文集中, 页码2158–2167,2019. 30[36] Jinsong Zhang, Kun Li, Yu-Kun Lai, and Jingyu Yang. Pise:人物图像合成和编辑与解耦的GAN. 在IEEE/CVF计算机视觉与模式识别会议 论文集中, 页码7982–7990,2021. 1 , 2 , 3 , 6 , 70[37] Pan Zhang, Bo Zhang, Dong Chen, Lu Yuan, and Fang
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功