DressinginOrder：循环人物图像生成与服装编辑

111 浏览量更新于2023-10-14 收藏 23.47MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{aiyucui2,dbmckee2,slazebni}@illinois.edu146380Dressing inOrder：用于姿势转移、虚拟试穿和服装编辑的循环人物图像生成0Aiyu Cui Daniel McKee Svetlana Lazebnik伊利诺伊大学香槟分校0摘要0我们提出了一种灵活的人物生成框架，称为Dressing inOrder（DiOr），支持2D姿势转移、虚拟试衣和几种时尚编辑任务。DiOr的关键是一种新颖的循环生成流程，按顺序给人物穿上服装，这样以不同的顺序试穿相同的服装会产生不同的效果。我们的系统可以产生现有工作无法实现的穿衣效果，包括不同的服装交互（例如将上衣塞进裤子或穿在外面），以及同类型多件服装的叠加（例如夹克套在衬衫和T恤上）。DiOr明确地编码了每件服装的形状和纹理，使得这些元素可以单独进行编辑。姿势转移和修复的联合训练有助于保留细节和生成服装的一致性。广泛的评估结果表明，DiOr在输出质量方面优于ADGAN[28]等其他最新方法，并且处理了一系列无法直接监督的编辑功能。01. 引言0受深度生成模型的不断增强以及商业可能性的推动，人物生成研究近年来发展迅速。流行的应用包括虚拟试衣[3, 9, 14,16, 29, 40, 42]，时尚编辑[4, 11]和姿势引导的人物生成[5,8, 20, 23, 26, 34, 35, 36, 37, 38,45]。尽管在整体系统设计上存在相似之处，但大多数现有工作仅处理一种生成任务。尽管一些系统[8, 28, 35,36]已应用于姿势引导的生成和虚拟试衣，但它们缺乏保留细节的能力[28,35]，或者缺乏可以用于多样化编辑任务的灵活的形状和纹理表示[8, 28, 35,36]。本文提出了一种灵活的2D人物生成流程，不仅适用于姿势转移和虚拟试衣，还适用于时尚编辑，如图1所示。0图1.我们的DiOr系统支持的应用：支持不同服装交互（塞进或不塞进）和叠加的虚拟试穿；姿势引导的人物生成；以及时尚编辑（纹理插入和删除，形状改变）。请注意，箭头表示可能的编辑顺序和图像之间的关系，而不是我们系统的流程。0我们系统的架构如图2所示。我们分别对姿势、皮肤和服装进行编码，而服装编码进一步分为形状和纹理。这使得我们可以自由地对每个元素进行调整，以实现不同的外观。0在现实生活中，人们逐个穿上服装，并可以以不同的方式叠加（例如，将衬衫塞进裤子或穿在外面）。然而，现有的试穿方法是通过生成互斥的服装分割图，然后一次性生成整个服装。这只能为给定的一组服装实现一种外观，并且服装的交互由模型确定。相比之下，我们的系统采用了一种新颖的循环生成模块，根据穿衣顺序产生不同的外观。这就是为什么我们将我们的系统称为“DiOr”，即“Dressing inOrder”。146390在第2节中对相关工作进行调查后，我们将在第3节中描述我们的系统。第3.1节将介绍我们将服装编码为2D形状和纹理的方法，使得每个元素可以单独进行编辑。形状使用软掩模进行编码，还可以捕捉透明度。在编码时，流场估计组件可以更准确地变形服装以适应目标姿势。第3.2节将描述我们的循环生成方案，该方案不依赖于服装标签，并且可以处理可变数量的服装。第3.3节将讨论我们的训练方法，该方法将姿势转移与修复结合起来，以实现对细节的保留。第4节将呈现实验结果（包括比较和用户研究），第5节将说明我们的系统所支持的编辑功能。02. 相关工作0虚拟试衣。生成给定人物穿着所需服装的图像是一项具有挑战性的任务，它需要精确捕捉服装并正确穿在给定的人体上。最简单的试穿方法旨在用新的服装替换单一的服装[3, 8,9, 14, 16, 17, 40,42]。我们的工作与试图同时建模人物穿着的所有服装的方法更相关，使用户能够进行多种服装试穿[18, 28, 29, 33,36]。SwapNet[33]通过将一个人物图像上的所有服装转移到另一个目标人物的姿势上来实现。首先，它生成所需姿势上所需服装的互斥分割掩码。O-VITON[29]也通过为所有试穿服装生成互斥分割掩码，然后将服装编码注入相关区域。与我们的工作不同，O-VITON不能改变目标人物的姿势。属性分解GAN（ADGAN）[28]将每个类别的服装编码为1D风格编码，并将编码的串联输入StyleGAN[15]生成器。它还以2D姿势为条件，实现了姿势转换和试穿。我们的系统采用了类似的条件。然而，正如我们在比较评估中所看到的，ADGAN的1D服装编码没有将形状与纹理分离，对服装再现的保真度严重受限。Sarkar等人[35,36]通过将给定的人体图像与3D网格模型（SMPL[25]）通过DensePose[7]对齐，估计与所需服装相对应的UV纹理映射，并将该纹理渲染到所需姿势上，实现了高质量的试穿结果。我们的工作重点不同，因为我们避免了显式的3D人体建模。所有上述方法都假设预定义的服装类别（例如上衣、夹克、裤子、裙子等），并且每个类别最多允许一个服装。这排除了同一类别的服装（例如一个上衣叠加在另一个上衣上）的能力。相比之下，虽然我们依赖于现成的服装分割器，但我们的生成流程不使用服装类别，只使用掩码。此外，在所有先前的工作中，当两件服装重叠时（例如上衣和裤子），模型决定两件服装的交互（例如上衣是否塞进裤子）。与这些方法不同，我们的方法对于不同的穿着顺序产生不同的结果。0时尚编辑。Fashion++[11]学习最小化编辑服装，使其更时尚，但用户无法控制变化。Dong等人[4]通过用户的手绘草图来编辑服装。相反，我们的模型允许用户通过选择服装和以语义方式更改服装顺序来编辑他们想要的内容。0姿势转换需要改变给定人物的姿势，同时保持该人物的身份和服装不变。上述几种虚拟试衣方法[8, 28, 33, 35,36]明确地以姿势为条件，使其适用于姿势转换。我们的方法属于这种类型。姿势转换的一个优势是存在包含同一服装在多个姿势下的数据集[24]，相比虚拟试衣更容易获得监督。对我们来说，最相关的是使用2D关键点表示姿势的姿势转换方法[5, 26, 28, 37, 38,45]。然而，这些方法对于捕捉服装细节的能力有限，导致纹理模糊。全局流局部注意力（GFLA）[34]和Clothflow[8]计算密集的2D流场以对齐源姿势和目标姿势。我们采用GFLA的全局流组件作为我们系统的一部分，在进行姿势转换的同时添加了一些试穿和编辑功能。其他姿势转换方法[6,20, 23, 30, 36]依赖于通过DensePose [7]和SMPL[25]进行的3D人体建模。它们通过完成UV映射和重新渲染[6, 30, 36]或学习丰富的3D信息的流[20,23]来工作。这些方法代表了与我们不同的哲学观，因此不太可比。0时尚编辑。Fashion++[11]学习最小化编辑服装，使其更时尚，但用户无法控制变化。Dong等人[4]通过用户的手绘草图来编辑服装。相反，我们的模型允许用户通过选择服装和以语义方式更改服装顺序来编辑他们想要的内容。03. 方法0本节描述了我们的DiOr流程（图2）。我们在第3.1节介绍了我们的人物表示，然后在第3.2节中描述了我们的流程，第3.3节中介绍了我们的训练策略，第3.4节中介绍了与之前的工作的关系。03.1. 人物表示0我们将一个人表示为（姿势，身体，{服装}）元组，其中每个元素可以来自不同的源图像。与其他作品（例如[28,29]）不同，服装的数量可以不同，并且不使用服装标签。这使得我们可以自由添加、删除和切换服装的顺序。按照之前的工作[28, 34]，我们将姿势P表示为OpenPose[1]中定义的18个关键点热图。fs bilinearresampling Sf (2 x H/4 x W/4)fT'skin source person image Is(3 x H x W)fsEsegEsegFT (L x H/4 x W/4)M (H/4 x W/4)source person Issource pose Pstarget pose PtEtexTbgMbgTskinMskin sigmoid (3 x H x W) (18 x H x W) (18 x H x W) 1- Pose transferred foreground mask MfgEmapEmappoolingbroadcast ⨀ ⨀+source segment s (3 x H x W)146400图2.DiOr生成流程（详见第3节）。我们将一个人表示为（姿势，身体，{服装}）元组。生成开始时，将目标姿势编码为Zpose，将源身体编码为纹理映射Tbody。然后通过生成器模块Gbody生成身体Zbody。Zbody作为递归服装生成器Ggar的Z0，按顺序接收每个服装，每个服装由2D纹理特征图Tgk和软形状掩码Mgk编码。除了带掩码的源图像外，身体和服装编码器还接收估计的流场f，将源图像对齐到目标姿势。我们可以在任何步骤解码，得到迄今为止穿着的服装的输出。0c. 身体编码器（）0b. 段编码器（）0a. 全局流场估计器（）0图3. 系统细节。 (a) 全局流场估计器F采用了GFLA[34]，经过修改只产生流场f。 (b)段编码器Eseg产生了空间对齐的纹理特征图T和软形状掩码M。 (c)身体编码器Ebody将平均皮肤向量广播到整个前景区域（姿势转换前景部分的掩码的并集），并通过Emap将其映射到正确的维度，以供后续的风格块使用。0服装表示。给定一个源图像Igk∈R3×H×W中的人物穿着的源服装gk，我们首先运行一个现成的人体解析器[19]，得到遮罩的服装段sgk。我们还通过OpenPose[1]获得了Igk中人物的姿势估计Pgk。由于Pgk与期望的姿势P不同，我们需要推断出一个流场fgk，将服装段sgk与P对齐。我们使用GFLA[34]的全局流场估计器F来实现这一点（图3(a)）。F也可以在仅有服装的商店图像上工作（没有人穿着它们），此时Pgk将只是空的热图（参见图5中的第二个示例）。0接下来，如图3(b)所示，我们通过段编码器模块Eseg对服装段sgk进行编码。这从纹理编码器Etex开始，它由ADGAN[28]中VGG编码器的前三层组成（下采样因子为4），使用了leakyReLU[27]。Etex的输出通过流场fgk进行双线性插值变形，得到纹理特征图Tgk。我们还使用由三个卷积层组成的分割器S计算出服装段的软形状掩码Mgk =S(Tgk)。纹理映射Tgk和形状掩码Mgk都是段编码器Eseg的输出。由于纹理特征图Tgk将作为后续风格块的风格输入，我们将Tgk映射到正确的风格块维度，得到T'gk =Emap(Tgk,Mgk)，其中映射模块Emap由两个卷积层组成，以Tgk和Mgk作为输入。身体表示。图3(c)展示了从图像Is∈R3×H×W中对源人物的身体进行编码的过程。根据人体分割器[19]，我们生成对应于背景sbg和皮肤sskin（由手臂、腿和脸组成）的掩码。这些通过上述段编码器Eseg编码得到(Tbg,Mbg)和(Tskin,Mskin)。为了确保身体特征图跨越整个身体区域，无论后面是否有覆盖它的服装，我们计算Tskin在Mskin定义的ROI上的平均身体向量b。然后，我们将b广播到姿势转换的前景区域Mfg（所有姿势转换前景部分的掩码的并集），通过Emap将广播的特征图映射到正确的维度，并与映射的背景特征T'bg相结合。0T ′ body = M fg ⊙ E map (M fg � b, M fg)+(1 − M fg) ⊙ T ′0其中 � 和 ⊙ 分别表示广播和逐元素乘法。tiplication, respectively.1464103.2. 生成流程0在主要的生成流程（图2）中，我们首先对“骨架” P进行编码，然后从 T ′body（公式1）生成身体，然后按顺序从编码的纹理和形状遮罩（(T ′ g 1, M g 1), ..., (T ′ g K, M gK)）生成服装。姿势和皮肤生成。为了开始生成，我们使用姿势编码器 E pose 对所需的姿势 P进行编码，该编码器由三个卷积层组成，每个卷积层后面跟着实例归一化[39]和泄漏的ReLU[27]。这将得到隐藏的姿势图 Z pose ∈ R L × H/4 × W/4，其中 L是潜在通道大小。接下来，我们通过身体生成器 G body使用隐藏的姿势图 Z pose 和身体纹理图 T ′ body生成隐藏的身体图 Zbody，该生成器由ADGAN[28]中的两个风格块实现。由于我们的身体纹理图 T ′ body是二维的，所以风格块中的自适应实例归一化[12]被SPADE[31]替代。循环生成服装。接下来，我们生成服装，将 Zbody 视为 Z 0。对于第 k 个服装，服装生成器 G gar使用其映射的纹理图 T ′ g k 和软形状遮罩 M gk，以及前一个状态 Z k − 1，生成下一个状态 Zk，如下所示：0Z k = Φ(Z k − 1, T ′ g k) ⊙ M g k + Z k − 1 ⊙ (1 − M g0其中 Φ 是一个具有与上述 G body相同结构的条件生成模块。需要注意的是，软形状遮罩 M gk实际上控制着服装的不透明度，这是我们表示方法的一个新特性。更多细节请参见补充材料。当编码的人物穿好衣服后，我们得到最终的隐藏特征图 Z K 和输出图像 I gen = Gdec (Z K)，其中 G dec是解码器，与ADGAN[28]中的最终解码器相同，由残差块、上采样和卷积层组成，后面跟着层归一化和ReLU。03.3. 训练0与ADGAN[28]类似，我们在姿势转移上训练我们的模型：给定源姿势 P s 中的人物图像 I s，生成目标姿势 P t中的人物图像。只要目标姿势的参考图像 I t可用，这就是一个监督任务。为了进行姿势转移，我们将身体图像和服装集设置为源人物的身体图像和服装，并在目标姿势中渲染它们。一个人可能有多达四个单独编码的服装需要按顺序添加，因此循环生成器可以得到各种叠加类型和服装组合的充分训练示例。我们最初只训练了一个仅用于姿势转移的模型，但观察到它在试穿和覆盖方面给出了不准确或不一致的结果（见图6）。为了提高模型的真实性，我们接下来尝试将其训练为0重建以及转移，即为训练示例的一部分设置 P t = Ps。尽管这有助于保留细节并改善服装重叠的处理，但生成的模型无法完成缺失的服装区域（例如源图像中被头发遮挡的区域）。最终，我们发现修复或恢复部分遮挡的源图像 I ′s更适合作为补充的训练任务，可以在填充缺失区域的同时保留细节。我们通过使用训练数据的一部分（比例为α）进行修复和剩余部分进行姿势转移来结合这两个任务。在我们的实现中，α =0.2，并且修复的遮罩是由Yu等人的自由形式算法[43]生成的。为了在姿势转移和修复上进行训练，我们使用了GFLA[34]的六个损失项。其中两个是预测流场的正确性和正则化损失，它们被合并为几何损失 Lgeo。另外三个GFLA项鼓励生成和真实目标对的一致性：L1损失、感知损失和风格损失。它们被合并为内容损失 Lcontent。最后一个GFLA项是GAN损失 LGAN，GFLA使用一个以姿势为条件的判别器，但我们使用两个判别器，一个以姿势为条件，另一个以分割为条件，就像ADGAN[28]中一样。我们的判别器与GFLA的架构相同。我们按照GFLA的方法设置了这六个损失项的系数。此外，为了确保我们的形状遮罩正确捕捉到形状，我们使用了每个服装的软形状遮罩 M g 与其相关的“groundtruth”分割之间的像素级二进制交叉熵损失（由解析器[19]从目标图像中提取）。这个损失被表示为 Lseg。因此，我们最终的综合损失为0L = L content + L geo + λ GAN L GAN + λ seg L seg, (3)0其中，我们将λ seg 设置为0.1，将λ GAN 设置为1。03.4. 与先前工作的关系0我们的系统最大程度地受到ADGAN[28]的启发。与ADGAN一样，我们分别对每件服装进行编码，以2D姿势为条件进行生成，并在姿势转换上进行训练。我们还借用了一些ADGAN块的架构，如上所述。然而，ADGAN将服装编码为单个1D向量，而我们将服装分别以2D形状和纹理进行编码。因此，DiOr允许分别编辑单个服装的形状和纹理，这在ADGAN中是不可能的。我们的2D编码比ADGAN的1D编码更好地捕捉复杂的空间模式，在虚拟试穿中取得了更好的结果，如下一节所示。此外，在ADGAN中，服装分别编码后，所有嵌入向量都融合成一个单一向量，因此服装的数量和类型是固定的，服装的顺序也不被保留。相比之下，在我们的循环流程中，服装逐个注入，其数量、类型和顺序都可以变化。我们的方法还建立在GFLA[34]的基础上，采用了其全局流组件和大部分损失项。我们的实验结果将显示，即使没有GFLA的局部注意力组件，我们也能够达到类似的性能。此外，GFLA只能处理姿势转换，而我们的模型可以解决更多的任务。一些先前的方法也意识到修复绘制对于人体图像生成有所帮助，尽管它们与我们的使用方式不同。ACGPN[42]是一种单件服装试穿方法，它具有一个修复模块，用于融合要渲染的人物的元素。在基于3D的人物重新渲染文献中，两种最近的方法 [6,36] 使用修复损失来完成UV纹理映射的未见区域。146420它们的数量、类型和顺序可能会有所变化。我们的方法还借鉴了GFLA[34]的思想，采用了其全局流组件和大部分损失项。我们的实验结果将显示，即使没有GFLA的局部注意力组件，我们也能够达到类似的性能。此外，GFLA只能处理姿势转换，而我们的模型可以解决更多的任务。一些先前的方法也意识到修复绘制对于人体图像生成有所帮助，尽管它们与我们的使用方式不同。ACGPN[42]是一种单件服装试穿方法，它具有一个修复模块，用于融合要渲染的人物的元素。在基于3D的人物重新渲染文献中，两种最近的方法 [6, 36]使用修复损失来完成UV纹理映射的未见区域。04. 实验04.1. 实现细节0我们使用DeepFashion数据集 [24]进行模型训练，分辨率为256×176，使用PATN[45]中的相同训练/测试集划分进行姿势转换。在实现中，我们对每件服装运行两次Eq.2以获得更好的性能。前20000次迭代中，我们使用与GFLA相同的过程来预热全局流场估计器F。同时，我们使用Lcontent和L GAN损失对E tex和G dec进行预热，通过使用Etex对遮罩输入图像进行编码，并使用Gdec恢复完整图像。然后，在接下来的150000次迭代中，我们使用学习率为1e-4的Adam优化器训练网络，冻结F。最后，我们解冻F，并使用学习率为1e-5训练整个网络，直到模型收敛。我们使用L=128训练一个小模型，使用L=256训练一个大模型，分别在一张和两张TITANXp卡上进行训练。04.2. 姿势转换的自动评估0我们在姿势转换任务上进行了自动评估，这是唯一具有参考图像的任务。表1显示了我们的结果与GFLA [34]和ADGAN[28]的比较，它们都使用相同的2D关键点来表示姿势，具有公开的代码和模型，并使用相同的训练/验证集划分。我们计算了几个常见的指标，用于衡量生成图像与真实参考图像之间的结构、分布和感知相似性：SSIM [41]、FID[10]和LPIPS[44]。此外，我们提出了一个新的指标sIoU，它是人类分割器 [19]生成的真实和生成图像的分割掩码的平均IoU，用于衡量形状一致性。这个指标受到了Isola等人[13]中用于评估标签到照片生成任务的标签映射一致性的FCN分数的启发。为了减轻可能的偏差0图4. 姿势转换结果。0在我们的流程中，我们使用相同的分割器获取服装掩码，但我们使用ATR人体解析标签[21]而不是我们流程中使用的LIP标签[22]来计算该指标。我们进一步处理ATR标签集，将左右身体部位合并在一起，以获得更稳定的结果。不过，我们不过分解释自动度量（发现它们对参考图像的分辨率、清晰度和压缩质量等因素非常敏感[32]），我们可以保守地得出结论，我们的姿势转移性能至少与GFLA和ADGAN相当，这在第4.4节的用户研究中得到了证实。我们的大模型具有最高的sIoU，这表明它能够保持生成服装的结构，并与图4中显示的示例输出一致。在那里，我们的输出在质量上与GFLA相似（这并不奇怪，因为我们采用了他们的部分流机制），并且始终优于ADGAN，后者无法复制服装的纹理或结构图案，这在自动度量中并不明显。04.3. 消融研究0循环生成。我们通过根据其软形状掩码的softmax将所有服装的特征图合并，并将合并的特征图注入到单次拍摄的服装生成器Ggar中，以消除我们的循环机制。如表2(a)所示，非循环模型的sIoU明显低于完整模型。图5显示了原因：当服装之间有重叠时，非循环模型倾向于将服装混合在一起，导致出现幽灵伪影。0姿势转移和修复的联合训练。表2(b)报告了我们的模型在没有修复的情况下训练的结果，并且在修复时使用重建而不是修复（使用Def-GAN∗ [37]VU-Net∗ [5]139.4M-23.670.264-Pose-Attn∗ [45]41.36M-20.740.253-Intr-Flow∗ [20]49.58M-16.310.213-GFLA∗ [34]14.04M0.71310.570.23457.32ours-small11.26M0.72012.970.23657.22ours-large24.41M0.72513.100.22958.63ADGAN [28]ours-small11.26M0.80414.340.18258.99ours-large24.41M0.80613.590.17659.99146430尺寸 SSIM ↑ FID ↓ LPIPS ↓ sIoU ↑0(a) 在256×256分辨率下的比较0尺寸 SSIM ↑ FID ↓ LPIPS ↓ sIoU ↑0(b) 在256×176分辨率下的比较0表1. 姿势转移评估。(a) 在256×256分辨率下与GFLA[34]（以及[34]中报告的其他方法）进行比较（我们的模型最初在256×176上进行训练，然后微调到256×256）。带*的方法的FID和LPIPS分数是从GFLA复制得到的，所有其他分数是我们使用[34]中使用的相同参考图像计算的（由作者提供）。请注意，Intr-Flow是唯一利用3D信息的方法。(b) 在256×176分辨率下与ADGAN[28]进行比较。箭头表示度量指标的较高（↑）或较低（↓）值被认为是更好的。0图5.虚拟试穿结果。我们将试穿顺序设置为（头发、裤子、上衣、夹克）。请注意，ADGAN通常无法保持转移服装的形状和纹理，而我们模型的非循环版本在服装重叠区域会产生幽灵效应。在第二个示例中，服装是从一张没有人的“商店”图像中转移的，这不是我们预期的设置。0α =0.2）。虽然在姿势转移任务的表格中无法看出与完整模型的差异，但我们可以观察到在虚拟试穿和分层等其他应用中，不同的训练选择会产生与之相关的独特伪影，如第3.3节所述并在图6中展示。0SSIM ↑ FID ↓ LPIPS ↓ sIoU ↑0完整 0.804 14.34 0.182 58.990（a）非循环 0.804 14.85 0.183 58.440（b）仅姿势转换训练 0.801 13.77 0.186 59.010联合训练与重构 0.803 14.35 0.184 58.330（c）单一2D编码 0.806 15.18 0.183 58.710单一1D编码 0.797 16.14 0.200 56.2201D纹理+1D形状 0.798 20.07 0.204 55.1701D纹理+2D形状 0.802 16.05 0.192 57.400（d）无流场 0.800 16.47 0.196 56.280表2. 对姿势转换任务的小型模型进行消融研究（详见正文）。0图6.我们的模型仅在姿势转换训练、联合重构训练和联合修复训练上的比较。两个消融模型在填补空洞（例如，源服装上的头发造成的空洞）或创建清晰且连贯的服装边界方面能力较差。0图7.不同服装编码的比较（见表2(c)）。1D编码导致纹理模糊。2D中的单一编码在试穿中是合理的，但限制了对形状和纹理的灵活性。0单一服装编码（即联合形状和纹理），以及2D与1D编码的比较（见表2(c)）。为了通过单一表示在2D中对服装进行编码，我们将公式（3）改为Zk = Φ(Zk-1, Tgk) +Zk-1，以去除形状因子。为了进一步将这种单一编码减少为1D，我们采用了ADGAN的方案（在这种情况下，SPADE被切换为AdaIn）。对于具有单独的1D形状和纹理编码的版本，我们尝试通过学习一个由样式块组成的分割器，该分割器以姿势为输入并在1D形状向量的条件下生成分割，然后将纹理向量广播到形状掩码中以获得纹理图。作为额外的变体，我们训练了一个将1D纹理编码与2D形状编码相结合的模型，其中我们也通过广播获得纹理图。从表2(c)和图7可以看出，消融版本，特别是1D版本，模糊度更高，难以捕捉细节。这与我们的直觉一致，即从1D向量中恢复空间纹理是困难的。2D单一编码看起来是合理的，但仍然比完整模型更不清晰，并且不允许对形状和纹理进行单独编辑。146440对比方法任务更喜欢其他 vs. 我们的0GFLA [34] 姿势转换 47.73% vs. 52.27%0ADGAN [28] 姿势转换 42.52% vs. 57.48%0ADGAN [28] 虚拟试穿 19.36% vs. 80.64%0表3.用户研究结果（详见正文）。为了公平起见，将ADGAN与我们的大型模型（训练尺寸为256×176）进行比较，将GFLA与我们的大型模型（微调尺寸为256×256）进行比较，所有输出在显示给用户之前都会被调整为256×176的尺寸。服装定位的流场。为了证明流场f的必要性，它将源姿势的身体部位或服装转换到目标姿势，我们通过去除全局流场估计器F和分割编码器Gseg中的双线性插值步骤来削弱流场f。从图5和表2(d)可以明显看出，流场f对于将服装放置在正确位置并实现逼真的渲染是必不可少的。04.4. 用户研究0接下来，我们将对我们的模型与ADGAN和GFLA在姿势转换上以及ADGAN在虚拟试穿上进行用户研究的结果进行报告。我们随机以两个未标记模型的输入和输出的方式向用户展示，并要求他们选择他们更喜欢的输出。对于姿势转换，我们从测试子集中随机选择500对作为问题池。对于虚拟试穿，我们随机选择700个人物和服装（仅限上衣）的图像对，人物图像和服装图像中的人物都面向前方。我们手动筛选掉人物图像中没有显示人物以及服装图像中没有显示上衣的图像对。为了公平起见，我们还排除了所有有夹克的图像对，因为我们的模型将夹克视为与上衣不同的服装，而ADGAN将其视为上衣。当我们运行我们的模型时，服装的穿着顺序设置为（头发，上衣，下装，夹克）。每个用户都会得到22个姿势转换或试穿的问题，前两个问题被用作热身，不计入统计。我们收集了53个用户对于转换的回答，以及45个用户对于试穿的回答。结果如表3所示。对于姿势转换，我们的模型与GFLA和ADGAN相比具有可比性或稍微更好。有趣的是，尽管ADGAN在纹理保留方面表现不佳，但在姿势转换方面并不差，因为它往往能够产生形态良好且姿势畸变较少的人物，并为无纹理的服装生成漂亮的阴影和褶皱（见图4中的顶部示例）。对于虚拟试穿，我们的模型相对于ADGAN的优势是决定性的，因为我们能够更好地保持转换后服装的形状和纹理（见图5）。05. 编辑应用0在本节中，我们演示了我们的模型在几个时尚编辑任务中的使用方法。除了我们发现需要微调的服装重塑之外（见下文），所有任务都可以直接使用模型完成。0图8.应用：塞进。在底部塞进之前穿上上衣，然后在底部塞进之后穿上上衣。0图9.应用：单层叠穿。在同一类别的另一件服装的外部（左侧）或内部（右侧）叠加一件服装。0按照第3节中的描述进行训练。请参阅补充材料以获取更多定性示例。塞进。如图8所示，我们的模型允许用户通过指定穿衣顺序来决定是否将上衣塞进裤子。服装叠层。图9显示了同一类别（上衣或裤子）的服装叠层的结果。图10显示了我们还可以在同一类别中叠加两件以上的服装（例如，夹克叠加毛衣叠加衬衫）。内容去除。要删除服装上的不需要的印花/图案，我们可以在纹理图Tg中遮罩相应的区域，同时保持形状遮罩Mg不变，生成器将填充缺失的部分（图11）。插入印花。要插入外部印花，我们将来自外部源的遮罩区域视为额外的“服装”。在这种情况下，生成模块负责混合和变形，这限制了逼真度，但产生了如图12所示的合理结果。146450图10. 应用：双层叠穿。按顺序在现有服装上叠加两件服装。0图11. 应用：内容去除。0图12. 应用：插入印花。0图13. 应用：纹理转移。0纹理转移。为了从其他服装或外部纹理补丁中转移纹理，我们只需用由E tex编码的所需特征图替换服装纹理图Tg。图13显示了从源服装（顶行）和DTD数据集[2]（底部两行）转移纹理的结果。在后一种情况下，纹理在身体上不会真实地变形，但由生成模块添加的阴影是合理的，并且对于结构较少的印花效果可能会很惊人。重塑。我们可以通过替换来改变服装的形状。0图14. 应用：重塑。0图15. 失败案例。0形状遮罩与另一件服装的形状遮罩相结合（图14）。我们的默认模型可以轻松处理去除（例如将长袖改为短袖），但无法进行扩展（使袖子变长）。为了克服这个问题，我们使用更大的修复比例（α =0.5）微调了模型。结果模型在给无袖服装添加短袖方面表现得相当好（图14右上示例），但在幻想长袖方面则不太自信（图14右下）。06. 限制和未来工作0本文介绍了DiOr，一个灵活的人物生成流水线，它在姿势转移和修复方面进行了训练，但能够进行多样化的服装叠层和编辑任务，而无需直接监督。虽然我们的结果是有希望的，但仍存在一些限制和失败模式。其中一些在图15中有所示：复杂或罕见的姿势不总是正确渲染，不保留不寻常的服装形状，存在一些幽灵伪影，服装上的孔洞不总是填补得当。更一般地说，我们的方法的阴影、纹理变形和服装细节保留，虽然比其他最近的方法更好，但仍然不完全逼真。将来，我们计划通过更先进的变形和更高分辨率的训练和生成来提高输出质量。0致谢。本工作部分得到NSF资助，编号为IIS 1563727和IIS1718221，Google研究奖，亚马逊研究奖和AWS机器学习研究奖。146460参考文献0[1] Zhe Cao，Gines Hidalgo，Tomas Simon，Shih-EnWei和YaserSheikh。Openpose：使用部分关联场进行实时多人二维姿势估计。IEEE模式分析与机器智能交易，43（1）：172-186，2019年。0[2] M. Cimpoi，S. Maji，I. Kokkinos，S. Mohamed和A.Vedaldi。在野外描述纹理。在IEEE计算机视觉和模式识别会议（CVPR）论文集中，2014年。0[3] Haoye Dong，Xiaodan Liang，Xiaohui Shen，BochaoWang，Hanjiang Lai，Jia Zhu，Zhiting Hu和JianYin。面向多姿势引导的虚拟试穿网络。在IEEE/CVF国际计算机视觉会议论文集中，第9026-9035页，2019年。0[4] Haoye Dong，Xiaodan Liang，Yixuan Zhang，XujieZhang，Xiaohui Shen，Zhenyu Xie，Bowen Wu和JianYin。使用对抗解析学习进行时尚编辑。在IEEE/CVF计算机视觉和模式识别会议论文集中，第8120-8128页，2020年。0[5] Patrick Esser，Ekaterina Sutter和Bj¨ornOmmer。用于条件外观和形状生成的变分U-Net。在IEEE计算机视觉和模式识别会议论文集中，第8857-8866页，2018年。0[6] Artur Grigorev，Artem Sevastopolsky，AlexanderVakhitov和VictorLempitsky。基于坐标的纹理修复用于姿势引导的人体图像生成。在IEEE/CVF计算机视觉和模式识别会议论文集中，第12135-12144页，2019年。0[7] Rıza Alp G¨uler，Natalia Neverova和IasonasKokkinos。Densepose：野外密集人体姿势估计。在IEEE计算机视觉和模式识别会议论文集中，第7297-7306页，2018年。0[8] Xintong Han，Xiaojun Hu，Weilin Huang和Matthew RScott。Clothflow：用于穿着人物生成的基于流的模型。在IEEE/CVF国际计算机视觉会议论文集中，第10471-10480页，2019年。0[9] Xintong Han，Zuxuan Wu，Zhe Wu，Ruichi Yu和Larry SDavis。Viton：基于图像的虚拟试穿网络。在IEEE计算机视觉和模式识别会议论文集中，第7543-7552页，2018年。0[10] Martin Heusel，Hubert Ramsauer，ThomasUnterthiner，Bernhard Nessler和SeppHochreiter。通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。神经信息处理系统进展，30，2017年。0[11] Wei-Lin Hsiao，Isay Katsman，Chao-Yuan Wu，DeviParikh和KristenGrauman。Fashion++：用于服装改进的最小编辑。在IEEE/CVF国际计算机视觉会议论文集中，第5047-5056页，2019年。0[12] Xun Huang和SergeBelongie。实时自适应实例归一化的任意风格转移。在IEEE国际计算机视觉会议论文集中，第1501-1510页，2017年。0[13] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou和Alexei AEfros。带条件对抗的图像到图像转换。0对抗网络。在IEEE计算机视觉和模式识别会议论文集中，第1125-1134页，2017年。0[14] Nikolay Jetchev和UrsBergmann。条件类比生成对抗网络：在人物图像上交换时尚文章。在IEEE国际计算机视觉会议工作坊论文集中，第2287-2292页，2017年。0[15] Tero Karras，Samuli Laine和TimoAila。基于样式的生成对抗网络生成器架构。在IEEE/CVF计算机视觉和模式识别会议论文集中，第4401-4410页，2019年。0[16] Kathleen M Lewis, Srivatsan Varadharajan和IraKemelmacher-Shlizerman.Vogue：通过StyleGAN插值优化进行试穿。arXiv预印本arXiv:2101.02285，2021年。0[17] Kedan Li, Min Jin Chong, Jingen Liu和David Forsyth.通过形状匹配和多次变形实现准确逼真的虚拟试穿。arXiv预印本arXiv:2003.10817，2020年。0[18] Kedan Li, Min Jin Chong, Jeffrey Zhang和Jingen Liu.关注细节的准确逼真的服装可视化。在IEEE/CVF计算机视觉与模式识别会议论文集中，页码15546-15555，2021年。0[19] Peike Li, Yunqiu Xu, Yunchao Wei和Yi Yang.人体解析的自我校正。IEEE模式分析与机器智能交易，2020年。0[20] Yining Li, Chen Huang和Chen C

下载后可阅读完整内容，剩余1页未读，立即下载