没有合适的资源?快使用搜索试试~ 我知道了~
3440弱监督的高逼真度服装模型生成冯瑞丽1,马成2,3,沈成吉2,3,高欣3,刘振江3,李晓波3,欧凯日3,赵德利3,查正军1*1中国科学技术大学,安徽2浙江大学,杭州,中国3中国杭州阿里巴巴集团ruilifengustc@gmail.com,{cheng.ma,chengji.shen} @ zju.edu.cn,{zimu.gx,stan.lzj,xiaobo.lixb} @ alibaba-inc.com,{mailokr,zhaodeli} @ gmail.com,zhazj@ustc.edu.cn摘要随着网络经济的发展,人们对在产品服装上生成模特形象,展示新服装,促进销售的需求也越来越大。然而,昂贵的专有模型图像在这种情况下挑战了现有的图像虚拟试穿方法,因为它们中的大多数需要在相当大量的模型图像上进行训练,所述模型图像伴随有成对的衣服图像。在本文中,我们提出了一种廉价但可扩展的弱监督方法,称为深度生成投影(DGP),以解决这个特定的sce- nario。该方法的核心是模仿人类预测佩戴效果的过程,这是一种基于生活经验的无监督想象,而不是从监督学习的计算规则。这里使用预先训练的StyleGAN来捕获佩戴的实际经验。实验表明,将服装和身体的粗略对齐投影到StyleGAN空间可以产生照片般逼真的穿着结果。在真实场景专有模型图像上的实验表明,DGP在生成服装模型图像时优于几种最先进的监督方法。1. 介绍在产品服装上拍摄模特的照片是在线服装零售商展示服装和促进销售的基本需求。然而,雇佣模特和专业工作室来拍摄穿着每件衣服的照片是非常昂贵的。因此,图像虚拟尝试-在[11,12,15,22,24,30,42,47,53,56]中,从服装和模特图像生成穿戴结果的技术迅速引起了学术界和工业界的广泛兴趣。*通讯作者模特服装合成结果图1.给定一组带有内衣和不同服装图像的商业模型,该方法可以生成具有清晰纸样重构的真实服装模型结果。然而,一个实用的算法必须考虑将其应用于工业场景的成本。现有的图像虚拟试穿(VTO)方法训练起来非常昂贵。他们中的大多数[22,28,30,41,53,56]都是在衣服和衣服上的人的配对图像数据上训练的。这样的配对数据消耗相当大的劳动力成本,因此不可能大规模收集。此外,服装模型生成的测试数据应该是专有的模型图像,因为只有它们才能合法地用于电子商店网站的最终显示。这些图像是非常昂贵的,因为聘请商业模式和购买所有必要的权利。因此,算法应避免依赖于那些专有的模型图像3441在训练中,同时设法承受测试和训练差异所带来的不可忽视的性能下降。为了应对这些挑战,我们提出了深度生成投影(Deep Generative Projection,DGP),这是一种强大的弱监督方法,可以在从Web收集的廉价未配对数据上进行训练时产生逼真的试穿结果,其动机是人们在挑选衣服时预测他们的样子。这是一种基于生活经验的想象,而不是从成对的注释中学到的规则人们可以拿起衣服并将衣服对准他们的肩膀或脖子,然后他们想象穿着这些衣服的照片。遵循这一思想,DGP方法在服装模型生成场景中再现了这一过程。给定服装图像和专有模型图像,我们首先通过四个身体关键点的简单透视变换[ 40 ]将服装与模型然后,我们将这个粗略的对齐映射到预训练的StyleGAN的合成空间上[32,33]。StyleGAN是在从网络上收集的大量无监督时尚图像上训练的因此,它代表了真实世界的穿着知识.一对夫妇的语义和模式搜索将产生现实的服装模型图像,如图1所示。整个算法在训练过程中不需要配对数据或专有模型图像,因此适用于工业场景。总之,本文的贡献包括:• 我们提出了第一个框架,以产生服装模型图像的网上服装店,这还没有得到足够的重视,在虚拟试穿社区;• 该方法在训练过程中只消耗非配对数据,不需要专用的模型图像,比现有的大多数方法更适用于工业应用• 我们的弱监督方法在数值和视觉质量方面都显着优于一些最先进的监督竞争对手,并在预处理错误下表现出良好的鲁棒性。2. 相关作品虚拟试穿虚拟试穿方法可以广泛地分为基于3D的方法[6,19,43,43,44,46]和2D基于图像的[8,11,21,22,30,53,56,58]方法。由于3D方法通常在收集数据或物理模拟时引入额外的资源,因此2D方法通常更受欢迎。许多现有的2D方法[8,12,16,21,22,30]将试穿过程分成翘曲过程和合成过程。变形过程学习使目标服装变形以适应模型图像的形状,而合成过程尝试合并变形的服装图像与模型图像。这种方法需要成对的数据[22]来监督翘曲模块的训练虽然GAN图像合成的最新进展也启发了基于预训练GAN的2D方法。VOGUE [37,38]采用插值在预训练的Style- GAN的潜在空间中搜索可以生成目标服装的潜在代码StylePoseGAN [48]和pose with style[3]探索了预训练StyleGAN的丰富风格空间,以操纵合成图像的姿势。这些作品通常忽略了编码器或反转技术的讨论,以将原始图像发送到StyleGAN。它们在精确地重建衣服图案时也经常遇到麻烦,并且丢失了人或目标服装图像的某些语义信息StyleGANStyleGAN [31自从提出以来,在图像处理的各个领域中使用StyleGAN吸引了广泛的兴趣[49,51,55,56,59]。最以前的工作发现,风格空间[23,49,51,59,60],在StyleGAN生成器的第一个8层MLP之后的特征层,揭示了对合成图像的迷人语义控制随后的研究[45,55]也证实了StyleGAN发生器的更深层具有类似甚至更强的能力。作为StyleGAN处理真实图像的预处理,将真实图像反演到StyleGAN的风格空间也受到了特别的关注。Im-age 2StyleGAN [1,2]通过基于距离度量解决优化问题来找到反转的样式代码。而pSp [45]和e4e [52]训练显式编码器以获得样式代码,并声称显式编码器可以为后续操作获得更有意义的语义。3. 任务设置在本文中,新提出的服装模型生成任务是不同于典型的VTO场景。差异阐述如下。训练和测试环境之间的差距专有模型图像太昂贵,无法构建足够大的训练集。因此,算法应该避免在训练过程中依赖这些图像然而,他们需要在这些图像上测试性能,因为只有专有模型图像才能合法地用于产品展示。一般来说,服装模型生成任务的解决方案在这种困境下应该是稳定的。模特的原始服装穿着厚长袖衣服的模特可能会干扰图像生成过程。虽然这里的任务与模型的原始衣服无关,但我们只考虑简单的无袖衣服,如内衣或背心。3442图2.提出的DGP方法的框架。模型和服装图像的粗略对准xa(a)被馈送到新的投影算子(b),该投影算子(b)截断对准图像的缺陷,并将其转换为投影代码w 0,该投影代码w0在StyleGAN合成空间G θ上产生逼真的合成和相似的语义。这个过程是通过将预先训练的编码器E的编码代码E(xa)投影到样式空间的高密度区域上来然后,语义搜索(c)解决StyleGAN的合成空间上的约束优化问题,以找到恢复缺失语义的语义代码w1。 模式搜索(d)进一步将StyleGAN参数的部分从θ调整到θ + θθ。新的合成空间Gθ+θ然后精确地重建Gθ+θ(w1)中的原始服装的图案。Gθ+θ(w1)是DGP方法的最终输出。Benchmark收集商业模型图像数据集(CMI)作为真实场景应用的基准。CMI数据集包括2,348张内衣模特的图像所有模特照片均由专业摄影师拍摄,并享有肖像权.此外,我们还从电子商务平台上收集了1,881张背景干净的服装图片,平均包含16个类别,以及相应的类别注释。服装图像和模特图像之间没有配对关系,并且这两个图像在训练阶段都不可用。有关本数据集的详细信息,请参阅补充资料4. 深层生成投影概述给定一个模型图像和一个服装图像,我们遵循人们预测试穿结果的过程,并将其分解为快速的第一印象,并进一步仔细考虑印象。为了模仿第一印象,在StyleGAN空间上采用了一种新的投影算子。它将衣服和身体的粗略对齐投射到预先训练的StyleGAN的合成空间与典型的GAN编码文献不同,这里我们不追求粗略对齐的精确重建,而是一个保留相似语义但保持合成保真度的域所提出的方法的印象的进一步仔细考虑是通过两个细粒度的信息搜索在编码器投影一个是在StyleGAN的特征空间中进行语义搜索它恢复在投影阶段丢失的语义信息另一种是在StyleGAN的参数空间中进行模式搜索,重建服装的纸样。通过在编码器投影附近严格限制这两个步骤,我们可以精确地重建目标服装,同时保持通常StyleGAN合成的保真度。一个简单的审查所提出的方法提供图。二、粗略对齐粗略对齐在颈部、臀部、肘部和手腕的关键点对齐布料和模型,如图2(a)所示。颈部和臀部关键点的对齐通过透视变换[40]实现,而肘部和手腕的对齐通过尽可能刚性(ARAP)算法[4,27,29]ARAP算法是一种经典的非参数变形算法,能够有效地控制关键点的对齐。对于不同类型的衣服,对齐规则允许略有差异。例如,无袖衣服不涉及肘部和手腕的对齐。如果手或手臂在身体前面,它们将被进一步裁剪并粘在对齐的图像上以保持一致性。详见补充资料。为了训练StyleGAN,我们从互联网上收集了180,000个服装模型图像的电子商店时尚(ESF)数据集图像都被裁剪到下巴和大腿之间的区域,并调整到分辨率3443×1WWWW11WWWWWW--nnnP512512整个数据集分为170,000个训练样本和10,000个测试样本。StyleGAN在训练数据集上进行训练,训练终止于计算为s=E(xa),(1)FID评分为2.16。更多关于StyleGAN的信息,ESF数据集可以在补充材料中找到。4.1. 投影预测是DGP成功的关键w0= Tr(q1s1<$σ1+. qnsn<$σn)+µ (2)=Q~2Tr(s)+μ,(3)其中Tr是具有截止系数的截断算子n>0,使得方法,因为它提供了一个紧凑和丰富的域的子Tr(v)=.v,v2<,(四)仔细考虑细节。本节从理论上对我们的任务中的良好投射进行了阐述。vv,风格空间的高密度区域根据之前对StyleGAN合成的研究 [1 , 49 , 51 , 60] , 我 们 专 注 于 将 图 像 投 影 到StyleGAN 生成器 G的风格 空间+ 。样式 空间+ 是由StyleGAN生成器的前8层MLP生成的特征层。它揭示了语义特征的迷人解缠[33,49]。与专注于输入的精确重建的GAN反演[1,2,45,52]技术不同,这里我们更关心合成保真度而不是重建精度。这是因为粗略对齐的精确重建对于我们的任务是无用的作为特征空间,样式空间+中的点不是均匀分布的。以前的工作[1,33,49]已经证明,较高采样概率密度的区域可以产生比较低密度的区域更合理的合成。 为了在逼真度和相似性之间取得良好的平衡,投影应该始终落在风格为简单起见,我们将调用w=P(x)=Tr(QE(xa))+µ(5)作为投影,P是投影仪。给定粗略对准图像xa,投影仪P用于将其投影到StyleGAN的合成空间上,如w= P(xa)。(六)投影器的性质投影器在截断后可能会丢失小主成分所代表的某些信息,但它会强制投影落在风格空间的高密度区域。严格地说,我们有以下定理:定理1假设+服从多变量高斯分布,则投影仪P的输出将始终落在W +的高密度区域, 是一个n维椭圆E,轴为q1,..., qn和轴长度<$σ− 、...、ψσ− . 严格地说,让ω指n2 2空间W+,并为每个语义1n−1成分因此,我们建议将粗略对齐投影到+空间的每个主成分上,而不是直接将其投影到如果每个分量上的投影远远超过该分量上+空间的平均强度,则进一步截断稍后我们将证明这个操作如何帮助将投影锚定在高密度区域内严格地说,我们在StyleGAN的+空间上采样了500万个点,并计算这些点的PCA分解[54]。然后,我们得到+ 的均 值 μ 、 协 方 差 矩 阵 μ 和 一 组 主 成 分 Q =(q1,., qn)连同它们的强度存储在Λ = diagσ1,...,σ n,其中n表示 +,且n=QΛQT。 然后,代替训练编码器E以直接学习样式代码,我们提出学习一系列主要强度s =(s1,s2,., s n)T,并截断这些主要强度以在适当区域中再现样式代码。给予n-1维单位球的体积,对于随机从W+采样w,它在E之外的可能性是P(w∈/E)=P(χ2>χ2),(7)其中,χ2是n维卡方分布[36],并且P(χ2> χ2)随着k的增大而急剧下降到零;对于任意输入x,我们有P(x)∈ E={w:(w−µ)T<$−1(w−µ)≤<$2}。( 八)投影机的培训我们采用一个简单的ResNet50[25]架构,并在预训练的StyleGANG的训练数据分布p数据上训练投影仪P。训练损失由像素相似度Lp、感知相似度Lf、属性相似度Lf和属性相似度Lf组成。相似性Lattr和对抗性保真度Ladv:minλpLp+λfLf+λattrLattr+λadvLadv,(9)34442其中λ p,λ f,λ attr,λ adv是超参数。像素相似性直接通过像素空间中的l2粗略对准图像xa,然后可以将样式代码w0Lp=ExP数据 [G(P(x))− x<$2]。(十)344522D222感知相似性由预训练的VGG16网络V捕获。VGG16[50]网络V在ImageNet [9]上训练,最后一个卷积层作为特征空间来计算相似度:Lf= E xp数据[<$V(G(P(x)− V(x)<$2]。(十一)属性相似性由预先训练的服装属性分类器R捕获,该分类器在FashionAI [61]数据集上训练这是一个简单的ResNet50 [25]架构,可以识别服装的七种不同属性,例如袖子和领口的类型。最后的卷积层作为特征空间来计算相似度:(有关属性分类器的详细信息,请参见教程材料)图3.投影机的想象力。第一行显示了输入,每个输入都有一些不切实际的缺陷。第二行显示投影的结果。虽然编码器无法保留原始图像的所有语义和细节,但由于它位于StyleGAN的高密度区域内,因此它总是生成合理的输出。Lattr=ExPap 数据 [<$R(G(E(x)−R(x)<$2]。(十二)4.2. 语义搜索投影仪发现的样式代码w只能通过对预训练好的StyleGAN生成器G和StyleGAN生成器D进行对抗博弈计算对抗保真度损失。要求PGD将投影图像G(P(x))与真实图像区分开,并且要求投影仪尝试通过投影来欺骗PGD图像到更高保真度的区域。生成器网络G在训练期间被冻结,而P和D在训练典型的GAN时交替优化[18]:再现一些高级语义(如服装的风格和类别,模特的姿势为了获得细粒度的语义,我们需要在投影的邻域内进行优化引导的优化问题minηplp+ηflf+ηattrlattr+ηadvladv,(14)w∈CLadv=最大Ex最大p数据 [log(1−D(G(P(x)]+ log(D(x))]。(十三)lp=<$W<$G(w)−W<$xa<$2,(15)lf=<$V(W<$G(w))−V(W<$xa)<$2,(16)lattr=<$R(W<$G(w))−R(W<$xa)<$2,(17)ladv=log[1−D(G(w))],(18)投影机的想象能力投影机可以作为任意图像输入的迷人特征提取器。虽然它只被训练来重建真实图像,但它也可以从拼接,涂鸦或扭曲产生的不真实图像中提取语义特征。然后可以将提取的特征发送到生成器,以合理的方式再现这些语义图3示出了投影仪的这种能力这种能力是通过迫使编码器的输出在训练期间停留在生成器的高密度域内来赋予的。因此,无论什么样的输入都将被投影到生成器知识的合适域,该域仅产生看似合理的图像。投影机与SOTA编码器正如我们所解释的,投影机的设计是为了鼓励保真度,而不是重建的在这里,我们将其repercation与最先进的StyleGAN编码器pSp [45]进行比较。结果报告于图1中4.第一章当处理不切实际的粗略对准结果时,投影仪产生的结果比pSp更合理。另一方面,pSp忠实于粗略比对,因此可以继承不切实际的效果并生成低保真度的图像3446C0,I(ij)= 0。(十九)其中是w的邻域,R和V是预先训练的服装属性分类器,VGG 16网络在第二节中介绍。4.1中,xa为服装与模特的粗配向,ηp,ηf,ηattr,ηadv为超参数,W为动态空间权值矩阵,用于调整不同区域间的优化强度。身体和衣服的中心区域具有较高的权重,而边缘区域具有微小的权重。这种设计允许生成器根据中心区域调整合成的边缘内容。我们加强了w的限制,以保持高合成保真度的StyleGAN域内的整体优化。动态空间权重W动态空间权重矩阵是模型身体和对齐衣服的交叉点上的指数函数。 令I表示身体和衣服 的 相 交 的 识 别 函 数 , I 表 示 其 边 界 , 并 且 d((i,j),I)表示像素位置(i,j)到I的边界的距离,则W被计算为.1 − exp(−d((i,j),<$I)2),I(ij)= 1,Wij=3447∇C∈ C∥ −∥CWCC∈C∈Cw∈C粗略对准PSP预测(我们的)算法1投影梯度下降。输入:超参数γ,目标f(w),凸约束区域,初始点w0,计数器k=0. 重复计算f在wk处的梯度为f(wk)。更新wk通过wk+1= wk− γ<$f(wk)。(二十一)图4.投影仪与pSp [45].pSp将生成与输入图像不而投影仪总是生成似是而非的图像,而不管输入。项目wk+1回到C,wk+1=arg min wk+1w.(二十二)w∈C将计数器更新为k=k+1。直到聚合。输出:问题(20)的数值解wk。粗略对准投影模式搜索(带PGD)模式搜索(无PGD)图5.预测梯度下降(PGD)的影响[39]。在没有PGD的情况下,模式搜索的结果将倾向于过拟合原始粗略对准图像,这是我们在这个阶段不希望的,因为粗略对准的扭曲通常是错误的。关于计算W的更详细的说明可以在补充材料中找到求解约束为了确保我们-tic搜索停留在StyleGAN知识空间的高密度区域,我们使用了在对抗攻击领域广泛使用的约束优化策略[13,20,39]。给定一个凸优化问题[5]最小f(w)s. t. w ∈ C,(20)其中是一个凸集,我们可以通过在每次梯度下降迭代后将更新的参数投影到上来求解它,如算法1[39]所示。在实验中,我们发现球形邻居-邻域约束w的必要性邻域约束w在语义搜索中是非常重要的.图5报告了使用和不使用它的结果如果没有这个约束和投影梯度下降(PGD),优化很快就会耗尽生成器的高密度区域,并产生难以置信的细节。4.3. 模式搜索预训练生成器包含丰富的语义信息。然而,对于像字符这样的特定模式,我们可能无法通过语义搜索准确地重建它。我们的策略在这里转向优化生成器的一些关键参数θ,以我们发现优化StyleGAN网络中的侧向噪声注入参数[1,2,14,32这些参数被证明决定了生成图像的局部细节和随机变化,正如StyleGAN [32,33]的原始论文中仔细研究的那样。由于我们的目的是优化只涉及像素损失和对抗损失以保持保真度:hood足以将优化约束在StyleGAN知识空间的高密度区域因此,我们将C设置为以投影仪输出w0为中心的球B(w0,4minθ∈B(θ0,4)ηp<$W<$Gθ(w)−W<$xa<$2+ log(1−D(Gθ(w),(二十五)半径4。注意,问题(22)然后具有封闭形式,解决方案:wk+1=argminwk+1−w(23).w0+ 4wk+1 −w,wk+1− wm2> 4,3448其中θ0是预先训练的StyleGAN中这些参数的初始值,B(θ0,4)是以它为中心的半径为4的球。我们再次用算法1解决这个问题。结果是DGP管道的最终输出。5. 实验=wk+1 −w2wk+1,wk+1− w2≤ 4。(二十四)在 这 部分 我们 评价 的 建议弱-然后,问题(14)可以通过算法1有效地解决。从四个不同的方面对有监督3449百分之三十百分之五十四百分之十一百分之四十八百分之三十二百分之十六百分之二十四百分之六十一百分之十三百分之二十三百分之六十二百分之十三仅模型投影仅服装服饰表1. CMI和MPV数据集上DGP、ACGPN、PF-AFN和VITON-HD的数值指标。 ↓表示越低越好。方法CMI MPVFID↓SWD↓FID↓SWD↓ACGPN [56]法国国家足球队[16] 97.3 76.7 67.8 67.1VITON-HD [8] 87.5 56.140.652.7图6.单独优化θ可以恢复更好的纹理细节。优化w单独恢复更好的语义信息,如服装特征的整体颜色和形状。同时优化θ和w得到最优结果。将其与几个受监督的最先进竞争对手进行比较。秒5.1证明了DGP方法的优化成分的效果。秒5.2评估了DGP方法在服装模型生成上的性能,以对抗在配对图像数据上训练的一些监督竞争者。在这里,我们重点介绍三种最先进的监督方法,VITON-HD [8],PF-AFN [16]和ACGPN [56]。对于所有这些监督方法的实验 ,我们使用其官方reposito-ries中提供的预训练模型[7,17,57]。秒5.3进一步评估了MPV [11]数据集的性能,该数据集与竞争对手方法的训练数据[22]值得一提的是,他们最初的训练集VITON [22]不再合法用于学术用途,因此MPV [11]可能是我们可以找到的竞争对手方法的最令人愉快的数据集。秒5.4评估了所提出的方法对预处理中错误的鲁棒性在本文中,语义和模式搜索的优化在投影梯度下降1,000步后终止补充材料包括记录训练和优化目标的超参数选择的表。5.1. 消融研究在本节中,我们进行了大量的实验来验证DGP方法的两个优化组件。如图6所示,单独优化θ可以恢复更好的纹理细节,但在重建语义信息方面效果较差相反,单独优化w可以恢复更好的语义信息,如整体颜色和形状,但模式和字母的细节较差。同时优化θ和w会产生最优结果。5.2. 服装模型生成真实场景服装模型生成任务要求算法处理未知分布的未见过模型和服装图像为了评估这种情况下的算法,我们在第二节介绍的CMI基准数据集上进行实验。3,这是不可用的所有方法在培训期间。对于CMI数据集的每个模型图像,我们从DGP(我们的)51.6 22.4 48.436.74%2%2%(a) 最清晰的图案(b)最佳的变形(c)最佳的整体效果5%1% 6%(d)最清晰的图案(e)最佳的变形(f)最佳的整体效果图7. CMI( (a ) ,(b ) ,(c ) )和 MPV( (d ) ,(e),(f))数据集的用户研究。所提出的弱监督方法在所有三个方面都显著优于1,881张CMI服装图片它产生了一个测试集的2,348模型和服装对。所有定性和定量评价均在2,348个图像对上进行。结果报告于图7、图8和图10中。1.一、定性比较图8报告了CMI数据集的定性比较。结果从三个方面反映了该方法的优点。首先,虽然没有在CMI数据集上进行训练,但所提出的方法仍然可以正常工作,具有真实的合成。竞争者总体上不太令人满意,在复杂的看不见的衣服的情况下工作很差第二,所提出的方法合成了许多清晰的模式,而竞争对手的方法往往模糊的模式。第三,所提出的方法可以处理复杂的衣服,如大衣,但竞争对手的方法往往在这些情况下失败。定量比较为了定量比较DGP与其竞争对手,我们还测量了结果图像的Fre'chect起始距离(FID)[26]和切片Wasserstein距离(SWD)[10,34,35虽然CMI数据集不包含地面实况数据,但这里使用前面提到的E-ShopFashion数据集的测试集作为参考图像。所有图像都被裁剪为百分之二十二百分之六十百分之十二百分之二十一百分之六十四百分之十四3450×服装型号ACGPN PF-AFN VITON-HD DGP(Ours)服装型号ACGPNPF-AFN VITON-HD DGP(我们的)图8.比较CMI和MPV数据集。监督竞争对手的方法基本上没有那么吸引人,并且在大衣等复杂服装上表现得特别差。相同的区域,然后调整大小为512 512分辨率为了公平的比较。结果报告在表1中。 1.一、 从三个方面进一步对佩戴结果的视觉质量进行用户研究:1)哪种方法产生最清晰的图案; 2)哪种方法产生最真实的佩戴;3)哪种方法产生最佳的整体效果。结果报告于图7中。数值指标和用户研究证实了所提出的方法的优越性。用户研究的详细内容见补充材料。5.3. MPV数据集为了在不公平的情况下挑战所提出的DGP方法,我们进一步比较了MPV数据集上所有这些方法的结果。MPV数 据 集 收 集 自 与 VITON 数 据 集 相 同 的 来 源,VITON数据集是竞争对手方法的训练集,由于法律问题不再可用。虽然DGP没有在MPV或VITON上训练,但在这种情况下的优越性可能更具吸引力。我们从MPV数据集中挑选了1,476个人和衣服的图像对来构建测试集。我们在图8中报告了定性比较,在Tab中报告了FID和SWD的数值指标。1,用户研究结果见图7。这里,来自MPV的1,476个图像的独立采样被用作计算FID和SWD的参考图像该方法在大多数方面仍然保持优势,并产生与CMI数据集相同的吸引人的结果。5.4. DGP的稳健性二、想象力。4.1的投影机对于服装模特一代来说非常有吸引力。因此,本节将进一步研究这种能力如何帮助DGP方法克服了预处理阶段的错误我们故意为DGP方法提供有缺陷的粗略对齐图像,例如丢失的服装部分,错误的关键点对齐和锯齿形服装边界。然后我们观察DGP方法如何处理这些错误。结果在补充材料中报道,这证实DGP可以很容易地纠正这些微小的错误,并在最终结果中产生逼真的合成。6. 结论研究了在线服装零售中的服装模型生成我们提出了一种弱监督的方法,以减轻典型的虚拟试穿算法对成对训练数据的需求。所提出的方法将服装图像扭曲到模特身体上的问题转化大量的实验表明,我们的非配对方法优于几个SOTA竞争对手训练配对数据。未来的研究将集中在减少时间消耗和增加极其复杂的模型姿势的通用性。确认本 工 作 得 到 了 国 家 重 点 研 发 项 目 2020 AAA0105702、国家自然科学基金U19 B2038、安徽省高校协同创新项目GXXT-2019-025和阿里巴巴-浙江大学前沿技术联合研究院的支持MPV数据集CMI数据集3451引用[1] Rameen Abdal, Yipeng Qin ,and Peter Wonka. Im-age2StyleGAN:如何将图像嵌入到StyleGAN的潜在空间?在国际会议计算中目视,第4432-4441页,2019年。二、四、六[2] Rameen Abdal, Yipeng Qin, and Peter Wonka. Im-age2StyleGAN ++:如何编辑嵌入的图像?在IEEE Conf.Comput.目视模式识别,第8296-8305页,2020年。二、四、六[3] Badour AlBahar , Jingwan Lu , Jimei Yang , ZhixinShu , Eli Shechtman , and Jia-Bin Huang. Pose withstyle:使用条件StyleGAN进行细节保留姿势引导的图像合成。arXiv预印本arXiv:2109.06166,2021。2[4] Marc Alexa,Daniel Cohen-Or和David Levin。尽可能刚性 的 形 状 插 值 。 在 Proceedings of the 27th AnnualConferenceonComputerGraphicsandInteractiveTechniques,pages 157-164,2000中。3[5] StephenBoyd , StephenPBoyd , andLievenVandenberghe.凸优化剑桥大学出版社,2004年。6[6] 雷米·布鲁埃,阿拉·谢弗,劳伦斯·布瓦西厄,玛丽·保尔·卡尼.设计保留服装转移。 ACM Trans.Graph. ,31(4):Article-No,2012. 2[7] Seunghwan Choi,Sunghyun Park,Minsoo Lee,andJaegul Choo. VITON-HD-官方pytorch实现。https://github.com/shadow2496/VITON-HD,2021年。7[8] Seunghwan Choi , Sunghyun Park , Minsoo Lee , andJaegul Choo. VITON-HD:通过误操作感知标准化实现高分辨率虚拟试穿。在IEEE会议Comput.目视模式识别第14131二、七[9] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei.Imagenet:一个大规模的分层图像数据库。在IEEE Conf. Comput.目视模式识别,第248Ieee,2009年。5[10] Ishan Deshpande,Ziyu Zhang,and Alexander G Schwing.使用切片Wasserstein距离的生成式建模。在IEEE会议Comput. 目视模式识别,第34837[11] Haoye Dong , Xiaodan Liang , Xiaohui Shen , BochaoWang,Hanjiang Lai,Jia Zhu,Zhiting Hu,and Jian Yin.多位姿导引虚拟试穿网路之研究。在国际会议计算机上。目视,第9026-9035页,2019年。一、二、七[12] Haoye Dong , Xiaodan Liang , Xiaohui Shen , BowenWu,Bing-Cheng Chen,and Jian Yin. FW-GAN:用于视频虚拟试穿的流导航翘曲GAN。Comput.目视,第1161-1170页,2019年。一、二[13] Yinpeng Dong , Fangzhou Liao , Tanyu Pang , HangSu,Jun Zhu,Xiaolin Hu,and Jianguo Li.以势头增强对抗性 在IEEE会议Comput. 目视模式识别,第9185-9193页,2018。6[14] 冯瑞丽,赵德利,查正军。了解GAN中的噪声注入。在Proc. Int. Conf. Machine Learning,第3284-3293页中。PMLR,2021年。6[15] Xin Gao,Zhenjiang Liu,Zunlei Feng,Chengji Shen,Kairi Ou,Haihong Tang,and Mingli Song.内衣模特的形状可控虚拟试穿 在ACM Int. Conf. 多媒体,第563-572页,2021年。13452[16] Yuying Ge,Yibing Song,Ruimao Zhang,ChongjianGe,Wei Liu,and Ping Luo.无解析器虚拟试穿通过蒸馏外观流。 在IEEE会议Comput. 目视模式识别,第8485-8493页,2021。二、七[17] Yuying Ge ,Yibing Song,Ruimao Zhang,ChongjianGe,Wei Liu,and Ping Luo.无解析器虚拟试穿通过蒸馏 外 观 流 。 https://github.com/geyuying/PF-AFN,2021. 7[18] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。高级神经信息过程系统,27,2014. 5[19] Peng Guan , Loretta Reiss , David A Hirshberg ,Alexander Weiss,and Michael J Black.披巾:给任何人穿衣。ACM事务处理图表,31(4):1-10,2012. 2[20] Chuan Guo , Jacob Gardner , Yurong You , AndrewGordon Wilson,and Kilian Weinberger.简单的黑盒对抗攻击。InProc. Int. Conf. Machine Learning,pages 2484-2493. PMLR,2019年。6[21] Xintong Han,Xiaojun Hu,Weilin Huang,and MatthewR Scott. Clothflow:一个基于流的服装人物生成模型。在国际会议计算中目视,第10471-10480页,2019年。2[22] Xintong Han,Zuxuan Wu,Zhe Wu,Ruichi Yu,andLarry S Davis. VITON:基于图像的虚拟试穿网络。在IEEE Conf. Comput.目视模式识别,第7543-7552页,2018年。一、二、七[23] 埃里克·哈克·奥南、亚伦·赫茨曼、雅克·科莱蒂宁和西尔万·帕里斯.GANspace:发现可解释的GAN控制。 Adv.神经信息。过程系统,33:98412[24] StefanHauswiesner , MatthiasStraka 和 GerhardReitmayr。通过基于图像的渲染进行虚拟试穿。IEEETrans.目视Comput. Graph. ,19(9):1552-1565,2013. 1[25] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE会议Comput. 目视模式识别,第770四、五[26] Martin Heusel,Hubert Ramsauer,Thomas Unterthiner,Bern-hard Nessler,and Sepp Hochreiter.由两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。高级神经信息过程系统7[27] Takeo Igarashi,Tomer Moscovich,and John F Hughes.尽可 能刚性 的形状 操作。 ACM事务 处理图 表, 24(3):1134-1141,2005. 3[28] ThibautIssenhuth,Je're'mieMary,andCle'mentCalauzenes. 不要屏蔽你不需要屏蔽的东西:一个无解析器的虚拟尝试。确认补偿目视,第619Springer,2020年。1[29] Alec Jacobson, Ilya Baran ,Jovan Popovic , and OlgaSorkine.实时变形的有界双调和权重ACM事务处理图表,30(4):78,2011. 3[30] Hyug Jae Lee , Rokkyu Lee , Minseok Kang ,Myounghoon Cho,and Gunhan Park. LA-VITON:一个网络寻找有吸引力的虚拟尝试。 在Int. Conf. Comput. 目视,第0一、二[31] Tero Karras , Timo Aila , Samuli Laine , and JaakkoLehtinen.GAN的逐步增长,以提高质量,稳定性和变化。在国际会议学习中。代表。,2018年。23453[32] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构,用于生成对抗网络。在IEEE Conf. Comput.目视模式识别,第4401-4410页,2019年。二、六[33] Tero Karras , Samuli Laine , Miika Aittala , JanneHellsten,Jaakko Lehtinen,and Timo Aila.分析和改进StyleGAN的图像质量。在IEEE Conf. Comput. 目视模式识别,第8110-8119页,2020。二
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功