没有合适的资源?快使用搜索试试~ 我知道了~
10511VTNFP:一个基于图像的保持人体和服装特征的虚拟试穿网络于瑞云1王晓琪1谢晓辉21东北大学软件学院2加利福尼亚大学计算机科学系,Irvine,CA 92617网址:yury@mail.neu.edu.cn,1701290@stu.neu.edu.cn,网址:www.example.com,xhx@uci.edu摘要以将期望的服装物品转移到人的相应区域上为目标的基于图像的虚拟试穿系统最近已经取得了很大的进步,但是在生成保留身体和服装细节的逼真图像方面仍然存在挑战。在这里,我们提出了一个新的虚拟试穿网络,称为VTNFP,合成照片逼真的图像给定的图像的一个穿着的人和一个目标服装项目。为了更好地保留服装和身体特征,VTNFP遵循三阶段设计策略。首先,它将目标服装转换为与给定人员的姿势兼容的变形形式接下来,它预测穿着目标服装的人的身体分割图,描绘身体部位以及服装区域。最后将变形后的衣服、人体分割图和给定的人物图像融合在一起,进行精细尺度的图像合成。VTNFP的一个关键创新是身体分割图预测模块,该模块提供关键信息以指导身体部位和衣服相交的区域中的图像合成,并且对于防止模糊图片和保留衣服和身体部位细节非常有益。在时尚数据集上的实验表明,VTNFP产生的结果比最先进的方法要好得多。1. 介绍随着越来越多的消费者在网上购买服装和配饰,允许消费者虚拟试穿衣服的技术不仅可以增强消费者的购物体验,还有助于改变人们购买时尚物品的方式。受此启发,已经提出了许多方法来解决虚拟试穿问题,这些方法可以大致分为两类:基于3D建模的方法[10,43,28,35,4],和基于2D图像的方法[13,30,11,39]。*通讯作者。传统的虚拟试穿方法主要是基于3D的。这类应用包括SenseMi、triMirror等。基于3D的方法依赖于计算机图形学来构建3D模型并渲染结果图像,可以很好地控制服装变形、材料性能等问题。然而,它们是计算密集型的,并且需要额外的信息来构建3D模型[35],这限制了它们在在线电子商务或实时AR应用中的采用。最近还提出了仅基于RGB图像的虚拟试穿方法[11,39,13,30]。这些方法将虚拟试穿描述为一个条件图像生成问题,如果证明有效的话,其资源消耗少得多,并且具有广泛应用的潜力另一方面,在没有3D信息的情况下生成感知上令人信服的虚拟试穿图像是困难的。为了使合成图像真实有效,它必须满足以下标准:1)保持人物的姿势和体型,并清晰地呈现身体部位;(二)不拟更换的衣物,例如长裤,应予以保存;(三)目标衣物应与该人拟更换的身体部分十分合身; 4)尽量保留目标服装的肌理和刺绣细节。最近的方法采取了两阶段的方法,首先将目标服装与给定人的体型对齐,然后将变形的服装和人的图像融合在一起。VITON [11]实现了一个由粗到细的框架,使用薄板样条(TPS)变换生成翘曲服装。CP-VTON [39]提出了一个几何匹配模块来直接学习TPS的参数以进行服装变形,以及一个单步合成网络来合并渲染的人和变形的服装图像。CP- VTON改善了服装细节的保存,但在保存不应该改变的身体部位和服装物品方面存在缺点。图1显示了VITON和CP-VTON生成的合成图像示例。有几个问题值得注意:(1)10512图1.三种不同方法的视觉比较两个模特2)左前臂变形(VITON)或穿着不正确(CP-VTON);3)CP-VTON在保持服装细节方面优于VITON,但服装与身体相互作用的区域模糊。我们认为,这些缺点背后有两个主要原因。首先,VITON和CP-VTON其次,重要的身体部位信息,如手臂和裤子,在最终的合成中没有完全表示。为了解决上述挑战,我们提出了一种新的基于图像的虚拟试穿方法,称为VTNFP。图2给出了VTNFP的概述,包括三个模块:1)服装变形模块,用于将目标服装与给定人的姿势对准。与CP-VTON算法不同的是,我们引入了自注意机制,使得相关匹配分量更加鲁棒;2) 分割图生成模块,其目标是生成穿着目标服装的人的身体分割图该模块是我们方法的关键贡献,主要负责其性能的提高;以及3)试穿合成模块,其将变形的衣服、预测的身体分割图和附加的辅助信息融合在一起以用于最终的图像合成。实验表明,VTNFP显著改进了虚拟试穿图像合成的最先进方法,生成的图像更好地保留了服装细节和身体部位(图1)。我们工作的主要贡献概述如下:• 我们提出了一个新的分割图生成模块来预测穿着目标服装的人的身体部位。我们证明了这样一个模块可以是ef-训练效果良好,有助于提高图像合成的性能。• 我们提出了一种新的图像合成网络,以融合来自预测的身体部位分割图、变形的衣服和其他辅助身体信息的信息,保存衣服和身体部位的细节。• 我们证明了我们的新方法在定性和定量方面都比最先进的方法表现得更好。图2.VTNFP的概述,包括三个模块-布料变形模块,分割地图生成模块和试穿合成模块。2. 相关工作2.1. 图像合成生成对抗网络(GAN)[9,29,6,48]是用于图像生成的最流行的深度生成模型之一,并且在许多应用中显示出令人印象深刻的结果条件GAN(cGAN)以某些输入信号为条件生成图像,例如属性[36],类信息[25],草图[33,20,41],文[31,46]和姿势[21]。图像到图像转换网络[12]根据输入图像合成新图像,但当条件图像与目标图像没有很好地对齐时,往往会生成模糊图像。在服装图像合成领域,[47]仅从单个视图生成多视图服装图像[45]从穿衣服的人的图像生成孤立的衣服图像[17]和[21]合 成 具 有 不 同 姿 势 的 穿 着 衣 服 的 人 的 图 像 。FashionGAN [50]根据时尚物品的文本描述生成服装图像。2.2. 人类解析与理解人类的解析和理解已被用于许多任务,如交通监督[2],行为识别[23]等。当前的算法通常可以分为三类:1)服装解析[18,42,8],2)身体部位解析[38,7],以及3)身体姿势解析,包括2D姿势[3],3D姿势[32]或身体形状[34]解析。105132.3. 虚拟试穿虚拟试穿方法大致可分为两类:基于3D身体建模的方法[10,43,28,35,4],以及仅基于2D图像的方法[13,30,11,39]。3D方法可以为虚拟试穿产生很好的效果,但需要额外的3D测量和更多的计算能力。基 于 2D 图 像 的 方 法 适 用 范 围 更 广 。 Jetchev 和Bergmann [13]提出了一种条件分析GAN来交换人物图像上的服装,但需要配对的服装图像来训练模型。SwapNet [30]提出了一种在两个人的单一视图之间交换服装外观的方法。VITON [11]和CP-VTON [39]在给定目标服装项目和穿着衣服的人图像的情况下生成新图像,并且与我们试图解决的问题最相关。3. VTNFP给定目标服装图像c和包含穿着衣服的人(穿着不同服装)的参考图像I,VTNFP的目标是生成穿着服装c的人的新图像I,使得保持人的身体形状和姿势理想情况下,我们模型的训练数据应该是三元组(I,c,I)的形式。然而,这类数据并不常见;相反,我们仅以(I,c)对的形式提供更容易获得的训练数据。为了训练图像生成模型,我们创建I的服装不可知的人表示,并且训练模型以基于服装不可知的人表示和c来生成合成图像I。VTNFP由三个模块组成(图2):a)布料变形模块c=M1(p1,c),其将c变换为与人的姿势对准的包装的版本c,给定人表示p1;由目标服装覆盖,给定人表示p2和c3;以及c)试穿合成模块I3=M3(p3,c3),其合成最终目标图像。我们的模型的关键是三个人的代表,其中p1和p2直接从I导出,而p3是基于I和c的预测。P3包含关于预期目标图像的身体部位和衣服的分割的信息,并且对于在合成图像I1中保留衣服细节和身体部位是关键的。3.1. 人物表示为了保留人体和服装特征,我们提出了一种混合服装不可知的人表示(HCPR)方法,以获得三个级别的人表示,p1,p2和p3(图3)。图3.混合服装不可知的人表示。图4.服装变形模块。人物表示P1由两个部分组成- 1通道身体部位图和18通道姿势图。身体部位图包含6个身体部位的类别标签,使用[7]中描述的方法从参考图像I导出。姿态图包含I[3]中18个关键点的预测位置,每个关键点由一个以预测位置为中心的11×11人的表征p2由四个部分- 1-通道体型图,1通道臂形图,1-通道面和头发贴图,以及18通道姿势贴图。姿势图与p1中的姿势图相同,而其他图是通过组合p1中的身体部位图和通过[8]中描述的方法提取的附加语义部位标签来生成的。人的表征p3由四个部分- 1-通道体分割图,1通道臂形贴图、3通道面部和头发贴图以及18通道姿势贴图。身体分割图包含穿着目标服装(不是原始服装)的人的13个语义区域的类别标签,包括上部和下部。10514图5.分割图生成模块。下半身衣服、帽子、头发、手套、太阳镜、围巾、脸、左和右臂、左和右腿以及鞋,由分割图生成模块(第3.3节)基于P2和C3预测。从预测的身体分割图得出的手臂形状图(Note它与p2中的手臂形状图的区别,p 2中的手臂形状图是从I导出的,并且是服装不可知的。面部和头发贴图包含面部和头发的RGB图像。姿势贴图与以前相同。三个人的代表服务于不同的目的。P1和P2提供输入图像I的服装不可知表示,其中P1用于生成变形的服装分类 ,P2用于预测身体分割图。 P3提供了从P2和C中导出的要生成的目标图像的蓝图。3.2. 服装变形模块M1该模块将目标服装c从姿势透视图变换成与由p1表示的姿势和体形对齐的包裹形式c。与CP-VTON类似,M1也利用几何匹配模块(GMM)生成用于翘曲c的薄板样条(TPS)参数,但采用了非局部(NL)机制[40]以改进特征学习和匹配。图4显示了M1的基本架构。它从卷积神经网络开始,然后是非局部层,分别提取p1和c的特征,然后将其组合以产生一个试探性的对应图。最后,将对应图馈送到回归层以预测TPS的参数,用于将c映射到c。通过最小化从原始图像I分割出的包裹的衣服c和地面实况c之间的cnc损失来训练整个模块,L(c,c′)=c−c′1。(一)3.3. 分割图生成模块M2M2的目标是生成穿着所述目标服装的人的语义分割图M2。注意从输入图像中,我们只能获得穿着原始衣服的人的语义然而,我们显示在该模块中,可以基于服装来预测M_s不可知的人表示P2和穿衣服的C。图5显示了M2的总体架构,由一个编码器组成,和c;以及解码器,用于生成语义分割图M_s。一个注意力子网被合并到模型来选通从编码器到解码器的横向信息流[26]。在整个网络中使用非本地操作来捕获远程依赖关系。尽管包裹的衣服c#是上述编码器-解码器框架的输入,但是目标衣服c#中的一些纹理和刺绣信息可能在编码之后丢失。翘曲为了更好地保留原始信息,我们进一步添加了一个分支,直接从c中提取服装特征,并将它们连接到编码器特征。10515图6.试用合成模块。我们使用具有目标服装和参考图像对(c,I)的训练数据来训练模块Ms=M2(p2,c),其中I示出穿着c的人的图像。我们首先从I导出服装不可知表示p2。预-然后,将口述的语义分割图M_s与基于[8]中的方法直接从I提取的地面实况分割图Ms这个模块也可以被看作是一个条件GAN模型。训练模块M2的最终损失LSMGM包括焦点损失[19]关于逐像素分割性能和区分真实语义分割图与伪语义分割图的不利损失:总的来说,我们使用三个信息源:来自M1的翘曲的布料c,来自M2的p3,从原始图像I提取的关于裤子和手臂的辅助信息。图6显示了M3的总体架构,由两部分组成。上面的分支使用注意力门控U-网从p3和c中提取特征。下面的分支包括7个编码层,基于Xception [5]的思想设计,以及4个解码层,用于从辅助信息中提取特征,然后将其连接到从上面的分支提取的特征。包括下分支的主要动机是在合成图像中保留原始的裤子和手臂特征。合成模块输出掩码m,表示Lfl=−1ΣN ΣC (1−yik)γyiklog(yik)(2)目标图像中的服装区域,以及初步的同步。塞西斯最终的合成物I通过使s和c’稠合而获得,Ni=1k =1LcGAN=Ex,y[logD(x,y)]+Ex,z[log(1 −D(x,G(x,z)](3)LSMGM=αLfl+(1 −α)LcGAN,(4)其中i和k分别表示像素和语义体部分的索引。yik表示语义分段的基础事实,而yk表示断言的概率。当量(3)表示条件GAN损失,其中x是输入数据(p2和c2的组合),y是地面真实分割图,z是dropout形式的噪声[12]。3.4. 试用合成模块M3M3的目的是根据前两个模块的输出合成最终的虚拟试穿图像I由M如下引导,I=mc+(1−m)s,(5)其中表示逐元素矩阵乘法。M3中的损失函数LTSM包括四个分量,在Eq.(十)、L(m,m′)是预测的服装掩模和地面真实值m ′之间的1/2损失。如图所示,通过移除手臂部分,从扭曲的服装分割图c中导出地面实况遮罩6.这种损失鼓励网络保留尽可能多的服装细节。L(I_i,I)测量合成图像I_i和地面实况I之间的损失。除了像素强度差异外,我们还考虑了两张图像之间的感知损失,通过从VGG模型[14]中提取的特征进行测量。LVGG(s,I)测量初始合成之间的感知损失,10516TSM1 2V千兆克thesiss和I,以及LVGG(I,I)之间的感知损失我和我。感知损失有助于使合成的图像更逼真。总损失是上述四项损失的加权和:L(m,m′)=m-m′1(6)L(I,I)=I−I1(7)Σ5LVGG(s,I)=i=1λi||fi(s)−fi(I)||1(8)Σ5LVGG(I)=i=1λi||fi(I)−fi(I)||第一章(九)L=λ L(m,m′)+λ L (s,I)+λ3L(I,I)+λ4LVGG(I,I)(10)4. 实验和分析4.1. 数据集用于实验的数据集与VITON和CP-VTON中的数据集相同,由19,000对女性模特的上衣图像和正面透视图像组成一些不完整的图像对被删除,留下14,006对用于训练,2,002对用于测试。在训练集中,目标服装和模型所穿的服装然而,在测试集中,两者是不同的。我们所有的评估和可视化都是在测试集的图像上执行的。4.2. 实现细节所有输入图像和输出图像的大小固定为256 ×192。服装变形模块。 我们训练了这个国防部-批量大小为4的200K epoch的规则 Adam [16]优化器用于β1=0。5,β2=0。999学习率首先在100K epoch中固定为0.0001,然后在剩余的100K epoch中线性降低到零。用于特征提取的两个CNN网络的结构是相似的。每个都有六个卷积层,包括四个2-strided层和两个1-strided层,然后是一个非本地层。过滤器的数量为64、128、256、512、512。用于参数估计的回归卷积网络由两个2步长卷积层、一个1步长卷积层和一个全连接输出层组成。滤波器的数量分别为512、256、128、64分 割 图 生成 模 块 。 在 该 模 块中 , Eq. (4) 设 为α=0。五、我们训练了这个模块15个epoch,批量大小为5。一般-tor包含四个编码层和四个解码层,其中2步长滤波器大小为4×4。编码层中的滤波器的数量分别为64、128、256、512。对于解码层,通道的数量分别为512、256、128、1。非局部图层将在图7.高级特征提取分支和非局部层的效果(a)是参考图像;(b)是目标服装图像;(c)是去除高级特征提取分支的结果;(d)是去除非局部层的结果;(e)是我们的VTNFP的结果图8.合成模块中下分支的影响。(a)是参考图像;(b)是目标服装图像;(c)示出了去除试穿合成模块的下分支的结果;(d)是我们的VTNFP的结果。连接层。用于提取未变形服装的高级特征的卷积神经网络包含两个具有3×3空间滤波器的卷积层和三个Xception块[5],其中滤波器的数量分别为32,64,128,256,512。鉴别器是如[12]所示。10517图9.三种不同方法的视觉比较。我们的方法VTNFP生成更真实的试穿结果,保留了服装纹理和人体特征。试用合成模块。在这个模块中,我们在等式中设置λ1=λ2=λ3=λ4=1(十)、训练步数、优化器和学习率的设置与服装变形模块中的设置相同上分支的所有编码层使用步长为2的4×4空间滤波器,滤波器的数量为64,128、256、512、512、512。如[39,24]所推荐的,我们使用最近邻插值层和1-步幅卷积层而不是2-步幅解卷积层的组合用于解码层。因此,所有解码层都由上采样层组成,比例因子为2,卷积层为3×3空间滤波器,步长为1,滤波器数量为512,512,256、128、64、4。我们使用LeakyReLU [22]用于编码层,ReLU用于解码层,每个卷积层后面都有一个实例规范化层[37]。下面的分支是不同的编码和解码网络。在编码部分中,滤波器的数目分别为32、64、128、256、512、512、512。第一和第二卷积层包含3×3空间滤波器,步长分别为2和1最后五个卷积层是Xception块。在解码部分,我们使用与上分支的前四层相同的结构。4.3. 定性结果在本节中,我们提供了我们模型的一些定性结果。通过可视化,我们展示了我们纳入模型的各种网络组件对模型性能的贡献。我们还表明,VTNFP产生更逼真的虚拟试穿图像比两个国家的最先进的模型,VITON和CP- VTON。非局部层和未变形服装的特征对身体分割图生成的影响。图7示出了这两个组件对从模块M2预测身体分割图的影响。在列(a)上示出的是参考图像,列(b)是目标服装图像,并且最后三列图像表示穿着目标服装的当前人的分割图。列(c)是从未变形的衣服移除特征的结果,列(d)是移除非局部层的结果,并且列(e)是VTNFP的结果这表明,如果没有来自未变形的衣服或非局部层的特征,则结果不太稳定。合成模块中下分支的影响在图8中,列(a)是参考图像,列(b)10518是目标服装图像,列(c)示出了通过将手臂和裤子信息P3和C4放在一个上分支中而去除试穿合成模块的下分支的结果。正如我们所看到的,结果不如VTNFP的结果(列(d)),因为,没有较低的分支,网络学习了衣服,裤子和手臂的混合特征,并且试戴结果比较。图9显示了三种不同方法的视觉比较与CP-VTON相比,VITON在保持人体另一方面,CP-VTON在保持服装细节方面表现更好,但在保持身体姿势方面表现较差在这两种模式中,裤子在更换上衣后往往不能很好地保留相比之下,VTNFP能够同时保留身体姿势和服装细节在图9中,原始图像中的大部分裤子都保存得很好,不像其他两个模型。我们可以观察到,与VITON和CP-VTON相比,VTNFP在所有情况下都能够保留更多的服装细节。 最重要的是,当一个人的姿势很复杂时,例如。如图9的列(b)所示,当手臂交叉时,VT-NFP在保持人的身体信息方面比其他两个模型表现得更好。VITON表现不佳的主要原因VITON中使用的掩模倾向于保留粗糙的个人图像信息,例如身体信息,而忽略变形衣服的细节。如图9所示,氟橡胶会使衣物失去质感为了获得更好的效果,CP-VTON同时生成一个粗略的人物图像和一个面具,取代了VITON中由粗到精的策略。然而,面具倾向于保留更多的服装细节,而忽略了人的身体信息。如图9所示,CP-VTON有时会生成手臂严重变形的图像。为了保留人体和服装的特征,我们建议在合成最终图像之前生成一个新的穿着目标服装的人的分割图因此,最终图像由生成的分割图引导,而不是仅依赖于姿态图。面具的地面真相是去除手臂部分后的扭曲的衣服分割图因此,VTNFP不仅可以保存人的完整身体信息,而且还可以保留衣服的细节,从而导致相对于4.4. 定量结果为了进一步评估我们模型的性能,我们进行了用户感知研究。在这项研究中,我们设计了A/B测试来比较图像的质量方法人类方法人类Viton三十二百分之十三CP-VTON二十二岁百分之六十二VTNFP67岁百分之八十七VTNFP七十七。百分之三十八表1.不同方法的定量评价通过VITON或CP-VTON合成的图像。我们招募了80名志愿者,向他们提供了500组测试数据,每组由四个图像组成:推断图像、目标服装、VTNFP结果和VITON结果(或CP-VTON结果)。每个受试者被随机分配50组测试数据,并被要求在每组中选择他/她认为质量较好的合成图像。在VTNFP和VITON之间进行的A/B测试中,67.87%的VTNFP生成的图像被志愿者选择具有更好的质量。在VTNFP和CP-VTON之间进行的A/B测试中,志愿者选择了VTNFP生成这些随机测试证实了前一节所示的定性结果,表明VT-NFP的性能明显优于以前的模型。5. 结论我们提出了一种新的方法,基于图像的虚拟试穿应用。我们的模型遵循三阶段的设计策略,首先生成变形的衣服,然后生成穿着目标衣服的人的身体分割图,最后以试穿合成模块结束,将所有信息融合在一起以进行最终的图像合成。我们引入了几种方法创新来提高图像合成的质量,并证明我们的方法能够生成比最先进的方法更好的确认本课题得到了国家自然科学基金(61672148)、辽宁省高校创新研究团队计划(LT2016007)和中央高校 基 础 研 究 基 金 ( N182608004 、 N171702001 、N171604016)的资助。引用[1] David Berthelot Thomas Schumm和Luke Metz。开始:边界 平 衡 生 成 对 抗 网 络 。 arXiv 预 印 本 arXiv :1703.10717,2017.[2] Guido Borghi,Riccardo Gasparini,Roberto Vezzani,and Rita Cucchiara.嵌入式递归网络在汽车头部姿态估计中的应用。2017年第28届IEEE智能车辆研讨会论文集10519[3] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在IEEE计算机视觉和模式识别集,第7291-7299页[4] Wenzheng Chen,Huan Wang,Yangyan Li,Hao Su,Zhenhua Wang,Changhe Tu,Dani Lischinski,DanielCohen-Or,and Baoquan Chen.合成训练影像以提升人体三维位姿估计。在3D视觉(3DV),2016年第四届国际会议上,第479-488页IEEE,2016.[5] 弗朗索瓦·肖莱。Xception:使用深度可分离卷积的深度学习 在Proceedings of the IEEE conference on computervision and pattern recognition,第1251-1258页[6] Emily L Denton,Soumith Chintala,Rob Fergus,et al.使用对抗网络的拉普拉斯金字塔的深度生成图像模型。神经信息处理系统的进展,第1486-1494页,2015年[7] 方浩树、卢冠松、方小林、谢建文、戴玉荣、卢策武。通过姿势引导知识转移的弱和半监督人体部位解析。arXiv预印本arXiv:1805.04310,2018。[8] Ke Gong , Xiaodan Liang , Dongyu Zhang , XiaohuiShen,and Liang Lin.看人:自我监督结构敏感学习和人类解析的新基准。在IEEE计算机视觉和模式识别会议论文集,第932-940页[9] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。 在神经信息处理系统的进展,第2672[10] Peng Guan , Loretta Reiss , David A Hirshberg ,Alexander Weiss,and Michael J Black.披巾:给任何人穿衣。ACM事务处理图表,31(4):35[11] Xintong Han,Zuxuan Wu,Zhe Wu,Ruichi Yu,andLarry S Davis.Viton:一个基于图像的虚拟试穿网络。2018年IEEE/CVF计算机视觉和模式识别会议,第7543-7552页。IEEE,2018年。[12] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集,第1125-1134页,2017年。[13] 尼古拉·杰切夫和乌尔斯·伯格曼条件分析法:在人物图片上交换时尚文章。在IEEE计算机视觉国际会议论文集,第2287-2292页[14] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议,第694-711页。施普林格,2016年。[15] Tero Karras , Timo Aila , Samuli Laine , and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv:1710.10196,2017。[16] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[17] Christoph Lassner , Gerard Pons-Moll , and Peter VGehler.穿着衣服的人的生成模型。在IEEE计算机视觉国际会议论文集,第6卷,2017年。[18] 梁小丹、梁林、杨伟、罗萍、黄俊石、严水城。通过联合图像分割和标记的服装协同解析IEEE Transactions onMultimedia,18(6):1175[19] Tsung-YiLin , Priyal Goyal , Ross Girshick , KaimingHe,and PiotrDoll a'r. 密集目标检测的焦面损失。IEEE关于模式分析和机器智能的交易,2018。[20] 刘一凡,秦增昌,罗振波,王华。自动喷漆:利用条件生成对 抗网络从草图 生成卡通图 像。arXiv预印本arXiv:1705.01908,2017。[21] 马丽倩、徐佳、孙倩茹、Bernt Schiele、Tinne Tuyte-laars和Luc Van Gool。姿势引导的人物图像生成。神经信息处理系统进展,第406-416页,2017年[22] Andrew L Maas、Awni Y Hannun和Andrew Y Ng。整流器的非线性改善了神经网络声学模型。在Proc.icml,第30卷,第3页,2013中。[23] 阿米拉·本·马布鲁克和伊兹丁·扎格鲁巴智能视频监控系统的异常行为识别:审查. 专家系统与应用,91:480[24] Augustus Odena Vincent Dumoulin和Chris Olah。反卷积和棋盘式伪影。Distill,1(10):e3,2016.[25] Augustus Odena,Christopher Olah,and Jonathon Shlens.辅助分类器gans的条件图像合成。第34届国际机器学习会议论文集-第70卷,第2642-2651页。JMLR。org,2017.[26] Ozan Oktay,Jo Schlemper,Loic Le Folgoc,MatthewLee , Mattias Heinrich , Kazunari Misawa , KensakuMori,Steven McDonagh,Nils Y Hammerla,BernhardKainz,et al.Atten- tion u-net:学会在哪里找胰腺了。arXiv预印本arXiv:1804.03999,2018。[27] GuimPerarnau , JoostvandeWeijer , BogdanRaducanu,and JoseMA'lv arez. 用于图像编辑的不可验证的条件gans。arXiv预印本arXiv:1611.06355,2016。[28] Gerard Pons-Moll、Sergi Pujades、Sonny Hu和Michael JBlack。Clothcap:无缝的4D服装捕捉和重新定位。ACM Transactions on Graphics (TOG),36(4):73,2017。[29] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉深度卷积生成对抗网络的无监督表示学习。arXiv预印本arXiv:1511.06434,2015。[30] Amit Raj , Patsorn Sangkloy , Huiwen Chang , JamesHays,Duygu Ceylan,and Jingwan Lu. Swapnet:基于图像的图像传输。欧洲计算机视觉会议,第679-695页Springer,Cham,2018.[31] Scott Reed , Zeynep Akata , Xinchen Yan , LajanugenLo- geswaran,Bernt Schiele,and Honglak Lee. 属-10520对 抗 性 文 本 到 图 像 合 成 。 arXiv 预 印 本 arXiv :1605.05396,2016。[32] GregoryRogez , PhilippeWeinzaepfel 和 CordeliaSchmid。Lcr-net:人体姿势的定位-分类-回归。在CVPR 2017-IEEE计算机视觉模式识别会议,2017年。[33] Patsorn Sangkloy,Jingwan Lu,Chen Fang,Fisher Yu,and James Hays. Scribbler:使用草图和颜色控制深度图像 合 成 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),第2卷,2017年。[34] Hosnieh Sattar,Gerard Pons-Moll,and Mario Fritz. 时尚正在形成:从在线资源中了解基于体型的服装偏好。2019年IEEE计算机视觉应用冬季会议(WACV),第968-977页。IEEE,2019。[35] MasahiroSekine , KaoruSugita , FrankPerbet ,BjoürnStenger,and Masashi Nishiyama.通过单次拍摄体型估计进行虚拟拟合。在3D身体扫描技术的国际会议上,第406-413页。Citeseer,2014.[36] 沈伟和刘如杰。学习人脸属性操作的残差图像。2017年IEEE计算机视觉和模式识别会议(CVPR),第1225-1233页。IEEE,2017年。[37] 德米特里·乌里扬诺夫,安德烈·维达尔迪,维克多·伦皮茨基。改进的纹理网络:最大化前馈风格化和纹理合成的质量和多样性。在IEEE计算机视觉和模式识别会议的论文集,第6924-6932页[38] Gu¨lVarol,Ja vierRomero ,Xa vierMartin,NaureenMah-mood , Michael J Black , Ivan Laptev , and CordeliaSchmid.向人造人学习。2017年IEEE计算机视觉和模式识别会议(CVPR 2017),第4627-4635页。IEEE,2017年。[39] Bochao Wang,Huabin Zheng,Xiaodan Liang,YiminChen,Liang Lin,and Meng Yang.基于特征保持图像的虚拟试穿网络。在欧洲计算机视觉会议(ECCV)的论文集中,第589-604页[40] 王晓龙,Ross Girshick,Abhinav Gupta,和Kaiming He.非局部神经网络。在IEEE计算机视觉和模式识别会议(CVPR),第1卷,第4页,2018年。[41] Wenqi Xian,Patsorn Sangkloy,Varun Agrawal,AmitRaj,Jingwan Lu,Chen Fang,Fisher Yu,and JamesHays. Tex- turegan:使用纹理块控制深度图像合成。在IEEE计算机视觉和模式识别会议论文集,第8456-8465页,2018年。[42] Kota Yamaguchi,M Hadi Kiapour,and Tamara L Berg.Pap-per doll解析:检索相似的样式以分析服装项目。在IEEE计算机视觉国际会议论文集,第3519-3526页[43] Shan Yang,Tanya Ambert,Zherong Pan,Ke Wang,Licheng Yu,Tamara Berg,and Ming C Lin. 从单视图图 像 中 恢 复 详 细 的 gar-ment 。 arXiv 预 印 本 arXiv :1608.01250,2016。[44] Xiang Yu,Xiang Yu,Kihyuk Sohn,Xiaoming Liu,and Man-mohan Chandraker.面向大姿态人脸额化在野外在IEEE计算机视觉国际会议论文集,第3990-3999页[45] Donggeun Yoo,Namil Kim,Sunggyun Park,AnthonyS Paek,and In So Kweon.像素级域转移。欧洲计算机视觉会议,第517-532页。施普林格,2016年。[46] 张涵,徐涛,李洪生,张少庭,王晓刚,黄晓磊,和Dimitris N Metaxas.Stack- gan:使用堆叠生成对抗网络进行文本到照片级逼真图像合成。在IEEE计算机视觉国际会议论文集,第5907- 5915页[47] 赵波、吴晓、程志奇、刘浩、杰泽群、冯佳石。从单视图生成多视图图像。在2018年ACM多媒体会议上,第383-391页。ACM,2018。[48] Junbo Zhao,Michael Mathieu,and Yann LeCun.基于能量的生成对抗网络。2016年12月16日,北京市人民政府海淀分局备案(京公网安备1101010802015)[49] Jun-YanZhu ,PhilippKr? henb ? hl,EliShechtman ,andAlexei A Efros.自然图像流形上的生成视觉操作。欧洲计算机视觉会议,第597-613页。施普林格,2016年。[50] Shizhan Zhu , Raquel Urtasun , Sanja Fidler , DahuaLin,and Chen Change Loy.做你自己的Prada:具有结构连贯性的时尚综合。在IEEE国际计算机视觉会议集,第1680
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功