为了将人物图像解析成若干预定义的语义区域,例
如,头,上衣和裤子。为了更好地生成试穿图像,[42]
还转换分割图以匹配目标服装。变换后的解析结果与
翘曲的服装和掩蔽的个人图像一起对解析器的依赖使
得这些方法对糟糕的人类解析结果敏感[10,19],这
不可避免地导致不准确的扭曲和试用结果。
相比之下,无解析器方法[10,19]在推理阶段仅将
人物图像和服装图像作为输入它们被专门设计来消除
不良解析结果所引起的负面影响这些方法通常首先训
练基于解析器的教师模型,然后提取无解析器的学生
模型。[19]提出了一种流水线,其使用成对的三元组
来提取服装翘曲模块和试穿生成网络。[10]进一步改
善
[19]通过引入循环一致性以获得更好的蒸馏。我们的方
法也是一个无解析器的方法。然而,我们的方法侧重于
服装翘曲部分的设计,在那里我们提出了一种新的全局
外观流,
服装整经模块
3D虚拟试穿与基于图像的VTON相比,3D VTON提供
更好的试穿体验(例如,允许以任意的视角和姿势观
看),但也更具挑战性。大多数3D VTON作品[2,27]
依赖于3D参数化人体模型[25],并且需要扫描的3D数
据集进行训练。收集大规模的3D数据集是昂贵且费力
的,因此对3D VTON模型的可扩展性构成约束。为了
克服这个问题,最近[44]将非参数双重人类深度模型[8]
应用于单眼到3D VTON。然而,现有的3D VTON仍然
生成较差的纹理细节,
更多的关注,并采用了最近的国家的最先进的VTON
模型[5,10]。从根本上说,外观流被用作服装变形的
采样网格,因此它是信息无损的,并在细节保持优
越。除了VTON,外观流在其他任务中也很受欢迎。
[45]将其应用于新颖的视图合成。[1,29]还应用了外
观流的思想来扭曲人物姿势转移的特征图。与现有的
外观流估计方法不同,本文的方法通过风格调制,应
用全局风格向量来估计外观流。因此,我们的方法本
质上是优越的,在其能力,以应付大的错位。
3.
方法
3.1.
问题定义
给定一幅人物图像(
pR3
×H×W
)和一幅店内服装
图像(
gR3
×H×W
),虚拟试穿的目标是生成一幅试
穿图像(
tR3
×H×W
),其中
g
中的服装与
p
中的相应
部位相匹配。此外,
在生成的
t
中
,来自
g
和
p
中的非
服装
区域
的细节都
应该被保留。换句话说,在
p
中的
同一个
人
在
t
中
应该看起来没有变化
,
除了现在
穿着
g
。
为了消除不准确的人类解析的负面影响,我们提出
的模型(图2)被设计为无解析器模型。遵循前无解析
器模型所采用的策略[10,19],我们首先预训练一个
解析器,
基于模型(F
P B
)。然后,它被用作知识蒸馏的老
师
,以帮助训练最终的无解析器模型F。
F和F
P B
都由
三部 分 组成 , 即, 两 个特 征 提取 器(
E
P B
,
E
P
B
in
F
P B
和
E
p
,
E
g
in
F
),
模块( 在 和 在 )和发电机(
2D方法。
用于图像处理的StyleGAN StyleGAN [21,22]最近彻底
改变了图像处理的研究[28,33,41]。它在图像处理
任务中的成功应用通常归功于它在学习高度分离的潜
在空间中的适用性。最近的努力集中在无监督的潜在
语义发现[4,34,37]。[24]应用姿态调节的StyleGAN
进行虚拟试穿。然而,他们的模型不能保留服装细
节,并且在推理过程中速度很慢。
形状变形性能[28,34]。代替使用- ing风格调制来生成
翘曲的服装,我们使用风格调制来预测隐式外观流,
然后通过采样来用于翘曲服装。与[24]相比,这种设
计更适合服装细节的保留。
在VTON的上下文中,外观流首先由[13]引入。从那以
后,