没有合适的资源?快使用搜索试试~ 我知道了~
通过使用3D合成数据去除人像眼镜和阴影的方法
34290通过利用3D合成数据进行人像眼镜和阴影去除0吕俊峰 王志波 许峰 清华大学软件学院和BNRist0摘要0在人像中,眼镜可能遮挡面部区域并在面部产生投影阴影,这会降低许多技术(如人脸验证和表情识别)的性能。人像眼镜去除对于处理这些问题至关重要。然而,完全去除眼镜是具有挑战性的,因为它们引起的光照效果(例如投影阴影)通常很复杂。在本文中,我们提出了一种新颖的框架,可以从人脸图像中同时去除眼镜和它们的投影阴影。该方法采用检测-去除的方式工作,其中眼镜和投影阴影都被检测然后从图像中去除。由于缺乏用于监督训练的配对数据,我们提供了一个新的合成人像数据集,用于检测和去除任务的中间和最终监督。此外,我们应用了一种跨域技术来填补合成和真实数据之间的差距。据我们所知,该方法是第一个可以同时去除眼镜和它们的投影阴影的方法。代码和合成数据集可在 https://github.com/ StoryMY/take-off-eyeglasses上获得。01. 引言0很多人在日常生活中戴眼镜。在他们的人脸照片中,眼镜通常会给面部带来不必要的遮挡和投影阴影,这会导致诸如基于图像的人脸验证[42, 46]、表情识别[47]、疲劳检测[13,17,40]等许多有用技术的准确性下降。此外,在摄影中,为了美观的原因,可能需要从人像中去除眼镜,给用户提供编辑他们的人像的选择。因此,开发一种自动的人像眼镜去除技术是有益的。然而,完全去除眼镜存在一些关键挑战。首先,恢复被遮挡的面部区域并使其与其他区域保持一致是一项困难的任务,因为面部皮肤具有丰富的细节和复杂的反射。其次,仅恢复被遮挡的区域不能保证视觉上令人信服的结果,因为眼镜还会带来各种光照效果(例如投影阴影、反射和扭曲)在面部区域上。明确地建模这些效果极其困难,因为生成这些效果的物理规则很复杂。而且,它需要对眼镜几何、面部几何和光照条件进行精细的感知,这也很难从单个人像中获得。0图1.我们的方法可以同时去除眼镜和它们的阴影。它在各种光照、头部姿势和具有不同形状和纹理的眼镜下产生逼真的结果。0为了训练,它使用2D方法合成数据,质量和逼真度非常有限。而且,它没有考虑投影阴影。在本文中,我们提出了一种新颖的眼镜去除技术,使用一个合成数据集,该数据集考虑了3D阴影,并使用跨域训练策略来填补合成和真实数据之间的差距。该方法同时去除眼镜和它们的投影阴影,与先前的最先进方法相比,生成更具视觉逼真性的结果。为了便于学习眼镜和投影阴影之间的关系,我们引入了一种新颖的基于掩码的多步网络架构用于眼镜去除。所提出的网络首先检测眼镜和它们的投影阴影的两个掩码。然后,估计的掩码在多步眼镜去除中用作指导。我们观察到要去除的阴影是由眼镜引起的,我们利用这一事实在我们的网络中精心构建了眼镜和阴影在检测和去除任务中的良好顺序。通过这种方式,网络可以在处理阴影时将眼镜视为重要的先验知识。为了训练这个网络,我们使用由[52]收集的高质量人脸扫描和艺术家制作的3D眼镜模型以及原则性BSDF[37]来实现高渲染质量,构建了一个逼真的合成数据集。该数据集包含大量的数据用于监督训练,涵盖了各种身份、表情、眼镜和光照。使用合成数据集的另一个好处是我们可以合成在现实世界中无法捕捉到的图像,即带有眼镜但没有阴影的图像和带有阴影但没有眼镜的图像。这些图像可以用作训练所提出的网络的中间监督。尽管准确的3D信息和高端渲染技术提高了我们合成数据的逼真性,但由于合成和真实领域之间的差距,网络仍然不能很好地推广到真实图像。受[23]和[49]的启发,我们开发了一个跨域分割模块,利用真实图像数据集构建了一个统一的领域,用于真实和合成图像。这有助于防止所提出的网络使用领域特定信息来检测眼镜和它们的投影阴影。总之,我们的主要贡献如下:0最近,深度学习[30, 44]在处理与人脸编辑[14,33]相关的任务方面展示了巨大的潜力,并且在人像眼镜去除[22]方面取得了成功,借助包含眼镜标签的人脸数据集[27,35]的帮助。然而,这些技术只关注眼镜而不关注相应的光照效果。ByeGlassesGAN [32]构建了配对数据。taining some lighting effects for training. However, as ituses 2D methods to synthesize the data, the quality and re-alism are quite limited. Also, it does not take cast shadowsinto consideration.In this paper, we propose a novel eyeglasses removaltechnique using a synthetic dataset which considers 3Dshadows and uses a cross-domain training strategy to fill thegap between synthetic and real data. This method jointly re-moves eyeglasses and their cast shadows, generating morevisually plausible results compared to the previous state-of-the-art methods. In order to facilitate learning the rela-tion between eyeglasses and cast shadows, we introduce anovel mask-guided multi-step network architecture for eye-glasses removal. The proposed network first detects twomasks for both eyeglasses and their cast shadows. Then,the estimated masks are used as guidance in the multi-stepeyeglasses removal. We observe that the shadows to be re-moved are caused by the eyeglasses, and we use this factto carefully construct our network where the eyeglasses andshadows are handled in well-designed orders in both the de-tection and removal tasks. In this way, the network can welltake eyeglasses as an important prior when dealing with theshadows.For training this network, we build a photo-realistic syn-thetic dataset using high-quality face scans collected by [52]and 3D eyeglasses models made by artists, with principledBSDF [37] to achieve high rendering quality. This datasetcontains a large amount of data for supervised training, cov-ering various identities, expressions, eyeglasses, and illumi-nations. Another benefit of using the synthetic dataset isthat we can synthesize images that cannot be captured inreal world, i.e., images with eyeglasses but no shadows andimages with shadows but no eyeglasses. These images canbe used as intermediate supervisions to train the proposednetwork.Although the accurate 3D information and the high-endrendering technique improve the photo-realism of our syn-thetic data, the network still cannot generalize well to realimages due to the gap between the synthetic and real do-main. Inspired by [23] and [49], we develop a cross-domainsegmentation module that leverages a real image datasetto build a uniform domain for both the real and syntheticimages. This helps to prevent the proposed network fromusing domain-specific information to detect eyeglasses andtheir cast shadows.In summary, our main contributions are listed as follows:34300•我们设计了一种新颖的基于掩模的多步网络架构,这是文献中首次尝试从肖像中同时去除眼镜和它们的投影阴影,并实现了高度逼真的效果。0•我们提供了一个高质量的合成肖像数据集,提供了中间和最终的监督训练数据。0用于训练眼镜/阴影检测和去除网络的数据集。0•我们引入了一个跨域分割模块,以增强对真实人脸图像的泛化能力。02. 相关工作0眼镜去除。早期的研究[11, 38, 53, 54,59]通过统计学习来去除眼镜。这些方法的关键假设是眼镜遮挡的面部区域可以从其他没有眼镜的面部重建出来。然而,这些方法通常假设正面的面部和受控环境,这限制了它们的应用。后来的研究,例如ERGAN [22]和ByeGlassesGAN[32],使用深度神经网络进行眼镜去除。ERGAN[22]提出了一种用于野外眼镜去除的无监督架构,而ByeGlassesGAN[32]手动构建了配对数据,并提出了一个多任务框架用于眼镜检测和去除。这些方法可以成功地在更一般的应用场景中去除眼镜。然而,由眼镜引起的投影阴影在这两种方法中通常被忽略,因为它们没有探索眼镜和投影阴影之间的联系。与这些方法不同的是,我们发现通过开发一种学习这种联系的架构,网络可以同时去除眼镜和它们的投影阴影,生成更具视觉说服力的结果。面部属性操作。近年来,面部图像操作技术[4, 14,43]得到了快速发展。其中大部分同时解决多标签[9, 10, 19,34, 55]或多风格[3, 15, 24, 31, 64]问题。DFI[50]通过插值不同特征向量来操作面部属性。AttGAN[19]通过属性分类约束和重构学习来操作面部图像。STGAN[34]结合了差异属性向量和选择性传输单元(STUs)进行任意属性编辑。HiSD[33]提出了一种用于图像到图像转换的分层风格解缠框架,该框架使用分层树结构组织标签,并克服了先前联合方法[3,41, 51, 56, 57, 60, 62]的缺点。此外,一些工作[12,48]将3D可塑模型(3DMM)与StyleGAN[28]相结合,以在语义上控制面部图像。我们发现,与操作面部的内部属性相比,操作外部属性(例如帽子或眼镜)更加困难,因为面部配饰通常会导致遮挡或额外的光照效果(例如投影阴影)。与以前的工作不同,我们专注于眼镜去除,并旨在同时去除眼镜及其相应的投影阴影。分割的域自适应。这个任务中的大部分工作通常是为城市场景设计的。[21]将全局和局部对齐与领域对抗性训练相结合。[61]使用课程学习来解决领域自适应问题。[8]提出了一种无监督的方法来适应不同城市的分割器。其他工作[7,49]在输出空间上应用鉴别器来对齐源域和目标域的分割,而[65]则利用保守损失来自然地寻找域不变表示。FDA[58]提出了一种通过简单的傅里叶变换及其逆变换来解决领域自适应的新方法。基于上述方法,我们还考虑了眼镜和投影阴影之间的相关性,并成功地弥合了合成和真实人脸图像之间的差距。main adversarial training. [61] uses curriculum learning toaddress the domain adaptation. [8] proposes an unsuper-vised method to adapt segmenters across different cities.Other works [7,49] apply discriminators on the output spaceto align source and target segmentation, while [65] utilizes aconservative loss to naturally seek the domain-invariant rep-resentations. FDA [58] proposes a novel method that solvesthe domain adaptation via a simple Fourier Transform andits inverse. Based on the aforementioned methods, we addi-tionally consider the relevance between the eyeglasses andcast shadows, and successfully bridge the gap between syn-thetic and real face images.E(R, t, s; Ai, V i) =4�i=1∥s · RAi + t − V i∥22.(1)1https://polyhaven.com/34310图2.肖像合成示意图。我们在注册的人脸模型上定义了两个固定节点(红色)和两个浮动节点(蓝色),以及每个眼镜模型上对应的顶点。通过基于节点的注册,我们计算出一个合理的姿态,将眼镜模型与人脸扫描对齐。然后,我们使用HDR光照将它们合并起来渲染我们的合成数据:I syn,I g syn,I s syn,I f syn,M g syn和M s syn。03. 带眼镜的肖像合成0为了构建用于监督训练的配对数据,我们使用3D渲染生成合成图像。如图2所示,我们首先通过基于节点的配准使面部扫描“戴上”3D眼镜。然后,我们在随机选择的照明下渲染带眼镜的扫描。通过将眼镜或其投射的阴影设置为可见或不可见,我们可以获得四种不同类型的渲染图像。还生成眼镜和投射阴影的遮罩。详细信息如下所述。03.1. 数据准备0对于3D面部数据,我们直接使用由[52]收集的数据集。该数据集包含了438个受试者的面部扫描,包括20种表情,从男性到女性,从年轻到年老。除了原始扫描外,我们还获取了具有相同拓扑结构的已注册面部模型。对于3D眼镜模型,我们请专业艺术家创建了21个眼镜模型,包括各种形状和纹理。03.2. 眼镜对齐0为了将眼镜放在面部的合理位置,我们在每个眼镜模型上手动标记了四个锚点节点(A_i, i ∈ {1, 2, 3,4})及其对应的模板面上的顶点(V_i, i ∈ {1, 2, 3, 4})0用于配准的模型。具体来说,这四个节点包括两个固定节点在脸颊太阳穴上和两个浮动节点在鼻子两侧,如图2所示。然后,我们计算旋转矩阵R ∈ SO(3),平移向量t ∈ R^30并通过奇异值分解[39]来最小化节点和其对应顶点之间的距离,得到旋转矩阵R ∈ SO(3),平移向量t ∈R^3和缩放因子s ∈ R,表示为0根据我们的观察,人们将眼镜放在不同的鼻子位置。为了丰富合成数据的穿戴风格,我们在面部模板的鼻子区域定义了各种候选浮动节点对。然后随机选择一个节点对进行眼镜对齐。此外,我们随机改变眼镜的颜色以丰富其纹理。03.3. 渲染设置0肖像渲染中充分考虑了数据的多样性和照片逼真度。具体来说,我们首先从Poly Heaven1收集了367个HDR照明来增加照明的多样性。在渲染过程中,通过设置全局场景的随机旋转来进一步增加照明的变化。此外,我们通过随机头部姿势渲染每个面部扫描,使其随机“戴上”一副眼镜。为了实现照片逼真的合成,我们使用Blender中的原则性BSDF实现,通过专业艺术家经验调整渲染设置。对于每个渲染样本,我们渲染了四种不同可见性组合的眼镜和其投射的阴影:I_syn, I_g_syn, I_s_syn,I_f_syn。还合成了眼镜遮罩M_g_syn和阴影遮罩M_s_syn。LDadv = (D( ˆFsyn))2 + (D( ˆFreal) − 1)2,(2)LGadv = (D( ˆFsyn) − 1)2,(3)Lgmask = LE(M gsyn, ˆM gsyn),(4)Lsmask = LE(M ssyn, ˆM ssyn),(5)LE(M, ˆM) = −M log ˆM − (1 − M) log(1 − ˆM), (6)34320图3. 所提出的网络架构示意图。(A)我们的网络包括两个阶段:遮罩预测阶段和物品去除阶段。遮罩预测阶段旨在通过跨域分割模块估计眼镜遮罩和阴影遮罩。在物品去除阶段,我们依次使用去阴影网络和去眼镜网络,在两个预测的遮罩的指导下去除投射的阴影和眼镜。(B)在跨域分割模块中,领域自适应(DA)网络通过鉴别器的帮助将输入图像规范化为统一的特征图。然后,眼镜遮罩网络和阴影遮罩网络使用统一的特征图来预测眼镜和阴影遮罩。04. 人像眼镜去除网络0所提出网络的架构如图3所示。我们的网络基于以下考虑设计:1)ByeGlassesGAN[32]通过并行分割任务改进了眼镜去除,这证明了遮罩预测在眼镜去除中的重要性。受到他们方法的启发,我们通过首先在遮罩预测阶段明确检测眼镜,然后在物品去除阶段通过预测的遮罩指导下去除眼镜,以更自然的方式去除眼镜。2)我们通过在上述两个阶段中使用多步策略来处理眼镜和它们的投影阴影,进一步提高眼镜去除的性能。考虑到要去除的阴影是由眼镜引起的,眼镜应该在阴影遮罩预测和阴影去除中起到指导作用。3)所提出的网络通过合成数据集训练以去除眼镜。为了使其适用于真实图像,我们使用域自适应(DA)网络将输入图像转换为统一的特征图。统一的特征图消除了特定于域的信息以混淆鉴别器,但保留了眼镜和阴影遮罩预测的结构信息。04.1. 遮罩预测阶段0给定带有眼镜的输入人像I,我们的方法使用跨域分割模块在遮罩预测阶段估计眼镜遮罩ˆ M g和阴影遮罩ˆ Ms。该模块由DA网络、眼镜遮罩网络和阴影遮罩网络组成。为了解决合成和真实域之间的差距,DA网络被训练将输入图像I转换为统一域,输出统一的特征图。0ˆF。受[23]和[49]的启发,我们应用对抗学习来找到一个辅助鉴别器D的统一域。这个鉴别器D被训练用于区分特征图ˆF是来自真实图像还是合成图像,而DA网络的目标是欺骗鉴别器。我们使用LSGAN[36, 63]进行更稳定的训练:0其中ˆ F real和ˆ Fsyn分别是真实数据和合成数据的特征图。具体而言,DA网络由预训练的VGG编码器[45]的第一层(参数固定)和六个可训练的带有实例归一化的ResNet块[18]组成。我们使用多步策略从统一域特征ˆ F中预测眼镜遮罩ˆ Mg和相应的阴影遮罩ˆ Ms。我们首先使用眼镜遮罩网络估计眼镜遮罩ˆ Mg。然后,将先前的输出ˆ F和ˆ Mg一起输入到阴影遮罩网络中,预测阴影遮罩ˆ Ms,考虑到眼镜遮罩在阴影遮罩预测中可能起到指导作用。我们以以下方式以监督方式学习眼镜遮罩Mg和投影阴影遮罩M s,0其中LE是广泛使用的二元交叉熵(BCE)损失。第5.2节的实验证明,通过Lpredict = λadvLDadv + λadvLGadv+ λmaskLgmask + λmaskLsmask,(7)where ˆIgsyn indicates the output of our De-Shadow Network.After removing the cast shadows, we use a De-GlassNetwork to further remove the eyeglasses in the next step.The large variety of eyeglasses textures in real world willlower the performance of eyeglasses removal. To enhancethe robustness of our method, we adopt a mask operationto set the pixel values of the eyeglasses regions to 0. Thisoperation eliminates the texture of eyeglasses from ˆIg, forc-ing the De-Glass Network to remove the eyeglasses onlyaccording to the structure instead of textures. Finally, theDe-Glass Network takes the masked shadow-removed re-sult ˆImg and the estimated eyeglasses mask ˆM g as inputand learns the eyeglasses-removed image If via the follow-ing constraint:34330在估计眼镜遮罩ˆ M g的指导下,预测的阴影遮罩ˆ Ms将更完整。总体而言,遮罩预测阶段的训练损失定义为0其中,λ adv和λ mask分别是对抗学习和遮罩预测的权重。04.2. 物品去除阶段0这个阶段的目标是去除眼镜和阴影,我们简称为物品去除阶段。它利用两个预测的掩码作为线索,实现清除眼镜和阴影。在去除这些物品时,我们也采用了多步策略。然而,与掩码预测阶段中使用的多步设置不同,在该阶段中,我们首先处理眼镜,然后处理阴影。这是因为如果我们首先去除眼镜,网络将失去阴影强度和位置的丰富指示。给定输入图像I,我们首先使用去阴影网络去除眼镜的阴影。为了帮助网络更好地定位要去除的阴影,我们还将估计的眼镜掩码ˆMg和阴影掩码ˆMs输入去阴影网络。为了学习去除阴影后的图像Ig,我们采用L1回归损失,表示为0其中ˆIgsyn表示我们的去阴影网络的输出。去除阴影后,我们使用去眼镜网络在下一步进一步去除眼镜。现实世界中眼镜纹理的多样性会降低去眼镜的性能。为了增强我们方法的鲁棒性,我们采用掩码操作将眼镜区域的像素值设为0。这个操作从ˆIg中消除了眼镜的纹理,迫使去眼镜网络仅根据结构而不是纹理去除眼镜。最后,去眼镜网络以掩码去除阴影后的结果ˆImg和估计的眼镜掩码ˆMg为输入,通过以下约束学习去除眼镜的图像If:0Lde−s = ∥ˆIgsyn−Igsyn∥1, (8)0Lde−g = ∥ˆIfsyn−Ifsyn∥1. (9)0其中ˆIfsyn表示我们的去眼镜网络的输出。总之,物品去除阶段的训练损失定义为0Lremove = λde−sLde−s + λde−gLde−g, (10)0其中λde−s和λde−g分别是阴影和去眼镜的权重。05. 实验0在本节中,我们首先描述数据集和我们的实现细节。然后,我们将我们的方法与最先进的去眼镜和图像转换方法进行定性和定量比较。最后,我们通过消融研究评估所提出方法的关键贡献。请注意,除了图1中的结果,我们还将在补充材料中展示更多的结果。数据集。我们使用了在第3节中描述的合成数据集。0为了训练所提出的网络,我们使用了CelebA和自己合成的数据集。对于合成数据集,我们随机选择了438个身份中的73个身份。每个身份包含20个带有不同表情的人脸扫描。我们将这些人脸扫描与5个眼镜和4个HDR照明随机组合,最终生成了29,200个训练样本。CelebA是一个真实世界的人像数据集,包含10,177个身份的202,599张人脸图像,并为每个图像标注了5个关键点和40个二进制属性。根据属性标签,我们从中分割出了13,193张带眼镜的图像和189,406张不带眼镜的图像。此外,我们还使用了FFHQ和MeGlass进行测试。FFHQ包含70,000张高质量的人像照片,也包括眼镜等配饰。我们使用人脸分割将其中的11,778张带眼镜的图像大致分割出来。MeGlass是一个包含1,710个身份的数据集,每个身份都有带眼镜和不带眼镜的图像。该数据集在第5.1.2节中对身份保护验证至关重要。我们参考[28]使用面部关键点将所有图像对齐到256×256的大小。实现细节。我们使用PyTorch实现了我们的方法。我们使用Adam优化器[29],其中β1=0.5,β2=0.999。学习率为0.0001,批大小为8。对于公式(7)和(10)中的目标函数的权重,我们设置λadv=0.1,λmask=1,λde−s=1和λde−g=1。除了DA网络和判别器之外,所有其他网络都使用[26]中的架构。在实践中,我们首先训练跨域分割模块30个epoch,并在训练物品去除阶段固定它,该阶段需要80个epoch。整个训练过程在单个GTX 1080 GPU上大约需要两天时间。05.1.与最先进的方法比较0我们将我们的方法与最先进的眼镜去除方法进行比较:ERGAN [22]和ByeGlassesGAN [32],以及包括CycleGAN[63]、StarGAN [9]、ELEGANT [57]、pix2pix [25]和HiSD[33]在内的图像到图像转换方法。为了进行公平比较,所有这些方法和我们的方法都没有在测试数据集上进行训练。具体而言,为了与ERGAN和HiSD进行比较,34340图4. 在FFHQ数据集(顶部)和MeGlass(底部)上不同方法的定性跨数据集结果。0我们直接使用它们在CelebA和CelebA-HQ[27]上训练的发布模型。对于CycleGAN、StarGAN和ELEGANT,我们使用它们的代码和CelebA数据集对其进行了眼镜去除任务的训练。由于pix2pix需要成对的数据,我们使用发布的代码在我们的合成数据上对其进行了训练。由于我们无法联系到ByeGlassesGAN[32]的作者进行比较实验,我们只能使用他们论文中发布的图像进行定性比较。请注意,比较的目的不是在相同的设置中纯粹比较不同的方法,而是展示哪种解决方案更好地解决了问题。05.1.1 定性比较0我们首先将我们的方法与FFHQ和MeGlass上的先前工作在各种图像上的视觉质量进行比较,涵盖了不同的年龄、性别、头部姿势、光照、眼镜形状和纹理。如图4所示,与先前的工作相比,我们的方法在质量上取得了最好的效果。0ELEGANT无法去除所有测试图像上眼镜的边框。ERGAN可以去除眼镜,但眼镜区域总是模糊的。CycleGAN、StarGAN和pix2pix保留了整个眼镜区域的高频细节,但对于一些样本无法完全去除眼镜。HiSD在一些简单样本上似乎与我们的方法相竞争,但在去除锐利的阴影(第一行)、不寻常形状的眼镜(第五行)和纹理(第二行)方面失败。受益于遮罩引导学习和我们的合成数据,我们的方法可以去除各种眼镜和相应的阴影。此外,它在被眼镜或阴影遮挡的区域生成逼真的内容,并保持与周围区域的整体照明和皮肤纹理的一致性。对于ByeGlassesGAN[32],我们只使用他们论文中发布的图像进行比较。结果如图5所示,我们的方法在去除阴影方面优于他们的方法。FID↓MOS↑TAR@FAR↑Rank-1↑1e−21e−334350图5. 使用ByeGlassesGAN [32]的论文中的图像进行定性比较。05.1.2 定量结果0对于定量比较,我们首先使用Fréchet InceptionDistance(FID)[20]评估生成图像的真实性。然后,我们应用人脸识别技术来评估身份保护的能力。最后,我们采用用户研究来进一步评估眼镜去除的视觉质量。真实性。首先,我们使用不同的方法处理FFHQ中带眼镜的图像。然后,我们计算去除眼镜的结果与FFHQ中没有眼镜的图像之间的FID。结果(表1,第一列)显示我们的方法与HiSD相竞争,并且优于其他方法。这表明我们和HiSD生成的图像可能接近没有眼镜的真实图像。请注意,真实性是一种主观的度量,无法完全由FID来表示。为了进一步评估,我们稍后进行了用户研究。身份保护。为了评估身份保护能力,我们使用一些常用的人脸识别指标[5,6],包括在假接受率(FAR)下的真接受率(TAR@FAR)和Rank-1。为了计算这些指标,我们首先从MeGlass数据集中收集了1,227个图像三元组。每个三元组包含三个相同身份的图像:两个没有眼镜的图像和一个带眼镜的图像。然后,我们将带眼镜的图像输入到不同的方法中,以获取相应的去除眼镜结果。最后,我们将三元组中的第一个无眼镜图像作为画廊,将其他所有图像作为探针,基于预训练的人脸识别网络[2]计算指标。如表1所示,三元组中的第二个无眼镜图像(noglass)在人脸识别准确性方面表现出较高的准确性,因为它是一个包含完整身份信息的真实图像。然而,当将带眼镜的图像作为探针(glass)时,准确性会下降,表明眼镜对人脸识别有负面影响。ERGAN、Cycle-GAN、ELEGANT和pix2pix在去除眼镜后进一步降低了人脸识别的性能,而Star-GAN和HiSD提高了指标。我们的方法展示了0有眼镜 - - 0.6025 0.3349 0.37160ERGAN [22] 38.61 1.10 0.2839 0.1005 0.1439 CycleGAN [63] 38.102.21 0.5856 0.3186 0.3431 ELEGANT [57] 43.13 1.12 0.3531 0.15070.1862 StarGAN [9] 40.93 1.51 0.6435 0.3773 0.4107 HiSD [33]26.74 3.17 0.6329 0.3757 0.3903 pix2pix [25] 41.42 1.52 0.56870.3015 0.3422 我们的方法 26.89 4.43 0.6702 0.4315 0.46210无眼镜 - - 0.8295 0.6430 0.66250表1. 不同方法的定量结果。0最显著的增加,代表了最佳的去眼镜和身份保留能力。用户研究。我们进行了用户研究,进一步评估去眼镜的视觉质量。具体而言,我们将不同方法的结果与输入图像结合起来构成一个“问题”。参与者根据视觉质量给出评分,从1到5分(1为最差,5为最好)。总共,我们邀请了40名参与者,每个参与者被要求回答20个随机抽样的“问题”。如表1所示,我们的方法具有最高的平均意见分数(MOS),表明我们的技术的优越性。05.2. 消融研究0在本小节中,我们评估了遮罩预测阶段和物品去除阶段的关键贡献的性能。遮罩预测。我们首先对遮罩预测阶段进行消融研究。第一个消融是移除DA网络,使用仅在合成数据上训练的两个新分割网络直接在真实数据上进行测试(w/oDA)。图6的结果显示,没有域适应时,估计的眼镜遮罩有时是不完整的,因此导致阴影遮罩预测产生更糟糕的结果。第二个消融是移除多步策略(在遮罩预测中),通过使用单个网络同时估计眼镜和阴影的遮罩(w/omulti-step)。在DA网络的帮助下,眼镜遮罩被正确估计。然而,由于眼镜遮罩在单步设置中无法帮助阴影遮罩的估计,估计的阴影遮罩仍然有明显的伪影。为了进一步评估我们的假设,即眼镜遮罩可以指导阴影遮罩预测的任务,因为阴影是由眼镜引起的,我们还进行了另一种消融设置,其中阴影遮罩首先被预测,然后在眼镜遮罩预测中用作指导(SM-guidedGM)。其结果表明,这种多步设置会导致更糟糕的阴影遮罩估计。这进一步证明了我们的假设的正确性。FID↓TAR@FAR↑Rank-1↑1e−21e−334360图6.遮罩预测阶段不同消融设置的眼镜遮罩(绿色)和阴影遮罩(蓝色)的可视化。0w/o DA 27.45 0.6463 0.3977 0.4392 w/o multi-step 27.180.6683 0.4262 0.4458 SM-guided GM 27.30 0.6641 0.42010.4523 GM-guided SM (ours) 26.89 0.6702 0.4315 0.46210w/o SM 33.89 0.6586 0.3989 0.4327 w/o GM 42.80 0.65670.3846 0.4221 w/o multi-step 28.66 0.6675 0.4197 0.4498De-Glass First 29.58 0.6590 0.4115 0.4417 De-Shadow First(ours) 26.89 0.6702 0.4315 0.46210表2.遮罩预测阶段(上)和物品去除阶段(下)不同消融设置的定量比较。0消耗,两个任务的顺序很重要,因为眼镜和阴影之间存在因果关系。物品去除。在这里,我们通过比较不同的消融设置来评估遮罩引导和多步策略(在物品去除中)的效果。我们首先训练两个消融设置,分别不使用阴影遮罩或眼镜遮罩(w/o SM和w/oGM)。我们还使用一个网络移除眼镜和阴影来构建第三个消融设置(w/omulti-step)。与遮罩预测阶段类似,我们还反转了去阴影和去眼镜网络的顺序,得到了第四个设置(De-GlassFirst)。图7中的定性结果明显表明,w/oSM在去除阴影方面较弱,而w/oGM无法完全去除眼镜。此外,w/o multi-step和De-GlassFirst与所提出的方法相比也有明显的退化。表2中的定量结果也显示了所提出方法的优势。06. 限制条件0广泛的实验证明,所提出的方法在现实世界的图像上取得了有希望的性能0图7. 项目删除阶段不同消融的定性结果。0图8.限制条件。极端头部姿势与镜片效果(左)和彩色镜片(右)。这些情况对大多数现有方法来说都很困难。这里,我们只展示与最具竞争力的方法(HiSD)的比较。0在跨年龄、性别、头部姿势、光照和眼镜等方面,大量实验证明了所提出方法在现实世界的图像上取得了有希望的性能。然而,它目前在极端头部姿势或带有彩色镜片的眼镜上的表现不佳,如图8所示。大头姿势通常会导致极端的镜片畸变,这在肖像合成中是昂贵的。带有彩色镜片的眼镜,例如太阳镜,由于完全遮挡了眼睛,仍然很难去除。一个可能的解决方案是将这些情况的更多样本添加到训练数据集中,这将包含在我们的未来工作中。07. 结论0在本文中,我们介绍了一种新颖的眼镜去除技术,它首先检测然后使用基于掩码的多步网络架构去除眼镜。据我们所知,所提出的方法是首次尝试同时从单个肖像中去除眼镜及其投影阴影。此外,我们构建了一个高质量的合成肖像数据集,提供了中间和最终的监督。为了填补合成和真实领域之间的差距,我们应用了跨域分割模块,从统一的域中预测眼镜及其投影阴影的掩码,以进
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功