基于周期性自我调节的解耦多任务人脸识别

108 浏览量更新于2023-10-25 收藏 1.19MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

4156基于周期性自我调节的解耦多任务人脸识别郑庆平1，邓建康2，朱征3，李颖1，Stefanos Zafeiriou2，41西北工业大学，2华为，3清华大学，4伦敦帝国理工学院zhengqingping2018@mail.nwpu.edu.cn，jiankangdeng@gmail.com，zhengzhu@ieee.orglybyp@nwpu.edu.cn，s.imperial.ac.uk摘要本文探讨了典型故障案例（如：空间不一致和边界混淆）。为了解决这些问题，我们提出了一种新的解耦合多任务学习与循环自我调节（DML-CSR）的人脸分析。具体而言，DML-CSR设计了一个多任务模型，其中包括人脸解析，二元边缘，类别边缘检测。这些任务仅共享低级编码器权重，而彼此之间没有高级交互，从而能够在推理阶段将辅助模块与整个网络解耦。为了解决空间不一致问题，我们开发了一个动态双图卷积网络来捕获全局上下文信息，而无需使用任何额外的池化操作。处理单面和多面中的边界混淆的图像图像GT EAGRNetGT图像我们GT场景，我们利用二进制和类别边缘检测，共同获得通用的几何结构和细粒度的语义线索的人脸。此外，为了防止训练过程中噪声标签降低模型泛化能力，提出了循环自调节机制，通过循环迭代的方式，对多个模型实例进行自集成，得到新的模型，并将新实验表明，我们的方法在Helen，CelebAMask-HQ和Lapa数据集上实现了新的最先进的性能源代码可以在https://github.com/deepinsight/insightface/tree/master/parsing/dml_csr上找到。1. 介绍人脸分析作为一种细粒度的语义分割任务，旨在为每个人脸成分分配像素级标签，例如，眼睛鼻子嘴巴语义面部部分的详细分析在许多高级应用中是必不可少的，例如面部交换[28]，面部编辑[15]，这项工作是在郑庆平在华为实习时完成的图1.前三行显示了应用EARGNet[36]第36话面对现实最后一行显示训练数据集上的噪声标签。[29]《易经》中的“气”字。受益于深度卷积神经网络（CNN）的学习能力和像素级注释中的劳动力[15，21，35]，基于全卷积网络（FCN）的方法[7，10，18-然而，卷积核的局部特征阻止了FCN捕获全局上下文信息[25]，这对于语义解析图像中的面部成分至关重要。为了解决这个问题，大多数基于区域的人脸解析方法[10，20，47]将CNN特征集成到变体CRF中以学习全局信息。然而，这些方法没有考虑各种对象之间的相关性。为此，Teet al. [36]提出了EAGRNet方法，通过在图上的所有顶点上传播信息来对人脸图像上的区域级图表示进行即使EAGRNet能够对非局部区域进行推理，以获得远距离面部之间的全局依赖关系，4157组件并实现了最先进的性能，但它仍然面临空间不一致和边界混乱的问题。在EAGRNet中，PSP模块[45]采用平均池化层[22]来捕获全局上下文先验，导致不一致的空间拓扑。此外，EA-GRNet在上下文嵌入中加入了额外的二进制边线索，然而，EAGRNet很难处理高度不规则的面部部位之间的边界（例如，图1中的头发和衣服），并在拥挤的场景中（图1中的多个面部）区分不同面部实例之间的清晰边界。此外，学习一个可靠的人脸解析模型需要精确的像素级注释。尽管如此，在训练数据集上不可避免地存在粗心的手动标记错误，如图1的最后一行所示。泰etal. [36] 采用传统的全监督学习方案来训练EAGRNet，由于地面实况中的所有像素都被平等处理，因此无法定位标签噪声。值得注意的是，忽略这种不完整的注释限制了模型的泛化，并阻止性能提高到更高的水平。在本文中，我们提出了一个端到端的人脸分析方法，这是基于解耦多任务学习与循环自我调节（DML-CSR ）。具体来说，给定面部图像的输入，在ImageNet上预训练的ResNet-101 [8]被用作从不同级别提取特征的骨干之后，我们的多任务模型由三个任务组成，即人脸解析，二进制边缘检测和类别边缘检测。这些任务共享来自主干的低级权重，但没有高级交互。因此，我们的多任务学习方法可以在推理阶段将额外的边缘检测任务从人脸解析中分离出来。为了解决由池化操作引起的空间不一致，我们在人脸解析分支中开发了动态对偶图卷积网络（ DDGCN ）DDGCN不包含额外的池化操作，它可以在空间和特征空间动态融合GCN的全局上下文表达式为了解决单人脸和多人脸场景中的边界混淆，所提出的类别感知边缘检测模块比EARGNet [36]中使用的二进制边缘检测模块利用更多的语义信息为了解决训练数据集中的噪声标签引起的问题，我们引入了一种受自训练启发的循环学习调度器[3，16，34，41，42，42，49]，以实现高级循环自我调节。该方法包括自集成策略和自蒸馏方法，前者可以将一组历史模型进行聚合以获得新的可靠模型，后者利用聚合模型产生的软标签来指导后续的模型学习.最后，建议的CSR迭代交替这两个程序之间，纠正噪声标签dur-训练和促进模型的推广。建议的CSR可以显着提高模型的可靠性和标签在一个循环的训练调度，而不引入额外的计算成本。总结起来，我们的主要贡献如下：• 我们提出了一个解耦的多任务网络，包括人脸分析，二进制边缘检测，类别边缘检测。人脸解析分支引入了一个DDGCN，没有任何额外的池化操作来解决空间不一致的问题，并设计了一个额外的类别边缘检测分支来处理边界混淆。• 我们在培训过程中引入了周期性的自我调节机制。迭代在一个自集成过程（逐步提升模型泛化）和另一个自蒸馏过程（调节噪声标签）之间交替进行。• 我们的方法在 Helen [35] （ 93.8% 的总体 F1 评分）， LaPa [21] （ 92.4% 的平均 F1 ）和CelebAMask-HQ [15]（86.1%的平均F1）数据集上建立了新的最先进性能。与EARGNet [36]相比，我们的方法利用更少的计算资源，因为边缘预测模块可以与整个网络解耦，将推理时间从89 ms减少到31 ms，但性能要好得多2. 相关工作面部分析大多数现有的人脸解析方法可以可分为基于全球和基于本地的方法。基于全局的方法旨在直接从整个RGB人脸图像预测像素级标签。早期的作品使用各种手工制作的模型来学习面部部位之间的空间相关性，例如缩影模型[11]和基于范例的方法[35]。后来，许多作品[10，20，40，47]将基于CNN的特征植入到条件随机场（CRF）框架中，并采用多目标学习方法同时对像素级标签和邻域依赖性进行建模。Lin等[17]设计一个基于CNN的框架，使用RoI Tanh-Warping算子来使用中央和外围信息。Te等人[36]引入边缘感知图模块来有效地推理面部区域之间的这些基于全局的方法固有地将先验集成到面布局中，但是由于忽略每个单独的部分而限制了精度基于局部的方法旨在通过为不同的面部区域训练分离的模型来单独地预测每个面部部分。Luo等人[24]利用分层方法来分别分割每个检测到的面部成分。Zhou等[48]提出了一种基于CNN的互连模型来预测人脸检测后的像素类别，这需要大量的内存和计算消耗。后来，刘等。[19]在两个连续的阶段中结合了浅CNN和空间变化RNN，以解析面部图像，4158图2.概述了我们提出的DML-CSR人脸分析方法在训练阶段，它包括三个并行的子模型，人脸配对，二值边缘检测和类别边缘检测，联合训练的循环自我调节机制。在测试阶段，所有的边缘模型从整个模型解耦。非常快的推理速度。这些基于局部的方法几乎都采取了从粗到细的策略，同时考虑了全局一致性和局部精度。但是，它忽略了从骨干共享和联合优化的精度和效率的提高。多任务学习是一种常见的策略，它通过共享特征机制或“骨干”模型的隐藏层联合训练各种任务它已被广泛应用于解决多个像素级任务。在深度学习的背景下，多任务学习可以分为硬或软参数共享方案。在基于硬参数共享的图像分割多任务学习中，参数集由共享参数和任务特定参数组成。UberNet [14]是第一个用于图像分割的硬参数共享模型，其中同时处理后来，大多数多任务学习模型[12，27，37]遵循硬参数共享方案，并简单地共享相同的编码器层。在这些工作中，每个任务特定的解码头在共享编码器的末尾，导致次优的任务分组。在基于软参数共享的多任务图像分割学习中，每个任务都有自己的一组参数，并采用特征共享机制来处理任务间的通信.十字绣网络[26]是采用软参数共享方案的典型多任务架构。该算法将各个任务层的激活信息进行线性组合，称为软特征融合战略之后，Ruderet al. [33]将此方法扩展到学习选择性共享层。与硬参数共享方法相比，基于软参数共享方法的多任务学习的问题是缺乏可扩展性，因为任务的增长使多任务网络的大小线性增加[38]。3. 方法本节首先分析将EARGNet [36]应用于人脸解析时的代表性失败案例这些问题促使人们提出了一种更准确和更强大的训练方法，称为周期性自我调节解耦多任务学习（DML-CSR）。整个流水线如图2所示。3.1. EAGRNet的局限性尽管EAGRNet [36]在人脸解析方面取得了显着的成绩，但在公共基准数据集的训练过程中存在以下问题（例如，[35 ][36][37][38][39空间不一致。如图1的第一行所示，EAGRNet错误地预测由于EAGRNet在PSP模块[45]中采用自适应平均池来捕获全局上下文信息，因此原始像素之间的详细空间关系和约束因此，大区域内的一小部分区域可以被预测为错误的类。4159--由于直接采用一般的对象分割方法来进行人脸解析是次优的，因此我们在模型设计中尝试避免不必要的池化操作。边界混乱。如图1的第二行直观所示，EARGNet无法区分（1）“布”和“头发”之间的边界，以及（2）拥挤场景下的目标面部和周围面部之间的边界。通常，不同面部器官之间的组件边界和近距离面部之间的实例边界对于面部解析模型可能是混淆的。由于EARGNet中构建的边缘网络简单地通过点积和池化操作将二进制边缘先验集成到上下文特征中，因此它只能恢复区域的部分边界。标签噪音的影响。由于像素级的标注是困难和昂贵的，大多数的人脸分析基准（例如。[35 ][36][37][38][39]半自动的方法。因此，标签噪声不可避免地存在于这些数据集中。如图1的最后一行所示，注释者将“眼睛”标记为“眼镜”。这种注释错误会限制模型的性能，特别是对于尾部类（例如，“项链”）。然而，EARGNet方法是一种完全监督的方法，缺乏解决标签噪声的调节机制。3.2. 解耦多任务学习在此基础上，提出了一种端到端解耦的多任务网络，以解决空间不一致和边界混淆问题。在这里，我们定义了三个并行任务的人脸分析，二进制边缘检测和类别边缘检测。为了防止在上下文嵌入中使用任何池操作，定制的GCN [13]模块被设计为为解析分支获得全局上下文关系。为了减轻边界混淆，二进制边缘检测分支以及类别感知的语义边缘检测分支联合训练，以获得丰富的边缘信息。在训练过程中，特征表示同时针对这三个任务进行优化，但在测试过程中删除了辅助边缘预测分支，而不会引入任何额外的计算成本。我们的模型架构的概述如图2所示。给定一个输入的面部图像，在ImageNet上预训练的ResNet-101 [8]被作为骨干，从不同的级别提取特征，标记为C1，C2，C3，C4，C5。因此，其余部分涉及：（1）面部解析分支，其由上下文嵌入和解析头[36]组成，（2）使用与[32]相同的边缘解码器的二进制边缘检测分支，以及（3）类别边缘检测分支，其特征在于丰富的分量边缘信息每个任务共享骨干模型中前四层的相同特征表示对于边缘检测分支，来自C2、C3和C4的特征图被合并为输入。对于解析分支，来自C5的上下文嵌入特征与特征映射连接在一起图3.用于上下文嵌入的拟议DDGCN的图示DDGCN由两个分支组成，并且每个分支由图卷积网络（GCN）组成，以在卷积特征映射X的空间维度和特征维度中对上下文信息进行建模。DDGCN中不涉及合并步骤，以避免空间不稳定性。作为输入。由于边缘分支保留了低级别特征图中的边界信息，因此联合边缘预测可以辅助高级别语义预测。在测试阶段，这两个边缘分支与整个模型解耦，避免了额外的计算开销。没有池化的上下文嵌入上下文嵌入对于人脸解析至关重要[4，39，43，45]，但是池化操作导致空间不一致的问题。为此，我们设计了一个动态对偶图卷积网络（DDGCN），它利用一维卷积来构建不同二维维度上的GCN的邻接矩阵。如图3所示，所提出的DDGCN包括在空间空间中具有参数λ的一个加权GCN（标记为H_S）和在特征空间中具有参数γ的另一个加权GCN（标记为H_F）Y=X©（λ×HS） ©（γ×HF），（1）其中表示级联操作。参数λ和γ分别是HS和HF的可学习权重与DGCN [44]不同，我们在坐标空间投影期间删除了池化操作，并且通过动态级联而不是加法操作将空间和通道特征合并到输入X中。为了避免梯度计算的缓冲存储，所有 BN 层都被替换为 Inplace-ABN[31]。由于所提出的DDGCN仅适用于C5特征图，因此我们的上下文嵌入比EAGRNet更有效，EAGRNet采用低级特征进行图表示学习。二进制和类别边缘辅助人脸解析。由于当前用于面部解析的训练数据集不提供用于边界检测的标签，我们首先生成二进制和类别感知边缘的伪标签，如图4所示。更具体地，通过参考邻近的四个像素，从逐像素标签图中识别二进制边缘像素。如果存在一个零值的相邻像素，则当前像素被视为边缘像素。通过采用相同的标准，类别感知边缘独立地为每个面部组件生成。4160--cece--Σ≤≤≤≤∈∈KLXKLKL+λ1·Lb+λ3·Lb+λ2·Lc+λ4·Lc`x`xp p bcLLp×Wp“我的天我为了通过同时训练解析和边缘检测任务来学习层C1，C2，C3，C4的不同于一般的语义分割，人脸识别的特征在于微小成分。为了保留小组件的结构，我们还使用了Lova′ sz-softmax[1]loss，它利用平均交集得分来衡量地面真实值和预测掩码之间的差异。因此，交叉entrop y[6]和Lova′ sz-softmax[1]损失被组合在一起以优化解析模块。此外，加权交叉熵[6]损失用于优化二进制和类别感知边缘检测。因此，多任务总损失定义为LMT=λ0·（Lce+Llova′sz）+λ1·Lce+λ2·Lce，（2）解析边其中b和c分别表示对应于二进制和类别感知语义边缘的加权交叉熵损失[6超参数λ0、λ1和λ2表示每个任务的不同权重。除了上述并行优化，我们还开发了一个边界辅助语义损失，扩大了部分，- 根据二进制来计算边界像素的损失，以及(a) 二进制边缘生成（b）类别感知边缘生成图4.从逐像素标签映射生成二进制边缘标签和类别感知边缘标签。其中λ3和λ4分别对应于二进制和类别感知边缘的注意力损失权重3.3. 周期性自我调节为了减少标签噪声，我们引入了一种循环自调节（CSR）训练策略来实现在线细化标签.图2所示的建议CSR包括两个部分，自集成和自蒸馏。通过自增强的模型泛化。如图2的自集成过程中所示，给定来自先前时期的最佳模型M best和一组接下来的连续模型M1，M2，. . .，Mn，通过对这些模型的权值进行集结，得到了一个新的模型N类别感知边界图。由于边缘图与分割图高度相关，因此将两个KM=MK+ 1最好 +1个月（k+1）Nnn=1、（6）类型的边缘线索进入解析模块，以提高具有清晰轮廓的成分的分割精度。为此，我们定义了一个双边缘注意力损失N其中k是当前周期数，1k K，n是周期中使用的模型数，1nN.此外，符号M、Mbest和Mn表示the weights of aggregated, best and current models, respec-L=11LpB，（3）AttnNbiii=1NC活泼地此外，所有训练数据都被转发到新的聚合模型，以重新估计所有Inplace-ABN [31]层中的统计参数。L=1mm1个p∗ ∗L⊙C、（四）通过自蒸馏进行标签精炼。作为软标签AttnNCji=1j =1ciji包含黑暗知识[9]和更少的标签噪音，我们探索其中N是一批中的图像总数，bi是二进制边缘标记图B中的边界像素的数量为RH×W，c ij是类别感知边缘标签映射Cij中的特定类别jRH×W，wj是一个category-一个w的权重来强调一个特定的类j（例如，“项链”的尾类）可以增加尾类的权重，L∈RH是自蒸馏，以提高分析性能。更具体地说，如图2的自蒸馏过程所示，利用从上述聚合模型生成的解析结果来监督多任务学习。总加权损失定义为p p b ciLCSR=α0·（Lkl+Llova′sz）+α1·Lkl+α2·Lkl，（7）the cross-entropy between a predicted parsing result and the地面实况不同于二元边界的注意在[21]中提出的损失，我们进一步引入类别感知边界注意语义丢失，显著改善`parsex`edgesx其中L，Lb，Lc 代表库尔贝克-莱布勒潜水员代表性不足的类的分割结果。我们的解耦多任务学习的总体损失可以总结为[6]第一，以“为”为“为”，以“为”为“为”，以“为”。分别是边缘感知任务它们计算聚合模型的软标签与预测之间的当前模型的p p结果。超参数α0，α1，α2LDML=λ0·（Lce+Llova′sz）解析ceAttn（五）ceAttn、是分配给每个任务的权重。最后，自系综和自蒸馏cesses相互循环迭代，提升模型binaryeex`category−edgex泛化和逐步校正噪声标签BCIJ4161×方法皮肤鼻子U形唇 I型口L形唇眼睛眉头嘴整体F1Liu等[19个]92.193.074.379.281.786.877.089.188.6Guo等[七]《中国日报》93.894.175.883.783.180.487.192.490.5Lin等[17个]94.595.679.686.789.889.683.195.092.4Wei等[46个]95.695.280.086.786.489.082.693.691.6Liu等[21日]94.995.883.789.191.489.883.596.193.1Te等人[36个]94.696.183.689.891.090.284.995.593.2DML-CSR（我们的）96.695.587.691.291.290.988.595.993.8表1.与Helen数据集上最先进的方法在总体F1评分方面进行比较方法皮肤头发L-EyeR-EyeU形唇 I型口L形唇鼻子L-眉R-BrowF1平均值Zhao等人[45个]93.594.186.386.083.686.984.794.886.886.988.4Liu等[21日]97.296.388.188.084.487.685.795.587.787.689.8Te等人[36个]97.396.289.590.088.190.089.097.186.587.091.1DML-CSR（我们的）97.696.491.891.588.090.589.997.390.490.492.44. 实验表2.在平均F1中与LaPa数据集上的最新方法进行比较边缘损耗被设置为λ0=1、λ1=1和λ2=1。分别地。为了恢复尾类的边界（例如项链数据集。我们使用Helen [35]，CelebAMask-HQ [15]，[21 ]第21话实验Helen数据集包含2，330张图像，包含11个标签：“背景”、“面部皮肤”、“左/右眉”、“左/右眼”、“鼻子”、“上/下唇”、“内口”和“头发”。它分为2,000、230和100张图像，用于训练、验证和测试。CelebAMask-HQ数据集包括24，183，2，993和2，824张图像，用于训练，验证和测试。除了Helen数据集的11个类别之外，CelebAMask-HQ数据集增加了额外的8个类别，包括LaPa数据集在表情、姿势和遮挡方面具有丰富的变化，与Helen数据集一样由11个类别组成。它分为18，176个样本用于训练，2，000个样本用于验证，2，000个样本用于测试。实施详情。所提出的方法由Pytorch [30]实现，采用ResNet101 [8]作为主干。骨干的权重使用ImageNet上的预训练模型初始化[5]。我们网络中的批量规范化都被就地激活批量规范[31]所取代。在训练和测试阶段，输入图像大小均为473 473。During training, thedata is aug- mented using: random rotation selecting anangle within (-30°, 30°) and random scaling with a factorfrom 0.75 to1.25.我们将批量大小设置为28，网络总共训练了200个epoch。前150个时期被训练为初始化，随后是K=5个周期，每个周期包含N=自我训练过程的10个时期在解耦多任务学习期间，我们遵循与EAGRNet [36]类似的训练策略，即。随机梯度下降（SGD）优化器，基本学习率为0.001，衰减权重为0.0005。对于总损失函数，分析权重，二进制边缘和类别和耳环），权重λ3=4和λ4=1分别被分配给二进制和类别边缘注意力损失对于循环自调节，采用学习率为10−5的余弦退火学习率调度器[16]来优化模型泛化。用于解析、二进制和类别感知边缘的自蒸馏损失的权重被设置为α0= 1、α1= 1和α2= 0。1 .一、评估指标。来衡量一张脸的表现在句法分析模型中，采用了两种普遍接受的评价标准，即平均交集对并（mIoU）和F1得分。为了与之前的方法保持一致的比较，Helen数据集上的整体F1分数是在合并的面部组件上计算的：眉毛（左和右）、眼睛（左和右）、鼻子和嘴（上唇、下唇和内口）。对于CelebAMask-HQ和LaPa数据集，计算所有类别（不包括背景）的平均F1分数。4.1. 与最新技术水平的在本文中，我们彻底比较了我们提出的模型与现有的国家的最先进的方法（即。Zhao等人[45]，Liuetal.[21]，Leeet al.[15]，Luoet al.[23]，Liuet al. [19]，Guoet al. [7]，Linet al. [17]，Weiet al. [46]和Teet al.[36]）在Helen，LaPa和CelebAMask-HQ数据集上。Statistical results in Table 1, Ta- ble 2, and Table 3demonstrate that the proposed DML- CSR significantlyoutperforms other methods, achieving 93. 8%，92. 4%，86。Helen、LaPa和CelebAMask-HQ的F1分数分别为1%在Lapa数据集上，DML-CSR在眉毛分析上表现出明显的优势.在CelebAMask-HQ数据集上，DML-CSR在尾部类（如“earring”和“necklace”）上实现了更好的性能。与EAGRNet [36]相比，DML-CSR重新4162∗∗∗×方法脸I-Mouth鼻子U型唇眼镜L-LipL-Eye头发R-Eye帽子L-眉耳环R-Brow项链L型耳脖子R耳布F1平均值Zhao等人[45个]94.889.890.387.175.888.879.990.480.158.277.365.778.019.475.682.773.164.276.2Lee等[第十五条]95.563.485.688.992.990.184.386.685.291.381.463.281.226.184.992.883.168.380.3Luo等人[23日]96.093.893.788.690.690.386.293.986.585.983.267.883.130.186.588.884.183.584.0Te等人[36个]96.295.094.088.992.391.288.694.988.787.685.768.385.227.688.089.485.785.385.1DML-CSR（我们的）95.791.893.987.492.691.089.494.589.688.585.571.485.740.688.389.688.285.786.1表3.在平均F1中，与CelebAMask-HQ数据集上的最新方法进行比较基线DDGCNDMLCSR海伦平均IoU总体F1CelebAMask-HQ平均IoU平均F1Lapa平均IoU平均F1✓82.3692.1176.1484.3483.1689.84✓✓83.42（+1.06）92.56（+0.45）七十七点四十一分（+1.27）85.33（+0.99）86.65（+3.49）92.10（+2.26）✓✓✓85.48（+3.12）93.75（+1.64）七十七点六九（+一点五五）85.98（+1.64）87.00（+3.84）92.32（+2.48）85.58（+3.22）93.78（+1.67）七十七点八一（+1.67）86.07（+1.73）87.13（+3.97）92.38（+2.54）✓✓✓✓表4. Helen、CelebAMask-HQ和LaPa数据集上的DML-CSR消融研究。这里，DDGCN用于上下文嵌入。DML表示我们的解耦模型的多任务学习，包括面部解析，二进制和类别边缘检测。企业社会责任代表着周期性的自我调节。方法海伦整体F1CelebAMask-HQF1平均值LapaF1平均值基线92.1184.3489.84+PSP [45]92.2084.7690.80+ PSP池92.3784.8391.35+DGCNet [44]92.4185.1791.72+ DGCNet池化92.4585.2091.99+DDGCN92.5685.3392.10表5.分析分支上不同上下文模块的比较这里，方法海伦整体F1CelebAMask-HQF1平均值LapaF1平均值基线92.1184.3489.84+DMLp+b93.3585.5892.16+DMLp+b+ba93.5285.6992.24+DMLp+c93.6185.7392.21+DMLp+c+ca93.7185.8792.28+DMLp+b+c93.6585.8092.26+DML全部93.7585.9892.32表6.我们在Helen，CelebAMask-HQ和LaPa数据集上提出的多任务学习的结果这里，面部解析、二进制边缘检测和类别边缘检测的损失在下标中表示为p、b和c二进制边缘注意和类别边缘注意损失在下标中分别表示为ba和ca将参数从 66.72M 降低到 59.67M ，将 FLOP 计数从51.63G降低到48.54G。给予与EAGRNet [36]相同输入大小的图像，DML-CSR将每个图像的推理时间从89 ms大幅缩短至总之，DML-CSR利用更少的计算资源，以优于国家的最先进的方法。4.2. 消融研究分析改进。为了说明单独模块和训练策略的效果，在相同的设置下，重新移动一些组件后的模型从头开始训练。基线方法采用具有简单卷积单元的解析模块，该卷积单元包括3 3卷积和Inplace-ABN [31]，以将主干最后一层的特征映射为256维的新特征。如表4所示，我们提出的DML-CSR大大提高了人脸解析的性能。与我们的基线相比，采用DDGCN而不使用任何池操作作为上下文嵌入实现了显著的性能改善。然后，附加语义边缘模块以增强共享特征，进一步提高了解析性能。通过在自我调节机制中训练解耦的多任务网络获得了最佳结果，分别使Helen和LaPa数据集的平均IoU提高了约3.2%和4.0%。此外，它在He- len数据集上的整体F1分数提高了约1.7%，并且超过了2。在LaPa数据集上平均F1改善5%在CelebAMask-HQ数据集上，DML-CSR在平均IoU和平均F1方面也优于基线约1.7%的各种上下文模块的比较。证明4163图5.DML-CSR算法通过辅助类别边缘预测，可以在拥挤场景下区分不同的人脸在这里使用LaPa模型进行可视化。我们提出的用于学习上下文表示的DDGCN的有效性，基线中的上述简单卷积单元被各种上下文嵌入模块替代。表5中的消融实验表明，PSP [45]和DGCNet [44]中的池化操作对性能有害，并且所提出的DDGCN通过放弃池化步骤并采用动态特征融合策略而优于其他上下文模块不同辅助任务的比较。图5的视觉示例示出了辅助类别边缘模块可以区分面部组件和不同面部之间的边界。为了进一步探索类别边缘检测的效果，进行了相关实验。从表6中的结果可以看出，二元边缘检测分支和类别感知边缘检测分支都可以明显提高人脸解析的性能然而，类别感知的边缘比二进制边缘提供更多的信息，因此它更有利于人脸分析。此外，我们提出的等式（4）上的双边缘注意力损失进一步提高了三个基准测试数据集上人脸解析的整体性能目视结果分析。为了更好地理解所提出的方法的效果，我们在图6中展示了可视化示例。第二列的视觉示例表明，我们的基线显然解决了空间不一致的问题。然而，（b）列中的示例在前三个绿色框中出现了不同面部组件之间的严重不清晰的边界，并且在最后三个绿色框中出现了令人困惑的多面部轮廓。这是由于基线缺乏对全局依赖性的推理能力。列（c）中的前三行示例示出了个体成分的完整结构和面部部分之间几乎清晰的边界，说明了我们提出的DDGCN的长程推理能力。尽管如此，列（c）中的最后三行示例仍然存在不同的面部实例，因为所提出的DDGCN具有定位类似轮廓的对象的有限能力与列（b）-（c）中的示例相比，列（d）-（e）由于语义边缘的特征增强而呈现了单面部和多面部场景中的不同面部分量之间的清晰边界。查看列（d）-（e）中的绿色矩形内的区域，CSR可以恢复错误像素，从而防止噪声标签干扰。(a) 图像(b)基线（c）+DDGCN（d）+DML（e）+CSR（f）GT图6. DML-CSR算法在单人脸和多人脸场景下均能获得完整的人脸图像，且边界清晰。用相应的LaPa模型生成了不同列的可视化实例。这里，训练数据集以降低模型泛化能力。5. 结论在本文中，我们提出了DML-CSR，一个解耦的多任务学习方法与周期性的自我调节的人脸分析。在Helen、CelebAMask-HQ和LaPa上的综合实验验证了该方法的有效性。结果表明，DML-CSR方法在所有数据集上的性能均显著优于其他方法。训练细节将被公布，以鼓励对人脸解析的进一步研究。局限性。我们的方法在人脸解析中取得了令人印象深刻的结果。但是，在低分辨率面中会有轻微的性能下降。这是因为我们在高分辨率人脸数据集上训练模型。即便如此，我们相信DML-CSR是在大规模数据集上训练可靠的人脸解析模型的有价值的方法。社会影响。本文提出了一种通用的人脸分析模型，该模型不适用于特定的应用。因此，这项工作并不直接涉及社会问题。鸣谢。Stefanos Zafeiriou- 来自 EPSRC FellowshipDEFORM （EP/S 010203/1 ）、FACER 2 VM（ EP/N007743/1）和Google Faculty Fellowship.李英感谢国家自然科学基金（61871460）的支持。4164引用[1] Maxim Berman ， Amal Rannen Triki ， and Matthew BBlasch k o.lova'sz-softmaxloss：神经网络中交叉-联合测量优化的易处理的surrogate在CVPR，2018年。5[2] 瑞奇·卡鲁阿纳多任务学习。机器学习，1997年。3[3] 放大图片作者： Chen Liang-Chieh ， Raphael GontijoLopes ， Bowen Cheng ， Maxwell D. Collins ， Ekin D.Cubuk ， Barret Zoph ， Hartwig Adam ， and JonathonShlens.在视频序列中利用半监督学习进行城市场景分割。在ECCV，2020年。2[4] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L.尤尔。Deeplab：使用深度卷积网络、无纹理卷积和全连接crf进行语义图像分割。TPAMI，2018年。4[5] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Fei-Fei Li. Imagenet：一个大规模的分层图像数据库。CVPR，2009。6[6] Ian Goodfellow Yoshua Bengio和Aaron Courville深度学习麻省理工学院出版社，2016. 5[7] Tianchu Guo ， Youngsung Kim ， Hui Zhang ， DehengQian，ByungIn Yoo，Jingtao Xu，Dongqing Zou，Jae-Joon Han，and Changkyu Choi.用于面部解析的残差编码器解码器网络在AAAI，2018。1、6[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。二、四、六[9] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。arXiv：1503.02531，2015。5[10] 亚伦·S杰克逊，米歇尔·瓦尔斯塔尔，乔治斯·齐米罗普洛斯.一种cnn级联的界标引导语义部分分割方法。在ECCV，2016年。一、二[11] Warrell Jonathan和Simon J.D.王子Labelfaces：通过具有epitome先验的多类标签来解析面部特征。载于ICIP，2009年。2[12] Alex Kendall Yarin Gal和Roberto Cipolla使用不确定性来权衡场景几何和语义损失的多任务学习。在CVPR，2018年。3[13] 托马斯·N Kipf和Max Welling。使用图卷积网络的半监督分类。在ICLR，2017。4[14] Iasonas Kokkinos Ubernet：使用不同的数据集和有限的内存训练通用卷积神经网络，用于低，中，高层次的视觉。在CVPR，2017年。3[15] Cheng-Han Lee，Ziwei Liu，Lingyun Wu，and Ping Luo.Maskgan ： Towards diverse and interactive facial imagemanipulation.在CVPR，2020年。一二三六七[16] 李培科，徐云秋，魏云超，杨毅。用于人工解析的自校正。TPAMI，2020年。二、六[17] 林金鹏、杨浩、陈东、曾明、方文、陆远。使用ROItanh-翘曲的人脸解析。在CVPR，2019年。二、六[18] Yiming Lin，Jie Shen，Yujiang Wang，and Maja Pantic.Roi tanh-polar Transformer network，用于在野外进行人脸解析。IVC，2021年。1[19] Sifei Liu，Jianping Shi，Liang Ji，Ming-Hsuan Yang.通过递归传播进行面部解析。在BMVC，2017年。一、二、六[20] Sifei Liu，Jimei Yang，Chang Huang，and Ming-HsuanYang.用于人脸标记的多目标卷积学习CVP

下载后可阅读完整内容，剩余1页未读，立即下载