基于共识的人脸分割与解析学习结构

165 浏览量更新于2023-10-25 收藏 1.53MB PDF 举报

人脸分割

学习结构

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5508基于共识的人脸分割与解析学习结构Iacopo Masi Joe Mathai Wael AbdAlmageed USCInformation Sciences Institute，Marina del Rey，CA，USA{masi，jmathai，wamageed}@ isi.edu摘要人脸分割就是对人脸图像中的像素点进行语义标注.虽然目前的方法强调开发复杂的架构，使用条件随机场的平滑，或者更确切地说，采用对抗训练，我们遵循一个替代的路径强大的人脸分割和解析。遮挡以及面部的其他部分具有适当的结构，需要在训练期间在模型中传播。与将人脸分割视为独立像素预测问题的最新方法不同，我们认为它应该在相同的对象像素内保持高度相关的输出。因此，我们提供了一种新的学习机制，以加强结构在前，Nirkin等.Softmax和交叉熵结构通过共识（我们的）通过共识进行的措辞，由一个强大的损失函数引导，该函数迫使像素对象彼此一致。我们的人脸解析器是通过从一个其他模型中转移知识来训练的，但它在拟合标签的同时鼓励空间一致性与目前的做法不同，我们的方法享有像素预测，但铺平了道路，更少的文物，更少的稀疏掩模，空间相干的输出。1. 介绍人脸分割和解析是非常宝贵的工具，因为它们的输出掩码可以启用下一代人脸分析工具，高级人脸交换[34，54，53]，更复杂面部编辑应用程序[67]和面部完成[40，38，51]。分割和解析面部与通用语义分割密切相关[47，39，58，29，41，11，12]，因为它涉及根据像素语义密集预测输入图像中每个像素的条件类概率的任务。虽然两者共享相同的方法，但人脸解析与场景对象分割不同，因为在人脸检测步骤之后，人脸已经大致具有尺度和平移不变性，并且已经开发了大量方法来解决人脸解析任务[31，45，46，43，70，56]。虽然现有技术的方法强调开发复杂的体系结构（例如，两级网络，图1：通过共识的结构。从左至右：输入图像;[54]结果;我们的模型具有像素损失;我们提出的方法。以前的方法只预测脸（蓝色）与背景（黑色），而我们的结果是对遮挡（绿色）和背景（黑色）的单独预测。我们的损失通过共识约束在覆盖面部的对象上强制平滑。递归模型[45]）或复杂的面部增强器来模拟遮挡[54]，或者更确切地说，采用对抗训练[56]，我们采取了一种替代路径来实现鲁棒的面部分割和解析。我们的方法建立在与像素预测的独立性尽管上述任务的重要性，当前的方法忽略了自然界中存在的规则结构，并且简单地优化成本，该成本不会显式地将任何平滑性反向传播到网络参数中。这个问题对于具有明确定义和连续（非稀疏）结构的对象和面尤其重要。图1显示了所提出的方法在从对看不见的主题进行测试的验证集中提取的一些样本虽然公开可用的最先进的模型[54]执行面部分割，但它们使用非常稀疏和不连续的预测，并且仅通过建模相比之下，凭借我们的方法，我们可以将遮挡与背景分离，5509更重要的是，达到更稳定的预测，这是很难实现与像素明智的损失。正如[33，27，44]所指出的，使用逐像素softmax和交叉熵训练网络进行结构化预测，使得像素预测是独立和同分布（i.i.d.）的强烈和过于简单的假设。我们从格式塔定律[ 36 ]中获得灵感-特别是邻近性（接近的像素应被视为一组），闭合性（像素应被分组为完整的图形），良好的连续性（对象通常最小化不连续性）-并且为了响应先前过于简单的假设，我们做出了以下贡献，提出：（1）通过完整的面部形状（通过3D投影[ 8，50 ]稳健计算的强先验获得）与预先存在但易于出错的面部分割网络的输出之间的差异来分解遮挡;（2）利用之前分解的对象的连接组件，使用它们作为约束来制定一个新的损失函数，该损失函数仍然执行密集分类，但通过一致性学习来加强网络中的结构;（3）最终表明我们的方法是用于多达三个类别的人脸解析问题的通用工具，从而在人脸解析基准中报告了有希望的结果[7，31]。作为额外的贡献，我们已经发布了我们的模型和相关的代码1。本文的其余部分组织如下。第2节讨论了相关的工作，第3节解释了我们的方法，第4节报告了实验评估，第5节总结了我们的发现以及未来的工作。2. 相关工作人脸分割最近的人脸分割工作使用双流网络[63]来预测像素人脸分割掩码。该系统使用通过预先存在的数据集[25]或通过额外的半自动手动工作获得的逐像素分割掩模进行完全监督。值得注意的是，[63]是用像素级softmax+交叉熵训练的，为了在预测的掩码中强制正则化，该方法使用条件随机场（CRF）作为后处理步骤。重要的是，CRF已经用于通用对象分割和CNN [80，81]。对抗学习也被用于[48]中的分割与所有这些方法不同，我们的方法在网络中传播平滑性的方式上存在关键差异。[63]如：（1）（2）（3）（4）（5）（6）（7）（8）（9）（10）（11）（12）（ 13）（11）（12）（13）（11）（13）（14）（11）（13）（14）（11）（13）（11 [54]训练了一个简单的全卷积网络（FCN [47]），用于使用半监督工具进行二元人脸分割，以支持视频中人脸的手动分割;在我们的方法中，我们从[54]的权重中转移知识，但我们证明，通过使用我们的方法，我们可以从他们的错误中学习并改进模型。最后，Wanget1github.com/isi-vista/structure通过协商一致意见可在www.example.com上查阅al. [72]利用时间约束和递归模型进行视频序列中的人脸解析和分割，并提出可微损失以最大化交集（IoU）[59]。其他作品将面部分割问题扩展到细粒度面部解析[68，28，42]。语义分割类属语义切分长期以来一直是计算机视觉领域的一个有趣话题时间-从使用CRF [6，69]和图形切割[4，5]的开创性工作开始。CRF在像素之间施加一致性，评估不同的亲和性度量并通过消息传递算法解决优化问题[62]。他们已经成功地和广泛地用于人脸解析应用[31，46]。最近，它们开始被用作卷积网络的后处理步骤[63，46，11]，后来被表示为递归神经网络[80]。超像素也被用来简化分割过程[19，31]，尽管最近，该领域通过端到端的FCN训练进行了革命性的改革[47]，仅通过将分类损失[37]独立地扩展到每个像素来优化。在[47]之后，深度语义分割取得了广泛的进展-主要是改进卷积，以允许更宽的感受野及其atrous（扩张）版本[76，77]，不同的空间池机制或更复杂的架构[39，58，29，41，11，12]。结构建模。计算机视觉中的建模结构可以追溯到感知组织[52，64，16，15，17，14]和更一般的想法，描述对象与几个部分，提倡节俭[3]，形状描述。最近，随着现代深度学习，除了上述CRF公式，所有这些概念都在社区中消失了-除了一些例外[71，33]-相反，对抗训练[48，26，60，27]已被用于在预测中强加结构，迫使输出分布与地面实况注释的其他尝试包括在训练过程中的边界线索[1，9]或逐像素亲和力[2];其他人[28]使用由地标位置引导的CNN级联。关于结构预测的深入讨论，我们参考[55]。3. 基于一致性学习的人脸解析我们的目标是鲁棒地学习由卷积神经网络的权重参数化的非线性函数φ，该卷积神经网络将像素图像强度I∈R3×H×W映射到表示每个像素语义标签概率y ∈RK×H×W。更正式地说，我们的目标是优化φ（I），使它映射φ：R3×H×W→ RK×H×W，其中K是我们问题中考虑的类的数量。重要的是，在φ（·）的学习中，当我们最小化整个训练集的预期成本时，我们需要强制执行通过平滑来结合结构的机制在测试时，像目前的做法，我们获得一个最终的，硬-5510.Σ.Σ预测为y′=。argmaxk φ（I），y′∈ R1×H×W.下面的章节讨论如何获得一些前-在训练过程中执行平滑度的内部约束我们通过从现有网络转移知识并使用3D人脸投影给出的强先验来分解遮挡斑点（第3.1节）。然后，这些blob被用于开发一种新的损失函数，通过共识学习（第3.2节）灌输3.1. 人脸分割转移传输数据。与[63]利用了一个预先标记但小的标记集或[54]开发了辅助手动标记的工具不同，我们使用来自CASIA WebFaces [75]，VGG Faces [57]和MS-Celeb-1 M [23]的面部图像来在没有任何人为努力的情况下在野外收集遮挡。我们认为，手动注释他们像素明智的是一个艰苦的努力，实际上是不可行的。为了预训练我们的模型，我们使用了539，960张训练图像和58，306张没有重叠主题的验证图像。在下面的部分中，我们将解释如何处理模糊和嘈杂的合成伪标签。分解出遮挡。我们将人脸图像I中出现的遮挡表示为从[54]提供的全脸轮廓掩模f和人脸分割掩模focc之间的差获得的残差ρ更正式地说，鉴于I，我们进一步将其细分为：ρ=[f−f occ]+，其中re[·]+=max0，·.（1）等式（1）用于从后面分解遮挡图2：分解出遮挡。（a）我们使用人脸检测和由3D面部形状的投影提供的强先验来获得完整的面部掩模;（b）初始ρ残差被表示为完整掩模和分割掩模之间的差;（c）ρ被细化并估计其连接分量C;（d）从C获得标签y以将遮挡与面部解耦。25×7的椭圆核和45×45的椭圆核的扩张操作。选择的值相对于闭塞是保守的：如果教师网-工作下段遮挡，基本原理是放大面部区域上的遮挡最后，从残差估计连接分量以识别面部上的主要斑点或对象该方法通过合并人脸分割网络focc的输出和连通分量提供的标签，得到一个伪真实掩模C（I）∈R1×H×W，其中C取值为0，。- 是的- 是的、NC. 注意，NC不是常数由于斑点的数量-即，连接组件-不同的图像;然而，通过构造，我们将逐像素语义标签y定义为：如果你不介意，如果C（s）=0，地上掩模f被表示为通过经由3D透视投影将通用面部形状投影到图像上来预测的完整面部形状的凸包[50]com。s， y（s）=s面，若C（s）=1，当C（s）≥ 2时，则C（s）= 0。（二）使用[8]中提到的鲁棒方法进行计算。请注意，由于我们对面部外轮廓感兴趣，[8]符合我们的需求，因为它有利于精度的鲁棒性-这是正确的-特别适用于存在闭塞的情况。这容易通过获得预测姿态K[R| t]并将64个顶点投影到对应于面部的3D轮廓（下颌线加前额）的图像上。然后，有效地计算f，找到凸包的单纯形，并探测f的矩阵索引s=（i，j）是否在凸包之外，其中s在图像中的所有像素上运行。通过构造，残差取{-1，0，+1}中的值然后如等式中所述被截断为{0，1}。（1）重新─移动可能有歧义的标签。剩下的部分-进行一系列形态学操作以放大遮挡，因为例如在面部完成应用[40，38]中，遮挡的过分割优于欠分割。最终的ρ是通过两次应用矩形核的侵蚀算子来整个过程总结在图。二、3.2. 通过共识学习加强结构网络结构。我们采用一个基于完全卷积编码器-解码器[61]的简单网络，输入128×128RGB图像。我们在这里注意到，目标不是拥有最先进的架构，而是证明有效性，我们的正则化对面具光滑度的影响。该网络使用Conv-Elu-BatchNorm的基本构建块模型有两个编码分支：第一编码分支在将空间维度减小到256×32×32的同时增加深度。第二子编码器细化第一编码器的特征图，将注意力集中在输入面的更宽部分上，使用具有扩张卷积的两个块[76]。的将两个编码器的特征图连接在一起。解码器使用有效的子像素卷积[66]映射回输入空间维度，其中放大率为-10+1个F（（b）第（1）款0 + 13D形状（c）第（1）款（d）其他事项5511.Σ（k），s）HWΣΣΣΣΣ。Σ必须密集地标记像素。返回稀疏的问题两个放大特征图。重要的是，分类层中的最后一个像素在输入图像中具有121个像素的感受野，因此它几乎覆盖整个面部2。对像素损失函数的批评。的一般配方语义分割归结为使用网络φ转换图像I，该网络生成K×H×W十-传奇Softmax和交叉熵培训测试给定大小为1×H×W的地面真值掩码y，概率p的排序使条件概率最大化。网络输出被表示为一组multinoulli3分布，其中每个像素预测s都是CatK，p（s）。对掩码标签的拟合是用像素来实现的wise softmax加上交叉熵，最终在最终张量上平均。这引入了一个强有力的假设：掩模中所有最终生成的像素表现为独立且同分布（i.i.d.）随机变量，它破坏了自然界中隐含的规则结构[27]。将像素位置定义为s，pixel1HW1HW（s）=Hp（s），y（s）=(a)(b)（c）第（1）款通过共识标签掩码培训测试(d)（e）（f）图3：损失背后的直觉（a）图例;（b）常规训练逐像素地、独立地进行，并且密集地强制每个像素以适合标签（没有对象的平滑度的概念）;（c）这导致在测试时间对看不见的物体进行稀疏预测;（d）图像的像素级标签;（e）我们强制预期的预测-HWs=1HWs=11项硬件=− y（s）log p（s），（3）s=1- 将斑点E[p]中的像素与标签进行比较，但确保每个像素与平均值没有偏差;（f）网络被更好地正则化以用于具有较少稀疏预测的分段。其中，H指示预测的softmax概率p（s）和y（s）之间的交叉熵是像素s处的类别成员资格的独热编码。更有分析：预测对于面尤其重要，因为这些面表现出非常规则的结构。覆盖面部的遮挡也是如此：覆盖面部的障碍物是很少由稀疏的微小部分组成，E[（·）]=−1Σ日志.eW（k，s）xTΣ，（4）（k，s）连续的形状。准备工作。上述问题需要重新解决。HWs∈yKk=1 eW（k，s）xT对预测的独立假设，其中k在类上运行，k基于y选择地面实况类索引，并且s在所有像素上运行 W表示映射到标签空间的最终分类卷积层，x表示W之前的激活。当量（4）假设在给定像素处的预测是没有被输入中存在的结构正则化，因此它建议通过结合平滑-当量（四）、与将背景和遮挡类耦合在一起的[63，54]不同，我们将人脸分割定义为旨在对背景进行分类的三级问题（K=3B、面F和咬合O。此外，继SEC-问题3.1，我们允许遮挡被建模为面O ={O1，. - 是的- 是的，On}。尽管如此，Eq。（3）可以改写为：性约束。虽然x中的每个像素预测具有输入im中的相邻像素的一些知识1Σ1（s）+ （s）+1Σ。1Σℓ(s)Σ,考虑到卷积的反复应用，这不足以避免独立地预测像素，即使在|s∈F|s∈F|s∈B|s∈B|O∈O|O∈O|s∈O|s∈O（五）扩张的情况[76，77]允许像我们的模型中那样的大感受野。尽管最近在语义分割方面取得了进展[12]，但上述问题尚未在人脸领域得到当量（4）也经常使用在人脸分割、人脸解析或遮挡检测等应用中，以及在许多情况下，2有关网络架构的更多详细信息，请查看补充材料。Softmax+CE预期概率吉隆坡分区E[p]55123伯努利分布的K类推广，也称为范畴分布。其中，S（s）对应于softmax加上交叉熵在每个斑点中的所有像素上运行的像素s处的损失，以及|·|对斑点的像素进行计数。当量（5）与Eq相同。唯一的区别是每个分量的空间频率被边缘化，或者在其他情况下，术语，对所有斑点具有相同的权重，而不管它们的大小。接下来，我们将解释如何在训练过程中增强平滑性。加强每个斑点的结构。我们的方法背后的核心思想如图所示3 .第三章。我们定义了期望概率-5513^ΣΣΣ^^.^ΣΣ。^Σ^C在Eq中的第一项（8）-并且第二项塌缩为零，因为根据定义，像素与其自身一致。在blobc上的能力E[p]为：这是DKL。y||p^c.^C. y，y，和，y，塔-（k），s）. 1Σ1= p（s）=Σ。eW（k，s）xT（k，s）=Hy，p得到分布，是一个独热编码，因此与熵等于零。因此，KL div。等于交叉熵^C|C|s∈c|c| s∈cKk=1eW（k，s）xT（六）在这种情况下。在Eq中的第二项（8）简单来说，记为KL div。两个离散分布之间在对应于平均条件概率，斑点C的所有像素。请注意，Eq.（六）仍然是正的，Pc的质量总和为1。然后，我们可以增加Eq.（3）以下列方式：给定一个斑点我们可以将斑点上的损失定义为这一点，Eq。（8）保持优雅的一致性，两个术语，无需外部CRF后处理或执行ADVER的附加参数，sarial训练。解释为Eq.（四）、此外，所提出的公式可以被看作是一个概括-α·DKL. y||p^c1+β·|C|吉隆坡 .p^c || p(s)Σ,Eq. （四）、像素损失与边界重合我们的损失的情况下，当所有的斑点崩溃到每个第一个命令;matche是类x标签的∈cx象素在这种情况下，每个像素都与类别标签相匹配其中，α、β是两个恒定参数，在匹配标签和确保一致性之间进行权衡并且DKL表示Kullback-Leibler分歧。按照第3.1节的符号，将所有这些放在一起，指示所有斑点（背景B，面部F，遮挡O）作为C，我们的方法最终优化：连接至CRF。我们的配方有一些相似之处-与开创性CRF [6，69，46]和图形切割[4，5]的差异用于语义分割。乍一看，Eq中的两项。（7）的最小化函数φ的能量为Edata（φ）+Esmooth（φ），如[5]中所提出的。虽然通用报告格式已经与1|NC|c∈CαDKL. y||公司简介β|s∈c|s∈cDKL.pc || p(s)Σ。（八）ConvNet（例如，[80，11]），我们确实分享核心理念具有新颖的特征;与[5]不同，我们的请注意，尽管这里我们将我们的公式专门应用于面部分割/遮挡检测，但如果该方法具有一组斑点，则它可以更广泛地应用。第4节展示了如何轻松地从基准测试中的可用标签中获得blob，以便用少量的类进行面向解析。3.3. 解释当量给定掩码c上的斑点，我们强制斑点上的预测的平均值必须匹配类标签DKLy||作为一阶动量加上第二项，斑点内的所有逐像素概率接近其平均值，即，s∈cDKLpc||p（s）。我们使用第一项将每个斑点作为一个整体来对待，使用第二项的正则化：与基线不同，我们的损失将blob中的所有像素预测与平均预测相连接，将隐式相互依赖性定义为一种正则化器。作为一种跨主题并行性，读者可能需要知道最近已经提出了一种类似的平滑正则化来诱导平滑性以应对对抗性攻击[32]。实施. 在第一项中，实际上实现为DKL的是来自p的地面真实概率的负对数似然。这仍然可以被视为KLdiv。由于后者减少到交叉熵，由具有特征形状的组件约束。我们在这里注意到，在我们的例子中，φ是由ConvNet的过滤器参数化的。最后，我们承认CRF通过一个完全连接的图形结构来捕捉长距离的相互作用，相比之下，所提出的损失只捕捉邻域内的约束;然而，在我们的例子中，“邻域”可以是小的或大的，这取决于在3.1节中挖掘的标签掩码或连接组件。鉴于此，我们的配方仍然具有创新性。4. 实验评价我们报告了消融研究或实验的结果，这些结果促使我们做出选择，同时对人脸分割、遮挡检测和人脸解析的基准进行了最先进的评估。我们的方法在COFW（Caltech Occluded Faces in the Wild）[7]上远远超过了以前的方法，并且尽管使用了轻量级模型，但在零件标签集[314.1. 实现细节人脸预处理在[45]之后，我们使用了最小化的人脸预处理，简单地应用人脸检测器[74]并使用调整后的方形框来裁剪和调整每个人脸及其相应标签的大小为128×128像素。零件标签，面是对齐的，因此我们只是将它们调整为128p。Σ二阶;确保无偏差（七）p、Σ5514稀疏-|cc-cc gt|ΣN我输入图像地面实况像素级softmax+交叉熵101输入图像地面实况一万英尺。 10万iter。15万iter。共识结构最终结果100增加β输入图像地面实况一万英尺。 10万iter。15万iter。最终结果(a) 训练进度0 5 10 15迭代104(b) |ccφ− ccgt|增加β(c) 增加β会降低稀疏性图4：学习到更规则、更平滑的结构;（a）随着训练的进行，我们的方法学习到更规则、更平滑的结构，与逐像素基线（来自COFW测试集的样本）相比，这会产生更规则的掩码;（b）通过可视化预测的ccφ和注释的掩码ccgt之间的连接分量数量的误差，确认了更少的稀疏性。较高的β权重会大大降低掩码的稀疏性（c），在检查COFW测试集的定性样本时，证实了这一效果训练为了预训练网络，我们使用 Adam opti- mizer[35]，从1 e-3的学习率开始，以1 e-5结束。伪标签见第3.1节。调度器在验证时检查跨类的像素平均召回率，并在上述指标达到平台时将学习减少1 e-1。所有的模型都是以128的批量进行训练的。微调时在COFW上，我们应用我们的面部分割转移（第3.1节）来识别主要斑点，而不应用形态学操作来使用细粒度的人类注释掩模。在其他测试中，我们简单地将单独的掩码类视为blob。在COFW上，我们使用1 e-5的平坦学习率，而在零件标签上使用1 e-4。所有的模型都被微调，直到收敛达到饱和，训练集方程中的重要参数（7）是在我们所有的实验中设置为{10：5}的α，β，因为我们发现这些值是强制平滑和拟合标签以保证高精度之间的良好权衡4.2. 支持实验更规则，更少分散的结构。图4a定性地显示了当在损失的情况下执行迁移学习时，基线和通过COFW [7]测试样本上的共识进行结构学习之间的预测差异。选择样本是因为其差异-在面部分割任务中的遮挡（遮挡看起来是破碎的--尽管它不是--并且具有与面部相似的颜色，尽管事实上它是由两个连续的对象构成的（例如，手和麦克风）。随着训练的进行，我们的方法提供了更连续的分割掩模，反过来，成为一个更好的人脸分割，没有稀疏的洞。我们的主张得到了菲格的支持4b，显示平均绝对误差1N|ccφ−ccgt|是─在每次迭代时，我们的预测（ccφ）误差在所有测试样本中平均，并提供了对预测稀疏性的有价值的理解，并确认增加方程中的平滑项β（8）引起显著较不稀疏的输出。图图4b示出了随着针对不同β值的训练的演变，稀疏性误差测量的趋势图中的其他定性样品。4c进一步支持了我们的假设。输入，标签掩码 Nirkin等人[五十四]基线我们图5：来自COFW集的定性样品。输入图像及其地面真实掩模;Nirkin et al的结果。[54];基线与像素方向损失;我们的成果根据每种方法，对面进行遮罩以去除遮挡。Additional results inthe supplementary material.4.3. 加州理工学院在野外遮挡面部在地面上连接的组件数量之间，真值掩码（CCGT）和组件动态COM-与最先进技术的比较我们使用COFW[7]证明了我们方法的有效性。COFW基线=1，=1（1：1）=0.1，=1（1：10）=0.1，=10（1：100）5515N我Σ方法IOU面 acc.rec面 rec所有翼梁。FPS结构。森林[30]-83.9-88.6-- -一种建议方案预算[73]72.4-0.03SAPM [20] 83.5 88.6八十七点一--- -一种Liu等[46] 72.979.8 89.9 77.9- 零点二十九Saito等人[63]第63话88.7九十二点七- -四十三点二Nirkin等人[54] 81.6 87.4九十三点三- -四十八点六Nirkin等人[54]第五十四话Aug.83.788.8九十四点一87.4-48.6Softmax+CE+Scratch76.883.7八十六点九82.63.5300Softmax+CE+Transf.84.5 89.4九十三点三88.11.0300Softmax+CE+Transf.+ f. t.84.1 89.4九十点三89.13.8300结构通过con.+转移+ f. t.85.7 90.4九十二点五89.71.6300结构通过con.+转移+ f.t.+ reg.87.091.392.4 90.90.8300表1：COFW集。遮挡分割结果。由500个用于训练的标记图像和507个用于测试的标记图像组成。标签由二进制掩码组成。表1报告了我们与最先进技术相比的结果，以及消融研究，以激励我们的选择。该表报告了面IOU相交于并集（或Jaccard索引），像素精度（acc.），人脸类的像素级召回率（recface），所有类的4个平均像素级召回率（recall），non-face，我们的稀疏性度量（1N|ccφ−ccgt|）和fps（每秒帧数）。当我们测试我们的方法时，简单地将来自遮挡类和背景类的响应合并为单个非面部类。根据先前的工作[30，73，20]，我们报告了COFW提供的面框中的指标。考虑到COFW的规模很小，对深度模型进行微调具有挑战性。为了证明这一点，更重要的是，为了激励第3.1节，我们从随机权重（+Scratch）进行训练。由于我们非常缓慢地更新权重，因此模型能够学习，但达到的结果与最先进的方法相差太远。出于这个原因，以前的方法[63，54]采用其他标记集[31]或构建半自动注释工具[54]来实现某种迁移学习。与他们类似，我们执行迁移学习，但与他们不同的是，我们从[54]中转移知识，如第3.1节所述。表1中的结果（+transf. ）支持我们的面部分割转移。我们的方法能够优于教师网络[54]。Additionally,if we combine all our novel- ties and further fine-tune onCOFW, we obtain an additional positive gap with respectto the state-of-the-art (Struct. via con. +Transf.+ F.t.+reg. ）.我们的方法减少了27.7%的整体错误率的度量rec所有。作为最后一点，由于我们使用的是轻量级的编码器-解码器，与[63]不同，我们的平滑度约束仅在训练时执行。我们的推理时间是惊人的：平均一次向前传球需要3分钟。1ms，每秒产生超过300个预测掩码（fps）。4从[20]开始，COFW上只报告了rec脸，忽略了recall;由于单个召回类可以通过优化该类的系统而任意提高，因此我们努力报告两者以保持公平。无CRF中的方法大小pacc. SPGygli等人[24]第二十四话C-九十二点四十四Gygli等人[24] -FCN基线32C-95.36 Kae等人[31]-通用报告格式250✗-九十三点二三Kae等人[31]第三十一话✗-九十四点九五Liu等[四十六]二百五十✗95.24- -一种Liu等[45]第四十五话C95.46- Liu等[45，10]-CNN-CRF128✗92.59- -一种Saxena等人（sparse）[65] 250C94.60 九十五块五毛八Saxena等人 [65]250 ℃94.8295.63Zhenget al. [79]第79话C-九十六点五九Tsogkas等人[70]第七十话C-96.54 Tsogkas等人[70]-成果管理制 + 通用报告格式 250✗-96.97Lin 等人 [42] -FCN+Mask-R-CNN 250C96.71-对抗训练[21] 250C- 95.53GAN [21] 250C-95.54FCN -LSGAN [49] 250C- 95.51LSGAN [49] 250C- 95.52FCN -WGAN，GP [22] 250C- 95.59WGAN，GP [22] 250C- 95.59[78] 250C- 95.50[78] 250C- 95.52FCN -LDRSP [56] 250C- 95.87LDRSP [56] 250C- 96.47结构通过Ours（Ours）128C96.0596.80结构通过Ours（Ours）250C95.8696.78表2：部件标签设置。像素和超像素精度的比较（acc。p，acc.sp）。重点介绍了CRF的输入大小和平滑度的使用。最好的结果用粗体表示，第二好的结果用下划线表示。消融研究。表1中显示了使用“通过共识的结构”学习的效果虽然微调与像素的损失增加稀疏的面具（1.0→3.8），实际上重新“行，行。由于我们的损失，我们能够更好地推广到测试集，改进迁移学习并保持较低的稀疏性（1.6）。通过使用dropout和flip增广（+reg. ）.一个定性比较如图所示。5，其中我们的方法显示了比基线和[ 54 ]更多的结构化掩模。其他定性样品如图1A和1B所示。1，4a和4c。4.4. 零件标签数据库与最先进技术的比较。在大量的工作[31]之后，我们采用了集合的漏斗版本，其中图像已经被粗略对齐。Part La- bels是[31]中提出的用于人脸分割的LFW [25]的子集图像标记与高效的超像素分割。该集合提供了三个类别-背景、头发/面部头发和面部/颈部以及相应的超像素映射。我们在2，000个火车/验证图像上微调了我们的系统，并在公开可用的分割后对927个评估面进行了测试。在微调时，我们将Part Labels类与迁移学习的相同语义类相关联，5516方法IOU头发 IOUbg IOU脸 IOU平均回忆所有acc.pacc.spspars。基线68.95 94.41 87.6083.6590.41 94.77 96.15结构通过cons。72.4895.1789.9885.7491.26 95.55 96.6113.66基线+注册73.97 95.52 89.8186.4692.50 96.623.3结构通过cons。+reg.75.8495.7490.6287.4093.22 96.05 96.803.3表3：部件标签集的消融研究。对基础模型和具有额外正则化（+reg. ）.遮挡类映射到新头发类。为了与目前的工作进行彻底的比较，我们报告了像素方面（acc。p）和超像素精度（acc. sp）。为了报告超像素精度，我们选择超像素中最频繁的预测标签。我们的系统报告的结果与最先进的水平相当，注意到在我们的情况下，我们执行直接推理（没有CRFC），并且我们在测试时没有通过CRF强制任何平滑。表2显示了最新技术水平评价。我们的结果类似Tsogkas等人。[70]，但他们使用CRF来平滑结果。值得注意的是，与对抗训练的积极研究（在[56]的广泛实验之后）相比，表4还报告了[42]中最近工作后的F1分数。虽然我们的方法在128p分辨率下工作，但我们通过最近邻插值对预测进行上采样来报告250p的结果。消融研究。在表3中，我们报告了消融研究，显示了损失的影响：但由于这些指标没有考虑类频率，我们还记录了每个类的IOU。使用“通过共识的结构”，头发类的IOU从68上升。95%到72百分之四十八。同样的情况也反映在各班级的平均借条上，从83。65%到85百分之七十四我们重复了相同的实验，进一步用dropout和flip增强（+reg）来正则化模型。），我们的损失提供了类似的改善，而且，重要的是，所有指标的值得注意的是，在所有这些烧蚀中，我们的方法在稀疏度度量下与表3中报告的基线比较时提供较少的稀疏掩模，表现出比基线更少的过拟合。定性结果见图。6：我们的头发分割比基线表现出更少的碎片片段和更少的孔，但产生了出色的面部分割。5. 结论和未来工作我们提出了一种新的人脸分割方法，通过consensus学习结构的新概念的基础上我们的方法展示了与最新技术水平相当或更高的数字。我们未来的工作是在语义分割的通用任务上使用Pas- cal VOC [18]进行实验，从而将我们的损失移植到通用对象上。该系统使用blob作为共识的约束条件，这些blob通过自动，表4：部件标签的F1评分比较。我们的是第二个最好的，尽管使用了轻量级的模型.数字[42]。最好的结果用粗体表示，第二好的结果用下划线表示。输入，标签掩码基线我们的图6：部件标签的定性结果。输入图像及其地面真实掩模;通过具有像素损失的基线的结果;我们的成果面将被遮罩以将面与头发分离。补充材料中的其他结果。噪声预处理步骤或通过来自注释的某种形式的人类监督。作为一个更长期的未来的工作，我们设想的可能性，学习集群像素的对象在一个无监督的方式。鸣谢。这项研究是基于由国家情报总监办公室（ODNI），情报高级研究项目活动（IARPA），通过IARPA研发合同号支持的工作。17020200005.本文所包含的观点和结论是作者的观点和结论，不应被解释为必然代表ODNI、IARPA或美国政府的美国政府获授权为政府目的而复制及分发重印本，即使该等重印本上有任何版权注释.作者要感谢S. Deutsch，A. Jaiswal，H. Mirza-alian，M.侯赛因湖Spinoulas和所有匿名评论者的有益讨论。方法规模F1面F1毛发F1bgacc. pLiu等[46个]–93.9380.7097.1095.12Long等人[47个]–92.9182.6996.3294.13Chen等人[第十一届]–92.5480.1495.6593.44Chen等人[9]第一章–91.1778.8594.9592.49Zhou等[八十一]32094.1085.1696.4695.28Liu等[45个]12897.5583.4394.3795.46Lin等[第四十二届]25095.7788.3198.2696.71结构通过cons。（我们的）12895.0886.2697.8296.05结构通过cons。（我们的）25094.7485.7497.7295.865517引用[1] Gedas Bertasius，Jianbo Shi，and Lorenzo Torresani.基于边界神经场的语义分割。在CVPR，2016年。[2] Gedas Bertasius，Lorenzo Torresani，Stella X Yu，andJianbo Shi.用于语义图像分割的卷积随机游走网络。在CVPR，2017年。[3] 托马斯·宾福德和杰·特南鲍姆。计算机视觉。IEEE系统与控制会议，1971年。[4] Yuri Boykov Olga Veksler和Ramin Zabih通过图形切割快速近似能量最小化。在ICCV，第1卷，第377-384页[5] Yuri Boykov Olga Veksler和Ramin Zabih通过图割的快速TPAMI，23（11）：1，2001.[6] Yuri Y Boykov和M-P Jolly。交互式图切割用于ND图像中目标的最佳边界载于ICCV，2001年。[7] X a vierPBu r gos-Artizzu，PietroPerona，andPiotrDolla'r.遮挡情况下鲁棒的人脸特征点估计。见ICCV，第1513-1520页。IEEE，2013。[8] Feng-ju Chang，Anh Tran，Tal Hassner，Iacopo Masi，Ram N ev atia，andG e'rardMedioni.FacePoseNet：为无地标的面部对齐做一个在ICCV研讨会，2017年。[9] 陈良杰，乔纳森T巴伦，乔治帕潘德里欧，凯文墨菲，和艾伦L尤伊尔。语义图像分割与特定任务的边缘检测使用cnn和区分训练域变换。在CVPR，2016年。[10] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.使用深度卷积网络和全连接crf的语义图像分割2015年，国际会议[11] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义TPAMI，40（4）：834[12] Liang-Chieh Chen，Yukun Zhu，George Papandre

下载后可阅读完整内容，剩余1页未读，立即下载