面部属性预测的语义分割方法

146 浏览量更新于2023-10-16 收藏 1.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于语义分割马赫迪M. 卡拉耶Mahdi@eecs.ucf.edu龚伯庆bgong@crcv.ucf.edu穆巴拉克沙阿shah@crcv.ucf.edu中央佛罗里达大学计算机视觉研究中心摘要属性是语义上有意义的特征，其适用性广泛跨越类别边界。它们在描述和识别没有给出明确训练示例的概念零射击学习此外，由于属性是人类可描述的，因此它们可以用于有效的人机交互。在本文中，我们提出采用语义分割，以提高面部属性预测。其核心思想在于许多面部属性描述了局部属性。换句话说，属性出现在人脸图像中的概率在空间域中远非我们与深度语义分割网络联合构建我们的面部属性预测模型这利用了语义分割所学习的定位线索，将属性预测的注意力引导到不同属性自然出现的区域由于这种方法，除了识别，我们能够本地化的属性，尽管只有访问图像级标签（弱监督）在训练。我们在CelebA和LFWA数据集上评估了我们提出的方法，并取得了优于现有技术的结果此外，我们表明，在反向问题，语义人脸解析改善时，面部属性。这再次表明，需要对这两项相互关联的任务进行联合建模。1. 介绍如今，最先进的计算机视觉技术允许我们教机器不同类别的对象，动作，场景，甚至细粒度的类别。然而，要学习某个概念，我们通常需要从兴趣概念中得到积极和消极的例子。这就产生了一系列挑战，因为不同概念的例子并不同样容易收集。此外，可学习概念的数量由训练数据的基数线性限制。因此，能够稳健地学习一组超越严格类别界限的可共享概念白羊座非常重要。视觉属性是可共享概念的一种特殊类型。它们是人类可描述和机器可检测的。属性通常不是特定于类别的，这一事实表明，人们可以用属性的各种组合来描述指数数量的类别自然地，属性是对象的“附加”（例如，牛的角）。这意味着一个对象的实例可能会或可能不会采取某种贡献，而在任何一种情况下，类别标签都被保留（例如，有角或没有角的牛仍然是牛）。因此，属性是特别有用的问题，旨在建模类内的变化，如细粒度分类。尽管属性具有加性特征，但它们不会出现在对象的任意区域（例如，角，如果出现，会出现在牛的头上这一概念是我们工作的基础。也就是说，为了检测一个属性，而不是整个空间域，我们应该关注该属性自然出现的区域。我们假设属性预测可以受益于本地化线索。然而，属性预测基准测试带有整体图像级别标签。此外，有时很难为给定属性定义空间边界。例如，根据面部的哪个空间区域来决定一个人是否“有吸引力”，这一点并不清楚。为了应对这一挑战，我们将定位线索从相关的辅助任务转移到属性预测问题。用包围盒表示物体的边界是计算机视觉中的一种常用方法。然而，不同属性占据的区域在形状和形式上发生了巨大的变化例如，在面部图像中，不能有效地将边界框放置在与“头发”相关联的区域事实上，区域的形状可以用作关于属性的指示信号。因此，我们需要一个辅助任务，学习详细的定位信息，而不限制相应的区域是在cer-保留预定义的形状。语义分割具有上述所有特征。这是一个为图像中的每个像素因此，成功的语义69426943分割方法必须学习像素级定位线索，其以精细细节隐式地编码颜色、结构和几何特征。在这项工作中，我们对面部特征感兴趣。因此，语义人脸解析问题[21]是一个合适的候选者，可以作为辅助任务来空间提示属性预测方法。为了执行属性预测，我们将图像馈送到一个完全卷积神经网络，该网络生成准备聚合的特征图[15]并传递给分类器。然而，全局池化[15]不知道在空间域中的何处发生属性区分激活。因此，我们不是将属性信号传播到整个空间域，而是将它们集中到语义区域。通过这样做，我们的模型可以学习在哪里参与以及如何聚合特征图激活。我们将这种方法称为基于语义分段的池化（SSP），其中属性预测管道末端的激活在不同的语义区域内池化。或者，我们可以通过门控机制将语义分割纳入属性预测网络的早期层。具体来说，我们增加了最大池操作，使其不会混合驻留在不同语义区域的激活。为此，我们在最大池化之前通过将其与SEMANIC区域逐元素相乘来门控最后一个卷积层的激活输出。这生成了激活图的多个版本，这些激活图被不同地掩蔽，并且可能对各种属性有区别。我们将这种方法称为基于语义分割的门控（SSG）。由于语义分割不适用于属性基准，我们学习使用深度语义分割网络来估计我们的方法在概念上类似于[17]，其中使用卷积和去卷积层构建编码器-解码器模型。然而，考虑到辅助分割问题的可用数据数量相对较少，我们修改了网络架构，以便使其适应我们的面部属性预测问题。尽管比[17]简单得多，但我们发现我们的语义分割网络在解决语义面部解析的辅助任务方面非常有效。一旦被训练，这样的网络就能够以语义分割（解码器输出）的形式提供定位线索，该语义分割将图像的空间域分解成相互排斥的语义区域。我们表明，SSP和SSG机制都优于现有的国家的最先进的面部属性预测技术，同时采用它们在一起的结果，进一步改善。2. 相关工作公平地说，属性预测文献可以分为整体和基于部分的方法。的整体方法中的共同主题是在提取用于属性预测的特征时考虑整个图像。另一方面，基于部件的方法从与属性相关的部件检测开始，然后使用与图像的其余部分隔离的局部化部件来提取特征。我们提出的方法介于光谱的两端之间。当我们以整体的方式处理图像以生成分类器的特征向量时，我们采用语义分割形式的本地化线索。已经表明，基于部分的模型通常优于整体方法。然而，它们容易出现定位错误，因为它会影响提取特征的质量在早期的作品中，我们参考[13，1，3]作为基于部件的属性预测方法的成功示例。最近，为了将基于部分的模型与深度学习相结合，Zhang等人 [23]提出了PANDA，这是一种姿势归一化的卷积神经网络（CNN），可以从图像中推断人类属性PANDA使用possible [3]来定位身体部位，然后从局部区域提取CNN特征。这些特征稍后将用于训练SVM分类器进行属性预测。受到[23]的启发，同时寻求利用整体线索，Gkioxari等人。 [5]提出了一个统一的框架，既受益于整体线索，又受益于基于部分的线索，同时利用深度版本的possible [3]作为部分检测器。Liu等人 [16]采取了一种相对不同的方法。他们表明，对大量的对象类别进行预训练，然后对图像级别的属性进行微调，在定位整个面部区域方面是足够有效的。这种弱监督的方法为他们提供了一个定位的区域，他们执行面部属性预测。最后，在基于部分的方法中，Singh等人。 [20]使用空间Transformer网络[10]来定位与给定属性关联的最他们编码这种本地化线索在一个连体架构执行本地化和排名的相关属性。3. 方法在本节中，我们从假设语义区域已给定的属性预测模型开始。然后，我们继续讨论语义分割网络，并详细介绍如何生成语义区域。3.1. 属性预测网络为了利用面部属性预测的本地化线索，我们提出了基于语义分割的池和门控机制。我们描述了我们的基本属性预测模型。然后，我们详细解释SSP和SSG，包括它们如何在基本模型中使用，简单地作为新的层，以提高面部属性预测。69443.1.1基本属性预测网络我们的基本属性预测模型是一个12层深度全卷积神经网络。随着我们向更深层前进，在增加卷积滤波器的数量之前，我们使用最大池来减少激活图的大小。对于这样的操作，内核大小和步幅值都被设置为2。在我们的体系结构中，每个卷积层后面都是批处理归一化[9]和PReLU [7]。所有卷积层的核大小和步幅值分别设置为3和1。我们的基本属性预测网络的前8层在配置上类似于语义分割网络的编码器部分，并在表1中详细描述。其余部分由512和1024个滤波器的4个卷积层在管道的最后，我们使用全局平均池化[15]聚合最后一个卷积层的激活，这些向量随后被传递到分类器进行属性预测。我们使用sigmoid交叉熵损失来训练网络。第5节提供了有关培训程序的更多详细信息。3.1.2SSP：基于语义分段的池化我们认为，属性通常有一个自然的correspondence-dence的对象边界内的某些区域因此，从图像的整个空间域聚合视觉信息将不会捕获此属性。这是我们基本属性预测模型中使用的全局平均池化[15]的情况，因为它不知道在空间域中激活发生的位置。我们建议首先将最后一个卷积层的激活分解为不同的语义区域，然后仅聚合位于同一区域的激活，而不是从整个激活图中进行池化。因此，而不是一个单一的1024-D矢量表示，我们获得多个特征，每一个只代表一个单一的语义区域。这种方法背后有一种有趣的直觉。事实上，SSP通过与不同语义区域相关联的多个路径，将标签信号的反向传播汇集到整个网络中。这与相当同等地影响空间域中的不同位置的全局平均池化形成对比。我们稍后通过可视化最后卷积层的激活图来探索这一虽然我们可以简单地连接与不同区域相关的表示此外，我们的模型学习的内容是否符合人类对哪个属性对应哪个区域的期望。为此，我们采用类似于[2]的方法，其中Bilen和Vedaldi采用两个分支网络进行弱监督对象检测。256x55x45CONV（3x3，256）BNPReLU最大池化256x28x23256x55x45 7x55x451024x14x127x14x12CONV（3x3，7x1024x14x121，792x55x45全局平均池化BN7x1024PReLUFC（1024，40）FC（1024，最大池化Softmax7x40CONV（1x1，7x40BNPReLU总和256x28x231x40图1. 左：标准卷积层，然后是最大池化，中：SSG，右侧：SSP.注：在这项工作中，有7个语义区域和40个属性要预测。我们将每个与不同语义区域相关联的向量表示传递到两个分支，一个用于识别，另一个用于定位。我们将这些分支实现为线性分类器，将1024-D向量映射到属性的数量。因此，我们有多个检测分数的属性，每个推断基于一个和只有一个语义区域。为了组合这些检测分数，我们首先使用softmax非线性跨不同语义区域对本地化分支的输出进行归一化。这是一个按属性的操作，而不是跨属性的操作。然后，我们使用本地化分支生成的权重通过识别分支输出的加权和计算最终属性图1右侧显示了SSP体系结构。3.1.3基于语义分割的门控最大池化用于压缩卷积层激活图中的视觉它的有效性已被证明在许多计算机视觉任务，如图像分类和目标检测。然而，属性预测本质上不同于图像分类。在图像分类中，我们希望聚合整个空间域的视觉信息，为图像提供单个标签与此不同的是，许多属性本质上是本地化的图像区域。因此，将驻留在“头发”区域中的激活我们提出了SSG来应对这一挑战.图1显示了一个标准的卷积层，左边是最大池化，中间是SSG架构。后者是我们提出的替代方案。在这里，我们假设卷积层保留输入通道的数量，但它不必如此。到栅极6945卷积层的输出激活，我们为N= 7个语义区域中的每一个与整个激活图广播逐元素乘法。这会产生N个激活的副本（总共1，792= 256×7个激活图），这些激活被不同地掩蔽。这种机制在空间上将激活图分解为具有高值的激活不能同时发生的副本在两个语义不同的区域。例如，用对应于嘴部区域的语义分割进行门控，将抑制落在其区域之外的激活，同时保留驻留在其内部的激活。然而，语义区域所占的面积因图像而异.我们观察到，直接应用语义分割网络的输出会导致网络中间的为了缓解这种情况，在门控过程之前，我们将语义掩码归一化，使得每个通道的值总和为1。然后，我们在卷积之后和批量归一化之前门控激活[9]。这一点非常重要，因为批量归一化[9]强制门控程序的输出服从正态分布。然后，我们可以在这些门控激活图上应用最大池化。由于给定通道，激活只能发生在单个语义区域内，因此最大池化操作不能混合驻留在在不同的语义区域。我们稍后使用1×1卷积恢复通道数。值得注意的是，SSG可以通过学习1×1卷积的稀疏权重集来模仿标准的最大池化。简而言之，基于语义分割的门控允许我们处理以每个语义区域的方式激活卷积层，并且之后直接学习如何组合池化值。层操作输出大小Conv11Conv、BN、PReLU64×218×178Conv12Conv、BN、PReLU64×218×178MaxPool1最大池化64×109×89Conv21Conv、BN、PReLU128×109×89Conv22Conv、BN、PReLU128×109×89MaxPool2最大池化128×55×45Conv31Conv、BN、PReLU256×55×45Conv32Conv、BN、PReLU256×55×45MaxPool3最大池化256×28×23Conv41Conv、BN、PReLU512×28×23Conv42Conv、BN、PReLU512×28×23Deconv41Deconv42Deconv，BN，PReLU Deconv，BN，PReLU512×28×23512×28×23UpSample3Deconv31Deconv32上采样Deconv，BN，PReLU Deconv，BN，PReLU512×55×45256×55×45256×55×45上采样2Deconv21Deconv22上采样去卷积，BN，PReLU去卷积，BN，PReLU256×109×89128×109×89128×109×89上样1上采样128×218×178Deconv11Deconv、BN、PReLU64×218×178Deconv12Deconv、BN、PReLU64×218×178Deconv13Deconv、BN、PReLU7×218×178表1.语义分割网络的配置。对于所有卷积/去卷积层，内核大小和步幅值分别设置为3和1。为了避免混淆，我们没有显示侧损耗层，即Deconv43，Deconv33和Deconv23。图（重复最近邻插值）。在每个最大池化（上采样）之后，我们将卷积（反卷积）滤波器的数量增加（减少）2倍，从64（512）个滤波器开始，沿着编码器（解码器）路径继续。每个卷积和去卷积层之后都是批量归一化[9]3.2. 语义分割网络我们之前已经解释了使用语义面部解析来提高面部属性预测的基本原理。我们对语义分割网络的设计遵循编码器-解码器方法，在概念上类似于[17]中提出的去卷积网络。然而，考虑到分割网络的训练数据数量有限，我们做出了不同的设计决策，以降低模型的复杂性，同时保持其能力。编码器由8个卷积层组成，每个卷积层为2个块，由3个最大池化层分隔。这比反卷积网络中使用的13层小得多[17]。在编码器部分的最后，而不是像[17]中那样折叠空间分辨率，我们将其保持在输入大小的八分之一。解码器是编码器的镜像版本，用去卷积替换卷积层，用上采样替换最大池化层。与[17]使用开关变量存储最大池位置不同，我们只需对activa进行上采样，”[7]“是的。为了应对相对少量的训练数据，我们沿着解码器路径在不同的深度传播语义分割损失。也就是说，在每个上采样层之前，我们通过预测不同尺度的语义分割图来计算损失。然后，我们在反向传播之前以相等的权重聚合这些损失。最后，虽然[17]使用VGG16 [19]权重来初始化编码器，但我们从头开始训练我们的网络。这些设计决策使我们能够利用有限数量的训练数据成功地训练语义分割网络。语义分割网络的详细配置如表1所示。4. 实验结果4.1. 训练语义分割网络在本文中，我们感兴趣的人脸属性预测。因此，人脸解析问题[21]，其目的是在像素级分类的人脸图像成多个se-6946图2. Helen人脸数据集[14]的示例补充了片段标签注释[21]，然后分为7个语义类。在底行中，颜色表示不同的类标签。mantic区域是一个适合我们的辅助任务。为了训练语义分割网络，我们从[21]提供的每个图像的11个分割标签注释开始，以补充Helen面部数据集[14]。这些标签如下：背景、面部皮肤（不包括耳朵和颈部）、左眉、右眉、左眼、右眼、鼻子、上唇、内嘴、下唇和头发。我们将左眼和右眼（眉毛）标签组合在一起，以创建单个眼睛（眉毛）标签。类似地，我们聚合上唇、内嘴和下唇以生成单个嘴标签。因此，我们最终总共有7个标签（背景，头发，脸部皮肤，眼睛，眉毛，嘴巴和鼻子）。图2示出了输入图像的几个实例以及它们对应的片段标签注释。人脸解析数据集[21]包含2，330张图像，分为2000、230和100三部分，分别用于训练、验证和测试。然而，对于属性预测任务，我们可以使用完整的数据集来训练语义分割网络。我们用softmax交叉熵损失训练我们的模型。第5节详细介绍了培训程序。图3显示了我们的网络生成的分割图的几个例子尽管在训练过程中使用的训练数据很少，但语义分割网络能够成功地定位先前未见过的图像中的各种面部区域。后来，我们评估我们提出的属性预测模型，这些语义分割线索被用来提高面部属性预测。4.2. 数据集和评估指标我们主要在CelebA数据集上评估我们提出的方法[16]。CelebA由202，599张图像组成，分为训练，验证和测试分割，分别有大约162K，20K和20K的图像。总共有10K个身份（每个身份20个图像），在评估分割之间没有身份重叠。图像被标注有40个面部属性，例如，“波浪头发”、“嘴微微张开”、“大嘴唇”等。除了原始图像外，CelebA还提供了一组预裁剪的图像。我们报告这图3. 我们的语义分割网络为以前看不见的图像生成的分割掩码的例子。从左至右：背景、头发、脸部皮肤、眼睛、眉毛、嘴巴和鼻子。图像集。值得注意的是，Liu等人 [16]使用了训练和验证数据来训练他们模型的不同部分。特别是，训练数据已被用于预训练和微调ANet和LNet，同时它们使用验证数据训练SVM分类器。在我们的实验中，我们只使用训练分割来训练我们的属性预测网络。为了补充对CelebA数据集[16]的分析，我们还提供了LFWA[16]的实验结果LFWA共有13，232张图像，包含5，749个身份，具有预定义的训练和测试分割，将整个数据集分为两个大致相等的分区。每个图像都使用CelebA[16]数据集中使用的相同40个属性进行注释。对于LFWA数据集[16]，我们遵循与CelebA数据集[16]相同的评价为了评估属性预测性能，Liu等人。 [16]使用分类精度/误差。然而，我们认为，由于每个属性的正面和负面实例的数量之间的显着不平衡[18]也有类似的说法。因此，除了分类误差之外，我们还报告了预测分数的平均精度。4.3. 人脸属性预测的评价对于这里报告的所有数字，我们想指出FaceTracer[12]和PANDA [23]使用地面实况陆地标记点来获得面部部分。Wang等人 [22]使用作者收集的500万个辅助图像对来预训练他们的模型。Wang等人。 [22]还使用最先进的人脸检测和对齐来从CelebA和LFWA图像中提取人脸区域但是，我们训练我们所有的国防部-6947从头开始的元素，只有属性标签和辅助面解析标签。4.3.1CelebA数据集的评价我们将我们提出的方法与CelebA数据集上现有的最先进的属性预测技术进行比较[16]。为了防止任何混淆并具有公平的可比性，表2在两个单独的列中报告了性能，将在原始图像集上进行的实验与使用预裁剪图像集的实验区分开。我们看到，除了MOON [18]之外，即使是我们的全局平均池化的基本模型，也优于以前的最先进技术。因此，我们可以提出两点意见。首先，一个简单但设计良好的架构可能非常有效。Liu等人。[16]将三个深度卷积神经网络与SVM和Rudd等人结合起来。 [18]采用了VGG 16 [19]，并配备了一个新的目标函数。这些模型比我们的基本网络大得多。具体来说，在[16]中，LNeto和LNets具有类似于AlexNet [11]的网络结构。AlexNet有60M的参数。因此，仅[16]中的定位部分（不考虑ANet）具有总共120M个参数。Rudd等人 [18]采用具有138M参数的VGG 16 [19]。我们的基本属性预测网络只有24M个参数，这要归功于用单个全局平均池化替换了全连接层其次，[18]和[16]是建立在之前训练大量对象类别（和面部身份）数据的网络之上的，而我们从头开始训练所有的网络。因此，我们拒绝在其他大规模基准上进行预训练的必要性，认为CelebA数据集[16]本身足够大，可以从头开始成功训练面部属性预测模型。实验结果表明，在不同的设置和评估协议下，我们提出的基于语义分割的池和门控机制可以有效地用于提高面部属性预测性能。这一点尤其重要，因为我们的全球平均池基线已经击败了大多数现有的最先进的方法。为了了解SSP和SSG是否相互补充，我们还报告了它们的组合，其中相应的预测是简单平均的。我们观察到这样的过程进一步提高了性能。为了研究语义区域内聚合特征的重要性，我们用空间金字塔池化代替了基本模型中层[6]。我们使用两个层次的金字塔，并将此基线称为SPPNet。当聚合不同位置的输出激活时，SPPNet对象不会根据出现的语义上下文对齐其分类误差%方法原始预裁剪[第12话]18.88–熊猫[23]15.00–Liu等人 [16个]12.70–Wang等人 [22日]12.00–Zhong等人 [24日]10.20–Rudd等人 [18]：分离–9.78Rudd等人 [18]：MOON–9.06SPPNet–9.49幼稚的做法9.629.13BBox–8.76我们的：平均值池化9.839.14我们的：SSG9.138.38我们的：SSP8.988.33我们的：SSP + SSG8.848.20平均精度%方法原始预裁剪SPPNet–77.69幼稚的做法76.2979.74BBox–79.95我们的：平均值池化77.1679.74我们的：SSG77.4680.55我们的：SSP78.0181.02我们的：SSP + SSG78.7481.45平衡精度%[8]方法原始预裁剪Huang等人 [8]-84.00我们的：平均值合并我们的：SSG我们的：SSP表2. 通过CelebA [16]原始和预裁剪图像集的分类误差、平均精度和平衡分类准确度[8图像中这与我们提出的方法背后的直觉形成了直接对比表2中所示的实验结果证实，简单地汇集多个位置处的输出激活是不够的。事实上，它导致了比全局平均池化更低的性能。这验证了我们提出的模型所获得的改进是由于其内容感知池/门控机制。朴素方法朴素的替代方法是将分割图视为额外的输入通道。为了评估其有效性，我们为平均池化基本模型提供了10个输入通道，其中3个用于RGB颜色，7个用于不同的语义分割图。使用Batch Normalization [9]对输入进行我们使用与上述其他模型相同的设置来训练网络-6948方法分类误差%AP%[第12话]26.00–熊猫[23]19.00–Liu等人 [16个]16.00–Zhong等人 [24日]14.10–Wang等人 [22日]13.00–我们的：平均值池化14.7382.69我们的：SSG13.8783.49我们的：SSP13.2084.53我们的：SSP +SSG12.8785.28区域无属性w/属性Bakcground89.2589.64头发47.5648.32面部皮肤78.6579.92眼睛46.8356.33眉毛31.2242.25嘴62.0365.42鼻子77.4077.74平均61.8465.66表3.通过LFWA [16]数据集上的分类误差和平均精度（AP）评估属性预测性能埃尔斯我们的实验结果表明，这种幼稚的ap-proach不能充分利用本地化线索，以及我们提出的方法。表2表明，在最好的情况下，朴素方法与平均池化基本模型相当。我们强调，将语义分割图与RGB颜色通道一起馈送到卷积网络会导致以加法方式混合两种模态。相反，我们提出的机制通过使用语义区域屏蔽激活来采取乘法方法。语义掩码与为了分析语义分割的必要性，我们生成了一个基线，即BBox，它类似于SSP。然而，我们用面部标志上的边界框代替SSP中的语义区域请注意，我们使用CelebA数据集[16]中提供的面部标志的地面实况位置来构建边界框。因此，在某种程度上，BBox的性能是边界框实验的上限。有5个面部标志，包括左眼、右眼、鼻子、左嘴巴和右嘴巴。我们使用面积为202（402给出类似的结果）和1：1，1：2和2：1长宽比的盒子。因此，存在包括整个图像本身的总共16个区域。从表2中，我们看到我们提出的模型，无论评估措施如何，都优于边界框替代方案，这表明在面部标志上，应该倾向于语义掩模而不是边界框。平衡的分类准确度考虑到属性类中的显著不平衡，也注意到[8，18]，我们建议使用平均精度而不是分类准确度/误差来评估属性预测。相反，Huang等人 [8]采用了平衡精度测量。为了看看我们提出的方法是否优于[8]，平衡的准确性措施，我们微调我们的模型与加权（不平衡水平）二进制交叉熵损失。从表2中，我们观察到在平衡精度[8]下，我们提出的模型的所有变化都优于[8]，具有较大的裕度。表4.人脸属性对语义人脸分析性能的影响通过交集对并集（IoU%）进行评估4.3.2对LFWA数据集的评价为了更好地理解我们提出的方法的有效性，我们报告了LFWA数据集上的实验结果[16]在表3中。我们观察到，在这项工作中提出的所有模型具体而言，SSP + SSG实现了相当好的性能比平均池化基本模型的分类误差为1.86%，平均精度为2.59%我们最好的模型也优于所有其他国家的最先进的方法。4.4. 面向语义人脸分析的人脸属性在这项工作中，我们建立了如何使用语义如果我们互换角色。面部属性能改善面部语义分析吗？为了评估这一点，我们联合训练了两个网络，其中基本属性预测网络的前8层我们对两种损失的集合进行优化。具体来说，CelebA [16]数据集上的属性预测损失和Helen脸[14]数据集上的语义分割损失使用[21]的面部分割标签我们遵循[21]的预定义数据分区，在第4.1节中详细介绍，并使用交集（IoU）作为评估指标。表4显示了当属性被合并时的近4%的提升，表明属性在改进语义面部解析方面的积极作用。这表明属性预测与语义切分之间存在着内在的联系未来，我们将进一步探索这一有希望的方向。4.5. 可视化图4示出了SSP的定位分支已经学习的每属性权重，我们观察到，诸如“黑发”、“棕发”、“直发”和“波浪发”的属性这符合我们的期望。然而，致敬我们怀疑6949图5.最后一个卷积层的前50个激活图按平均激活值降序排序上图：全球平均池化。底部：SSP。鼻子嘴眉毛眼睛脸皮肤头发背景图4. 由SSP的定位分支学习的不同语义区域在属性预测中的贡献值在32个图像的多个随机小批次上平均。这是因为语义分割网络在浅色头发上的表现不像在深色头发上那样一致（参见图3）。诸如“山羊胡子”、“嘴巴微微张开”、“小胡子”和“微笑”等属性也显示出对嘴巴区域的较大偏向。虽然这些与我们的人类知识是一致的，但与同样影响相当大的空间域的全局池不同，我们期望SSP生成语义对齐的激活。为了评估我们的假设，在图5中，我们显示了最后一个卷积层的前50个通道的激活。顶行对应于我们的基本网络与全球平均池，而底行是当我们取代全球平均池与SSP。我们观察到，SSP产生的激活明显比从全局平均池中获得的激活更局部化5. 实现细节我们所有的实验都是在一个NVIDIA Titan X GPU上进行的。我们使用AdaGrad [4]与迷你-批量大小为32，以从头开始训练属性预测模型。学习率和权重衰减被重新设置为0.001和0.0005。我们遵循相同的设置来训练语义分割网络。我们通过随机翻转（水平计数）输入图像来执行数据增强。在SSP实验中，我们调整将Deconv 23层的语义分割网络输出到14×12（最终卷积层的分辨率）。为此，我们使用最大和平均池操作。以来max pooling增加了区域的空间支持，我们将其用于与眼睛，眉毛，鼻子和嘴巴相关的面具。这也有助于我们捕捉一些背景。我们对其余区域使用平均池化对于SSG实验，我们使用Se-Mantic分割网络中Deconv33层的输出属性预测和语义分割网络分别训练40K和75K次迭代。6. 结论针对基于部位的属性预测方法的发展趋势，提出了基于语义分割的人脸属性预测方法。具体来说，我们将本地化线索从语义人脸解析的辅助任务转移到人脸属性预测问题。为了将属性预测模型的注意力引导到不同属性自然出现的区域，我们引入了SSP和SSG。虽然SSP用于将最终激活映射的聚合过程限制在语义一致的区域，但SSG具有相同的概念，但将其应用于更早的层。我们在CelebA和LFWA数据集上评估了我们提出的方法，并实现了最先进的性能。我们还表明，面部属性可以提高语义面部解析。我们希望这项工作鼓励未来的研究工作，更多地投资于这两个问题的相互关联致谢：我们感谢匿名评论者提供的有见地的反馈，感谢Amir Emad、Shervin Ardeshir和Shayan Modiri Assari进行的富有成效的讨论。马赫迪M.Kalayeh和穆巴拉克沙阿部分支持NIJ W 911 NF-14-1- 0294。BoqingGong部分由NSF IIS #1566511支持，并感谢Adobe Systems的礼物。5o时钟阴影拱形眉毛有吸引力的眼袋光头刘海大嘴唇大鼻子黑色的头发金发棕色的头发浓密的眉毛Chorus双下巴眼镜山羊胡子灰色头发浓妆高颧骨男性嘴巴微张小胡子窄眼无胡须椭圆脸苍白皮肤尖鼻后退的头发玫瑰色的脸颊鬓角微笑直发波浪头发戴耳环戴帽子戴口红戴项链戴领带年轻6950引用[1] T. Berg和P.贝尔胡默尔Poof：基于零件的一对一一个特征用于细粒度分类、面部验证和属性估计。在IEEE计算机视觉和模式识别会议集，第955- 962页2[2] H. Bilen和A.维达尔迪弱监督深度检测网络在CVPR，2016年。3[3] L. Bourdev，S. Maji和J.马利克描述人物：一种基于poselet的属性分类方法。2011年国际计算机视觉会议，第1543- 1550页IEEE，2011年。2[4] J. Duchi，E. Hazan和Y.歌手. 在线学习和随机优化的自适应子梯度方法。 Journal of Machine LearningResearch，12（Jul）：21218[5] G.基奥沙里河Girshick和J.马利克从整体和部分的行为和贡献。在IEEE计算机视觉国际会议论文集，第2470-2478页2[6] K. 他，X。Zhang，S.Ren和J.太阳用于视觉识别的深度卷积网络中的空间金字塔欧洲计算机视觉会议，第346Springer，2014. 6[7] K.他，X。Zhang，S. Ren和J. Sun.深入研究整流器：在imagenet分类上超越人类水平的性能在Proceedings ofthe IEEE International Conference on Computer Vision，第1026-1034页三、四[8] C. Huang，Y.黄氏Y. Li，C. Change Loy和X.唐学习不平衡分类的深度表示。在IEEE计算机视觉和模式识别会议的Proceedings中，第5375-5384页，2016年。五、六、七[9] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。 arXiv 预印本 arXiv ：1502.03167，2015。三、四、六[10] M. Jaderberg ， K. Simonyan 、 A. Zisserman 等人空间Transformer网络。神经信息处理系统进展，2017-2025页，2015年。2[11] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展，第1097-1105页，2012年。6[12] N. Kumar，P. Belhumeur，and S.纳亚尔Facetracer：一个搜索引擎，用于搜索带有人脸的大型图像集合。欧洲计算机视觉会议，第340Springer，2008. 五、六、七[13] N.库马尔A. C. Berg，P. N. Belhumeur和S. K.纳亚尔用于人脸验证的属性和明喻分类器。2009年IEEE第12届计算机视觉国际会议，第365-372页。IEEE，2009年。2[14] V. Le，J. Brandt，Z.林湖，澳-地Bourdev和T. S.煌交互式面部特征定位。欧洲计算机视觉会议，第679-692页Springer，2012. 五、七[15] M.林角，澳-地Chen和S.燕.网络中的网络。arXiv预印本arXiv：1312.4400，2013。二、三[16] Z. Liu，P. Luo，X. Wang和X.唐在野外深度学习人脸属性。在国际计算机视觉会议（ICCV）的会议记录中，2015年。二五六七[17] H. Noh，S. Hong和B.韩用于语义分割的学习反卷积网络在IEEE计算机视觉国际会议论文集，第1520- 1528页二、四[18] E. Rudd ，M. Gunthe r和T. 博尔特Moon：一个用于人脸特征识别的混合arXiv预印本arXiv：1603.07027，2016年。五、六、七[19] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014。四、六[20] K. K. Singh和Y.J. 李你相对属性的端到端本地化和在欧洲计算机视觉会议上，第753-769页。施普林格，2016年。2[21] B. M.史密斯湖，澳-地Zhang，J. Brandt，Z. Lin，and J.Yang.基于示例的人脸解析。在IEEE计算机视觉和模式识别会议论文集，第3484-3491页，2013年。二四五七[22] J. Wang，Y. Cheng和R.施密特·费里斯走路和学习：从自我中心视频和上下文数据中学习面部属性表示。在IEEE计算机视觉和模式识别会议论文集，第2295-2304页，2016年。五、六、七[23] N. Zhang，M.帕卢里，M。兰扎托T.Darrell和L.布尔德夫Panda：为深度属性建模设置对齐网络。IEEE计算机视觉和模式识别会议论文集，第1637-1644页，2014年二五六七[24] Y. Zhong，J. Sullivan，and H.李利用中级深度表示来预测野外的人脸属性。在图像处理（ICIP）中，2016IEEE国际会议，第3239-3243页。IEEE，2016. 六、七

下载后可阅读完整内容，剩余1页未读，立即下载