金字塔盒：基于上下文的单镜头人脸检测

159 浏览量更新于2023-10-13 收藏 2.51MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

PyramidBox：一个上下文辅助的单镜头人脸检测器。徐唐[0000−0003−1375−0778]，Daniel K.杜*[0000−0001−5313−0413]、何泽强[0000−0002−7192−0096]、刘静拓†[0000−0003−0566−0780]Baidu Inc.tangxu02@baidu.com，daniel.kang. gmail.com，{何泽强，刘敬拓}@ baidu.com抽象。人脸检测已经研究了很多年，剩下的挑战之一是在不受控制的环境中检测小的，模糊的和部分遮挡的人脸本文提出了一种新的上下文辅助的单镜头人脸检测器，命名为金字塔框处理困难的人脸检测问题。鉴于语境的重要性，本文从以下三个方面改进语境信息的利用。首先，我们设计了一个新的上下文锚监督高层次的上下文特征学习的半监督方法，我们称之为金字塔锚。其次，我们提出了低层特征金字塔网络，将足够的高层上下文语义特征和低层面部特征结合在一起，这也允许PyramidBox在一个镜头中预测所有尺度的面部第三，我们引入了一个上下文敏感的结构，以增加预测网络的能力，提高最终的输出准确率。此外，我们使用数据锚点采样的方法来增加不同尺度的训练样本，这增加了较小人脸的训练数据的多样性。通过利用上下文的价值，PyramidBox实现了卓越的性能之间的国家的最先进的两个常见的人脸检测基准，FDDB和WIDER脸。我们的代码可以在Pad- dlePaddle中找到：https://github.com/PaddlePaddle/models/tree/develop/流体/面部检测。关键词：人脸检测，上下文，单镜头，金字塔盒1介绍人脸检测是各种人脸应用中的一项基本而重要的任务。Viola-Jones的突破性工作[1]利用具有Haar-Like特征的AdaBoost算法来训练人脸与人脸的级联。非面部分类器。因此，多个子等式k[2- 7 ]适用于实现所述附加检测。 [8- 10 ]通过对可变形面部部分的关系进行建模，在面部检测任务中减少可变形面部模型（DPM）。这些*同等缴款。†通讯作者。2放大图片作者：Daniel K.杜泽强，何泽强，刘敬拓方法主要基于设计的特征，这些特征较少可表示并且通过分离的步骤训练。随着卷积神经网络（CNN）的重大突破，近年来由于利用现代CNN-b作为目标检测器，包括R-CNN[11- 14]、SS D [ 15 ]、Y 0 L0 [ 16 ]、FocalLoss [ 17 ]及其扩展[ 18 ]，人脸检测已经取得了很多进展。受益于强大的深度学习方法和端到端优化，基于CNN的人脸检测器已经实现了更好的性能，并为后来的方法提供了新的基线。最近的基于锚点的检测框架旨在检测不受控制的环境中的硬面，例如WIDER FACE [19]。SSH [20]和S3FD [21]开发了尺度不变网络，以检测单个网络中不同层的不同尺度的人脸。Face R-FCN [22]对得分图上的嵌入响应进行重新加权，并使用位置敏感的平均池化来消除每个面部部分FAN [23]通过突出显示面部区域的特征来检测被遮挡的面部，从而提出了锚级注意力。虽然这些工作为设计锚点和相关网络检测不同尺度的人脸提供了一种有效的方法，但如何利用上下文信息进行人脸检测还没有得到足够的重视，这在硬人脸检测中应该发挥重要作用事实上，如图所示1，很明显，在现实世界中，面部永远不会孤立地出现，通常是肩膀或身体，提供了丰富的上下文关联来源，特别是当面部纹理由于低分辨率、模糊和遮挡而无法区分时。我们通过引入一个新的上下文辅助网络框架来解决这个问题，以充分利用上下文信号作为以下步骤。图1：由于缺乏视觉一致性，硬脸很难定位和分类，而能够提示人脸位置的较大区域更容易定位和分类，例如头部和身体。首先，网络应该不仅能够学习人脸的特征，还能够学习头部和身体等上下文部分的特征。为了实现这一目标，需要额外的标签，并且应该设计与这些部件相匹配的锚定件。在这项工作中，我们使用一个半监督的解决方案来生成近似标签的上下文部分相关的脸和一系列的锚称为金字塔锚被发明可以很容易地添加到一般的锚为基础的架构。第二，高层次语境特征应与低层次语境特征充分结合硬面孔和易面孔的外观可能大不相同-PyramidBox：一个上下文辅助的单镜头人脸检测器。3ent，这意味着并非所有的高级语义特征都对较小的目标有帮助。我们研究了特征金字塔网络（FPN）[24]的性能，并将其修改为低级特征金字塔网络（LFPN），以将相互帮助的特征连接在一起。第三，预测分支网络应充分利用联合有限元分析方法是的。我们引入了上下文相关的预测模块（CPM），以更广泛和更深入的网络来整合目标人脸周围的上下文信息。同时，我们提出了一个最大输入输出层的预测模块，以进一步提高分类网络的能力。此外，我们提出了一个训练策略命名为数据锚点采样，以调整训练数据集的分布。为了为了学习更多可表示的特征，硬集样本的多样性是重要的，并且可以通过样本之间的数据增强来获得为清楚起见，这项工作的主要贡献可以概括为五个方面：1. 我们提出了一种基于锚的上下文辅助方法，称为PyramidAnchors，引入监督信息学习上下文特征的小，模糊和部分遮挡的脸。2. 我们设计了低层特征金字塔网络（LFPN），以更好地融合上下文特征和面部特征。同时，该方法可以处理不同尺度的人脸在一个单一的镜头。3. 我们引入了一个上下文敏感的预测模块，由一个混合的网络结构和最大输入输出层，学习准确的位置和分类从合并的功能。4. 我们提出了尺度感知的数据锚抽样策略，以改变训练样本的分布，把重点放在较小的脸。5. 我们在常见的人脸检测基准FDDB和WIDER FACE上实现了优于最先进技术的性能本文的其余部分组织如下。第2节提供了相关工作的概述第3节介绍了所提出的方法。第4节介绍了实验，第5节总结了论文。2相关工作基于锚点的人脸检测器。Anchor首先由Faster R-CNN [14]提出，然后被广泛用于两阶段和单次拍摄对象检测器。然后基于锚的对象检测器[15，16]近年来取得了显着的进展与FPN [24]类似，Lin [17]使用平移不变锚框，Zhang [21]设计锚的尺度以确保检测器可以很好地处理各种尺度的面FaceBoxes [25]引入了锚点致密化，以确保不同类型的锚点在图像上具有相同的密度。S3 FD [21]提出了锚点匹配策略来提高微小人脸的召回率。4放大图片作者：Daniel K.杜泽强，何泽强，刘敬拓尺度不变的人脸检测器。为了提高人脸检测器处理不同尺度人脸的性能，许多现有技术的作品[20，21，23，26]在同一框架中构建不同的结构来检测具有不同大小的人脸，其中高级特征被设计用于检测大人脸，而低级特征用于检测小人脸。为了将高级语义特征集成到具有更高分辨率的低级层中，FPN [24]提出了一种自顶向下的架构，以在所有尺度下使用高级语义特征图最近，FPN风格的框架在目标检测[17]和人脸检测[23]方面都取得了很好的性能与上下文相关的人脸检测器。最近，一些工作显示了上下文信息对于人脸检测的重要性，特别是对于发现小的、模糊的和被遮挡的人脸。CMS-RCNN [27]在具有身体上下文信息的面部检测中使用了更快的R-CNNHu等人[28]针对不同尺度训练了单独的检测器。SSH [20]通过每个预测模块上的大型过滤器对上下文信息进行建模。FAN [23]提出了一种锚点级注意力，通过突出面部区域的特征来检测被遮挡的面部。3金字塔盒本节介绍了上下文辅助的单镜头人脸检测器，金字塔盒。我们首先在第二节中简要介绍网络架构。第3.1条然后，我们提出了一个上下文敏感的预测模块。3.2，并提出了一种新的锚定方法，命名为金字塔锚，在第3.2节。三点三最后，第3.4给出了相关的训练方法，包括数据锚点采样和最大输入输出。3.1网络架构具有复杂锚点设计的基于锚点的对象检测框架已被证明有效地处理可变尺度的面部，当在不同级别的特征图进行预测时[14，15，20，21，23]。同时，FPN结构表现出较强的合并高层次的功能与较低的。PyramidBox的架构（图2）使用与S3FD [ 21 ]相同的扩展VGG16骨干和锚标度设计，可以生成不同级别的特征图和等比例间隔的锚点。在此基础上增加了底层FPN关键是我们设计了一种新的金字塔锚点方法，该方法在不同的层次上为每个人脸生成一系列锚点架构中每个组件的详细信息如下：比例均衡的骨干层。我们使用S3FD [21]中的基础卷积层和额外卷积层作为我们的骨干层，它们将VGG16的层从conv11保持到池5，然后将VGG16的fc6和fc7转换为conv fc层，然后添加更多的卷积层以使其更深。PyramidBox：一个上下文辅助的单镜头人脸检测器。5510510204020160804080640160640lfpn_2lfpn_1lfpn_0CLCLCLCLCLCL上下文相关预测图层低级别要素金字塔图层规模均衡的骨干层PyramidBox损失层+PyramidBox损失层图2：PyramidBox的架构它由比例均衡骨干层、低层特征金字塔层（LFPN）、上下文相关预测层和金字塔盒损失层组成低级别要素金字塔图层。为了提高人脸检测器处理不同尺度人脸的性能，具有高分辨率的低层特征起着关键作用。因此，许多现有技术的作品[20，21，23，26]在同一框架中构建不同的结构以检测具有不同大小的面部，其中高级特征被设计为检测大面部，而低级特征用于小面部。为了将高级语义特征集成到具有更高分辨率的低级层中，FPN [24]提出了一种自顶向下的架构，以在所有尺度下使用高级语义特征图最近，FPN风格的框架在目标检测[17]和人脸检测[23]方面都取得了很好的性能正如我们所知，所有这些工作都是从顶层开始构建FPN的，这应该说，并不是所有的高级特征都无疑有助于小脸。首先，小的、模糊的和被遮挡的人脸与大的、清晰的和完整的人脸具有不同的纹理特征。因此，直接使用所有高级特征来增强小面孔上的性能第二，从具有很少面部纹理的区域提取高级特征，并且可能引入噪声信息。例如，在我们的PyramidBox的主干层中，顶部两层conv7 2和conv6 2的感受野[21]分别为724和468，6放大图片作者：Daniel K.杜泽强，何泽强，刘敬拓面部头部身体1号阳性Pos-n阴性-1阴性-n最大输入输出阳性阴性面 Cls面头部对准主体Cls主体注册PyramidBox损失层Reg头部Cls（一）（b）第（1）款（c）第（1）款图3：（a）特征金字塔网。(b)上下文相关预测模块。(c)PyramidBox丢失。分别注意，训练图像的输入大小为640，这意味着顶部两层包含太多噪声上下文特征，因此它们可能对检测中等和较小的面部没有贡献。或者，我们构建低级特征金字塔网络（LFPN），从中间层开始自上而下的结构，其感受野应该接近输入大小的一半，而不是顶层。此外，LFPN的每个块的结构与FPN [24]相同，可以参见图1B。3（a）详情。金字塔检测层。我们选择lfpn2、lfpn1、lfpn0、conv fc7、conv 62和conv 7 2作为检测层，锚点大小分别为16、32、64、128、256和512。这里，lfpn 2、lfpn 1和lfpn 0分别是基于conv 3 3、conv 4 3和conv 5 3的LFPN的输出层。此外，与其他SSD风格的方法类似，我们使用L2归一化[29]来重新缩放LFPN层的范数。预测层。每个检测层后面都有一个上下文敏感的预测模块（CPM），参见第3.2节。请注意，CPM的输出用于监督金字塔锚点，请参见第3.3，在我们的实验中大致覆盖面部、头部和身体区域。第l个CPM的输出大小为wl×hl×cl，其中，对于l = 0，1，...，l，. . .、5。这里，每个通道的特征分别用于面部、头部和身体的分类和回归。其中，人脸的分类需要4个（=CP1+ CN1）通道，其中CP1和CN 2是不同的，分别是前景和背景标签的最大输入输出，满足.1，如果l=0，cpl=3、否则此外，头部和身体的分类都需要两个通道，而面部、头部和身体各有四个通道进行定位。PyramidBox损失层。对于每个目标面，请参见第3.3、我们有一系列金字塔锚来监督分类回归2040204020202x向上4040逐元素+的产品10241024256256256256102410242562561281281024256128ConcatenatePyramidBox：一个上下文辅助的单镜头人脸检测器。7同步我们设计了一个PyramidBox损失。参见第二节。3.4，其中我们使用softmax损失进行分类，平滑L1损失进行回归。3.2上下文相关预测模块预测模块。在原始的基于锚点的检测器中，例如SSD [15]和YOLO[16]，目标函数直接应用于选定的特征图。正如MS-CNN [30]中所提出的，扩大每个任务的子网络可以提高准确性。最近，SSH [20]通过在具有不同步幅的层顶部放置更宽的卷积预测模块来增加感受野，而DSSD [31]为每个预测模块添加残差块。事实上，SSH和DSSD都分别使预测模块更深和更宽，从而使预测模块获得更好的特征来分类和定位。受Inception-ResNet [32]的启发，很明显，我们可以共同享受更广泛和更深入的网络的收益。我们设计了上下文敏感预测模块（CPM），见图1。3（b），其中我们用DSSD的无残差预测模块代替SSH中的上下文模块的卷积层这将允许我们的CPM获得DSSD模块方法的所有好处，同时保留来自SSH上下文模块的丰富上下文信息最大输入输出最大输出的概念首先由Goodfellow等人提出。[33 ]第33段。最近，S3FD[21]应用最大输出背景标签来降低小阴性的假阳性率。在这项工作中，我们使用这种策略的阳性和阴性样本。将其表示为max-in-out，参见Fig.3（c）款。我们首先预测每个预测模块的cp+cn得分，然后选择maxcp作为正得分。类似地，我们选择cn的最大得分作为负得分。在我们的实验中，我们为第一个预测模块设置cp= 1和cn= 3，因为小锚点具有更复杂的背景[25]，而为其他预测模块设置cp=3和cn= 1以回忆更多的面孔。3.3PyramidAnchors近年来，生物技术领域的研究[15- 17，24]和生物技术领域的研究[ 21，25]取得了显著的进展。已经证明，每个尺度的平衡锚点对于检测小脸是必要的[21]。但它仍然忽略了在每个尺度上的上下文特征，因为锚点都是针对人脸区域设计的。为了解决这个问题，我们提出了一种新的交替锚定方法，命名为金字塔锚。对于每个目标人脸，金字塔生成一系列锚点，这些锚点对应于与包含更多上下文信息（如头部、肩部和身体）的人脸相关的较大区域。我们通过将区域大小与锚点大小相匹配来选择要设置此类锚点的层，这将监督更高级别的层来学习更低级别尺度面部的可表示特征给定头部、肩部或身体的额外标签，我们可以准确地匹配an-chorstogr〇undtruthtogeratethelos。由于它不适合于对所有的人脸进行自适应分割，我们在假设具有相同比例和偏移量的区域具有相似的上下文特征的情况下，以半监督的方式实现它。8放大图片作者：Daniel K.杜泽强，何泽强，刘敬拓P4P5PP1P0P32图图4：金字塔锚点的图示例如，大小为128的最大紫色面在P3、P4和P5处具有双锚点，其中P3是从由面自身标记的conv fc 7生成的锚点，P4是从由目标面的头部（大小约为256）标记的conv 6 2生成的锚点，并且P5是从由目标面的身体（大小约为512）标记的conv 7 2生成的锚点。目标的脸。类似地，为了检测尺寸为16的最小青色面部，可以从由原始面部标记的P0上的金字塔锚点、由尺寸为32的相应头部标记的P1上的金字塔锚点以及由尺寸为64的相应身体标记的P2也就是说，我们可以使用一组统一的框来近似头部，肩部和身体的实际区域，只要这些框中的特征在不同的面部之间是相似对于定位在原始图像中的区域目标处的目标面部，考虑到n个chori，j，其中可以将j个chor放置在步长为si的urel层处，我们通过以下方式定义第k个金字塔锚点的标签：labelk（anchori，j）=.1，如果iou（锚0，否则，i、j·si/spa k，区域目标）>阈值，（一）对于k=0，1，. . .，K，其中是金字塔锚点的跨距。在chori，j的初始化中，chori，j不表示对修改区域的贡献，并且chori，j表示对通过跨越s_pak修改的当前存储区域的贡献。阈值与其他基于锚点的检测器相同。此外，PyramidBox Loss将在第二节中演示三点四分。在我们的实验中，由于相邻预测模块的步幅为2，因此我们设置超参数spa=2。此外，假设阈值= 0。35且K = 2。面的第0、第1和第2个面分别为平面，它们的形状和形状是完全相同的。可以看出，一张脸将在三次连续预测PyramidBox：一个上下文辅助的单镜头人脸检测器。9200000清除采样180000正常模糊160000正常模糊采样重度模糊140000重模糊采样1200001000008000060000400002000000-1616-3232-6464-128128-256256-512>512100000典型姿势典型姿势采样非典型姿势非典型姿势采样90000800007000060000500004000030000200001000000-1616-3232-6464-128128-256256-512>51260000无闭塞无闭塞采样部分闭塞50000部分遮挡采样重度闭塞重度闭塞采样4000030000200001000000-1616-3232-6464-128128-256256-512>512明确10000090000法线照明法线照明采样极端照明极端照明采样800007000060000500004000030000200001000000-1 616-3232-6464-12 8128 -25 6256 -5 12>512(a) Pose.(b) 闭塞。(c) 模糊。(d) 照明。图5：数据锚点采样改变了训练数据的分布。虚线表示某些属性的分布，而实线表示在数据锚点采样之后这些属性的相应分布。模块，其针对面部本身表示与面部相对应的头部和身体。图4示出了示例。得益于PyramidBox，我们的人脸检测器可以更好地处理小，模糊和部分遮挡的人脸。请注意，金字塔锚点是自动生成的，没有任何额外的标签，这种半监督学习有助于PyramidAnchors提取近似的上下文特征。在预测过程中，我们只使用人脸分支的输出，所以在运行时不会产生额外的计算成本，相比标准的基于锚点的人脸检测器。3.4培训在本节中，我们将介绍训练数据集、数据增强、损失函数和其他实现细节。训练数据集。我们在WIDER FACE训练集的12880张图像上训练了PyramidBox，这些图像具有颜色扭曲、随机裁剪和水平翻转。数据锚点采样数据采样[34]是统计学、机器学习和模式识别中的一门经典学科，近年来取得了很大的发展。对于目标检测的任务，焦点损失[17]通过重塑标准交叉熵损失来解决类别不平衡。在这里，我们利用一个数据增加样本的方法命名为数据锚抽样。简而言之，数据锚点采样通过将该图像中的随机面重塑为随机较小的锚点大小来调整训练图像的大小。更具体地，我们首先在样本中随机选择大小相同的面中的面。作为PyramidBox中锚点的预先说明，如第2节所示。3.1、有si= 24+i，f或i= 0，1，. . . ，5，让ianchor=argminiabs（sanchori−sface）是离所选面部最近的锚标度的索引，则我们在集合中选择随机索引i目标{0，1，. . . ，min（5，i锚+1）}，10放大图片作者：Daniel K.杜泽强，何泽强，刘敬拓∗k我最后，我们将某个面的大小调整为starget = random（sitarget/2，sitarget * 2）.这样，我们就得到了图像的缩放比例s*= s目标/s面。通过以尺度s*调整原始图像的大小，并随机裁剪包含所选人脸的640×640的标准尺寸，我们得到锚点采样的训练数据。例如，我们首先随机选择一张脸，假设它的大小是140，那么它的最近锚大小是128，那么我们需要从16， 32， 64， 128和256中选择一个目标大小。一般来说，假设我们选择32，那么我们按比例32/140 = 0调整原始图像的大小。2285.最后，通过从包含原始选择的面部的最后一张调整大小的图像中裁剪640 ×640的子图像，我们得到采样的训练数据。如图5、数据锚点采样改变了训练数据的分布：1）小人脸的比例大于大人脸。2）通过较大的人脸样本生成较小的人脸样本，以增加较小尺度的人脸样本的多样性PyramidBox丢失。作为[13]中的多盒损失的推广，我们使用图像的PyramidBox损失函数定义为ΣL（{pk，i}，{tk，i}）=λkLk（{pk，i}，{tk，i}），（2）K其中第k个金字塔锚损失由下式给出Lk（{pk我}，{tk我λ}）=Nk，clsΣLk，clsIk（pk，i∗k我1）+Nk，regΣ∗k我IkLk，reg（tk，ik，i）。（三）这里k是金字塔锚点的索引（在我们的实验中，k= 0、 1和2分别表示面部、头部和身体），i是锚点的索引，pk，i是锚点i是第k个对象（面部、头部或身体）的预测概率。定义的地面实况标签∗k我.1，如果由步幅s=0，否则。k是正数，（四）例如，当k= 0时，地面实况标签等于Fast R-CNN [13]中的标签，否则，当k≥1时，可以通过下采样锚点和地面实况面之间的匹配来确定相应的标签此外，tk，i是表示预测的目标的4个参数化坐标的向量。边界框和t*是地面实况框与一个积极的锚，我们可以定义为1−sk1−skt* =（t*+pat*sw，k+∆x，k，t*+pat*sh，k+∆y，k，k我x2wy2h（五）skt∝sw，k−2∆x，k，skt∝sh，k− 2∆y，k），paw p ah得双曲余切值.p，tpPyramidBox：一个上下文辅助的单镜头人脸检测器。11k我其中Δx，k和Δy，k表示移位的偏移，sw，k和sh，k分别是相对于宽度和高度的比例因子在我们的实验中，我们设置∆x，k=∆y，k=0，sw，k=sh，k=1，对于k2和∆x，2= 0，∆y，2=t*，sw，2=7，sh，2=1，对于

下载后可阅读完整内容，剩余1页未读，立即下载