双重拍摄人脸检测网络DSFD

37 浏览量更新于2023-10-18 收藏 38.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

150600DSFD：双重拍摄人脸检测器0李健†，王亚彪‡，王长安‡，邰颖‡0钱建军†�，杨健†�，王成杰‡，李吉林‡，黄飞跃‡0†智能感知与高维信息系统教育部重点实验室†江苏社会安全图像与视频理解重点实验室†南京理工大学计算机科学与工程学院，南京，中国‡腾讯优图实验室0† lijiannuist@gmail.com，{csjqian，csjyang}@njust.edu.cn0‡{casewang，changanwang，yingtai，jasoncjwang，jerolinli，garyhuang}@tencent.com0姿态和遮挡0反射0模糊0尺度0光照0化妆0图1：视觉结果。我们的方法对于尺度、模糊、光照、姿态、遮挡、反射和化妆等各种变化具有鲁棒性。0摘要0在本文中，我们提出了一种新颖的人脸检测网络，它具有三个新颖的贡献，分别解决了人脸检测的三个关键方面，包括更好的特征学习，渐进损失设计和基于锚点分配的数据增强。首先，我们提出了一种特征增强模块（FEM），用于增强原始特征图，将单次检测器扩展为双次检测器。其次，我们采用了渐进锚点损失（PAL），通过两组不同的锚点来有效促进特征。第三，我们使用了一种改进的锚点匹配（IAM），将新颖的锚点分配策略集成到数据增强中。0�钱建军和杨健为通讯作者。本工作得到了中国国家自然科学基金（编号61876083，U1713208）和长江学者计划的支持。李健在腾讯优图实验室实习时完成了这项工作。0为了为回归器提供更好的初始化，我们提出了一种名为Dual Shot FaceDetector（DSFD）的网络，该网络与这些技术都有关。在流设计，我们将提出的网络命名为Dual Shot FaceDetector（DSFD）。在流行的基准测试WIDERFACE和FDDB上进行的大量实验证明了DSFD相对于最先进的人脸检测器的优越性。01.引言0人脸检测是各种面部应用的基本步骤，如面部对齐[26]，解析[3]，识别[34]和验证[6]。作为人脸检测的开创性工作，Viola-Jones[29]采用了AdaBoost算法和手工特征，现在已被卷积神经网络（CNN）[10]中深度学习特征所取代，取得了巨大的进展。尽管如此50610尽管基于CNN的人脸检测器已经得到了广泛的研究，但在真实场景中检测具有尺度、姿态、遮挡、表情、外观和光照等高度可变性的人脸仍然是一个挑战。先前的最先进的人脸检测器可以大致分为两类。第一类主要基于FasterRCNN[24]中采用的区域建议网络（RPN），采用两阶段检测方案[30，33，36]。RPN进行端到端的训练，生成高质量的区域建议，然后由FastR-CNN检测器进一步优化。另一类是基于单次检测器（SSD）[20]的一阶段方法，摒弃了RPN，直接预测边界框和置信度[4，27，39]。最近，一阶段人脸检测框架由于其更高的推理效率和直接的系统部署而受到更多关注。尽管上述方法取得了一些进展，但在以下三个方面仍存在一些问题：特征学习-特征提取部分对于人脸检测器至关重要。目前，特征金字塔网络（FPN）[17]在最先进的人脸检测器中被广泛使用以获得丰富的特征。然而，FPN只是在高级和低级输出层之间聚合层次结构特征图，没有考虑当前层的信息，并且忽略了锚点之间的上下文关系。损失设计-目标检测中常用的传统损失函数包括用于人脸区域的回归损失和用于识别是否检测到人脸的分类损失。为了进一步解决类别不平衡问题，Lin等人提出了FocalLoss，将训练集中在一组稀疏的困难样本上。为了使用所有原始和增强特征，Zhang等人提出了分层损失来有效学习网络。然而，上述损失函数都没有考虑不同层次和不同拍摄次数的特征图的渐进学习能力。锚点匹配-基本上，为每个特征图生成预设的锚点，通过在图像上规则平铺一系列具有不同尺度和长宽比的框来实现。一些工作分析了一系列合理的锚点尺度和锚点补偿策略，以增加正锚点。然而，这种策略忽略了数据增强中的随机采样，仍然导致正负锚点之间的不平衡。在本文中，我们分别提出了三种新颖的技术来解决上述三个问题。首先，我们引入了一种特征增强模块（FEM），用于增强特征的可辨识性和鲁棒性，该模块结合了PyramidBox中的FPN的优点和RFBNet中的Receptive FieldBlock（RFB）。其次，受到PyramidBox中的分层损失[37]和金字塔锚点[27]的启发，我们设计了渐进锚点损失（PAL），该损失使用渐进的锚点尺寸，不仅适用于不同层次，还适用于不同拍摄次数。具体而言，我们分配更小的0第一拍锚点尺寸，第二拍使用更大的尺寸。第三，我们提出了改进的锚点匹配（IAM），它将锚点分区策略和基于锚点的数据增强相结合，以更好地匹配锚点和真实人脸，从而为回归器提供更好的初始化。这三个方面是互补的，因此这些技术可以共同工作，进一步提高性能。此外，由于这些技术都与双流设计相关，我们将提出的网络命名为双拍人脸检测器（DSFD）。图1展示了DSFD在各种变化中的有效性，特别是在极小的人脸或严重遮挡的人脸上。总之，本文的主要贡献包括：•一种新颖的特征增强模块，利用不同层次的信息，从而获得更具区分性和鲁棒性的特征。•通过一组较小的锚点在早期层引入辅助监督，以有效地促进特征。•改进的锚点匹配策略，尽可能地匹配锚点和真实人脸，为回归器提供更好的初始化。•在流行的基准FDDB和WIDERFACE上进行了全面的实验，以证明我们提出的DSFD网络相对于最先进的方法的优越性。02. 相关工作0我们从三个方面回顾了先前的工作。特征学习早期的人脸检测主要依赖于手工设计的特征，如Harr-like特征[29]，控制点集[1]，边缘方向直方图[13]。然而，手工设计的特征缺乏指导性。随着深度学习的巨大进展，卷积神经网络（CNN）已经取代了手工设计的特征。例如，Overfeat [25]，Cascade-CNN [14]，MTCNN[38]采用CNN作为滑动窗口检测器在图像金字塔上构建特征金字塔。然而，使用图像金字塔的方法速度慢且内存效率低下。因此，大多数两阶段检测器在单一尺度上提取特征。R-CNN [7,8]通过选择性搜索[28]获得区域建议，然后将每个归一化的图像区域通过CNN进行分类。Faster R-CNN [24]，R-FCN[5]采用区域建议网络（RPN）生成初始的区域建议。此外，ROI池化[24]和位置敏感的RoI池化[5]被用于从每个区域提取特征。最近的一些研究表明，多尺度特征对于小目标的性能更好。具体来说，SSD [20]，MS-CNN [2]，SSH[23]，S3FD[39]在特征层次结构的多个层上预测边界框。FCN[22]，Hypercolumns [9]，Parsenet[21]在分割中融合多层特征。FPN [15,17]是一种自顶向下的架构，将高级语义信息整合到所有尺度上。640x640 160x160 80x80 40x40 20x20 10x10 5x5 50620(b) 特征增强模块0(a) 原始特征图0(c) 增强特征图0一拍PAL第二拍PAL0输入图像 conv3_3 conv4_3 conv5_3 conv_fc7 conv6_2 conv7_20图2：我们的DSFD框架使用一个特征增强模块（b）在一个前馈的VGG/ResNet架构上生成增强特征（c），同时还有两个损失层，分别为原始特征的第一拍PAL和增强特征的第二拍PAL。0基于FPN的方法，如FAN [31]，PyramidBox[27]在检测方面取得了显著的改进。然而，这些方法并未考虑当前层的信息。与上述方法不同，我们提出了一个特征增强模块，该模块将多级扩张卷积层结合起来，以增强特征的语义。0损失设计通常，检测中的目标损失是分类损失（例如softmax损失）和框回归损失（例如L2损失）的加权和。Girshick等人[7]提出了平滑的L1损失，以防止梯度爆炸。Lin等人[18]发现类别不平衡是单阶段检测器性能不佳的一个障碍，因此他们提出了焦点损失，一种动态缩放的交叉熵损失。此外，王等人[32]为行人检测设计了RepLoss，改善了遮挡场景下的性能。FANet[37]创建了一个分层特征金字塔，并为其架构提供了分层损失。然而，FANet中使用的锚点在不同阶段保持相同的大小。在这项工作中，我们根据不同阶段自适应选择不同的锚点大小，以促进特征提取。0锚匹配为了使模型更加稳健，大多数检测方法[20，35，39]进行数据增强，例如颜色扭曲、水平翻转、随机裁剪和多尺度训练。张等人[39]提出了一种锚补偿策略，使小脸在训练过程中能够匹配足够的锚点。王等人[35]提出了随机裁剪方法，用于生成大量遮挡的人脸进行训练。然而，这些方法忽略了数据增强中的随机采样，而我们的方法将锚点分配与随机采样相结合，为锚匹配提供更好的数据初始化。0乘积01x1卷积01x1卷积上采样0扩张卷积，卷积核为3x3，扩张率为30当前特征图上层特征图0连接0N/30N/30N/3 N0图3：特征增强模块示意图，其中当前特征图单元与当前特征图和上层特征图中的邻居进行交互。03. 双重检测器0我们首先介绍我们提出的框架DSFD的流程，然后详细描述我们的特征增强模块（第3.2节），渐进锚损失（第3.3节）和改进的锚匹配（第3.4节）。03.1. DSFD的流程0DSFD的框架如图2所示。我们的架构使用与PyramidBox[27]和S3FD[39]相同的扩展VGG16骨干网络，该网络在分类层之前被截断，并添加了一些辅助结构。我们选择conv 3 3，conv 43，conv 5 3，conv fc 7，conv 6 2和conv 72作为第一次检测层，生成六个原始特征图，命名为of1，of 2，of 3，of 4，of 5，of6。然后，我们提出的FEM将这些原始特征图转换为六个增强特征图，命名为ef 1，ef 2，ef 3，ef 4，ef 5，ef6，这些特征图与原始特征图具有相同的大小，并被馈送到SSD风格的头部构建第二次检测层。注意，ec(i,j,l) = fconcat(fdilation(nc(i,j,l)))nci,j,l = fprod(oc(i,j,l), fup(oc(i,j,l+1)))(1)LSSL(pi, p∗i , ti, gi, ai) =1Nconf(ΣiLconf(pi, p∗i )+βNΣip∗i Lloc(ti, gi, ai)),FeatureStrideSizeScaleRatioNumberef 1 (of 1)4160 × 16016 (8)1.5 : 125600ef 2 (of 2)880 × 8032 (16)1.5 : 16400ef 3 (of 3)1640 × 4064 (32)1.5 : 11600ef 4 (of 4)3220 × 20128 (64)1.5 : 1400ef 5 (of 5)6410 × 10256 (128)1.5 : 1100ef 6 (of 6)1285 × 5512 (256)1.5 : 125vs. background), and Lloc is the smooth L1 loss between theparameterizations of the predicted box ti and ground-truthbox gi using the anchor ai. When p∗i = 1 (p∗i = {0, 1}),the anchor ai is positive and the localization loss is acti-vated. β is a weight to balance the effects of the two terms.Compared to the enhanced feature maps in the same level,the original feature maps have less semantic information forclassiﬁcation but more high resolution location informationfor detection. Therefore, we believe that the original featuremaps can detect and classify smaller faces. As the result, wepropose the First Shot multi-task Loss with a set of smalleranchors as follows:LF SL(pi, p∗i , ti, gi, sai) =1NconfΣiLconf(pi, p∗i )+βNΣip∗i Lloc(ti, gi, sai),LP AL = LF SL(sa) + λLSSL(a).(4)50630训练图像的输入尺寸为640，这意味着最低级别到最高级别的特征图尺寸从160到5。与S3FD和PyramidBox不同，在我们利用FEM中的感受野扩大和新的锚点设计策略之后，不需要满足等比例间隔原则的三个尺度的步长、锚点和感受野。因此，我们的DSFD更加灵活和鲁棒。此外，原始和增强的检测结果分别具有两个不同的损失函数，分别称为第一次检测的渐进锚损失（FSL）和第二次检测的渐进锚损失（SSL）。03.2. 特征增强模块0特征增强模块能够增强原始特征，使其更具辨别性和鲁棒性，简称为FEM。为了增强原始神经元单元oc(i,j,l)，FEM利用不同维度的信息，包括上层原始神经元单元oc(i,j,l)和当前层的非局部神经元单元：nc(i-ε,j-ε,l)，nc(i-ε,j,l)，...，nc(i,j+ε,l)，nc(i+ε,j+ε,l)。特别地，增强的神经元单元ec(i,j,l)可以数学定义如下：0其中 c i,j,l 是位于第 l 层特征图中 ( i, j ) 坐标的单元格，f表示一组基本的扩张卷积、逐元素乘法、上采样或连接操作。图 3 展示了FEM的思想，它受到了FPN [17] 和RFB [19]的启发。在这里，我们首先使用 1 × 1卷积核对特征图进行归一化。然后，我们将上层特征图上采样，与当前特征图进行逐元素乘法。最后，我们将特征图分成三个部分，分别由包含不同数量扩张卷积层的三个子网络处理。03.3. 渐进锚点损失0与传统的检测损失不同，我们在我们的框架中为不同的层级和不同的拍摄设置了渐进的锚点尺寸。受 [24]中的观点启发，低层特征更适合小尺寸的人脸，我们在第一次拍摄中分配较小的锚点尺寸，并在第二次拍摄中使用较大的尺寸。首先，我们的第二次拍摄基于锚点的多任务损失函数定义如下:0(2) 其中 N conf 和 N loc 分别表示正锚点和负锚点的数量，L conf 是两类（人脸 vs. 背景）的softmax 损失，L loc 是使用锚点 a i 对预测框 t i 和真实框 g i 进行参数化的平滑 L1 损失。当 p � i= 1 ( p � i = { 0 , 1 } ) 时，锚点 a i 是正锚点，激活定位损失。β是平衡两个项影响的权重。与同一层级的增强特征图相比，原始特征图在分类方面具有较少的语义信息，但在检测方面具有更高的分辨率位置信息。因此，我们认为原始特征图可以检测和分类较小的人脸。因此，我们提出了第一次拍摄的多任务损失，其中包含一组较小的锚点，如下所示:0表 1:两次拍摄的步长大小、特征图大小、锚点尺度、比例和六个原始/增强特征的数量。0(3) 其中 sa表示第一次拍摄层中较小的锚点，两次拍摄的损失可以加权求和得到整个渐进锚点损失，如下所示:0请注意，第一次拍摄的锚点尺寸是第二次拍摄的一半，λ是权重因子。关于锚点尺寸的详细分配在第 3.4节中描述。在预测过程中，我们只使用第二次拍摄的输出，这意味着不会引入额外的计算成本。03.4. 改进的锚点匹配0当前的锚点匹配方法是锚点和真实人脸之间的双向匹配。因此，在增强过程中，锚点设计和人脸采样是协同工作的，以尽可能地匹配锚点和人脸，以更好地初始化回归器。我们的IAM旨在解决离散锚点尺度和连续人脸尺度之间的矛盾，其中人脸通过 S input � S face /S anchor ( S 表示空间尺寸)的概率为 40%进行增强，以增加正锚点，稳定训练，从而提高结果。表 1显示了我们的锚点设计的详细信息，即每个特征图单元如何与固定形状的锚点相关联。我们根据人脸尺度统计设置锚点比例为1.5:1。原始特征的锚点尺寸是增强特征的一半。此外，还有50640表2：特征增强模块对AP性能的有效性。0组件简单中等困难0FSSD+VGG16 92.6% 90.2% 79.1%FSSD+VGG16+FEM 93.0% 91.4% 84.6%0表3：渐进锚损失对AP性能的有效性。0组件简单中等困难0FSSD+RES50 93.7% 92.2% 81.8% FSSD+RES50+FEM95.0% 94.1% 88.0% FSSD+RES50+FEM+PAL 95.3%94.4% 88.6%0图4：传统锚点匹配（左）和我们改进的锚点匹配（右）之间不同尺度人脸的数量分布。0对于2/5的概率，我们使用类似于PyramidBox中的数据-锚点采样（data-anchor-sampling）的基于锚点的采样方法，随机选择图像中的一个人脸，裁剪包含该人脸的子图像，并设置子图像与选定人脸之间的大小比例为640/rand（16，32，64，128，256，512）。对于剩下的3/5的概率，我们采用类似于SSD[20]的数据增强方法。为了提高人脸的召回率并同时确保锚点的分类能力，我们将交并比（IoU）阈值设置为0.4，将锚点分配给其对应的真实人脸。04. 实验04.1. 实现细节0首先，我们介绍实现我们网络的细节。主干网络使用在ImageNet上预训练的VGG/ResNet进行初始化。所有新添加的卷积层参数使用“xavier”方法进行初始化。我们使用带有0.9动量的SGD和0.0005的权重衰减来微调我们的DSFD模型。批量大小设置为16。学习率在前40k步设置为0.001，然后在两个10k步中将其衰减为0.0001和0.00001。在推理过程中，忽略第一次预测的输出，第二次预测选取置信度最高的前5k个检测结果。采用Jaccard重叠系数为0.3进行非极大值抑制，每个图像产生750个置信度较高的边界框。对于4个边界框坐标，我们将左上坐标向下取整，将宽度和高度向上取整以扩展检测边界框。官方代码已在https://github.com/TencentYoutuResearch/FaceDetection-DSFD上发布。0图5：传统锚点匹配（蓝线）和我们改进的锚点匹配（红线）之间匹配的锚点数量分布的比较。我们实际上将IoU阈值设置为0.35用于传统版本。这意味着即使使用更高的阈值（即0.4），使用我们的IAM，我们仍然可以获得更多的匹配锚点。在这里，我们选择了稍高的IAM阈值，以更好地平衡匹配的人脸的数量和质量。04.2. DSFD分析0在本小节中，我们在WIDERFACE数据集上进行了大量实验和消融研究，以评估我们提出的框架的几个贡献的有效性，包括特征增强模块、渐进锚损失和改进的锚匹配。为了公平比较，我们对所有实验使用相同的参数设置，除了对组件进行的指定更改。所有模型都在WIDERFACE训练集上进行训练，并在验证集上进行评估。为了更好地理解DSFD，我们选择不同的基线来消融每个组件对最终性能的影响。特征增强模块首先，我们采用S3FD[39]、PyramidBox [27]中设计的锚点和由VGG16生成的六个原始特征图来进行分类和回归，将其命名为Face SSD（FSSD）作为基线。然后，我们使用基于VGG16的FSSD作为基线，添加特征增强模块进行比较。表2显示，我们的特征增强模块可以将基于VGG16的FSSD的性能从92.6％、90.2％、79.1％提高到93.0％、91.4％、84.6％。渐进锚损失其次，我们使用基于Res50的FSSD作为基线，添加渐进锚损失进行比较。我们使用ResNet的四个残差块的输出替换VGG中的conv 3 3、conv 43、conv 5 3、conv fc7的输出。除了VGG16，我们不执行层归一化。表3显示，我们的渐进锚损失可以改善使用FEM的Res50-basedFSSD的性能，从95.0％、94.1％、88.0％提高到95.3％、94.4％、88.6％。改进的锚匹配为了评估我们改进的锚匹配策略，我们使用没有锚点补偿的基于Res101的FSSD作为基线。表4显示，我们的改进的锚匹配可以将使用FEM的Res101-basedFSSD的性能从95.8％、95.1％、89.7％提高到96.1％、95.2％、90.0％。最后，我们可以使用ResNet152作为主干将我们的DSFD提高到96.6％、95.7％、90.4％。50650验证：易验证：中验证：难0测试：易测试：中测试：难0图6：WIDER FACE验证和测试子集上的精确度-召回曲线。0表4：改进的锚点匹配对AP性能的有效性。0组件易中难0FSSD+RES101 95.1% 93.6% 83.7% FSSD+RES101+FEM 95.8% 95.1%89.7% FSSD+RES101+FEM+IAM 96.1% 95.2% 90.0%FSSD+RES101+FEM+IAM+PAL 96.3% 95.4% 90.1%FSSD+RES152+FEM+IAM+PAL 96.6% 95.7% 90.4%FSSD+RES152+FEM+IAM+PAL+LargeBS 96.4% 95.7% 91.2%0表5：不同主干网络的有效性。0组件参数 ACC@Top-1 易中难0FSSD+RES101+FEM+IAM+PAL 399M 77.44% 96.3% 95.4% 90.1% FSSD+RES152+FEM+IAM+PAL459M 78.42% 96.6% 95.7% 90.4% FSSD+SE-RES101+FEM+IAM+PAL 418M 78.39% 95.7% 94.7%88.6% FSSD+DPN98+FEM+IAM+PAL 515M 79.22% 96.3% 95.5% 90.4% FSSD+SE-RESNeXt10132×4d+FEML+IAM+PA 416M 80.19% 95.7% 94.8% 88.9%0主干网络 - ResNet 101（%）易中难0DSFD（RFB）96.0 94.5 87.2 DSFD（FPN）/（FPN+RFB）96.2 / 96.295.1 / 95.3 89.7 / 89.9 DSFD（FEM）96.3 95.4 90.10此外，图4显示，我们改进的锚点匹配策略大大增加了接近锚点的真实脸部数量，这可以减少离散锚点尺度和连续脸部尺度之间的矛盾。此外，图5显示了与真实脸部匹配的锚点数量的分布情况，这表明我们改进的锚点匹配可以显著增加匹配的锚点数量，并且不同尺度脸部的平均匹配锚点数量可以从6.4提高到约6.9。0与RFB的比较。我们的FEM与RFB在两个方面有所不同。首先，我们的FEM基于FPN，充分利用了不同空间层级的特征信息，而RFB则忽略了这一点。其次，我们的FEM采用了多分支结构中的堆叠扩张卷积，有效地导致了比RFB更大的感受野（RF），而RFB在每个分支中只使用一个扩张层，例如，FEM中的R3与RFB中的R相比，其中表示一个扩张卷积的RF。表6清楚地证明了我们的FEM在RFB上的优越性，即使RFB配备了FPN。通过以上分析和结果，可以得出一些有希望的结论：1）特征增强至关重要。我们使用更强大和有区分度的特征增强模块来提高特征的表达能力，特别是对于困难的脸部。2）基于渐进的辅助损失50660不连续ROC曲线0不连续ROC曲线0连续ROC曲线0连续ROC曲线0图7：在FDDB数据集上与流行的最先进方法的比较。第一行显示了没有额外注释的ROC结果，第二行显示了有额外注释的ROC结果。0锚点用于训练所有12个不同尺度的检测特征图，它同时提高了对易、中、难脸部的性能。3）我们改进的锚点匹配提供了更好的初始锚点和真实脸部，从而实现了在三个设置上的0.3％，0.1％，0.3％的改进。此外，当我们增加训练批次大小（即LargeBS）时，困难设置的结果可以达到91.2％的AP。0不同主干网络的影响为了更好地理解我们的DSFD，我们进一步进行了实验，以检查不同主干网络对分类和检测性能的影响。具体而言，除了特征提取网络，我们使用相同的设置，实现了SE-ResNet 101，DPN-98，SE-ResNeXt10132×4d，遵循我们DSFD中的ResNet101设置。从表5中可以看出，DSFD使用SE-ResNeXt10132×4d在易、中、难设置上分别达到了95.7%、94.8%、88.9%的性能，这表明更复杂的模型和更高的Top-1ImageNet分类准确率可能不利于人脸检测AP。因此，在我们的DSFD框架中，对分类的更好性能对于检测的更好性能并不是必要的，这与[11,16]中的结论一致。我们的DSFD通过简单地使用第二次检测结果来获得高推理速度。0对于输入到基于Res 50的DSFD的VGA分辨率，推理过程中在NVIDAGPU P40上的运行速度为22 FPS。04.3. 与最先进方法的比较0我们在两个流行的人脸检测基准上评估了提出的DSFD，包括WIDER FACE [ 35 ]和Face Detection Data Set andBenchmark (FDDB) [ 12 ]。我们的模型仅使用WIDERFACE的训练集进行训练，然后在两个基准上进行评估，而无需进行任何进一步的微调。我们还按照[ 31]中使用的类似方式构建图像金字塔进行多尺度测试，并使用类似于[ 4 ]的更强大的骨干网络。WIDERFACE数据集总共包含393,703个带有尺度、姿势和遮挡变化的标注人脸，共32,203张图像。对于60个事件类别中的每一个，数据库的40%、10%、50%的图像被随机选择为训练、验证和测试集。此外，每个子集根据基线检测器的检测率进一步分为三个难度级别:'简单'、'中等'、'困难'。如图6所示，我们的DSFD在三个子集上的平均精度(AP)上表现最佳，即验证集上的96.6%(简单)、95.7% (中等)和90.4%(困难)，以及测试集上的96.0% (简单)、95.3% (中等)和50670尺度0姿势0遮挡0模糊0化妆0光照0模态0反射0图8: 我们的DSFD对尺度、姿势、遮挡、模糊、化妆、光照、模态和反射等各种大变化的示意图。蓝色边界框表示检测器的置信度大于0 . 8 .090 . 0% (困难) 在测试集上.图8显示了更多示例，以展示DSFD处理具有各种变化的人脸的效果，其中蓝色边界框表示检测器的置信度大于0 . 8 .0FDDB数据集包含来自野外数据集的2,845张图像中的5,171个人脸。由于WIDERFACE具有边界框注释，而FDDB中的人脸由椭圆表示，我们学习了一个后期椭圆回归器来转换最终的预测结果。如图7所示，我们的DSFD在不连续和连续ROC曲线上都达到了最先进的性能，即当假阳性数等于1,000时，分别为99.1%和86.2%。在为那些未标记的人脸添加额外注释后[ 39]，我们的模型的假阳性可以进一步减少，并超过所有其他方法。05. 结论0本文介绍了一种名为Dual Shot Face Detector(DSFD)的新型人脸检测器。在这项工作中，我们提出了一种新颖的特征增强模块，利用不同层次的信息，从而获得更具辨别性和鲁棒性的特征。通过使用较小的锚点在早期层引入辅助监督，以有效地促进特征的提取。此外，引入了一种改进的锚点匹配方法，尽可能地匹配锚点和真实人脸，为回归器提供更好的初始化。我们在流行的人脸检测基准FDDB和WIDERFACE上进行了全面的实验，以证明我们提出的DSFD相对于最先进的人脸检测器的优越性，例如SRN和PyramidBox。[3] Yu Chen, Ying Tai, Xiaoming Liu, Chunhua Shen, and JianYang. Fsrnet: End-to-end learning face super-resolution withfacial priors.In Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition, 2018. 1[4] Cheng Chi, Shifeng Zhang, Junliang Xing, Zhen Lei, Stan ZLi, and Xudong Zou. Selective reﬁnement network for highperformance face detection. In Proceedings of Associationfor the Advancement of Artiﬁcial Intelligence (AAAI), 2019.2, 7[5] Jifeng Dai, Yi Li, Kaiming He, and Jian Sun. R-fcn: Objectdetection via region-based fully convolutional networks. InProceedings of Advances in Neural Information ProcessingSystems (NIPS), 2016. 2[6] Jiankang Deng, Jia Guo, and Stefanos Zafeiriou.Arc-face: Additive angular margin loss for deep face recognition.arXiv:1801.07698v1, 2018. 1[7] Ross Girshick. Fast r-cnn. In Proceedings of IEEE Inter-national Conference on Computer Vision (ICCV), 2015. 2,3[8] Ross Girshick, Jeff Donahue, Trevor Darrell, and JitendraMalik. Rich feature hierarchies for accurate object detectionand semantic segmentation. In Proceedings of IEEE Confer-ence on Computer Vision and Pattern Recognition (CVPR),pages 580–587, 2014. 2[9] Bharath Hariharan, Pablo Arbel´aez, Ross Girshick, and Ji-tendra Malik. Hypercolumns for object segmentation andﬁne-grained localization. In Proceedings of IEEE Confer-ence on Computer Vision and Pattern Recognition (CVPR),2015. 2[10] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.Deep residual learning for image recognition. In Proceed-ings of IEEE Conference on Computer Vision and PatternRecognition (CVPR), 2016. 1[11] Jonathan Huang, Vivek Rathod, Chen Sun, Menglong Zhu,Anoop Korattikara, Alireza Fathi, Ian Fischer, Zbigniew Wo-jna, Yang Song, Sergio Guadarrama, and Kevin Murphy.Speed/accuracy trade-offs for modern convolutional objectdetectors. In Proceedings of the IEEE Conference on Com-puter Vision and Pattern Recognition, 2017. 7[12] Vidit Jain and Erik Learned-Miller.Fddb: A benchmarkfor face detection in unconstrained settings.Technicalreport, Technical Report UM-CS-2010-009, University ofMassachusetts, Amherst, 2010. 7[13] Kobi Levi and Yair Weiss. Learning object detection from asmall number of examples: the importance of good features.In Proceedings of IEEE Conference on Computer Vision andPattern Recognition (CVPR), 2004. 2[14] Haoxiang Li, Zhe Lin, Xiaohui Shen, Jonathan Brandt, andGang Hua. A convolutional neural network cascade for facedetection. In Proceedings of IEEE Conference on ComputerVision and Pattern Recognition (CVPR), 2015. 2[15] Jian Li, Jianjun Qian, and Jian Yang. Object detection viafeature fusion based single network. In IEEE InternationalConference on Image Processing, 2017. 2[16] Zeming Li, Chao Peng, Gang Yu, Xiangyu Zhang, YangdongDeng, and Jian Sun. Detnet: A backbone network for objectdetection. In Proceedings of European Conference on Com-puter Vision, 2018. 7[17] Tsung-Yi Lin, Piotr Doll´ar, Ross B Girshick, Kaiming He,Bharath Hariharan, and Serge J Belongie.Feature pyra-mid networks for object detection. In Proceedings of IEEEConference on Computer Vision and Pattern Recognition(CVPR), 2017. 2, 4[18] Tsung-Yi Lin, Priya Goyal, R

下载后可阅读完整内容，剩余1页未读，立即下载