基于分组采样的尺度不变人脸检测

171 浏览量更新于2023-10-17 收藏 1.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3446基于分组采样的尺度不变人脸检测向明1张方云伟2张婷 2陈冬2方文2西安xjtustu.mx @ stu.xjtu.edu.cn{fawe，tinzhan，doch，fangwen}@wwwmicrosoft.com摘要基于深度学习的检测器倾向于在单个输入图像上检测多尺度人脸以提高效率。最近的工作，例如FPN和SSD，通常使用来自具有不同空间分辨率的多个层的特征图来检测不同尺度的对象，例如，小物体的高分辨率特征图。然而，我们发现这种多层预测是不必要的。所有尺度下的人脸都可以很好地用来自网络的单个层的特征来检测。在本文中，我们仔细研究了影响人脸检测的因素在很大范围内的尺度，并得出结论，训练样本的平衡，包括积极的和消极的，在不同的尺度是关键。本文提出了一种分组抽样方法，即根据样本的规模将样本分成若干组，并保证训练过程中每组样本的数量相同。我们的方法只使用FPN的最后一层作为特征，能够推进最先进的技术。综合分析和大量实验表明了该方法的有效性.我们的方法，评估人脸检测基准，包括FDDB和WIDER脸数据集，实现了最先进的结果，没有花里胡哨。1. 介绍人脸检测是许多后续人脸相关应用的关键步骤，例如人脸对齐[5，77，27，28，60] ，脸合成[48，1，2，78，10，24，62]和脸识别，点火[63，7，55，39，56]。在现实世界人脸检测面临的各种因素中，极端尺度变化和小人脸仍然是一个很大的挑战。以前的深度学习检测器在单个特征图上检测多尺度Fast R-CNN [15]和Faster R-CNN [46]。他们提供了一个很好的权衡之间的准确性和速度。然而，这些方法由于锚的大步幅大小而倾向于在小尺度下错过面部（例如，[46]中的16个像素），使小脸变得困难在微软亚洲研究院实习期间完成的工作以匹配适当的锚点，从而在训练期间具有很少的正样本。为了缓解由尺度变化和小对象实例引起的这些问题，已经提出了多种解决方案，包括：1）使用图像金字塔进行训练和推理[22，51]; 2）结合浅层特征和用于预测的深层[17，29，4]; 3）使用自上而下和跳过连接来产生具有精细分辨率的单个高级特征图[47，50，44]; 4）使用具有不同分辨率的多个层来预测不同尺度的对象实例[61，6，38，31，41，35]。所有这些解决方案都显著提高了检测器的性能其中，采用不同分辨率的几个层进行预测是最流行的一种，因为它实现了更好的性能，特别是对于检测小目标。通常认为，多层预测的优势源于多尺度特征表示，其对尺度变化的鲁棒性比来自单个层的特征更然而，我们发现情况并非如此，至少对于人脸检测来说。我们观察到，在多个层上进行预测将为不同尺度产生不同数量的锚点1，这就是金字塔特征优于单层特征而不是金字塔表示的原因，并且在FPN中进行的金字塔特征和单层特征之间的比较中忽略了这个因素[35]。从经验上讲，我们表明，单层预测，如果施加相同数量的锚在FPN [35]，实现几乎相同的精度。受此观察的启发，我们通过广泛的实证分析仔细研究了影响人脸检测性能的因素在不同尺度下采样的锚是不平衡的。为了证明这一点，我们使用两种代表性的检测架构，Faster R-CNN [46]和FPN [35]中的区域建议网络（RPN）作为示例。图1说明了网络架构。我们计算了在训练过程中，锚在每个尺度下接收的训练样本数量，并分别在图2（a）和（b）中报告了RPN和FPN1大小为（w，h）的边界框的尺度定义为WWWh。3447416/1632/1633333333355555555128/3216/416/416/4+GS44第64/16号决议432/84432/44432/4+GS64/16128/1632/816/464/16128/3264/4128/464/4+GS128/4+GS(a) RPN(b) FPN(c) FPN-最佳步幅(d) FPN-最细(e) FPN-最细采样图1：第3节中描述的五种不同探测器的网络架构示意图。与特征图相关联的术语具有相同网络架构的（d）FPN-finest和（e）FPN-finest采样之间的区别在于（e）使用了（d）中提出的组采样。0.80.70.60.50.40.30.20.10.80.70.60.50.40.30.20.10.80.70.60.50.40.30.20.10.80.70.60.50.40.30.20.10.80.70.60.50.40.30.20.1016 32 64128016 32 64128016 32 64128016 32 64128016 32 64 128(a) RPN(b) FPN(c) FPN-最佳步幅(d) FPN-最细(e) FPN-最细采样图2：不同网络架构的WIDER FACE训练集上不同尺度的正锚和负锚的分布。该数量由训练样本的总量归一化。对于RPN，由于不同尺度的锚点步幅另一方面，FPN使用高分辨率的特征图进行小对象预测，这使得小对象的负训练样本比大对象多几倍。这种经过训练的分类器对于小物体的准确性比RPN类检测器更高，这可能是为什么基于FPN的方法在COCO检测基准[37]和WIDER FACE数据库[65]上表现更好的原因，其中小物体占主导地位。我们进一步报告了仅使用FPN最后一层时的训练样本数量，如图2（d）所示。该分布与RPN相似，但绝对值不同。从经验上讲，我们表明，类似于RPN，由于阳性样本不足，仅在FPN的最后一层上进行的预测对于小对象的准确性较低。为了解决这个问题，我们提出了一种简单直接的分组抽样方法。这个想法是在训练过程的每次迭代期间，在每个尺度上随机采样相同数量的正样本以及相同数量的负样本。因此，分类器被馈送以不同尺度的平衡训练样本。图2（e）显示了我们的方法的锚分布，其中分布变得更加平衡。在我们的方法中，只有使用FPN最精细层次上的特征图，并采用组采样，才能达到更好的效果。比FPN在更宽的面上的性能[65]。此外，我们注意到Faster R-CNN [46]的第二阶段也存在数据不平衡问题，因为数据集中对象的规模分布是不平衡的。我们表明，我们提出的方法可以在这里使用均匀采样的功能后，RoI池为不同的尺度，从而进一步提高检测精度。概括而言，我们的主要贡献在于三个方面：(1)我们观察到，在多个层上进行预测时，跨尺度的锚分布而不是多尺度特征表示是关键因素，这挑战了我们对FPN的理解;（2）我们进一步仔细研究了影响检测性能的因素，并确定了现有锚基检测器的关键问题：锚在不同的尺度上是不平衡的;（3）提出了一种简单直接的解决方案，该方案对检测性能有明显的改善。2. 相关工作用于多尺度检测的单尺度特征。现代检测器，如FastR-CNN [15]和Faster R-CNN [46]，通过RoI操作提取尺度不变特征，使用单尺度特征进行多尺度检测它们在精度和速度之间提供了良好的平衡，但在小物体上仍然表现不佳。其中一个原因可能是小物体的正训练样本不足，我们表明，所提出的组采样解决了这个问题，提高了检测精度。PositIve内加特Ive220.76%22.73%220.69%220.6%0.95%百分之一点五二点二4.57%680.52%PositIve内加特Ive170.11%4.百分之二十六2.94%百分之二点五2.11%1.1.49% 07%680.51%PositIve内加特Ive170.1%4.百分之二十八2.99%2.46%2.11%1.1.48% 07%PositIve内加特Ive200.6%200.5%200.48% 20 .43%2.13%3.56%5.41%6.9%PositIve内加特Ive230.18%22百分之七十五220.78%230.37%百分之一点八二2.26%2.22%1.61%3448ResNet-50横向连接的自上而下架构。具有横向连接的自上而下结构自从提出以来就越来越流行，并且已经广泛用于各种计算机视觉任务，例如，用于语义分割的U-Net[47] 和 SharpMask [44] ，用于人脸检测的 MixatorNetwork [20] ，以及用于人体姿态估计的 StackedHourglass Network [42]这种架构的优点在于，可以通过低级别特征图和高级别特征图的组合来在我们的实验中，我们表明，自上而下的架构与横向连接确实是非常有帮助的人脸检测。用于多尺度检测的多尺度特征。近年来的一些研究采用特征金字塔进行目标检测，利用不同层次的特征来处理目标，在不同的尺度下，例如，[38]，MS-CNN [6]和FPN[35]。FPN还利用横向连接的自顶向下架构来实现强大的特征表示。这种多尺度特征表示也广泛用于面部检测以提高准确性，例如，SSH [41]和S3 FD [75]。然而，我们表明，改进来自锚分布向小对象，而不是多层次的特征表示。数据不平衡。从类不平衡数据中学习，其中训练数据在不同对象类中的分布是显著偏斜的，这是一个长期存在的问题.在机器学习中解决类不平衡问题的一种常见方法是对训练数据进行重新采样[8，16，18，68，3]，例如，对多数类的实例进行欠采样[40]，或者对具有生成和判别模型的少数类的实例进行过采样[21，79，12]。另一种常见的方法是成本敏感学习，它通过惩罚少数类的错误分类比多数类的错误分类更严重来重新制定现有的学习算法[54，76]。对于检测来说，尺度分布不均衡也可以看作是一类类别不均衡问题。以前使用硬示例挖掘[49]或精心设计的损失函数[36]的工作在某种程度上隐含了这个问题例如，S3 FD [75]观察到正训练样本对于小对象是不够在这项工作中，我们指出，规模不平衡分布不仅是积极的样本，而且也是消极的样本是一个关键问题，并提出了一个简单的组抽样方法来显式地处理它，从而导致更好的检测精度。3. 动机：规模不平衡分布在本节中，我们深入分析了可能影响检测精度的两个因素：多尺度fea-联系我们��联系我们��联系我们��联系我们��+×+联系我们×��图3：我们实验中使用的网络架构图，×2是双线性上采样，是元素求和。真实代表性和规模不均衡分布。我们使用ResNet-50[19]结合自顶向下和跳过连接。图3简要说明了网络结构。来自conv2、conv3、conv4和conv5的最后一个残差块的输出特征分别表示为C2、C3、C4、C5。自下而上的特征图首先经历1×1卷积层以减小通道尺寸。然后与上采样要素通过元素加法映射。该过程重复三次。我们将最终的输出特征图表示为{P2，P3，P4，P5}，并且Pi具有与Ci相同的空间大小。锚点比例为{16，32，64，128}，纵横比设置为1。基于这种网络架构，我们比较了五种类型的检测器：1. RPN：特征图C4用作检测层，其中所有锚点都以步幅16像素平铺2. FPN：{P2，P3，P4，P5}被用作检测层，其中锚尺度{16，32，64，128}分别对应于特征步幅{4，8，16，32}像素3. FPN-最佳步幅：所有锚点都平铺在特征金字塔的最细层上，即，P2. 对于具有比例的锚点，步幅为{4，8，16，32}像素{16，32，64，128}分别。这被实现通过对P2进行二次采样来获得更大的步幅。4. FPN-finest：所有锚点也平铺在P2上。每个锚点的步幅为4个像素。5. FPN-最精细采样：这采用了与FPN-finest相同的设置。此外，我们使用所提出的分组抽样方法来平衡不同尺度的训练样本。为了确保公平的比较，所有检测器都使用相同的设置来对具有挑战性的WIDER FACE数据集进行训练和推理[65]。在WIDER FACE验证数据集上评价结果。我们有以下观察。3449i=1j=1使用多个图层功能几乎没有帮助。FPN和FPN-finest-stride的唯一区别在于用于检测的特征是来自单层还是来自多层。FPN的平均精度（AP）为90。9%，91.3%，87. 6%，分别为容易，中等和困难的子集。相比之下，FPN-finest-stride的结果为90。4%，91。0%，87.百分之一。实验结果表明，利用单层特征进行人脸检测是规模不平衡分布很重要。我们进一步-4.1. 锚点匹配策略当前的锚点匹配策略通常遵循两遍策略，该策略已广泛用于检测工作[46，38]。在第一遍中，每个锚点与所有地面实况框匹配，并且如果其最高IoU高于/低于预定义阈值，则为其分配正/负标签然而，在这一步中，一些地面实况框可能第二步是进一步将那些不匹配的地面实况框与锚点关联起来。我们亦采纳该政策，详情载于下文。使用FPN-finest设置步幅，形式上，锚的集合表示为{pi}n得双曲余切值.对于所有不同的锚点为4像素。我们观察到1）FPN-finest在easy和medium上获得更好的性能i是锚的索引，n是锚的编号。所有音阶的合唱。同样，地面实况框是子集，因为更多的训练样本，表示为{gj}m，其中j是地面的指数-选择锚而不是FPN-最好-步幅，以及2）丢失1.1 硬子集上的%AP，即使FPN-最细的具有相同数量的锚点用于标度16。为了找出背后的原因，我们在图2中绘制了所有比较检测器在不同尺度下训练阳性样本和阴性样本的比例，并在表1中显示了AP结果。m是地面实况框的数量。在匹配步骤之前，首先构造匹配矩阵M∈Rn× m，其表示锚点与地面实况框之间的IoU，即， M（i，j）=Io U（pi，gj）.在第一遍中，每个锚点pi与所有锚点pi匹配地面实况框找到最高的IoU，表示为首先，FPN和FPN-finest-stride的性能是C（i）=max1≤j≤mM（i，j）。因此pi被赋予一个标签几乎相同，它们的锚分布在不同的规模也类似，如图2（b）和（c）所示，表明类似的分布，当总人数根据以下等式：λ1≤C（i）锚是相同的，产生类似的性能。其次，如图2（c）和（d）所示，对于FPN-最细步长和FPN-最细步长，L（i）=λ2≤C（i）λ10，C（i）<λ2（一）而FPN-finest是不平衡的，完全不同。看起来FPN-finest-stride具有更多的小负锚，并且在硬集上实现更高的准确性，而FPN-finest具有更多的大正锚，并且在易集上实现更高的准确性。这导致我们假设尺度不平衡分布是影响检测精度的关键因素如图2（a）所示，RPN也具有更大的位置，positive锚定，得到2。与FPN-finest-stride相比，容易子集高0%，未来支持我们的假设。基于上述观察结果，我们提出了一种分组抽样方法来处理规模不平衡分布。图2（e）示出了在训练期间使用所提出的分组采样方法的FPN-最精细采样的锚分布更平衡，并且因此，FPN-最精细采样实现了最佳性能。4. 整群抽样方法对于基于锚点的人脸检测，有一个重要的步骤是将地面实况框与锚点匹配，并根据其IoU比率为这些锚点分配标签。因此，分类器是基于这些作为正负号锚来优化的。在本节中，我们首先介绍我们采用的锚点匹配策略，然后介绍建议的组抽样方法。其中λ1和λ2是两个预设阈值，标签1表示正样本，0表示负样本，−1表示在训练期间将忽略pi很可能一些地面实况边界框是在第一遍中不与任何锚点匹配，尤其是对于小物体。因此，第二遍通常旨在充分利用所有地面实况框来增加阳性训练样本的数量具体来说，对于每个不匹配的地面实况框，比如说gj，我们将it与锚点pi满足三个条件：1）该锚不匹配于n y个其他地面实况框;2）Io U（pi，gj）≥λ2; 3）j=argmax IoU（pi，gu）。1≤u ≤m4.2. 群抽样在每个锚点都与一个标签相关联后，我们发现训练样本中存在两种不平衡。• 阳性和阴性样本不平衡：图像中的负样本的数量很多由于目标检测任务的性质，大于阳性样本的数量。• 不同尺度下的样本不平衡：由于基于IoU的匹配策略，小34502以前的方法通常注意到第一点，并且通常通过硬反例挖掘来处理它，例如，当对训练样本进行采样时，正和负采样比率被设置为1：3。但他们都忽略了第二点。针对这两个问题，本文提出了一种基于尺度感知的分组抽样策略。我们首先根据锚标度将所有训练样本分成几组每组中的所有锚点具有相同的标度。然后对每组随机抽取相同数量的训练样本，并保证每组中正负样本的比例如果一组中的阳性样本不足，我们将增加该组中的阴性样本数量，以确保每组的样本总数5. 训练过程在本节中，我们将介绍训练数据集，损失函数和其他实现细节。请注意，我们提出了一个新的基于IoU的回归损失函数，以获得比Smooth-L1损失更好的性能。训练数据集。与以前的工作一样[38，75]，我们在包含12，880张图像的WIDER FACE训练集上训练我们的模型，并在WIDER FACE验证和测试集以及FDDB数据集上进行测试损失函数我们使用softmax loss进行分类。对于回归，我们提出了一种新的基于IoU的损失，表示为IoU最小二乘损失，是相同的形式上，设Ps和Ns表示具有尺度s的随机采样的正锚点和负锚点的集合，即Ps<${pi|L（i）=1，S（i）=s}且Ns∈{pi|L（i）=Lreg=1NregΣ（pi，gj）1−IoU（pi，gj）0，S（i）=s}。因此，我们提出的方法是首先保证，|Ps|+的|Ns|其中N是常数，然后确保3| Ps|为|Ns|对于刻度S。因此，对于所有每个分类器都有足够的和平衡的用于训练的阳性和阴性样本。快速R-CNN 已知在获得候选区域之后，使用感兴趣区域（Region-of-Interest，RoI）操作为每个提议提取特征，然后将这些特征馈送到另一个网络中，以进一步提高检测精度。然而，直接应用Fast R-CNN会带来一点性能提升（约1%）。考虑到引入的巨大计算成本，这种做法是相当不划算的。有趣的是，我们注意到Fast R-CNN的训练样本的规模分布也是不平衡的，其中可以再次使用所提出的分组采样方法。因此，我们在这里使用分组抽样，以确保每个组中的训练样本数量相同，并且阳性和阴性样本的比例我们表明，这可以有效地提高Fast R-CNN的准确性我们将具有组采样的快速R-CNN表示为分组快速R-CNN。与 OHEM 和病灶丢失的关系。在线硬样本挖掘（OHEM）[38]是为了保留训练损失最高的前K个样本Focal Loss [36]建议给每个样本一个特定的权重。两者似乎都类似于成本敏感学习，通常用于通过更严重地惩罚少数类的错误分类来解决数据不平衡问题。然而，OHEM和焦点损失中每个样本的权重是以硬/软方式相对于样本的损失设置的，这可以被视为处理数据不平衡的隐式和动态方式。另一方面，我们的方法能够-其中（pi，gj）是锚点pi和地面实况gj 的匹配对。与平滑L1损失相比，函数直接优化IoU比率，该比率与评估指标一致。另一个基于IoU的损失函数为−ln（IoU），在[69]中提出。很明显，当IoU等于1时，这是理想情况，以前的IoU损失将获得非零梯度，而我们的IoU最小二乘损失得到零梯度，允许网络稳定收敛经验上，我们表明，建议的IoU损失实现更好的性能。优化续费所有模型是使用torchvision2提供的ResNet-50的预训练权重进行初始化，并在WIDERFACE训练集上进行微调。对于8个NVIDIA Tesla M40GPU服务器，每个训练迭代包含每个GPU的一个图像我们将初始学习率设置为0。01，学习率降低0。第60、80代各1例。所有的模型都训练了100同步SGD的时间段动量和权重衰减设置为0。9和5×10-5。我们的代码基于PyTorch [43]。在训练过程中，我们使用尺度抖动和随机水平翻转来增强数据。对于缩放抖动，每个图像的大小将调整为0。25×n，n是从[1，8]。然后我们从调整过的即时消息年龄，以确保图像的每一面不超过1，200像素，由于GPU内存限制。我们设定λ1=0。λ2=0。4、针对双通道锚点匹配策略。在推理阶段，我们建立了多尺度测试的图像金字塔。来自图像金字塔的每个级别的建议将通过非最大抑制（NMS）合并由于GPU内存的限制，测试图像的每一面都不会超过3,000像素。灵活处理不同规模的数据不平衡，实现更好的性能，如表4所示。2https://github.com/pytorch/vision3451表1：WIDER FACE验证集上人脸检测的平均精度（AP）。GS代表拟议的分组抽样方法。@16表示当仅使用来自尺度16的子检测器的输出进行检测时所有数据上的AP。所以剂量@32，@64和@128。方法特征锚步GS容易介质硬所有16岁@32@64@128RPNC41692.591.083.074.048.665.143.821.5FPN-最细P2494.193.086.680.265.666.843.922.4FPN{P2，P 3，P4，P 5}{4，8，16，32}90.991.387.682.172.367.343.221.2FPN-最佳步幅P2{4，8，16，32}90.491.087.181.672.266.643.321.8FPN-最细采样P24C94.793.888.782.874.172.947.824.56. 实验在本节中，我们首先检查影响检测精度的因素，然后进行广泛的消融实验，以证明我们的方法的有效性。最后，我们介绍了我们使用单层预测的方法在WIDER FACE [65]和FDDB [25]数据集上的先进技术。6.1. 影响检测精度的我们进一步对第3节中介绍的五种检测器：RPN，FPN ， FPN-finest ， FPN-finest-stride 和 FPN- finest-sampling进行了深入的分析。它们之间有两个区别：1）锚点平铺在其上的特征图; 2）不同锚点的步幅。锚点的步幅表示锚点的数量，步幅越小，锚点越多。通常，特征图的大小将具有相对于原始图像的对应锚步幅。对于FPN-最精细的步幅，我们在特征图P2上以{1，2，4，8}的步幅平铺尺度为{16，32，64，128}的锚，相当于原始图像上的{4，8，16，32}的步幅采用平均精度（AP）作为评价指标。以前的方法通常报告AP的容易，中等和困难的子集进行评估。然而，这些结果不能反映子探测器处理特定尺度范围内目标的能力。这是-导致大的面（例如，128×128像素），由于多尺度测试，通常由具有尺度128的锚点检测到的像素，有可能由具有尺度16的锚点实际检测到因此，为了清楚地显示每个子系统的能力检测器，我们还报告了我们模型中的4个子检测器在“All”子集上的性能性能比较如表1所示。我们有以下观察：不同规模的不平衡训练数据会导致少数（多数）人的准确性更差（更好）。FPN-finest和FPN-finest-stride之间的唯一区别是anchor stride，即，不同尺度的锚的数量是不同的。对于尺度16，其步幅在两个模型中是相同的。因此，标尺16处的锚的数量也相同。然而，对于@16以上的性能，情况并非如此。FPN-最好的-tride达到72。3%、6. 7%高于在FPN最好的。这是因为在FPN-finest中，尺度16处的正样本数量少于其他尺度处的正样本数量，导致精度较低相反，在FPN-finest-stride中，尺度16处的正样本和负样本的数量大于其他尺度，从而导致更高的准确度。相似的锚点分布，相似的性能。正如我们所看到的，FPN和FPN-finest-stride的结果非常接近。这两种模型之间的唯一区别是用于检测的特征来自多个层或单个层。这表明使用多层次特征表示对提高检测精度帮助不大因此，我们提出一个问题：相似的锚点分布是否会导致相似的性能？考虑RPN和FPN-finest之间的另一个比较，其样本分布相似：两者都有较大的正样本，与FPN（或FPN-finest-stride）相比，这两个模型具有相同的倾向，即在@16时获得较低的准确度，在@128时获得较高的准确度，这表明相似的锚分布导致相似的性能。数据平衡取得了较好的效果。上述四种探测器都存在锚点分布不平衡的问题。比较FPN-最细和FPN-最细采样，FPN-最细采样采用所提出的FPN-最细分组抽样方法我们可以看到，使用更均匀分布的训练数据可以显着改善结果，从80。2%至82。8%，整个数据集。6.2. 消融实验特征图的效果。我们首先比较检测准确性和不使用组采样时，使用不同的特征图。表2显示了检测性能当使用{P2，P3，P4，P5}、P2和其他特征图时。我们有以下观察：1）使用自上而下和横向连接来提供更多的语义信息总是有帮助的，在所有这些设置下，Pn的性能优于Cn;2）使用高分辨率的特征图产生更多的小训练样本，有助于检测小人脸; 3）无论特征图如何，使用分组抽样总是可以改善结果。为了简单起见，我们在最终模型中使用P2345220.900.880.860.840.820.800.780.76估计抽样FPN鳍estFPN-finFPN512 1024 2048 40968192N0.8000.7750.7500.7250.7000.6750.6500.6250.600FPN-最细FPNFPN-最细采样5121024204840968192N0.8000.7750.7500.7250.7000.6750.6500.6250.600FPN-最细FPNFPN-最细采样5121024204840968192N0.540.520.500.480.460.440.420.40FPN-最细估计抽样FPNFPN鳍512 1024 2048 40968192N0.300.280.260.240.220.20FPN-最细FPNFPN-最细采样512 1024 2048 40968192N(a) 所有（b）@16（c）@32（d）@64（e）@128图4：说明训练样本数量N的影响。我们的方法（FPN-finest-sampling）在N增加时获得更好的性能，受益于更多的训练示例。FPN和FPN-finest的性能随着N变大而下降，遭受更多的不平衡数据。表2：使用不同特征图进行分组采样/不分组采样的模型比较。特征GS16岁@32@64@128所有{P2，P 3，P 4，P 5}72.367.343.221.282.1C75.773.448.224.983.6P265.666.843.922.480.3C74.172.947.824.582.8P362.566.444.222.479.6C72.173.248.725.383.7P447.965.644.222.174.4C57.871.048.425.279.6C359.861.839.218.071.0C68.868.944.321.275.4C448.665.143.821.574.0C58.070.848.224.678.9训练样本数N. 如第4.2节所述，我们在训练过程中为每个量表随机选择N个训练样本。不同N下的性能如图4所示。由此可以看出：1)当N大于2048时，精度趋于饱和此外，我们还绘制了不同N值下FPN和FPN-finest的结果。我们可以看到，当N增加时，两个模型的性能都会下降，因为训练样本的分布变得更加不平衡。拟议损失的影响。我们提出了一种新的基于IoU的回归损失，即最小二乘IoU损失，使网络稳定收敛。在这里，我们比较了不同的损失函数，包括Smooth-L1、−ln（IoU）和2011-02-01 我们使用的检测器是FPN-最好的采样。比较结果示于表3中。我们可以看到这两个基于IoU的损失函数的性能优于Smooth-L1，因为它们直接优化了评估指标。与−ln（IoU）相比，我们提出的最小二乘IoU损失实现了更好的性能。与OHEM和Focal Loss比较。在这里，我们用两种方法来比较我们的方法：OHEM [49]和Fo- cal loss [36]，都采用硬示例挖掘，可以视为处理数据不平衡的一种方式。表3：回归任务的不同损失函数的比较。所提出的损失函数性能更好。损失16岁@32@64@128所有平滑-L174.172.947.824.582.8-ln（IoU）74.673.148.025.183.51 −275.073.248.224.983.7表4：所提出的组采样、OHEM和焦点损失的性能比较，表明我们的方法实现了更好的性能。方法16岁@32@64@128所有FPN-最细（基线）65.666.843.922.480.2欧姆76.068.943.922.081.5焦点损失75.868.544.221.581.2群抽样74.172.947.824.582.8OHEM在训练过程中动态选择所有样本中损失最高的B我们用不同的B值进行实验，发现使用相对较小的B对 OHM 工作很重要。因此，我们在实验中设置B=1024。对于焦点损失，我们采用[ 36 ]中相同的设置，其中α=0。25且γ=2。性能比较如表4所示。两OHEM和Focal Loss可以有效地提高小人脸检测的性能。以子探测器@16为例，OHEM和Focal Loss达到76。0%和75. 8%，比基线模型高出约10%。然而，对于大尺度，子检测器的性能例如，子检测器@128的性能比基线差。相比之下，我们的方法得到了改善，所有的子检测器与基线一致，通过简单地使用所提出的组采样方法，也实现了更好的性能相比，OHEM和焦点损失的整个数据集。6.3. 分组快速R CNN我们表明，所提出的组采样方法可以应用于Fast R-CNN，以进一步提高检测精度。我们使用FPN-最好的采样作为基线模型。AP从82增加。8%至83。9%通过345310.90.80.70.60.50.40.30.20.110.90.80.70.60.50.40.30.20.110.90.80.70.60.50.40.30.20.100 0.10.20.30.40.50.60.70.80.91召回(a) 容易000.10.20.30.40.50.60.70.80.91召回(b) 介质000.10.20.30.40.50.60.70.80.91召回(c) 硬图5：在WIDER FACE验证集上，与最先进的精确度-召回率曲线进行性能比较表5：在Fast R-CNN中使用分组采样方法的结果，表明所提出的方法在Fast R-CNN中也是方法容易介质硬所有FPN-最细采样95.194.188.882.7+快速R-CNN+IoU损失+ 群抽样96.296.496.295.195.395.589.790.391.183.984.685.71.000.950.900.850.800.750.700.650.600 50 100 150 200假阳性图6：与FDDB数据集上最先进技术的性能比较通过将最大误报数设置为200来计算这些值。直接使用Fast R-CNN，如表5所示。在使用如等式2中所描述的所提出的最小二乘IoU损失之后，我们可以将用于容易、中等和困难子集的AP增加0。2%，0. 2%和0。6%。其次，我们进一步采用整群抽样的方法，对易、中、难三个子集的AP分别为96。百分之三九十五6%，91。2%，这推进了WIDER FACE验证集的最新技术水平。值得注意的是，使用组抽样得到0。在硬集上提高了9%，这是非常重要的，因为使用最小二乘IoU损失后的准确度已经达到90。百分之三。表5最后一行显示的模型是我们的最终模型，用于与其他方法进行比较。7. 与最新技术水平比较我们在两个基准数据集上比较了我们的方法：WIDER FACE和FDDB数据集与其他面部检测方法[53，11，71，58，32，59，75，52，23，73，74，67，70，72、64、66、34、9、45、26、13、14、30、33、57]。WIDER FACE数据集 WIDER FACE [65]在32，203张图像中有393，703张面孔。人脸在尺度、姿态和遮挡方面具有高度的可变性。所有面被分成三个子集，即，根据检测的难度分为容易、中等和我们的模型基于组抽样，只在训练集上训练，并在验证集上测试。图5显示了精确度-召回率曲线和AP值的比较结果。可以看出，我们的方法在三个子集上分别达到了96.2%、95.7%和91.1%，并且在Hard子集上远远优于所有其他方法。FDDB数据集上的结果。 FDDB [25]在2，845张图像中有5，171张面孔。FDDB采用包围椭圆进行计算，而我们的方法只输出矩形包围盒.因此，我们采用S3FD[75]提供的回归量从矩形输出生成边界椭圆。不连续评分下的性能比较如图6所示。我们可以看到，我们的方法在ROC曲线方面达到了最好的性能。8. 结论在本文中，我们研究了影响检测精度的因素，并确定规模的不平衡分布是关键因素。基于这一观察，我们提出了一种简单的分组抽样方法来处理不同尺度上的样本不平衡。我们表明，所提出的方法是有效的，在现有的框架，例如，更快的R-CNN和FPN，实现更好的性能，而无需额外的计算成本。在WIDER FACE和FDDB等具有挑战性的基准测试中，我们的方法达到了最先进的性能。在未来的工作中，我们倾向于验证组采样在一般目标检测中的有效性。DSFD-0.966SRN-0.964Ours-0.962PyramidBox-0.961FDNet-0.959FANet-0.956FAN-0.952Zhu等人- 0.949面R-FCN-0.947SFD-0.937面部R-CNN-0.937SSH-0.931HR-0.925MSCNN-0.916CMS-RCNN-0.899ScaleFace-0.868多任务级联CNN-0.848LDCF+-0.790Faceness-WIDER-0.713多尺度级联CNN-0.691二级CNN-0.681ACF-WIDER-0.659DSFD-0.957Ours-0.955SRN-0.952PyramidBox-0.95FANet-0.947FDNet-0.945FAN-0.940面R-FCN-0.935Zhu等人-0.933SFD-0.925面部R-CNN-0.921SSH-0.921HR-0.910MSCNN-0.903CMS-RCNN-0.874ScaleFace-0.867多任务级联CNN-0.825LDCF+-0.769多尺度级联CNN-0.664Faceness-WIDER-0.634二级CNN-0.618ACF-WIDER-0.541Ours-0.911DSFD-0.904SRN-0.901FAN-0.900FANet-0.895PyramidBox-0.889FDNet-0.879面R-FCN-0.874Zhu等人-0.861SFD-0.859SSH-0.845面部R-CNN-0.831HR-0.806MSCNN-0.802ScaleFace-0.772CMS-RCNN-0.624多任务级联CNN-0.598LDCF+-0.522多尺度级联CNN-0.424Faceness-WIDER-0.345二级CNN-0.323ACF-WIDER-0.273我们的（0.966）*SFD（0.960）PyramidBox（0.952）小米公司（0.952）DeepIR（0.952）DSFD（0.951）RSA（0.951）FANet（0.946）比例面（0.945）FaceRFCN（0.938）ICCCNN（0.938）ICCCNN（0.938）FaceBox（0.933）UnitBox（0.931）价格（0.915）FDCNN（0.906）FastCNN（0.894）真阳性率精度精度精度3454引用[1] J. Bao，D. Chen，F.温氏H. Li和G.华Cvae-gan：通过非对称训练生成细粒度图像。CoRR，abs/1703.10155，5，2017。1[2] J. Bao，D. Chen，F.温氏H. Li和G.华开集保同一性人脸合成.在IEEE计算机视觉和模式识别会议集，第6713-6722页，2018年。1[3] G. E.巴蒂斯塔河C. Prati和M. C.莫纳德对平衡机器学习训练数据的几种方法的行为ACM SIGKDD explorationsnewsletter，6（1）：20-29，20

下载后可阅读完整内容，剩余1页未读，立即下载