浮动区域人脸检测算法

16 浏览量更新于2023-10-19 收藏 3.46MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7723FA-RPN：浮动区域人脸检测算法MahyarNajibi巴拉特辛格拉里S。戴维斯{najibi，bharat，lsd}@ cs.umd.edu摘要我们提出了一种新的方法来产生区域pro-turbine进行人脸检测。而不是分类锚框使用卷积特征图中的像素的特征，我们采用基于池的方法来生成区域建议。然而，汇集数十万个锚点，这些锚点被评估用于生成建议，这成为推理期间的计算瓶颈。为此，提出了一种有效的锚放置然后，我们表明，我们的网络（浮动锚定区域建议网络，FA-RPN）生成的建议是优于RPN生成区域建议的脸检测。我们讨论了FA-RPN支持的几个有益功能（无需重新训练即可启用），如迭代细化、分数锚的放置和锚的大小/形状的改变。我们基于FA-RPN的人脸检测器在WIDER数据集上获得了89.4%的mAP，具有ResNet-50骨干1. 介绍人脸检测是一个重要的计算机视觉问题，在监控、跟踪、面向消费者的设备（如iPhone等）中有着广泛的应用。因此，已经提出了各种方法来解决它[41，43，17，45，19，36，44，29，25]，并且在实践中也部署了成功的解决方案。因此，人们对人脸检测算法的期望要高得多，而且今天的错误率相当低。算法需要检测大小为5像素至500像素的人脸。由于定位对于检测是必不可少的，因此评估图像的每个小区域是重要的。人脸检测数据集可以在单个图像中包含多达一千张人脸，这在通用对象检测中并不像Faster-RCNN [30]这样的检测器采用了一种区域轮廓网络（RPN），该网络将不同大小和宽高比的锚框均匀地放置在图像上，并对其进行分类以生成类似对象的区域。但是，RPN仅在卷积特征中使用单个像素*同等贡献图1：RPN和FA-RPN在重量配置方面的差异为简单起见，我们显示FA-RPN的2x2合并。用于评估提案假设的地图，与对象的大小无关。因此，RPN中的特征表示完全依赖于在像素处生成的高维特征表示中它不池功能从一个对象的整个范围内，而产生的功能representation-灰，见图。1.一、因此，它可能会错过对象区域或生成没有很好定位的建议。此外，不可能将锚箱的位置作为提案网络的一部分来重新定义和细化如果要学习不同尺度/长宽比的对象，使用基于池的算法生成建议可以轻松缓解此类问题主要有两种基于池的方法用于图像中ROI的最终分类-Fast-RCNN[13]和R-FCN [10]。Fast-RCNN将区域建议投影到卷积特征映射中，并将感兴趣区域（RoI）内的特征汇集到固定大小的网格（通常为7×7）中，并应用两个完全连接的层来执行分类和回归。由于com-由于假设的限制，这种方法实际上不适用于提案生成，因为需要将其应用于数十万个地区-这是7724区域候选者通常由区域提议算法评估为了减少对全连接层的依赖，R-FCN在RoI内执行局部卷积（7×7），以捕获每个对象的空间范围。由于这些本地过滤器中的每一个都可以应用于前一个特征图，因此我们只需要从适当的对应于每个局部滤波器的区域。这使得它成为基于池的建议方法的良好候选者，因为它可以有效地将其应用于大量的ROI。然而，在高分辨率图像中，像RPN这样的建议算法在推理过程中会评估数十万个锚点在那么多区域上执行池化在计算上是不可行的。幸运的是，许多锚是不必要的（例如，彼此非常接近的大锚）。在本文中，我们表明，仔细的锚点放置策略可以减少建议的数量显着的点，基于池的算法成为可行的建议生成。这产生了一种高效且有效的物体检测器，其不会受到RPN设计中存在的上述问题的影响基于位置敏感滤波器的R-FCN的基于池化的建议方法特别适合于人脸检测。当物体变形并且不同部分之间的位置对应经常丢失时，面是刚性的，结构化的，并且部分具有位置语义对应（例如，鼻子、眼睛、嘴唇）。此外，可以放置不同大小和纵横比的锚框，而无需添加更多的过滤器。我们还可以放置分数锚盒并执行双线性插值，同时池化特征以计算对象性。我们可以通过从生成的ROI中再次迭代池化来进一步提高提案的本地化性能，并且所有这些设计更改都可以在推理期间进行由于这些原因，我们将我们的提案网络称为浮动锚区域提案网络（FA-RPN）。我们在图中强调了这些优势。图1和图2。在WIDER数据集[42]上，我们表明FA-RPN建议优于RPN建议。FA-RPN还在WIDER和PascalFaces上获得了最先进的结果，证明了其对人脸检测的有效性。2. 相关工作生成类不可知区域建议已经在计算机视觉中研究了十多最初的方法包括多尺度组合分组[2]，约束参数最小切割[38]，选择性搜索[7]等。这些方法生成区域建议，获得高召回的对象在一个类别不可知的方式。它们在前深度学习时代也非常成功，即使使用词袋模型也获得了最先进的性能[38]。使用基于选择性搜索的区域建议[38]，R-CNN [14]是第一个深度学习基于探测器无监督区域建议也用于后来的检测器，如Fast-RCNN [13]，但由于Faster-RCNN检测器[30]使用卷积神经网络生成区域建议，因此它已成为生成区域建议的事实为了改进RPN，提出了几种修改方案。最先进的探测器也可以在一个步骤中检测物体像SSH [25]，SSD[22]，RetinaNet [21]，MS-CNN [5]这样的检测器生成多尺度特征图来分类和回归放置在这些特征图上的锚点。这些单次检测器与区域建议网络密切相关，因为它们具有特定的过滤器来检测不同大小和纵横比的对象，而且还组合了来自深度神经网络的多个层的特征图。在应用由网络生成的初始偏移之后，不执行进一步的细化。另一类检测器是迭代的，如G-CNN [24]，Cascade-RCNN [6]，LocNet [12]，FPN [20]，RFCN-3000 [34]，Faster-RCNN [30].这些检测器在多个阶段中细化预定义的锚盒集合，并且具有更多层以进一步改进回归锚的分类和定位应该注意的是，即使在这些网络中，第一阶段也包括区域建议网络，其消除了背景区域的主要块。FA-RPN更接近这条工作线，但相比之下，它支持在推理过程中对区域建议进行我们简要回顾了最近的一些工作，人脸检测。随着WIDER等大规模数据集的可用性[42]在高分辨率图像中包含许多小人脸，已经提出了多种用于人脸检测的新技术[41，43，17，45，19，36，44，29，3]。很多焦点都集中在规模上，结合不同层的特征[17，25，44，43，8，18]并改进区域建议网络的配置[44，43]。例如，在寻找微小的面孔[17]时，建议对图像金字塔进行检测，并对不同大小的对象使用不同的尺度滤波器SSH [25]和S3FD [43]有效地利用了网络的中间层。PyramidBox [37]通过更深和更宽的子网络取代SSH中的上下文模块，以更好地捕获用于人脸检测的上下文信息。最近，甚至GAN [15]也被用来提高微小面部的性能[3]。在人脸检测中，锚点的选择及其在图像上的位置非常重要[44，43]。例如，使用额外的跨步锚钉被证明是有益的[44]。场景的几何约束也被用于修剪区域建议[1]。其中一些变化需要重新培训RPN。在我们的框架中，设计决策，如评估不同的锚标度，改变锚的步幅，并添加分数锚可以简单地在推理过程中，因为我们共享过滤器的所有对象大小，只有池是为他们执行。此外，基于池化的设计还提供了精确的空间7725图2：我们强调了RPN（a）和FA-RPN（b）提案之间的主要差异。 RPN对高维特征图中的单个像素进行分类，并使用不同的权重对不同大小/长宽比的锚盒进行分类。另一方面，FA-RPN建议将图像中多个bin的特征池化，并在不同大小和长宽比的对象之间共享权重。功能.3. 背景在本节中，我们将简要介绍R-FCN检测器。该检测器使用RPN生成区域轮廓。它使用R-FCN检测器对排名前2000的提案进行分类。对所有前景类和背景类执行分类。R-FCN中的关键它在ROI的不同子区域中应用不同的滤波器来推断对象的空间范围。这些子区域可以对应于对象的部分。为了在数千个ROI上加速此过程，在最后一层中执行每个对象类中每个部分的卷积。例如，如果有21个类，最后一个特征图将包含21× 49通道。然后，给定RoI，在该特征图上执行位置敏感RoIPooling以获得局部卷积的影响[10]。我们建议读者参考R-FCN [10]论文，以了解有关PSRoIPooling的更多细节。最后，将响应平均合并并用作对象的分类得分。在Deformable-RFCN [11]中，执行合并的每个bin的区域也基于输入特征图进行调整，这被称为可变形PSRoIPooling。4. FA-RPN -浮动锚区建议网络在本节中，我们将讨论FA-RPN的训练，它对放置在图像上的锚点执行迭代分类和回归，以生成准确的区域建议。我们的方法的概述如图所示。3 .第三章。4.1. 锚钉放置在这种架构中，锚点的分类不是使用单个高维特征向量来执行的，而是通过汇集ROI内的功能。因此，在训练和推理过程中如何放置锚点只要卷积滤波器可以学习客观性，我们就可以将模型应用于不同大小和纵横比的ROI，即使网络没有针对这些特定的尺度和纵横比进行训练。FA-RPN将不同比例和长宽比的锚点放置在网格上，如在区域建议网络中生成的，并剪切延伸到图像之外的锚点。在放置锚点时，我们会随着锚点大小的增加而改变空间步幅。由于较大尺度下的邻近锚点具有非常高的重叠，因此不需要包括它们我们将锚框的步幅改为max（c，s/d），其中s是锚框面积的平方根，c是常数，d是缩放因子，如图3所示。实际上，我们将c设为16，d设为5。这确保了没有太多重叠的锚框被放置在图像上，同时确保相邻锚之间的显著重叠以覆盖所有对象。3个宽高比和5个尺度的锚框的朴素放置，步幅等于16个像素，一幅800× 1280的图像在执行推理时会导致2-3倍的减速利用所提出的放置方法，对于上述锚点配置的1280 × 1280图像，我们将每个图像的ROI数量从400，000减少到100，000当我们增加图像大小时，卷积的计算也成比例地增加，因此，只要池化所需的时间与卷积相比不显著，我们就不会观察到性能上的显著差异。锚的步幅应该与卷积特征图的步幅相同，这是没有限制的。我们甚至可以在卷积特征图中的两个像素之间放置ROI，而无需对网络进行任何架构这使我们能够在训练期间将地面实况边界框作为正ROI进行增强。这与RPN不同，其中最大重叠锚点为锚钉分类细化(b)FA-RPNPS-ROI池化Res1-521锚钉分类细化(a)RPNRes1-5锚1锚17726Res1-520481024FC1024FCP2x44成品PS/d全球平均Bbox回归Conv1x1PSROI池化S初始锚P化PSROI池化锚钉放置X1GlobalAvgScoreP2x22Conv1x1256ROIP池化256最终提案最终FCs分类转换1图3：FA-RPN框架。FA-RPN使用多尺度训练。在每次训练迭代中，随机选择图像尺度，并将合适的锚定尺度放置在图像上这组初始锚点用于汇集来自位置敏感过滤器的对象性得分为了改善定位，得分最高的初始锚点通过随后的池化进一步细化。初始锚点（[A0]）的细化过程如图所示。这个锚首先根据网络预测被细化到[A1]。在[A1]上执行另一个池化以形成新的预测，用于将其进一步细化到最终锚点[A2]。最后，Faster-RCNN头用于执行最终的分类和回归。当没有锚点与重叠阈值标准匹配时被指定为正。我们在图中展示了FA-RPN中不同尺度和纵横比的锚点放置的定性示例3 .第三章。4.2. 采样由于有成千上万的锚可以放置在图像上，我们在训练过程中对锚进行我们观察到使用焦点丢失[21]降低了RPN的回忆（超参数调整可能是一个原因），因此我们没有将其用于FA-RPN。我们使用常用的ROI抽样技术来处理类不平衡。在FA-RPN中，如果锚框与地面实况框的重叠大于0.5，则锚框被标记为阳性。如果锚点的重叠小于0.4，则将其标记为负。一批中最多抽样128个阳性和阴性锚钉。由于随机锚点作为简单样本的概率很高，我们还对32个锚点框进行了采样，这些锚点框与地面实况框的重叠至少为0.1，作为硬否定。仅为了训练FA-RPN建议，可以忽略所有其他ROI然而，为了训练端到端检测器，我们还需要对图像中的其他ROI进行评分。在训练端到端检测器时，我们在图像中选择最多50，000个ROI（优先考虑那些与地面实况框至少有0.1重叠的ROI）。4.3. 迭代细化放置的锚点的初始集合预期覆盖图像中存在的地面实况对象。然而，这些锚可能不总是具有大于0.5所有对象，因此将被分类器给予低分数。如在几种方法[43，17]中所述，对于小对象实例，该问题被放大。在这种情况下，对于一些地面实况框，没有锚定框可以具有高得分。因此，在图像中生成的前500到1000个建议中可能不会覆盖在FA-RPN中，我们不是选择前1000个提议，而是在推理期间生成20，000个提议，然后再次对来自同一特征图的这20，000个提议执行池化（我们还可以具有另一个卷积层，其细化第一阶段区域提议）。我们的假设是，在细化之后，锚点会更好地定位，因此我们在RoI内汇集特征后获得的分数会更可靠。因此，在细化之后，前1000个提议的排序将是不同的，因为分数是从细化的锚框而不是均匀地放置在网格上的锚框中汇集的。由于我们只需要为该操作执行池化，因此它是高效的，并且在7727ROI接近10万。请注意，我们的方法完全基于池化，没有任何完全连接的层，如级联RCNN [6]或G-CNN[24]。因此，它是更有效的迭代细化。4.4. 复杂性和速度FA-RPN是有效的。也就是说，在800× 1280大小的图像上，执行前向传播需要50毫秒。在P6000 GPU上运行我们还讨论了使用R-FCN进行端到端检测所需的时间。对于一般的对象检测，当类的数量增加时，比如说100，池化层的贡献也会增加。这是因为池化的复杂性因此，如果我们将类的数量增加到100，则该操作将变得慢100倍，并且在该阶段，池化将在前向传播中占例如，如果没有我们的锚点放置策略，在V100 GPU上的单个图像中执行100个类的推理然而，对于人脸检测，我们只需要对2个类执行池化，并使用不同的锚点放置方案，我们不会面临这个问题，即使有数万个锚点框，也可以有效地计算对象。4.5. 规模正规化培训当RoI仓变得太小时，R-FCN的位置对应性丢失。当每个bin对应于卷积特征图中的唯一区域时，局部卷积或具有特定于对象的不同部分的滤波器的想法是相关的。位置敏感的过滤器隐含地假设，在前一层的功能具有类似于后PSRoIPooling的分辨率。否则，如果ROI太小，则所有位置敏感滤波器将从或多或少相同的位置汇集，从而使这些滤波器是位置敏感的假设无效。因此，我们执行尺度归一化训练[33]，它执行选择性梯度传播，接近224× 224分辨率的ROI，不包括可以在更好分辨率下观察到的ROI在训练中。在这种设置中，滤波器的位置敏感特性在一定程度上得到了保留，这有助于提高FA-RPN的性能。5. 数据集我们在三个基准数据集上进行了实验，WIDER[42]，AFW [46]和Pascal Faces [40]。WIDER数据集包含32，203张图像，其中393，703张标注了人脸，其中158，989张在训练集中，39，496张在验证集中，其余的在测试集中。确认和测试集被累积地分为“容易”、“中等”和“困难”子集（即，“硬”组包含所有面，而“中”组包含“易”和“中”）。这是最具挑战性的公共人脸数据集，主要是由于人脸规模和遮挡的显着变化我们在WIDER数据集的训练集上训练所有模型，并在验证集上进行评估。我们在实验中提到，我们的预训练模型的初始化来自ImageNet或COCO。消融研究也在验证集（即包含整个数据集的“硬”子集）。Pascal Faces和AFW分别有1335和473个面。我们只使用Pascal Faces和AFW作为测试集来评估我们训练模型的泛化能力。当在这些数据集上进行实验时，我们应用了在WIDER训练集上训练的模型。6. 实验我们使用可变形卷积 [11] 和 SNIP [33] 训练基于ResNet-50 [16]的Faster-RCNN检测器FA-RPN建议是在级联的Conv 4和Conv 5特征上生成的。在WIDER上，我们训练以下图像分辨率（ 1800 ， 2800 ），（1024，1440）和（512，800）。我们用于WIDER的SNIP范围如下，[0，200）用于（1800，2800），[32，300）用于（1024，1440）和[80，∞）for（512，800）作为图像的短边的大小大约是1024年。我们训练了8个时期，5.33时代在所有实验中，我们使用0.0005的学习率和权重衰减，并在8个GPU上进行训练。即使在4个GPU上训练，我们也使用相同的学习率和训练时间表。在我们所有的实验中，我们使用在线硬示例挖掘（OHEM）[32]来训练我们检测器中的2个全硬示例挖掘在900个建议上执行，批量大小为512。与地面实况边界框具有大于0.5的重叠的ROI被标记为正，并且任何小于该重叠的ROI被标记为负。我们使用Soft-NMS[4]，其中σ=0。35、当你在推理时由于Pascal Faces和AFW包含低分辨率图像，并且也不包含像WIDER数据集那样小的面部，因此我们不执行推断。分辨率为1800×2800。所有其他参数保持与WIDER数据集上的实验相同在WIDER数据集上，我们删除了不同长宽比的锚（即，我们每个尺度只有一个锚点，长宽比为1），并添加了一个16×16大小的锚点，以提高小脸的召回率。注意，极端在利用SNIP的训练期间，使用用于训练检测器的相同规则来移除大小锚。通过这些设置，我们在WIDER数据集上的表现优于最先进的结果，证明了FA-RPN的有效性。然而，本文的目的并不是要表明FA-RPN是获得最先进性能所必需的。FA-RPN是RPN的一种优雅而有效的替代方案，可以与多阶段人脸检测方法相结合，以提高性能。7728FA-RPN-32-Iter -0.852FA-RPN-32-32 - 0.790FA-RPN-32-致密-0.838FA-RPN-32-32 - 0.790方法AP基线87.2基线+SNIP88.1基线+ SNIP + COCO预训练89.1基线+ SNIP + COCO预训练+迭代89.4表1：在WIDER数据集的硬集（硬集包含数据集中的所有图像）上使用我们的面部检测器的不同核心组件进行的消融分析。结果显示在图1的右侧图中。4.第一章我们注意到，密集的锚提高了3.8%的性能。在图的左侧，我们显示了FA-RPN建议的迭代细化的效果。这进一步提供了1.4%的提升，在更密集的锚的顶部这表明我们的网络对锚点配置的变化具有鲁棒性，即使在训练期间没有提供为了使用RPN实现这一点，需要再次重新训练它，而在FA-RPN中，它是一个简单的推理时间超参数，即使在训练阶段之后也可以在验证集上进行调整。10.80.60.40.200 0.2 0.4 0.6 0.81召回10.80.60.40.2000.20.40.60.8 1召回6.3. 尺度和COCO预训练对人脸检测尺度变化是检测数据集的主要挑战之一像WIDER这样的数据集由许多小面孔组成，这些小面孔在原始图像尺度下很难被CNN检测到。因此，对图像进行上采样对于获得良好的性能至关重要然而，如[33]所示，当我们对图像进行上采样时，大型对象变得难以识别。(a)（b）第（1）款图4：消融分析：提高了在推理时的精确度。FA-RPN-32-32表示通过将锚点之间的步幅增加到32来训练的模型，并在推理时使用相同的步幅。(a)FA-RPN-32-Iter是在推断时执行额外锚点细化步骤时的相同模型。(b)另一方面，FA-RPN-32-Dense通过将推理时的锚步幅减少到原始FA-RPN步幅来提高精度。6.1. FA RPN中多次迭代的影响当我们在推理过程中执行多次迭代时，我们在WIDER上评估FA-RPN由于FA-RPN对ROI进行操作，由于锚框的初始集合是粗糙的，所以在第一步骤之后生成的ROI不是很好地定位。在生成的ROI上执行另一个级别的池化有助于提高我们建议的召回率如表1和图1所示如图4a所示，该细化步骤有助于提高精确度和召回率。我们还生成了不同步幅的锚点- 16和32像素-并展示了最终检测性能如何随着我们迭代改进建议而提高。6.2. 在推理过程中修改参数和步幅在本节中，我们展示了FA-RPN生成区域建议的灵活性。我们用32像素的步幅训练我们的网络，在推理过程中，我们在WIDER数据集上以16像素的步幅的当我们对图像进行下采样以检测大对象时，小对象变得更难分类。因此，当使用极端分辨率时，标准的多尺度训练是无效的在表1中，我们显示了在基于FA-RPN的Faster-RCNN检测器中执行基于SNIP的多尺度训练的效果当在相同的分辨率上进行推理时，我们观察到WIDER数据集的检测性能提高了1%。请注意，这种改进是在多尺度推理之上的我们还初始化了我们的ResNet-50模型，该模型在COCO检测数据集上进行了预训练。我们表明，即使是对对象检测的预训练也有助于显著提高人脸检测器的性能，表1。6.4. WIDER数据集的比较我们将我们的方法与MSCNN [5]，HR [17]，SSH[25]，S3FD [43]，MSO [44]和PyramidBox [37]进行了这是WIDER数据集上已发表的最先进的方法。我们的简单检测器优于其他方法的“硬”集，其中包括所有的注释，在WIDER数据集，同时实现了平均精度为89。4%。我们在“简单”和“简单”方面也表现出色“中等”子集。每一项的精确-召回图这些情况如图所示。五、请注意，我们没有使用Conv2和Conv3中的特征金字塔或下层特征[25，43，17]，从而增强了上下文[17]或使用更深的网络，如ResNext-152 [39]/Xcep- tion[9]来获得这些结果。我们还比较了FA-RPN（表1中的基线版本）与RPN的定量和定性结果，见图1。图6和图7分别。这些结果表明，FA-RPN是有竞争力的现有的建议技术，因为它可以导致一个国家的最先进的人脸检测器。我们也不使用最近提出的技术-精度精度7729PyramidBox-0.961FA-RPN -0.950MSO -0.949SFD -0.937SSH -0.931HR -0.925MSCNN -0.916PyramidBox-0.95FA-RPN -0.942MSO -0.933SFD -0.925SSH -0.921HR -0.910MSCNN -0.903精度11 10.80.80.80.60.60.60.40.40.40.20.20.200 0.2 0.4 0.6 0.81召回(a) 容易00 0.2 0.4 0.6 0.81召回(b) 介质00 0.2 0.4 0.6 0.8 1召回(c) 硬（整个数据集）图5：我们在WIDER数据集上与最近发表的方法进行了比较。图从左到右分别为“容易”、“中等”和“困难”。可以看出，FA-RPN在该数据集上的表现优于已发布的基线。请注意，1 .一、00的情况。81 .一、00的情况。80的情况。6060的情况。40的情况。2FA-RPN -99.42Face-MagNet -98.65SSH -98.50超级脸-92.460的情况。40的情况。2FA-RPN -99.53SSH -99.2797.21分猎头-97.14召回图6：与WIDER数据集上的RPN比较。0002040608个 1.0召回（一）0002040608召回（b）第（1）款1 .一、0图8：在（a）Pascal Faces和（b）AFW数据集上与其他方法的比较。图7：RPN和FA-RPN（基线）之间的定性比较。金色矩形是两者都检测到的矩形，绿色矩形被FA-RPN检测到，但被RPN错过。niques喜欢随机面部提升[44]，对于不同大小的对象具有不同的滤波器[17]或maxout背景损失[43]。如果对我们的网络进行上述架构更改或使用更好的训练方法（也可以微调批量归一化统计数据），我们的性能可以进一步提高[27，35]。6.5. Pascal Faces和AFW数据集为了展示我们训练的检测器的泛化能力，我们还将其应用于Pascal Faces [40]和AFW [46]数据集，而无需进行微调。FA-RPN的性能与SSH [25]，Face-Magnet[31]，HyperFace [29]，HeadHunter [23]和Dec [28]进行了比较。FA-RPN -0.894PyramidBox-0.889MSO -0.861SFD -0.859SSH -0.845HR -0.806MSCNN -0.802FA-RPN（基线）-0.872RPN-0.852精度精度精度精度7730报告这些数据集结果的tors。结果示于图8.与WIDER相比，PASCAL图像的分辨率较低，并且它们不包含许多小图像，因此将FA-RPN应用于金字塔中的两个较低分辨率就足够了这也导致更快的推理。可以看出，FA-RPN开箱即用很好地通用于这些数据集。FA-RPN在PascalFaces上实现了最先进的结果，并将该数据集的错误率降低到0.68%。6.6. 效率我们基于FA-RPN的检测器是高效的，在1080TiGPU上执行800×1280大小的图像推理所需时间不到0.05秒。随着过去几年GPU的进步，即使在非常高的分辨率下执行推理也是高效的。我们的探测器只需要0.4在1080Ti GPU上处理大小为1800×2800通过改进的GPU架构和使用对于16或8位这样的较低精度，速度可以进一步提高2到4倍（取决于推理中使用的精度）。作为比较，原始的简单-7731图9：WIDER数据集验证集的定性结果绿色矩形显示检测，亮度编码检测置信度。SSH1的分割在Titax X GPU上需要0.45秒（我们在同一台机器上需要0.41秒）来处理1800 ×2800像素的图像。应该注意的是，在高分辨率下，运行时由卷积层主导，并且小的差异可能是因为例如，SSH使用自定义archi-我们使用标准的ResNet50主干，SSH在Caffe中，我们的在MxNet中，等等。SSH在低分辨率下有更好的运行时间（例如，在512 x600分辨率上然而，当前最先进的方法的运行时间在很大程度上取决于高分辨率尺度。FA-RPN中使用的多尺度推理可以通过自动聚焦进一步加速[26]。6.7. 定性结果图9显示了WIDER验证子集的定性结果我们挑选了20张不同的图像来突出FA-RPN生成的结果检测由绿色矩形显示可以看出，我们的人脸检测器在拥挤的场景中工作得很好，可以在各种各样的图像中找到数百张小脸。这表明FA-RPN具有较高的召回率，可以准确地检测人脸。它在室内和室外场景以及不同的照明条件下都有很我们在各种规模上的性能也很好，而不使用来自不同层的不同功能网络的人。它也是强大的姿态，遮挡，模糊的变化，甚至在老照片上的作品！7. 结论我们介绍了FA-RPN，这是一种用于生成基于池的人脸检测建议的新方法。我们提出了锚点放置和标签分配技术，这是设计这种基于池的建议算法的关键。FA-RPN具有高效的迭代细化、推理过程中尺度和锚步长选择的灵活性、亚像素锚点位置等优点。使用FA-RPN，我们在具有挑战性的WIDER数据集上获得了最先进的结果，显示了FA-RPN在该任务中的有效性。FA-RPN还在Pas- calFaces等数据集上实现了开箱即用的最新结果，显示了其通用性。致谢本研究是基于国家情报总监办公室（ODNI），情报高级研究项目活动（IARPA），通过IARPA研发合同号支持的工作。2014-14071600012。的本文中包含的观点和结论是作者的观点和结论，不应被解释为必然代表ODNI、IARPA或美国的官方政策或认可，无论是明示还是暗示。政府的美国政府被授权为政府目的复制和分发重印本，尽管其上有任何版权注释。1http://www.github.com/mahyarnajibi/SSH7732引用[1] S. Amin和F.加拉索更快的r-cnn的几何建议。高级视频和基于信号的监控（AVSS），2017年第14届IEEE国际会议，第1-6页IEEE，2017年。2[2] P. Arbel a'ez，J. 庞特-T使用t，J。 T. Barron，F. Marques和J· 马利克多尺度组合分组在Proceedings of the IEEEconference on computer vision and pattern recognition，第328-335页，2014年。2[3] Y. Bai，Y. Zhang，M. Ding和B.加尼姆用生成对抗网络在野外寻找微小的面孔CVPR。IEEE，2018年。2[4] N. 博德拉湾辛格河，巴西-地Chellappa和L.S. 戴维斯用一行代码改进目标检测。2017年IEEE国际计算机视觉会议（ICCV），第5562-5570页。IEEE，2017年。5[5] Z.蔡角，澳-地范河，巴西-地S. Feris和N.瓦斯康塞洛斯用于快速目标检测的统一多尺度深度卷积神经网络。欧洲计算机视觉会议，第354-370页施普林格，2016年。二、六[6] Z. Cai和N.瓦斯康塞洛斯Cascade r-cnn：深入研究高质量的对象检测。CVPR，2018年。二、五[7] Carreira和C.斯明奇塞斯库用于自动对象分割的约束参数最小切割。在Computer Vision and Pattern Recognition（CVPR），2010 IEEE Conference on，第3241-3248页中。IEEE，2010。2[8] C. Chi，S.张，J.兴，Z.Lei，S.Z. Li和X.邹。用于高性能人脸检测的Selec- tive Refinement NetworkarXiv预印本arXiv：1809.02693，2018。2[9] F.胆Xception：使用深度可分离卷积的深度学习。CVPR，2017年。6[10] J.戴，Y. Li，K. He和J. Sun. R-fcn：通过基于区域的全卷积网络的目标检测。神经信息处理系统的进展，第379-387页，2016年。第1、3条[11] J. Dai，H. Qi，Y. Xiong，Y. Li，G. Zhang，H. 虎和Y. 伟 . 可变形卷积网络。 CoRR， abs/1703.06211 ， 1（2）：3，2017。三、五[12] S. Gidaris和N.小木Locnet：提高物体检测的定位精度。在IEEE计算机视觉和模式识别会议论文集，第789-798页，2016年。2[13] R. 娘娘腔。快速 R-CNN 。 arXiv 预印本 arXiv ：1504.08083，2015年。一、二[14] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。在IEEE计算机视觉和模式识别会议论文集，第580-587页，2014年。2[15] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在神经信息处理系统的进展，第2672-2680页，2014年。2[16] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 770-778，2016中。5[17] P.Hu和D. Ramanan寻找小脸2017年IEEE计算机视觉与模式识别会议（CVPR），第1522-1530页。IEEE，2017年。一二四六七[18] J. Li，Y.Wang，C.Wang，Y.Tai，J.Qian，J.杨角，澳-地小王，J. Li和F.煌双镜头人脸检测器。arXiv预印本arXiv：1810.10220，2018。2[19] Y. 李湾，澳-地孙，T.Wu和Y.王. 利用convnet与3d模型的端到端整合进行人脸侦测欧洲计算机视觉会议，第420-436页施普林格，2016年。一、二[20] T.- Y. Lin，P.多尔河格希克角他，B.Hariharan和S.贝隆吉用于对象检测的特征金字塔网络。在CVPR，第1卷，第4页，2017年。2[21] T.- Y. Lin，P. 戈亚尔河格希克角He和P. 娃娃。密集目标检测的焦面损失。ICCV，2017年。二、四[22] W. Liu，L.安格洛夫，D。埃尔汉角塞格迪，S。里德角，澳-地Y. Fu和A. C.伯格。Ssd：单发多盒探测器。欧洲计算机视觉会议，第21施普林格，2016年。2[23] M.马蒂亚斯河Benenson，M. Pedersoli和L.范古尔无需花里胡哨的人脸检测。在欧洲计算机视觉会议上，第720-735页。Springer，2014.7[24] M. Najibi，M.Rastegari和L.S. 戴维斯基于迭代网格的目标检测器。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第2369-2377页二、五[25] M. Najibi ， P. Samangouei ， R. Chellappa 和 L. 戴维斯Ssh：单级无头人脸检测器。在IEEE计算机视觉和模式识别会议集，第4875-4884页，2017年。一、二、六、七[26] M.纳吉比湾Singh和L. S.戴维斯自动对焦：高效的多尺度推理。arXiv预印本arXiv：1812.01600，2018。8[27] C. 彭氏T.肖，Z.Li，Y.Jiang，X.Zhang，K.Jia，G.Yu和J. Sun. Megdet：大型小型批量物体探测器。CVPR，2018年。7[28] R. Ranjan，V. M.帕特尔和R。切拉帕一种用于人脸检测的深金字塔变形部分模型 arXiv 预印本 arXiv ：1508.04389，2015年。7[29] R. Ranjan，V.M. 帕特尔和R。切拉帕Hyperface：一个深度多任务学习框架，用于人脸检测、地标定位、姿势估计和性别识别。IEEE Transactions on Pattern Analysisand Machine Intelligence，2017。一、二、七[30] S. Ren，K.赫利河Girshick和J.太阳Faster r-cnn：Towardsreal-time object detection with region proposal networks.在神经信息处理系统的进展，第91-99页，2015年。一、二[31] P. Samangouei，M.纳吉比湖Davis和R.切拉帕面磁铁：放大特征图以检测小脸。在IEEE计算机视觉应用冬季会议，第122-130页，2018年。7[32] A.什里瓦斯塔瓦A. Gupta和R.娘娘腔。利用在线硬示例挖掘训练基于区域的对象检测器。在IEEE计算机视觉和模式识别会议论文集，第761-769页，2016年。57733[33] B. Singh和L. S.戴维斯目标检测中的尺度不变性分析。CVPR，2018年。五、六[34] B.辛格，H. Li，长穗条锈菌A. Sharma和L. S.戴维斯R-fcn-3000在30 fps时：去耦检测和分类。CVPR，2018年。2[35] B. 辛格，M。纳吉比和L.S. 戴维斯狙击手：高效的多尺度训练.arXiv预印本arXiv：1805.0

下载后可阅读完整内容，剩余1页未读，立即下载