尺度感知人脸检测方法的研究与实践

51 浏览量更新于2023-10-17 收藏 1009KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1尺度感知的人脸检测郝泽坤1，刘宇1，秦宏伟2，严俊杰2，李秀2，胡晓林21商汤科技2，清华大学{haozekun，yanjunjie}@ outlook.com，liuyuisanai@gmail.com，{qhw12@mails.，xlhu@，li.xiu@sz.}tsinghua.edu.cn摘要基于卷积神经网络（CNN）的人脸检测器在处理不同尺度的人脸时效率低下它们依赖于将大型单个模型拟合到大尺度范围内的人脸或多尺度测试。两者都是计算上昂贵的。我们提出了尺度感知人脸检测（SAFD），使用CNN显式处理尺度，并以更少的计算成本实现更好的性能在检测之前，一个有效的CNN预测人脸的尺度分布然后，尺度直方图引导图像的放大和缩小。由于面部在缩放后将近似处于均匀的比例，因此即使使用小得多的CNN也可以准确实际上，AFW中超过99%的人脸可以用每张图像不到两次缩放来覆盖。在FDDB、 MALF和 AFW上的大量实验表明了SAFD的优越性。1. 介绍人脸检测是计算机视觉中应用最广泛的领域之一。已经提出了流行的人脸检测器，包括Viola-Jones[34]及其扩展，部分模型[9]及其后继者以及基于卷积神经网络（CNN）的方法[33]。基于CNN的方法最近取得了巨大的成功[13，39，4]。人脸检测系统应该能够处理各种尺度、姿势和外观的人脸。对于基于CNN的人脸检测器，姿态和外观的变化可以通过卷积神经网络的大容量来处理。然而，没有仔细考虑规模的差异，还有改进的余地CNN在计算机视觉领域的流行主要来自其平移不变性，与全连接神经网络相比，它显著减少了计算和模型大小然而，对于尺度不变性，CNN满足与完全连接网络的平移不变性的限制类似的限制。CNN本身并不具有尺度不变性。CNN可以被训练成具有一定程度的尺度不变性，但它需要更多。图1. SAFD的动机。单尺度检测器需要对图像金字塔进行多尺度检测，以覆盖大尺度范围。但是，在大多数情况下，图像金字塔中只有少数几个层包含有效比例的面（绿色箭头）。在这些无效比例上查找面是一种计算浪费（红色虚线箭头）。在所提出的方法中，我们证明了CNN可以有效地预测这些有效尺度，这大大减少了计算量。参数和更复杂的结构来保持性能。尽管重要，但涉及规模的作品很少见到，也没有任何作品关注规模问题的本质一个可能的原因是，在学术研究中，简单的多尺度测试图像金字塔可以避免这个问题，并获得良好的精度。然而，多尺度测试导致了巨大的计算代价。避免这个问题的另一种方法是将CNN模型拟合到多个尺度。这也可能导致模型大小和计算的增加。为了解决这个问题，我们考虑明确估计规模。如果我们知道每个图像中的人脸比例，我们可以将图像调整为最适合检测器的合适比例。它消除了覆盖尺度引起的方差的需要，因此可以使用更小的检测器网络，同时实现更好的性能。它还可以防止彻底测试图像金字塔中的所有尺度，从而节省计算，如图1所示。这样，人脸检测过程可以分为人脸尺度估计和单尺度检测。规模建议阶段是通过一个轻量级的，全卷积网络实现的，称为规模建议6186FLOPS5.6G1x1.4G1/2x350M1/4x87.5M1/8x21.9M1/16xNMS单刻度检测器6187网络（SPN）。该网络可以从任意大小的输入图像生成全局人脸尺度直方图。全局最大池化层被放置在网络的末端，因此它输出固定长度的向量，而不管输入图像的大小。直方图向量编码的概率存在的脸在某些尺度。根据直方图调整输入图像的大小，以确保所有面部都在后续检测阶段的有效范围内。SPN可以用地面真实直方图向量的图像级监督来训练，并且不需要面部位置信息第二阶段是单尺度人脸检测。训练图像的人脸尺度在检测之前已经被归一化到窄范围，因此覆盖窄尺度范围的简单检测器我们使用区域建议网络（RPN）作为检测器在所有的实验中，因为它是简单，快速和准确的人脸检测任务，因为只有一个对象类。通过使用两阶段SA-RPN方法，可以降低平均计算成本，同时达到最先进的精度。原因有两方面。一方面，单尺度检测器采用比多尺度检测器更小的网络。实验表明，一个小的网络，如果它只关注在一个狭窄的规模范围内的人脸表现得更好。另一方面，当人脸占据图像的大部分时，可以对其进行下采样以节省检测中的计算量。当人脸小于最佳范围时，上采样使其更容易被检测到。捐款.这些贡献如下：1. 我们建议将人脸检测问题分为两个子问题：尺度估计和单尺度检测。这两个问题都是廉价的计算和整体计算减少，同时实现最先进的性能FDDB，MALF和AFW。2. 我们引入了SPN来生成细粒度的比例建议，并且可以通过图像级监督轻松训练网络。2. 相关作品基于CNN的人脸检测方法出现在20世纪90年代[33]。一些模块仍然被广泛使用，例如滑动窗口，多尺度测试和基于CNN的分类器来区分人脸和背景。[31]表明CNN在正面人脸检测方面取得了良好的性能，[32]通过训练不同姿势的人脸，进一步将其扩展到旋转不变的人脸检测。尽管它们的性能很好，但考虑到早年的硬件，它们太慢了人脸检测的一个突破是Viola-Jones框架[34]，它结合了Haar特征，Adaboost和级联的人脸检测。由于其在速度和准确性方面的优势，它变得非常受欢迎。已经提出了许多工作来改进Viola-Jones框架，并实现了进一步的改进，例如局部特征[41，20，36]，提升算法[40，21，11]，级联结构[2]和多姿态[22，17，12]。基于HOG的方法首先用于行人或一般对象检测，例如著名的HOG [6]和可变形部分模型[9]。这些方法在标准基准（如AFW [42]和FDDB [16]）上实现了比基于Viola-Jones的方法更好的性能，并且逐渐变得更有效，包括[42，25，35，10]。基于CNN的方法由于其巨大的性能优势再次变得流行。早期的作品将基于CNN的特征与传统特征相结合。[28]将CNN与可变形零件模型相结合，[37]将CNN与通道特征相结合[7]。[39]通过完全卷积网络预测人脸部分得分图，并使用它来生成人脸建议以进行进一步分类。[19]提出了一种用于有效人脸检测的CNN级联。这项工作在[26]中通过联合训练得到进一步改进[13]给出了检测网络的端到端训练版本，以直接预测边界框和对象置信度。[8]表明，从ImageNet分类任务中对CNN模型进行简单的微调，用于人脸/背景分类，可以获得良好的性能。在[4]中，监督空间变换层用于实现姿态不变的人脸检测。流行的通用对象检测方法，如Faster-RCNN [30]，R-FCN [5]，YOLO [29]和SSD [24]也可以直接用于人脸检测。我们提出的尺度感知人脸检测方法也是一种基于CNN的方法。然而，它关注的是人脸检测中的尺度问题，据我们所知，还没有人探索过我们的方法与这些基于CNN的方法是正交的，它们可以相互受益。有一些成功的尝试，更好地处理规模的目标检测。它们要么通过组合来自网络不同深度的特征来构建更强大的网络结构[1]，要么直接预测网络不同深度的对象[3，24]。他们都有着相同的动机。直观地说，较大的人脸需要具有较大感受野的网络但这些方法有两个主要缺点。首先，它们不能明确地在尺度之间共享特征。这些方法仅通过共享部分卷积层来隐式地共享特征网络仍然必须覆盖大规模的变化，可能需要更多的参数才能正常工作。其次，为了在单次扫描中同时覆盖最大和最小的人脸，输入图像必须很大，以防止丢失小人脸，即使图像这大大损害了速度6188图2. Scale-Aware Face Detector的开发流程。首先，对输入图像进行小尺度重采样，并通过尺度建议网络（SPN）进行转发，得到尺度直方图。比例直方图对图像中人脸的可能大小进行编码，但不包含任何位置信息。SPN网络需要很少的计算。然后根据尺度直方图对输入图像进行重采样，使图像中的所有人脸都落在RPN的可覆盖范围内。如果图像只包含大的面，则可以减少计算。最后，对重新采样的图像集进行人脸检测，并将结果组合以获得最终结果。并且可以从图1中的FLOP比较中推断。这两个问题都在SAFD中得到解决。3. 尺度感知检测流水线我们提出SAFD，隐含地考虑到面对规模的变化。如图2所示，我们的方法包括两个阶段，将人脸检测问题分解为两个子问题：（2）单尺度检测。全局尺度建议阶段的目标是估计图像中出现的所有面部的可能大小，并为每个尺度建议分配置信度得分然后，根据缩放建议对图像进行缩放，并使用单尺度RPN检测人脸。如果在一幅图像中产生多个尺度建议，则对其进行多次尺度检测，并将结果合并以形成最终检测结果。其每个元素对应于图像中具有特定比例的面部的概率。直方图向量可以被解释为比例与概率直方图。输出特征长度等于尺度直方图中的箱数。直方图通过Sigmoid函数进行归一化，使得每个元素都在[0，1]内并表示概率。尺度直方图的详细解释如下。对于在对数尺度中具有n个相等放置的箱的尺度直方图，其中左边缘对应于面部大小s0并且右边缘对应于面部大小sn，直方图向量h被定义为：h=[a1，a2，a3，...，an]，（1）a = P（x|sl≤log（size（x））

下载后可阅读完整内容，剩余1页未读，立即下载