基于渐近定位拟合的单级行人检测架构

73 浏览量更新于2023-10-13 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

基于渐近定位拟合刘伟1、3刘伟，廖胜才1、2胡伟东，梁学智1、2，小陈31中国科学院自动化研究所生物识别与安全研究中心模式识别国家重点实验室，北京2中国科学院大学，中国北京3中国长沙国防科技大学{liuwei16，wdhu，chenxiao15}@ nudt.edu.cn，scliao@nlpr.ia.ac.cn，xzliang@cbsr.ia.ac.cn抽象。虽然基于Faster R-CNN的两阶段检测器在行人检测准确性方面有了显著的提高，但对于实际应用来说仍然很一种解决方案是将该工作流程简化为单级检测器。然而，当前的单级检测器（例如SSD）在常见的行人检测基准上没有呈现出有竞争力的准确性。本文旨在开发一个成功的行人检测器，它既能享受SSD的速度，又能保持Faster R-CNN的准确性。具体来说，提出了一种结构简单但有效的称为渐近定位拟合（ALF）的模块，该模块堆叠了一系列预测器，以逐步直接进化SSD的默认锚框，从而改善检测结果。因此，在训练期间，后者预测器享有更多和更好质量的正样本，同时可以通过增加IoU阈值来挖掘更难的负样本。在此之上，设计了一种高效的单级行人检测架构（表示为ALFNet），在CityPersons和Caltech（两个最大的行人检测基准）上实现了最代码可在https://github.com/VideoObjectSearch/ALFNet上获得。关键词：行人检测·卷积神经网络·渐近局部化拟合1介绍行人检测是自动驾驶系统和监控系统等实际应用中的一个关键问题，需要同时具有高精度和实时速度。传统上，扫描图像滑动窗口范例是对象检测的常见实践。在这种模式中，设计手工制作的特征[11，2，10，29]对于最先进的性能至关重要，这仍然是一项艰巨的任务。刘炜在CASIA访问期间完成了部分工作。⋆⋆Shengcai Liao is the corresponding author.2W. Liu，S.廖，W.Hu，X.梁和X。陈除了早期专注于手工特征的研究之外，RCNN [17]首次将CNN引入对象检测。继RCNN之后， Faster-RCNN [32]提出了区域建议网络（RPN），以在统一的框架中生成建议。除了在通用对象检测上的成功之外，还提出了许多适应性Faster-RCNN检测器，并证明了行人检测的更高准确性[42，44]。然而，当考虑处理速度时，Faster-RCNN仍然不令人满意，因为它需要两个阶段的或者，作为代表性的一阶段检测器，单次激发多框检测器（SSD）[27]丢弃Faster-RCNN [32]的第二阶段，并直接将默认锚点回归到检测框中。虽然速度更快，但SSD[27]在常见的行人检测基准上没有表现出有竞争力的结果（例如CityPersons [44]和Caltech [12]）。这促使我们思考Faster R-CNN中的关键是什么，以及这个关键是否可以转移到SSD。由于SSD和Faster R-CNN都有默认的锚框，我们猜测关键是默认锚框的两步预测，一步是RPN，另一步是ROI预测，但不是ROI池化模块。最近，Cascade R-CNN [6]已经证明，通过在RPN之后应用多步ROI池化和预测，可以进一步改进Faster R-CNN。此外，另一项名为Refinedet [45]的最近工作表明，ROI池可以在RPN之后被卷积传输连接块取代因此，SSD中的默认锚点似乎可以直接在多个步骤中处理，以获得更简单的解决方案，既没有RPN也没有ROI池。基于SSD的行人检测的另一个问题是由使用单个IoU阈值进行训练引起的。一方面，较低的IoU阈值（例如，0.5）有助于定义足够数量的正样本，特别是当训练数据中行人实例有限时。例如，如图所示1（a），加州理工学院的增强训练数据[42]有42782张图像，其中约80%的图像没有行人实例，而其余的图像只有1.4个行人实例。然而，在推理期间，单个较低IoU阈值将在很大程度上“闭合”，但在推理期间不会出现错误，如级联R-CNN [ 6 ]中所另一方面，较高的IoU阈值（例如，0.7）有助于在推理过程中拒绝接近的假阳性，但在较高的IoU阈值下，匹配的阳性要少得多，如Cascade R-CNN所指出的，也如图2所示。第1段（b）分段。这种正负定义的困境使得很难训练出高质量的SSD，但这个问题可以通过Faster R-CNN中的两步预测来缓解上述分析促使我们通过改进定位和增加IoU阈值来多步训练SSD。因此，本文提出了一个简单而有效的模块，称为渐近定位拟合（ALF）。它直接从SSD中的默认锚点开始，并一步一步地卷积进化所有锚点框，使更多锚点框更接近地面实况框。在此基础上，本文提出了一种新的行人检测结构，称为渐近定位拟合网络基于ALF的高效单级行人检测器学习3Fig. 1. （a）在新注释的加州理工学院训练数据集上具有不同数量行人实例的图像的百分比[43]。（b）相对于不同的IoU阈值。每个条形表示与高于相应IoU阈值的任何地面实况匹配的默认锚点的数量。（ALFNet）。ALFNet显著提高了行人检测的准确性，同时保持了单级检测器的效率在两个大规模行人检测数据集上进行的大量实验和分析表明，该方法不依赖于主干网络，具有较好的有效性。综上所述，本工作的主要贡献在于：（1）提出了一个称为ALF的模块，使用多步预测进行渐进定位，以克服单阶段检测器在行人检测中的局限性;（2）所提出的方法在两个最大的行人基准上实现了新的最先进的结果（即，[44]，Caltech [12]）.2相关工作通常，基于CNN的通用对象检测可以大致分为两类。第一种类型被命名为两阶段方法[17，16，32，8]，它首先生成合理的区域建议，然后通过另一个子网络对其进行细化然而，其速度受到重复CNN特征提取和评估的限制最近，在两阶段框架中，许多方法试图通过关注网络架构[8，22，23，25]，训练策略[34，39]，辅助上下文挖掘[1，15，35]等来提高检测性能，而沉重的计算负担仍然是一个不可避免的问题。第二种类型[27，30，31]，称为单阶段方法，旨在通过去除区域建议生成阶段来加速检测。这些单阶段检测器直接回归预定义的锚点，因此计算效率更高，但产生的结果不如两阶段方法令人满意。最近，其中一些方法[14，33]注意增强CNN的特征表示，而其他一些方法[21，26]则通过新的分类策略来解决正负失衡问题。然而，较少的工作已经做了行人检测的单阶段框架。4W. Liu，S.廖，W.Hu，X.梁和X。陈在行人检测方面，受RCNN [17]的成功驱动，在两阶段框架中提出了一系列行人检测器。Hosang等人[19]首先利用SCF检测器[2]生成建议，然后将其馈送到RCNN类型的网络中。在TA-CNN [38]中，ACF检测器[10]用于生成建议，然后行人检测与辅助语义任务联合DeepParts[37]使用LDCF检测器[29]来生成建议，然后训练CNN的集合来检测不同的部分。与上述方法不同，RPN+BF [42]采用Faster-RCNN中的原始RPN[32]以生成建议，然后在这些建议之上学习提升的森林分类器。对于多尺度检测问题，MS-CNN [4]利用基础网络的多层来生成建议，然后通过上下文推理辅助检测网络。SA-FastRCNN [24]根据ACF检测器[10]生成的建议，联合训练两个网络分别检测大规模和小规模的行人巴西等[3]，Du et al.[13] Mao et al.[28]通过结合语义信息进一步提高检测性能最近，Wanget al.[40]基于Faster-RCNN [32]设计了一种用于拥挤行人检测的新型回归损失，在CityPersons [44]和Caltech [12]基准上实现了最先进的结果然而，人们对速度的关注比对准确性的关注要少。最近，Cascade R-CNN [6]提出通过RPN生成的建议逐步训练一系列所提出的方法与Cascade R-CNN共享类似的多步细化思想。然而，不同之处在于两个方面。首先，Cascade R-CNN是基于Faster R-CNN框架的更好的检测器，但我们试图回答Faster R-CNN中的关键是什么，以及这个关键是否可以用来增强SSD的速度和准确性。我们得到的关键是多步预测，一步是RPN，另一步是ROI的预测。考虑到这一发现，SSD中的默认锚点可以在多个步骤中以完全卷积的方式处理，而无需ROI池化。其次，在所提出的方法中，所有默认锚点在多个步骤中进行卷积处理，而无需重新采样或迭代ROI池化。相比之下，Cascade R-CNN将Faster R-CNN的检测器部分转换为多步，这不可避免地需要RPN，并在该框架内迭代地应用锚点选择和单个ROI池化。另一个与我们密切相关的工作是Refinedet [45]提出的通用对象检测。它包含两个相互连接的模块，前一个模块通过客观性得分过滤掉负面锚点，后一个模块从第一个模块中提炼锚点转移连接块进一步被设计成在这两个模块之间转移特征。所提出的方法与Refinedet [45]的不同之处主要在于两个方面。首先，我们将检测模块堆叠在骨干特征图上，而没有传输连接块，因此更简单，更快速。其次，所有默认锚点在多个步骤中被同等地处理，而不进行过滤。我们认为，来自第一步的分数不足以确定，并且“无效”的过滤器和过滤器可能包含可能仍有机会在后面的基于ALF的高效单级行人检测器学习5n3方法3.1初步我们的方法是建立在单阶段检测框架之上的，在这里我们简要回顾了这种类型的方法。在单级检测器中，从骨干网络（例如，网络）提取具有不同分辨率的多个特征图。VGG [36]，ResNet [18]），这些多尺度特征图可以定义如下：Φn= fn（Φn−1）= fn（fn−1（. f1（I）、⑴其中I表示输入图像，fn（. 是来自基础网络的现有层或添加的特征提取层，并且Φη是来自第η层的生成的特征图。这些特征图的尺寸逐渐减小，因此多尺度对象检测对于不同分辨率是可行的。在这些多尺度特征图之上，检测可以被公式化为：Dets= F（pn（Φn，Bn），pn−1（Φn−1，Bn−1），…， pn−k（Φn−k，Bn−k）），n> k> 0，（二）pn（Φn，Bn）={clsn（Φn，Bn），regrn（Φn，Bn）}，（3）其中Bn是在层的空间中找到的一个块，pn（. ）通常是卷积预测器，其将第η个特征图Φη转化为检测结果。通常，pn（. ）包含两个元素clsn（. ），其预测分类得分;以及regrn（. 其预测与第n层相关联的默认锚框的缩放和偏移，并最终得到回归框。F（. ）是从所有层收集所有回归框并输出最终检测结果的函数。更多详情请参见[27]。我们可以找到Eq。（2）在Faster-RCNN中扮演与RPN相同的角色，除了RPN应用卷积预测器）在所有尺度的锚点的最后一层的特征图上（表示为B），其可以被公式化为：建议=pn（Φn，B），n>0（4）在两阶段的方法，从方程的区域建议。（4）通过ROI池化进一步处理，然后馈送到另一个检测子网络进行分类和回归，因此比单阶段方法更准确，但计算效率较低。3.2渐近局部化拟合从上述分析可以看出，单阶段方法是次优的，主要是因为难以要求单个预测器）以在特征图上均匀铺设的默认锚框上完美执行。我们认为一个合理的解决方案是堆叠一系列预测器pt（。）6W. Liu，S.廖，W.Hu，X.梁和X。陈nnnn图二、来自CityPersons [44]训练数据的两个例子绿色和红色矩形分别是锚框和地面实况框图像左上方的值表示在IoU阈值0.5下与地面实况匹配的锚框的数量，并且图像右上方的值表示与来自所有匹配锚框的地面实况重叠的平均应用于从粗到细的锚框Bt，其中t指示第t步。在这情况下，方程式3可以重新表述为：pn（Φn，B0）= pT（pT−1（... （p1（Φn，B0），（5）无无无无无无无Bt=regrt（Φn，Bt−1），（6）n n n其中，T是总步数，B0表示在第n层上铺装的默认锚框。在每个步骤中，预测器pt（. ）使用回归锚框Bt-1而不是默认锚框进行优化。换句话说，通过逐步细化的锚框，这意味着可以获得更多的阳性样本，可以使用更高的IoU阈值来训练后面步骤中的预测器，这有助于在推理期间产生更精确的定位[6]。该策略的另一个优点是，用不同的时间间隔训练的多个分类器将以“多个”方式进行比较，并且因此如果适当地融合，则得分将比单个分类器更有信心。鉴于这种设计，目前的单级检测器的局限性可以得到缓解，从而导致在精度和效率方面超过两级检测器的潜力。图2给出了两个示例图像以证明提出了ALF模块。根据图2（a），只有7个，在IoU阈值为0.5的情况下，16个默认锚框分别被分配为正样本，该数量随着ALF步骤的增加而逐渐增加，并且与地面实况重叠的平均值也在上升。这表明前一个预测器可以将具有较高IoU的更多锚框移交给后一个预测器。基于ALF的高效单级行人检测器学习7图三. （a）ALFNet架构，由四个层次的特征图构成用于检测具有不同大小的对象，其中黄色的前三个块来自骨干网络，绿色的块是在截断的骨干网络的末端添加的卷积层。(b)卷积预测块（CPB），其被附接到特征图的每个级别以将默认锚框转换为对应的检测结果。3.3总体框架在本节中，我们将介绍拟议的ALFNet行人检测管道的详细信息。我们的检测网络架构的细节在图1中图示。3 .第三章。我们的方法基于一个全卷积网络，该网络产生一组边界框和置信度分数，指示是否存在行人实例。基础网络层是从用于图像分类的标准网络（例如，ResNet-50 [18]或MobileNet [20]）。以ResNet-50为例，我们首先从阶段3，4和5的最后一层的特征图中发出分支（表示为Φ3，Φ4和Φ5，图3（a）中的黄色块），并在最后附加一个额外的卷积层以产生Φ6，生成辅助分支（图3（a）中的绿色块）。3（a））。检测在{Φ3，Φ4，Φ5，Φ6}上执行，其中尺寸被下采样8，16，32，64w.r.t.输入图像。对于建议生成，具有{（16， 24），（32， 48），（64， 80），（128， 160）}像素的宽度和0.41的单个纵横比然后，我们附加图1所示的卷积预测器块（CPB）。图3（b）具有用于边界框分类和回归的若干堆叠步骤。3.4训练和推理如果具有任何基础事实的IoU高于阈值u_h，则训练锚框被分配为正S+，并且如果IoU低于阈值u_l，则训练锚框被分配为负S-。在训练期间忽略在[u_l，u_h）中具有IoU的那些锚。我们为渐进步骤分配不同的IoU阈值集合{ul，uh}，这将在我们的实验中讨论。8W. Liu，S.廖，W.Hu，X.梁和X。陈我在每个步骤t，卷积预测器通过组合两个目标的多任务损失函数来优化：L=lcls+λ[y=l]lloc，（7）其中回归损失Iloc是Faster-RCNN [32]中采用的相同平滑L1损失，Icls是二进制分类的交叉熵损失，并且λ是权衡参数。受[26]的启发，我们还在分类损失lcls中添加了焦点权重，以对抗正负失衡。该公式被公式化为：lcls=−α Σi∈S+（1−pi）γlog（pi）−（1−α）Σi∈S−pγlog（1−pi），（8）其中pi是样本i的正概率，α和γ是聚焦参数，实验上设置为α = 0。25和[26]中提出的γ= 2。以这种方式，简单样本的损耗贡献被向下加权。为了增加训练数据的多样性，每个图像都通过以下选项进行增强：在随机颜色失真和概率为0.5的水平图像翻转之后，我们首先裁剪原始图像的大小为[0.3，1]的补丁，然后调整补丁的大小，使得短边具有 N 个像素（对于 CityPersons ， N = 640 ，对于 Caltech ， N =336），同时保持图像的纵横比。推理ALFNet只涉及通过网络前馈图像。对于每个水平，我们从最终预测因子和所有预测因子的混合置信度得分中获得回归的锚框我们首先过滤掉分数低于0.01的框，然后将所有剩余的框与阈值为0.5的非最大值抑制（NMS）合并。4实验和分析4.1实验设置数据集。ALFNet的性能在CityPersons [44]和Caltech [12]基准上进行评估。CityPersons数据集是一个新发布的大规模行人检测数据集，在训练子集中有2975张图像和大约20000个带注释的行人实例该模型在该训练子集上进行训练，并在验证子集上进行评估。对于加州理工学院，我们的模型使用[43]提供的新注释进行训练和测试。我们使用10x集（42782张图像）进行训练，使用标准测试子集（4024张图像）进行评估。评估指标遵循标准的加州理工学院评估[12]：每幅图像假阳性（FPPI）范围内的对数平均未命中率[10- 2，100]（表示为MR-2）。测试仅适用于原始图像大小，出于速度考虑未放大。培训详情。我们的方法在Keras [7]中实现，使用2个GTX 1080TiGPU进行训练。一个小批处理包含每个GPU 10个图像的基于ALF的高效单级行人检测器学习9应用了亚当解算器。对于CityPersons，骨干网络在ImageNet上进行预训练[9]，所有添加的层都使用xavier方法随机初始化。该网络总共训练了240k次迭代，初始学习率为0.0001，在160k次迭代后下降了10倍对于加州理工学院，我们还包括从CityPersons初始化的模型的实验，如[44，40]中所做，并以0.00001的学习率进行了140k次主干网络是ResNet-50 [18]，除非另有说明。4.2消融实验在本节中，我们对CityPersons验证数据集进行消融研究，以证明所提出方法的有效性。ALF改善。为了清楚起见，我们用两个步骤训练检测器。表1总结了性能，其中CiBj表示通过步骤i上的置信度得分和步骤i上的边界框位置获得的检测J.从表1可以看出，当用不同的IoU阈值（例如，0.5，0.75），则第二卷积预测器始终比第一卷积预测器表现得更好。在相同置信度分数Cl的情况下，从C1B2到C1B1的改善指示第二回归量优于第一回归量。另一方面，对于相同的边界框位置B2，从C2B2到C1B2的改进指示第二分类器优于第一分类器。我们还通过求和或相乘来组合两个置信度得分，表示为（C1+C2）和（C1*C2）。对于0.5的IoU阈值，这种评分融合明显优于Cl和C2两者。然而，有趣的是，在0.75的更严格IoU阈值下，两个混合置信度分数都不如第二置信度分数C2，这合理地指示第二分类器在地面实况和许多“接近但不准确”错误点之间更具区分性。它不是在当IoU阈值从0.5变化到更严格的0.75时，最大的改进增加了很大的幅度（从1.45到11.93），证明了所提出的ALFNet的高质量定位性能。为了进一步证明所提出的方法的有效性，图。图4描绘了锚框在IoU范围[0.5，1]上的分布。匹配的锚框的总数增加了很大的幅度（从16351增加到100571）。同时，在较高IoU间隔中匹配锚盒的百分比稳定增加。换句话说，具有不同IoU值的锚框相对良好地分布在渐进步骤中。IoU训练阈值。如图4中，匹配的锚盒的数量在后面的步骤中急剧增加，并且不同IoU阈值之间的差距正在缩小。在Cascade R-CNN [6]中也观察到类似的发现，其中使用单个阈值，而不是这里的双阈值。这启发我们研究用于训练的IoU阈值如何影响最终检测性能。在实验上，第一步骤的{ul，uh}不应高于第二步骤的{ul，uh }，因为在第一步骤之后，更多具有更高质量的锚被分配为阳性（如图2所4）. 表2中的结果显示，随着IoU阈值的增加，两步的训练预测因子10W. Liu，S.廖，W.Hu，X.梁和X。陈表1. 在IoU阈值0.5和0.75下评价ALF改善。Ci表示来自步骤i的置信度分数，并且Bj表示来自步骤j的边界框位置。报告了合理子集上的MR-2IOUC1B1C1B 2C2B2（C1+C2）B2（C1*C2）B2改进0.50.7513.4646.8313.1745.0012.6434.9012.03 12.01三六四九三六四九+1.45（10.8%）+11.93（25.5%）图4.第一章它描述了与地面实况框匹配的锚框的数量w.r.t.不同的IoU阈值范围从0.5到1。(a)、（b）和（c）分别表示默认锚框、第一和第二步骤之后的细化锚框的分布。IoU高于0.5的盒子的总数呈现在三个子图的头部中。每个IoU阈值范围的数字和百分比在相应栏的顶部注释这表明，使用更高质量的正锚更严格地优化后一个预测器对于更好的性能至关重要。在以下实验中，我们选择{0.3，0.5}和{0.5，0.7}进行两个步骤，在两个评估设置中均达到最低MR−2（IoU=0.5，0.75）。堆叠步骤数。所提出的ALF模块有助于实现更好的检测性能，但我们还没有研究多少堆叠步骤足以获得速度-精度权衡。当精度饱和时，我们将ALFNet训练到三个步骤。表3比较了我们的ALFNet的三种变体，分别为 1 、 2和 3步，分别表示为 ALFNet-1 s 、 ALFNet-2s 和ALFNet-3s。在实验中，ALFNet-3s使用IoU阈值进行{0.3，0.5}，{0.4，0.65}和{0.5，0.75}）。通过增加第二步，ALFNet-2s大大超过ALFNet-1 s（12.01 vs. 16.01）。值得注意的是，ALFNet-2s和ALFNet-3s的第一步的结果明显优于具有相同计算负担的ALFNet-1 s，这表明多步训练也有利于优化前一步。在Cascade R-CNN [6]中也可以看到类似的发现，其中三级级联实现了最佳权衡。从表3中所示的结果可以看出，增加第三阶不能提供MR-2方面的性能增益。当A基于ALF的高效单级行人检测器学习11表2. 用不同的IoU阈值集训练两步ALFNet的比较。{ul，uh}表示在章节中定义的用于分配阳性和阴性的IoU阈值三点三粗体和斜体表示最佳和次佳结果。培训IoU阈值MR−2步骤1步骤2IoU=0.5IoU=0.75{0.3，0.5}{0.3，0.5}13.7544.27{0.4，0.6}13.3139.30{0.5，0.7}12.0136.49{0.4，0.6}{0.4，0.6}13.6042.31{0.5，0.7}12.8036.43{0.5，0.7}{0.5，0.7}13.7238.20表3.ALFNet与根据MR-2评估的各种步骤的比较。根据原始图像尺寸（CityPersons上的1024x2048）评估测试时间。方法步骤数测试步骤测试时间MR−2IoU=0.5IoU=0.75ALFNet-1s110.26s/img16.0148.95ALFNet-2s210.26s/img13.1745.00220.27s/img12.0136.49ALFNet-3s310.26s/img14.5346.70320.27s/img12.6737.75330.28s/img12.8839.31深入研究ALFNet的这三个变体的检测结果，进一步评估基于F-measure度量的检测性能，如表4所示。在这种情况下，在第三步测试的ALFNet-3s在0.5和0.75的IoU阈值下表现最好。它的性能大大优于ALFNet-1 s ，在 IoU 为 0.5 的情况下比 ALFNet-2s 性能提高 6.3% ，在IoU=0.75的情况下提高6.5%。还可以观察到，假阳性的数量随着步长的增加而逐渐减少，这在图1B中以图形方式示出。五、此外，如表4所示，与地面实况匹配的检测结果的平均均值IoU在增加，进一步证明了检测质量的提高。然而，与步骤2相对于步骤1的大差距相比，步骤3相对于步骤因此，考虑到速度-准确性权衡，我们在以下实验中选择ALFNet-2s不同的骨干网。像ResNet-50这样的大型骨干网络在特征表示方面很强大。为了进一步证明ALF模块的改进，选择像MobileNet [20]这样的轻量级网络作为主干，结果如表5所示。值得注意的是，配备了所提出的ALF模块的较弱的MobileNet能够击败没有ALF的强大16.01）。12W. Liu，S.廖，W.Hu，X.梁和X。陈表4.ALFNet与使用F-measure评估的各种步骤的比较#TP和#FP表示真阳性和假阳性的数量方法测试步骤Ave. MiouIoU=0.5IoU=0.75TP数量FP数量我...TP数量FP数量我...ALFNet-1s10.492404133960.2631786140140.195ALFNet-2s10.55239396380.3301816102150.25020.76219814470.717174718980.570ALFNet-3s10.57236177600.375179183300.28420.76218013520.725173417980.57630.8020797680.780169411530.635图五、ALFNet-3s的检测结果示例红色和绿色矩形分别表示地面实况和检测边界框可以看出，假阳性的数量随着步长的增加而逐渐减少，这表明更多的步长有利于更高的检测准确度。4.3与最新技术水平城市人表6显示了与CityPersons上以前最先进技术的比较。对原始图像大小进行检测结果测试比较。注意，通常的做法是对图像进行上采样以实现更好的检测精度，但是以更多的计算费用为代价。我们仅对原始图像大小进行测试，因为行人检测更为关键准确性和效率。除了合理的子集之外，在[40]之后，我们还在具有不同遮挡水平的三个子集上测试了我们的方法。在合理子集上，没有任何额外的监督，如语义标签（如[44]中所做的）或辅助回归损失（如[40]中所做的），我们的方法实现了最佳性能，与最接近的竞争对手RepLoss相比提高了1.2MR-2 [40]。注意，RepLoss [40]是专门为遮挡问题设计的，然而，在没有花里胡哨的情况下，所提出的具有相同骨干网络（ResNet-50）的方法实现了相当或更高的性能。基于ALF的高效单级行人检测器学习13表5. 比较不同的骨干网络与我们的ALF设计。骨干渐近局部化拟合#参数MR−2IoU=0.5IoU=0.75ResNet-5039.5M16.0148.94C48.4M12.0136.49MobileNet12.1M18.8856.26C17.4M15.4547.42表 6. 与城市人的最新技术进行比较 [44] 。报告了对原始图像大小（CityPersons上的1024x2048）的检测结果测试方法+RepGT +RepBox+分段合理重部分裸[44]第四十四话15.4---（VGG16）C14.8---14.660.618.67.9[第40话]C13.757.517.37.2（ResNet-50）C13.759.117.27.8CC13.256.916.87.6ALFNet[我们的]12.051.911.48.4表7. 加州理工学院的运行时间比较。LDCF、CCF、CompACT-Deep和RPN+BF的时间报告在[42]中，SA-FastRCNN和F-DNN的时间报告在[13]中。MR-2基于新注释[43]。加州理工学院的原始图像大小为480x640。方法硬件规模测试时间MR−2IoU=0.5IoU=0.75最不发达国家基金[29]CPUX10.6 s/img23.672.2[41]第四十一话Titan Z GPUX113 s/img23.897.4CompACT-Deep [5]Tesla K40 GPUX10.5 s/img9.259.0RPN+BF [42]Tesla K40 GPUx1.50.5 s/img7.357.8SA-FastRCNN [24]Titan X GPUX1.70.59 s/img7.455.5F-DNN [1]Titan X GPUX10.16 s/img6.959.8ALFNet [我们的]GTX 1080Ti GPUX10.05 s/img6.122.5ALFNet+城市[我们的]GTX 1080Ti GPUX10.05 s/img4.518.614W. Liu，S.廖，W.Hu，X.梁和X。陈图六、加州理工学院最先进技术的比较（合理子集）。甚至在不同程度的遮挡方面有更好的性能，证明了我们的方法在拥挤场景中处理遮挡问题的独立能力。这可能是因为在后面的ALF步骤中，调用更多的阳性样本用于训练，包括遮挡样本。另一方面，在后面的步骤中挖掘更难的否定，从而产生更具判别力的预测器。加州理工我们还测试了我们的方法在加州理工学院和比较与国家-在这个基准上的最新技术如图所示六、我们的方法实现了MR-24.5在0.5的IoU阈值下，这与最佳竞争对手（RepLoss的4.0 [40]）相当。然而，在更严格的IoU阈值为0.75的情况下，我们的方法是第一个实现MR−2低于20.0%的方法，优于所有以前的最先进技术，比RepLoss提高了2.4MR−2 [40]。这表明，我们的方法具有更好的定位精度。表7报告了Caletch上的运行时间，我们的方法在速度和准确性上都明显优于竞争对手。所提出的方法的速度是20 FPS与原始480x640图像。由于ALF模块，我们的方法避免了耗时的建议明智的特征提取（ROIpooling），而是，它细化默认锚一步一步，从而实现了更好的速度和准确性的权衡。5结论在本文中，我们提出了一个简单但有效的单阶段行人检测器，实现竞争力的准确性，同时执行速度比国家的最先进的方法。在骨干网络上，提出了一个渐进定位拟合模块，逐步细化锚框，最终得到检测结果。这种新颖的设计是灵活的，独立于任何骨干网络，而不受单级检测框架的限制。因此，将所提出的ALF模块与其他单级检测器如YOLO [30，31]和FPN [25，26]结合也是有趣的，这将在未来进行研究基于ALF的高效单级行人检测器学习15引用1. Bell，S.，Lawrence Zitnick，C. Bala，K.，Girshick，R.：内外网：用跳跃池和递归神经网络检测上下文中的对象。在： ProceedingsoftheIEEEConFeRénCeonCon PuterVis isonandPater nReg gnition中。pp. 28742. Benenson河Omran，M.，Hosang，J.，Schiele，B.：行人检测十年，我们学到了什么？欧洲计算机视觉会议。pp. 613- 6 27. 第二章（20 14）3. 巴西、G.、Yin，X.，刘X：通过同时检测分割照亮行人arXiv预印本arXiv：1706.08564（2017）4. 蔡志，范，Q.，R.S.Feris，Vasconcelos，N.：用于快速目标检测的统一多尺度深度卷积神经网络。在：欧洲会议上CommputerrVision. pp. 354-37002TheDog（2016）5. 蔡志，Saberian，M.，Vasconcelos，N.：学习复杂性感知级联，以进行设计和执行。我不知道你是谁，我不知道你是谁。33616. 蔡志，Vasconcelos，N.：级联r-cnn：深入研究高质量的物体检测。arXiv预印本arXiv：1712.00726（2017）7. Chollet，F.：Keras 发表于github（https：//github.com/fchollet/keras），（2015）8. Dai，J.，李，Y.，他，K.，孙杰：R-fcn：通过基于区域的全卷积网络的目标检测。在：神经信息处理系统的进展。pp. 3799. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，Li，F.F.：Imagenet：一个大规模的分层图像数据库。在：计算机视觉和模式识别，2009年。CVPR2009。 IEEEConfencen。pp. 248-255 02TheDog（2009）10. Doll'ar，P.， Ap pel，R.， Belongie，S.， Perona，P. ：对于对象检测而言，F是一种有效的方法。 IEEE Transactions on Pattern Analysis and MachineIntelligence 36（8），1532- 1545（2014）11. Do ll'ar，P.， Tu，Z.， Perona，P.， Belongie，S. ：Integralchannelfeaturs（2009）12. Dollar，P.，沃杰克角Schiele，B.，Perona，P.：行人检测：对最先进技术的评估 IEEE transactions on pattern analysis and machine intelligence34（4），74313. 杜X El-Khamy，M.，李，J.，Davis，L.：Fused dnn：A deep neural networkfusion approach to fast and robust pedestrian detection. In ： Applications ofComputerVision （ WACV ）， 2017IEEEWinterConferenceon. pp.953-961IEEE（2017）14. Fu，C.Y.，刘伟，Ranga，A.，Tyagi，A.，Berg，A.C.：Dssd：解卷积单次激发探测器。arXiv预印本arXiv：1701.06659（2017）15. Gidaris，S.，Komodakis，N.：基于多区域和语义分割感知cnn模型的目标检测。 In ： Proceedings of the IEEE InternationalCo nfere nceo nComputerVisio n.pp. 113416. Girshick ， R. ：快速 R-CNN 。 In ： Proceedings of the IEEE internationalconference oncomputervision. pp. 144017. 格尔希克河Donahue，J.，Darrell，T.，Malik，J.：丰富的特征层次结构，用于精确的对象检测和语义分割。In：Proceedings of the IEEEconnfere nceo n computtervisio n and patter nre cognitio n.pp. 58018. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习在：IEEE计算机视觉和模式识别会议论文集。pp. 77016W. Liu，S.廖，W.Hu，X.梁和X。陈19. Hosang，J.，Omran，M.，Benenson河Schiele，B.：仔细观察行人。在：IEEE计算机视觉和图像处理会议论文集中。pp. 407320. Howard，A.G.，Zhu，M.，陈伯，Kalenichenko，D.王伟，Weyand，T.，Andreetto，M.，Adam，H.：Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861（2017）21. Kong，T.，孙，F.，Yao，A.，刘洪，Lu，M.，陈Y：Ron：反向连接对象先验网络进行对象检测。arXiv预印本arXiv：1707.01691（2017）22. Kong，T.，Yao，A.，陈玉，孙，F.：Hypernet：Towards Accurate RegionProposal Generation and Joint Object Detection. In ： Proceedings of the IEEEconference on commputervis is inandpater nrecognition. pp. 84523. 李，H.，Eum，S.，Kwon，H.：基于多专家区域的cn

下载后可阅读完整内容，剩余1页未读，立即下载