基于面具引导的遮挡行人检测网络

32 浏览量更新于2023-10-12 收藏 1.33MB PDF 举报

遮挡行人检测

深度卷积神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4967基于面具引导的注意力网络的遮挡行人检测Yanwei Pang1，Jin Xie1，Muhammad Haris Khan2，Rao MuhammadAnwer2，Fahad Shahbaz Khan2，3，Ling Shao21天津大学2InceptionInstituteofArtificialIntelligence，UAE3CVL，Linko¨ pingUni versity，Sweden{pyw，jinxie}@ tju.edu.cn，{muhammad.haris，rao.anwer，fahad.khan，ling.shao}@inceptioniai.org摘要基于深度卷积神经网络的行人检测已经取得了重大进展。虽然在标准行人上取得了令人满意的结果，但在严重遮挡的行人上的性能仍远不能令人满意。主要原因是涉及其他行人的类内遮挡和由其他物体（如汽车和自行车）引起的类间这些导致多种遮挡模式。我们提出了一种方法，遮挡行人检测与以下贡献。首先，我们介绍了一种新颖的面具引导的注意力网络，行人检测管道。我们的注意力网络em-基线我们地面实况对可见行人区域进行相位调整，通过调整全身特征来遮挡其次，我们经验证明，粗层次的分割an-符号提供合理的近似，其密集的像素明智的同行。实验在CityPersons和Caltech数据集上进行。我们的方法在两个数据集上都设置了与CityPersons测试集的严重遮挡HO行人集上的最佳报告结果[31]相比，我们的方法在对数平均错过率方面获得了9.5%的绝对增益此外，在加州理工学院数据集的HO行人集上，与最佳报告结果相比，我们的方法在对数平均未命中率方面实现了5.0%的绝对增益[13]。代码和模型可在 https://github.com/Leotju/MGAN 上获得。1. 介绍行人检测是一个具有挑战性的计算机视觉问题，有许多现实世界的应用。最近，深度卷积神经网络（CNN）已经渗透到计算机视觉的许多领域，从对象识别[25，10，27，22]到通用对象检测[24，15，14]，行人检测[23，16，2，17，1，29]。尽管最近的进展与非闭塞或合理闭塞的行人的标准基准，国家的最先进的方法仍然在严重闭塞的斗争图1.使用我们的方法（顶行）和基线Faster R-CNN [24]（底行）的检测示例为了改善可视化，检测区域从CityPersonsval的图像中裁剪设置[31]。所有结果均使用相同的每图像假阳性（FPPI）标准获得。我们的方法鲁棒地处理遮挡，产生更高的召回被遮挡的行人。例如，当步行靠近时，行人可能被其他行人和/或其他物体（如汽车和自行车）阻挡。为了说明，图1显示了基线Faster R-CNN行人检测器[24]在严重遮挡下的性能。处理闭塞是一个关键挑战;它们经常出现在行人检测的实际应用中。因此，最近的基准点特别关注严重遮挡的行人检测。例如，CityPersons [31]数据集有大约70%的行人描绘了不同程度的遮挡。大多数现有方法采用整体检测策略[23，16，2，17]，其假设在使用全身注释进行训练时完全可见的足。然而，这种策略在部分或严重遮挡下是次优的，因为行人的身体的大部分由于在全身检测窗口内包括背景区域，最近，几种行人检测方法[20，18，28，496835，21]通过学习一系列被集成以检测部分被遮挡的行人的部分检测器来解决遮挡。它们要么学习一个集成模型并整合它们的输出，要么联合训练不同的遮挡模式来处理遮挡。基于集成的方法在计算上是昂贵的，这妨碍了实时检测。另一方面，基于遮挡模式的联合学习的方法相反，我们研究遮挡行人检测没有明确使用的部分信息。与用于处理遮挡的基于部分的方法相比，一些方法[33，36]利用可见区域信息，可与标准行人检测基准[31，7]一起使用，以输出可见部分区域用于生成遮挡[36]或作为外部监督来学习遮挡模式[33]。在这项工作中，我们跟随这些最近的方法来解决遮挡检测的问题的脚步。与[36，33]不同，我们利用可见的身体信息来产生逐像素的空间注意力，以调制标准全身估计分支中的多通道特征。所提出的掩模引导空间注意力网络可以很容易地集成到主流的行人检测器中，并且不限于特定的遮挡模式。图1表明，所提出的方法是能够检测被遮挡的行人在一个广泛的频谱范围从部分到严重的闭塞。贡献：我们提出了一种称为 Mask-Guided AttentionNetwork（MGAN）的深层架构，它包括两个分支：标准行人检测分支和新的面具引导注意分支。的标准行人检测分支使用全身注释生成特征以进行监督。所提出的面具引导的注意力分支使用可见区域信息产生逐像素注意力图，从而高亮可见身体区域，同时抑制行人的遮挡部分。空间注意力地图，然后部署调制标准的全身特征，强调可能属于可见的部分的行人的区域。此外，我们的经验表明，对于被遮挡的行人检测，密集的像素级注释的弱近似产生类似的结果。我们在两个行人检测基准上进行实验：[ 31 ]第31章：你是谁？在这两个数据集上，与现有的行人检测方法相比，我们的方法显示出更好的结果。此外，我们的方法从44提高了最新技术水平[36]。2到394在CityPersons的HO集合有35-80%的行人被遮挡，使用相同监管水平、投入规模和骨干网络。2. 相关工作深度行人检测。最近，基于深度学习技术的行人检测方法已经表现出最先进的性能[23，16，2，17，1，29，30，8]。基于CNN的检测器可以大致分为两类：两阶段方法，包括单独的建议生成，然后是建议的置信度计算;以及一阶段方法，其中建议生成和分类被公式化为单阶段回归问题。大多数现有的行人检测方法采用单阶段[23，16，19]或两阶段策略[2，17，1，29]作为其骨干架构。[23]的工作提出了一种循环滚动卷积架构，该架构在特征图之间聚合有用的上下文信息以改进单级检测器。Liu等[16]用存储多个预测因子的渐近局部化拟合模块扩展了单阶段架构，以发展默认锚框。这提高了正样本的质量，同时使硬负挖掘具有更高的阈值。在两阶段检测策略中，[2]的工作提出了一种深度多尺度检测方法，其中采用具有与不同对象尺度相似的感受野的中间网络层Mao等人[17]建议将信道特征（即，边缘、热图、光流和视差）到两级深度行人检测器中。[1]的工作介绍了一种用于行人检测和语义分割的联合监督的多任务方法。分割融合层用于突出行人，从而使下游检测更容易。[5]的工作采用了两阶段预训练的人员检测器（Faster R-CNN）和用于人员重新识别的实例分割模型。每个检测到的人都从原始图像中裁剪出来，并馈送到另一个网络。Wang等人[29]引入了排斥损失，其防止预测的边界框移动到相邻的重叠对象以对抗遮挡。由于它们在行人基准上的优异性能[31]，我们在工作中部署了行人检测中的遮挡处理。一些作品研究了行人检测中的遮挡处理问题。一种常见的策略[18，34，20，28，35]是基于部件的方法，其中一组部件检测器被学习，每个部件被设计为处理特定的这些基于部分的方法中的一些[18，28]针对大多数发生的遮挡模式训练整体模型，并且由于部署大量部分检测器而在计算上是昂贵的。或者，一些基于部件的方法[20，35]依赖于部件集合的联合学习来捕获遮挡模式。与上述方法相反，最近的方法已经利用可见身体信息作为显式分支来回归可见部分区域以用于生成过程[36]，或者作为外部指导来学习特定的遮挡模式（全身、上半身、左半身和右半身）。4969图2.Mask-Guided Attention Network（MGAN）的整体网络架构它包括一个标准的行人检测（SPD）分支，其组件以蓝色显示它介绍了一种新的面具引导注意（MGA）模块封闭在红色虚线框。注意，在RoI Align之后，在SPD分支中存在分类阶段，其第一层由FC（1024）示出。在我们的架构中，在RoI Align层之后的SPD分支中的标准全身特征在分类阶段评分之前由MGA分支调制。这与基线SPD形成对比，在基线SPD中，这些特征直接成为分类级的输入而没有任何调制。[33]第33话被监视与[36]不同与ATT-vbb [33]不同，我们提出了一个空间注意力网络，它不仅限于某些类型的遮挡模式。此外，当使用相同水平的监督、输入规模、骨干和训练数据时，与[36]和[33]相比，我们的方法分别在CityPersons的HO集合上提供了4.8%和5.6%的显著增益3. 该方法我们提出了面具引导注意力网络（MGAN），具有一个新的面具引导注意力分支。它产生了一个像素级的注意力地图，突出显示可见的身体部位，同时抑制全身特征中被遮挡的部位。该分支是一个轻量级、易于实现的模块，并集成到标准行人管道中，从而使单一、连贯的架构能够进行端到端培训。整体提出的架构包括两个主要分支：标准行人检测器（SPD）分支，使用全身信息检测行人[24]，其组件在图中以蓝色显示。2，和一个新的掩模引导注意力（MGA）分支，产生一个像素级的注意力地图，采用可见的边界框信息。该分支调节全身特征，并在图中以红色虚线框显示。二、接下来，我们回顾SPD分支，然后详细介绍MGA分支的设计。3.1. 标准行人探测器分公司我们选择Faster R-CNN[24]作为标准的行人检测分支，主要是因为其最先进的性能。它以原始图像作为输入，首先部署一个预训练的ImageNet模型，如VGG-16 [25]，然后部署一个区域预测网络（RPN）来生成区域建议。通过在提取的特征图中裁剪相应的感兴趣区域（RoI）来提取提案特征，并进一步重新使用RoI池化层将它们调整为固定尺寸。请注意，我们在实验中将RoI池化层替换为RoI Align层[9这使得每个建议具有相同的特征长度。这些特征经过一个分类网络，生成分类分数（即，该提议包含行人的概率）和每个提议的回归边界框坐标。图2直观地示出了上述步骤。由于Faster R-CNN中的每一层都是可微的，因此它可以通过以下损失函数进行端到端训练：L0=Lrpn+Lrcnn。（1）每个项都有一个分类损失和一个边界框回归损失。因此，Eq.1可以写成：L0=Lrpn cls+Lrpn reg+Lrcnn cls+Lrcnn reg，（2）其中Lrpncls和Lrcnncls分别指RPN和R-CNN 的分类损失，Lrpnreg和Lrcnnreg分别是RPN和R-CNN的边界框回归损失。这里，分类损失是交叉熵损失，边界框回归损失是平滑L1损失。讨论尽管为非闭塞行人取得了令人印象深刻的结果，这和类似的管道挣扎-在存在部分和重度闭塞的情况下，GLE -显示高错过率。图3描绘了使用全身边界框注释训练的行人检测器产生较少的误报，但错过了几个行人。这可能是由于特征对与行人的被遮挡部分相对应的建议的由于遮挡改变了行人的外观，因此遮挡部分的特征与可见部分有很大不同。我们将展示如何抑制这些（包括）功能，并增强可见的，以获得更强大的功能1。我们提出了一个面具引导的空间atten-1有人可能会说，一个简单的解决方案可以是训练一个只由可见区域注释监督的行人虽然所得到的检测器将捕获被遮挡的行人，并将降低错过率，它会导致高误报检测。VGG16RoIAlignFC（102FC（102FC（RPNMGAFC（Lrcnn_regLrcnn_clsL型掩模4970图3.通过全身边界框注释训练的行人检测器的结果。我们显示了三种不同的闭塞性空间。绿色实心框表示检测器的预测，绿色虚线框表示未检测到的检测。该检测器不能捕获严重遮挡的行人，并且在类似情况下可能导致高错过率。(a)（b）（c）（d）（e）（f）图4.由我们的MGA分支生成的空间注意力面具。三个空间注意掩模对应于不同遮挡的行人，即。部分和沉重。请注意，在每个遮罩中，可见部分的增强和遮挡部分的隐藏。该方法在强调可见区域特征的同时，极大地消除了遮挡特征的影响，并且不限于某些遮挡类型。这个面具引导的注意力网络是集成到标准行人检测网络中的轻量级CNN分支3.2. 掩码引导注意分支所提出的掩码引导的注意力分支在图中用红色注释框突出显示。二、它产生一个由可见区域边界框信息监督的空间注意力掩模，并使用该掩模调制由RoIAlign层生成的多通道特征。图4示出了三个不同的被遮挡的人及其对应的空间注意力掩模。对于三种不同的遮挡模式，这些掩模准确地显示了可见部分并隐藏了遮挡部分使用这些遮罩的调制特征有助于分类网络以更高的置信度检测部分和严重遮挡的行人，否则可能由于得分不高而无法检测到。下面的小节详细介绍了我们的面具引导注意力分支。3.2.1MGA架构拟议的MGA分支架构如图所示。五、MGA分支的输入是来自RoI Align层的多通道功能，输出是调制的多通道功能。调制特征是使用行人概率图生成，称为空间注意掩模。我们将输入特征表示为Fr∈图5.我们的面具引导注意力（MGA）分支的网络架构它采用RoI特征，并使用一小堆conv生成调制特征。操作，然后是ReLU非线性。[H×W×C]，其中前两个维度是分辨率，最后一个维度是深度。首先，两个3×3滤波器大小的卷积层，然后是整流线性单元（ReLU）提取特征。然后，1×1滤波器大小转换。层后接 sigmoid 层生成概率图Fpm∈[H×W×1]。在我们的实验中，H和W设置为7，C设置为512。这些概率图Fpm调制建议的多通道特征Fr以获得重新加权的特征Fm。我们通过取Fr中每个特征通道与Fpm的元素乘积来实现这一点：F mi = F ri <$F pm，i = 1，2，.，C，（3）其中，i是信道索引，并且m是逐元素乘积。代替RoI特征Fr，我们馈送调制特征Fm到分类网为提案打分。图6示出了与RoI特征相比，来自MGA分支的调制特征具有表示的可见区域和隐藏的遮挡部分，从而导致遮挡建议的相对3.2.2粗级分割标注建议和图像级分割的空间注意力掩模需要以密集像素分割注释的形式进行监督。然而，这在包括行人检测在内的许多计算机视觉任务中是难以获得的。因此，我们适应可见区域边界框注释作为一个近似的替代方案。这种注释对于流行的行人检测基准[31，7]是现成的。调整如下。如果像素位于可见区域边界框注释中;它是具有标记1前景像素。类似地，该区域之外的像素是背景像素，并且其标签为零。该标记过程创建粗略级别的分割注释。重要的是，这种弱标记的注释在我们的实验中生成了准确的掩模（见图1）。4）. MGA分支的描述到此结束，下面的小节讨论在所提出的方法中优化的损失函数FrConv3×3×CReLUConv3×3×CL型掩模Conv1×1×1ReLUFmFpm4971nn(a)（b）（c）（d）（e）（f）图6.视觉比较RoI特征和相应的调制特征。(a)及（d）是两项不同的建议。(b)以及（e）描绘它们相应的RoI特征。(c)和（f）示出了它们相应的调制特征。与RoI特征相比，MGA分支的调制特征具有可见区域所指和遮挡部分隐藏。3.2.3损失函数在这里，我们提出了我们的损失函数的建议架构MGAN。总损失公式L为：L=L0+αLmask+βLocc，（4）其中L0是更快的R-CNN的损失，如等式（1）、L掩码是所提出的MGA分支的损失项，并且Locc是遮挡敏感损失项。请注意，我们倾向于本着端到端培训的精神，共同优化所有损失。在我们的实验中，我们设置α=0。5，默认情况下β=1。L_mask和L_occ是在正方案上定义的。粗糙级（弱）监督上的L掩码被公式化为每像素二进制交叉熵损失（BCE损失）：Lmask=BCELoss（pn（x，y），pn（x，y）），（5）其中，pn（x，y）是MGA分支产生的预测，pn（x，y）表示地面实况，即，粗级分段注释。此外，为了使分类损失知道可变的遮挡水平，我们引入了遮挡敏感损失项Locc。当计算标准交叉熵损失（CE损失）时，它只是根据行人的遮挡水平（从pn（x，y）4. 实验4.1. 数据集和评估指标数据集。我们在两个行人检测基准上进行实验：[ 31 ]第31章：你是谁？CityPersons [31]是一个具有挑战性的行人检测数据集，并表现出很大的多样性。它由2975张训练图像、500张验证图像和1575张测试图像组成加州理工学院行人是一个流行的数据集[7]，包含11组视频。前6组（0-5）对应于训练，最后5组（6-10）用于测试。为了增加训练集大小，帧以10Hz采样。测试图像以1 Hz采集。最后，训练集和测试集分别有42782和4024张图像。这两个数据集提供了全身和可见区域的框注释。评估指标。在实验中，我们使用标准的平均对数未命中率（MR）报告性能;它是在每图像假阳性（FPPI）范围内计算的，[10−2，100][7]。我们选择MR−2，其较低的值反映了更好的检测性能。在加州理工学院的数据集上，我们报告了三种不同遮挡程度的结果：合理（R）、重度（HO）和组合合理+重（R+HO）。对于CityPersons数据集，我们遵循[31] 并报告合理（R）和重（HO）集的结果。R集的可见率大于65%，HO集的可见率在20%~65%之间。同样，在R + HO集合中，可见率大于20%.在所有子集中，超过50像素的行人高度被用于评估，如[33]所示。请注意，HO集旨在评价严重闭塞情况下的性能。4.2. 实施和培训详情对于这两个数据集，网络都是在NVIDIA GPU上训练的，每个GPU包含2张图像。我们选择Adam [11]求解器作为优化器。我们现在详细介绍两个数据集的特定设置。城市人我们在CityPersons trainset上微调ImageNet预训练的VGG- 16 [25]模型。除了我们使用两个具有1024个输出维度而不是4096个输出维度的全连接层，我们遵循相同的实验-谈话协议如[31]。我们从前8个epoch的初始学习率1×10−4开始 1×10−5，执行3个epoch。加州理工我们从在 City Per 上预训练的模型开始 -地点=1ΣN{[1−1 ΣWΣHpn（x，y）]儿子数据集。为了微调模型，初始学习率10−4用于前3个训练时期。训练Nn=1WHxy（六）在衰减之后，进一步执行另外1个时期，CELoss（prcnncls，prcnncls）}，初始学习率提高了10倍。n n其中W和H是踏板的宽度和高度-4.3. CityPersons数据集上的消融研究Trian概率图prcnncls是预测亲，我们通过执行一个引入了RCNN的分类分支，并将prcnncls代表了地面实况。CityPersons数据集上的消融研究。基线比较。选项卡. 1显示基线比较-4972方法R何基线SPD（等式中的L0（1））13.857.0我们的MGAN（L0+L面罩）11.952.7我们的MGAN（L0+Locc）13.255.6我们的最终MGAN（L0+Lmask+Locc）11.551.7表1.我们的MGAN的比较（对数平均未命中率）与城市人的基线一致最好的结果是粗体。除了我们的最终MGAN（最后一行）之外，我们还单独显示了我们的MGA分支（第二行）和遮挡敏感损失项（第三行）的性能。为了公平比较，我们使用相同的训练数据，输入规模（×1）和网络骨干（VGG-16）。在重遮挡集（HO）上，与基线相比，我们的检测器将误差从57.0显著降低到51.7。设置密集的逐像素注释粗层次注释R11.211.9何51.752.7表2.当使用密集像素标记时，我们的MGAN检测器与通过我们的MGA分支中的可见边界框信息获得的粗糙级别分割的比较（对数平均未命中率）。在我们的MGA分支中用后者取代前者不会导致检测性能的显著恶化。在这两个集合上，我们的基于粗级分割的方法提供了注释成本和准确性之间的权衡设置[50，75][75、125]>125基线SPD66.359.743.1关于我们61.752.337.6表3.比较（对数平均未命中率），将pedes-trians除以w.r.t.高度（pixels）：小型[50-75]、中型[75-125]和大型（> 125）分别占CityPersons HO集的28%、37%和35%。在每种情况下，最好的结果都是粗体的。儿子为了公平比较，我们在所有方法的训练期间使用相同的地面实况行人示例集。我们选择地面实况行人的例子，至少50像素高，能见度≥65%的训练目的。基线SPD检测器获得对数平均值13的失误率。8%，57。在CityPer- sons数据集的R集和HO集上分别为0%基于MGA分支和遮挡敏感损失项的最终MGAN显著降低了R和HO集上的错误。在重度阻塞（HO）下，我们的MGAN实现了5的绝对减少。与基线相比，对数平均未命中率为3%（HO）集上的误差的显著减少证明了我们的MGAN相对于基线的有效性与其他注意力策略的比较。我们将我们的方法与[33]提出的注意力策略进行比较。[33]的工作研究了通道注意（CA）、可见框注意（CA-VBB）和部分注意（CA-Part）。CA和CA-VBB都利用了信道方面的注意力，后者也使用VBB信息。此外，CA-Part还利用了在MPII Pose数据集上预训练的零件检测网络。与CA-Part相比，我们的方法不需要额外的部分检测注释。我们将CA和CA-VBB结合起来进行实验表4.比较（在对数平均未命中率方面）与在CityPersons验证集上使用可见边界框（VBB）和为了公平比较，我们在与每种方法进行比较时使用相同的地面实况行人示例（可见性）和输入尺度进行训练。我们的MGAN在两个集合上都优于所有三种方法。在重度闭塞（HO）下，与最近引入的Bi-Box相比，我们的MGAN将误差从44.2显著降低至39.4 [36]。在每种情况下，最好的结果都是粗体的。[33]在我们的框架中。在CityPersons验证集的R和HO集上，CA注意策略的对数平均未命中率为17。3%，54。5%，分别。CA-VBB注意方案获得14的对数平均未命中率。0%，54。1%的R和HO集，分别。我们的方法没有L occ优于CA和CA-VBB策略的R和HO集实现了11的对数平均错过率。9%，52。7%，分别。粗分割的影响。如第3.2.2节所述，获取密集像素标记的成本很高。此外，这种密集的注释仅适用于CityPersons，而不适用于Caltech数据集。我们验证我们的方法，使用粗层次的分割，并比较它与使用密集的像素标签在选项卡。二、在这两个集合上，用我们的MGA分支中的粗水平信息和密集像素标记获得了类似的结果我们的结果在Tab. 2也与实例分割中的先前工作一致[6]。此外，我们的最终输出是一个检测框，它不需要像[6]中那样精确的分割掩码预测。另外，由于网络进行的高级别的汇集操作（即，我们使用来自VGG的conv53的因此，我们的方法提供了一个注释成本和准确性之间的权衡.严重闭塞和尺寸变化。我们还评估了我们的方法对不同大小的严重闭塞选项卡. 3表明，我们的方法为所有情况提供了改进，与基线相比，对于小尺寸（50-75像素高）严重遮挡的行人，显著增益为4.6%4.4. 城市人研究现状比较我们的MGAN检测器与最近最先进的方法进行了比较，即排斥损失[29]，ATT部分[33]，ALFNet [16]，OR-CNN [32]，TLL [26]，Bi-Box [36]方法VBB骨干数据（可见性）规模R何[32]第三十二话关于我们CCVGGVGG≥50%≥50%×1×112.810.555.747.2[32]第三十二话关于我们CCVGGVGG≥50%≥50%×1。3×1。311.09.951.345.4[33]第三十三话关于我们CCVGGVGG≥65%≥65%×1×116.411.557.351.74973图7.使用我们提出的行人检测器在CityPersons数据集上检测示例地面实况和我们的探测器预测分别以红色和绿色显示。我们的检测器可以准确地检测部分和严重遮挡下的行人。在CityPersons验证集上。值得一提的是，现有的行人检测方法采用不同的地面实况行人样本集进行训练。因此，当与每种最先进的方法进行比较时，我们选择相同的地面实况行人在现有的方法中， ATT-vbb[33]，OR-CNN[32] 和Bi-Box [36]采用与我们的方法类似的可见边界框（VBB）和全身信息因此，我们首先将我们的方法与这三种方法进行比较。选项卡 . 图 4 示出了CityPersons 的 R 和 HO 集合上的日志平均未命中率（MR）数据集。我们的MGAN在这两个方面都R和HO集。当使用1×的输入尺度时，OR-CNN方法[32]采用全身和可见的重建。gion信息，并强制行人建议接近和compensarily定位到相应的对象，实现了12.8和55.7的对数平均错过率R和HO集。 Or-的检测结果CNN [32]在使用1的输入尺度时得到了改进。3×。我们的MGAN检测器优于OR-CNN，具有显著的两个输入比例上的铁路超高余量。对于 1× 的输入尺度， ATT-vbb 方法 [33] 采用FasterRCNN检测器和可见边界框通道注意力网络，分别在R和HO我们的MGAN提供了优越的检测结果，在R和HO集上的对数平均未命中率分别为11.5和51.7。此外，最近引入的 Bi-Box 方法 [36] 利用可见边界框（VBB）信息来生成用于行人建议生成的可见部分区域。在R和HO集合上，双盒方法[36]使用输入标度1分别产生11.2和44.2的对数平均未命中率。3×。我们的MGAN在两个集合上的表现都优于Bi-Box，分别实现了10.5和39.4的对数平均未命中率。总结一下，Tab. 4清楚地表明了我们的MGAN在处理严重闭塞（HO）方面的有效性，与这些方法[33，32，36]相比，使用相同水平的监督，训练期间的地面实况行人示例，输入规模和骨干。选项卡. 5进一步显示了与所有已发表的CityPersons最先进方法图7显示示例de-方法数据（可见性）规模R何TLL [26]-×114.452.0ATT-部分[33]≥65%×116.056.7[29]第二十九话×113.256.9MGAN×111.551.7[32]第三十二话≥50%×112.855.7MGAN×110.547.2ALF [16]≥0%×112.051.9MGAN×111.342.0[29]第二十九话≥65%×1。311.655.3MGAN×1。310.349.6[32]第三十二话≥50%×1。311.051.3MGAN×1。39.945.4双盒[36]≥30%×1。311.244.2MGAN×1。310.539.4表5.MGAN与CityPersons验证集文献中最先进方法的比较（对数平均缺失率）我们的MGAN通过优于所有现有方法而设置了一个新的最先进的状态。在每种情况下，最好的结果都是粗体的。方法R何自适应更快的RCNN [31]12.9750.47[29]第二十九话11.4852.59[32]第三十二话11.3251.43关于我们9.2940.97表6.MGAN与CityPersons测试集上最先进方法的比较（以对数平均未命中率计测试集被保留，通过将我们的检测预测发送给CityPersons数据集[31]的作者进行评估来获得结果。从我们的MGAN对CityPersons的保护。实例显示了一个范围内的闭塞程度，即。从偏到重。最后，泰伯。6显示了CityPersons测试集上的最新比较。4.5. 加州理工学院数据集在此，将MGAN与以下最新技术水平的方法进行比较： CompACT-Deep [3] ， DeepParts[28] ， MS-CNN4974[2]，RPN+BF [30]，SA-F.RCNN [12]，MCF [4]，SDS-RCNN [1] ， F.RCNN [31] ， F.RCNN+ATT-vbb [33] ，GDFL[13] 和Bi-Box [36]。选项卡. 图7在所有三个遮挡子集下比较了MGAN与最先进的方法4975(a) R（b）HO（c）R+HO图8.加州理工学院数据集R，HO和R+HO子集的最新比较。每个图中的图例表示FPPI=[10−2，100]上的对数平均未命中率。我们的方法提供了优越的结果相比，现有的方法对所有三个子集。(a) MGAN表7.MGAN与加州理工学院数据集上的最新方法的比较（就对数平均未命中率而言第二列指示该方法是否专门针对处理遮挡。最佳结果以粗体显示。在重度遮挡（HO）下，我们的检测器的性能优于最先进的GDFL检测器5.0%。此外，与所有已发表的方法相比，我们的检测器在合理（R）和合理和严重遮挡的组合集（R+HO）上提供了更好的结果。R、HO和R+HO。在现有方法中，SDS-RCNN方法[1]报告了R集上的对数平均缺失率为7.36我们的MGAN实现了优越的结果，在这个集合上的对数平均未命中率为6.83。在HO和R+HO集上，GDFL检测器[13]在现有方法中提供了最佳结果，其对数平均未命中率分别为43.18和15.64。我们的MGAN检测器在HO和R+HO集上的绝对增益分别为5.02%和1.80%，优于GDFL。图8显示了我们的检测器与现有方法在每个图像度量的整个假阳性范围内的比较。我们通过在图9中与ATT-vbb [33]和GDFL [13]进行目视比较，进一步表明了MGAN在处理闭塞方面的有效性。所有结果均使用相同的FPPI获得。我们的MGAN在所有五种情况下都能准确检测行人。(b) [33]第三十三话(c) 广东外语外贸大学[13]图9.（a）MGAN与（b）ATT-vbb的定性比较[33]和（c）GDFL [13]在Caltech测试集上。红框表示地面实况，绿框表示探测器预测。示例图像描绘了不同程度的闭塞。5. 结论我们提出了一个面具引导的注意力网络（MGAN）的遮挡行人检测。MGA模块使用可见身体区域信息生成空间注意掩模。所得到的空间注意力掩模调节全身特征（即，突出显示足可见区域的特征，并抑制背景）。代替密集的像素标记，我们采用粗级分割信息的可见区域。除了MGA之外，我们还引入了一个遮挡敏感的损失项。在两个数据集上的实验清楚地表明了我们的方法的有效性，特别是对于严重遮挡的行人。鸣谢本工作得到了国家自然科学基金（ Grant#61632018）的资助。检测器发生R何R+HO[3]第三章×11.7565.7824.61[28]第二十八话C11.8960.4222.79MCF [4]×10.4066.6922.85ATT-部分[33]C10.3345.1818.21美国有线电视新闻网[2]×9.9559.9421.53RPN+BF [30]×9.5874.3624.01SA-F.RCNN [12]×9.6864.3521.92SDS-RCNN [1]×7.3658.5519.72F.RCNN [31]×9.1857.5820.03广东外语外贸大学[13]×7.8543.1815.64双盒[36]C7.6144.4016.064976引用[1] Garrick Brazil，Xi Yin，and Xiaoming Liu.通过同时检测分割照亮行人。InICCV，2017. 一、二、七、八[2] Zhaowei Cai，Quanfu Fan，Rogerio Schmidt Feris，andNuno Vasconcelos.一个统一的多尺度深度卷积神经网络，用于快速目标检测。在ECCV，2016年。一、二、七、八[3] ZhaoweiCai ， MohammadSaberian ， andNunoVasconcelos.学习复杂性感知级联，用于深度行人检测。在ICCV，2015年。七、八[4] 曹佳乐，庞彦伟，李雪龙。学习多层通道特征用于行人检测. TIP，26（7）：3210-3220，2017年7月。七、八[5] 帝尘，张珊珊，欧阳万里，杨健，英泰。基于掩码引导的双流cnn模型的人员搜索。在ECCV，2018。2[6] 戴季峰、何开明、孙建。Boxsup：利用边界框来监督卷积网络进行语义分割。在ICCV，2015年。6[7] PiotrDolla'r，ChristianWojek，BerntSchiele，andPietroPerona.行人检测：对最新技术水平的评价。TPAMI，34（4）：743-761，April 2012. 二、四、五[8] Xianzhi Du ， Mostafa El-Khamy ， Jungwon Lee ， andLarry Davis. Fused dnn ： A deep neural network fusionapproach to fast and robust pedestrian detection. 在WACV，2017年。2[9] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。InICCV，2017. 3[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。1[11] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。5[12] 李佳楠，梁晓丹，沈盛梅，徐廷发，冯季阿施，严水成.用于行人检测的尺度感知快速r-cnn。TMM，20（4）：985-996，2018年4月。七、八[13] Chunze Lin，Jiwen Lu，Gang Wang，and Jie Zhou.用于行人检测的粒度感知深度特征学习在ECCV，2018。一、七、八[14] Tsung-YiLin ， Priyal Goyal ， Ross Girshick ， KaimingHe，and PiotrDol la'r. 密集目标检测的焦面损失。TPAMI，2018年。1[15] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. Ssd：单发多盒探测器。在ECCV，2016年。1[16] Wei Liu，Shengcai Liao，Weidong Hu，Xuechi Liang，and Xiao Chen.学习有效的单级行人检测器的渐近定位拟合。在ECCV，2018。一、二、六、七[17] 毛嘉源，肖特特，姜宇宁，曹志敏。什么可以帮助行人检测？在CVPR，2017年。 1、 2[18] Markus Mathias 、 Rodrigo Benenson 、 Radu Timofte 和Luc Van Gool。用franken-classifiers处理遮挡InICCV，2013. 2[19] Junhyug Noh，Soochan Lee，Beomsu Kim，and GunheeKim. 改进单级行人检测器的遮挡和硬负处理。在CVPR，2018年。2[20] 欧阳万里和王晓刚。联合深度学习用于行人检测。InICCV，2013. 2[21] Yanwei Pang，Jiale Cao，and Xuelong Li.最优分割级联学习TCyb，47（12）：41482[22] Yanwei Pang，Manli Sun，Xiaoheng Jiang，and XuelongLi.网络中的网络的卷积中的卷积TNNLS，29（5）：1587-1597，May 2018. 1[23] Jimmy Ren，Xiaohao Chen，Jianbo Liu，Wenxiu Sun，Jiahao Pang，Qiong Yan，Yu-Wing Tai，and Li Xu.使用循环滚动卷积的精确在CVPR，2017年。一、二[24] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络

下载后可阅读完整内容，剩余1页未读，立即下载