拥挤行人检测：基于建议配对的NMS

48 浏览量更新于2023-10-25 收藏 864KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10750按代表性区域划分的NMS：基于建议配对的拥挤行人检测黄欣1人、郑戈1人、泽群杰2人、吉江修1人、早稻田大学2人、腾讯AI Labkoushin@toki.waseda.jp; jokerzz@fuji.waseda.jp;zequn. gmail.com; yoshie@waseda.jp摘要虽然行人检测技术近年来取得了很大的进展，但拥挤场景下的行人检测仍然是一个挑战。行人之间的严重遮挡对标准的非最大抑制（NMS）算法提出了很大的挑战.相对较低的交叉口对并集（IoU）阈值会导致错过高度重叠的行人，而较高的阈值会带来大量的误报。为了避免这种困境，本文提出了一种新的代表性区域NMS（R2NMS）方法，该方法利用较少遮挡的可见部分，有效地去除了冗余框，而不会带来许多误报。为了获得可见部分，提出了一种新完整的和可见的盒子构成了一对，作为模型的样本单元，从而保证了整个检测管道中两个盒子之间的强对应性。此外，方便的功能集成的两个盒子是允许的完整和可见的行人检测任务的更好的性能。在具有挑战性的CrowdHuman [20]和CityPersons [24]基准上的实验充分验证了所提出的方法在拥挤情况下行人检测的有效性。1. 介绍行人检测是自动驾驶汽车和智能视频监控等各种现实应用近年来，随着深度卷积神经网络（CNN）的兴起，行人检测器的性能得到了迅速提高然而，在遮挡情况下的行人检测仍然具有挑战性。闭塞通常可分为类间闭塞和类内闭塞。在类间遮挡中，人体的一部分被背景物体（如柱子、汽车、垃圾箱等）遮挡的[2]两位作者对这项工作的贡献相当图1. R2 NMS的图示。左侧的图像显示了NMS之前的两个检测结果。红色BBox是全身预测，绿色BBox是可见身体预测。右边的两个小图像显示了原始NMS和R2 NMS处理的最终结果。红色实心BBox表示保留的BBox，而红色虚线BBox表示减少的真阳性BBox。箭头表示IoU计算。他们全身预测的IoU为0.63，而他们可见身体的IoU仅为0.18。因此，原始NMS将减少红色虚线BBox，但R2NMS能够保留它.背景物体的特征混淆了模型，导致这种情况下的高丢失率。缓解类间遮挡的常见解决方案是基于实例部件建模[14，27，15]。可见部分可以提供更多的辨别力和自信的线索，以指导全身检测器。在类内遮挡中，行人彼此之间有很大的重叠，因此不同实例的特征将使检测器难以区分实例边界。因此，检测器可能会错误地在重叠区域给出大量的阳性结果.为了解决这个问题，Repulsion Loss [23]和AggLoss [25]提出了对出现在两个人中间的BBox的额外惩罚这些建议被迫牢固地定位并与地面实况对象紧密相关。然而，即使检测器成功地识别人群中的不同人类实例，高度重叠的结果也可能被非最大抑制（NMS）的后处理抑制。这使得目前的行人探测器陷入了两难境地：较低的交叉口联合（IoU）阈值导致错过高度重叠的行人，10751更高的IoU阈值自然会带来更多的假阳性。为了解决这个问题，已经提出了几个修改版本的NMS。软NMS [1]不是直接丢弃高度重叠的BBox，而是根据它们与最有信心的BBox的重叠来降低不太有信心的BBox的检测分数然而，它仍然引入了大量的高度重叠的BBox的假阳性。自适应NMS [12]提出了NMS的动态阈值版本。它预测密度图，并根据预测的密度为不同的BBox在NMS中设置自适应IoU阈值。然而，密度估计本身仍然是一项困难的任务，并且从密度到最佳IoU阈值的精确匹配也很难决定。此外，不准确的BBox预测通常会导致地面实况密度和预测BBox的IoU之间的不一致性，如图所示。2.这使得AdaptiveNMS仍然是一个次优解决方案。针对现有NMS算法存在的问题，提出了一种新的NMS算法--R2 NMS充分利用了NMS中行人的可见部分，有效避免了在高度重叠的全身上进行高难度NMS带来的麻烦。由于行人的可见部分通常较少受到遮挡，相对较低的IoU阈值足以去除定位同一行人的冗余BBoxR2NMS的图解如图所示. 1.一、为了获得行人的可见部分，我们提出了一种基于标准Faster R-CNN的新型配对盒模型（PBM）。PBM在RPN和R-CNN模块中同时预测行人的完整框和可见框（即，从RoI采样到最终的后分类和BBox回归层）。具体地，由完整和可见框构成的一对被定义为RPN和R-CNN模块的样本单元。这样的配对策略保证了整个检测流水线中的满盒和可见盒之间的强对应性。此外，配对解决方案允许两个框的有效特征集成，这有利于完整和可见的行人检测任务。在极端拥挤的基准CrowdHuman [20]和CityPersons[24]上的实验表明，所提出的方法可以达到最先进的结果，有力地验证了该方法的优越性。总之，这项工作的贡献有三个方面：（1）提出了一种新的NMS方法--R2 NMS，克服了原有NMS的不足;（2）配对箱模型（PBM），其同时预测单个行人的满箱和可见箱，并执行两个箱的方便特征集成;（3）在具有挑战性的CrowdHuman和CityPersons基准上的最新结果。图2.说明AdaptiveNMS的弱点[12]。绿色BBox是全身注释。红色虚线BBox是检测到的BBox，与地面实况不完全匹配检测到的BBox之间的重叠不同于地面实况BBox之间的如果在这种情况下应用AdaptiveNMS。将减少一个检测到的BBox。2. 相关作品通用对象检测。随着卷积神经网络（CNN）的快速发展[21，7，8]，在目标检测领域取得了很大进展。基于CNN的对象检测器通常分为一阶段和两阶段检测器。单阶段方法[13，17，10，18]旨在加速检测器的推理过程，以满足各种现实世界应用中的时间效率要求。与一阶段方法相比，两阶段检测器[4，19，5]旨在通过添加后分类和回归模块来细化检测结果，从而追求最为此，Faster R-CNN [19]及其变体，例如FPN [9]和Mask R-CNN [6]，为通用对象检测任务构建了强大的基线行人检测的遮挡处理。遮挡导致行人检测中的两个问题：对被遮挡的行人进行错误分类以及将检测到的结果错误地放置在人群中。前一个问题的常见解决方案是基于部分的方法[27，25，22]，其阐述了一系列身体部分检测器来处理被遮挡实例的特定视觉模式。除上述方法外，最近的一些工作集中在利用可见身体的注释作为额外的监督来提高行人检测的性能。Zhou等人[28]是第一个同时回归完整可见的行人身体的人。Zhang等人[26]利用可见部分的注释作为外部指导，以便更好地识别被遮挡实例。[16]将注意力机制纳入行人检测中，以迫使检测器10752图3.我们的Paried-Box模型。灰色箭头表示信息流。配对RPN从同一锚点生成一对建议。之后，pair proposal feature extractor聚合这对proposal feature并将其发送到P-RCNN。P-RCNN预测成对的BBox。最后，R2NMS作为我们的后处理方法来过滤误报。两个成对的BBox示例显示在棕色虚线框中。以更集中于行人的可见区域。拥挤场景中的行人检测也引起了人们的广泛关注. [23]和[25]都对出现在两个人中间的BBox自适应NMS [12]预测密度图以执行具有动态阈值的NMS的与现有方法不同的是，该方法利用可见区域信息辅助网络管理系统，并强制模型在整个流水线中同时学习完整和可见框，以保证两个框之间的强对应性。3. 方法在本节中，我们首先分析了标准NMS和自适应NMS[12]在处理人群情况时的弱点接下来，我们将介绍所提出的 R2NMS. 最后，我们详细介绍了配对箱模型（PBM）。3.1. 浅析原有网管系统与自适应网管系统在对象检测中，定位相同对象的多个对象提议可以被模型高度评分。在这种情况下，NMS有必要根据预测得分过滤掉不太自信的人。然而，在拥挤的情况下，地面实况行人高度重叠。自然地，定位不同行人的检测框也可以彼此具有高重叠因此，当在NMS期间使用MS COCO基准[11]中相对较低的IoU阈值时，例如，、0.5，则可以抑制不同实例的许多真阳性这大大降低了所有实例的召回率，从而损害了最终的检测性能。把人群-以man数据集为例，对于验证集中的99，481个地面实况实例中的每一个，我们假设检测器可以产生精确的BBox（即，，BBox评分1.0并且BBox和地面实况实例之间的IoU也是1.0）。然而，在使用IoU阈值0.5执行标准NMS之后，仅剩下90，232个精确的BBox。1近10%的地面实况实例在检测中被遗漏。这表明，在NMS使用相对低的IoU阈值之后，即使是完美的行人检测器也无法检测到所有的地面实况情况。相反，在NMS中设置更高的IoU阈值会保留更多的真阳性，同时显著增加假阳性。类似地，在Crowd-Human的验证集中，假设所有地面实况实例具有精确预测的BBox，当将NMS的IoU阈值设置为0.7时，缺失率将降低至1%。然而，更高的IoU阈值在实践中不可避免地会带来更多的误报。例如，在CrowdHuman的验证集中，基于ResNet-101的经过良好训练的Faster R-CNN在NMS之后产生了大约15，000个得分超过0.5的检测框，IoU阈值为0.7。请注意，地面实况实例数为99，481，因此约50，000个预测框是冗余或假阳性。因此，标准网管在拥挤的情况下的困境难以解决。为了克服标准 NMS 的缺点，提出了AdaptiveNMS[12]AdaptiveNMS [12]是NMS的动态阈值版本。它包含一个子-1所有的BBox都是随机排列的，因为它们的分数都是1.0。由于NMS中的随机顺序，结果可能略有不同10753我∈∈关于我们J1∈2n我我∈10：overlap←IoU（b，b）←∈我我算法1R2 NMS输入：分数：S ={s1，s2，...， sn}全身BBBo x es：Bf={bf，bf，.，bf}可见体BBbo x es：Bv={bv，bv，.，bv}NMS阈值：输出量：结果对：R1：R←{}12N图4. P-RCNN的插图。红色B框表示全身注释。绿色B框代表可见注释。橙色BBox是锚。(a)P-RCNN回归来自同一锚的一对亲核。(b)橙色的锚点被分配给男人，因为它与男人的完整可见的身体很好地对齐(c)橙色虚线锚点具有带有完整主体注释的大IoU，但是，它对可见主体不好。网络来预测每个位置的密度，并根据预测的密度在NMS中为不同的BBox设置自适应的IoU阈值。然而，密度估计本身仍然是一项艰巨的任务。此外，AdaptiveNMS中从密度到最佳IoU阈值的匹配仍然是手工制作的，因此很难获得精确的匹配。此外，不准确的BBox预测通常会导致地面实况密度和预测BBox的IoU之间的不一致。这种现象如图所示。2.所有这些使得自适应NMS仍然是次优解决方案。3.2. 按代表性区域划分为了克服标准NMS和AdaptiveNMS [12]的上述问题，我们提出了一种新的代表性区域 NMS（R2NMS）。R2NMS和标准NMS的主要区别在于IoU计算.具体地，不是直接计算两个全身框的IoU作为它们的“重叠度”，而是使用两个框的可见区域之间的IoU来确定两个全身框是否重叠。这种基于可见区域的重叠确定基于以下观察。位于不同足的BBox通常在其可见区域之间具有低的IoU，即使两个满盒之间的IoU很大。相反，当两个BBox定位同一行人时，完整区域和可见区域都将具有大的因此，两个框的可见区域之间的IoU是示出两个全身框是否属于同一行人的更好指示符因此，基于可见区域，相对较低的IoU阈值充分去除了定位同一行人的算法1中描述了R2NMS的详细算法3.3. 配对BBox Faster R CNN为了获得行人的可见部分，我们提出了一种新的配对箱模型（PBM），同时预处理，2：删除BBoxes索引列表：I3：根据S，按降序排列Bf和Bv4：forbvBvdo5：如果i I或i=n，则6：通过7：其他8：ji+ 19：forbvBvdovvI j11：如果重叠>重叠，则12：将j加到I13：f或（bf，bv）（Bf，Bv）do14：如果i / I，则15：将（bf，bv）加到R十六：返回R记录了一个行人的完整可见的盒子。为此，PBM基于标准的Faster R-CNN，具有以下三个修改，即：、配对区域预测网络（P-RPN）、配对建议特征提取器（PPFE）和配对R-CNN（P-RCNN）。具体地，P-RPN首先生成一组完整/可见建议对，每个建议对对应于行人的完整和可见区域。PPFE然后提取每个建议对的特征，并融合完整和可见框的特征，为每个对提供集成表示。最后，将集成的表示馈送到P-RCNN中，以对预测的完整和可见BBox执行成对分类和进一步细化。通过这种方式，可以获得具有强对应性的完整和可见身体的BBox，从而促进R2NMS的使用。区域提案网络。配对区域建议网络（P-RPN）的任务是生成成对的全身和可见体建议。由于行人的完整和可见区域通常具有高重叠，因此从同一锚点回归一对全身和可见身体建议是可行的。此外，从同一锚点回归两个提议提供了预测的全身提议和可见身体提议之间的固有对应。带注释的全身框F和对应的可见体框V构成一对Q =（F，V），10754×ROIAlign变平调整大小变平CROIAlign变平逐元素相乘C级联图5.我们提出的PPFE模块的插图。作为模型的地面实况单元。我们参考[28]中的pro-truth匹配方法，在训练P-RPN期间为锚点更具体地说，Faster R-CNN [19]中的地面实况分配策略通过增加一个限制进行了修改。对于某个节点，我们认为它的IoUw.r.t.全身地面实况盒和它的IoF w.r.t.可见的地面实况盒子。形式上，如果满足以下要求，则锚A被视为与地面实况对Q =（F，V）IoU（A， F）≥α1和IoF（A，V）≥β1IoU（A， F）=面积（A <$F）面积（A/F）IoF（A， V）=面积（A<$V）面积（V）这里α1和β1分别是全身和可见身体的正阈值实验表明，当α 1 = 0时，PBM的性能最好。β1= 0。7 .第一次会议。P-RPN 的详细架构遵循 Faster R-CNN 中的 RPN[19]。唯一的区别在于输出层。除了配对建议的位置之外，P-RPN还预测每对的分数，显示该对是否与行人匹配的置信度。因此，对于每个密集锚点，P-RPN产生10-d结果（Rf，Rv，S）。这里Rf和Rv 分别是4-dBBox回归向量（fx，fy，fw，fh）和（vx，vy，vw，vh ），分别朝向全身和可见身体地面实况。 S 是softmax归一化后的二维置信向量（S+，S−）。训练中使用的损失函数与标准RPN中的损失函数相同。配对建议特征提取器。R-RPN中的配对策略允许全面而清晰的建议。因此，我们提出了一个配对的亲-行人特征提取器（PPFE），以有效地整合信息，形成从这两个建议，促进全面和可见的行人检测任务的检测。图5显示了两种建议的特性集成方式一个简单的方法是在RoI Align之后直接连接完整和可见提案Ff和Fv的特征向量。因为在P-RCNN中仅使用fc层，所以两个提议的特征的空间对准不是必需的。实验结果表明，这种简单的特征融合方法大大提高了性能。第二种特征集成方法是基于注意机制，突出显示信息量更大的具体来说，对于每一对提案，我们生成一个可见的身体注意力掩码，显示是否在全身提案中的每个像素的可见提案如果一个像素也在可见提议内，我们将注意力掩码中的值1分配给这个像素。可见提案之外的像素在注意力遮罩中全部设置为0。然后，在RoI Align之后，将注意力遮罩调整为与建议特征相同的大小，即、77。然后，我们以元素方式将全身提议特征Ff与面具相乘，以获得可见的面具注意力特征Fm。最后，我们连接Fv和Fm以获得该对的最终集成特征。配对的R-CNN。PPFE产生的集成特征用作配对R-CNN（P-RCNN）的输入。P-RCNN用于基于建议对执行完整和可见的行人检测。The detailed archi- tecture of P-RCNN is based on the R-CNN module in Faster R-CNN[19], with the following modifications.在接收到对特征之后，P-RCNN包含两个分叉分支，其跟随两个共享fc层，分别用于完整和每个分支都具有与标准Faster R-CNN完全相同的架构和输出。与P-RPN类似，P-RCNN的基本问题是如何将建议分配给地面事实。我们使用的策略是非常相似的锚分配方法在P-RPN。更具体地说，对于一对注释Q =（F，V），一对建议X =（Pf，Pv）是正的，如果它满足：IoU（Pf，F）≥α2和IoU（Pv，V）≥β2根据我们的实验结果，α2，β2的最佳数量为0.5和0.5。训练中使用的损失函数也与标准Faster R-CNN中的损失函数相同。如上所述，Faster R-CNN对PBM的主要修改几乎没有引入额外的计算，同时带来了大量的性能提升。实验结果验证了模型的有效性4. 实验为了评估我们提出的方法，我们在两个人群行人数据集上进行了几个实验： CrowdHu- man [20] 和CityPersons [24]。10755表1.主要成果。* 代表我们重新实施的结果。MR和AP分别是对数平均缺失率和平均精度的缩写。MR、AP、Recall代表全身结果。MR-V代表MR，即可见体。对于MR，越低越好。对于AP和Recall，越高越好。与我们重新实施的基线相比，MIPMR-V和MIPMR-V显示了可见和全身的绝对增益。最好的结果用黑体字表示。方法P-RPN P-RCNN PPFE R2 NMSMR-V先生AP召回M-VMMR基线[20]- -55.9450.4284.9590.24--基线 *- -√ √55.5746.2884.9188.25--NPM- -口罩-电子邮件*联系我们联系我们54.1845.4385.5988.92+1.39+0.85PBM52.7044.2085.6088.61+2.87+2.08PBM52.7043.3589.2993.33+2.87+2.93PBM52.1944.3285.5088.28+3.38+1.96PBM52.1943.5789.2893.10+3.38+2.71表2.改变β1和β2的影响。NPM是Naive Pair Model的缩写。MR-V+MR的值反映了模型方法β1β2MR-V先生MR-V+MR基线--55.5746.28101.85NPM0.80.554.8146.34101.15NPM0.60.554.6545.42100.07NPM0.70.554.1845.3099.48NPM0.70.654.3547.23101.58NPM0.70.455.8044.53100.334.1. 数据集和评估指标CrowdHuman 数据集。最近， CrowdHuman [20]数据集，一个人体检测基准，已经发布，以更好地评估拥挤场景中的行人检测器。训练集、验证集和测试集分别有15000、4370和5000张图像图像中的平均人数为22.6人。CrowdHuman [20]为每个人类实例提供了三类边界框注释：头部边界框、人体可视区域边界框和人体全身边界框。所有的实验都是在全身和可见体的设置下进行的。模型在训练集上进行训练，并在验证集上进行评估。CityPersons数据集。CityPersons [24]数据集是Cityscapes[2]的一个子集，它只包含人物符号。有2975个图像用于训练，500和1575个图像用于验证和测试。数字的平均值图像中行人的BER为7。提供了可见区域和全身注释。我们在全身环境下评估我们提出的方法。根据CityPersons [24]中的评估协议，忽略高度小于50像素验证集根据可见性进一步分为几个子集(1) 合理（R）：可见度∈ [0. 65，∞）(2) 严重遮挡（HO）：可见度∈ [0. 2，0。65）我们展示了这两个子集的结果评估指标。为了进行评估，我们遵循标准的加州理工学院 [3]评估指标 -MR，它代表每幅图像的对数平均误检率（FPPI），范围为[ 10 − 2，10 0 ]。为了更好地评估我们的方法，还提供了平均精度（AP）和召回率表3. PPFE的影响方法PPFEMR-V先生AP召回NPM-54.1845.4385.5988.92PBMconcat52.1944.3285.5088.28PBM掩模52.7044.2085.5088.614.2. 实现细节对于CrowdHuman [20]数据集，我们采用特征金字塔网络（FPN）[9]，ResNet-50 [7]作为我们的基线。为了提取更精确的特征，我们采用RoI Align[6]而不是RoI Pooling [19]用于特征提取。全身和可见身体的锚点纵横比设置为 [0.5 ， 1 ， 2] 。由于CrowdHuman数据集中的图像具有各种形状，因此我们调整它们的大小，使短边为800像素，而长边小于1400像素。我们在8个GPU上训练我们的模型，每个小批量总共有16个图像我们使用动量为0.9的SGD作为优化器，并将初始学习率设置为0.02。我们总共训练了20个epoch，并在第16和19个epoch将学习率降低了0.1。对于CityPersons数据集，我们遵循适应的Faster R-CNN框架中的设置[24]。具体来说，我们检测器的主干是VGG-16 [21]。为了检测小物体，我们删除了VGG中的第四个最大池层。16.锚定的纵横比设置为2.44。锚钉尺寸与[24]相同。我们还采用亚当作为我们的优化器。我们在8个GPU上总共训练了我们的模型12个epoch，每个小批总共有16个图像初始学习率设置为0.0008。我们在第8和第11个时期将学习率降低了0.1我们不对输入图像进行上采样，只使用合理的行人子集进行训练。4.3. 关于CrowdHuman的检测结果主要成果。为了彻底评估我们提出的方法的性能，我们在CrowdHuman [20]数据集上进行了大量实验，并在三个评估指标下评估了选择MR作为主要度量。表1显示了基线和我们提出的方法在CrowdHuman [20]验证子集上的性能。为了公平比较，表中列出的所有型号1共享相同的超参数设置。如可以10756表4. R2NMS的消融研究。R2是R2NMS的缩写。PBM在这里使用PPFE的concat版本。方法β1β2MR-V先生AP召回NPM0.70.455.8044.5385.6288.74NPM+R20.70.4-45.9188.2193.27NPM0.70.554.1845.3085.5988.69NPM+R20.70.5-45.8788.3993.76PBM0.70.551.9244.7985.6288.12PBM+R20.70.5-43.5789.2893.10从表1中可以看出，我们重新实现的FPN [9]基线在全身检测上实现了46.28%的MR，在可见身体检测上实现了55.57%的MR，分别比CrowdHuman [20]中的基线好4.14%和0.37%。因此，我们的基线足够强大，以验证我们提出的方法的有效性。在此基础上，我们的方法在MR、AP和召回率上分别有2.71%、4.37%和4.85%的改进，这表明了我们的方法的有效性。为了分析我们建议的模块，我们逐步取代组件在基线模型与我们的模块。相关消融研究和分析如以下段落所示。基于对的样本单元中不同超参数设置的影响。为了评估我们基于对的样本单元在整个管道中的有效性，我们构建了一个简单版本的配对模型，它简单地用P-RPN和P-RCNN替换 Faster R-CNN中的RPN和R-CNN在NPM中，来自RPN的完整和可见的建议被馈送到两个单独的R-CNN模块中。这两个独立的R-CNN模块负责完整和可见的身体检测，恢复。每个R-CNN模块都具有与Faster R-CNN中标准模块相同的架构。我们对NPM进行了一组实验，以找出最合理的超参数设置。为了使NPM具有与基线一致的超参数设置，α1和α2是固定的，即，、0.7和0.5。全面研究了变化的β1和β2我们可以看到，当β 1 = 0时，NPM工作得相当好。β2=0。五、当α1和α2固定时，β1和β2控制我们基于配对的样本单元中可见身体和全身当β1和β2较小时，更多的低质量可见光建议被计数，这损害了NPM对可见光检测结果的性能。大的β1和β2排除了对齐不良的可见提议，同时，这样的设置拒绝了一些对齐良好的全身正训练示例，这导致了差的全身检测结果。从表2的第三行可以看出，β1= 0。β2= 0。5在两个注释类别之间实现良好的权衡。因此，我们使用α1= 0。7，α2= 0. 5，β1= 0。β2= 0。5，除非另有说明。表5.CrowdHuman上的最新技术比较* 代表我们重新实施的结果。这里的PBM配备了PPFE的面罩版本。方法先生AP召回基线（CrowdHuman）50.4284.9590.24基线 *46.2884.9188.25AdaptiveNMS49.7384.7191.27排斥损失 *45.6985.6488.42PBM43.3589.2993.33PPFE的影响。当为NPM配备PPFE模块时，它就变成了PBM。我们在表3中比较了PBM和从表3中，我们可以看出，第3节中提出的两种特征集成方法都对MR-V和MR带来了显着的改进。更简单的一个直接连接完整和可见的propos- als的功能，提高MR-V和MR分别为1.99%和1.11%，而PPFE与注意力机制显示出更好的性能。PBM和NPM之间如此大的差距完全证明了我们提出的PPFE模块可以有效地从基于对的样本单元中提取和集成特征。此外，从表4中可以看出，PPFE通过提高模型在可见体上的性能，使R2MR-V与R2 NMS的关系。为了证明R2 NMS的有效性，我们用建议的R2 NMS代替了原来的NMS.表4显示了三组实验结果。我们可以得出结论，R2NMS可以在所有设置下提高AP和召回的性能，而当应用NPM时，R2NMS使MR变差。To understand why R2NMS weakensthe MR of the NPM, we would like to introduce therelation between MR-V and R2NMS.很自然地，我们会认为，高质量的... 由于R2 NMS使用两个BBox的可见区域之间的IoU来确定两个全身BBox是否重叠，因此对BBox的预测至关重要。然而，我们认为，相对于预测的可见BBox的绝对定位质量，相对定位质量，捕捉两个人之间的重叠程度是更重要的。一个简单的例子可以验证我们的观点-然而，在R2 NMS期间使用这样的可见身体预测导致与原始NMS完全相同的全身检测结果，其不像MR-V那么差。该示例明确表明，在R2NMS期间，差更具体地说，尽管较低的MR-V可能更好地对每个实例对之间的重叠进行建模，这将进一步有益于全身检测，如上所述，但MR-V的绝对值不是全身检测的性能的决定性我们在表4中的实验结果也证明了这一点。与10757表6.我们的PBM和CityPersons基线之间的比较[24]。报告验证子集的对数平均缺失率（MR）R表示合理集，HO表示重遮挡集。方法PPFER2NMSR何基线--13.859.0PBMconcat-√12.557.3PBMconcat12.157.0PBM掩模-√12.354.9PBM掩模11.153.3随着MR-V的降低，R2 NMS的性能得到改善，MR-V低于54%就足以对R2NMS的全身检测产生积极影响。R 2 NMS的进一步分析。表1中的实验结果表明，R2NMS可以显著提高AP和召回率，而MR只提高了不到1%。这种现象是由MR和AP的差异引起的，我们想深入讨论。MR和AP之间的主要区别在于感兴趣的预测分数的范围。MR只关心分数高于最高分数的假阳性的预测BBox相比之下，AP将所有得分在0到1之间的检测结果考虑在内。因此，只有一小部分预测结果会影响MR。如第1节和第3节中所讨论的，在拥挤的情况下，检测器往往会生成许多高评分的误报，这些误报很难通过NMS去除。因此，我们认为结果中大量的高分假阳性使FPPI很快达到1为了证明这一点，我们计算了所有测试图像中得分最高的假阳性的平均得分。事实证明，这样的价值极高，有时甚至是超越0.9.这种现象表明，只有分数高于0.9的BBox才能影响MR。因此，MR反映了检测结果的高评分部分的性能，而AP测量所有检测到的BBox的性能。这种差异导致了R2NMS在MR和AP上的增益之间的巨大综上所述，R2NMS虽然没有对MR带来很大的改善，但却大大提高了AP.对AP的巨大改进有力地证明了R2NMS不仅比原来的NMS保留了更多的真阳性，而且引入了更少的假阳性。4.4. 我们在CrowdHuman验证集上将我们的方法与AdaptiveNMS [12]和排斥损失[23]进行了比较，表5.这清楚地表明，具有R2NMS的PBM优于-形成了这两种公布的方法。我们的方法显著地将MR从49.73%降低到43.35%，将AP从84.71%提高到89.29%。如此大的差距表明了我们的PBM和R2NMS的优越性.表7. CityPersons上的最新技术比较。Adap- tiveNMS+是指具有AggLoss的AdaptiveNMS。* 代表了我们的实现。方法骨干R何基线 *VGG-1613.859.0基线（MGAN）[16]VGG-1613.857.0[24]第二十四话VGG-1615.8-[26]第二十六话VGG-1616.056.7[23]第二十三话ResNet-5013.256.9[25]第二十五话VGG-1612.855.7自适应NMS [12]VGG-1612.956.4[第12话]VGG-1611.955.2[第16话]VGG-1611.551.7我们VGG-1611.153.34.5. 关于CityPersons为了证明我们的方法的泛化能力，我们还对CityPersons进行了几次实验[24]。比较结果见表6。为了清楚地证明我们提出的新组件的有效性，我们还展示了在不同行中具有不同设置的out方法的性能。无论在何种情况下，R2NMS的PBM均优于基线.最佳结果以粗体显示在最后一行。与基线相比，我们的检测器在合理集上将MR从13.8%显著降低到11.1%。在重度遮挡集上，它比基线高出5.7%。如此大的增益为我们的探测器的有效性提供了令人信服的证据。我们将我们的方法与最近的最先进的方法进行了比较，包括Adapted FasterRCNN [24]，ATT部分[26]，排斥损失[23]，OR-CNN [25]，AdaptiveNMS[12][16]第16话：在城市里的人我们在表7中列出了以前的作品在合理子集上的性能，原始输入大小。我们在相同的设置下评估我们的方法。建议PBM与R2NMS优于所有已发表的方法在合理的验证子集。我们的方法将最先进结果的MR从11.5%降低到11.1%。请注意，由于我们的模型的基线结果较弱，我们的方法的性能略差于MGAN5. 结论在本文中，我们提出了R2NMS，有效地消除冗余盒，而不会带来许多误报在拥挤的情况下。R2 NMS使用两个框的可见区域之间的IoU为了支持这一思想，我们提出了一种新的成对盒子模型（PBM），同时预测满盒和可见盒的一个pedes- trian。在极端拥挤的基准CrowdHuman [20]和CityPersons [24]上的实验表明，所提出的方法可以达到最先进的结果，有力地验证了该方法的优越性。10758引用[1] Navaneeth Bodla，Bharat Singh，Rama Chellappa，andLarry S Davis.用一行代码改进目标检测。在IEEE计算机视觉国际会议论文集，第5561-5569页[2] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 3213[3] Piotr Dollar，Christian Wojek，Bernt Schiele，and PietroPerona. 行人检测：对最新技术水平的评价。 IEEETransactionsonPatternAnalysisandMachineintelligence，34（4）：743 -761，2011.[4] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。[5] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 580[6] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页[7] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[8] 杰虎，李申，孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议论文集，第7132-7141页[9] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉. 用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第2117-2125页[10] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议的论文集，第2980-2988页，2017年[11] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[12] 刘松涛，黄迪，王云红。自适应nms：改进人群中的行人检测。在IEEE计算机视觉和模式识别会议论文集，第6459-6468页[13] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. Ssd：单发多盒探测器。在欧洲计算机视觉会议上，第21-37页。施普林格，2016年。[14] Markus Mathias 、 Rodrigo Ben

下载后可阅读完整内容，剩余1页未读，立即下载