自适应NMS：改进人群中的行人检测

17 浏览量更新于2023-10-18 收藏 1.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1自适应NMS：改进人群中的行人检测刘松涛1，2，3黄迪1，2，3王云红1，31北京航空航天大学北京大数据与脑计算先进创新中心2北京航空航天大学软件开发环境国家重点实验室3北京航空航天大学计算机科学与工程学院，北京100191{liusongtao，dhuang，yhwang}@ buaa.edu.cn摘要人群中的行人检测是一个非常具有挑战性的问题。本文通过一种新的非最大值抑制（NMS）算法来解决这个问题，以更好地细化检测器给出的边界框。贡献有三个方面：（1）提出了自适应NMS，根据目标密度对实例应用动态的抑制阈值;（2）我们设计了一个有效的子网络来学习密度分数，它可以方便地嵌入到单级和两级检测器中;以及（3）我们在CityPersons和CrowdHuman基准上实现了最先进的结果。1. 介绍行人检测作为普通目标检测的一个特殊分支，在过去的二十年里受到了广泛的关注。在文献中，已经提出了许多解决方案来处理这样的问题，并且与一般对象检测类似，过去几年已经见证了其技术发展，从依赖于手工制作特征的模型[4，5，11，48]到深度学习网络。作品[45，46，50，44，49]。基于卷积神经网络（C-NN）的方法由于具有学习鉴别特征的能力而在这一领域占据主导地位，并且在公共基准上的结果得到了显着提升。近年来，在人的密度高的现实世界场景中，即行人检测是迫切需要的。机场、火车站、购物中心等。尽管取得了很大的进步，检测行人在这些场景中仍然是困难的，证明了显着的每一个下降的国家的最先进的方法。例如，OR-CNN [49]（一项更新的研究）报告了加州理工学院数据库[6]中4.1%的未命中率（M-R ），该数据库没有考虑到这一挑战。其 MR 在CityPers上下降到11.0%[47]，其中26.4%的行人与*通讯作者(a) NMS之前的原始图像（b）预测（c）NMS阈值=0.5（d）NMS阈值=0.7图1.不同阈值的贪婪NMS结果的图示。蓝色框显示丢失的对象，而红色框突出显示误报。（b）中的边界框是使用FasterR-CNN生成的。在人群场景中，较低的NMS阈值可以去除真阳性（c），而较高的NMS阈值可以增加假阳性（d）。可视化的阈值高于0.3。交集大于并集（IoU）高于0.3，两个人类实例之间的成对重叠的平均值（大于0.5 IoU）为每幅图像0.32。因此，有必要对人群中的行人进行检测。虽然有人可能会认为这个问题与遮挡相同，但它们确实不同，因为在人群场景中，外观相似的行人通常会彼此遮挡很大一部分，这使得它更具挑战性。这项工作的重点是这个问题，我们从分析基于深度学习的检测器开始。如我们所知，前检测器要么直接将默认锚点回归到特征图上的检测框中（单级检测器，例如，，SSD [23]，YOLO [30，31]，RetinaNet[21]），或者首先生成类别独立区域建议，然后对其进行细化（两阶段检测器，例如，，Faster R-CNN[32]，R-FCN [19]）。所有这些方法都会产生大量接近地面真实值的误报，64596460贪婪的非最大抑制（NMS）是必要的，以通过急剧减少假阳性来筛选出最终检测然而，在拥挤的场景中，贪婪NMS遇到了一个问题。如图1，即使使用可以预测与地面实况完全相同的边界框的强大检测器，高度重叠的边界框仍然被具有正常阈值0.5的贪婪NMS的后处理抑制。这使得当前基于CNN的检测器面临贪婪NMS的单一阈值的困境：较低的阈值导致丢失高度重叠的对象，而较高的阈值带来更多的假阳性。为了解决这个问题，[44]和[49]提出了额外的惩罚措施，以产生更紧凑的边界框，从而对NMS的阈值不那么敏感。对于具有贪婪NMS的管道下的群体的理想解决方案是设置高阈值以保留高度重叠的对象，并为所有实例预测非常紧凑的（高于阈值）检测框以减少假阳性。不幸的是，这并不容易，因为基于CNN的检测器通常会将相关分数分配给对象周围的相邻区域。最近，[1]提出了NMS的软版本，其根据重叠的递增函数来减少相关联的检测分数，而不是丢弃它们。也有一些作品[15，14]构建了一个额外的模块或网络，从da学习NMS功能。ta.它们在一般对象检测中表现出比贪婪NMS更好的性能。相比之下，在拥挤的场景中，NMS功能必须处理一组更大的高度重叠的框，其中相当一部分是真阳性。虽然也可以应用类似的软逻辑或学习方法，但是它们是低效的，因为软NMS仍然盲目地惩罚高度重叠的框。此外，基于CNN的外观特征的相似性模糊了高度重叠的真阳性和重复之间的边界。[34]提出了一种二次非约束二进制优化解决方案，以取代行人检测中的贪婪NMS，但它也设置了一个硬阈值，以抑制所有高度重叠的检测框，如贪婪NMS。[18]用独立性分数扩展了优化模型，这依赖于区分性CNN特征。在本文中，我们提出了一种新的NMS算法命名为自适应NMS，作为一个更有效的替代方案，以处理人群中的行人检测。直观地说，高NMS阈值保持更多拥挤的实例，而低NMS阈值消除更多误报。因此，自适应NMS应用动态抑制策略，其中阈值随着实例聚集和彼此遮挡而上升，并且当实例单独出现时衰减为此，我们设计了一个辅助和可学习的子网络来预测每个实例的自适应NMS阈值。在CityPersons [47]和CrowdHuman [36]数据库上进行了实验，我们的自适应NMS在拥挤的行人检测上为两阶段和单阶段检测器提供了有希望的改进，表明其有效性。此外，我们达到了最先进的性能，即CityPersons 上的 10.8% MR−2 和CrowdHuman 上的49.73% MR−22. 相关工作通用对象检测。传统的目标检测方法是基于滑动窗口或区域预分类，使用手工特征。在深度学习时代，R-CNN [10]通过结合像SS [42]这样的框建议生成的直接策略和基于CNN的分类器来构建两阶段框架，并显示出惊人的改进。其后代（例如，Fast R-CNN [9]，Faster R-CNN [32]）更新了两阶段框架并实现了主导性能。与两阶段方法相比，另一种替代方法是基于单阶段框架的方法（例如，，SSD [23]，YOLO [30，31]），它跳过了建议生成步骤，直接预测深度CNN特征的边界框和类概率，旨在加速检测。行人探测。传统的行人探测器，如ACF [4]，LDCF[11]和标识牌[48]，例如，倾向于Viola和Jones范例[43]利用滑动窗口策略在积分通道特征（ICF）[5]上利用各种滤波器。之后，再加上深度学习技术的普及，基于CNN的模型迅速主导了这一领域。在[45]中，手工制作的特征被深度神经网络特征取代，[2]在多个层执行检测以匹配不同尺度的对象，并采用上采样操作来处理小实例。[26]提出了一个具有额外功能的联合学习框架，以进一步提高性能。[24]探索了单级检测器通过叠加渐进定位的多步预测进行行人检测的潜力。对于闭塞问题，在过去几年中已经做出了许多努力。遮挡处理的一个常见框架[28，40，51，7，27，52最近，一些作品[46，50，38，44，49]关注于在人群中检测行人的更具挑战性的问题[47]和[36]提出了两个行人数据集（即，、CityPersons和CrowdHuman），以更好地评估人群场景中的检测器。[50]采用跨通道的注意力机制来表示各种遮挡模式。[38]操作体细胞拓扑线定位以减少歧义。[44]引入了一个边界框回归损失，不仅推动每个建议到达其指定的目标，而且还使其远离周围的其他对象。模拟6461类似地，[49]设计了一个聚合惩罚，以执行与地面实况对象紧密和紧密定位的建议。这两项工作[44，49]改进了检测器，以产生更紧凑的建议，从而在拥挤的场景中对NMS的阈值变得不那么另一个有趣的尝试[39]使用递归LSTM在没有NMS的情况下顺序生成检测，但这种检测管道受到尺度变化的影响。非最大抑制。NMS是计算机视觉中广泛使用的后处理算法。它是许多检测方法的重要组成部分，例如边缘检测[33]，特征点检测[25]和对象检测[32，20，21]。此外，尽管深度学习在一般对象检测方面取得了重大进展，但手工制作和贪婪的NMS仍然是完成这项任务的最有效方法最近，软NMS [1]和学习NMS [14]被提出来改善NMS结果。代替丢弃具有低于阈值的分数的所有它在概念上是令人满意的，但仍然将所有高度重叠的框视为误报。[14]试图学习一个深度神经网络来执行NMS功能，只使用盒子及其分数作为输入，但该网络是专门设计的，非常复杂。[15]提出了一个对象关系模块来学习NMS功能，作为端到端的通用对象检测器。[41]和[17]用学习的定位置信度替换NMS过程中使用的建议的分类分数，以指导NMS更准确地保留定位的边界框。这些方法在一般的目标检测中被证明是有效的，但正如我们所说，人群中的行人检测有其自身的挑战。因此，与他们不同的是，我们建议学习每个地面实况对象周围的密度作为其自己的抑制阈值，与人数统计任务中的人群密度图估计有一些相似之处[16，29]。它降低了对实例判别CNN特征的要求，这是人群场景中的主要问题。为了解决人群中的行人检测问题，[34]提出了一种二次无约束二进制优化解决方案来抑制检测框，该解决方案使用检测分数作为一元势，并将检测之间的重叠作为成对势来产生最终结果。但它仍然像贪婪NMS一样应用硬阈值来盲目抑制检测盒。[18]采用基于行列式点过程的最优模型，并附加个体性得分来区分不同的行人。然而，由于检测器对类内差异关注较少，拥挤个体的C-NN特征往往缺乏区分性，并且其优化过程也消耗更多的时间。因此，如何在拥挤的场景中鲁棒地处理检测过程仍然是行人检测的最关键问题之一。贪婪NMS自适应NMS图2.在自适应NMS中，红色的伪码被绿色的伪码所取代，该自适应NMS通过根据检测的密度缩放其NMS阈值来自适应地抑制检测。3. 方法3.1. 贪婪的NMS重访在行人检测中，常用的检测评估度量是[10- 2，100]中的每幅图像假阳性的对数平均未命中率（FPPI）（在[6]之后表示为MR或MR-2MR是探测器因为它显示了检测器平衡查全率和查准率的能力。作为示于图2，从具有相应分数S的检测框集合B开始，greedy-NMS首先选择具有最大分数的一个M，并将其从集合B移动到最终检测集合F。然后，它移除B中的任何框及其在S中的得分，该得分与M具有高于手动设置的阈值Nt的重叠。对剩余的B集合重复该过程。应用具有低阈值如0.5的贪婪NMS可能会增加未命中率，尤其是在人群场景中。原因在于可能存在具有比该抑制阈值Nt更高的重叠的许多拥挤对象对。在这些对中，当选择具有最大得分M的建议时，所有周围检测都将被执行。6462- -我的图3.两级和一级探测器的密度预测框架。我们在两阶段检测器的RPN顶部添加密度预测子网，将对象预测，边界框预测和转换特征作为输入。对于单级检测器，子网以类似的方式部署在最终检测网络之后。具有大于Nt的重叠的框被抑制，包括实际上定位其它地面实况实例的附近检测。在这种情况下，可以在具有低Nt的NMS处理之后去除真阳性，从而增加未命中率。此外，像0.7这样的高Nt可能增加误报，因为重叠的许多相邻提议通常具有相关的分数。虽然可以保持更高度重叠的真阳性，但是假阳性的增加可能更严重，因为对象的数量通常小于由检测器生成的建议的数量。因此，使用高NMS阈值也不是一个好的选择。为了解决这个问题，贪婪NMS算法的软版本，即soft-NMS [1]，将抑制步骤写为重新评分函数：.作为一个递增函数，它仍然对高度重叠的盒子分配更大的惩罚，这近似等于贪婪NMS中的惩罚。实际上，贪婪NMS和软NMS的设计都遵循相同的假设：与M具有较高重叠的检测框应该具有较高的假阳性可能性这个假设没有问题的时候，用于一般的对象检测，因为人群中的遮挡很少发生。然而，这种假设在拥挤的场景中并不成立，在拥挤的场景中，人类实例彼此高度重叠，并且不应被视为误报。因此，为了适应人群场景中的行人检测器，NMS应考虑以下条件，• 对于远离M的检测框，它们具有较小的误报可能性，si=si，iou（M，bi）Nt，sif（iou（M，bi）），iou（M，bi）≥Nt因此，应予以保留。• 对于高度重叠的相邻检测，抑制策略不仅取决于与其中f（iou（M，bi））是基于重叠的加权函数。-改变与M具有高重叠的框bi的分类得分si的操作。根据这个公式，在贪婪NMS中，f（iou（M，bi））≥0，这意味着bi应该被直接移除。在软NMS中，f（iou（ M ， bi ）） = （ 1−iou （ M ， bi ））或f （ iou（M，bi））=iou（M，b）2eσ使检测分数衰减为增量，与M重叠的函数。在软惩罚的情况下，如果bi包含未被M覆盖的另一对象，则其不会导致在较低检测阈值处的未命中。但随着而且还考虑M是否位于拥挤区域。如果M位于拥挤区域，则其高度重叠的相邻方案很可能是真的积极的，应该分配一个较轻的处罚或p-保留。但是对于稀疏区域中的实例，惩罚应该更高以修剪假阳性。3.2. 自适应网管系统根据上述分析，增加NMS阈值以保留具有高过6463当物体处于拥挤区域时，一个很有前途的解决方案，NMS在人群场景。同样清楚的是，稀疏区域中的高度重叠的提议应该被移除，因为它们更可能是误报。为了定量地设计剪枝策略，我们首先如下定义对象密度，3.3. 密度预测我们将密度预测视为回归任务，其中目标密度值是按照其定义计算的，训练损失是Smooth-L1损失。这种回归的一种自然方式是在网络的顶部添加一个平行然而，用于检测的特征-di：=maxbj∈G，i=/iou（bi，bj），Jly包含对象本身的信息，例如，、出现、语义特征和位置。对于密度预测，其中对象i的密度被定义为具有地面实况集合G中的其他对象的最大边界框IoU。对象的密度指示群组遮挡的级别。利用该定义，我们提出利用以下策略来更新修剪步骤，NM：=max（Nt，dM），.使用单个对象信息来估计密度是非常困难的，因为它需要关于周围对象的更多线索。为了解决这个问题，我们设计了一个额外的子网的三个卷积层，如图所示。3、预测每个建议的密度。我们注意到，该子网与两级和一级检测器都兼容。两级检测器，我们在RPN后面构造密度子网。我们首先应用1×1conv层来减少si=si，iou（M，bi）NM，sf（iou（M，b））， iou（M，b）≥N卷积特征图，然后我们连接重新，引入的特征图以及对象和边界i i iM其中，NM表示M的自适应NMS阈值，并且dM是对象M的密度。我们注意到这种抑制策略的三个特性。(1) 当远离 M 的相邻盒（即，， iou （ M ， bi ）Nt），M的密度被用作自适应NMS阈值。因此，相邻的提议被保留，因为它们可能定位M周围的其他对象。（3）对于稀疏区域中的对象（即，e. ，dM≤NT），则NMS阈值NM等于NT。然后，修剪步骤相当于原始NMS，其中非常接近的框被抑制假阳性。自适应NMS算法在图1中正式描述。二、由于我们只是用自适应的门限Nt代替固定门限Nt，所以自适应NMS的计算复杂度与传统的贪婪NMS和软NMS相同自适应NMS的唯一额外成本是存储每个建议的预测密度的N元素因此，自适应NMS对当前检测器的运行时间影响不大，保持了贪婪NMS和软NMS的效率。注意，自适应NMS与贪婪NMS和软NMS都很好地工作。为了与soft-NMS进行公平比较，如果没有指定，我们默认采用greedy-NMS中原始的重新评分功能。一旦我们知道对象的密度，自适应NMS就灵活地保留其邻居并修剪误报。但我们实际上跳过了一个主要问题，那就是如何预测每个物体的密度，这将在下一节中描述。由RPN预测的盒子作为密度子网的输入。此外，我们在密度子网的最后一层卷积层应用了一个大的核（5×5对于一级检测器，密度子网部署在最终检测网络的后面，类似的方式。4. 实验为了验证所提出的自适应NMS方法，我们在两个人群行人数据集上进行了几次实验：CityPersons [47]和CrowdHuman [36]。4.1. CityPersons数据集和评估指标。CityPersons [47]数据集是一个新的行人检测数据集，它建立在语义分割数据集CityScapes [3]之上它记录了德国18个不同城市在各种天气条件下的街景该数据集包括5000张图像（2975张用于训练，500张用于验证，525用于测试），其中有1035，000个标记的人加上1013，000个忽略的区域注释。两个边界框anno-提供了完整的身体和可见部分的位置。此外，平均每幅图像有大约7个行人，具有0.32个成对人群实例（密度高于0.5）。根据CityPersons中的评估协议，我们在该数据集上的所有模型都在合理的训练集上进行训练，并在合理的验证集上进行评估。对数MR在FPPI范围[10−2，100]内的平均值(MR-2）用于评估检测性能（低-更好）。6464检测器为了证明自适应NMS的有效性，我们进行了两种类型的基线检测器。对于两阶段检测器，我们通常遵循适应的Faster R-CNN框架[47]，并使用预训练的VGG-16 [37]作为骨干。我们还保持与[47]中相同的锚大小和比例。为了提高小行人的检测性能，我们采用了一种常见的技巧，使用扩张卷积，最终的特征图是输入大小的1/8对于一级检测器，我们修改了RFB Net [22]，并使用在ILSVRC CLS [35]上预训练的VGG-16 [37]作为骨干网络。此外，我们遵循[22]中的扩展策略，对conv7fc特征图进行上采样，并将其与conv4 3相结合，以提高小尺度行人的检测精度。方法骨干合理MR−2召回AP更快的RCNN [47]（两阶段）VGG-1615.4--TLL [38]（单级）ResNet-5014.4--贪婪软自适应FasterR-CNNCCCVGG-16VGG-1614.514.212.995.698.397.793.894.995.3C CVGG-1614.198.495.0CVGG-1613.995.694.3RFB网络CCVGG-1614.212.799.297.494.195.0C CVGG-1614.399.294.1表1.贪婪NMS、软NMS和自适应NMS的消融研究我们仅报告了具有0.5 NMS阈值的贪婪NMS和软NMS的最佳结果以进行清楚的比较。60NMS软NMS自适应NMS为了公平比较，我们用5053.0852.0149.1245.6446.847.2943.56密度子网络。中的所有参数新的卷积层用MSRA方法随机初始化[12]。我们优化这两个检测器使用- ING随机梯度下降（SGD）与0.9动量和0.0005重量衰减。对于适应的Faster-RCNN，我们在4个Titan X GPU上训练它，小批量处理1张图像4034.5534.934.7330201042.0342.0442.1136.5123.84每GPU。学习率从10−3开始，对于前20k，迭代，并衰减到10- 4，再进行10k次迭代。对于RFBNet，我们在4个Titian X GPU上将批处理大小设置为8。我们还遵循它的在120和180个时期将学习率除以10，总共训练了200次。自适应NMS的消融研究。我们首先忽略预测的密度，并将贪婪NMS和软NMS应用于具有各种参数的检测结果我们用“线性”方法在贪婪NMS和软NMS中搜索NMS阈值NT，以报告NT = 0时的最佳结果。五、我们还尝试了几种使用“高斯”方法的软NMS中的归一化参数σ，但它们都增加了约1%的未命中率。因此，我们只报告了我们还报告了总召回率和平均精度（AP）的原因集，以供更多的参考。如表1所示，使用传统的greedy-NMS，自适应的Faster R-CNN 检测器在验证集上实现了 14.5% 的MR−2，略优于[47]中报告的结果（15.4% MR−2RFBNet探测器实现了13.9%的MR−2，略优于CityPersons中当前的单次激发探测器[38使用“线性”方法的软NMS将MR −2略微降低了0.3%（即，，14.2% MR−2vs. 14.5% MR−2）更快的R-CNN检测器。对于RFB Net，soft-NMS工作不好。将自适应NMS与软NMS相结合也会对度量MR-2产生微小甚至负面的改进。原因是软NMS保持的低分数检测可能超出FPPI的右侧边界0<0.4 0.4~0.5 0.5~0.6 0.6~0.7>0.7密度图4. MR-2导致5个群体具有不同程度的人群闭塞。自适应NMS在高密度组上工作得更好range[10−2，100].因此，MR-2不会从中受益使用所提出的自适应NMS方法，更快的R-CNN检测器的MR-2s-核心显著下降到12.9%，减少1.6%，而RFB净检测器的净检测器也减少1.2%（即，13.9% MR−2vs. 12.7% MR−2）。这些结果表明，自适应NMS保持-这是一个更真实的积极的，这是一个更有效的后，用于在拥挤场景中检测行人的处理算法。分析. 合理验证集上的平均对数MR和召回率并不能清楚地解释自适应NMS在哪里我们进一步将验证集中高度至少为50像素的行人按其密度分为5个子集（密度≤0.4，0.4密度≤0.5，0.5密度≤0.6，0.6<<<密度≤0.7，密度>0.7）。为了更好地演示，我们比较了Faster R-CNN和greedy-NMS的结果软NMS（从图4中，我们可以推断，对于密度小于0.4的稀疏行人，所有三种NMS算法都表现出相似的性能。当密度增加时，所提出的自适应NMS与两个同行相比，显着降低了未命中率这表明自适应NMS在人群场景中执行更好的后处理，保持更多的高度重叠的真阳性。先生6465我方法规模骨干合理重部分裸适应更快的RCNN [47]×1×1。3VGG-16VGG-1615.412.8------[44]第四十四话×1×1。3ResNet-50ResNet-5013.211.656.955.316.814.87.67.0[49]第四十九话×1×1。3VGG-16VGG-1612.811.055.751.315.313.76.75.9[49]第四十九话自适应NMSFaster RCNNCC×1×1VGG-16VGG-1612.913.256.456.014.414.07.07.7CC×1VGG-1611.955.212.66.2C×1。3VGG-1611.455.611.96.2CC×1。3VGG-1610.854.011.46.2RFB网络CC×1×1VGG-16VGG-1612.713.151.951.711.712.07.67.4CC×1VGG-1612.051.211.96.8表2.CityPersons验证集的检测性能比较图6.视觉评分阈值为0.3的自适应NMS失败病例。红框是假阳性。随着NMS阈值（NM）对于人群实例的增加，也会出现更多的误报。如果提案不紧凑，则保留。真理的定义是图5.视觉比较更快的R-CNN行人前，L（{t}，{t}）=1<$Ncom（t−1<$t），贪婪NMS、软NMS和comiiNcomi=1我|Φi|j∈Φij自适应NMS。蓝色框表示缺少对象，而红色框表示误报。可视化阈值评分高于0.3。此外，我们还展示了更快的R-CNN检测器与贪婪NMS，软NMS和自适应NMS的一些视觉结果进行比较。如图5所示，自适应NMS保持更拥挤的真阳性，同时仍然去除稀疏区域中的假阳性。与最先进的技术相比。由于自适应NMS只关注检测器的后处理，因此它可以方便地与典型的高级行人检测器一起工作。更- over，如图所示.6、如果地面实况对象的提议不紧凑，则群体实例中的较小惩罚增加了误报。因此，为了更好地验证自适应NMS的有效性，我们遵循[49]在回归损失上添加AggLoss项，以强制建议接近并紧密地定位到地面-其中N_com是与多于一个锚点相关联的地面实况的总数，|Φi|是与第i个地面实况对象相关联的锚点的数量，地面实况和建议的相关坐标。在表2中，我们遵循[44]和[49]中的策略，将确认集中的合理子集（闭塞35%）分为部分（10%闭塞35%）和裸（闭塞≤10%）子集。<<<同时，我们将遮挡率大于35%的行人表示为Heavy集。在输入图像的×1尺度下，自适应NMS改进了基线检测器，以达到与其他同行行人检测器相当的结果，而无需任何额外的模块。对于更快的R-CNN，当我们使用自适应NMS添加AggLoss [49]时，它实现了通过减少 0.9% 的 MR−2 （即，， 11.9%vs.12.8%[49]）。对于RFB Net，具有AggLoss的自适应NMS也将性能提升到12.0% MR−2。然后我们放大输入图像的大小，如[44，平均值= 0.73��0.81自适应NMSSoftNMS贪婪NMS646647、49]。由于GPU内存问题，我们不使用× 1训练RFBNet检测器。3输入大小的比例。对于Faster R-CNN，它实现了10.8% MR−2的最佳性能。此外，我们还评估了所提出的自适应NMS方法在CityPersons的测试集上进行，并在表3中报告结果。在×1。3尺度和AggLoss，更快的R-CNN检测器实现了11.79%的MR−2，而Adaptive- NMS进一步将结果提高到11.40%的MR−2。值得注意的是，其他同行要么雇用一部分阻塞感知池化模块[49]或更强的骨干网络[44]（即，ResNet-50）。由于自适应NMS对检测器结构的限制很少，我们相信这些技术可以进一步提高自适应NMS的性能。方法骨干规模合理适应FasterRCNN [47]VGG-16×1.312.97[44]第四十四话ResNet-50×1.511.48[49]第四十九话VGG-16×1.311.32FasterRCNN+AggLossVGG-16×1.311.79FasterRCNN+AggLoss+自适应NMSVGG-16×1.311.40表3. CityPersons测试的检测性能比较。4.2. CrowdHuman加州理工学院[6]城市[47]人群[36]#person/img0.326.4722.64#pair/imgiou> 0.30.060.969.02iou> 0.50.020.322.40iou> 0.70.000.080.33表4.比较三个数据集上两个实例之间的平均人数和成对重叠数据集和评估指标。最近，Crowd- Human [36]已经发布，专门针对人体检测任务中的人群问题。它从互联网上收集了15000、4370和5000幅图像，分别用于训练、验证和测试。有340Kpersons和1099k在训练中忽略区域注释集此外，CrowdHuman数据集的与所有先前的相比拥挤（例如，，C- ityPersons [47]，KITTI [8]和Caltech [6]）。如表4所示，它包含每个图像平均约22.6个行人以及2.4个成对人群实例（密度高于0.5）。我们遵循CrowdHuman [36]中使用的评估指标，表示为 MR-2 ，如第 4.1 节所介绍。所有实验都在CrowdHuman训练集中训练，并在验证集中评估，只有全身区域注释用于训练和评估。检测器我们还进行了两个基线检测器来评估自适应NMS的性能。对于两阶段检测器，由于具有VGG-16主干的Faster-RCNN [47]在我们的早期实验中未能达到良好的基线结果，我们遵循[36]采用具有ResNet-50 [13]的特征金字塔网络（FPN）[20我们还使用相同的设计参数设置，如[1.0，1.5，2.0，2.5，3.0]锚定比和无裁剪建议。对于一级检测器，我们使用与第4.1节相同架构的RFB Net。由于CrowdHuman的图像是从不同大小的网站上收集的，我们调整了它们的大小，以便FPN的较短图像侧为800像素。RFB Net的输入大小设置为800×1200。FPN和RFB Net的基本学习率分别设置为0.02和0.002，对于FPN，在150k和450k时，以及对于RFB Net，在400k和600k时，通过10。采用具有0.9动量的SGD求解器来优化4个Titian X GPU上的网络，每个GPU具有2个图像的小批量，而FPN和RFB Net的权重衰减分别设置为了与[36]进行公平比较，我们不使用额外的损失，如AggLoss [49]或Repulsion Loss [44]。评价结果。在表5中，我们的基线检测器实现了与[36]相当的结果。当我们用自适应NMS取代贪婪NMS时，未命中率下降了FPN和RFB净回收率分别为2.62% MR−2和2.19% MR−2实验结果表明，本文提出的自适应NMS算法是有效的，具有良好的处理潜力人群场景中的探测器。贪婪软自适应MR−2召回APFPN [36]C50.4290.2484.95FPNCC52.3551.9790.5791.7383.0783.92C49.7391.2784.71[36]第三十六话C63.3393.8080.83RFB网络CC65.2266.3494.1395.3778.3378.10C63.0394.7779.67表5.在CrowdHuman验证集上评价全身检测。5. 结论在本文中，我们提出了一种新的自适应NMS方法，以更好地细化拥挤的场景中的包围盒。自适应NMS采用动态抑制策略，其中额外学习的子网络被设计为根据每个实例的密度来预测阈值在CityPersons [47]和CrowdHuman [36]数据库上进行了实验，达到了最先进的结果，表明了其有效性。确认本课题得到了国家重点研究发展计划项目2016YFC0801002和软件开发环境国家重点实验室研究项目的6467引用[1] Navaneeth Bodla，Bharat Singh，Rama Chellappa，andLarry S Davis. Soft-nms：用一行代码改进对象检测。InICCV，2017. 二、三、四[2] Zhaowei Cai，Quanfu Fan，Rogerio S Feris，and NunoVas-concelos.用于快速目标检测的统一多尺度深度卷积神经网络。在ECCV，2016年。2[3] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Tim-oBuckfeld ， MarkusEnzweiler ， RodrigoBenenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。5[4] 皮奥特·多尔，罗恩·阿佩尔，贝隆吉先生和皮埃特罗·佩洛纳。用于对象检测的快速特征金字塔。TPAMI，2014年。一、二[5] PiotrDolla'r，Zhuo wenTu，PietroPerona，andSerr geBe-longie.集成通道功能。2009. 一、二[6] Piotr Dollar，Christian Wojek，Bernt Schiele，and PietroPerona.行人检测：对最新技术水平的评价。TPAMI，2012年。一、三、八[7] Markus Enzweiler，Angela Eigenstetter，Bernt Schiele，and Dariu M Gavrila.具有部分遮挡处理的多线索行人分类。CVPR，2010。2[8] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。CVPR，2012。8[9] 罗斯·格希克。快速R-CNN。在ICCV，2015年。2[10] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。CVPR，2014。2[11] J Han，W Nam，和P Dollar.改进检测的局部去相关。在NIPS，2014。一、二[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 深入研究整流器：超越人类对imagenet分类的水平。在ICCV，2015年。6[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。8[14] Jan Hendrik Hosang ， Rodrigo Benenson ， and BerntSchiele.学习非最大抑制。在CVPR，2017年。二、三[15] Han Hu，Jiayuan Gu，Zheng Zhang，Jifeng Dai，andYichen Wei.用于对象检测的关系网络在CVPR，2018年。二、三[16] Haroon Idrees 、 Muhmmad Tayyab 、 Kishan Athrey 、Dong Zhang 、 Somaya Al-Maadeed 、 Nasir Rajpoot 和Mubarak Shah。在密集人群中用于计数、密度图估计和定位的成分损失。在ECCV，2018。3[17] 蒋博瑞，罗瑞轩，毛嘉源，肖特特，蒋云英获取用于精确对象检测的定位置信度在ECCV，2018。3[18] 李东勋，车健浩，杨明宣，吴松伟行人侦测之个别性与决定点处理在ECCV，2016年。二、三[19] 李毅，何开明，孙健，等. R-fcn：通过基于区域的完全卷积网络进行对象检测。在NIPS，2016年。16468[20] 林宗义、彼得·多尔、罗斯·格希克、何开明、B-哈拉斯·哈里哈兰和塞尔日·贝隆吉.用于目标检测的特征金字塔网络。在CVPR，2017年。三、八[21] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。InICCV，2017.第1、3条[22] 刘松涛，黄迪，王云红。接收域块网，用于准确和快速的目标检测。在欧共体-CV. Springer，2018. 6[23] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy，Scott Reed，Cheng-Yang Fu，andAlexander C Berg. Ssd：单发多盒探测器。在ECCV，2016年。一、二[24] 刘伟，廖胜才，胡卫东，梁学智，陈晓傲通过渐近定位拟合学习有效的单阶段行人在ECCV，2018。2[25] 大卫·G·洛从尺度不变关键点中提取独特的图像特征。IJCV，2004年。3[26] 毛嘉源，肖特特，姜宇宁，曹志敏。什么可以帮助行人检测？在CVPR，2017年。2[27] Markus Mathias、Rodrigo Benenson、Radu Timofte和Luc Van Gool 。用 franken-classifiers 处理遮挡。InICCV，2013. 2[28] 欧阳万里和王晓刚。一种用于行人检测和遮挡处理的判别式深度模型。CVPR，2012。2[29] Viresh Ranjan、Hieu Le和Minh Hoai。迭代人群计数。在ECCV，2018。3[30] Joseph Redmon，Santosh Divvala，Ross Girshick，andAli Farhadi.你只看一次：统一的实时对象检测。在CVPR，2016年。一、二[31] 约瑟夫·雷德蒙和阿里·法哈迪Yolo9000：更好、更快、更强。在CVPR，2017年。一、二[32] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。2015年，在NIPS中。一、二、三[33] Azriel Rosenfeld和Mark Thurston用于视觉场景分析的边

下载后可阅读完整内容，剩余1页未读，立即下载