没有合适的资源?快使用搜索试试~ 我知道了~
12214拥挤场景中的检测:一个建议,多个预测楚轩庚1*郑安林2* 张翔宇2*†孙健21北京大学2迈谷科技xgchu@pku.edu.cn,{郑安林,张翔宇,孙健}@ megvii.com摘要我们提出了一个简单而有效的基于提案的对象检测器,旨在检测在拥挤的场景中高度重叠的实例我们的方法的关键是让每个pro-proton预测一组相关的实例,而不是在以前的基于proposal的框架中的一个配备了EMD损失和Set NMS等新技术,我们的探测器可以有效地处理检测高度重叠目标的困难。 在FPN-Res 50基线上,检测器可以在具有挑战性的Crowd-Human数据集上获得4.9%的AP增益,并在CityPer- sons数据集上获得1.0%的MR-2此外,在COCO等不太拥挤的数据集上,我们的方法仍然可以实现适度的改进,这表明所提出的方法是能抵抗拥挤1. 介绍基于建议的框架已经广泛用于现代对象检测系统[29,11,12,20,21,24,14,4,5,2,13,28,34,33],均为单级[24,28,21,10],两阶段/多阶段[29,20,4,5,13,2]方法。 该范例通常有两个步骤的管道:第一,在手工制作中产生过完整的对象建议(例如,预定义的锚[28,24,21])或可学习的(例如,RPN [29,20,13])方式;然后,利用置信度得分和精确位置来预测对应于每个建议框的单个实例。为了去除重复的预测,通常需要使用非最大值抑制(NMS)等方法进行后处理。虽然基于建议的方法在流行的数据集(如COCO[22]和PASCAL VOC[8])中已经实现了最先进的性能[13,2,20,21],但它仍然是* 同等贡献。这篇文章是朱玄庚在美高梅科技实习时完成的。†通讯作者。本研究得到了国家重点研究发展计划(2018YFC 0831700)和北京人工智能研究院(BAAI)的支持。(a) 基线(b) 我们图1.人群中的人类检测。(a)FPN[20]基线预测的结果。Thedashed boxes indicate the missed detec- tions (suppressed byNMS mistakenly). (b)我们的方法应用于FPN的结果。所有实例都被正确预测。相同颜色的盒子来自相同的提案(最好用颜色看在实践中对于拥挤检测是非常具有挑战性的。 图1(a)显示了一个常见的失败案例:检测器不能预测与其它实例严重重叠的实例(虚线框中指示)。这种在拥挤场景中的典型失败主要归因于两个原因。首先,高度重叠的实例(以及它们相关的提案)可能具有非常相似的特征。因此,检测器很难分别为每个建议生成有区别的预测(图1中示出了说明)2为一个具体的例子)。其次,由于实例可能彼此严重重叠,预测很可能被错误地抑制,12215NMS,如图所示。第1(a)段。以前的工作试图从不同的角度解决这个问题,如复杂的NMS [1,16,23,18、25、17],新损失函数[44、40],重新评分[19],基于部件的检测器[44,38,46,3]。但是,正如我们稍后将分析的那样(第二节)。(2)现有的算法要么过于复杂,要么不能有效地处理高度重叠的情况,要么不能有效地处理较少重叠的情况。在本文中,一个新的方案被引入来处理这个困难:对于每个建议框,我们建议预测一组可能高度重叠的实例,而不是像往常一样预测单个实例,如图2所示。2.利用该方案,期望邻近预测器的预测推断相同的实例集合,而不是区分个体,这是容易学习的。我们还介绍了新方案中的一些技术。首先,提出了一种EMD损失来监督(一)空(b)第(1)款学习实例集预测。其次,针对单纯NMS在人群场景中的不足,提出了一种新的后处理方法Set NMS,以抑制不同方案的重复最后,一个可选的细化模块(RM)的设计,以处理潜在的误报。我们的方法很简单,几乎没有成本。它适用于所有基于提议的检测器,如[29,20,21,13]。主要的修改是增加了一个预测分支,这只会带来微不足道的额外成本。但改善是显著的:在CrowdHuman [32]数据集上,我们的方法提高了4.5%(无细化模块)或4.9%(有细化模块)的AP分数;此外,在拥挤实例上的召回率提高了8.9%。更重要的是,即使没有细化模块,MR-2此外,在不太拥挤的数据集上,我们的方法仍然可以获得适度的增益。例如,在CityPersons上,我们在AP和MR −2上实现了0.9%和1.0%的基线改善;而在COCO上,[22]它获得了高1.0%的AP评分。在不同数据集上进行的所有实验表明,我们的方法可以处理所有优雅的场景,不管拥挤。2. 背景正如在引言中提到的,基于提议的对象检测器的范例主要包括两个步骤:第一步是建议框生成,这可以通过选择性搜索[12,11],预定义/可学习的锚点[29,28,24,21,41,39,45]或区域建议来实现网络(RPN)[29,20,13,4,2]等。第二步是实例预测,即预测每个建议框对应的细化检测结果。我们主要集中在本文的第二步。例如预测,当前最先进的对象检测框架[29,20,21,24,28]通常附加一个图2.拥挤检测中的典型案例。刀和叉几乎共享相同的边界框。三个提案框(红色,绿色和蓝色,最好用彩色显示)严重重叠。(a)单谓词范式(见第二节)。2)。每个建议框预计预测单个实例[29,20,21,24,28,13](可能是空的),这在本质上是困难的,因为建议共享非常相似的特征。此外,在NMS之后,很可能只有一个预测存活下来。(b)在我们的方法中,每个建议预测一组实例。我们的Set NMS可以轻松地将重复的预测集一起删除(图中未显示)。对每个建议框的检测功能,其用于确定建议是否与某个地面实况实例相关联;如果为真,则进一步预测对象的对应类别标签和细化的边界框。这种机制意味着每个建议框对应于单个基础事实(通常是与建议框重叠最多的一个因此,建议框必须被过度完成以确保每个实例都有机会被检测到,这给预测引入了许多重复。因此,重复删除方法(如非最大值抑制(NMS))是必要的,这些框架过滤掉重复的结果。Although the above paradigm seems to obtain outstand-ing results on some benchmarks such as COCO [22] andPASCAL VOC [8].由于后处理方法的原因,它在拥挤的场景中会出现检测缺失的问题。NMS。图1(a)示出了示例:虚线框中的人被附近的框错误地抑制。因此,已经提出了几种方法或变通方法来解决这一限制,这些方法或变通方法可以分类如下:高级NMS 朴素NMS的有效性是基于多个实例很少发生在同一位置的假设,这在拥挤的场景中不再满足。 几种改进的NMS方法12216提出如例如,Soft-NMS[1]和Softer-NMS[16]建议衰减抑制的邻近预测的置信度得分,而不是直接丢弃它们。[30]采用二次二进制优化来预测实例,利用地面实况大小的先验分布。然而,NMS的这种启发式变体在不同的情况下并不总是有效的。因此,可以引入更复杂的机制,例如,[18,25]使用神经网络进行更复杂和数据依赖的重复删除。虽然这些方法提高了朴素NMS的上限 其他作品,如[23,17]建议以预测不同边界框的不同NMS阈值。作为主要缺点,它们需要用于IoU/密度估计的额外结构,这引入了更多的超参数。此外,仍然难以区分如图2(a)中的严重重叠的框。拥挤检测的损失函数。一些以前的工作提出了新的损失函数来解决拥挤检测的问题。例如,[43]提出了聚合损失,以强制建议接近并与相应的地面实况紧密定位。[40]提出了排斥损失,它引入了额外的惩罚,propos- als interrupted与多个地面真理。这些损失函数的帮助下,在拥挤的场景中的检测的质量得到改善。然而,由于在框架中仍然需要传统的NMS,所以仍然难以回忆图2(a)中所示的重叠实例。重新得分。 在许多检测框架[29,24,20,21]中,只要重叠大于给定阈值,建议框就绑定到地面实况,这通常导致建议和地面实况实例之间的多对一相反,如果我们重新设计损失函数以鼓励一对一关系,则可以消除NMS过程以避免未命中检测。我们将这种方法命名为重评分法.以前的一些作品遵循了这个想法。例如,在[26,27]中,每个地面实况实例在训练期间严格关联到一个建议框。然而,在[26,27]的架构中,由于建议之间缺乏联系,预测可能是模糊的,因为一个建议不能确定相关实例是否已被另一个建议预测实际上,在[26,27]中,NMS仍然参与其中。相反,BSNet[19]明确地建模了pro-probability之间的关系,这应该克服[26,27]的局限性。使用重新评分,即使没有NMS,COSNet也可以在COCO[22]数据集上获得性能然而,在一个更拥挤的数据集CrowdHuman[32]中,我们发现重新评分的RISNet表现相对较差( 参 见 第 二 节 。 4 详 情 ) 。 这 可 能 是 因 为 在CrowdHuman数据集上,提案必须比COCO上的提案密集得多。因此,重新评分网络需要从非常接近的建议中生成不同的预测(因此它们的特征和关系也非常相似,如图所示)。2(a)),这对于神经网络是不可行的。还有其他拥挤检测方法,例如,基于部分的检测器[44,38,46,3],主要用于检测行人等特殊情况。本文省略了讨论。总之,基于上述分析,我们认为,在拥挤的场景中的对象检测可能是根本困难的,或者至少是不平凡的和复杂的现有的基于提议的框架。关键问题在于预测每个提案框只有一个实例的基本范式。它启发我们探索新的实例预测方案,即。多实例预测对于每一个提案。3. 我们的方法:多实例预测我们的方法是基于以下观察:考虑有多个对象彼此严重重叠,如图2中的情况。2;如果一个建议对应于任何一个对象,它很可能与所有其他对象重叠。那么,对于这样一个提案框,与其预测单个对象,为什么不预测所有对象呢?形式上,对于每个建议框bi,新方案建议预测相关的地面实况实例集G(bi)而不是单个对象:G( bi )={gj∈G|IoU( bi ,gj )≥θ},(1)其中G是所有地面真值盒的 集 合 ,θ是给定的交并比(IoU)阈值。图2(b)使概念可视化。与传统的单实例预测框架相比,我们发现我们的新方案可以大大减轻拥挤场景中的学习。如图在图2(b)中,所有三个提议框被分配给同一组地面实况实例一一这是可行的行为,因为三个提议实际上共享几乎相同的特征。而对于先前的单实例预测范例(图1),2(a)),每一个建议都必须产生不同的预测,这可能是非常困难的。我们介绍我们的方法的细节如下:实例集预测。对于每个建议框bi,大多数现代的基于提议的检测框架[29,20,21,24,13]采用检测函数来预测一对(ci,li)以表示相关联的实例,其中ci是具有置信度的类标签,而li是相对坐标。在我们的方法中,为了预测一组实例,我们12217我引入一个简单的扩展-一个在NMS算法中,我们插入一个额外的测试来检查这两个盒子是否来自同一个建议;P(bi)=、、、(c(1),l(1)),(c(2),l(2)),. . .,(c(K),l(K))、(二)如果是,则跳过抑制。 实验在SEC。4还建议只有当多实例预测和集合我我其中K是代表数据集中G(bi)的最大基数的给定常数(参见等式 1)。 P(bi)可以通过在大多数现有的检测框架中引入额外的预测分支来简单地实现[29,20,21,13,24],如图2所示第3(a)段。注意,即使K对于所有建议都是固定的,网络仍然可以预测一些c(k)到背景类,表示第k个检测函数不预测建议bi的实例。EMD损失。我们的目标是设计一个损失L(bi),以最小化预测P(bi)和对应于建议bi 的地面实况实例G(bi)之间的差距,这可以归类为集合距离测量的问题。模拟在一些早期的目标检测论文中,例如[36,7,35],已经讨论了类似的问题。受其启发,我们设计了以下EMD损失,以最小化两组之间的地球移动器NMS一起使用,我们的方法可以实现拥挤检测的显着改善。完善模块。在我们的方法中,每个建议都被期望生成一组实例,而不是单个实例,这可能会因为生成更多的预测而导致误报增加虽然在我们的实验中很少观察到真实图像的故障情况,但我们引入了一个可选的改进模块,以应对风险,如图所示3(b)款。该模块简单地将预测作为输入,将它们与建议特征相结合,然后执行第二轮预测。我们期望细化模块纠正可能的错误预测。讨论内容:与以前的方法有关。预测- 使用多个实例并不是什么新鲜事。 双人检测器[37]在[9]框架中对人对进行建模。 在深度学习时代,一些早期检测系统ΣKL(bi)=minΣΣLcls(c(k),gπ)+ Lreg(l(k),gπ)(三)[26,27,36,7]也暗示了多实例预测的高级思想,而这些方法不是建议。π∈Πikikk=1基于. 例如,MultiBox[7,36]直接预测所有图像补丁中的实例;[26,27]第一代其中π表示(1,2,. - 是的- 是的,K),其第k项为πk; gπk∈G(bi)是第πk个真值盒;Lcls( ·)和 Lregg(·)分别是分类损失和盒回归损失,遵循共同的定义:如[29,24,20,21,13]。注意,在Eq. 3、我们作为--|G(bi)|=K;如果不是,我们将一些“虚拟”框(其类标签被视为背景并且没有回归损失)添加到G(b i),直到它被满足。直观地,公式中的公式3意味着探索所有可能的一对一-一种是在预测和基本事实之间进行匹配,从而找到损失最小的“最佳匹配”。值得注意的是,如果K =1,等式3变为等同传统单实例预测框架中的损失,这意味着我们的EMD损失是对常用检测损失的自然概括[29,24,20,13]。设置NMS。在我们的方法中,虽然每个建议都能够预测多个相关的实例,如果天真的NMS仍然参与后处理,它是不可能有效地检测对象在拥挤的场景。幸运的是,由于EMD损失,由一个建议预测的实例根据定义被期望是唯一的换句话说,重复只存在于不同建议的预测之间,如图所示。第2段(b)分段。有了这个先验知识,我们引入了一个简单的补丁到简单的NMS管道,名为Set NMS为每个单元格生成多个预测(即,预测以某个位置为中心的所有实例)。在[7,36,26,27]中还提出了用于集合预测的特殊损失函数,其设计目的与我们的EMD损失类似。与我们最相关的先前工作是[35],它引入了LSTM来解码图像的每个网格中的实例框类似于我们的EMD损失,他们使用匈牙利损失进行多实例监督。对于后处理,采用盒拼接方法合并由相邻网格产生他们主要在头部检测任务上对该方法进行了评估,该方法显示出一定的预测拥挤物体的能力然而,由于该方法没有利用这些建议,因此可能难以检测各种尺寸/形状的对象,例如行人或一般对象。此外,LSTM预测器是复杂的,这对于有效地集成到当前最先进的检测框架[20,21,13]中可能是不平凡的。3.1. 网络架构理论上,我们的方法可以应用于大多数最先进的基于提议的检测器,无论是一阶段[24,21,28]还是两阶段[29,20,13]框架。在本文中,我们选择FPN[20]和RoIAlign[13]作为基线检测器来评估我们的方法。在FPN中,区域提案网络(RPN)分支负责提案生成,而RCNN(或命名为12218建议ROI121024d任择boxBboxB细化模块(一)EMD损失boxBboxBEMD损失数据集#objects/img#overlaps/img[32]第三十二话22.642.40[42]第四十二话6.470.32[22]第二十二话9.340.015表1.每个数据集的实例密度重叠统计的阈值是IoU> 0。5. *按班级数取平均数。分别对严重、中度和轻微重叠情况进行综合评价。表1列出了每个数据集的因为我们的计划-箱形管2箱B(b)第(1)款精炼箱形管精炼盒BPROACH主要旨在改进拥挤检测。因此,我们对人群-人类进行了大部分比较和消融。请注意,在像COCO这样的非拥挤数据集上的实验是为了验证我们的方法是否会损害孤立对象检测,而不是为了显着的性能改进.图3.整体架构。(a) 方框A和方框B是使用我们的EMD损失由一个提议预测的两个实例。细化模块是一个可选的步骤. (b)细化模块连接特征和框信息以优化结果。RoI)分支用于预测RoI提议对应的实例因此,我们的方法被附加到后一个分支。从Sec。3,很容易看出,在我们的方法中只有一个额外的超参数-G(·)的性质(参见等式2)。在论文的其余部分,我们让K=2 , 我 们 发 现 在 许 多 检 测 数 据 集 中 , 如CrowdHuman,几乎所有的图像和建议[32][22]《易经》:“君子之道,焉可诬也?”图3(a)说明了我们的方法在FPN中的使用(仅示出了RCNN分支 在原始架构的基础上,仅需进行轻微修改:只是将附加的实例预测首尾相连。EMD损失被应用于两个预测,而不是原始损失。细化模块是可选的;如果应用的话,我们使用改进的结果作为最终的预测。4. 实验在本节中,我们从不同的角度评估我们的方法。直觉,一种专门针对拥挤场景优化的检测算法往往会召回更多的实例,然而,通常会增加误报预测的风险。我们的基准集中在两个相反的方面。数据集。用于拥挤场景的理想对象检测器应该对实例分布具有鲁棒性。不仅对于拥挤检测有效,而且对于检测单个/不太拥挤的对象也稳定。我们采用三个数据集– [22]第32话:你是谁评估指标我们主要采取以下三个标准用于不同的目的:• 平均精度(AP),这是最流行的检测指标。AP反映了精度和检测结果的查全率在我们的实验中,我们经验性地发现AP对召回分数更敏感,特别是在拥挤的数据集上,如CrowdHu- man。AP越大,性能越好。• MR-2[6]是[10- 2,100]中每幅图像的对数平均误检率(FPPI)的缩写,通常用于行人检测。MR-2对假阳性(FP)非常敏感,特别是高置信度的FP会显著损害MR-2比率。MR-2越小,性能越好。• Jaccard指数(JI)[24]主要用于评估探测器的计数能力。与定义在预测序列上的置信度递减的AP和MR-2预测集与地面实况重叠。通常,可以通过引入置信度分数阈值来生成预测集。在本文中,对于每个评估条目,我们通过探索所有可能的置信阈值来报告最佳JI分数。我们使用CrowdHuman的官方SDK[32]进行JI计算。较大的JI表示更好的性能。详 细 设 置 。 除 非 另 有 说 明 , 否 则 我 们 使 用 在ImageNet[31]上预训练的标准ResNet-50[15]作为所有实验的骨干网络。基线检测框架是FPN[20],而使用RoIAlign[13]而不是原始的RoIPooling。至于锚点设置,我们使用与[20]相同的锚点比例,而对于CrowdHu,纵横比设置为H:W={1:1,2:1,3:1}人和CityPersons,以及COCO 的{2:1,1:1,1:2}。FC1024d细化模块Concat12219对于训练,我们使用与[20]中相同的协议批量大小为16,分为8个GPU。每次训练持续30个时期。在训练过程中,RoI分支的正向建议与负向建议的采样比例对于CrowdHuman为1:1,1:3为CityPersons和COCO。未应用多尺度训练和测试;相反,每个图像的短边缘的大小被调整为800个像素,用于训练和测试。所有框重叠IoU阈值(例如在等式中的θ。1、NMS阈值和计算评估度量时的阈值)默认设置为0.5对于我们的方法,我们使用K=2(参见等式(1))。2)。图3中的细化模块默认启用。4.1. 关于CrowdHumanCrowdHuman[32]分别包含15,000、4,370和5,000为了公平比较,我们在相同的设置下用我们自己的实现重新训练了大多数涉及的模型。结果主要在验证集上进行评价,使用[32]中的全身基准。主要结果和消融研究。表2示出了第2.1.1节中所提出的方法的烧蚀实验3、包括EMD损失的多实例预测、集合NMS和精化模块。基线是FPN[20],使用NMS(IoU阈值为0.5)进行后处理。很明显,我们的方法始终提高了所有标准的性能。特别是,即使没有细化模块,我们的方法仍然获得了4.5%的AP和2.2%的JI,表明更多的实例可以正确检测;更重要的是,我们发现MR-2比率也有所改善,这表明我们的模型不会引入更多的假预处理。字典细化模块对AP和JI的影响很小,而MR−2进一步提高了0.8%,这表明该模块主要减少了我们预期的误报。MIP设置NMSRMAP/%MR−2/%联合执行/%85.842.979.8C87.442.880.8CC90.342.282.0CCC90.741.482.3表2.在CrowdHuman验证集上评价消融实验基线模型(第一行 ) 是 我 们 重 新 实 现 的 FPN[20] 与 ResNet-50[15] 主 干 。MIPRM与各种NMS策略的比较。 在图1中,由于NMS错误地抑制了某些实例,因此一个可能的假设是,可以通过使用不同的NMS策略来改进预测。表3探讨了一些变体。对于初始NMS,与默认设置(0.5)相比,稍微加大IoU阈值(从0.5到0.6)可能有助于召回更多实例,因此AP增加;方法IOUAP/%MR−2/%联合执行/%0.372.348.569.60.480.744.676.3NMS0.585.842.979.80.688.145.479.40.787.156.574.40.882.868.562.6软件NMS [1]0.588.242.979.8我们的(不含RM)0.590.342.282.0我们的(与RM)0.590.741.482.3表3.不同NMS策略在CrowdHu- man验证集上的比较。基线模型是FPN[20]。为后期处理设置阈值。RM然而,MR-2指数变得更差(从42%到45.4%),表明引入了更多的假阳性。Soft-NMS[1]可以提高AP评分,但在MR-2和JI中没有得到改善相反,我们的方法在所有三个指标中取得最好的成绩,即使没有精化模块与以前的作品比较。 据我们所知,很少有以前的拥挤检测工作报告他们的结果CrowdHuman。为了进行比较,我们对两种方法进行了基准测试-2为分析)。对于GossipNet,我们使用开放源代码实现基准1。而对于P2NET,我们重新实现了重新评分版本2。所有方法都使用FPN[20]作为具有相同训练设置的基本检测器。表4列出了比较结果。令人惊讶的是,GossipNet和GossipNet都遭受了AP和MR-2的显着下降。进一步的分析表明,对于拥挤的对象,这两种方法比基线NMS具有更好的召回率(见表5),但是,往往会引入太多假阳性预测虽然现在断言[19,18]在CrowdHuman上不起作用还为时过早(我们还没有完全探索超参数),但至少这两种方法对于调优来说是不平凡的。相比之下,我们的方法不仅有效,而且非常简单,因为它几乎没有额外的超参数。表4还比较了最近的工作AdaptiveNMS[23],这是一种用于拥挤检测的增强型NMS策略。在[23]中,报告了基于FPN的CrowdHuman结果。请注意,由于基线没有对齐,我们无法与我们的结果进行直接比较。从数字上看,我们发现我们的方法可以取得显著的改善-1https://github.com/hosang/gossipnet2我们使用重新评分版本而不是NMS,因为NMS显然不适合拥挤检测。我们已经检查了COCO[22]分数,以确保正确的重新实现。12220从更强的基线(特别是在AP中)开始,此外,管道简单得多。表4还评估了我们在Cascade R-CNN上的方法[2]框架. 我们将EMD损失和设置NMS添加到级联R-CNN的最后一级结果表明,我们的方法仍然可以显著提高Cascade R-CNN在CrowdHuman等拥挤数据集上的性能。表4. CrowdHuman验证集上各种拥挤检测方法的比较所有方法均基于FPN检测器[20]。AP和JI的值越高,表示性能越好,这与MR−2相反。召回分析。为了进一步了解我们的方法对拥挤对象的有效性,我们分别比较了不同方法对拥挤和非拥挤实例的召回率。结果见表。5.注意,召回与置信度分数阈值有关。为了公平比较,我们分别使用与每个条目的最佳JI指数相对应的阈值从表中我们发现,对于FPN基线/Soft-NMS,拥挤对象的回忆远低于非拥挤对象的回忆,这意味着拥挤检测的困难。相比之下,我们的方法大大提高了拥挤实例的召回率(从54.4%提高到63.3%,提高了8.9%),此外,非拥挤实例的召回率也略有提高。4.2. 城市人实验CityPersons [42]是广泛使用的行人检测基准之一。该数据集包含5000张图像(分别为2975张用于训练,500张用于验证,1525张用于测试)。每个图像的大小为1024× 2048。遵循以往作品的惯例所有对象检测器都在训练(合理)子集上进行训练,并在验证(合理)子集上进行测试,与原始分辨率相比 , 分 辨 率 提 高 了 1.3 倍 , 这 与 我 们 用 于CrowdHuman[32]和COCO[22]的设置略有不同。 到3在这里,召回JI不是一个bug,因为在CrowdHumanSDK [32]中,JI是通过平均每个图像的JI得分来评估的,而在召回计算中,除数是整个数据集的地面真值的数量<表5.在CrowdHuman确认集上召回检测盒仅考虑置信度得分高于某个阈值的框。置信度阈值分别取决于最佳JI分数,并在“Conf”列中注明。最后三列中的数字表示召回的包装箱数量 。 “Crowd” means the corresponding ground-truth boxoverlaps with some other ground truth with IoU请注意,Soft-NMS[1]的召回与NMS基线相同,这是因为置信阈值相对较高(0.8),因此NMS大致等同于Soft-NMS。为了获得一个更好的基线,我们遵循[3]中提出的策略,即通过抖动将地面事实演变为建议。4.第一章方法Conf.总稀疏人群地面实况-15791471108FPN0.61430136664公司简介(90.6%)(92.9%)(59.3%)FPN0.61430136664+ 软件NMS [1](90.6%)(92.9%)(59.3%)我们0.61476138096(93.5%)(93.8%)(88.9%)表6. CityPersons验证集上的检测召回。请参见表5中的说明。请注意,Soft-NMS[1]的重新调用与NMS基线相同,这归因于置信度阈值相对较高(0.6),因此NMS大致等同于Soft-NMS。定性结果。表7比较了我们的方法与FPN基线(分别具有原始NMS和软NMS)的比较。我们的方法在NMS基线上分别将AP和MR−2提高了0.9%和1.0%,表明了有效的我们的方法。表7还列出了CityPersons的其他一些最先进的结果。尽管由于不同的超参数设置,直接比较可能不公平,但是,至少它意味着我们的方法在相对较强的基线上实现了显著的增益。方法Conf.总稀疏人群地面实况-99481925906891FPN +0.862699589493750NMS(63.0%)3(63.7%)(54.4%)FPN +0.862699589493750软件NMS [1](63.0%)(63.7%)(54.4%)FPN +0.063634594204214[第18话](63.9%)(64.2%)(61.2%)FPN +0.558344541734172[第19话](58.6%)(58.5%)(60.5%)方法AP/% MR−2/%JI/%FPN基线85.842.979.8FPN + Soft-NMS [1]88.242.979.8[19]第19话:我的世界81.648.274.6[18]第18话我的世界80.449.481.6我们90.741.482.3FPN基线(实施[23])83.152.4-AdaptiveNMS(实施[23])84.749.7-CascadeR-CNN [2](我们的实施)85.643.080.6CascadeR-CNN +我们的86.941.781.212221图4.基线和我们的方法的视觉比较。The first row are the results produces by FPN with NMS.最后一行是我们方法的结果。可视化的分数阈值为0.3。相同颜色的盒子源于相同的提议。虚线框是遗漏的检测框。表 6 进 一 步 分 析 了 不 同 方 法 的 召 回 情 况 类 似 于CrowdHuman中的那些(参见表6),我们的方法主要显著提高了对拥挤对象的召回-从比较进一步表明,cates我们的方法是非常有效的处理拥挤的场景了。方法骨干MR−2APFPN + NMSFPN + Soft-NMS [1]RES-5011.7% 95.2%11.8% 95.3%我们RES-5010.7% 96.1%[42]第四十二话[43]第四十三话自适应NMS [23]VGG-1612.8%-11.0%-10.8%-FRCNN(我们的实施)[29日]RES-5011.6% 95.0%[40]第四十话11.6%-表7.CityPersons验证集上不同方法的比较与原始尺寸相比,所有模型均采用1.3倍的放大分辨率进行评估上半部分的模型是由我们使用相同的FPN基础检测器训练的。下半部分的模型是用其他协议训练的。4.3. COCO实验根据表1,COCO[22]的拥挤度非常低,这超出了我们的设计目的。因此,我们并不期望COCO有显著的性能提升。相反,引入COCO的目的是验证:1)我们的方法是否能很好地推广到多类检测问题; 2)该方法对不同的拥挤度,尤其是孤立实例是否具有鲁棒性。方法APAP50AP75APSAPM APLFPN37.559.640.423.041.248.6软NMS38.059.441.523.341.849.0我们38.560.541.523.041.850.1表8. COCO[22]minival set的比较。所有型号均基于FPN检测器。结果在所有80个班级进行评估遵循[20,21]的常见做法,我们使用原始验证集中的5000个图像的子集(名为minival)进行验证,同时使用原始训练和验证集中的剩余图像进行训练。表8显示了与FPN和FPN+Soft-NMS基线的比较获得了适度的改善,例如在AP方面,比naïve NMS好1.0%,比Soft-NMS好0.5%。有趣的是,大对象实现了最显著的改进(参见表8中的APL实验表明,该方法不仅在拥挤场景中非常有效,而且能够处理多个类和孤立实例,而不会降低性能。5. 结论在本文中,我们提出了一个非常简单,但有效的建议为基础的对象检测器,专门设计用于拥挤的实例检测。该方法利用了多实例预测的概念,引入了经验模态分解(EMD)损失、集合NMS和精化模块等新技术。我们的方法不仅有效,而且灵活,可以与大多数最先进的基于提案的检测框架合作;此外,还可以很好地推广到不太拥挤的场景。12222引用[1] Navaneeth Bodla、Bharat Singh、Rama Chellappa和LarryS.戴维斯Soft-NMS -用一行代码改进目标检测。在IEEE国际计算机视觉会议(ICCV)中,2017年10月。[2] 赵伟蔡和努诺·瓦斯康塞洛斯。级联r-cnn:高质量的对象检测和实例分割。arXiv预印本arXiv:1906.09756,2019。[3] Cheng Chi,Shifeng Zhang,Junliang Xing,Zhen Lei,Stan Z Li,and Xudong Zou. Pedhunter:拥挤场景中的遮 挡 鲁 棒 行 人 探 测 器 。 arXiv 预 印 本 arXiv :1909.06826,2019。[4] 戴纪峰,易力,何开明,孙建。R-fcn:通过基于区域的全卷积网络的目标检测。神经信息处理系统的进展,第379-387页,2016年[5] Jifeng Dai,Haozhi Qi,Yuwen Xiong,Yi Li,GuodongZhang,Han Hu,and Yichen Wei.可变形卷积网络。在IEEEInternationalConferenceonComputerVision(ICCV),2017年10月。[6] Piotr Dollar,Christian Wojek,Bernt Schiele,and PietroPerona. 行 人 检 测 : 对 最 新 技 术 水 平 的 评 价 。 IEEEtransactionsonpatternanalysisandmachineintelligence,34(4):743 -761,2012.[7] Dumitru Erhan、Christian Szegedy、Alexander Toshev和Dragomir Anguelov。使用深度神经网络的可扩展对象检测。在IEEE计算机视觉和模式识别会议论文集,第2147-2154页,2014年。[8] M. Everingham,S. M. A.埃斯拉米湖凡古尔角,澳-地K.I.威廉斯,J. Winn和A.齐瑟曼。Pascal视觉对象类挑战:回顾。International Journal of Computer Vision,111(1):98-136,Jan. 2015年。[9] Pedro F Felzenszwalb 、 Ross B Girshick 、 DavidMcAllester和Deva Ramanan。使用区分性训练的基于部分的模型进行对象检测。IEEE Transactions on PatternAnalysis and Machine Intelligence,32(9):1627[10] Cheng-Yang Fu , Wei Liu , Ananth Ranga , AmbrishTyagi,and Alexander C.伯格。DSSD:DeconvolutionalSingle Shot Detector。CoRR,abs/1701.06659,2017。[11] 罗斯·格希克。快速R-CNN。在IEEE计算机视觉国际会议(ICCV)上,2015年12月。[12] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语 义 分 割 。 在 Proceedings of the IEEE conference oncomputer vision and pattern recognition,pages 580[13] K. 他 , G. Gkioxari , P.Doll a'r 和 R. 娘 娘 腔 。MaskR-CNN 。 在 2017 年 IEEE 国 际 计 算 机 视 觉 会 议(ICCV),第2980-2988页[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。在欧洲计算机视觉会议上,第346-361页。Springer,2014.[15] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。进行中-IEEE计算机视觉和模式识别会议的论文集,第770-778页,2016年。[16] Yihui He , Chenchen Zhu , Jianren Wang , MariosSavvides,and Xiangyu Zhang.具有不确定性的边界盒回归用于精确的对象检测。在IEEE计算机视觉和模式识别会议集,第2888-2897页[17] Jan Hosang,Rodrigo Benenson,and Bernt Schiele.非最大抑制的一种方法。德国模式识别会议,第192-204页。施普林格,2016年。[
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功