没有合适的资源?快使用搜索试试~ 我知道了~
1学习非最大值抑制扬·霍桑·罗德里戈·贝嫩松马克斯·普朗克信息研究所,德国firstname. mpi-inf.mpg.de伯特·席勒摘要目标检测器从向端到端学习范式的转变中获益匪浅:建议、特征和分类器成为一个神经网络,在一般对象检测上将结果改进两倍。 一个不可或缺的组件是非最大抑制(NMS),这是一种后处理算法,负责合并属于同一对象的所有检测。事实上的标准NMS算法仍然是完全手工制作的,简单得令人怀疑,并且-基于具有固定距离阈值的贪婪聚类-迫使在召回率和精度之间进行权衡。我们提出了一个新的网络架构,旨在执行NMS,只使用盒子和他们的分数。我们报告的PETS和COCO数据集上的一般对象类别的人检测实验我们的方法显示出提供改进的定位和遮挡处理的承诺。1. 介绍所有现代物体探测器都遵循三个步骤:(1) 提出窗口的搜索空间(通过滑动窗口穷举或使用建议稀疏),(2)用分类器/回归器对窗口进行评分/细化,以及(3)合并可能属于同一对象的窗口。这最后一个阶段通常被称为NMS的事实标准是一个简单的手工制作的测试时间后处理,我们称之为GreedyNMS。该算法会选择高得分的检测,并删除附近的不太自信的邻居,因为他们很可能覆盖相同的对象。该算法是简单,快速,和令人惊讶的竞争力相比,提出的替代品。最近在一般对象检测方面最显着的性能突破是R-CNN [10],它有效地取代了神经网络的特征提取和分类器,几乎使Pas- cal VOC的性能翻了一番。另一个显著的改进是吸收图1:我们提出了一个非最大抑制conv- net,将重新评分所有原始检测(顶部)。我们的网络经过端到端的训练,学习每个对象只生成一个高分检测(底部,示例结果)。将对象提案生成到网络中[21],而其他作品完全避免提案[21,20],从而提高了速度和质量我们可以看到端到端学习的总体趋势,并且通过对检测器进行完整的端到端训练来期待进一步的改进似乎是合理的。NMS是管道中的一个步骤,在很大程度上,它避开了端到端的学习范式。所有上述检测器都在忽略NMS问题 存 在 的 事 实 的 过 程 中 训 练 分 类 器 , 然 后 将GreedyNMS作为断开连接的后处理运行。有必要克服GreedyNMS由于其重大的概念缺陷。GreedyNMS通过删除检测来做出艰难的决定,并将此决定基于一个控制抑制范围的固定参数广泛的抑制将消除附近的高评分检测,这些检测可能是损害精度的误报。另一方面,如果物体靠近(例如,在拥挤的场景中),附近的检测可以是真阳性,在这种情况下,抑制应该是窄的,以改善重新检测。4507Convnet4508电话当对象接近时,GreedyNMS注定要牺牲精度或召回率,而与其参数无关。希望学习NMS以克服这些限制。基于神经网络的NMS方法可以学习适应数据分布,克服GreedyNMS的权衡,并且重要的是可以并入检测器中。在本文中,我们提出了第一我们的网络使得最终的GreedyNMS后处理变得多余。在第3节中,我们首先讨论基本问题:为什么需要NMS?我们讨论了检测的任务,以及它与检测器和NMS的具体细节的关系我们确定了当前检测器缺乏的两个必要成分,并设计了一个包含这些成分的NMS网络(第4节);结果在概念上不同于GreedyNMS和当前检测器。在第5节中,我们报告了有希望的结果,表明该网络确实能够取代GreedyNMS。我们报告了单类(PETS行人)和多类结果(COCO数据集),两者都显示出对Gree-dyNMS的改进。我们相信这项工作为真正的端到端探测器打开了大门。2. 相关工作聚类检测。事实上的标准算法GreedyNMS已经经历了几代检测器的考验,从ViolaJones [32],到可变形部分模型(deformable parts model,简称RMS)[7],再到目前最先进的R-CNN家族[10,9,21]。已经针对NMS的任务探索了几种其他聚类算法,但没有显示出一致的增益:均值漂移聚类[6,35],凝聚聚类[2],亲和传播聚类[17]和启发式变体[25]。在[27,23]中已经提出了具有全局最优解的原则性聚类公式把检测结果和像素联系起来。Hough投票建立检测与支持它们的图像证据之间的对应关系,这可以避免过度使用图像内容进行多个检测[15,1,14,34]。霍夫投票检测器的总体性能仍然相对较低。[37,5]将检测与语义标签相结合,而[36]将检测重新表述为标签问题。根据图像内容解释检测是一个合理的公式,但这些工作依赖于图像分割和标记,而我们的系统纯粹基于检测操作,没有额外的信息源。共现。一条工作线提出检测成对的对象而不是每个单独的对象,以便检测对象。dle强咬合[24,29,19]。它面临着一个更加复杂的NMS问题,因为需要处理单检测和双检测。[22]根据估计的人群密度作出镇压决定。我们的方法既不使用图像信息,也不是手工制作来专门检测成对的对象。自动上下文。一些方法通过使用图像信息对局部[30,4]或全局[31]的这些方法倾向于产生更少的分散的双重检测,并提高整体检测质量,但仍然需要NMS。我们还将NMS的问题作为重新评分任务来处理,但我们完全消除了任何后处理。图上的神经网络。一组检测可以被看作是一个图,其中重叠的窗口被表示为检测图中的边缘。[18]在图上操作,但需要定义节点排序的预处理,这在我们的情况下是不明确的。探测器的端到端学习。很少有作品探索了真正的端到端的学习,包括NMS。一个想法是在训练时包含GreedyNMS [33,12],使分类器在测试时知道NMS过程。这在概念上更令人满意,但并不能使NMS变得可学习。另一个有趣的想法是直接生成一组稀疏的检测,因此NMS是不必要的,这是在[26]中通过训练LSTM来完成的,该LSTM在图像的重叠块上生成检测。在相邻块的边界处,可能从两个块预测对象,因此 仍 然 需 要 后 处 理 。[13] 设 计 一 个 convnet , 将GreedyNMS的决策与不同的重叠阈值相结合,允许网络在本地选择GreedyNMS操作点。这些工作实际上都没有从输出稀疏检测集的最终决策过程中完全删除我们的网络能够执行- ING NMS,而无需给出一组可供选择的抑制替代方案,也无需另一个最终抑制步骤。3. 检测和非最大抑制在本节中,我们将回顾非最大抑制(NMS)以及为什么它是必要的。特别是,我们指出了为什么目前的探测器在概念上无法产生每个对象正好一个检测,并提出了两个必要的成分,一个探测器这样做。目前的检测器不会返回所有已评分的检测,而是使用NMS作为后处理步骤来删除冗余检测。为了拥有真正的端到端学习检测器,我们对没有任何后处理的检测器感兴趣。要理解NMS为什么是必要的,看看检测任务以及如何评估它是有用的。4509目标检测。 目标检测的任务是映射一个图像到一组框:图像中每个感兴趣的对象一个框,每个框紧密地包围一个对象。这意味着检测器应该对每个对象返回一个检测结果。由于不确定性是检测过程的一个固有部分有信心的错误检测比不太有信心的错误检测受到更多的惩罚。特别地,比最不可信的正确检测更不可信的错误根本不被惩罚。探测器不输出我们想要的。检测问题可以被解释为分类问题,该分类问题估计图像中每个可能的检测存在的对象类别的概率。这种观点产生了滑动窗口、建议),并独立地估计每个检测的类别概率。因此,覆盖相同对象的两个强烈重叠的窗口都将导致高分,因为它们查看几乎相同的图像内容。一般来说,不是每个对象一次检测,而是每个对象触发不同置信度的几次检测,这取决于检测窗口覆盖对象的程度GreedyNMS. 由于实际目标是为每个对象生成一个检测(或一个高置信度检测),因此通常的做法(至少从1994年开始[3])是假设高度重叠的检测属于同一个对象 , 并 将 它 们 折 叠 成 一 个 检 测 。 占 优 势 的 算 法(GreedyNMS)接受最高评分检测,然后拒绝重叠超过某个阈值的所有检测,并对剩余的检测重复该过程,即,极大地接受局部最大值并丢弃它们的邻居,因此得名。该算法最终也接受错误的检测,如果它们的置信度低于正确检测的置信度,这是没有问题的。GreedyNMS还不够好。如果(1)抑制足够宽以总是抑制由相同对象触发的高得分检测,(2) 该抑制足够窄以从不抑制下一个最接近对象的高得分检测。如果对象相距很远,则条件(2)容易满足,并且宽抑制效果良好。在拥挤的场景中,物体之间有很高的遮挡,在宽和窄抑制之间有一种张力.换句话说,每个图像一个对象的NMS是微不足道的,但高度遮挡的对象需要更好的NMS算法。3.1. 没有NMS的未来为了实现真正的端到端系统而不需要手工算法,我们应该问:为什么我们需要一个手工制作的后处理步骤?为什么探测器不直接对每个物体输出一个探测结果?图像窗口的独立处理导致重叠检测给出类似的分数,这是鲁棒功能的要求:相似的投入导致相似的产出。因此,每个对象仅输出一个高得分检测的检测器还必须以其他检测为条件:对同一对象的多个检测应该联合处理,因此检测器可以分辨出存在重复检测,并且其中只有一个应该获得高分。检测器的典型推断包括在包含对象的图像内容和不包含对象的图像内容之间进行区分的分类器。该检测器的正和负训练示例通常由对象和边界框之间的重叠的某种度量来定义。由于相似的盒子无论如何都会产生相似的置信度,因此物体位置的小扰动也可以被认为是积极的例子。这种技术增加了训练数据,并导致更强大的检测器。使用这种类型的分类器训练不会奖励每个对象一个高分检测,而是故意鼓励每个对象多个高分检测。从这个分析中,我们可以看到,为了让检测器对每个对象生成1. 一个惩罚双重检测的损失,告诉检测器我们希望每个物体只检测一2. 相邻检测的联合处理,因此检测器具有必要的信息来判断对象是否被多次检测到。在本文中,我们探讨了一个网络设计,accommo-日期的两个成分。为了验证这些是关键成分并且我们提出的网络能够执行NMS的说法,我们孤立地研究了我们的网络,而没有使用检测器进行端到端学习。这意味着网络仅在没有图像特征的评分检测上操作,因此可以被认为是“纯NMS网络”。4. 使用Convnet进行NMS在第3节中建立了convnet(卷积网络)执行NMS的两个必要要求之后,本节介绍了我们的网络,该网络解决了这两个问题(在§4.1中惩罚双重检测,在§4.2中联合处理检测)。我们的设计避免了硬决策,不丢弃检测,以产生一个较小的检测集。相反,我们将NMS重新定义为重新评分任务,该任务旨在减少覆盖已经检测到的对象的检测得分,如[13]所示在重新评分之后,简单的阈值处理足以减少检测的集合对于评估,我们将完整的重新评分检测集传递给评估脚本,而不进行任何后处理。4510i=1i=14.1. 损失检测器应该输出每个对象的一个高这种探测器的损失必须是对同一物体的多次探测,而不管这些探测有多接近。Stewart和Andriluka [26]使用匈牙利匹配损失来实现这一点:成功-完全匹配的检测是阳性,不匹配的检测是阴性。匹配确保每个对象只能被检测一次,任何进一步的检测都将被视为错误。Henderson和Ferrari [12]提出了一种平均精度(AP)损失,也是基于匹配的。最终,检测器由基准的评估标准来判断,基准又定义了匹配策略来决定哪些检测是正确的或错误的。这检测注释检测(a) 培训架构。(b) 测试架构。新检测分数损失是在训练时应该使用的匹配。典型地,基准排序检测在降序通过他们的信心和匹配检测,在这个顺序ob-objective,首选最重叠的对象。由于已经匹配的对象不能再次匹配,因此多余的检测被计为误报,这降低了检测器的精度。我们使用这种匹配策略。我们使用匹配的结果作为分类器的标签:成功匹配的检测是正训练示例,而不匹配的检测是标准二进制丢失的负训练示例。通常,用于训练分类器的所有检测在被馈送到网络中时具有相关联的标签。在这种情况下,网络可以访问检测和对象注释,匹配层生成标签,这取决于网络的预测。注意这个类分配是如何直接鼓励我们希望实现的重评分行为的设di表示检测,yi∈ {-1,1}表示di是否成功匹配到对象,并且设f表示联合对所有检测进行评分的评分函数图2:Gnet的高级图。FC表示完全连接的层。此图中的所有特征都有128个维度(输入向量和层/块之间的特征),输出是标量。当表示检测分数时,我们使用one-hot编码:零向量,其仅包含向量中对应于类的位置处的分数。由于mAP计算不按类的大小来加权类,因此我们以其预期的类条件权重均匀分布的方式分配实例权重4.2. “Chatty”为了有效地减少上述损失,我们需要我们的网络联合处理检测。为此,我们设计了一个具有重复结构的网络,我们称之为块(如图3所示)。一个块使每个检测访问其邻居的表示,并随后更新其自己的表示。堆叠多个块意味着网络在允许图像f([di]n)上的元素加权逻辑损失ΣN)=[si]n. 我们用每个检测都我们称之为GossipNet(Gnet),因为检测与其邻居对话以更新其表示。L( si,yi)=i=1w yi·log(1 + exp(−s i·yi))。这里有两个关键的非标准操作第一个是一个图层,用于构建这里,每个检测的损失通过产生yi的匹配与其他检测耦合。加权wyi用于抵消检测任务的极端类别不平衡。我们选择权重,使得示例的期望类条件权重等于参数E(w1I(yi=1))=γ。当推广到多类设置时,与置信度和类别都关联既然我们只对检测进行重新评分,我们允许检测被因此,我们只将检测与同一类的对象相匹配,但分类问题仍然是二进制的,并且上述损失仍然适用。检测。这就引出了关键问题:每次检测的不规则数量的邻居。由于我们希望避免[13]中使用的离散化方案,因此我们将通过检测池(第二个密钥)来解决这个问题。检测功能。我们网络的模块将每个检测的检测特征向量作为输入,并输出更新的向量(见图2中的高级图示)。一个模块的输出被输入到下一个模块。这个c=128维特征向量中的值是在训练过程中隐式最后一个块的输出零块块. . . ...这是什么?块FCFC新的检测FC评分FCFCFC带有新分数的检测标签S零块挡... 块FCFCFCFCFCFC逻辑损失匹配4511FC其他检测FCFC每次检测计算+到下一个块成对上下文FCFC成对计算交叉检测组合嵌入池化图3:我们的Gnet的一个块可视化为一个检测。每个检测的表示被减少,然后被组合成相邻的检测对,并与检测对特征连接(阴影框,对应的特征和检测具有相同的颜色)。检测对的特征通过全连接层独立映射通过max-pooling将可变数量的对减少到固定大小的表示。对于每个检测独立地进行成对计算。第一个块采用全零向量作为输入。检测在未来的工作中,这种零输入可能会被图像特征所取代。成对检测上下文。 每个小批由图像上的所有n个检测组成,每个检测由c维特征向量表示,因此数据大小为n×c,访问另一个检测在batch元素中我们使用检测上下文层,对于每个检测di,生成dj与 di充分重叠(IoU > 0.2)的所有检测对(di,dj)一对检测的表示由检测表示和g维检测对特征(见下文)的级联组成,这产生l=2c+g维特征。 为了独立地处理每对检测,我们沿着批次维度排列所有检测对的特征:如果检测di具有ki邻域检测,其产生一批大小为分数向量而不是标量,从而增加了特征对的数量。我们将所有这些原始特征馈送到3个完全连接的层中,以学习每个块中使用的g块一个块进行一次迭代,允许检测查看它们各自的邻居并更新它们的表示(如图3所示)。它由降维、成对检测上下文层、独立应用于每对的2个全连接层、跨检测池化以及两个全连接层组成,其中最后一个层再次增加维度。块的输入和输出与Resnet架构[11]中一样。第一块接收零个特征作为输入,因此用于做出决定的所有信息都是从检测对特征引导的。最后一个块的输出由三个完全连接的层使用,以独立地预测每个检测的新分数(图2)。K×l,其中K=ni=1(ki+1),因为我们还包括参数 除非另有说明,否则我们的网络对(di,di)。注意,邻居的数量ki(对的数量)对于每个检测都是不同的,即使在一小批。为了将可变大小的邻域减少到固定大小的表示,我们的架构在属于同一检测(K×l→n×l)的所有检测对上使用全局最大池化,之后我们可以使用正常的全连接层来更新检测表示(see图3)。检测对特征。在检测上下文中使用的每个检测对的特征由检测对的几个特性组成:(1)并集上的交集(IoU),(2-4)X和y方向上的归一化距离和归一化l2距离(通过检测的宽度和高度的平均值归一化),(4-5)宽度和高度的尺度差(例如,log(w i/w j)),(6)纵横比差log( ai/aj),(7-8)两种检测的检测分数。在多类设置中,每次检测都提供一个十六个街区。检测要素是128,并且在建立成对检测上下文之前减少到32。检测对特征也具有32个维度。最后一个块之后的全连接层输出128维特征。当我们改变特征维数时,我们保持每层中特征数目之间的比率不变,因此指示检测特征维数是足够的。消息传递。在几个堆栈块上的前向传递可以被解释为消息传递。每个检测发送消息给它的所有邻居,以协商哪个检测被分配一个对象,哪些检测应该减少他们的分数。我们没有手工制作消息传递算法及其规则,而是让网络潜在地学习正在传递的消息。45120的4.3. 言论Gnet与GreedyNMS的根本不同之处在于,所有功能都是同时更新的,而GreedyNMS则是按顺序运行的。由于Gnet无法访问GreedyNMS决策(与[13]不同),因此第5节中两种算法的性能非常接近。由于我们通过堆叠许多块来构建一个潜在的大网络,Gnet可能需要大量的训练数据。在实验中,我们故意选择了一个有许多训练样本的设置。Gnet是一个纯粹的NMS网络,因为它无法访问图像特征,仅在检测(框坐标和置信度)上运行。这意味着Gnet不能被解释为探测器的额外层。它是一个神经网络,并且可以将特征向量(来自图像或检测器)馈送到第一块中,这一事实使它特别适合于组合1.00.80.60.40.20.00.0 0.2 0.4 0.6 0.8 1.0召回图4:PETS测试集上的性能。它带有一个探测器,我们把它留给未来的工作。我们的目标是联合重新评分所有检测的图像。通过允许检测查看它们的邻居并更新它们自己的表示,我们实现了检测之间的条件依赖性。再加上鼓励每个对象只检测一次的损失,我们已经满足了第3节中的两个条件。我们将在第5节中看到,性能对于参数变化相对稳健,并且对于增加的深度越来越有效。1.00.80.60.40.20.0闭塞范围[0.0,0.5)1.00.80.60.40.20.0闭塞范围[0.5,1.0)0.0 0.2 0.4 0.6 0.81.0召回0.0 0.2 0.4 0.6 0.8 1.0召回5. 实验在本节中,我们将在PETS和COCO数据集上对所提出的架构进行实验评估。我们报告的结果的人,以及多类的情况下。人物类是COCO上迄今为止最大的类,它既提供拥挤的图像,也提供单个人物的图像。除了总体结果外,我们还分别报告了高和低闭塞病例。我们感兴趣的是在遮挡下的性能,因为这是非最大抑制(NMS)很难的情况。总而言之,我们显示了GreedyNMS的持续改进,证实了我们方法的潜力。所有结果均以平均精密度(AP)衡量,即召回-精密度曲线下面积。重叠标准(用于将检测与对象匹配)为trans-lap 0. 5 IoU(对于Pascal VOC,记为AP0)。(五)。COCO还使用更严格的标准来鼓励更好的定位质量,一个这样的度量平均在范围[0. 5,0。95]在0。05增量,我们用AP 0表示。九十五5.1. PETS:人群中的行人检测数据集。PETS [8]是由多个拥挤序列组成的数据集。它在[13]中被用作具有不同级别的大致单尺度行人检测数据集图5:不同闭塞范围的PETS测试集的性能。的闭塞。尽管我们的目标是更大,更具有挑战性的数据集,但我们首先在[13]中提出的设置中分析我们的方法我们使用相同的训练和测试集以及[28]中的相同检测,[28]是专门为处理遮挡而构建的模型我们使用初始GreedyNMS为0.8来减少检测的数量,因此我们可以将所有检测的联合重新评分放入一个GPU中。(Note这些检测单独导致差的结果,比4中的“Gree-dyNMS>0.6”更差训练我们用8个块和128维检测表示训练一个模型,进行30k次迭代,从10 −3的学习率开始,然后减少0。每10k次迭代1次基线。我们使用几个不同的重叠阈值与(通常使用的)经典GreedyNMS算法进行比较,以及来自[13]的强Tnet。由于所有方法都是在相同的检测上操作的,因此结果是完全可比的。分析. 图4将我们的方法与Gree-dyNMS基线和PETS测试集上的Tnet进行了比较。开始-81.4 Gnet80.7强大的Tnet55.0 GreedyNMS > 0.066.0 GreedyNMS > 0.171.4 GreedyNMS > 0.275.0 GreedyNMS > 0.376.6 GreedyNMS > 0.473.4 GreedyNMS > 0.564.8 GreedyNMS > 0.681.9 Gnet81.5强大的Tnet57.1 GreedyNMS > 0.068.2 GreedyNMS > 0.173.9 GreedyNMS > 0.277.3 GreedyNMS > 0.378.1 GreedyNMS > 0.474.2 GreedyNMS > 0.565.0 GreedyNMS > 0.628.7二十八点四14.320.0二十一点四二十一点二20.6十七点二十一点二精度精度精度45130的从具有阈值λ=0的宽GreedyNMS抑制开始,几乎示出了阶跃函数,因为高得分真阳性以也抑制其他真阳性(低召回)为代价来抑制所有触摸检测逐渐增加的搜索量提高了最大召回率,但也引入了更多的高分误报,因此精度下降。这很好地表明了由于具有闭塞范围[0.0,0.5)38373635闭塞范围[0.5,1.0)15141312第3节中提到的固定阈值。明确权衡的原因是PETS中存在的各种遮挡统计数据。Tnet的性能优于GreedyNMS>0.5,0.434 Gnet11100101深度0的情况。95100101深度GreedyNMS,因为它本质上是在一系列不同的阈值上重组Gree-dyNMS的输出。相比之下,我们的Gnet表现稍好,尽管根本无法访问GreedyNMS决策与最好的Gree-dyNMS性能相比,Gnet能够提高4.8AP.图5显示了分为高和低闭塞情况的性能同样,Gnet的性能略好于Tnet。 在闭塞范围[0,0. 5)看起来与整体表现非常相似。对于高阻塞的情况,Gnet组件对最佳GreedyNMS的性能改进在7.3 AP时更大.这表明Gnet和Tnet的改善主要是由于第3节中所述的高度闭塞情况的改善。5.2. COCO:人员检测数据集。COCO数据集由80k个训练图像和40k个评估图像组成。它包含80个不同的类别在不受约束的环境。我们首先模仿PETS设置,仅对人进行评估,并在第5.3节中报告多类结果。由于COCO测试集上的注释不可用,我们希望明确显示每个遮挡级别的统计数据,因此我们在完整的训练集上训练我们的网络,并使用验证集的两个不同子集进行评估一个子集用于探索我们网络的架构选择(minitest,5k图像1),最有希望的模型在其余的验证集(minitest,35k图像)上进行评估。我们使用Faster R-CNN [21]2的Python实现来生成检测。我们只在训练集上训练模型,因此性能与可下载的模型略有不同,后者已在训练集和迷你测试集上训练我们使用默认参数运行检测器,但降低检测分数阈值,并在典型的非最大抑制步骤之前使用检测。没有进一步的预处理。训练 我们用ADAM训练Gnet 2·106次迭代,从10 −4的学习率开始,然后逐渐减少1我们使用与Ross Girshick https://github相同的方法。com/rbgirshick/py-faster-rcnn/tree/master/data.2https://github.com/rbgirshick/py-faster-rcnn图6:AP0. 5与区块数(2,4,8,16)相比,COCO患者迷你的六次运行的平均值,误差条显示标准偏差。表 1 : Gnet 和 GreedyNMS 在 COCO persons minival 和minitest上的比较。完整集合的结果,并分为闭塞水平。在106次迭代之后,它变为10−5检测特征尺寸为128,每个实验指定块的数量。速度平均每个图像有67.3个人检测,16块Gnet可以在K40 m GPU和未优化的Tensorflow代码上以14 ms/图像处理基线。我们使用GreedyNMS作为基线。为了最好地展示 它 , 我 们 在 每 个 实 验 的 测 试 集 上 调 整 了 最 佳GreedyNMS重叠阈值。分 析 . 图 6 示 出 了 AP 0 。 95与 Gnet 中 的 块 数 。 最 佳GreedyNMS阈值为0。5和0的情况。4分别用于低和高咬合。已经有一个块,我们的网络性能与GreedyNMS相当,有两个块,我们看到一个101 AP点增益。在PETS中,我们看到低遮挡和高遮挡都有增益。与更深的体系结构对于高遮挡情况,模型之间的方差似乎在减小,尽管我们预计如果体系结构具有太多的自由参数,最终会遭受过拟合我 们 的 结 论 是 , 我 们 的 架 构 非 常 适 合 取 代GreedyNMS,并不是特别敏感的块的数量使用。表1显示了具有8个区块的Gnet的详细结果。来自验证集( minival ) 的 结 果 很 好 地 转 移 到 测 试 用 例(minitest),提供了所有闭塞闭塞[0,0.5)[0.5,1]方法AP 0. 5 AP 0. 95 AP 0. 5 AP 0. 95 AP 0.5AP 0. 95GreedyNMS>0.565.6Gnet,8块67.3GreedyNMS>0.565.0Gnet,8块66.60的情况。5050535.6 65.2 35.3 12.136.7 36.7 13.135.5 61.8 33.8 30.336.7 66.8 36.1AP@0.50:0.95测试Val45140的0的0的4321012301020 30 40 50分类索引60 70 80我们已经介绍了Gnet,第一个作为一个神经网络,它适合于被纳入检测器,并有权访问图像特征,以建立可以真正端到端训练的检测器。这些端到端检测器不需要任何后处理。实验结果表明,有足够的训练数据,建议Gnet是一个合适的替代GreedyNMS的单类或多类设置。的图7:AP 0. 95Gnet超过最佳Gree-dyNMS阈值的改进,用于(排序的)80个COCO类中的每一个。Gnet在80个类别中改进了70个 我发誓-age Gnet提供了101 mAP 0。每班增加95分网络超过GreedyNMS,特别是在闭塞的情况下,并提供改进的定位。目前形式的全球网络需要大量的训练数据,它将受益于今后的数据0的情况。5 0的情况。95增强或更好的初始化通过预先训练同步,23.第23章. 5→ 24。3%mAP 0. (五)。这是一个小的但一致的改进,超过了一个调好的GreedyNMS。定性结果包含在柔软的材料中。我们认为这些令人鼓舞的结果,证实了Gnet确实能够正确执行NMS,而无需访问图像功能或GreedyNMS决策。5.3. COCO多类如第4节所述,Gnet直接适用于多类设置。我们使用为person案例选择的完全相同的参数唯一的变化是在输入和输出中将分数标量替换为每个类的分数向量(参见第4.2节)。我们为所有80个COCO类别训练一个图7显示了mAP 0。95Gnet的改进超过了按类调优的GreedyNMS。我们得到了改进的结果,对大部分的对象类,并没有灾难性的失败,- ure观察,表明Gnet是非常适合处理所有类型的对象类别。平均在类Gnet获得24。3%mAP 0. 95,相比23。测试集为5%调好了GreedyNMS总的来说,我们认为Gnet是一个合适的重新-关于GreedyNMS补充材料包括详细的每类表。6. 结论在这项工作中,我们已经打开了大门,培训检测器,不再需要一个非最大抑制(NMS)后处理步骤。我们认为NMS通常需要作为后处理,因为检测器通常经过训练,具有强大的响应并独立处理相邻检测。我们已经确定了构建NMS网络所需的检测器中缺少的两个关键要素:(1)惩罚双重检测的损失和(2)检测的联合处理。模拟数据对图像特征进行分类可能会产生很大的影响,因为它们有可能告知网络图像中对象的数量。我们相信,在这项工作中讨论的想法和结果指向一个未来,探测器和NMS之间的区别将消失。引用[1] O. 巴里诺娃河谷Lempitsky和P.Kholi. 使用霍夫变换检测多个目标实例PAMI,2012年。2[2] L. Bourdev,S. Maji,T. Brox和J.马利克使用相互一致的poselet激活来检测人。ECCV,2010年。2[3] G. Burel和D. Carel数字图像上人脸的检测与定位。模式识别快报,1994年。3[4] G. Chen,Y. Ding,J. Xiao,and T. X.韩具有多阶上下文共现的检测进化。CVPR,2013。2[5] J. Dai,K.He和J.太阳卷积特征掩模联合对象和材料分割。CVPR,2015。2[6] N. Dalal和B. Triggs用于人体检测的定向梯度的直方图。在CVPR,2005年。2[7] 费尔岑斯瓦尔布河 Girshick,D. McAllester和D. Ramanan使用区分性训练的基于部分的模型进行对象检测。PAMI,2010年。一、二[8] J. Ferryman和A.埃利斯Pets2010:数据集和挑战。在AVSS,2010年。6[9] R.娘娘腔。快速R-CNN。在ICCV,2015年。一、二[10] R. 格希克,J。多纳休,T.Darrell和J.马利克丰富的特征层次结构,用于精确的对象检测和语义分割。CVPR,2014。一、二APGnet-APGreedyNMS4515[11] K.他,X。Zhang,S. Ren和J. Sun.深层残余网络中的身份映射。在ECCV,2016年。5[12] P. Henderson和V.法拉利针对平均精度的对象类检测器的端到端训练。InACCV,2016. 二、四[13] 霍桑河Benenson和B.席勒一个用于非最大抑制的convnet。在GCPR,2016年。二三四六[14] P. Kontakeder , S.Rota Bulgaria , M.Donoser ,M.Pelillo和H.比肖夫进化霍夫博弈用于相干物体检测。CVIU,2012年。2[15] B. Leibe,A. Leonardis和B.席勒具有交叉分类和分割的鲁棒对象检测IJCV,2008年。2[16] W. Liu,L. 安格洛夫,D。 埃尔汉角 Szegedy和S. 里德Ssd:单发多盒探测器。在ECCV,2016年。1[17] D. 姆罗卡, M. 罗尔巴赫 J. 霍夫曼 R. 胡K. Saenko和T.达雷尔。大规模目标检测的空间语义规则化。在ICCV,2015年。2[18] M.尼佩特湾Ahmed和K.库茨科夫学习图的卷积神经网络。InICML,2016. 2[19] W. Ouyang和X.王.多行人检测辅助下的单行人CVPR,2013。2[20] J.雷德蒙,S.迪夫拉河,巴西-地Girshick和A.法哈迪。你只看一次:统一的实时物体检测。在CVPR,2016年。1[21] S. Ren , K. 赫 利 河 Girshick 和 J. 太 阳 更 快 的 R-CNN:利用区域建议网络进行实时目标检测。2015年,在NIPS中。一、二、七[22] M.罗德里格斯岛Laptev,J. Sivic和J. - Y. Audib-ert。人群中密度感知的人员检测和跟踪。见ICCV,2011年。2[23] R. Rothe,M. Guillaumin和L.范古尔通过在窗口之间传递InACCV,2014. 2[24] M. A. Sadeghi和A.法哈迪。使用视觉短语进行识别。CVPR,2011。2[25] P. Sermanet , D.Eigen , X.Zhang , M. 马 蒂 厄 河Fergus和Y.乐存。优势:使用卷积网络集成识别、定位和检测。见ICLR,2014年。2[26] R. Stewart和M.安德里卢卡在拥挤的场景中进行端到端的人员检测。在CVPR,2016年。二、四[27] S.唐湾Andres,M. Andriluka和B.席勒多目标跟踪的子图分解。CVPR,2015。2[28] S. 唐先生, M. 安德里卢卡 A. 米兰 K. 辛德勒S.罗斯和B。席勒学习在拥挤场景中跟踪的人检测器。InICCV,2013. 6[29] S.唐,M。Andriluka和B.席勒被遮挡人的检测与跟踪。在BMVC,2012年。2[30] Z. Tu和X.柏自动上下文及其在高级视觉任务和3d脑图像分割中的应用。PAMI,2010年。2[31] A. Vezhnevets和V.法拉利imagenet中通过观察窗外进行对象定位。在BMVC,2015年。2[32] P. Viola和M.琼斯鲁棒的实时人脸检测。InIJCV,2004. 2[33] L. Wan,L. Eigen和R.费格斯。卷积网络、可变形部 件 模 型 和 非 最 大 值 抑 制 的 端 到 端 集 成 。CVPR,2015。2[34] P. Wohlhart,M.Donoser,P.M. Roth和H.比肖夫用隐 式 形 状 模 型 随 机 场 检 测 部 分 遮 挡 物 体 。InACCV,2012. 2[35] C.沃杰克湾Dorkó,A. Schulz和B.席勒快速对象类定位的滑动窗口:一种并行技术。载于2008年《大会议程》。2[36] 杨俊,Y. Yu,X. Zhu,Z. Lei和S. Z.李通过标记超像素进行目标检测。CVPR,2015。2[37] J. Yao,S.Fidler和R.乌塔松 描述整个场景的:联合目标检测、场景分类和语义分割。CVPR,2012。2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功