基于双盒回归的行人检测和遮挡估计

87 浏览量更新于2023-10-13 收藏 928KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于双盒回归的行人检测和遮挡估计周春鸾1、2[0000−0003−0284−6256]和袁俊松2[0000−0002−7324−7034]1新加坡南洋理工大学2美国纽约州立大学水牛城分校网址：czhou002@e.ntu.edu.sg，jsyuan@buffalo.edu抽象。在实际应用中，遮挡对行人检测提出了很大的挑战在本文中，我们提出了一种新的方法，同时行人检测和遮挡估计回归两个包围盒本地化的全身以及可见的一部分行人分别。为此，我们学习了由两个分支组成的深度卷积神经网络（CNN），一个用于全身估计，另一个用于可见部分估计。这两个分支在训练期间被不同地处理，使得它们被学习以产生互补输出，该互补输出可以被进一步融合以提高检测性能。全身估计分支被训练以针对正面行人提议回归全身区域，而可见部分估计分支被训练以针对正面行人提议和负面行人提议两者回归可见部分区域负面行人建议的可见部分区域被迫收缩到其中心。此外，我们引入了一个新的标准，选择积极的训练样本，这在很大程度上有助于严重遮挡行人检测。我们验证了建议的双盒回归方法的有效性，加州理工学院和CityPersons数据集。实验结果表明，我们的方法取得了良好的性能检测非遮挡和遮挡行人，特别是严重遮挡的。关键词：行人检测·遮挡处理·深度CNN1介绍行人检测具有广泛的应用，包括自动驾驶、机器人和视频监控。近年来，已经做出了许多努力来改善其性能[3，8，17，6，33，40，5，39，41，37，34，4]。虽然在一些基准数据集上检测非遮挡或轻微遮挡行人的性能已经相当不错，但检测严重遮挡行人的性能仍然远远不能令人满意。以加州理工学院的数据集[9]为例。性能最好的方法之一，SDS-RCNN [4]，对于非遮挡或轻微遮挡的行人检测，在每图像0.1个假阳性（FPPI）时实现了约7.4%的错过率，但是对于严重遮挡的行人检测，其错过率在0.1个FPPI时急剧增加至约58.5%。2C. Zhou和J. 元Fig. 1.检测我们的方法的例子。每个检测上的红色和蓝色框分别表示估计的全身和可见部分。对于行人检测，其可见部分通常如列1和2所示进行估计。对于非行人检测，其可见部分被估计为其对应行人建议的中心由于每个检测的红框是通过将估计的偏移添加到其对应的行人建议来获得的，因此非行人检测的蓝框通常不正好位于红框的中心。行人检测（见图（六）。在现实世界的应用中经常发生阻塞。例如，街道上的行人经常被其他物体（如汽车）遮挡，并且他们在靠近行走时也可能彼此遮挡。因此，对于行人检测方法来说，鲁棒地检测部分遮挡的行人是重要的。最近，部分检测器通常用于处理用于儿科检测的闭塞[22，21，25，23，31，43，44]。这些方法的一个缺点是部件是手动设计的，因此可能不是最佳的。在[22，21，25，31，43]中，部分检测器被单独学习，然后被集成以处理遮挡。对于这些方法，用于测试部件检测器的计算成本随着部件检测器的数量线性增长深度卷积神经网络（CNN）旨在联合学习和集成部分检测器[23]。然而，这种方法不使用部分注释来学习部分检测器，这可能限制其性能。在[44]中，提出了一种多标签学习方法来联合学习部分检测器，以提高严重遮挡行人检测的性能并降低应用部分检测器的计算成本，但对于非遮挡或轻微遮挡行人检测，它的性能不如现有技术方法。此外，对于行人，所有这些方法仅输出一个边界框，该边界框指定行人的整个身体区域，但不明确地估计行人的哪个部分是可见的或被遮挡的。遮挡估计在行人检测文献中没有得到很好的探讨，但对于机器人等经常需要遮挡推理来执行交互式任务的应用来说，它是至关重要的在本文中，我们提出了一种新的方法，同时行人检测和遮挡估计回归两个包围盒的全身行人检测和遮挡估计3和可见部分估计。深度CNN [10，34，4]对于非遮挡或轻微遮挡的行人检测已经取得了有希望的性能，但是它们对于严重遮挡的行人检测的性能远远不能令人满意。这促使我们探索如何学习深度CNN以准确地检测非遮挡和遮挡行人。因此，我们调整了快速R-CNN框架[16，34，4]来学习深度CNN，以同时进行行人分类，全身估计和可见部分估计。我们的深度CNN由两个分支组成，一个用于全身估计，另一个用于可见部分估计。每个分支执行行人建议的分类和边界框回归。我们在训练过程中对这两个分支进行不同的处理，以便它们产生互补的输出，这些输出可以进一步融合以提高检测性能。全身估计分支被训练为仅针对正面行人建议回归全身区域，如在原始快速R-CNN框架中那样，而可见部分估计分支被训练为针对正面行人建议和负面行人建议两者回归可见部分区域。负面行人建议的可见部分区域被迫收缩到其中心。图1显示了我们方法的一些检测示例为了训练深度CNN，通常基于它们与全身注释的重叠来选择正面行人建议[39，5，20，37，41，34，4]，这将包括针对严重遮挡的行人的不良对准的行人建议（参见图11）。第四条（b）款）。为了解决这个问题，我们引入了一个新的标准，利用全身和可见部分的注释选择积极的行人建议，以提高检测性能严重遮挡行人。所提出的双盒回归方法具有两个优点：（1）可以通过回归行人的可见部分来提供遮挡估计;（2）同时利用行人的全身和可见部分区域，提高了行人检测的性能。我们在加州理工学院[9]和CityPersons[41]数据集上证明了我们方法的有效性。实验结果表明，我们的方法具有相当的性能，以国家的最先进的检测非遮挡行人，并实现了最好的性能检测遮挡行人，特别是严重遮挡的。本文的贡献有三个方面：（1）提出了一种双盒回归方法，通过学习由两个分支组成的深度CNN来实现同时的行人检测和遮挡估计，一个用于全身估计，另一个用于可见部分估计;（2）提出了一种训练策略，以提高两个分支之间的互补性，使它们的输出能够融合，从而提高行人检测性能;（3）引入了一种新的准则来选择更好的正面行人建议，有助于在严重遮挡的行人检测中获得大的性能增益。2相关工作最近，深度CNN已被广泛用于行人检测[6，5，17，1，23，31，32，38，39，10，37，20，41，34，4]，并实现了最先进的性能[10，34，4]。在[38，39]中，通过提升来学习一组决策树以形成4C. Zhou和J. 元使用深度CNN特征的行人检测器。复杂度感知的cased行人检测器[6]通过考虑不同类型特征（包括CNN特征）的计算成本和区分能力来学习，在[1]中提出了一种级联的深度CNN，通过首先使用微小的深度CNN来拒绝大量的负面建议，然后使用大型深度CNN来对剩余的建议进行分类，从而实现实时行人检测。在[31，23]中，学习并集成一组学习深度CNN以联合优化行人检测和其他语义任务，以提高行人检测性能[32]。在[5，37，20，41，34，4]中，Fast R-CNN[16]或更快的R-CNN [27]适用于行人检测。在本文中，我们将探索如何学习深度CNN以提高检测部分遮挡行人的性能已经做出了许多努力来处理用于行人检测的遮挡。遮挡处理的常见框架是学习和集成一组部分检测器以处理各种遮挡[36，28，12，11，22，21，25，23，43，31，44]。这些方法中使用的部件通常是手动设计的，这可能不是最佳的。对于方法（例如[21，31，43]），应用学习的部分检测器的计算成本可能是实时行人检测的瓶颈。在[23]中，部分检测器被学习并与深度CNN集成，这可以大大减少检测时间。然而，这种方法中的部分检测器是以弱监督的方式学习的，这可能会限制其性能。在[44]中，提出了一种在[43]中探索并比较了不同的部分检测器集成方法与这些方法不同的是还存在一些其他遮挡处理方法在[18]中，采用隐式形状模型来生成一组行人建议，这些建议通过利用局部和全局线索来进一步细化中的方法[35]将行人建模为块的矩形模板，并通过估计这些块的可见性状态来执行遮挡推理。几种方法[24，30，26]被专门设计用于处理多个行人相互遮挡的遮挡情况。可变形零件模型[13]及其变体[15，2，42]也可用于处理遮挡。3该方法给定一幅图像，我们希望检测其中的行人，同时估计每个行人的可见部分具体来说，我们的方法产生每个行人的两个边界框，分别指定其全身和可见的部分区域考虑到深度CNN在行人检测[39，5，20，37，41，34，4]方面取得的有希望的性能，我们调整了快速R-CNN框架[16]以用于我们的目的。图2显示了所提出的双盒回归方法的概述。一组可能包含pedestri的区域提案-行人检测和遮挡估计5图二、我们的双盒回归方法概述通过建议生成方法（例如，[39，4]）。然后，这些行人建议被馈送到深度CNN，该深度CNN对每个建议执行分类、全身估计和可见部分估计3.1网络结构我们采用了常用的深度CNN VGG-16 [29]，以实现同时的行人检测和遮挡估计。图3显示了深度CNN的结构。我们在VGG-16中保持卷积层1到4不变。在[39，5]中报道，具有更高分辨率的特征图通常会提高检测性能。如[39，5]所示，我们从VGG-16中删除了最后一个最大池化层和卷积层5。在Conv 4 -3之上添加了一个通过双线性插值实现的反卷积层（Deconv 5），以提高Conv 4 -3特征图的分辨率。Deconv5之后是ROI池化层，其顶部是两个分支，一个用于全身估计，另一个用于可见部分估计。每个分支执行分类和边界框回归，如Fast R-CNN [16]中所述。3.2行人检测对于检测，图像和一组行人建议被馈送到深度CNN以进行分类、全身估计和可见部分估计。设P=（Px，PY，PW，Ph）是行人建议，其中Px和PY指定图像中P的中心的坐标，并且PW和Ph分别是P的宽度和高度。对于行人提议P，全身估计分支输出两个概率pi=（p〇，pi）（来自Softmaxl层）和四个概率pi =（p 〇，pi）（来自Softmaxl11偏移f=（fx，fy，fw，fh）（来自FC11层）。可见部分估计分支还输出两个概率p2=（p0，p1）（来自Softmax2层）22并且对于集合v=（vx，vy，vw，vh）（来自等式131）。p1anddp0=1−p11 1 1表示P包含和不包含行人的概率分别p0和p1的定义类似fx和fy指定尺度不变2 2从P的中心到估计的全身区域的中心的平移，而fw和fh指定从P的宽度和高度的对数空间平移对该时间段的所有内容进行重新定义。vx，vy，vwandvhare6C. Zhou和J. 元2222图三.网络架构。每个全连接（FC）层中的数字是其输出维度。Softmax1和Softmax2执行相同的任务，行人分类。FC11用于全身估计，FC13用于可见部分估计。对于可见部分估计类似地定义。我们定义f和v如下[16]。利用f和v，我们可以计算行人建议P的全身和可见部分区域（更多细节参见[16]）。我们考虑三种方法来评分行人建议P。设s1=（s0，s1）11以及s2=（s0，s1）分别是来自FC10和FC12的原始分数第一221第二种方式得分P，其中p1=exp（s1），并且第二种方式得分P，其中p1 = exp（s 1）。1exp（s1）+exp（s0）21 1exp（s1）120 第三种方法将两个分支的原始分数与exp（s2）+exp（s2） 1exp（s1+s1）1 1softmaxoperationp=1 21 100 . Itcanbeprovedhatp−p>0exp（s1+s2）+exp（s1+s2）1如果p1 >0。5即S1>s0。当两个分支都同意一个正面的例子时，I. e. p1>0。5和p1>0。5，thefusedscorep？becomesstronger，i. e. p？1>p1andd1 2 1p（1）>p1. 当没有一个branchh给出一个较低的c或e（p<10. 5）对于P〇itiveXamIe，2 1如果另一分支给出高的分数（P1> 0），则它可以增加其检测分数。（五）。这指导我们增加两个分支之间的互补性，以提高检测的鲁棒性，如下一节所述。3.3网络训练为了训练我们的深度CNN，每个行人示例都用两个边界框进行注释，这两个边界框分别指定其全身和可见部分区域图4（a）示出了行人注释的示例。除了这些注释的行人示例外，我们还收集了一些行人建议用于培训。为了实现这一点，我们将训练图像中的行人建议与注释的行人相放大器在同一个图像中执行。令Q=（F¯，V¯）是一个不对称的解在图像中，当F′=（ F′x ， F′y ， F′w ， F′h）和V′=（ V′x ， V′y ，V′w，V′h）时，则为满主体和可见部分区域。如果行人建议P与Q很好地对齐，则将行人建议P与Q匹配。具体地，P和Q形成一对，如果它们满足IOU（P，F′）≥α且C（P，V′）≥β，（1）行人检测和遮挡估计7(a)（b）第（1）款见图4。行人注释和正面行人建议选择。(a)绿色和黄色边界框分别指定行人示例的全身和可见部分。(b)红色边界框是好的行人建议，蓝色边界框是坏的行人建议。其中IOU（P，F′）是两个工作区域P和F′的整数集合：IOU（P，F¯）=Area（P∩F¯），（2）Area（P∪F¯）而C（P，V′）是由P转化的V′c的面积的一种形式：C（P，V′）=Area（P∩V′）。（三）Area（V¯）在图4（b）中，行人建议（红色边界框）与α = 0的注释行人示例（绿色边界框）匹配。5且β = 0。5，而行人建议（蓝色边界框）由于其与注释的行人示例的不良对准而不匹配。由I表示生成P的图像对于每个匹配对（P，Q），我们可以构造一个p〇itivraingxampleX+=（I，P，c，f′，v′），其中reec=1iicatigPc〇 n是一个回归目标，并且df′=（f′x，f′y，f′w，f′h）和dv′=（v′x，v′y，v′w，v′h）分别是全身和可见部分估计的回归目标。如[14，16]中所示，我们将f′定义为f¯x= F¯x−PxPwF¯wf<$y=F¯y−PyPhF¯h（四）f¯w=log（），Pwf¯h = log（）。Ph8C. Zhou和J. 元4001我1我1我=p2我2我2我1我1我2我2我很简单，我们找到了XV¯x−PxyV¯y−Pyv<$=，PWV¯wv<$=，Ph伏（五）v¯w=log（），Pwv<$h=lo g（）。Ph如果IOU（P，F ¯）0，则我们将id e rP视为一个有效的结构 pr

下载后可阅读完整内容，剩余1页未读，立即下载

行人检测与跟踪

在行人检测之后，这些算法可以帮助系统在连续的视频帧中保持对同一行人的跟踪，即使在行人遮挡、快速移动或光照变化等复杂情况下也能尽量减少跟踪丢失。例如，卡尔曼滤波可以利用预测和更新步骤来估计目标状态，而...

基于深度卷积神经网络的行人检测.pdf

本文中，我们提出了一个基于深度卷积神经网络的行人检测模型，该模型可以自动学习行人的特征，并且可以实时检测行人。实验结果表明，该方法可以达到高的检测准确性，超过了传统方法。在本文中，我们讨论了深度卷积...

基于HOG的行人检测

总之，"基于HOG的行人检测"项目展示了如何利用HOG特征来识别和定位图像中的行人，而提供的源代码文件则为理解和实现这个过程提供了基础。通过进一步研究和改进这些代码，我们可以优化行人检测的效率和准确性，以适应...

2000字介绍基于回归和基于检测的方法的单人人体姿态估计

单人人体姿态估计是计算机视觉领域中的一个重要问题，它旨在从RGB图像或视频中推断出人体的关节点位置和姿态信息...未来，基于回归和基于检测的方法都有着很大的发展空间，特别是在多人姿态估计和视频姿态估计等方面。

遮挡行人检测的研究背景

现有的行人检测算法大多是基于深度学习的，这些算法在行人未被遮挡的情况下表现良好。但是，在遮挡的情况下，这些算法的检测效果会明显受到影响。因此，开发一种能够有效检测遮挡行人的算法，对于提高行人检测的准确...

基于Hog的行人检测代码

以下是基于Hog的行人检测代码示例，使用OpenCV库实现： ```python import cv2 # 加载行人检测器 hog = cv2.HOGDescriptor() hog.setSVMDetector(cv2.HOGDescriptor_getDefaultPeopleDetector()) # 加载图像并进行...

基于hog的行人检测代码

以下是基于Hog的行人检测代码示例，使用OpenCV库实现： ```python import cv2 # 加载行人检测器 hog = cv2.HOGDescriptor() hog.setSVMDetector(cv2.HOGDescriptor_getDefaultPeopleDetector()) # 加载图像并进行...

抗遮挡行人检测引入注意力机制

抗遮挡行人检测是计算机视觉领域的一个重要任务，其目标是在图像或视频中准确地检测出被遮挡的行人。...通过引入注意力机制，抗遮挡行人检测方法可以更好地处理被遮挡的行人情况，提高检测的准确性和鲁棒性。

密集行人场景行人检测算法

密集行人场景行人检测算法是指在人群密集的场景中，通过计算机视觉技术来实现对行人的检测和识别。这种算法通常需要解决以下几个挑战： 1. 行人遮挡：在密集行人场景中，行人之间可能会相互遮挡，导致部分行人无法...

基于yolov4的行人检测的过程

2. 模型训练：使用YOLOv4模型在训练集上进行训练，调整模型参数，使其能够准确地检测行人，并且具有较高的精度和召回率。 3. 模型评估：使用测试集对训练好的模型进行评估，计算模型的精度、召回率、F1值等指标，以...

yolo行人检测数据集

这些标签信息是基于人工标注或者自动化算法提取得到的，旨在为算法提供足够的信息以进行有效的行人检测和定位。 YOLO行人检测数据集被广泛用于行人检测算法的训练和评估。它在人工智能、自动驾驶、视频监控等领域...

基于背景建模的遮挡检测方法

对于基于背景建模的遮挡检测方法，其主要流程包括以下几个步骤： 1. 背景建模对于一个场景，首先需要对其进行背景建模，即采集一段时间内场景的图像，通过对图像进行处理，从中得到一个背景模型。 2. 前景提取在...

卡尔曼滤波在SSD行人检测中的应用

卡尔曼滤波在SSD行人检测中的应用主要是用于目标跟踪。在SSD行人检测中，首先需要检测出行...通过使用卡尔曼滤波来跟踪行人的运动，可以提高行人检测的准确性和鲁棒性，特别是在行人运动速度较快或者存在遮挡的情况下。

基于深度学习的行人检测系统数据集收集与预处理

下面是基于深度学习的行人检测系统数据集收集与预处理的一般流程： 1. 收集数据：可以通过在公共场所拍摄摄像头视频或者在网上搜索已有的行人检测数据集来获得数据。需要注意的是，数据集应该涵盖不同的场景、天气...

行人检测国内发展历程三段每段180字

这些方法虽然在一定程度上可以检测出行人，但是存在着许多问题，如对于遮挡、光照变化等情况检测效果较差。因此，这一时期的行人检测技术还很不成熟，需要进一步研究和探索。第二段：2010年至2015年，深度学习崛起...

yolov5 行人检测

YoloV5 是一个基于深度学习的目标检测算法，它可以在输入的图像中...需要注意的是，在实际场景中，行人检测的效果可能会受到光照、角度、遮挡等因素的影响。因此，需要在实际使用中进行调优，以达到最佳的检测效果。

yolov5行人检测数据集

2. CityPersons数据集：这个数据集专门用于行人检测，其中包括了各种城市场景的图像，包括行人、非行人、遮挡、低分辨率和夜间等情况。 3. Caltech Pedestrian数据集：这个数据集是一个古老的数据集，但是它仍然是...

行人检测研究方法优缺点

优点是可以处理视频中的行人，能够实现实时检测，缺点是对于复杂场景和遮挡情况的处理效果较差。总的来说，基于深度学习的方法在行人检测任务中表现最好。虽然需要大量的训练数据和计算资源，但是可以自动学习特征...

yolov5行人检测与计数

在行人检测与计数方面，可以使用yolov5模型来检测行人，并通过跟踪算法来计数行人数量。具体步骤如下： 1. 使用yolov5模型对图像或视频进行目标检测，得到行人的位置信息。 2. 对每个行人进行跟踪，记录其运动轨迹...

基于卡尔曼滤波和YOLO的抗遮挡视觉目标跟踪

基于卡尔曼滤波和YOLO的抗遮挡视觉目标跟踪的流程如下： 1. 首先，使用YOLO目标检测算法检测出视频中的目标，并将第一帧检测到的目标信息用来初始化卡尔曼滤波的状态变量（追踪器Tracks）。 2. 对于每一帧图像，使用...

cpongm

粉丝: 4

资源: 2万+

上传资源快速赚钱

我的内容管理收起

我的资源快来上传第一个资源

我的收益
登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

会员权益专享

图片转文字 PDF转文字 PDF转Word PDF加水印
全年可省5，000元立即开通

最新资源

数据结构课程设计：模块化比较多种排序算法
哈夫曼树实现文件压缩解压程序分析
数据结构课程设计：电梯模拟与程序实现
数据结构算法实验：C++实现线性表、查找、排序
数据结构实验：C语言实现素数、数组逆序与鞍点查找
数据结构实验与习题解析
数据结构与算法笔试关键考点解析
数据结构与算法实验：顺序表操作指南
数据结构C语言版讲义概述
C语言数据结构复习指南：从基础到算法详解
C语言实现数据结构：串的基本操作
基于SQLServer的药品进销存管理系统设计
VHDL语言基础入门与应用解析
使用ACCESS构建的库存管理系统设计
VHDL课程设计：PS2键盘接口与解析
数据中心机房智能化监控解决方案

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈