没有合适的资源?快使用搜索试试~ 我知道了~
用于行人检测的Chunze Lin1,Jiwen Lu1,Gang Wang2,and Jie Zhou11清华大学,中国2阿里巴巴人工智能实验室,中国lcz16@mails.tsinghua.edu.cn网站,{lujiwen,jzhou} @tsinghua.edu.cnwg134231@alibaba-inc.com抽象。在本文中,我们提出了一种用于行人检测的粒度感知深度特征学习方法。与大多数现有的pedestri-仅考虑低分辨率特征图的检测方法不同-s,我们将细粒度信息纳入卷积特征以使它们对人体部位更具区分力。具体来说,我们提出了一个行人的注意力机制,有效地识别行人区域。我们的方法将细粒度的注意力掩模编码到卷积特征图中,这显著抑制了背景干扰并突出了行人。因此,我们的颗粒度感知特征变得更加专注于行人,特别是那些小尺寸和具有遮挡的行人。我们还引入了一个放大缩小模块,它通过结合局部细节和上下文信息来增强功能。我们将这两个模块集成到一个深度神经网络中,形成一个端到端的可训练行人检测器。四个具有挑战性的行人基准上的综合实验结果证明了所提出的方法的有效性。关键词:行人检测,注意力,深度学习,颗粒度1介绍行人检测是计算机视觉中的一个重要研究课题,在过去的几年中引起了相当大的关注[39,7,9,37,43,18,11,48,4,32,45]。它在自动驾驶、机器人和智能视频监控等多个应用中发挥着关键作用。尽管最近取得了进展,但由于大的变化、低分辨率和遮挡问题,行人检测任务仍然是一个具有挑战性的问题。现有的行人检测方法主要可以分为两类:基于手工制作的特征[7,9,40,44]和基于深度学习的特征[18,11,48,4]。在第一类中,提取基于人体形状的特征,如Haar[39]和HOG [7],以训练SVM [7]或提升分类器[9]。虽然这些方法对于简单的应用是足够的,但是这些手工制作的通讯作者。2Chunze Lin,Jiwen Lu,Gang Wang,and JieZhou卷积骨架行人注意模块conv3_3X4conv4_3X8conv5_3conv_fc7conv6_2下采样上采样小型步行大型行人掩模掩模行人检测ZIZOM大型行人注意行人注意Fig. 1.概述我们提出的框架。该模型包括三个关键部分:卷积骨干、行人注意模块和放大缩小模块(ZI-ZOM)。给定图像,主干生成表示不同尺度的足的多个特征。注意掩模被编码到骨干特征图中,以突出行人并抑制背景干扰。ZIZOM结合了本地细节和上下文信息,以进一步增强特征图。特征表示对于在复杂场景中检测行人来说不够鲁棒。在第二类中,深度卷积神经网络(CNN)从原始像素学习高级语义特征,这显示出从噪声背景中识别具有复杂姿势的行人的更有深度学习功能大大提高了行人检测性能。虽然已经提出了许多基于CNN的方法[18,11,48,4,26],但这类方法仍然存在一些缺点一方面,大多数方法使用重型深度网络,需要细化阶段来提高检测结果。为了保证准确性,需要牺牲推理时间,这使得这些方法不适合实时应用。另一方面,通常使用粗分辨率和固定感受野的特征图进行预测,这对于区分小尺寸目标和背景是低效的在 本 文 中 , 我 们 提 出 了 一 种 基 于 粒 度 感 知 的 深 度 特 征 学 习(GDFL)的行人检测器。我们将细粒度的细节利用到深度卷积特征中,以实现鲁棒的行人检测。具体来说,我们提出了一个尺度感知的行人注意力模块,引导检测器集中在行人区域。它产生行人注意力掩模,表示在每个像素位置的人的概率。由于注意力模型具有细粒度的特点,因此对小尺寸目标和人体部位具有较高的识别能力。通过将这些掩模编码到卷积特征图中,它们显著消除了背景干扰,同时突出了行人。由此产生的颗粒度感知的深度特征具有更强的区分能力,以区分行人,特别是复杂背景中的小尺寸和遮挡的行人。此外,我们引入了一个放大缩小模块,以进一步减轻在小尺寸的目标检测它模仿了我们的直觉用于行人检测的粒度感知深度特征学习3放大和缩小过程,当我们的目标是在图像中定位一个对象。该模块以卷积方式结合局部细节和上下文信息图1示出了我们提出的框架的概述。所提出的两个模块可以容易地集成到基本的深度网络中,从而产生端到端的可训练模型。这导致快速且鲁棒的单阶段行人检测器,而无需任何额外的细化步骤。四个广泛使用的行人检测基准上的大量我们的GDFL方法在Caltech [10],INRIA [7],KITTI [14]和MOT17Det [29]数据集上实现了竞争性能,并且执行速度比竞争方法快4倍2相关工作行人检测:随着深度卷积神经网络的流行,它在各个领域取得了令人印象深刻的结果,最近的行人检测方法都是基于CNN的。许多方法都是Faster R-CNN [35]的变体,它在一般对象检测中表现出很高的准确性。RPN+BF [43]用提升的森林替换了Faster R-CNN的下游分类器,并使用具有硬挖掘策略的聚合特征来提高小尺寸行人检测性能。SA-FastRCNN [19]和MS-CNN [5]分别用多尺度网络扩展了Fast和Faster R-CNN [15,35],以处理尺度变化问题代替单个下游分类器,F-DNN[11]采用并行的多个深度分类器,使用软拒绝策略对每个区域建议进行与这两个阶段的方法不同s没有后处理[23,34]。除了上述全身检测器之外,还引入了几种基于人体部位的方法[12,31,32,37,47,48]来处理遮挡问题。这些特定于遮挡的方法学习了一组部件检测器,其中每个部件检测器响应于检测人体部件。然后将来自这些部分检测的结果适当地融合以定位部分闭塞的足。当全身检测器被背景的存在混淆时,基于可见部分的遮挡特定检测器能够给出高置信度而不是部分级别的分类,我们探索像素级的面具,引导检测器更加关注人体部位。检测中的分割:由于我们的行人注意力掩模是以分割方式生成的[17,25],因此我们在这里提出了一些也利用语义分割信息的方法。Tian等人。 [38]使用语义任务优化行人检测,包括行人属性和场景属性。该方法不是简单的二值检测,而是根据属性考虑多个类别来处理行人变化,并丢弃具有场景属性的硬负样本。Mao等人。 [27]已经证明,将语义分割特征与检测特征融合可以提高性能。 Du等[11]将分割作为4Chunze Lin,Jiwen Lu,Gang Wang,and JieZhou输入图像conv4_3conv5_3conv_fc7conv6_2图二.来自不同卷积层的特征图的可视化。浅层对于小尺寸目标具有强激活,但不能识别大尺寸实例。而深层倾向于编码大尺寸的行人而忽略小的行人。为了清楚起见,这里仅示出了特征图的一个通道。最好用彩色观看。F-DNN+SS框架中的强线索。在后处理方式中使用分割掩模 巴西等[4]通过用独立的深度CNN替换下游分类器来扩展Faster R-CNN [35],并添加分割损失以隐式地监督检测,这使得特征在语义上更有意义。我们的注意力机制不是利用分割掩码进行后处理或隐式监督,而是直接编码到特征图中并明确突出显示行人。3方法在本节中,我们提出了建议的GDFL行人检测方法。的细节。我们的框架由三个关键部分组成:卷积骨干、尺度感知行人注意模块和放大缩小模块。卷积主干生成多个特征图,用于以不同尺度表示行人。尺度感知行人注意力模块生成若干注意力掩模,这些注意力掩模被编码到这些卷积特征图中。这形成了具有颗粒度感知的特征图,其具有更多的能力来区分行人和身体部位与背景。放大缩小模块结合了额外的本地细节和上下文信息,以进一步增强功能。然后,我们在生成的特征图上滑动两个兄弟3×3卷积层,以输出检测分数和相对于每个位置的默认框的形状偏移[23]。3.1多层行人表示行人具有大的尺度变化,这是一个关键的问题,由于小的和大的实例之间的特征的差异,准确的检测我们利用深度卷积网络的分层架构来解决这个多尺度问题。该网络使用连续的子采样层计算不同空间分辨率的特征图,这自然形成了特征金字塔[22]。我们使用多个特征图来检测不同尺度的行人。具体来说,我们通过以下方式定制VGG16网络[36]用于检测:用于行人检测的粒度感知深度特征学习5输入图像行人/背景掩模小型行人面罩大尺寸行人面罩图三.从加州理工学院测试图像生成的行人注意力面具的可视化。从左至右示出:具有地面实况边界框的图像、行人与背景掩模、小尺寸行人掩模和大尺寸行人掩模。行人/背景掩模对应于最后两个掩模的总和最好用彩色观看。移除所有分类层并将全连接层转换为卷积层。两个额外的卷积层被添加在转换后的VGG16的末端网络的架构呈现在图的顶部。1.给定一个输入图像,该网络生成多个卷积特征层,并增加接收场的大小。我们选择四个中间卷积层{conv 4 3,conv 5 3,conv fc 7,conv 6 2}作为多尺度检测的检测层。如示于图2,具有高分辨率特征图的较浅卷积层对小尺寸目标具有较强的激活,而大尺寸行人出现在较深层。我们定期将一系列具有不同尺度的默认框[23]根据其表示能力放置在检测层的顶部基于相对于这些默认框的偏移以及这些框中的每个框中的行人概率来自层conv4 3和conv5 3的高分辨率特征图与用于检测小目标的小尺度的默认框相关联,而来自层conv fc7和conv6 2的高分辨率特征图被设计用于大行人检测。3.2行人注意模块尽管有多层表示,但来自主干的特征图仍然太粗糙,例如3上的步幅8,以有效地定位小尺寸的步行机并识别人体部分。此外,即使每个检测层倾向于表示特定尺寸的行人,它也将考虑其他尺度的目标,这是不期望的并且可能导致盒中盒检测。我们提出了一个尺度感知的行人注意力模块,使我们的检测器更多地关注行人,特别是小尺寸的,并通过像素级的注意力地图引导特征地图集中在特定规模的目标通过编码6Chunze Lin,Jiwen Lu,Gang Wang,and JieZhouconv4_3 conv5_3 conv_fc7 conv6_2注意小型行人大型行人注意输入图像见图4。骨干网络检测层的特征图可视化(上图),行人注意力特征图可视化(下图)。通过我们的注意力机制,背景干扰显著衰减,每个检测层更专注于特定大小的行人最好用彩色观看将细粒度的注意力掩模(masks)到卷积特征图中,增强了表示行人的特征,同时显著减少了背景干扰。所得到的粒度感知特征具有更强大的识别人体部位的能力,并且能够基于可见部位推断被遮挡的行人。注意力模块建立在骨干网络的层conv3 3和conv4 3它生成多个掩模,其指示在每个像素位置处的特定大小的足的概率注意力模块的架构如图1B所示。1.我们在conv4 3之上构建了一个最大池化层和三个atrous卷积层[20],以获得具有高分辨率和大感受野的conv掩码层首先将conv3_3、conv4_3和conv掩模层中的每一个减少到(Sc+1)通道图中,并且空间上采样到图像大小中。然后将它们连接起来,然后是1× 1卷积和softmax层,以输出注意力图。其中Sc对应于标度级的数量。默认情况下,我们根据120像素的高度阈值区分小型和大型行人,并设置Sc= 2。图3示出了有效地突出行人区域的行人掩模的一些示例。一旦生成注意掩码M∈ RW×H×3,我们将它们编码为通过调整空间大小和元素乘积的大小,从卷积主干中提取特征图,以获得我们的F~i=Fi⊙R(MS,i),i∈{co n v4,co n v5}(1)F<$j=Fj<$R(ML,j),j∈{co n vfc7,co n v6}(2)其中MS∈RW×H×1和ML∈RW×H×1分别对应于突出小型和大型行人的注意掩模。 W和H是输入信息的大小。 R(·,i)是关于将输入重新划分为该层的大小的函数。⊙是通道逐元素点积运算符。Fi表示来自数据库网络的特征映射,其中Fi是与数据库网络的特征映射对应的特征映射,其中F i是与数据库网络的特征映射对应的特征映射。用于行人检测的粒度感知深度特征学习717x51 40x40 92x92 196x196目标conv3_3conv4_3conv5_3地面实况感受野下采样上采样规范规范规范Conv 1x1Conv 1x1Conv 1x1(a)(b)第(1)款图五.放大缩小模块。(a)根据它们的感受野,层conv5 3具有更大的能力来获得上下文信息,而层conv3 3能够获得更多的局部细节。(b)模块的结构来自相邻检测层的特征在与当前检测特征融合之前被重新采样并且用对应的注意掩模编码。行人注意。掩模R(M,S,i)被编码到来自层conv4_3和conv5_3的特征图中,其响应于小行人检测。而掩模R( ML,i)被编码到来自conv_fc7和conv6_2的特征图中,其用于大型行人检测。具有和不具有注意掩模的特征图如图所示。4,其中行人信息被突出显示,而背景用掩模平滑。3.3放大缩小模块当我们的人类注释者试图在图像中找到并识别一个小对象放大过程允许获得细节信息并提高定位精度。虽然缩小过程允许导入上下文信息,这是在推断区域中的目标的概率时的关键因素,例如:,行人更倾向于出现在地面或汽车旁边,而不是天空。受这些直观操作的启发,我们引入了放大缩小模块(ZIZOM),以进一步增强功能。它探索丰富的上下文信息和局部细节以便于检测。我们通过利用不同感受野和分辨率的特征图以卷积方式实现放大缩小模块。具有较小感受野的特征图提供丰富的局部细节,而具有较大感受野的特征图导入上下文信息。图5(b)描绘了放大缩小模块的架构。特别是考虑到颗粒度awarefeaturemapsF~i,我们可以从任意方向上查看urefeatureFi−1和Fi+1,以模拟放大和缩小过程。每个相邻层之后是1× 1内核卷积以选择特征,然后是向上和向下卷积。8Chunze Lin,Jiwen Lu,Gang Wang,and JieZhouhi我采样操作以协调特征图的空间大小。采样操作由最大池化和双线性插值组成,为了简单起见,没有学习参数。当前层的注意力掩码Maski被编码到这些采样的特征图中,使它们聚焦于相应大小的目标。然后,我们沿着它们的通道轴融合这些特征图,并生成用于最终预测的特征图,其中1× 1卷积层用于降维以及特征重组。由于来自不同层的特征图具有不同的尺度,因此我们使用L2归一化[24]将其范数重新缩放为10,并在反向传播期间学习尺度。图5(a)分析了ZIZOM在具有一些卷积层的感受野方面的效果。来自conv53的特征增强了存在汽车和另一行人的背景信息。由于conv33的接收场与目标的大小相匹配,因此其特征能够导入关于行人的更多局部细节。这两个相邻特征与conv4 3的连接导致更强大的特征图,如图所示。5(b)。3.4目标函数所有这三个组件形成了一个统一的框架,该框架是端到端训练的我们制定以下多任务损失函数L来监督我们的模型:其中L_conf是置信度损失,L_loc对应于定位损失,并且L面具是行人注意面具的损失函数。λ1和λm是平衡不同任务重要性的两个参数。在我们的实验中,我们根据经验将λ1设置为2并且将λm设置为1。置信度分数分支由两个类别(行人与行人)上的Softmax损失监督。背景)。框回归损失Lloc的目标是最小化预测的边界框回归偏移和地面实况框回归目标之间的平滑L1损失[15]我们开发了一个加权Softmax损失来监督我们的行人注意力模块。这种加权政策有两个主要动机:1)大多数区域是背景,但只有少数像素对应于行人。这种不平衡使得训练效率低下; 2)与小实例相比,大尺寸实例自然占据更大的区域。这种大小的不平等推动分类器忽略小的行人。解决针对上述不平衡,我们引入实例敏感权重ωi=α+β1和将注意力掩模损失L掩模定义为加权Softmax损失:L=−1 ΣNs ΣSc {y=l}ω{ls=0}l〇g(cls)⑷掩模Nsi=1ls=0i si i其中Ns是掩模中的像素的数量,Sc是尺度类的数量,并且hi是由第i个像素表示的目标的高度{·}是指示器函数。是地面实况标签,1s= 0对应于背景标签,并且cls是用于1s个类的第i个像素的预测得分通过交叉验证将常数α和β用于行人检测的粒度感知深度特征学习94实验和分析4.1数据集和评价方案我们在3个基准上全面评估了我们提出的方法:[10],INRIA [7]和KITTI[14].在这里,我们对这些基准测试进行简要描述。加州理工学院的数据集[10]由10个小时的城市驾驶视频组成,带有350K标记的边界框。它产生了42,782张训练图像和4,024张测试图像。对数平均未命中率用于评估检测性能,并通过对在[10−2, 100]范围内采样的假阳性每图像(FPPI)点的未命中率求平均值来计算。由于我们的方法的目的是缓解闭塞和小尺寸问题,我们在三个子集上评估了我们的GDFL:重度闭塞、中度和合理。 在重度遮挡子集中,行人高于50像素,并且36%至80%被遮挡。在“中等”子集中,人的身高在30到80像素之间,具有部分遮挡。“合理”子集由身高超过50像素且部分遮挡的行人组成。INRIA数据集[7]包括614个阳性和1,218个阴性训练图像。有288个测试图像可用于评估行人检测方法。评估指标是FPPI上的对数平均未命中率。由于有限的可用注释,我们只考虑了合理子集与最先进的方法进行KITTI数据集[14]由7,481张训练图像和7,518张测试图像组成,包括约80K的汽车,行人和骑自行车者的注释KITTI用三个指标评估PASCAL风格的平均精度(mAP):容易,中等和困难。根据最小足高度、遮挡和截断水平来定义困难MOT17Det数据集[29]由无约束环境中的14个视频序列组成,产生11,235张图像。将数据集分为训练和测试两部分,分别由7个视频序列组成。平均精密度(AP)用于评价不同方法。4.2实现细节用于注意力模块的弱监督训练:为了训练pedestri-注意力模块,我们仅使用边界框注释,以便独立于任何像素级注释。为了实现这一目标,我们探索了一种弱监督的策略,通过创建人工前景分割使用绑定框信息。在实践中,我们将边界框内的像素视为前景,而其余像素则标记为背景。我们将属于多个边界框的像素分配给具有最小面积的边界框如图所示3,尽管监督训练较弱,但我们生成的行人面具携带了重要的语义分割信息。训练:我们的网络使用随机梯度下降算法(SGD)进行端到端训练。我们用预先训练好的10Chunze Lin,Jiwen Lu,Gang Wang,and JieZhou表1.在速度和未命中率方面与加州理工学院重度闭塞子集的最新方法进行比较方法未命中率(%)计算时间(s)FPDW [8]95.560.2DeepCascade+[1]82.190.06RPN+BF [43]74.360.36SA-FastRCNN[19]64.350.59DeepParts [37]60.421美国有线电视新闻网[5]59.940.10SDS-RCNN [4]58.550.26F-DNN+SS [1]53.762.48JL-TopS [48]49.200.6我们的GDFL43.180.05模型[23],并且所有新的附加层都用“x a v i e r“m e t h o d [ 16]随机初始化。我们在[23]中增加了一个新的边界,以使我们的模型对尺度和光照变化更加鲁棒。此外,在训练阶段,负样本大大超过正样本,并且大多数是容易的样本。为了更稳定的训练,我们不是使用所有的负样本,而是按照最高的损失值对它们进行排序,并保留最高的损失值,以便负样本和正样本之间的比例最多为3:1。推理:我们使用输入图像的初始大小,以避免信息丢失并节省推理时间:Caltech和INRIA为480× 640,KITTI为384× 1280在推理阶段 , 我 们 的 检 测 器 产 生 大 量 的 包 围 盒 。 我 们 执 行 非 最 大 抑 制(NMS),交集超过并集(IoU)阈值为0.45,以过滤冗余检测。我们使用单个GeForce GTX 1080 Ti GPU进行计算,我们的检测器每秒执行约20帧,输入大小为480× 640像素。4.3结果和分析与现有技术方法的比较:我们在四个具有挑战性的行人检测基准上评估了我们提出的GDFL方法,Caltech [10],INRIA [7],KITTI [14]和MOT17Det [29]。Caltech:我们在Caltech训练集上训练了我们的模型,并在Caltech测试集上进行了评估。表1列出了在执行时间和未命中率方面与Caltech重度闭塞子集上的最图6示出了在Caltech培养基和合理子集上报道的可用的最佳执行方法的未命中率相对于FPPI的ROC图[8,1,37,43,6,19,4,5,11]。 在重度闭塞的情况下,我们的GDFL达到43。18%的未命中率,这明显优于现有的特定于遮挡的检测器。这种性能表明,我们的检测器,指导细粒度的信息,有更好的能力来识别人体部位,从而定位被遮挡的行人。在加州理工学院中等子集,我们的方法有一个错过率为32。50%,这比以前的最佳方法稍好[11]。在更合理用于行人检测的粒度感知深度特征学习1178.41% FPDW64.78% DeepCascade56.42% DeepParts53.93% RPN+BF51.83% SA-FastRCNN50.88% SDS-RCNN49.13% MS-CNN33.27% F-DNN33.15% F-DNN+SS32.50%我们的1.80.64.50.40.30.201.80.64.50.40.30.20.10.100.0510-310-210-1100101每个图像的(a) 介质10-310-210-1100101每个图像的(b) 合理图六、与加州理工学院数据集上最先进的方法进行比较1.80.64.50.40.30.20.10.0510-310-210-1100101每个图像的见图7。与INRIA数据集上最先进方法的比较合理设置。场景中,我们的方法实现了与在Caltech合理子集上实现最佳结果的方法相当的性能[4]。由于我们的目标是提出一个快速,准确的行人检测器,我们也检查了我们的方法的效率表1比较了Caltech数据集上的运行我们的GDFL方法比F-DNN+SS [11]快得多,并且比Caltech重遮挡子集JL-TopS [48]上以前的最佳方法快约10倍。虽然SDS-RCNN [4]在Caltech合理子集上的表现略好于我们的方法(7. 36% vs. 7. 84%),它需要比我们的方法多4倍的推理时间。比较表明,我们的行人检测器实现了良好的权衡速度和准确性。INRIA:我们用614张阳性图像训练了我们的模型,排除了阴性图像,并在测试集上进行了评估。图7示出了我们的方法的结果以及在INRIA集上表现最好的方法[2,44,30,28,3,21,33]。 我们的检测器产生的国家的最先进的性能与5。04%的未命中率,优于竞争对手的方法超过1%。实验证明,即使训练集有限,我们的方法也能取得很好的效果57.40% FPDW26.21% DeepCascade11.89% DeepParts11.75% CompACT-Deep9.95% MS-CNN9.68% SA-FastRCNN9.58% RPN+BF8.65% F-DNN8.18% F-DNN+SS7.84%我们的7.36% SDS-RCNN未命中率15.96% VeryFast13.79%LDCF13.70%弗兰肯13.53%罗雷13.32% SketchTokens11.22%空间合并6.88% RPN+BF6.78% F-DNN5.04%我们的未命中率未命中率12Chunze Lin,Jiwen Lu,Gang Wang,and JieZhou表2.与KITTI数据集上已发布的行人检测方法的比较。mAP(%)和运行时间从KITTI排行榜收集。方法mAP on Easy 中等水平的mAP 硬上的mAP时间(s)[46]第四十六话69.0557.1251.462DeepParts [37]70.4958.6852.731CompACT-Deep [6]69.7058.7352.731RPN+BF [43]77.1261.1555.120.6SDS-RCNN [4]-63.05-0.21[18]第十八话74.2163.2656.442美国有线电视新闻网[5]83.7073.6268.280.4我们的(384×1280)83.7867.7360.070.15我们的(576×1920)84.6168.6266.860.27表3.与MOT 17 Det台架上已发表的最新方法的比较-∗mark. 符号表示外部数据用于训练。方法∗KDNT [42]我们的GDFLSDP [41]FRCNN [35]DPM [13]平均精度0.890.810.810.720.61KITTI:我们在KITTI训练集上训练了我们的模型,并在指定的测试集上进行了评估。我们将我们提出的GDFL方法与KITTI上的当前行人检测方法进行了比较[46,37,6,43,4,18,5]。结果列于表2中。我们的检测器实现了与MS-CNN [5]竞争的性能,但在原始输入大小下执行速度约为3倍除了其特定于尺度的特性外,MS-CNN [5]还探索了输入和特征上采样策略,这对于提高小物体检测性能至关重要。在这个过程之后,我们将输入上采样1.5倍,我们观察到硬子集有了显着的改进,但执行时间更长。注意,在KITTI评估协议中,骑自行车的人被视为错误检测,而坐着的人被忽略。在这种设置下,我们的行人注意力机制不太有用,因为它倾向于突出所有人形目标,包括骑自行车的人。这解释了为什么我们的模型在KITTI上的表现不如在Caltech或INRIA上的表现MOT17Det:我们在指定的训练集和测试集上分别训练和评估了我们的检测器,并与现有的方法进行了比较表3列出了我们的方法和现有技术方法的检测结果我们提出的检测器在不使用外部数据集进行训练的情况下达到了具有竞争力的0.81平均精度这种性能证明了我们的模型的泛化能力。消融实验:为了更好地理解我们的模型,我们使用加州理工学院的数据集进行了消融实验。我们将卷积骨干视为基线,并连续添加不同的关键组件来检查它们对性能的贡献。表4总结了我们的综合消融实验。用于行人检测的粒度感知深度特征学习13表4.在Caltech测试集上评价的消融实验。分析显示了各种组件和设计选择对检测性能的影响。组件选择单层检测✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓多层检测实例敏感权值单尺度注意Scale-awareattentionZIZOMonFconv43ZI ZOM onFconv53ZIZOM onFconv4 3合理的未命中率16.86 9.449.168.449.59 7.368.018.86中的未命中率42.96 36.49 34.36 33.45 34.40 32.50 32.99 35.74重度闭塞53.44 50.21 47.60 44.68 47.69 43.18 42.86 45.73多层检测:我们首先分析了使用多个检测层的优点。为此,我们只使用conv fc7层来预测所有尺度的行人,而不是多层表示这两种架构的实验结果表明,多层检测的优越性,与加州理工学院合理的子集7%的显着增益。注意机制:我们分析了我们的注意机制的效果为了控制这一点,我们比较了两个模型与这两个注意力设计。从表4中,我们可以看到两个模型都改善了结果,但是具有尺度感知注意力的模型具有明显更好的结果。诸如框中框检测的混淆被我们的尺度感知注意掩模抑制。我们观察到一个令人印象深刻的改善加州理工学院的重遮挡子集,这表明,细粒度的面具更好地捕捉身体部位。闭塞情况的一些实例描绘于图1B中。8.我们可以看到,没有注意力的特征无法识别人体部位,并且倾向于忽略被遮挡的行人。当我们将行人面具编码到这些特征图中时,人体部位被显著突出显示。检测器变得能够通过考虑可见部分来推断遮挡部分,这使得遮挡目标的检测变得合理。Softmax损失中的实例敏感权重:在训练阶段,我们的注意力模块由加权Softmax损失监督,我们研究了实例敏感权重对性能的贡献。我们比较了使用和不使用权重项训练的两个模型。如表4的第5列所列,在具有常规Softmax损失的情况下,Caltech的所有三个子集的性能下降特别地,在重度遮挡情况下,未命中率从44.68%增加到47.69%结果指出,实例敏感的权重项是准确的注意掩模生成的关键组成部分。ZIZOM:我们进一步在我们的模型上构建了带有注意力面具的放大缩小模块表4示出了在颗粒度之上具有ZIZOM的情况14Chunze Lin,Jiwen Lu,Gang Wang,and JieZhou见图8。硬检测样本,其中基于盒的检测器经常由于噪声表示而被愚弄。第一行示出了具有由绿色边界框定位的行人的图像。第二行和第三行分别示出了没有注意力掩模的特征图和粒度感知特征图。最好用彩色观看awarefeaturesF~conv4 3,则在Calte ch的所有子空间上,该性能降低1%。然而,当新的Con结构在F~conv53上创建Z I Z OM时,结果基本上是相同的。由于具有约100像素高的原始图像F~cov53r_e_p_p_d_trians,这些结果证实了我们的直觉,即上下文信息和局部细节对于小目标是重要的,但对于大目标帮助较小。为了更好地控制该模块的有效性,我们禁用了注意力机制,并考虑在Fconv43模型上使用ZIZOM的卷积骨干与基线的比较显示出4%的增益。加州理工学院重度闭塞亚群。实验结果证明了该放大缩小模块的有效性。5结论在本文中,我们提出了一个框架,该框架将像素信息整合到深度卷积特征图中以进行行人检测。 我们引入了尺度感知的行人注意力掩模和放大缩小模块,以提高特征图识别小的和被遮挡的行人的能力。在三个常用的行人基准点上的实验结果验证了提出的方法。确认这 项 工 作 部 分 得 到 了 中 国 国 家 重 点 研 究 与 发 展 计 划(2017YFA0700802)的支持,部分得到了中国国家自然科学基金(61672306、U1713214、61572271)的支持,部分得到了深圳市基础研究基金(课题安排)(JCYJ2017041217)的支持0602564.用于行人检测的粒度感知深度特征学习15引用1. Angelova,A.Krizhevsky,A.,Vanhoucke,V.,Ogale,A. S.,Ferguson,D.:使用深度网络级联进行实时行人检测在:BMVC.卷2,p.4(2015)2. Benenson河Mathias,M.,Timofte河,Van Gool,L.:行人检测在100帧的速度。 In:CVPR. pp. 29033. Benenson河Mathias,M.,Tuytelaars,T.,Van Gool,L.:寻求最强的刚性设计。In:CVP R.pp. 36664. 巴西、G.、Yin,X.,刘X:通过同时检测和分段来照亮行人。In:ICCV.pp. 49505. 蔡志,范,Q.,Feris,R.S.,Vasconcelos,N.:一个统一的多尺度深度卷积算法,用于块数据的处理。 In:ECCV. pp. 3546. 蔡志,Saberian,M.,Vasconcelos,N.:学习复杂性感知级联,以进行设计和执行。 In:ICCV. pp. 33 617. Dalal,N.,Triggs,B.:用于人体检测的定向梯度直方图。In:CVPR.pp. 8868. 做吧,P Belongie,S. J. Perona,P. :在新的版本中,将快速执行此操作。在:BMVC.第2卷,第7页(2010年)9. 做吧,P Tu,Z., Perona,P. 、Belonggie、S. :Itegralchanelfaturs. In:BM VC. pp. 91. 1-91 11(2009)10. Do ll'ar,P., Wojek,C., S.chiele,B., Perona,P. :Pedestrianenchmark.In:CVPR. pp. 30411. 杜X El-Khamy,M.,李,J.,Davis,L.:融合的dnn:深度神经网络融合是一种将数据和网络进行融合的方法。 In:WACV. pp. 95312. Enzweiler,M.,Eigenstetter,A.,Schiele,B.,Gavrila,D.M.:多线索行人分类与行人路径和路线相结合。 In:CVPR. pp. 99013. Felzenszwalb,P.F.,Girshick,R.B.,McAllester,D. Ramanan,D.:使用基于边缘的模型进行对象检测。TPAMI32(9),162714. Geiger,A.,Lenz,P.乌尔塔松河:我们准备好自动驾驶了吗?该Kittiv是被NCHMAR KSuite. In:CVPR. pp. 第335415. G irs hi ck,R. :Fastr-cnn。 In:ICCV. pp. 144016. Glorot,X.,Bengio,Y.:了解训练深度前馈神经网络的难度。In:AISTATS.pp. 24917. H ariharan,B. A r bela'ez,P., Gir shi ck,R., Malik,J. :用于块数据段和精细数据段的H ypercolums。 In:C V PR. pp. 44718. 胡Q王,P.,Shen,C.,van den Hengel,A.,Porikli,F.:突破行人探测深度cnn的极限TCSVT p. accepted(2017)19. 李杰,梁湘,Shen,S.,徐,T.,冯杰,Yan,S.:用于行人检测的尺度感知快速r-cnn。TMM p. accepted(2017)20. Liang-Chieh,C.,帕潘德里欧,G.,科基诺斯岛墨菲K Yuille,A.:基于深度卷积网和全连接crfs的语义图像分割载于:ICLR(2015)21. 我是J。J.Zitni ck,C. L., 我会的,P。:sketchtokens:Alearnedmid-levelrepresenta-tio for c ontourandobjectdettection. In:CVPR. pp. 315822. 林 , T. 是 的 , 做 吧 , PGir shi ck , R. , He , K. , Hariharan , B.Belongie,S. :用于对象检测的Fetur金字塔网络。在:CVPR中。第4页(2017年)23. 刘伟,Anguelov,D.,Erhan,D.,塞格迪角Reed,S.,Fu,C.Y.,Berg,A.C.:Ssd:Singleshotmutiboxdetectorr. In:ECCV. pp. 2124. 刘伟,Rabinovich,A.,Berg,A.C.:Parsenet:看得更宽,看得更好。In:ICLR.第3页(2016年)16Chunze Lin,Jiwen Lu,Gang Wang,and JieZhou25. 朗J Shelhamer,E.,达雷尔,T.:用于语义分段的全卷积网络。 In:CVPR. pp. 343126. Luo,P.,田,Y.,王,X.,唐X:用于行人的可切换深度网络Detectio n. In:CVP R.pp. 89927. 毛泽东,J.,Xiao,T.,江,Y.,Cao,Z.:什么可以帮助行人检测?In:CVPR. pp. 312728. Mathias,M.,Benenson河Timofte河,Van Gool,L.:处理闭塞fra nken-classiers. I n:ICC V. pp. 150 529. Milan,A., Leal-Taix'e,L., Reid,I., R〇th,S., S chindler,K. 图16:用于多对象跟踪的改进算法。arXiv预印本arXiv:1603.00831(2016)30. 不,不, 做吧,P Han,J. H. :Localdecorrelatonforrimprovede
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功