没有合适的资源?快使用搜索试试~ 我知道了~
点入,框出:基于检测的人群计数方法
1点入,框出:超越人群中的人数刘玉婷1,石妙静2,赵启军1,王晓芳21四川大学2雷恩大学、因里亚大学、CNRS大学、IRISA大学yuting. stu.scu.edu.cn; miaojing. inria.fr;qjzhao@scu.edu.cn摘要基于回归的计数我们的基于检测的计数现代人群计数方法通常采用深度神经网络(DNN)通过密度回归来估计人群计数尽管他们的显着改进,基于回归的方法是无法提供检测人群中的个人。另一方面,由于需要昂贵的边界框注释,在人群计数的最近趋势中,基于检测的方法尚未被大量在这项工作中,我们提出了一种新的深度检测网络,只需要点监督。它可以同时检测人头的大小和位置,并在人群中进行计数。我们首先挖掘有用的人的大小信息,从点级别的注释和初始化的伪地面实况边界框。在训练过程中引入了一种在线更新机制来细化伪地面真值;而局部约束回归损失被设计为对局部邻域中的预测框的大小提供附加约束。最后,我们提出了一种课程学习策略,首先从相对准确和容易的伪地面真实图像训练网络。在检测和计数任务中进行了大量的实验,在几个标 准的 基 准 ,例 如 。 ShanghaiTech 、 UCF CC 50 、WiderFace和TRANCOS数据集上的实验结果表明,该方法优于现有方法。1. 介绍在拥挤的场景中对人进行计数是包括视频监控、安全监控和行为建模在内的广泛应用的关键组成部分。在密集人群中,由于严重的遮挡、视角扭曲、尺度变化和人的密度变化,这是一项极具挑战性的任务。现代基于回归的方法[27,49,41,25,22,20,39]将问题转换为回归密度分布图,其在图上的积分给出该图像内的人数(参见图1:左)。由于深度神经网络的出现-图1:我们的PSDDN与代表性的基于回归和基于检测的人群计数方法的比较,考虑到它们的输入和输出信息的注释成本。s(DNN)[17],这些方法已经取得了显着的进展。他们不需要注释的绑定框,但只有点的人的头在训练。然而,结果,他们也不能在测试中检测另一方面,基于检测的方法将问题转化为检测群体中的每个个体(见图1:右),由于缺乏边界框注释,因此在最近的趋势S. Liu 等 人 。 [22] 尝 试 手 动 注 释 ShanghaiTech PartB(SHB)数据集中的部分边界框[49],并训练完全监督的Faster R-CNN [32]。他们将检测结果与回归结果相结合,用于人群计数。尽管他们做出了努力并取得了改进,但他们没有报告SHA [49]和UCF CC 50 [13]等数据集的结果,这些数据集的人群平均密度是SHB的五倍和十倍。在人群计数数据集中,为训练图像注释人员的边界框可能是一个巨大的挑战-s. 同时,在测试阶段,了解人群中的人的大小和位置也非常重要;例如,在视频监控中,它可以实现人员识别[37]、跟踪[33]和重新识别[21]。最近,一些研究者[18,14]开始研究这个问题,并提出了一个新的观点--6469点位监督点位监督Bbox监督输出:密度图输出:位置大小低注释成本高6470通过采用分割框架[18]或回归定位图[14]来同时定位人员并预测人群计数。因为它们仅使用点级注释,所以它们仅仅关注于定位人群中的人,而不考虑预测适当的大小。为了能够预测人物的适当大小和位置,同时绕过对昂贵的绑定框注释的需要,我们引入了一种新的深度检测网络,仅使用人物头部上的点级别注释(见图2)。1:中间)。虽然真实的头部大小没有注释,但我们工作的直觉是基于以下观察:i)当两个人足够接近时,他们的头部距离确实反映了他们的头部大小(类似于[49]); ii)由于透视失真,同一水平线上的人头部通常具有相似的大小,并且在图像的远程(顶部)区域逐渐变小这两种观察结果在人群计数场景中很常见。它们启发我们从头部距离中挖掘有用的人的尺寸信息,并在局部区域中的头部点注释和尺寸相关性的帮助下推广可靠的点监督总之,我们的工作试图解决一个非常艰巨而有意义的任务,这是从来没有处理过;我们提出了一种用于人群计数的点监督深度检测网络(PS-DDN),该网络在训练阶段接收关于人头的廉价点级注释,并在测试阶段产生关于人头的详细边界框信息。贡献有三个方面:• 我们提出了一种新的在线伪地面实况更新方案,该方案从点级注释中删除伪地面实况边界框(图1)。1:中顶部),并在训练过程中迭代更新它们(图。1:中底)。初始化基于最近邻头距离。• 我们在点监督设置中引入了一种新的局部约束回归损失,它鼓励局部带区域中的预测框具有相似的大小。损失函数的灵感来自于图像中人物尺寸的透视失真影响[39,6,47];• 我们提出了一种课程学习策略[3],首先为网络提供相对准确和容易的伪地面真实训练图像。图像困难度定义为每个图像内最近邻头距离的分布在ShanghaiTech和UCF CC 50数据集上的大量实验表明:(1)PSDDN在人群计数任务中的表现接近于基于回归的方法;通过与他们的融合而超越了最先进的技术。(2)同时,它产生了非常有竞争力的结果 -在ShanghaiTech,UCF CC 50和WiderFace [46]数据集上进行的人员检测任务。(3)我们还评估PSDDN在车辆计数数据集TRANCOS [10]上显示其在其他检测和计数任务中的通用性。2. 相关作品我们从三个方面对相关工作进行了综述(1)基于检测的人群计数;(2)基于回归的人群计数;(3)点式监督。2.1. 基于检测的人群计数传统的基于检测的方法通常使用视频监控中的运动和外观线索来检测视频中的目标。在人群中的每一个人[43,5,29]。他们遭受着严重的人群隔离。最近的方法在深度时尚学习人检测器依赖于训练图像中的穷举边界框注释[42,22]。例如,[22]手动注释了SHB部分的边界框,并训练了一个更快的R-CNN [32]用于人群计数。注释成本可能非常昂贵,有时在非常密集的人群中不切实际相反,我们的工作仅使用点级别的注释来学习检测模型。还有一些其他的作品特别关注于小对象检测,例如。[12,26,1]。[12]提出了一种基于建议网络的人脸检测方法[32],而[26]提出了在像SSD [23]这样的单级检测器中检测和定位人脸。然而,在这些作品中处理的人脸群体比人群计数作品中的人脸群体密度小得多;此外,这些作品通常使用边界框注释进行训练。2.2. 基于回归的人群计数早期基于回归的方法回归人群的标量值(人数)[6,7,13]。最近的方法代之以回归人群的密度图;通过在密度图上积分来获得人群计数。由于使用了强大的DNN特征,最近的方法已经取得了显着的进展[49,35,41,25,22,24,31,14,39]。更具体地说,[41]设计了一个上下文金字塔DNN系统。它由局部和全局上下文估计器组成,以执行基于块的密度估计。[24]利用来自Google Images的额外未标记数据来学习多任务框架,该框架结合了标记数据中的计数信息和未标记数据中的排名[31]提出了一种迭代人群计数网络,其首先产生低分辨率密度图,然后使用它来进一步生成高分辨率密度图。尽管在这些基于回归的方法中实现了显著的改进,但是它们通常不能预测人群中的确切的人的位置和大小。[22,18,14]是三个最相似的作品,以我们的。[22]设计了一个所谓的DecideNet,通过生成基于检测和回归的密度来6471分别绘制地图;在注意模块的指导下获得最终的人群计数。[14]引入了一种新的成分损失,将密度图和定位图一起回归,从而可以从定位图直接推断出每个头部中心。[18]采用沙漏分割网络[34]分割每个图像中的对象斑点用于人群计数;它们仅使用点级注释,而不是使用每像素分割标签[2]。我们的工作类似于[22],因为我们都训练了一个用于人群计数的检测网络;虽然[22]使用绑定框注释训练了一个完全监督的检测器,但我们只使用点级别注释训练了一个弱监督的检测器。 我们的工作也类似于[14,18],其中我们都使用点级注释;与我们的方法不同,[14,18]只是关注人的定位,而我们的目标是预测人的定位和适当的大小。 除此之外,我们还注意到,我们首先在密集人群计数数据集上评估检测结果,即上海科技大学和UCF CC 50.2.3. 点位监督点监督方案已广泛用于人体姿态估计以注释人体部位的关键点[16,30,36];而在对象检测或分割中,它通常用于减少注释时间[4,44,45,2,28]。例如,Bearman et al.[2]通过要求注释者点击目标对象上的任何地方进行语义分割,而Papadopoulos等人。[28]要求注释者点击对象上的四个物理点以进行有效的对象注释。这些点可以离线收集[2],也可以在线交互方式收集[4,44,45].我们收集一次积分,只在训练时使用。3. 方法3.1. 概述我们的模型基于广泛使用的基于锚点的检测框架,如RPN [32]和SSD [23]。网络架构如图所示2,其中我们采用了ResNet-101的主干,具有四个ResNet块(ResB1- B4)[11]。同样在[12]中,来自Res B3和Res B4的输出分别与具有不同锚标度的两个检测层连接。检测层是一个1 x 1卷积层,输出为N×N×T×(1+4),其中N是特征映射的输出长度,T是锚集大小(我们的工作中为25)。通过参考人头部之间最近邻距离的质心聚类,从[32]中调整预定义锚点的纵横比。对于每个锚点,我们预测4个相对于其坐标的偏移量和1个分类得分。预测Pred 2被上采样到与Pred 1相同的分辨率,并被加在一起以产生fi。最终地图最终预测最后采用了多任务丢失的包围盒分类和回归算法。我们将框架扩展到点监督人群计数,图中以粗体标记的模块。2.首次提出了一种新的之后,一个局部约束的回归损失,特别是提出了边界盒回归与点监督。最后,我们引入了一个课程学习策略,首先从相对准确的伪地面实况图像中训练我们的模型。3.2. 在线地面实况更新方案伪地面实况初始化。为了训练检测网络,我们需要首先从头点注释初始化地面实况边界框。我们遵循[49]中的灵感,即头部大小确实与拥挤场景中两个相邻头部中心之间的距离有关。我们用它来估计一个边界盒g的大小,作为从这个头g到它最近的邻居NNg的中心距离d(g,NNg)(见图2:红色虚线)。这就产生了一个正方形的边界框;我们找到与这个正方形框大小最接近的锚框作为初始化。我们称初始化的边界框为伪地面实况。图中示出了一些示例。1:中间顶部。密集人群(上图)中的估计接近真实的地面实况,而稀疏人群(下图)中的估计通常更大。伪地面实况更新。 为了训练检测网络,我们从预定义的锚点中选择正样本和负样本,通过它们的IoU(intersection-over-union)与初始化的伪地面实况。二进制分类器在所选择的正面和负面上进行训练,以便对每个锚点建议进行评分。由于伪地面实况初始化并不准确,我们建议迭代更新它们以训练可靠的对象检测器(见图2)。①的人。更正式地,令g0表示在时期0处的图像的特定位置处的初始化的真实边界框。在g0的所有样本中,我们选择大小(宽度或高度的较小值)小于d(g,NNg)的样本中得分最高的一个来替换下一个历元中的g 0;即,我们将其表示为时期1处的g1。锚点集被密集地应用在每个检测层上,这保证了大多数伪地面真值可以迭代地用合适的预测更新;如果有时g太小而不能得到肯定的结果,它将在训练过程中被简单地忽略。我们注意到,我们使用的分类损失与[8,32]相同。在[9,40]之后,我们还应用了相同的关于正面和负面选择的在线硬挖掘策略。下面我们介绍我们的局部约束回归损失。6472500…256…512…1024…12563Res B1Res B2Res B3Res B4125 63500Conv1x1x25x(1+4)伪GT更新(第3.2)……125分类损失63Pred163+32Pred232X2(第二节)第3.4节)课程学习局部约束(第二节)3.3)回归损失63最终预633232250250^ ^您的位置:我在观察(Observ),在人群图像绑定-沿同一水平线放置人员的箱子应LW=((µw-3σw) −gw)2GW<µw-3σw伪GT型图2:仅使用点级注释的PSDDN的网络概览。Res B1-B4表示从ResNet- 101 [11]中采用的ResNet块在Res B3和B4之后的两个尺度上进行人员检测;将它们的预测(Pred 1和Pred 2)相加以产生最终预测(Final Pred)。 提出了一种在线伪地面实况更新方案,包括伪地面实况初始化和更新;一种新的局部约束回归损失,其鼓励局部区域中的预测框具有相似的大小。提出了一种课程学习策略,首先从相对准确的伪地面实况图像中训练网络。3.3. 局部约束回归损失我们首先参考[9]中关于边界框回归的一些符号锚定边界框a =(ax,ay,aw,ah)指定together的中心的像素坐标及其以像素为单位的宽度和高度。A的对应的地面真值g以相同的方式指定:g=(gx,gy,gw,gh)。从a到g所需的变换被参数化为四个变量dx(a),dy(a),dw(a),dh(a)。前两个指定a的中心的尺度不变平移,而后两个指定a的宽度和高度的对数空间平移。 这些变量由边界框回归器产生;我们可以使用它们将a转换为预测的地面实况边界框g=(g^x,g^y,g^w,g^h):G大小相似。这是由于人群图像中经常发生的透视失真:同一行中的透视值相等,并且从图像的底部到顶部逐渐减小[6,47,39]。只要相机没有严重旋转,并且拍摄场景中的地面大多是平坦的,上述观察应该适用。因此,我们建议如果预测的边界框xesg的宽度和高度明显违反Observ,则对其进行惩罚。对 于 公 式 y, 表 示 为 gij= ( gxij , gyij , gwij ,ghij)特征图上位置ij处的伪地面实况,我们首先计算窄带区域内所有边界框的宽度(高度)的平均值和标准差(行:i−1:i+1; column:1:W),W是特征图的宽度。我们使用Gi来表示与i相关的窄带内的地面实况头部位置的集合。相应的统计数据如下:x=aw·dx(a)+ax,gy=ah·dy(a)+ayg^w=aw·exp(dw(a)),g^h=ah·exp(dh(a))(一)1µw i=|G|m∈Gi gwmn目标是使g和g的差最小化。在我们的框架中,地面真值g是伪地面真值:中心坐标gx,gy是精确的,但是gw,σwi=1|Gi|m∈Gi(gwmn−µwi)2,(三)GH没有。基于此,我们不能使用原始的边界框回归损失,而是提出了一种哪里|G i|表示集合的基数。i也可以用同样的方式获得。 我们采用三西格玛局部约束回归损失我们首先定义一个关于中心的损失函数规则:如果预测的边界框宽度g_w_i_j大于XYg和g之间的距离:lxy=(gx−g22µwi+3σwi或小于µwi−3σwi,将受到惩罚;否则就不行损失函数l保持宽度因此,边界框g∈ij的定义为:^x)+(gy−g^y)。(2)2关于宽度和高度的损失函数,(g^wij−(µwi+3σwi))g^wij>µwi+3σwi直接比较g和g′是不现实的。我们相信伊日i^ij^ii i(四).0否则6473Σ˜图像由Φ(d)生成|其中G表示sgg∈G|G|G可以以类似的方式获得Lh_ij。我们不要求在局部区域内严格遵守Observ,而是设计了窄带和三西格玛规则,用于个体之间头部尺寸变化的公差总体边界框回归损失Lreg为:图像包含大多数超小/大边界框,模型将已经非常好,并且将比从一开始就一起训练所有样本更好地工作。在我们的实验中,根据经验选择ZLreg =lxyijij∈G+lwij +lhij 、(五)4. 实验我们首先介绍两个人群计数数据集和一个其中G表示一个图像中的地面实况头点的集合。我们在每个子损失符号上添加一个波浪号,以表示在实际实现中,g和g′的中心坐标、宽度和高度以与锚框a相关的方式进行归一化,如下6-9在[8]中。3.4.课程学习关于SEC 3.2:在非常稀疏的人群中,初始化的伪地面实况通常是不准确的,并且比真正的地面实况大得多;另一方面,在非常密集的人群中,初始化通常太小而难以被检测到。这两种情况都可能破坏模型并导致检测结果不佳。我们采用课程学习策略[3,38,48],首先从相对准确和容易的伪地面实况图像中训练模型,而不是在整个集合上训练模型。每个伪地面真值g被初始化为大小d(g,NNg)(Sec. 3.2)。在典型的人群计数数据集中,非常大或小的盒子只是一小部分,大多数盒子都是中等/中小尺寸的,相对更准确,更容易学习。d(g,NNg)的平均值μ和标准差σ可以在整个训练集上计算。因此,我们采用高斯函数Φ(d g|μ,σ)来产生伪地面实况边界框的分数,使得中等大小的框通常被分配有大分数。平均得分在一个1|G|在图像中设置的边界框。 我们定义培训图像的难度TL为TL =1−1Φ(d |µ,σ)(6)g∈G如果一幅图像包含的边界框大多是中等大小的,那么它的难度就很小;否则,大。有了图像难度的定义,我们可以将训练集I分成Z个折叠I1,I2,..,我也是。同样在[38,48]中,我们首先在第一个折叠I1上运行PSDDN,图像主要包含中等大小的边界框。 在这方面的培训将导致一个合理的检测模型。在I1上运行PSDDN几个时期之后,该过程移动到第二个折叠I2,将其所有图像添加到当前工作集I1I2再次运行PSDDN。 该过程将迭代地移动到最后一个文件夹IZ并在连接-t集I1I2上运行PSDDN. 吉尔兹当它到达IZ时,人脸检测数据集车辆计数数据集还介绍,以显示我们的方法的普遍性。之后,我们在这些数据集上评估我们的方法。4.1.数据集上海科技[49]. 它由1,198张带注释的图像组成,共有330,165人,头部中心注释-S.此数据集分为两个部分:SHA和SHB。与SHA相比,SHB中的人群图像更稀疏:平均人群计数分别为123.6和501.4。接下来[49],我们在SHA中使用300张图像进行训练,182张图像进行测试;在SHB中使用400张图像进行训练,316张UCF CC 50 [13]. 它有50张图像,总共有63,974个头部中心注释。每张图像的人头数在94到4,543之间。小的数据集大小和大的变化使其成为一个非常具有挑战性的计数数据集。我们简称它为UCF。在[13]之后,我们进行了5次交叉验证,以报告平均测试性能。[46]第四十六话它是最具挑战性的人脸数据集之一,由于各种各样的人脸尺度和遮挡。它包含32,203张图像,其中包含393,703个边界框注释面。每个图像的平均注释人脸为12.2. 40%的数据用作训练集,另外10%形成验证集,其余的是测试集。验证和测试集分为测试集评价必须由论文作者进行。为了方便起见,我们在训练集上训练所有模型,并仅在验证集上进行评估。TRANCOS [10]. 这是一个公共交通数据集,包含1244张不同拥堵交通场景的图像有46,796辆车的监控录像提供感兴趣区域(ROI)以供评估。4.2. 实现细节为了增强训练集,我们将输入图像随机重新缩放0.5X,1X,1.5X和2X(四个尺度),并从重新缩放的输出中裁剪500*500图像区域作为训练样本。测试也进行了四个规模的输入和组合在一起。我们将学习率设置为10−4,重量衰减0.0005,动量0.9。Giv en伪地面实况和锚定边界框,在训练中,我们将正样本确定为IoU重叠超过70%的样本,而将负样本确定为重叠低于30%的样本我们使用的批大小为647412张图片。一般来说,我们训练50个epoch的模型,并在验证集上选择性能最好的epoch。4.3. 评价方案我们评估的人检测和计数每一个星期。对于计数性能,我们采用常用的平均绝对误差(MAE)和均方误差(MSE)[35,41,22]来衡量地面真实值和估计值之间的差异。关于检测性能,在WiderFace数据集中,边界框注释可用于每个面;因此,通过地面实况g和检测到的边界框g之间的IoU重叠来判断良好的检测g,即 IoU(g,g)>0。五、在上海理工大学和UCF CC 50数据集中,我们没有边界框的注释,而只有头部中心。我们基于两个标准定义了良好的g检测• 地面真值g和检测到的g之间的中心距离小于常数c。• g的宽度或高度小于rd(g,NNg),其中r是常数。c默认设置为20(像素)至于r,不存在它的精确选择,因为真实的地面真值边界框不可用。在密集人群中,人们彼此非常接近甚至被遮挡,r可以略大于1,以允许对每个头部进行完整的检测;而在稀疏人群中,r应该小于1。在此基础上,对于SHB,我们选择r默认为0.8,对于SHA和UCF,选择r默认为1.2。不同的c和r将在以后的课程中进行评估。我们通过对检测到的边界框(好的边界框)根据它们的置信度分数进行排名来计算精确度和召回率。平均精度(AP)最终在整个数据集上计算。4.4. 计数我们首先介绍了PS-DDN的消融研究,然后将其与最新技术进行比较。消融研究。 我们提出了几个变种(Pv 0-Pv 3)的PSDDN逐渐加入到网络中的建议的元素。关于SEC 3,我们用Pv 0表示使用[32]中的固定伪地面真值初始化和经典边界框回归以完全监督的方式训练的模型; Pv 1:Pv 0中的伪地面真值被迭代更新; Pv 2:Pv 1中的经典边界框回归被升级为我们的新方式; Pv 3(PSDDN):在Pv 2中采用电流学习策略。SHA和SHB的结果见表1。我们以SHA为例:Pv 0 s-tarts的MAE为168.6; Pv 1和Pv 2的MAE分别下降到104.7和89.8,最后达到最低MAE 85.4数据集沙SHB措施MaeMSEMaeMSEPV0168.6268.369.898.1PV1104.7193.841.766.6PV289.8169.519.142.4Pv3(PSDDN)85.4159.216.127.9PSDDN +[20]65.9112.39.114.2Li等人[20个]68.2115.010.616.0Ranjan等人[三十一]68.5116.210.716.0Liu等人[24日]73.6112.013.721.4Liu等人[22日]--20.729.4[22]第二十二话--44.973.2Sindagi等人[41个]73.6106.420.130.1Sam等人[35]第三十五届90.4135.021.633.4表1:人群计数:PSDDN的消融研究(Pv 0-Pv 3表示PSDDN的不同变体)及其与ShanghaiTech数据集上最新技术水平的比较。对于Pv3,这是PSDDN的完整版本。同时,MSE也从Pv0的268.3显著降低到Pv3的159.2。我们注意到,同样的观察也适用于SHB。结果表明,PSDDN的每个组成部分在整个系统中提供了明显的效益。与最新技术水平的比较。我们将我们的工作与现有技术进行比较[20,31,24,22,41,35]。可以看出,我们的基于检测的方法PSDDN已经执行接近最近的基于密度的方法。此外,通过使用[ 22 ]中的注意力模块将我们的PSDDN结果与[20]相结合,我们表明所获得的结果优于最新技术。例如,在SHA上,PSDDN+ [20]在SHA上产生MAE 65.9,在SHB上产生9.1。我们注意到两件事:1)通过调整检测置信度可以获得更好的计数结果;相反,我们将其固定为所有数据集的高值(0.8),以确保预测在每个局部位置都是可靠的;2)基于回归的方法有时会在图像的某些局部区域产生不好的结果,这不能反映在MAE度量中;还有一种称为GAME的度量[10],它能够克服这一限制。我们稍后将在TRANCOS数据集中讨论,以表明我们基于检测的方法在GAME度量中要好得多我们在图中展示3 .第三章。[ 22 ]的符号PSDDN明显优于DetNet结果。但我们并不认为点(弱)监督学习通常比全监督学习更好。特别是对于DetNet,他们没有使用PSDDN中的任何在人群计数中,全监督检测方法的主要限制在于64758730111149132879499144108图3:来自WiderFace、SHB、UCF、SHA和TRANCOS数据集的示例。最上面一行是测试图像与地面真相(边界框或点),而最下面一行是我们的检测。图像中的数字分别表示地面实况和估计计数。绿色边界框表示良好的检测,而黄色不符合我们的评估协议。计数UCF措施MaeMSEAPLi等人[20个]266.1 397.5-Liu等人[24日]279.6 388.9-Sindagi等人[41个]295.8 320.9-Sam等人[35]第三十五届318.1 439.2-沙SHB表2:PSDDN与现有技术的比较UCF数据集。MAE、MSE用于人群计数,而AP用于人员检测。需要大量的边界框注释。在非常密集的人群中可能是不现实的。相反,我们的PSDDN提供了一种替代方法来进行计数检测,只有点监督,它在计数和检测的评估中表现得非常UCF CC 50在人群计数任务中,它具有迄今为止最多的人群。我们在表2中表明,我们的PSDDN仍然可以产生有竞争力的结果:MAE为359.4,MSE为514.8。在检测会话中,我们将展示尽管UCF中的头部很小,但PSDDN仍然能够在它们上生成合理的边界框(图11)。3:第三列)。4.5. 检测在图4中,我们首先展示了不同c和r的查准率-查全率曲线(见第二节)。4.3)在SHA和SHB上。当我们固定检测输出的置信度时,不同曲线的召回率在某些点停止。当我们固定r时,AP会随着c的增加而提高;默认情况下,c被选为20,以对预测和地面实况之间的中心距离图4:不同c和r的查准率-查全率曲线。数据集PV0PV1PV2Pv3(PSDDN)沙0.3080.4910.5390.554SHB0.0150.2410.5820.663表3:人员检测:在上海科技大学数据集(SHA和SHB)上进行PSDDN的消融研究。AP报道。对于SHA和r=0。8为SHB。我们还给出了r=∞的结果,它只关心头部中心定位(如[18,14]):我们分别得到SHA和SHB的非常好的AP 0.737和0.759[18,14]没有在上海科技展示但是简单地定位头部中心对于检测任务来说是不够的,我们将在Wider- Face数据集中进一步讨论,在那里我们有真实的边界框进行评估。在计数实验的基础上,我们还对PSDDN进行了消融实验研究。结果如表3所示:SHA上的AP从Pv 0为0.308,Pv 3为0.554;对于SHB也是如此,其中AP最终从0.015增加到0.663。我们注意到,我们还尝试使用固定的伪地面真值来训练更快的R-CNN [32],该伪地面真值与Pv 0一样低。另一方面,当我们固定c时,AP随着r的增加而改善。如第4.3,SHA中的人群比SHB中的人群密集得多,我们默认选择r = 1。2UCF CC 50表2显示了PSDDN在UCF上的检测性能。在这个人群非常密集的数据集中,我们的方法仍然达到了0.536的AP。一个例子是6476方法注释宽面容易介质硬Avg. BB点(测试)+平均大小 0.0020.0830.059FR-CNN(ps)点(序列)+平均大小 0.0080.1830.108FR-CNN(fs)边界框(列车)0.8400.7240.347方法游戏0GAME1游戏2游戏3APVictor等人[19个]13.7616.7220.7224.36-Onoro等人[27日]10.9913.7516.0919.32-Li等人[20个]3.565.498.5715.04-表4:WiderFace上的人员检测。“注释”表示方法中采用的不同级别的注释。“mean size” refers to the mean ground truthbounding box size over the training Avg. BB使用平均大小在每个测试点处添加边界FR-CNN:更快的R-CNN。示于图3:第三列。 我们建议读者注意那些坐在楼上阳台上的人(例如:黄色):它们不被注释为基本事实,而是被PSDDN检测到。WiderFace是一个人脸检测数据集,它的人群密度比典型的人群计数数据集中的密度要小;我们在表4中报告了结果以显示我们方法的普遍性。 它可以被看作是使用- 单点级注释PSDDN仍然设法在容易、中等和困难设置上实现AP 0.605、0.605、0.396。与其他人相比。由于我们在Wider- Face中有可用于训练和测试的边界框注释,因此我们尝试将PSDDN与[18,14,22]进行比较。[18,14]预测对象定位和人群计数的定位图或分割斑点。在他们的作品中,预测对象的确切大小和形状并不被认为是人群计数的必要条件。然而,我们认为,它是重要的目标识别和跟踪。我们假设存在另一种方法,可以在测试中正确地局部化每个头部中心(比[18,14]中的任何一种都好),边界框以后处理的方式使用来自训练集的平均地面真值大小在表4中表示为平均BB。结果非常低。我们注意到,我们也尝试以类似的方式添加框,以在每个测试点进行伪地面实况初始化,AP也非常低。这表明,在头部点定位结果的顶部添加边界框并不直接。我们还使用表4中的两个不同级别的注释将PSDDN与更快的R-CNN[32]进行了比较:FR-CNN(ps)和FR-CNN(fs)。首先,我们使用头点标注和平均地面真值大小来生成用于训练的边界框;它的性能比我们的PSDDN差得多。接下来,我们按照[15]使用手动注释的边界框来训练Faster R-CNN,这与[22]中的DetNet类似。PSDDN在简单和中等设置上执行比FR-CNN(fs)更低的AP,但在硬设置上执行更高的AP。我们指出,PSDDN的检测很好地覆盖了许多人脸,但并没有将其视为好的人脸(图中的黄色人脸)。3:第一列),只是因为他们的低IoU与注释的地面真相。表5:TRANCOS数据集的结果。我们相信这显示了未来改进的潜力。TRANCOS我们在TRANCOS数据集上评估PSDDN以测试其通用性,尽管它被提出用于人员检测和计数。网格平均绝对误差(GAME)用于评估计数性能。我们请读者参考[20,10],了解具有不同L水平的GAME(L)的定义。对于特定的L,GAME(L)使用4L非重叠区域的网格细分图像,并且误差被计算为这些区域中的每个区域中的平均绝对误差的总和。当L = 0时,GAME等价于MAE度量。我们在表5中给出了我们的PSDDN的结果,其中我们获得GAME 0、GAME 1、GAME 2和GAME 3的4.79、5.43、6.68和8.40。GAME3,分别。将我们的方法与最先进的方法进行比较,PSDDN在GAME 1,GAME 2和GAME 3上优于最好的基于回归的方法[20],并且在GAME 0上具有竞争力。不出所料,GAME理论被设计成惩罚那些预测,具有良好的MAE,但对象的定位错误。我们的方法产生良好的效果,无论是整体车辆计数,ING和本地车辆定位/检测。PSDDN检测的AP结果为0.669,r=1。5. 结论在本文中,我们提出了一个点监督的深度检测网络,用于人群中的人员检测和计数。伪地面实况边界框首先从头部点注释初始化,并在训练期间迭代更新。边界框回归以将每个预测框与局部带区域内的地面实况框进行比较的方式进行。最后提出了一种课程学习策略来应对训练集密度的变化。在几个标准基准上进行了深入的实验,以显示PSDDN在人员检测和人群计数方面的效率和有效性。今后的工作重点将是进一步减少这项任务中的监督。致 谢 。 本 工 作 得 到 了 国 家 重 点 研 究 发 展 计 划(2017YFB0802300)、国家自然科学基金(61828602和61773270)的资助。6477引用[1] Yancheng Bai , Yongqiang Zhang , Mingli Ding , andBernard Ghanem.用生成式对抗网络在野外寻找微小的面孔。在CVPR,2018年。2[2] Amy Bearman,Olga Russakovsky,Vittorio Ferrari和LiFei-Fei。重点是什么在ECCV,2016年。3[3] YoshuaBengio , Je´ ro meLouradour, RonanCollobert ,andJa-son Weston.课程学习。InICML,2009. 二、五[4] 史蒂夫·布兰森,皮埃特罗·佩罗纳,和塞尔日·贝隆吉。弱注释的强监督:可变形零件模型的交互式训练见ICCV,2011年。3[5] 加布里埃尔J布罗斯托和罗伯托Cipolla。人群中独立运动的无监督贝叶斯检测。CVPR,2006。2[6] Antoni B Chan , Zhang-Sheng John Liang , and NunoVas- concelos.隐私保护人群监测:没有人模型或跟踪的情况下计算人数。CVPR,2008。二、四[7] 安东尼B陈和努诺Vasconcelos。人群计数的贝叶斯泊松回归。ICCV,2009年。2[8] 罗斯·格希克。快速R-CNN。在ICCV,2015年。三、五[9] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语义分割。CVPR,2014。三、四[10] Rica rdoGuerrero-Go'mez-Olmedo,BeatrizTorre-Jim' nez,RobertoLo' pez-Sastre , SaturninoMaldonado-Basc' n 和Daniel Onoro-Rubio 。 重 叠 的 车 辆 数 量 。 在 IberianConference on Pattern Recognition and Image Analysis,2015中。二五六八[11] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年。三、四[12] Peiyun Hu和Deva Ramanan寻找小脸在CVPR,2017年。二、三[13] Haroon Idrees、Imran Saleemi、Cody Seibert和MubarakShah。密集人群图像中的多源多尺度计数。CVPR,2013。一、二、五[14] Haroon Idrees 、 Muhmmad Tayyab 、 Kishan Athrey 、Dong Zhang 、 Somaya Al-Maadeed 、 Nasir Rajpoot 和Mubarak Shah。在密集人群中用于计数、密度图估计和定位的成分损失。在ECCV,2018。一、二、三、七、八[15] Huaizu Jiang和Erik Learned-Miller。用更快的r-cnn进行人脸检测。在2017年的自动人脸手势识别(FG)国际会议上。8[16] 山姆·约翰逊和马克·埃弗林汉姆用于人体姿态估计的聚类姿态和非线性外观模型。2010. 3[17] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。NIPS,2012年。1[18] Issam H Laradji 、 Negar Rostamzadeh 、 Pedro OPinheiro 、 David Vazquez 和 Mark Schmidt 。 Blob 在 哪里:点监督的定位计数。在ECCV,2018。一、二、三、七、八6478[19] Victor Lempitsky和Andrew Zisserman。学习计算图像中的物体。在NIPS,2010年。8[20] 李玉红,张晓凡,陈德明。Csrnet:用于理解高度拥挤场景的扩展卷积神经网络。在CVPR,2018年。一、六、七、八[21] Shengcai Liao,Yang Hu,Xiangyu Zhu,and Stan Z Li.通过局部最大发生表示和度量学习进行个体再识别。CVPR,2015。1[22] Jiang Liu,Chenqiang
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功