没有合适的资源?快使用搜索试试~ 我知道了~
1221推动无约束人群计数的前沿:新数据集和基准方法维什瓦纳特A.Sindagi Rajeev Yasarla Vishal M.电子与计算机工程系,约翰霍普金斯大学,3400 N。Charles St,Baltimore,MD 21218,美国{vishwanathsindagi,rajeevyasarla,vpatel36}@ jhu.edu摘要在这项工作中,我们提出了一种新的人群计数网络,通过残差估计逐步生成人群密度图。所提出的方法使用VGG16作为骨干网络,并采用由最终层生成的密度图作为粗略预测,以使用残差学习的渐进方式细化和此外,残差学习由基于不确定性的置信度加权机制引导,该机制仅允许高置信度残差在细化路径中流动。在最近的复杂数据集上对所提出的置信度引导的深度残差计数网络(CG-DRCN)进行了评估,并在错误方面取得了显着的改善。此外,我们引入了一个新的大规模非约束人群计数数据集(JHU-CROWD),在图像数量方面,比最近的人群计数数据集大2.8倍。它包含4,250个图像有111万条注释与现有数据集相比,所提出的数据集是在各种不同的场景和环境条件下收集的。具体而言,除了许多干扰物图像之外,该数据集还包括具有基于天气的退化和照明变化的若干图像,使其成为非常具有挑战性的数据集。此外,该数据集包含图像级和头部级的丰富注释。最近的几种方法进行了评估和比较,在这个数据集。1. 介绍近年来,随着人口的增长和城市化进程的加快,人群聚集现象日益突出.因此,基于计算机视觉的人群分析和监视[5,10,18,19,27,28,34,37,38,44,46,57,59,61,63]已收到越来越多的兴趣。此外,为群体分析目的而开发的算法在其他领域如农业,文化监测[26],微观生物学[16],城市规划和环境调查[8,57]。当前最先进的计数网络在包含许多挑战的各种数据集上实现了令人印象深刻的错误率。它们的成功大致可归因于两个主要因素:(i)设计新的卷积神经网络(CNN)架构,专门用于提高计数性能[4,29,33,36,38,43,50,59],以及(ii)开发和发布具有挑战性的数据集[10,11,59,61]。在本文中,我们考虑上述两个因素,试图进一步提高人群计数性能。专门为计数任务设计的新型网络使计数误差得到了飞跃性的改善。架构已经从简单的[59](由一组卷积和全连接层组成)发展到最近的复杂架构,如SA-Net[4](由一组规模聚合模块组成)通常,大多数现有的作品([2,4,4,29,33,38,43,44,47,50,59,61])通过强调解决人群图像中的大规模变化来设计他们的网络虽然这种针对规模变化开发鲁棒性的策略已经导致了显着的性能增益,但是利用其他属性(如[33,39,41])来进一步改进仍然很重要。在类似的尝试中,我们利用剩余学习机制来提高人群计数。具体而言,我们提出了一种基于VGG16网络的新颖设计[42],该网络采用残差学习来逐步生成质量更好的人群密度图。这种剩余学习的使用受到其在其他几个任务中的成功的启发,如超分辨率[13,15,15,21,49]。虽然这种技术可以提高性能,但重要的是要确保只使用高度自信的残差,以确保残差学习的有效性。为了解决这个问题,我们从基于不确定性的学习机制的成功中得到启发[7,14,65]。我们提出了一个基于不确定性的置信度加权模块,该模块在1222在剩余学习期间要关注的特征图。置信度权重确保只有高度置信的残差才能传播到输出,从而提高残差学习机制的有效性。除了新的网络设计,我们还确定了下一组需要人群计数研究界关注的挑战,并收集了在各种条件下收集的大规模数据集。例如UCF CROWD 50 [10]、WorldExpo[59]和ShanghaiTech [58]在每个图像的平均计数、图像多样性等方面逐渐增加了数据集的复杂性。虽然这些数据集已经使得计数任务能够快速进展,但是它们存在缺点,例如训练样本的数量有限、环境条件方面的多样性有限最近,Idreeset al. [11]提出了一个名为UCF-QNRF的新数据集,它解决了其中的一些然而,他们没有特别考虑一些挑战,如不利的环境条件,数据集偏差和有限的注释数据。为了解决这些问题,我们提出了一个新的大规模无约束数据集,共有4,250张图像(包含1,114,785个头部注释),这些图像是在各种条件下收集的。特别注意包括在各种基于天气的退化下捕获的此外,我们包括一组干扰图像,这些干扰图像与人群图像相似,但不包含任何人群。此外,该数据集还在图像级和头部级提供了更丰富的注释集。我们还对几个有代表性的计数网络进行了基准测试,提供了最先进性能的概述。以下是我们在本文中的主要贡献• 我们提出了一个人群计数网络,逐步采用残差机制来估计高质量的密度图。此外,一组基于不确定性的在网络中引入置信加权模块以提高剩余学习的效率。• 我们提出了一个新的大规模无约束人群计数数据集,具有最大数量的图像,直到约会该数据集特别包括在不利天气条件下收集的许多图像。Fur-bush,这是第一个提供了一组丰富的注释(如遮挡,模糊,图像级标签等)的计数数据集。2. 相关工作人群计数。传统的方法从单一的图像人群计数是基于手工制作的表示和不同的回归技术。Loy等人[25]将这些方法分为(1)基于检测的方法[17](2)基于回归的方法[6,10,35]和(3)基于密度估计的方法[16,31,55]。感兴趣的阅读-有关不同人群计数方法的更全面研究,请参阅[6,18CNN的最新进展已经被用于人群计数的任务,这些方法[1,3,29,30,38,38,44,50,52,54,59,61]已经证明了相对于传统方法的显著改进。最近的一项调查[45]根据网络属性和推理过程对这些方法进行了Walach等人[50]使用具有分层提升方法的CNN来学习图像补丁和计数之间的非线性函数。最近的工作[29,61]使用不同的架构解决了规模问题。Sam等人[38]提出了一种基于VGG 16的切换分类器,该分类器首先基于输入图像块的内容识别适当的最近,Sindagiet al.[44]提出将来自输入图像的全局和局部上下文并入密度估计网络。在另一种方法中,Caoet al. [4]提出了一种具有尺度聚合模块的编解码器网络。与这些强调专门解决头部尺寸大范围变化的方法相反,最近的方法([2],[39],[41],[24],[33])专注于问题的其他属性。例如,Babuet al. [2]提出了一种以数据集为条件逐步增加网络容量的机制。Shen等人[39]通过利用对抗性损失克服了模糊密度图的问题。在最近的方法中,Ranjanet al. [33]提出了一种双分支网络,以级联方式估计密度图。Shi等人[41]采用基于深度负相关的学习,以获得更普遍的特征。Liu等[24]通过提出一个涉及学习排名的新框架,使用未标记的数据进行计数。最近的方法,如[22,47,48,51,62],旨在将各种形式的相关信息,如注意力[22],语义先验[51],分割[62],反向注意力[48]和分层注意力[47]重新纳入网络。其他技术,如[12,23,40,60],使用不同的技术,如网格风格编码器解码器[12],明确考虑视角[40],上下文信息[23]和多视图[60],利用来自网络不同层的特征。人群数据集。随着时间的推移,人群计数数据集已经随着许多因素而发展,例如大小,人群密度,图像分辨率和多样性。UCSD [5]是早期提出用于计数的数据集之一,它包含2000个低分辨率视频帧,具有49,885个注释。 视频帧是从单个帧中收集的,并且通常包含低密度人群。Zhang等人[59]通过引入WorldExpo数据集解决了UCSD数据集的局限性,该数据集包含108个视频,共有3,980帧,属于5个不同的场景。虽然UCSD和WorldExpo数据集仅包含低/低-中等密度,但Idreeset al. [10]建议1223G3232UCEB3+R3可换股债券3UCEB4R4可换股债券4UCEB5R3R+R+YY'4你们CB5RUconv1-conv2conv3conv4conv5 conv6VGG16Y图1.所提出方法的概述。 使用残差对由较浅的层估计的地图。残差估计由卷积块CBi执行,并在UCEB i中进一步细化。请注意,来自主分支的conv特征首先使用1×1 conv减少到32维,然后将它们与R i一起转发到UCEBi。在残差贴图中,红色表示负值,青色表示正值。UCF CROWD 50数据集专门用于非常高密度的人群场景。然而,该数据集仅由50张图像组成,因此无法用于训练深度网络。Zhang等人[61]介绍了ShanghaiTech数据集,与早期的数据集相比,它在场景和密度水平方面具有更好的 数据集分为两部分:部分A(包含高密度人群图像)和部分B(包含低密度人群图像)。整个数据集包含1,198张图像和330,165个注释。最近,Idreeset al. [11]提出了一个新的大规模人群数据集,包含1,535个高密度图像,总共有125万个注释。Wang等人[53]介绍了一个包含不同场景的合成人群数据集。此外,他们提出了一种基于SSIM的CycleGAN[64],用于将在合成图像上训练的网络适应真实世界的图像。框架中,网络被训练为从输入的全息图像(X)估计密度图(Y)。用于训练网络的目标密度图(Y)由以下生成在数据集注释提供的头部位置放置归一化的2D高斯:Y(x)=x∈SN(x−xg,σ),其中,S是输入图像中所有头部位置(xg)的集合,σ是2D高斯核的尺度参数。由于该公式,密度图包含场景的每像素密度信息,当其被整合时,导致图像中的人的计数。建议的网络由VGG 16架构的conv 1-conv 5层(C1-C5)组成,作为骨干的一部分,其次是conv块(CB6)和步幅为2的最大池化层。 首先,输入图像(尺寸为W×H)通过C1−C5、CB6和最大池化层,以产生大小为W×H。 CB6由{conv512,32,1-relu-conv32,32,3-relu-conv 32,32,32,3-relu-conv 32, 32,3. 该方法在本节中,我们将介绍所提出的置信度引导的深度残差人群计数(CG-DRCN)的细节以及训练和推理细节。图1示出了所提出的网络的架构。3.1. 基础网络根据最近的方法[4,38,44],我们执行Relu-co nv32,1,3}1)。由于其低分辨率,(Y=6)可以是这是一个粗略的估计,学习这将是一个很大的挑战。由于网络最深层的大接收场,因此可以在图像中合并全局上下文3.2. 残差学习虽然Y2006提供了图像中人数的良好估计,但密度图缺乏几个局部描述,1convN,N,k表示conv层(具有Ni个输入通道,No个输出通道我O基于密度估计框架的计数在此通道中,k×k滤波器大小),relu表示ReLU激活UCEBiCBiU里是i级不确定性指导残差估计块第i层的Conv块,用于估计残差Ri2倍上采样水平i的精确残差第i层预测密度图1224654363(a)(b)(c)(d)(e)图2. 由所提出的网络的不同层估计的密度图。(a)Y(b)Y(c)Y(d)Y(e)Y(地面实况)。可以观察到深层的输出(Y)看起来非常粗糙,并且使用学习到的残差以渐进的方式进行细化通过比较块CB5、CB4、CB3来获得YB5、YB4、YB3的相对值。请注意,密度图中的细节和总数当我们从Y移动到E时,到Y。543如图所示的尾巴。第2段(a)分段。这是因为较深的层学习捕捉抽象概念,往往会丢失图像中的低层次细节另一方面,与较深的对应层相比,较浅的层具有相对更详细的局部信息[32]。基于这一观察,我们建议通过在残差学习框架中采用较浅的层来细化较粗的密度图。这种细化机制部分受到超分辨率[15,21,49]的几项领先工作的启发,这些工作结合了残差学习来学习生成高质量超分辨率图像所需的更精细细节具体来说,来自C5的特征通过conv-block(CB5)转发以生成- 残差图R5,其然后被添加到Y的适当上采样版本6以产生密度图Y5,尺寸W×H,即,地图在最后为此,这些卷积块使用来自较浅卷积层C5、C4、C3的特征映射。由于这些卷积层主要是为了估计粗密度图而训练的,因此它们的特征在人群存在的区域中具有高响应,因此它们可能不一定产生有效的残差。为了克服这个问题,我们提出了门的残差是无效的受CNN中的不确定性估计的启发[7,14,56,65],我们的目标是对CB5,CB4,CB3估计的残差的逐像素任意不确定性进行建模。也就是说,我们预测残差的逐像素置信度(不确定性的倒数),然后在传递到后续输出之前将其用于门控残差这可以确保只有高度置信的残差才能传播到输出。1616Y=R5+up(Y=6)。(一)在总体架构方面,我们引入了一组UCEB,如图所示。1.一、每一个剩余的分支,这里,up()表示经由双线性插值以2倍的因子进行上采样。通过强制CB5学习残差映射,网络专注于局部错误的产生,从更深层开始,从而更好地学习细化较粗糙密度图所需的偏移CB5由{conv512,32,1-relu-conv32,32,3-relu-conv32,1,3}1定义。进一步重复上述细化,以分别使用来自较浅层C4和C3的特征图递归地生成更精细的密度图Y*4和Y*3具体来说,C4和C3的输出通过CB4、CB3来学习残差图R4和R3,然后将残差图R 4和R3添加到残差图的适当上采样版本。较粗略地映射Y105和Y104以分别产生Y104和Y103,这个命令。CB4由{conv512,32,1-relu-conv32,32,3-relu-conv32,32,32,3-relu-conv 32, 32,relu-conv32,1,3}1. CB3由{conv256,32,1-relu-1}定义。一个这样的街区。UCEB i将来自主分支的残余R i和降维特征作为输入,将它们连接起来,并将其转发通过一组conv层({conv 33,32,1-relu-conv 32,16,3-relu-conv 16,16,3-relu-conv16,1,1}),并产生置信图CMi然后将其与输入逐元素相乘以形成细化的残差图:Ri=RiCMi。这里⊙表示逐元素乘法。为了学习这些置信图,损失函数用于训练网络的Lf定义如下,Lf=Ld−λc Lc,(2)其中,λc是正则化常数,Ld是使密度图预测误差最小化的逐像素回归损失,并且被定义为:conv32,32,3-relu-conv32,1,3}1. 具体而言,Y=4 Y=3是ob-Ld=Σ<$(CMi<$Yi)−(CMi <$Y<$i)<$2,(3)得到了Y_(14)=R4+up(Y_(15)),Y_(13)=R3+up(Y_(14)).3.3. 置信度引导的残差学习为了提高上述剩余学习机制的有效性,我们提出了一个不确定性引导置信度估计块(UCEB)来指导重新学习。61225我i∈{3, 4, 5, 6}其中,Yi是预测密度图,i表示从其获取预测密度图的卷积层的指数x,Yi是对应的目标。Lc是信心引导损失,定义为,完善过程。 conv块CB5、CB4、CB3的任务是捕捉残余误差,Lc=ΣΣHΣWlog(CMj,k),(4)较粗糙的密度映射可产生高质量的密度i∈{3, 4, 5, 6}j=1k =11226我其中,W×H是置信图CMi的维度。可以从Eq.(2)损失Lf由Ld和Lc两部分组成。第一项最小化欧几里得距离是-在预测和目标特征之间,而Lc通过使置信度得分CM i更接近1来最大化置信度得分CMi。图2显示了输出密度图(Y=6、Y=5、Y=4、Y=3)由所提出的网络为样本人群图像生成。可以观察到,密度图在精细细节和计数值方面逐渐改善。3.4. 训练和推理细节训练数据集通过从每个训练图像中的多个随机位置裁剪补丁来获得。裁剪后的斑块大小为224×224。我们随机对训练集的10%进行子采样(在裁剪之前),并将其保留下来用于验证训练模型。我们用亚当计划-timizer来训练网络。我们使用0.00001的学习率和0.9的动量。根据推论,密度图Y=3被认为是最终输出。计数性能使用标准误差度量来衡量:平均绝对误差(MAE)均方误差(MSE)。 这些指标定义为如下所示:MAE=1N |MSE =|and MSE =需要人群计数社区关注的挑战。在下文中,我们描述了现有数据集的缺点,并讨论了我们克服这些缺点的方法:(i) 训练样本数量有限:通常,人群计数数据集可用于训练和测试的图像数量有限。例如,上海科技数据集[61]只有1,198张图像,这种低数量的图像导致训练样本的多样性较低。由于这个问题,在这个数据集上训练的网络将具有降低的泛化能力。虽然像Mall [6],WorldExpo最近,Idreeset al.[11]通过引入高质量数据集(UCF-QNRF)解决了这个问题,该数据集具有在各种条件和场景下从各种地理位置收集的图像。虽然它有大量的多样化场景,但从训练深度神经网络的角度来看,样本数量仍然有限。为了解决这个问题,我们收集了一个新的大规模联合国-.Ni=1i1NNi=1|2,其中N是数字|2 respectively, where N is thenumber约束数据集,共有4,250张图像,在各种条件下选择如此大量对于测试样本,Yi是地面真值计数,Y′是对应于第i个的估计计数我sample.导致在计数方面增加的多样性背景区域、场景等。相比于现有4.JHU-CROWD:无约束人群计数数据集在本节中,我们首先激发了对新人群计数数据集的需求,然后详细描述了收集数据集时的各种因素和条件。4.1. 动机和数据集详细信息如前所述,现有的数据集(如如UCF CROWD 50[10]、世博会最近的几种方法通过提出不同的方法来具体解决规模的巨大变化,例如多列网络[61],结合全球和本地上下文[44],规模聚合网络[4]等。这些方法在解决现有数据集中的问题方面很大程度上是成功的,迫切需要确定新的数据集。表1.在不利条件下收集的图像总结降级类型雨雪雾/霾总Num.个图像Num.的注释15132,83219032,65917537,070516102,561数据集。这些图像是从互联网上的几个来源收集的,使用不同的关键词,如人群,人群+马拉松,人群+步行,人群+印度等。(ii) 没有不利条件:人群计数的典型应用是户外场景中的视频监控,这些场景涉及基于天气的定期降级,如雾霾,雪,雨等。在这种条件下部署的网络必须达到令人满意的性能。为了克服这个问题,在我们的数据集收集工作期间特别注意包括在各种基于天气的退化(诸如雨、霾、雪等)下捕获的图像。(如图所示3(b-d))。表1总结了在不利条件下收集的图像。(iii) 数据集偏差:现有的数据集专注于只收集具有人群的图像,因此在这样的数据集上训练的深度网络由于这个错误,即使在不包含人群的场景中,网络也会错误地预测人群。为了解决这个问题,我们包括一组干扰图像,类似于人群图像,但不包含任何人群。这些图像可以使网络避免数据集中的学习偏差。数据集中的干扰项图像总数为100。图3(e)示出了样本分布器图像。1227(a)(b)(c)(d)(e)图3.JHU-CROWD数据集中图像的代表性样本(a)整体(b)雨(c)雪(d)霾(e)干扰物。表2.比较不同的数据集。P:头部位置的逐点注释,O:每个股骨头的闭塞水平,B:每个头部的模糊水平,S:每个头的尺寸指示器,I:图像级别标签。数据集Num of图像Num of注释Avg计数Max计数Avg决议天气降级干扰项类型的注释加州大学圣地亚哥分校[5]200049,8852546158×238✗✗P购物中心[6]200062,325-53320×240✗✗P[10]第10话5063,974127945432101×2888✗✗P[ 59 ]第十九话3980199,92350253576×720✗✗P上海科技[61]1198330,1652753139598×868✗✗PUCF-QNRF [1]15351,251,642815128652013×2902✗✗PJHU-CROWD(拟议)42501,114,78526272861450×900✓✓P,O,B,S,I(iv)有限注释: 典型地, 人群 计数数据集为图像中的每个头部/人提供逐点注释,即,每个图像具有头部中心的x、y位置的列表。虽然这些注释使网络能够学习计数任务,但缺少更多信息,例如遮挡水平、头部大小、模糊水平等。限制了网络的学习能力。例如,由于视角存在很大的变化,头部的大小对于确定精确的计数至关重要。这些缺失注释的原因之一是人群图像通常包含多个人,并且获得诸如尺寸的详细注释是高度劳动密集的为了实现更有效的学习,我们在图像级和头部级收集了更丰富的注释集头部水平注释包括头部的x、y位置,对应的遮挡级别、模糊级别和尺寸级别。Oc- clusion标签有三个级别:{未闭塞、部分闭塞、完全闭塞}。模糊级别有两个标签:{blur,no-blur}.由于获得尺寸是一个更困难的问题,每个头部都标有尺寸指示符。注释者为指示首先注释最大和最小的头部,用一个边界框的图像。然后,指示注释器为图像中的每个头部分配尺寸级别,使得该尺寸级别指示相对于最小和最大注释边界框的相对尺寸图像级注释包括标签(例如马拉松、商场、步行、体育场等)。)和拍摄图像时的天气条件。数据集中的点级注释总数为1,114,785。4.2. 总结和评价方案图3示出了JHU-CROWD数据集中各种类别下表2总结了拟定的JHU-CROWD数据集与现有数据集的比较。可以观察到,所提出的数据集在图像数量方面是迄今为止最大的,并且享有许多其他属性,例如更丰富的注释集、基于天气的退化和分散图像。有了这些属性,建议的数据集将作为一个很好的补充,其他数据集,如UCF-QNRF。该数据集被随机分为训练集和测试集,分别包含3,188和1,062张图像。1228(a)(b)(c)第(1)款图4.建议数据集对JHU-CROWD数据集样本图像的结果(a)输入图像(b)地面实况密度图(c)估计密度图。根据现有的工作,我们使用标准的MAE和MSE指标进行评估。此外,这些度量是针对以下图像子类别计算的:(一)低密度:包含0和50之间的计数的图像,(ii)中等密度:包含51和500之间的计数的图像,(iii)高密度:超过500人的图像,(iv)干扰因素:包含0计数的图像,(v)基于天气的退化,以及(vi)总体。这些子类别下的指标将有助于更深入地了解网络性能。5. 实验详细信息和结果在本节中,我们首先讨论消融研究的结果,该研究旨在分析拟议网络中随后讨论了最近人群计数算法的基准测试,包括在JHU-CROWD数据集上提出的基于残差的计数网络。最后,在上海理工大学的实验中,我们将所提出的方法与最近的方法进行了[61]和UCF-QNRF [11]数据集。5.1. 消融研究由于存在各种复杂性,如高密度人群,规模变化大,存在遮挡等,我们选择在JHU- CROWD数据集上进行消融研究。消融研究包括评价所提出方法的以下配置:㈠基础网 络 : VGG16 网 络 , 在 末 端 具 有 附 加 的 conv 块(CB6),(ii)基础网络+R:具有剩余的基础网络。如第3.2节(iii)基础网络+ R + UCEB(λc= 0):由置信度估计块指导的残差学习基础网络,如第3.3节所述。在这种配置中,我们的目标是通过将λc设置为0来测量由于添加置信度估计块而没有不确定性估计机制而导致的性能,(iv)基础网络+ R + UCEB(λc= 1):基础网络具有由置信度估计块引导的残差学习,如第3.3节所述。 这些实验的结果示于表3中。可以看出,由于将剩余学习纳入网络,性能有相当大的使用基于置信度的加权残差的结果在进一步的改善,从而突出了其意义,在提高基于不确定性的残差学习的功效。表3.JHU-CROWD数据集上的消融研究结果方法MaeMSE基础网络81.1248.5基础网络+R76.4218.6基础网络+ R + UCEB(λc= 0)74.6215.5基础网络+ R + UCEB(λc= 1)66.1195.55.2. JHU CROWD数据集在本节中,我们讨论了最近的基准测试,包括在新数据集上提出的方法基准和比较。我们在新提出的JHU-CROWD数据集上对最近的算法进行基准测试。具体来说,我们评估以下最近的作品:mulit-1229表4.JHU-CROWD数据集上的结果类别干扰项低介质高天气整体方法MaeMSEMaeMSEMaeMSEMaeMSEMaeMSEMaeMSEMCNN [61]103.8238.537.792.584.1185.2499.6795.5128.2288.3109.3291.0CMTL [43]135.8263.847.0106.082.4198.3407.8660.2117.8260.1102.5262.6切换CNN [38]100.5235.532.180.576.1173.1395.1640.1105.1245.299.1255.1SA-Net(基于图像)[4]71.9167.730.076.665.4121.5516.3762.799.4234.998.0260.3CSR-Net [20]44.3102.415.839.948.477.7463.5746.196.5284.678.4242.7CG-DRCN(拟议)43.497.815.738.944.073.2346.2569.580.9227.3166.1195.5表5.ShanghaiTech数据集上的结果[61]。a部b部方法MaeMSEMaeMSE[43]第四十三话101.3152.420.031.1[38]第三十八话90.4135.021.633.4CP-CNN [44]73.6106.420.130.1IG-CNN [2]72.5118.213.621.1Liu等[24日]73.6112.013.721.4[41]第四十一话73.5112.318.726.0CSRNet [20]68.2115.010.616.0IC-CNN [33]69.8117.310.716.0SA-Net(基于图像)[4]88.1134.3--SA-Net(基于补丁)[4]67.0104.58.413.6ACSCP [39]75.7102.717.227.4Jian等人[12个]64.2109.18.212.8CG-DRCN(拟议)64.098.48.514.4表6.关于UCF-QNRF双链体的结果[11]。方法MaeMSEIdrees等人[10个国家]315.0508.0Zhang等人[59个]277.0426.0CMTL等。[四十三]252.0514.0[38]第三十八话228.0445.0Idrees等人[第十一届]132.0191.0Jian等人[12个]113.0188.0CG-DRCN(拟议)112.2176.3列网络(MCNN)[61],级联多任务学习人群计数(CMTL)[43],Switching-CNN [38],CSR-Net [20]和SANet [4]2。此外,我们还评估了所提出的方法(CG-DRCN),并证明其有效性比其他方法。所有网络都使用整个训练集进行训练,并在六个不同类别下进行评估。为了进行公平的比较,使用了第3.4节中描述的相同训练策略(就裁剪补丁而言)。表4示出了针对测试集中的图像的各种子类别的上述实验的结果。可以观察到,所提出的方法总体上优于其他方法。此外,还可以注意到,总体性能并不一定指示所建议的性能。2我们使用了[9]方法在所有子类别中表现良好。因此,有必要对每个子类别的方法进行比较.5.3. 与其他数据集的ShanghaiTech:建议的网络使用与第节三 点 四 分 。 表 5 显 示 了 建 议 方 法 与 几 种 最 近 方 法([38],[44],[2],[41],[24],[20],[33],[4],[39]和[12])的比较结果。可以观察到,所提出的方法在数据集的A部分上优于所有现有方法,同时在B部分上实现相当的性能。UCF-QNRF:UCF-QNRF [11]数据集的结果与最近的方法([10],[61],[43])的比较见表6。将所提出的方法与不同的方法进行比较:[10]、[61]、[43]、[38]、[11]和[12]。可以观察到,所提出的方法优于其他方法的相当大的余量。6. 结论在本文中,我们提出了一种新的人群计数网络,采用残差学习机制,在一个渐进的方式估计粗到细的密度图。通过引入一种基于不确定性的置信度加权机制,进一步提高了残差学习的有效性,该机制旨在使网络仅将高置信度残差传播到输出。在最近的数据集上的实验证明了该方法的有效性.此外,我们还介绍了一 个 新 的 大 规 模 无 约 束 人 群 计 数 数 据 集 ( JHU-CROWD),由4,250张图像和111万个标记组成。新的数据集是在各种条件下收集的,包括具有基于天气的退化和其他干扰因素的图像。此外,数据集提供了丰富的注释集,例如头部位置、模糊级别、遮挡级别、尺寸级别和其他图像级别标签。确认这项工作得到了NSF资助1910141的支持。1230引用[1] Carlos Arteta,Victor Lempitsky,and Andrew Zisserman.在野外数数。欧洲计算机视觉会议,第483-498页。施普林格,2016年。2[2] Deepak Babu Sam、Neeraj N Sajjan、R Venkatesh Babu和穆昆丹·斯里尼瓦桑分裂和成长:随着cnn不断增长,捕捉人群图像的巨大多样性。在IEEE计算机视觉和模式识别会议论文集,第3618-3626页一、二、八[3] Lokesh布米纳坦SrinivasSSKruthiventi,以及R Venkatesh Babu。Crowdnet:用于密集人群计数的深度卷积网络。2016年ACM多媒体会议论文集,第640ACM,2016。2[4] Xinkun Cao,Zhipeng Wang,Yanyun Zhao,and Fei Su.规模聚合网络,用于准确和高效的人群计数。欧洲计算机视觉会议,第757-773页。Springer,2018. 一二三五八[5] Antoni B Chan,Zhang-Sheng John Liang,and Nuno Vas-concelos。隐私保护人群监测:没有人模型或跟踪的情况下计算人数。在计算机视觉和模式识别,2008年。CVPR 2008。 IEEE会议,第1-7页。IEEE,2008年。一、二、六[6] 陈克、陈昌来、龚少刚、席东生-埃用于局部人群计数的特征挖掘。在2012年的欧洲计算机视觉会议上。二、五、六[7] Terrance DeVries和Graham W Taylor。 学习配置神经网络中的分布外检测的证据arXiv预印本arXiv:1802.04865,2018。1、4[8] 杰弗里·弗伦奇,马克·费舍尔,迈克尔·麦凯维奇和科比·尼德尔。卷积神经网络用于渔业监控视频中的鱼类计数。在英国机械视觉研讨会上。BMVA Press,2015.1[9] Junyu Gao,Wei Lin,Bin Zhao,Dong Wang,ChenyuGao,和 俊 文 。 C++3 框 架 : 一 个 用 于 人 群 计 数 的 开 源pytorcharXiv预印本arXiv:1907.02724,2019。8[10] Haroon Idrees,Imran Saleemi,Cody Seibert和MubarakShah. 密 集 人 群 图 像 中 的 多 源 多 尺 度 计 数 。InProceedings of the IEEE Conference计算机视觉和模式识别,第2547- 2554页,2013年。一、二、五、六、八[11] Haroon Idrees , Muhmmad Tayyab , Kishan Athrey ,DongZhang , Somaya Al-Maadeed , Nasir Rajpoot , andMubarak Shah. 密集人群中计数、密度图估计和定位的成分损失欧洲计算机视觉会议,第544Springer,2018.一,二,三,五六七八[12] Xiaolong Jiang , Zehao Xiao , Baochang Zhang ,Xiantong Zhen , Xianbin Cao , David Doermann , andLing Shao.利用格形编码器-解码器网络进行人群计数和密度估计。arXiv预印本arXiv:1903.00853,2019。二、八[13] Wei Ke , Jie Chen , Jiabin Jiao , Guoying Zhao , andQixiang烨Srn:用于野外对象对称性检测的侧输出残差网络。arXiv预印本arXiv:1703.02243,2017。1[14] 亚历克斯·肯德尔和亚林·加尔我们需要贝叶斯深度学习在计算机视觉中的应用神经信息处理系统的进展,第5574-5584页,2017年1、4[15] Jiwon Kim,Jung Kwon Lee,and Kyoung Mu Lee. 准确使用非常深的卷积网络实现图像超分辨率。在IEEE计算机视觉和模式识别集,第16461、4[16] Victor Lempitsky和Andrew Zisserman。学习数数图像中的物体。神经信息处理系统进展,第1324-1332页,2010年。一、二[17] Min Li,Zhaoxiang Zhang,Kaiqi Huang,and Tieniu Tan.基于mid的前景分割和头肩检测估计拥挤场景中的人数。模式识别,2008年。ICPR 2008年。第19届国际会议,第1-4页。IEEE,2008年。2[18] 李腾,常欢,王梦,倪冰冰,日昌洪,颜水城。拥挤场景分析:一份调查报告。IEEETransactionsonCircuitsandSystemsforVideoTechnology,25(3):367-386,2015。一、二[19] 李伟欣, Vijay Mahadevan, 还有努诺·瓦斯康塞洛斯拥 挤 场 景 中 的 异 常 检 测 与 定 位IEEE transactions onpattern analysis and machine intelligence,36(1):18-32,2014。1[20] 李玉红,张晓凡,陈德明。 中国新闻网:Di-卷积神经网络,用于理解高度拥挤的场景。在IEEE计算机视觉和模式识别会议论文集,第1091-1100页8[21] Bee Lim、Sanghyun Son、Heewon Kim、Seungjun Nah和李京武单图像超分辨率的增强深度残差网络。在IEEE计算机视觉和模式识别会议(CVPR)研讨会上,第1卷,第4页,2017年。1、4[22] 刘宁,龙永超,邹长青,牛群,李Pan和Hefeng Wu。Adcrowdnet:用于人群理解的注意力 注 入 可 变 形 卷 积 网 络 。 arXiv 预 印 本 arXiv :1811.11968,2018。2[23] Weizhe Liu,Mathieu Salzmann,and Pascal Fua. 背景-意识到人群计数。在IEEE计算机视觉和模式识别会议论文集,第5099-5108页2[24] Xialei Liu,Joost van de Weijer,and Andrew D. Bagdanov通过学习排名,利用未标记的数据进行人群计数。在IEEE计算机视觉和模式识别会议(CVPR),2018年6月。二、八[25] Chen Change Loy,Ke Chen,Shaogang Gong和Tao Xi-埃人群计数和分析:方法和评价。在人群的建模,模拟和视觉分析中,第347-382页。Springer,2013. 2[26] 卢昊,曹志国,杨晓,庄博涵,春-花神。Tasselnet:通过
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功