没有合适的资源?快使用搜索试试~ 我知道了~
1130用于人群计数的自适应密度图生成Jia Wan和Antoni Chan香港城市大学计算机科学系网址:jiawan1998@gmail.com,abchan@cityu.edu.hk摘要密度估计密度生成人群计数是计算机视觉中的一个重要课题由于其在监视系统中的实际使用。人群计数算法的典型设计分为两个步骤。首先,从地面实况点图生成人群图像的地面实况密度图(密度图生成),例如,通过与高斯核卷积。其次,深度学习模型被设计为从输入图像预测大多数研究工作集中在密度图估计问题上,而密度图生成问题还没有得到充分的探讨。特别地,密度图可以被认为是用于训练人群计数网络的中间表示。在端到端训练的意义上,用于生成密度图的手工方法为了解决这个问题,我们首先展示了不同密度图的影响,并且可以通过使用与计数器联合训练的学习细化网络来细化现有密度图来获得更好的地面实况密度图。然后,我们提出了一个自适应密度图生成器,它把注释点图作为输入,并学习一个密度图表示的计数器。计数器和生成器在端到端框架内联合训练在流行计数数据集上的实验结果证实了所提出的可学习密度图表示的有效性。1. 介绍人群计数是了解拥挤场景的重要任务,它可以用来防止拥挤引起的事故,并估计在车站的人群流量给定图像作为输入,人群计数的目的是估计图像中的人数人群计数是一项困难的任务,因为图像中人的规模变化很大,并且拥挤的人群经常包含人之间的部分遮挡。传统的方法之一是检测图像中的每个人,这在高度拥挤的场景中效果不佳输入图像密度图点图图1.通过人群密度图计数:从人的地面实况点注释生成地面实况人群密度图。给定输入图像,训练模型以预测密度图,将其求和以获得预测计数。当前的方法将密度图生成视为基于手工设计的固定中间表示在本文中,我们提出了联合学习的密度估计和密度发生器。[17、39]。另一种方法是基于手工制作的特征直接估计最终计数,这只能应用于简单的场景[4,6]。当前最先进的方法使用人群密度图来实现优异的计数性能[8,7,36]。密度图是一种中间表示,其中密度图中任何区域的总和指示该区域中的人数。首先,密度图从点注释生成,其中每个点指示人的位置。其次,给定输入图像,设计算法来预测密度图(见图1),然后将其求和以获得计数。在本文中,我们将这两个步骤分别称为密度图生成和密度图估计.大多数工作集中在密度图估计和忽略密度图生成。已经提出了许多不同的深度网络来改进密度图估计,例如,使用不同的核大小[42]或图像金字塔[14]来处理尺度变化,或者使用上下文[33]或先验信息[23]来处理遮挡。虽然密度图估计是很好的研究,密度图的生成往往被忽视,并使用手工设计,没有充分的解释和分析。获得密度图的最简单方法是将注释点图与具有固定宽度的高斯卷积[18],即,在每个点上放置高斯分布。其他作品根据场景视角缩放高斯带宽[41],或自适应地使用局部拥塞水平(或到最近邻居的距离)[42]。[41]使用人形内核,由两个高斯组成,但由于人的身体经常被遮挡,1131in crowd人群images图片.在实践中,用于生成密度图的方法对于人群计数至关重要不正确地生成密度图可能会极大地损害计数性能-用于生成密度图的内核带宽或内核形状的选择通常取决于数据集,并且这种选择通常不适用于不同的在深度学习时代,我们可以将电流密度图视为手工制作的中间表示,它被用作训练深度网络进行计数的目标。从端到端训练的角度来看,这些手工设计的中间表示对于特定的网络架构和特定的数据集可能不是最佳的在本文中,我们向可学习的密度图表示迈出了第一步我们提出了两种方法- s:1)密度图细化,其被训练以改进现有的传统密度图; 2)自适应密度图生成,其使用注释点图作为输入来学习新的密度图表示。这两种方法都与密度图估计器联合训练,与使用传统的密度图相比,具有更好的性能。本文的贡献有四个方面:1. 我们研究了密度图对生物学的影响-测试数据集,并通过实验证实,适当选择密度图是必不可少的计数。2. 为了改进手工生成的密度图,我们提出了改进传统密度图的方法,并获得了更好的性能,这证实了密度图的质量是可以提高的。3. 我们提出了一个自适应的密度图生成器,它需要的点阵图作为输入,并产生一个可学习的密度图表示。密度图生成器和密度图估计器(计数器)被联合训练。4. 在不改变计数器结构的情况下,我们在上海科技A、上海科技B和UCF-QNRF上实现了2. 相关工作人群计数算法可以分为两类:全局回归和密度估计。全局回归直接从图像中估计最终计数,而密度估计首先预测密度图,然后将其求和以获得最终计数。由于在密度估计中利用了更多的空间信息,其性能通常优于全局回归。传统的计数算法大多是基于检测和全局回归的。[19]使用头部和肩部检测进行计数,但这些基于检测的算法在人被高度遮挡时会失败。因此,提出了一种全局回归算法来估计人群数量.以图像作为输入,低-水平特征被提取,回归算法从该水平特征预测人数[5,4]。为了提高性能,在[12]中使用了多个特征。然而,由于人群图像中的尺度变化和遮挡,全局计数的性能受到限制。为了更好地利用人的空间信息,[18]提出了人群计数作为密度图估计问题,其中密度图是由人的“点”注释生成的中间表示为了处理尺度变化,[42]提出了一种多列卷积网络(MCNN),每列具有不同的内核大小。而不是提取多尺度特征,switch-CNN [29]为输入图像选择具有适当接收域的列。类似地,[1]提出了一种树结构的CNN来处理尺度变化。SANet [3]被提出用于在所有卷积层中提取多尺度特征。除了网络结构,图像金字塔在[14]中用于克服尺度变化。基于细化的方法采用初始密度图估计并迭代地对其进行细化以提高其准确性。[26]提出了一种两阶段方法,其中第二阶段从第一阶段预测的低分辨率密度图估计高分辨率密度图,而[28]提出了一种反馈机制来改进预测。除了基于图像的细化之外,在[22]中提出了一种区域细化算法。 与精炼有关-测试方法是基于集成的方法,例如[35],它使用CNN boosting算法,或者[31],它使用多个负相关回归量。最后,背景信息对于人群计数也是有用的;[33]提出了上下文金字塔CNN(CP-CNN),而[40]使用时间上下文。为了利用未标记的数据,[23]提出了基于排名的算法。为了同时解决全局计数、密度估计和局部化,在[13]中提出了组合损失。其他工作也表明,人群密度图对于人群中的人员检测和跟踪也很有用[24,15,27]。相关工作的进一步调查见[34]。虽然密度图估计已经研究了很多年,但密度图生成在很大程度上被忽视了。当前方法将地面实况点注释图与具有固定带宽[18]、基于场景视角的可变带宽[41]或基于拥挤度的自适应带宽[42]的高斯核卷积[13]将多个损失函数组合在一起,每个损失函数使用具有不同固定带宽的地面真实密度图然而,这些带宽参数是手动选择的。与这些手工制作的方法相比,我们提出了一个可学习的密度图生成器,它与计数算法联合训练。1132计数漏失精炼损失算法1使用密度图细化进行1:输入:图像和密度图对的集合{(X,Y)}N.我我i =1输入图像估计2:初始化计数器f和细化器g的参数。3:对于epoch ={1,. . . ,N e} do4: 对于i ={1,. . . ,N}做5:通过计数器估计密度图f(Xi)6:通过精炼器产生精炼的地面实况g(Yi)7:使用(3)中的计数损失来更新计数器f密度图细化密度图图2.密度图细化框架。计数器是一个估计输入图像的密度图的再细化器是另一个网络,它将密度图作为输入,并产生更好的密度图作为训练计数器的基础事实计数器和精炼器都是联合训练的。3. 密度图细化传统的密度图Y是通过将地面实况点图D与高斯核进行卷积来生成的,在地面实况点图D中,具有人的每个位置被标记为1Y=Dkσ,(1)其中kσ是具有带宽σ的2D高斯核,并且k σ是2D卷积。这相当于在每个点注记上放置一个高斯来获得密度图ΣY(p)=N(p|p′,σ2I),(2){p′|D(p′)=1}其中p、p′是图像中的像素位置,并且N(p|µ,)是具有均值μ和协方差μ的多变量高斯分布。对于自适应内核,内核带宽根据拥挤度[42]或场景透视[41]随位置而变化然后,使用图像和相应的密度图作为基础事实来训练计数器。为了证实传统的密度图可以改进以产生更好的计数性能,我们首先提出了一个密度图细化框架,该框架联合细化密度图并从细化的密度图中训练计数器(见图2)。形式上,令(Xi,Yi)为第i个图像和传统密度图对。我们将f(Xi)表示为图像Xi的预测密度图,g(Yi)表示为Yi的细化密度图。计数器f和细化器g使用组合损失来联合训练,计数漏失x`L=f(Xi)−g(Yi)2+αg(Yi)−Yi2,(3)`i=1x细化损失其中N是训练对的数量。 中的第一项(3)训练计数器以预测细化的密度图,反之亦然,训练细化器以产生有利于计数器(3)中的第二项8:使用(3)中的细化损失来更新细化器g9:结束10:结束十一: 输出:一个计数器和一个精炼机。表1.(顶部)精炼机和(底部)发电机的结构C(K,S)是具有K个特征和核大小S的卷积层。P是将空间大小减半的平均池化。每个conv层后面都有一个ReLU,除了最后一层。子网络架构细化剂C(512,3)-C(512,3)-C(256,3)-C(128,3)-C(64,3)-C(1,3)Self-attention融合C(128,3)-C(32,3)-C(5,3)-SoftmaxC(128,3)-P-C(32,3)-P-C(8,3)-P-C(1,3)-PReLU将细化的密度图约束为接近原始密度图Yi,使得群体的全局计数和空间分布被保留。算法1中总结了联合训练。注意,精炼器仅需要用于训练,即,为了在推理时找到最佳中间表示表1示出了精炼机的结构。我们使用现有的方法,如MCNN [42],FCN-7 c [14],SFCN[37]和CSRNet [20],为网络计数。4. 自适应密度图生成第3节中提出的密度图细化器的一个缺点是它仍然依赖于手工制作的密度图作为输入。我们的实验表明,虽然细化可以提高精度,但它仍然高度依赖于所使用的原始密度图。因此,在本节中,我们提出了一个自适应密度图生成框架,它直接从地面实况点注释生成地面实况密度图使用这种方法,不需要传统的密度图,并且整个系统可以端到端地训练,而无需任何中间步骤。所提出的框架的架构如图所示。3 .第三章。密度图生成器以点图为输入,通过自注意融合网络自适应地生成基于图像中学习的密度图被用来监督计数器,并且生成器和计数器都被联合训练。计数器细化剂1133我i=1计数器自我注意模块输入图像密度估计点图密度图计数漏失高斯克耳讷LS融合模块发电损失模糊密度注意力地图最终计数图3.密度图生成框架。将输入的点图与不同的高斯核卷积,产生一组模糊的密度图。模糊的密度图使用自注意模块自适应地掩蔽,然后通过融合模块以产生最终的密度图。所生成的密度图用作用于训练密度图估计器(计数器)的基础事实4.1. 通过自我注意和融合生成给定点图作为输入,密度图的生成分为3个步骤:高斯模糊、自我注意和融合。首先,输入点图Di与具有不同带宽的k个高斯核卷积导致k个模糊密度图Bi={Bj}j的堆叠,Bj = Di k σ,(4)其中,M是由计数器预测的密度图,Mi是生成的密度图,并且1TM是M中的条目的总和,即来自M的计数。类似于细化框架,(7)中的第一项训练计数器以预测生成的密度图,同时还训练生成器以产生计数器可以很好地预测的密度图(7)中的第二项鼓励生成的密度图具有接近地面实况计数的计数。Ij其等效于对于每个滤波器通道具有不同高斯核的卷积层。其次,自注意模块使用模糊映射Bi作为输入,以有效地为每个区域选择最佳核大小。Ai=Fa(Bi),(5)其中Fa是一个小的卷积网络(见表1),Ai的每个通道是对应模糊密度图的注意力图。第三,基于注意力图自适应融合模糊密度图,Mi=Ff(Ai<$Bi),(6)其中,fx是逐像素乘法,Mi是用于监督计数器的最终学习密度图,Ff是融合网络(见表1)。4.2. 损失函数给定图像和对应的地面实况点图{(Xi,Di)}N的训练集,使用损失函数联合训练密度图生成器和计数器计数漏失x`在实践中,我们注意到,当在生成器的第一阶段中固定高斯k-内核时,密度图被很好地保留(参见第5.3.2节中的实验)。因此,我们只使用全局计数误差来约束生成的密度图。算法2总结了计数器和生成器的训练过程。生成器和点图仅用于训练计数器。在测试时,计数器根据输入图像预测密度图。5. 实验我们目前的实验使用我们提出的密度图细化和密度图生成器。5.1. 实验装置我 们 在 四 个 流 行 的 数 据 集 上 进 行 实 验 , 包 括ShanghaiTech(ShTech)A和B [42],WorldEx- po [41]和UCF-QNRF [13]。 ShanghaiTech A包含482张人群图像,人群数量从33到3139不等,ShanghaiTech B包含716张高分辨率图像,人群数量从9到578不等。世博会评估跨场景人群计数性能-L=Mi−Mi2+β(1TMi−1TDi)2`i=1x细化损失(七)由于训练图像和测试图像来自不同的有很多场景。UCF-QNRF是最具挑战性的数据集,包含1535个高分辨率图像,1134NN算法2使用密度图生成进行训练N表3.密度图生成(MAE)的实验结果σ是固定内核的带宽。1:输入:图像和点映射对的集合{(Xi,Di)}i=1。2:初始化计数器和细化器的参数。3:对于epoch ={1,. . . ,N e} do4: 对于i ={1,. . . ,N}做5:通过计数器估计密度图Mi。6:由生成器产生地面实况Mi7:使用(7)中的计数损失来更新计数器。8:{每隔N个时期更新生成器。}9:如果mod(epoch,Ng)= 0,则10:使用(7)更新发生器参数。11:如果结束12:结束13:结束十四: 输出:一个计数器和一个发生器。表2.密度图细化的实验结果,使用MAE进行评估 原始密度图使用计数器密度图ShTech AW/Ow/精炼ShTech BW/O w/精炼MCNN自适应103.396.717.918.0固定95.4102.317.317.3FCN自适应95.492.816.016.7固定90.789.918.815.2SFCN自适应73.170.59.79.0固定70.867.89.99.3CSRNet自适应66.464.210.69.2固定67.866.912.111.1人群。使用平均绝对误差(MAE)和均方根误差(RMSE)评估方法:计数器密度图ShTech AShTechB固定核(σ=16)95.418.7MCNN固定核(σ=4)自适应核96.017.9103.317.9发电机(我们的)93.517.7固定核(σ=16)90.718.8FCN固定核(σ=4)自适应核88.913.895.416.0发电机(我们的)87.113.9固定核(σ=16)70.89.9SFCN固定核(σ=4)自适应核70.810.673.19.7发电机(我们的)68.48.4固定核(σ=16)67.812.1CSRNet固定核(σ=4)自适应核70.19.566.410.6发电机(我们的)64.78.1用于训练计数器,并且可以使用密度图细化来改进这些结果使用两种类型的密度图:固定内核(带宽16)和自适应内核[20]。实验在ShTech A和B上进行。结果示于表2中。传统密度图的有效性取决于方法和数据集(参见表2中的例如,在ShTech A上,固定内核 更 适 合 MCNN 和 FCN , 但 自 适 应 内 核 更 适 合CSRNet,而所有大多数方法(除了MCNN)在ShTechB.查看使用细化(“w/”列)的结果 但是,MAE=1Σ。|,R M S E =1|,RMSE=1我Σy我与CSRNet相比,MCNN是有限的,这表明所提出的密度细化框架需要一个强大的基线计数器。强计数器其中,N是样本的数量,并且yi,yi是预测的和地面实况计数。我们的基准计数器包括CSRNet [20],SFCN [37],MCNN [42]和FCN [14]。他们的培训程序遵循原始文件:SGD用于训练CSRNet,学习率设置为5e-7; Adam优化器[16]用于以1 e-5的学习率训练SFCN; FCN和MCNN使用Adam以1 e-5的学习率训练。对于精化网络,使用Adam优化器进行训练,并且将学习速率设置为1 e-5。不同的输入密度图生成如下[20]。固定带宽设置为16,超参数α设置为1。对于生成网络,使用Adam优化器进行训练,学习率为1 e-7,β= 1。5.2. 正确的密度图的重要性我们首先表明,不同的密度图可能会产生不同的性能时,他们作为地面真理精确,因此不需要显著修改细化的密度图,从而保持原始密度图的精确度。这些结果表明,有空间,以改善手工设计的密度图。不幸的是,传统密度图的选择取决于数据集和计数网络,这需要手动调整。出于这个原因,我们提出了自适应密度图生成,学习直接从注释点图生成有效的密度图5.3. 密度图生成接下来,我们对我们提出的生成框架的有效性进行实验表3比较了使用传统密度图和我们生成的密度图时的计数性能。几乎所有的计数器训练与建议的生成框架实现更好的性能,1135固定固定局部空间损失局部空间损失这 两种 类 型的 密 度 图。 例 外情 况 是 ShTech B 上 的FCN,其中我们生成的密度图的性能与带宽固定的内核相似4.请注意,生成框架在较强的基线(CSRNet/SFCN)上比在较弱的基线(M-CNN/FCN)上工作得更好。一个可能的原因是,弱基线在训练发生器时引入更多噪声。我们在图4中可视化了两个典型图像的生成密度图。传统的密度图使用固定核函数过于平滑,而自适应核函数生成的密度图过于尖锐。所提出的生成框架的密度图可以适应人的分布,表4.使用不同的损失函数和固定/学习的初始模糊核,对Shanghai Tech A(MAE)的密度图生成器进行消融研究全球损失局部损失硬范数(a)固定初始核64.768.8112.8(b)学习初始核74.773.0101.6因此,对于训练全球损失全球损失的counter。我们还在图5中可视化了使用不同计数器训练的生成密度图之间的差异。具体来说,我们展示了CSRNet和其他网络生成的密度图之间的差异图-S. 由 于 CSRNet 的 感 受 野 大 于 FCN 和 MCNN , 因 此CSRNet生成的密度图比FCN/MCNN生成的密度图更分散(更平滑),如图2和3所示。5(a)和(b)段。SFCN和CSRNet具有相似的感受野大小,因此生成的密度图的平滑度也相似。由于SFCN利用空间CNN,其生 成 的 密 度 图 在 空 间 上 从 CSRNet 移 动 , 参 见 图 5(c)。可视化显示,该框架可以学习适应不同架构的密度图。固定自适应改进(我们的)生成(我们的)图4.使用传统方法(固定,自适应)和学习方法(改进,生成)的密度图(a)CSRNet− FCN(b)CSRNet− MCNN(c)CSRNet− SFCN图5.使用C-SRNet与其他计数器(FCN,MCNN,SFCN)训练生成的密度图的比较。为CSRNet和其他方法生成的密度图之间的差异图显示为2个示例。图6.(左)固定的初始内核,以及使用局部全球损失;(右)对应的密度图。5.3.1消融研究:功能损失我们对用于训练密度图生成器的损失函数的选择进行了消融研究。我们用局部空间损失代替(7)中的全局计数损失,其是图像块上的平均计数误差。代替计数损失,我们还考虑对生成的密度图进行硬归一化,以便其总和为地面真值计数。消融研究的结果如表4(a)所示5.3.2消融研究:初始模糊核在生成器的训练过程中,我们固定了用于生成模糊密度图集的初始在这个消融研究中,我们考虑使这些初始内核- s可学习。表4(b)给出了使用不同损失函数学习初始内核时的结果。用固定的初始核训练的计数器/发生器比用可学习的初始核训练的计数器/发生器具有更图6显示了固定和学习的初始内核。与初始高斯内核相比,可学习内核发生了显着变化。当使用空间损失时,学习的内核变成“加号”,当注释刚好在空间区域的边界之外时,其产生最小的泄漏。当使用全局损失时,内核扩展以填充整个卷积滤波器,这混淆了生成的密度图中的空间信息。5.3.3消融研究:自我注意力融合为了证实自我注意力模块(self-att)的有效性,我们将其与三种变体进行比较:1)不带注意模块的直接融合; 2)基于图像的注意(image-att),其使用输入图像来生成注意; 3)直接对模糊映射求和的朴素融合。1136表5.上海理工大学自我注意模块的消融研究A. MAE↓用作度量。自适应图像属性直接熔合原始融合MAE↓64.766.967.568.6如表5所示,自我注意模块比这三个变体更有效。直接融合忽略了人的空间分布,而image-att不能处理来自输入图像的额外噪声,例如干扰对象(树)和背景。我们还在图7中可视化了注意力地图和注意后的模糊地图。人的中心的密度来自小带宽图,而边界区域来自较大的带宽图。可视化表明,小带宽地图集中在人的位置,而大带宽地图关注的是人的边界。5.3.4消融研究:泛化能力为了评估学习的密度图的泛化能力,我们在上海科技A上进行了一项实验,使用为CSRNet训练的生成的密度图作为地面真实密度图来训练MCNN、FCN和S-FCN。结果如表6所示,其中结果表明,为一个估计器(CSR- Net)生成的密度图不能很好地推广到其他估计器(MCNN,FC- N,SFN),因为“用于CSRNet的生成器”的误差这表明生成的密度图匹配特定属性(例如,接收域大小、网络深度)来提高计数精度。在这种情况下,由于CSRNet是一个大型的复杂网络,CSRNet的密度图可能过于复杂,无法正确预测简单的网络(MCNN,FCN)密度图MCNNFCNSFCN固定核(σ=16)95.490.770.8固定核(σ=4)96.088.970.8自适应核103.395.473.1发电机(联合培训)93.587.168.4CSRNet的生成器97.689.073.2表6.实验结果(MAE)在上海科技A的泛化能力的生成密度图。5.4. 与最新技术水平的比较我们比较了我们提出的密度图细化和表7.实验结果表明,上海科技A.最大似然估计和均方误差被用来评价算法的性能。方法MAE↓MSE↓跨场景[41]181.8277.7MCNN [42]110.2173.2[25]第二十五话126.5173.5[32]第三十二话101.3152.4[29]第二十九话90.4135.0CP-CNN [33]73.6106.4ASACP [30]75.7102.7自上而下[28]97.5145.1L2R [23]73.6112.0[26]第二十六话72.5118.2IC-CNN [26]68.9117.3SANet(补丁)[3]67.0104.5SANet(图片)[3]88.1134.3SCNet [38]71.9117.9空间感知[22]69.396.4[14]第十四话80.6126.7CSRNet [20]68.2115.0我们的(改进)64.299.7我们这一代(Ourgeneration)64.797.1表8.实验结果表明,在上海理工大学B.方法MAE↓MSE↓跨场景[41]32.049.8MCNN [42]26.441.3[25]第二十五话23.7633.12[32]第三十二话20.031.1[29]第二十九话21.633.4CP-CNN [33]20.130.1DecideNet [21]20.7529.42ASACP [30]17.227.4自上而下[28]20.732.8L2R [23]14.423.8美国有线电视新闻网[1]13.621.1IC-CNN [26]10.716.0SANet [3]8.413.6空间感知[22]11.118.2[14]第十四话10.218.3[37]第三十七话8.914.3CSRNet [20]10.616.0我们的(改进)9.114.4我们这一代(Ourgeneration)8.113.6模型实验结果示于表7、8、9和10中。在ShanghaiTech A数据集上,与最先进的MAE相比,所提出的精化和生成框架都实现了更好的性能。然而,MSE稍微落后于空间感知[22],因为我们提出的方法是一个简单的单阶段估计,而[22]迭代地细化预测的密度图。 亲-基于上海科技A、上海科技B、UCF-QNRF和Word-Expo的最先进的生成框架。在这里,我们使用CSRNet[20]作为基线计数提出的细化/生成方法也优于基线模型CSRNet [20],这进一步证实了学习密度图表示的有效性。1137注意之前图像&密度图两个注意力地图密度地图密度图事后注意密度图的放大事后注意图7.注意力地图,注意力前后的模糊地图右栏显示了注意力密度的放大图,为了更好的可视化,它被缩放了。由于篇幅所限,本文仅展示了两张注意力地图。表9. UCF-QNRF的实验结果UCF-QNRF是最具挑战性和最新的人群计数数据集,我们提出的方法在MAE和MSE上都达到了最佳性能。最后,世博会测试跨场景性能。在此数据集上,该方法在测试场景上取得了最好的性能[29]第二十九话2284453. 然而,由于测试图像和训练图像[9]第九章190277是从不同的视频,没有方法达到最佳性能-Densenet 201 [10]163226在所有的场景中。[13]第十三话132191总之,这些实验表明,亲-[37]第三十七话115192设定的密度图细化和生成框架CSRNet [20]148234可以产生可学习的密度图表示,我们的(改进)111189我们这一代(Ourgeneration)101176表10. WorldExpo上的实验结果。MAE是评估指标。方法S1S2S3S4S5Avg.跨场景[41]9.814.1 14.3 22.2 3.712.9MCNN [42]3.420.6 12.9 12.0 8.111.6[29]第二十九话4.415.7 10.0 11.0 5.99.4CP-CNN [33]2.914.7 10.5 10.4 5.88.86CNN像素[15]2.918.6 14.1 24.6 6.913.4车身结构[11]4.121.7 11.9 11.0 3.510.5DecideNet [21]2.013.18.917.4 4.89.2自上而下[28]2.723.4 10.7 17.6 3.311.5CSRNet [20]2.911.58.616.6 3.48.6美国有线电视新闻网[1]2.616.1 10.2 20.2 7.611.3IC-CNN [26]17.0 12.39.28.14.710.3SANet [3]2.613.29.013.3 3.08.2空间感知[22]2.611.8 10.3 10.4 3.77.76[第14话]2.516.5 12.2 20.5 2.910.9我们的(改进)3.814.5 11.7 17.9 3.510.3我们这一代(Ourgeneration)4.018.17.212.3 5.79.5同样,在上海科技B上,我们的两个框架都比基准CSRNet实现了更好的性能。所提出的生成方法实现了最佳的MAE(击败SANet),而MSE与SANet相似。证明了计数性能,特别是在ShanghaiTech A/B和UCF-QNRF等大型数据集上。6. 结论在本文中,我们提出了一个密度图细化-t框架,通过使用精细密度图训练计数器来提高人群计数的性能。通过计数器和细化器的联合训练,提高了计数性能。我们还提出了一个自适应密度图生成器,它直接使用的点地图作为输入,以产生一个密度图训练计数器。该端到端框架联合训练密度图生成器和计数器,并且消除了手动指定密度图作为中间表示的需要所提出的方法在3个流行的数据集上实现了最先进的性能。确认这项工作得到中国香港特别行政区研究资助局的资助(项目编号:[T32-101/15-R]及城大11212518),以及香港城市大学策略研究资助计划(项目编号:7004887)。方法MAE↓MSE↓多来源[12]315508MCNN [42]277426编码器-解码器[2][32]第三十二话2772524265141138引用[1] Deepak Babu Sam、Neeraj N Sajjan、R Venkatesh Babu和Mukundhan Srinivasan。分裂和成长:随着cnn不断增长,捕捉人群图像的巨大多样性。在IEEE计算机视觉和模式识别会议论文集,第3618-3626页二七八[2] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet:用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on Pattern Anal-ysis and MachineIntelligence,2017。8[3] Xinkun Cao,Zhipeng Wang,Yanyun Zhao,and Fei Su.规模聚合网络,用于准确和高效的人群计数。在欧洲计算机视觉会议(ECCV)的会议记录中,第734-750页二七八[4] Antoni B Chan , Zhang-Sheng John Liang , and NunoVas- concelos.隐私保护人群监测:没有人模型或跟踪的情况下计算人数。在IEEE计算机视觉和模式识别会议上,第1-7页一、二[5] 安东尼B陈和努诺Vasconcelos。人群计数的贝叶斯泊松回归。国际计算机视觉会议,第545-551页,2009年。2[6] 陈克,陈昌来,龚少刚,和托尼·席昂.用于局部人群计数的特征挖掘。英国机器视觉会议,第1卷,第3页,2012年。1[7] Junyu Gao,Wei Lin,Bin Zhao,Dong Wang,ChenyuGao,and Jun Wen.C++3框架:一个用于人群计数的开源pytorcharXiv预印本arXiv:1907.02724,2019。1[8] Junyu Gao,Qi Wang,and Xuelong Li. Pcc net:通过空间卷积网络进行透视人群计数IEEE Transactions onCircuits and Systems for Video Technology,2019。1[9] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。8[10] Gao Huang,Zhuang Liu,Laurens Van Der Maaten,andK-ilian Q Weinberger.密集连接的卷积网络。在IEEE计算机视觉和模式识别会议论文集,第4700-4708页,2017年。8[11] Siyu Huang , Xi Li , Zhongfei Zhang , Fei Wu ,Shenghua Gao,Rongrong Ji,and Junwei Han.身体结构感知深度人群计数。IEEE Trans.图像处理,27(3):1049-1059,2018。8[12] Haroon Idrees、Imran Saleemi、Cody Seibert和MubarakShah。密集人群图像中的多源多尺度计数。在IEEE计算机视觉和模式识别会议论文集,第2547-2554页,2013年。二、八[13] Haroon Idrees 、 Muhmmad Tayyab 、 Kishan Athrey 、Dong Zhang 、 Somaya Al-Maadeed 、 Nasir Rajpoot 和Mubarak Shah。密集人群中计数、密度图估计和定位的成分损失在欧洲计算机视觉会议(ECCV)的会议中,第532二四八[14] Di Kang和Antoni B.陈通过自适应融合来自图像金字塔的预测的人群计数在英国机械视觉会议上,第89页,2018年。一二三五七八[15] Di Kang,Zheng Ma,and Antoni B Chan. Beyond count-ing:密度图比较用于人群分析任务-计数、检测和跟踪。IEEE Transactions on Cir-10 and Systems for VideoTechnology,2018。二、八[16] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。5[17] Bastian Leibe,Edgar Seemann,and Bernt Schiele.拥挤场景中的行人检测。在IEEE计算机协会计算机视觉和模式识别会议上,第1卷,第878-885页,2005年。1[18] Victor Lempitsky和Andrew Zisserman。学习计算图像中的物体。神经信息处理系统的进展,第1324-1332页,2010年。一、二[19] Min Li , Zhaoxiang Zhang , Kaiqi Huang , and TieniuTan.基于mid的前景分割和头肩检测估计拥挤场景中的人数。模式识别国际会议,第1-4页,2008年。2[20] 李玉红,张晓凡,陈德明。Csrnet:用于理解高度拥挤场景的扩展卷积神经网络。在IEEE计算机视觉和模式识别会议论文集,第1091-1100页三五七八[21] Jiang Liu,Chenqiang Gao,Deyu Meng,and AlexanderG Hauptmann. DecideNet:通过注意力引导检测和密度估计来统计不同密度的人群。在IEEE计算机视觉和模式识别会议上,第5197-5206页七、八[22] Lingbo Liu , Hongjun Wang , Guanbin Li , WanliOuyang,and Liang Lin.使用深度递归空间感知网络的人群计数。在国际人工智能联合会议论文集,第849-855页,2018年。二七八[23] Xiaei Liu,Joost van de Weijer,and Andrew D Bagdanov.通过学习排名,利用未标记的数据进行人群计数在IEEE计算机视觉和模式识别会议上,2018。一、二、七[24] Zheng Ma,Lei Yu,and Antoni B Chan.用整数规划法对目标密度图进行小实例检测在IEEE计算机视觉和模式识别会议的Proceedings,第3689-3697页2[25] Mark Marsden , Kevin McGuinness , Suzanne Little 和Noel E.奥康纳完全卷积的人群计数高度拥挤的场景。在计算机视觉,成像和计算机图形理论与应用国际联合会议上,第27-33页,2017年。7[26] Viresh Ranjan、Hieu Le和Minh Hoai。迭代人群计数。在欧洲计算机视觉会议上,第278-293页,2018年。二七八[27] 刘仁,狄康,Yandong Tang,和Antoni B Chan。融合人群密度图和视觉对象跟踪器用于人群场景中的人跟踪在IEEE计算机视觉和模式识别会议论文集,第5353-5362页21139[28] Deepak Babu Sam和R.文卡特什先生自顶向下的反馈用于人群计数卷积神经网络。在AAAI人工智能会议论文集,第7323-7330页,2018年。二七八[29] Deepak Babu Sam、Shiv Surya和R.文卡特什先生用于人群计数的开关卷积神经网络在IEEE计算机视觉和模式识别会议上,第4031-4039
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功