没有合适的资源?快使用搜索试试~ 我知道了~
1用于人群计数的北京航空航天大学电子与信息工程学院张安然1,雷跃1,沈佳一1,朱凡4,甄贤通4,曹贤斌1,2,3 †,邵玲412近空间信息系统先进技术重点实验室(北京航空航天大学),中国工业和信息化部,北京,中国3北京大数据精准医学创新中心,中国北京4Inception Institute of Artificial Intelligence,阿布扎比,阿联酋zhanganran@buaa.edu.cn,yuelei@buaa.edu.cn,www.example.com,shenjiayi@buaa.edu.cn,fan. inceptioniai.org,zhenxt@gmail.com,xbcao@buaa.edu.cn,ling. ieee.org摘要人群计数最近在计算机视觉中非常流行,并且由于对象的巨大规模变化而极具挑战性。在本文中,我们提出了注意力神经场(ANF)的人群计数通过密度估计。在编码器-解码器网络中,我们引入条件随机场(CRF)来聚合多尺度特征,这可以构建更多信息的表示。为了更好地对CRF中的成对电位进行建模,我们将非局部注意机制实现为层间和层内注意,以分别在同一层和不同层内将感受野扩展到整个图像,从而捕获长程依赖性以克服巨大的尺度变化。与注意力机制耦合的CRF被无缝地集成到编码器-解码器网络中,从而建立可以通过反向传播进行端到端优化我们在四个 公 共 数 据 集 上 进 行 了 广 泛 的 实 验 , 包 括ShanghaiTech , WorldEXPO 10 , UCF-CC-50 和 UCF-QNRF。结果表明,我们的ANF实现了较高的计数性能,超过了大多数以前的方法。1. 介绍人群计数旨在预测场景中个体的准确数量,由于其广泛的现实世界应用,例如视频监控和城市规划,最近在计算机视觉然而,现实生活中的人群计数应用面临着许多挑战。其中最常见的包括遮挡、低图像质量/分辨率、严重的透视差,这些作者贡献相等。†通讯作者。图1.密度估计结果。左上:输入图像。上一篇:GroundTruth左下角:最好的方法(SANet [3])。右下角:ANF。我们可以很容易地观察到输入图像中的巨大尺度变化,其中具有较大垂直成对距离的行人的空间尺度是不同的。扭曲,巨大的规模变化和模型在推理阶段的效率低下[24,25]。先前的工作[28,41]已经做出了很大的尝试来解决这些问题,并且深度学习模型已经普遍应用于现有的人群计数方法中。例如,[21]在各个阶段迭代地合并卷积特征和预测的多分辨率密度图,[28]结合来自多个估计器的全局和局部上下文信息在大多数人群计数任务中,输入数据来自安装在人群上方的监控摄像机,如图所1.一、这意味着尺度变化通常发生在输入监视图像上具有大垂直距离的区域中。因此,如何在利用多尺度特征的同时处理尺度变化成为57145715这是这项工作的重点。以前的研究尝试[3,41]已经解决了尺度变化问题。例如,在[3]中开发了尺度聚集网络(SANet)来解决尺度方差问题;然而,它在很大程度上依赖于卷积核的不同尺度。尽管使用了多尺度卷积核,但是随着网络的深入,所获得的特征图仍然遭受显著的信息损失使用跳过连接跨不同层的特征聚合这表明了在CNN [20,42,38]中跨卷积层融合多个特征的巨大有效性,然而,这对于人群计数任务来说仍然是未知的为了处理尺度变化,最近以嵌入卷积神经网络(CNN)的非局部操作的形式探索了长程依赖性它通过关注特征图上的所有位置并在嵌入空间中取其加权平均值来非局部操作的有效性源于它本质上扩展CNN中的感受野的事实。同时,条件随机场(CRF)[15,16]作为一种代表性的判别图形模型,已经与CNN一起研究了多个推理任务,例如,图像分割[9]和深度估计[34]。在本文中,我们提出了注意神经场(ANF)的人群计数密度估计。在卷积编码器-解码器网络内,ANF集成了条件随机场和注意力机制,其可以联合聚合多尺度特征并捕获长距离依赖性。与之前的工作[34]不同,CRF通常作为后处理附加到预测结果中,我们的ANF直接将随机场应用到特征级别,以聚合和细化从CNN内层导出的多尺度特征。此外,我们引入了一个注意力机制来构建成对的潜在CRF。注意力被实现为层间和层内,并且可以利用特征向量之间的空间相关性,不仅在同一尺度内,而且在不同尺度上。帧内和帧间注意力计算整体特征图上的加权和作为每个像素处的响应,这有利于扩大感受野并在不同尺度的特征图上建立通信通道。更重要的是,注意力变量和多尺度特征变量通过均值场更新联合估计,并且可以以端到端的方式训练完整的架构。所提出的ANF无缝地组装了条件随机场,注意力机制和神经网络,建立了一个新的紧凑的深度学习模型。它的有效性是通过广泛的经验证明的四个公共基准,即,上海科技、WorldEXPO此外,实验结果表明,ANF可以处理稀疏和密集的人群,这表明其巨大的通用性,为不同的人群计数任务。概括起来,这项工作的主要贡献如下。- 我们提出了注意力神经场(ANF),人群计数,它利用卷积神经网络的优势进行特征学习,并利用条件随机场(CRF)融合多尺度特征。- 我们引入注意机制来模拟CRF中的成对电位。我们通过层间和层内关注来实现它,以捕获同一尺度内和不同尺度之间的长期依赖关系,这在很大程度上可以处理巨大的尺度变化。- 所提出的ANF在四个公共基准数据集上实现了新的最先进的性能。特别是,在具有密集人群的具有挑战性的UCF-QNRF数据集上,我们的方法超过了之前最好的方法高达16。6%,在MAE方面。2. 相关工作我 们 的 注 意 力 神 经 场 ( ANF ) 将 条 件 随 机 场(CRF)和注意力机制植入卷积网络,建立了一个新的紧凑的人群计数深度模型。我们简要回顾了最近的工作人群计数以及使用CRF和注意力的相关工作。人群计数。一般来说,人群计数方法有三种类型,包括人检测、整体人数量回归和密度图估计。虽然对象检测(人是对象检测中常见的研究类别之一)已经取得了巨大的成功,但是通过聚集人群中所有定位的人来预测人的数量是用于人群计数的最直接的方法。在这方面,已经提出了大量以前的工作,从遥远的手工制作的低级特征[30,8,17]到最近的基于CNN的方法。不幸的是,由于遮挡、尺寸过小和低质量问题,即使是性能最好的人员检测方法也无法实现人群计数任务的令人满意的性能。 基于回归的方法[4,5,14]从整体人群图像中学习,并直接从输入人群图像中回归人员数量,而无需明确定位每个人近年来,基于密度图估计的方法开始在人群中发挥越来越重要的作用5716图2.提出的用于人群计数的注意力神经网络(ANF)的架构概述该网络将条件随机场与注意力机制结合到编码器-解码器网络中。块A和M表示帧内和帧间关注。输入箭头指示消息传递中估计变量之间的依赖关系。输出箭头表示涉及注意力神经场的更新。计数[28,19,21,13,33]。与人检测和整体人数量回归相比,密度图估计能够在人群图像中捕捉到更丰富的空间大量的密度图估计方法的目标是捕获多尺度空间信息,以提高性能。例如,Sindag et al.[28]提出了一种上下文金字塔CNN,它利用各种估计器来捕获全局和局部上下文信息,这些信息与Fusion-CNN从多列CNN中提取的高维特征图相Li等人。[19]用扩张的内核取代池化操作,以融合多尺度上下文信息。Ranjan等人[21]提出了一种通过将前一阶段的低分辨率密度图与提取的特征相结合来生成高分辨率密度图的多阶段方法特别是,比例尺变化是密度图估计中最关键的问题之一。为了解决这个问题,Boominathan et al.[1]采用多列架构来捕获每个列中具有多个感受野的尺度变化,其中多列特征由卷积层融合用于人群密度回归。所提出的ANF也属于通过密度估计进行人群计数的家族。然而,我们的ANF在两个主要方面与上述工作不同1)它与CRF联合学习CNN,这为融合CNN中的多尺度特征提供了强大的工具; 2)有效地引入了注意力机制来对字段中的成对势进行建模,该模型被实现为层间模型和层内注意力,以充分捕获长范围依赖性。条件随机场。作为一种强大的图形模型,条件随机场已成功应用于各种像素级标记任务,包括语义分割[43]、深度估计[34]、姿态估计[7]等。最近的工作[43,34]表明,CRF可以与CNN框架共同学习。与我们最相似的工作是[34],其中采用CRF来组合来自CNN的多个中间层的多尺度信息。与以前的工作相比,我们的ANF不产生任何侧输出,并集成了层间和层内的注意力模块来模拟CRF中的电位,这可以提高密度图估计的性能。关注注意力机制[29]最近被纳入深度学习以提高性能,这在各种视觉任务中取得了巨大成功,例如,图像字幕[35,37]、图像问题回答[36]、图像分类[31]、面部对齐[39,18]和视频分析[10]。与空间注意及其变异不同,我们的注意更多地涉及到非局部注意机制。我们的注意力模型和空间注意力模型都对变量和自适应特征尺度进行了软选择然而,空间注意力模型通常计算每个位置在通道上的响应,而不探索空间依赖性,而我们的注意力模型不仅考虑了同一特征图中的空间依赖性,而且还考虑了不同特征图之间的据我们所知,这是第一次尝试联合学习非本地CNN与CRF用于人群计数。5717s=1联系我们SSs=1s−1,sS=2i=1s−1,sSSss−13. 通过密度估计的人群计数我 们 的 注 意 力 神 经 场 ( ANF ) 将 条 件 随 机 场(CRF)和注意力机制集成到卷积编码器-解码器框架中,结合了它们各自的优势。我们从通过密度估计进行人群计数的问题陈述开始,并提供了关于CRF和注意机制的必要知识。3.1. 问题陈述和准备工作scales考虑来自scale的信息s−1。总而言之,我们的非局部注意机制的实现通过注意任何两个位置之间的相互作用来计算位置处的响应,并且在所有像素内对成对电位进行建模。 值得注意的我们的非局部注意力机制考虑了层间交互和层内交互的成对潜力利用成对电位中的注意模型有助于将感受野扩展到整体考虑训练集T={(Xi,Di)}N,其中X图像,提高了框架的鲁棒性i针对比例变化。此外,远程依赖-表示输入RGB图像,Di表示其对应的实值人群密度图,并且N是训练样本的数量人群计数的任务本质上是找到从输入图像X到密度图D的非线性映射,基于该非线性映射,我们可以计算人群计数。我们的注意力神经场是建立在编码解码器架构之上的编码器由六个残差卷积组成,通过对空间位置之间的相关性进行编码来完全捕获空间位置之间的相关性。3.2. 注意力神经场给定观察到的图像的多尺度特征图F,X,目标是估计潜在的多尺度表示,sentationH={Hs}S,层间注意变量功能块。 每个卷积块下采样特征图,并输出该特征图M={Ms=1s-1,s}s=2,层内注意变量相同数量的频道。解码器有六个卷积层,没有池化操作。条件随机场。我们将CNN的编码器提取的特征图表示为F=A={As}S。我们在条件随机场框架内将问题形式化,并将吉布斯分布写为:P(H,M,A|X,Θ)= exp(−E(H,M,A,X,Θ))/Z(X,Θ),FS s=1其中,Fs表示尺度s处的特征。 Fs是(一)由一组特征向量组成,Fs={fi}P,fi∈其中,Θ是参数集合,E是能量函数。S i =1 sRCs,P是像素数,Cs是尺度s下的通道数。解码器中的特征图是去-定义为H={Hs}S,其中类似地Hs={hi}P第能量函数定义为:E(H,M,A)= Φ(H,F)+ Φ(H,M)+Φ(H,A)。(二)s=1s i =1且hi∈RCs. 为了生成用于人群计数的高质量密度图,我们引入了条件随机场CRFs融合多尺度特征,提高了特征表示对大尺度变化的鲁棒性(2)中的第一项是将潜在特征表示hi与观察到的多尺度特征向量fi相关联的经典一元势,即:国家。具体来说,CRF学习一组潜在特征,隐藏变量,形成随机场,条件是ΣSΦ(H,F)=ΣΣSφ(hi,fi)=− Σ1 hi− f i从编码器观察特征图F。那些SSs=1i2sss=1i隐藏变量是特征映射H={Hs}S编码器在德-(三)(2)中的第二项对在帧间映射时相邻尺度处的潜在特征向量之间的关系进行建模。非局部注意力机制。我们介绍-张力机制来模拟成对的潜力之间层注意变量mij,其定义为:隐藏变量更具体地说,我们实现了层间和层内注意力模型,以制定对-ΣS(H,M)= Σ (mij,hi, hj)在同一尺度上和不同尺度上的特征向量之间分别存在一个势函数。层内-s=2i,j=mi,js−1,s sh(hi,hj)s−1(四)s尺度的张力图定义为A={ai,j}Ns×Ns,s−1,ss s−1i=1,j =1它描述了潜在特征在像素i和像素j处的向量。层间腐蚀-在以前的工作[2,32]中,我们考虑一个点积相似性以使估计的潜在特征接近图M={Ms−1,s}S将这种关系编码为-对应的观察。在非-在相邻尺度上的潜在特征向量之间,其中局部均值操作[2]和通用非局部操作-Ms−1,s ∈RPs−1×Ps,并且mi,j =Ms−1,s(i,j)在深度神经网络中,我们使用归一化点,5718范围[0,1]是像素j之间的相关性得分从比例为s的像素i到比例为s-1的像素i。 通过层间注意隐变量hi产品相似性,定义为:h(hi,hj )= hj (hi)(五)sss−1s−1s5719Ss−1,sSs−1IjijijSs−1,s伊伊+ijSsSSSS(2)中的第三项表示成对关系事实上,对于一个giveni,mij表明相关性是-在相同尺度上的隐藏特征向量之间,层内注意变量aij,其被定义为:S跨比例在位置i和位置j之间补间要素s和s-1。可以将a′ij计算为:exp(h<$j(h<$i))− 1Σ Σi j i ja′ij=ss.(十六)A(H)=中国(6)sh<$j(h<$i)Sss=1i,j具体而言,我们定义:h(aij,hi,hj)=aij(七)我们可以同时学习CRF的参数以及编码器-解码器网络的那些。为了推断潜在的多尺度表示H,层间注意力s s sssssSs变量M和层内注意力变量A,我们3.3. 推理根据以前的工作[43,22],我们采用平均场近似,以获得一个易于处理的干扰过程。在平均场理论下,这 些 变 量 的 最 佳 近 似 是 使 这 些 变 量 与 Q 之 间 的Kullback-Leibler(KL)散度最小化的分布Q。Q的解在[22]中形成通过考虑在(2)、(4)和(6)中定义的势,并将Eq表示为具有分布q的期望,我们有:q(hi)exp(φ(hi,fi))Σij ij ij i j通过多次迭代用神经网络实现平均场更新3.4. 消息传递我们根据第二节中描述的推导,对注意力变量和潜在特征图3.3.通过将消息从同一层或不同层中的所有位置传递到attention变量,可以捕获远程依赖关系并将其传递到最终表示。为了对层间属性M执行平均场更新,我们使用(14)来更新每个层间属性M。在几个步骤中,对变量mij,如下:(i)我们+Eq(aij){as}Eq(hj){h(as,hs,hs)}s,s−1S sJΣi jij从关联要素执行消息传递映射h′s,其中h′s用相应的fea初始化Eq(ms−1,sJ){ms−1,s}Eq(hj){h(hs,hs−1)})(八)真实观察(ii)从关联特征h<$s和相邻特征h<$s-1到关注特征m<$s,s-1的消息传递通过(15)执行,因为m<$s,s-1←ij ijexp(h<$s−1h<$s)−1IjS,其中h<$s−1h<$$>通过矩阵q(ms−1,s)<$exp(ms−1,sEq(hi){Eq(hj){h(hs,hs−1)}})(九)h′s−1h′s乘法运算和规范化。同样地,q(as)exp(asEq(hi){Eq(hj){h(hs,hs)}})。(十)我们执行内部注意变量的平均场更新使用(16)。通过考虑在(3)、(4)和(6)中定义的势,并表示S一旦内部注意力和内部注意力地图建立起来-过时,我们使用它们作为指导,以更新潜在的功能ij ija′s =Eq(aij){as}(11)ij ij马普斯公司可以进行h的平均场更新(14)如(i)所述,在以下情况下使用(14):m<$s−1,s=Eq(mij){ms,s−1}(12)注意功能m<$s,s-1和s-1尺度下的特征,h=Eq(hi){h},(13)特征的缩放由矩阵乘法执行sssh<$<$m<$h<$中的操作。(ii)信息传递我们可以导出潜在特征rep的平均场更新,s s,s−1s−1在相同的尺度内应用内注意力特征怨恨:Σ Σhs<$$ >ash<$s通过矩阵乘法运算。(三)Thei=fi+美智h<$j +是的。(十四)ss−15720s−1,sSSs−1,si=1通过添加一元项,将消息传递到最终的hss ss,s−1Js−1sSJh′s ←hs阿赫什fs,其中,f表示逐元素和自从我hjs−1(h′i)n在[0,1]的范围操作3.5. 优化它们的期望可以通过考虑(9),(10)作为近似形式:exp(h<$j(h<$i))−1我们的注意力神经场在卷积编码器-解码器网络中集成了CRF和非局部注意力,可以通过联合优化参数来学习美智=s−1s。(十五)s,s−1hjs−1(h<$i)网络工作的参数Θc和注意场的参数Θf我们使用tmax计算的方法来规范化m<$ij给定训练集T={(Xi,Di)}N,我们最小化在过去的工作中[32]。这可以从预测的密度图与实际密度图之间的差异看出和57212、2通过目标函数中的2-范数来确定地面真值,其采用以下形式:ΣN评估指标。计数误差通常通过两个度量来测量,即,平均绝对误差(MAE)和均方误差(MSE):LF(X,D;Θc,Θf)=i=1||二、||2. (十七)1ΣNMae = Ni=1′|(十九)|(19)优化以端到端的方式进行,使用基于mini-batch的反向传播算法.N随机梯度下降潜在变量的推断与网络的参数更新的每次迭代一起执行。.1ΣMSE =Ni=1′|,(20)|,(20)其中,N是测试样本的数量,yi是地面真值4. 实验我们在四个基准数据集上进行了广泛的实验,包括ShanghaiTech [41] , WorldExpo 10 [40] , UCF-CC-50[11]和UCF-QNRF [12]。实验结果表明,所提出的注意力神经场(ANF)算法在所有数据集上都具有很高的性能,并且超过了大多数以前的方法。消融研究进一步证实了ANF的有效性。4.1. 实现细节我们提供了我们的实施细节,包括数据增强,地面实况生成,评估指标和架构设计,以便于与其他方法进行比较。数据扩充。在这项工作中,我们使用基于补丁的训练和基于图像的测试计划。为了充分利用训练样本数量有限的数据集,我们通过随机缩放和裁剪图像来训练我们的网络。首先,我们选择一个随机值来改变原始图像到不同的尺度,这增加了网络然后,我们随机裁剪补丁从图像在不同的位置。在测试过程中,我们将整个图像输入到网络中,而不是裁剪的补丁。地面真相生成。由于人群图像的注释标记在行人头部的中心,我们使用高斯核来转换这些点来生成人群密度图。归一化高斯核定义为:′count,yi是对应于第i个sample. MAE表示预测结果的准确性,MSE度量鲁棒性。网络架构。我们采用了一个简单的架构,这是由一个卷积块,用于降低输入分辨率和6个残留卷积块。每个残差卷积块以因子2对特征图进行下采样,并输出具有相同数量通道的特征图。解码器有6个残余卷积层,没有池化操作。我们的ANF使用了CRF的内部注意和内部注意,实验上产生了最好的整体性能。4.2. 性能与比较我们在四个基准数据集上显示了性能,并将所提出的ANF与以前的方法进行了比较。总的来说,我们的ANF在所有数据集上都产生了新的最先进的性能,并且优于大多数比较方法。上海科技ShanghaiTech数据集[41]包含具有任意相机视角和人群密度的静态图像。ShanghaiTech数据集由1198张带注释的图像组成,包括互联网和街景图像。A部分的图片是从互联网上随机抓取的,大多数都有大量的人。B部分的图片是从上海大都市繁忙的街道上拍摄的.每幅图像中的大多数人都有巨大的遮挡与其他数据集相比,上海理工大学的大多数图像分辨率较低,因此我们保持ΣD(x)=δ(x−xi)<$Gσxi∈S、(十八)用于训练和测试。我们将我们的ANF与最近在该数据集上评估的方法进行比较,结果见表1。我们其中D表示人群密度图,S是所有注释点的集合。像素xi处的点可以表示为δ函数δ(x−xi)。密度图可以通过将δ(x−xi)与高斯核和参数Gσ进行卷积来获得。我们将高斯核大小固定为15 ×15。在A部分的MAE和MSE方面实现最佳性能,并在B部分获得竞争结果 我们在图中显示了来自ShanghaiTech数据集的样本。3.这表明,人口密度分布不均匀,人群中的头部在规模上高度多样化我们的模型可以准确地确定每个人5722图3.所有数据集的预测:(a)上海科技A,(b)上海科技B,(c)UCF-CC-50,(d)UCF-QNRF和(e)WorldExpo 10。表1.ShanghaiTech、UCF-CC-50和UCF-QNRF数据集上的估计误差上海科技A上海科技BUCF-CC-50UCF-QNRF方法MaeMSEMaeMSEMaeMSEMaeMSEZhang等人[第四十届]181.8277.732.049.8467.0498.5--MCNN [41]110.2173.226.441.33716.6509.1277426[27]第二十七话101.3152.420.031.1322.8397.9252514[26]第二十六话90.4135.021.633.4318.1439.2228445[28]第二十八话73.6106.420.130.1295.8320.9--CSRNet [19]68.2115.010.616.0266.1397.5--SANet [3]67.0104.58.413.6258.4334.9--Idrees等人[12个]------132191ANF(我们的)63.999.48.313.2250.2340.0110174表2.WorldExpo 10上的性能比较方法S1S2S3S4S5AvgZhang等人[第四十届]9.814.114.322.23.712.9MCNN [41]3.420.612.913.08.111.6[28]第二十八话2.914.710.510.45.88.9CSRNet [19]2.911.58.616.63.48.6SANet [3]2.613.29.013.33.08.2ANF(我们的)2.110.615.19.63.18.1UCF-CC-50 UCF-CC-50数据集在[11]中介绍。这是一个非常小的数据集,只有50张带注释的人群图像。人群计数有很大的变化,图像中的人数范围从96到4633。有限的图像数量使其成为深度学习方法的挑战性数据集我们遵循与[41]相同的设置所提出的ANF与其他现有方法的比较总结在表1中。拟议的ANF产生的最佳性能方面的MAE,并高度在MSE方面的竞争力。UCF-QNRF。UCF-QNRF数据集[12]是一个大规模的数据集,包含各种各样的观察视角,密度和照明条件。图像中的人数范围从49到12865,这使得人群密集且难以计数。我们遵循[12]中的设置,并将训练集和测试集分别分为1201和334张图像。UCF-QNRF上的表1总结了与先前方法的比较我们的ANF在MAE方面提供了最好的结果,超过了第二好的方法,MAE提高了16.6%。在MSE方面,它也比以前的方法好得多。这个数据集上的结果表明我们的ANF有很强的能力来处理非常密集的人群。世界博览会10. WorldExpo 10数据集[40]由2010年上海世博会的108个监控摄像头捕获的1132个带该数据集可以分为5个不同的场景,每个场景包含120帧。这个数据集提供了透视图,5723图4.从左到右:RGB图像,地面实况,MCNN [41]预测,SANet [3]预测,ANF预测。表3.建议的层间/层内关注的有效性方法MaeMSE基线66.2110.8内部兴趣关注&63.999.4其值表示图像中覆盖一平方米真实位置的像素数。与UCF-QNRF相比,该数据集中的人群相对稀疏。我们的ANF仍然在场景1,2和4上产生最佳实验结果表明,该ANF算法在处理稀疏和密集人群时具有很强的通用性和有效性。4.3. 消融研究为了深入了解拟议的ANF,我们进行了消融研究,以证明其每个组件的贡献我们遵循之前的工作[19,3,21],使用ShanghaiTech A部分作为消融研究的基准。我们比较我们的设计选择与我们的基线的性能,并比较我们的ANF与几个国家的最先进的方法产生的密度图。消融研究验证了所提出的ANF的人群计数的巨大有效性。计数精度。消融研究结果如表3所示。该表按行划分为两个组,具有三种配置。每个组包含对应于ANF的一个主要贡献的索引配置这些包括具有层间关注和层内关注两者的ANF。在不同的列中,我们使用MAE和MSE指标报告每个配置的计数准确性。定性地,我们可视化了代表性方法(MCNN [41]),当前性能最好的 方 法 ( SANet [3] ) 和 我 们 的 ANF 在 图 4 中 的ShanghaiTech Part A数据集上生成的密度图。ANF生成的密度图更接近地面实况,并产生更准确的人群计数。值得注意的是,尽管SANet [3]实现了更高的计数精度,但我们的ANF的结果在密度估计方面更接近地面真实。表4.型号尺寸和性能的比较方法#参数PSNRSSIMMaeMCNN [41]0.13M21.40.52110.2[28]第二十八话68.4M21.720.7273.6CSRNet [19]16.26M23.790.7668.2ANF(我们的)7.9M24.10.7863.9密度贴图质量。为了证明我们的方法产生高质量的密度图,我们使用SSIM和PSNR的测量值与表4中的代表性方法进行比较。我们与CP-CNN、CSR-Net和MCNN这三个已经公开发布的代码进行了比较。Moonlight,CP-CNN和CSRNet还强调它们可以生成高质量的密度图,如第2节所述,MCNN [41]是基于密度估计的人群计数中最具代表性的方法我们的方法在SSIM和PSNR方面都达到了最佳性能。此外,我们还通过表4中的模型大小与参数数量进行了比较,这表明我们的ANF具有相对较低的计算成本,同时表现最好。5. 结论在这项工作中,我们提出了注意神经场(ANF)的人群计数。ANF将条件随机场和注意力机制集成到卷积编码器-解码器框架中,这增强了它们融合多尺度特征和捕获长程依赖性的能力通过定量和定性的实验结果 , 我 们 证 明 了 ANF 在 ShanghaiTech 、 WorldEXPO10、UCF-CC-50和UCF-QNRF等四个流行数据集上都能带来一致的性能改进,显示了其在人群计数中的有效性鸣谢本论文得到国家重点研究发展计划项目基金2016YFB1200100、国家重点科学仪器与装备研制项目基 金 61827901 和 国 家 自 然 科 学 基 金 项 目 基 金91538204、91738301、61871016、61571147的资助。5724引用[1] Lokesh布米纳坦SrinivasSS Kruthiventi和R·文卡特什·巴布Crowdnet:用于密集人群计数的深度卷积网络。2016年ACM多媒体会议论文集,第640-644页。ACM,2016。[2] Antoni Buades,Bartomeu Coll,and J-M Morel.一种非局部图像去噪算法。在2005年IEEE计算机社会计算机视觉和模式识别会议(CVPRIEEE,2005年。[3] Xinkun Cao,Zhipeng Wang,Yanyun Zhao,and Fei Su.规模聚合网络,用于准确和高效的人群计数。在欧洲计算机视觉会议(ECCV)的会议记录中,第734-750页[4] Antoni B Chan , Zhang-Sheng John Liang , and NunoVas- concelos.隐私保护人群监测:没有人模型或跟踪的情况下计算人数。在计算机视觉和模式识别,2008年。CVPR 2008。 IEEE会议,第1-7页。IEEE,2008年。[5] 陈克,陈昌来,龚少刚,和托尼·席昂.用于局部人群计数的特征挖掘。在英国机器视觉会议(BMVC),第1卷,第3页,2012年。[6] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence,40(4):834[7] Xiao Chu,Wanli Ouyang,Hongsheng Li,and XiaogangWang. Crf-cnn:人体姿势估计中的结构化信息建模,2016年。[8] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图。在计算机视觉和模式识别,2005年。CVPR2005。 IEEE计算机协会会议,第1卷,第886-893页。IEEE,2005年。[9] Adam W Harley,Konstantinos G Derpanis,and IasonasKokkinos.使用局部注意掩码的分段感知卷积网络。在IEEE国际计算机视觉会议(ICCV),第2卷,第7页,2017年。[10] Yuanjun Huang , Xianbin Cao , Xiantong Zhen , andJungong Han.用于动态场景分类的注意时间金字塔网络在AAAI人工智能会议论文集,第33卷,第8497-8504页[11] Haroon Idrees、Imran Saleemi、Cody Seibert和MubarakShah。密集人群图像中的多源多尺度计数。在IEEE计算机视觉和模式识别会议论文集,第2547-2554页,2013年。[12] Haroon Idrees 、 Muhmmad Tayyab 、 Kishan Athrey 、Dong Zhang 、 Somaya Al-Maadeed 、 Nasir Rajpoot 和Mubarak Shah。在密集人群中用于计数、密度图估计和定位的成分损失。arXiv预印本arXiv:1808.01050,2018。[13] Xiaolong Jiang , Zehao Xiao , Baochang Zhang ,Xiantong Zhen , Xianbin Cao , David Doermann , andLing Shao.利用格状编码器-解码器网络进行群体计数和密 度 估 计 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR)上,2019年6月。[14] 丹孔、道格拉斯·格雷和海涛。一种视点不变的人群计数方法. In Pattern Decomposition,2006. ICPR 2006年。第18届国际会议,第3卷,第1187-1190页。IEEE,2006年。[15] Phi l ippKr aühenbuühl和VladlenKoltun。具有高斯边势的 全 连 通 crfs 的 有 效 推 理 在 Advances in neuralinformation processing systems,第109[16] John Lafferty , Andrew McCallum , and Fernando CNPereira.条件随机字段:用于分割和标记序列数据的概率模型。2001年[17] Min Li , Zhaoxiang Zhang , Kaiqi Huang , and TieniuTan.基于mid的前景分割和头肩检测估计拥挤场景中的人数。模式识别,2008年。ICPR 2008年。第19届国际会议,第1-4页。IEEE,2008年。[18] 李培昭,张安然,雷跃,郑贤通,曹西安斌.多尺度聚合网络用于直接人脸对齐。2019年IEEE计算机视觉应用冬季会议(WACV),第2156IEEE,2019。[19] 李玉红,张晓凡,陈德明。CSRnet:用于理解高度拥堵场景的扩展卷积神经网络,2018年。[20] Xin Miao , Xiantong Zhen , Xianglong Liu , ChengDeng,Vas-silis Athitsos,and Heng Huang.用于端到端面对齐的直接形状回归在IEEE计算机视觉和模式识别会议集,第5040-5049页[21] Viresh Ranjan、Hieu Le和Minh Hoai。迭代人群计数。arXiv预印本arXiv:1807.09959,2018。[22] Kosta Ristovski , Vladan Radosavljevic , SlobodanVucetic,and Zoran Obradovic.大型全连通图中有效回归的连续条件随机场2013年第27届AAAI人工智能会议。[23] Olaf Ronneberger,Philipp Fischer,and Thomas Brox.U-网:用于生物医学图像分割的卷积网络医学图像计算和计 算 机 辅 助 干 预 , 参 见 MICCAI2015 , 第 234 页 ,参见MICCAI241,2015。[24] 大卫·瑞安,西蒙·登曼,斯里达·斯里达兰和克林顿·福克斯。人群计数方法、特征和回归模型的评价。计算机视觉与图像理解,130:1[25] Sami Abdulla Mohsen Saleh,Shahrel Azmin Suandi,andHaidi Ibrahim.视觉监视中人群密度估计与计数研究进展。人工智能的工程应用,41:103[26] Deepak Babu Sam,Shiv Surya和R Venkatesh Babu。用于人群计数的开关卷积神经网络在IEEE计算机视觉和模式识别会议论文集,第1卷,第6页,2017年。[27] Vishwanath A Sindagi和Vishal M Patel。基于cnn的cas-caded多任务学习的人群计数的高级先验和密度估计。高级视频和基于信号的监控(AVSS),2017年第14届IEEE国际会议,第1-6页。IEEE,2017年。[28] Vishwanath A Sindagi和Vishal M Patel。使用上下文金字塔cnn生成57252017年IEEE国际计算机视觉会议(ICCV),第1879-1888页IEEE,2017年。[29] 作者:Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszko-reit,Llion Jones,Aidan N.戈麦斯,卢卡斯凯泽,伊利亚·波罗苏欣。注意力是你所需要的,2017年。[30] 保罗·维奥拉和迈克尔·J·琼斯强大的实时人脸检测。国际计算机视觉杂志,57(2):137[31] Fei Wang,Mengqing Jiang,Chen Qian,Shuo Yang,Cheng Li , Honggang Zhang , Xiaogang Wang , andXiaoou Tang.用于图像分类的剩余注意力网络。arXiv预印本arXiv:1704.06904,2017。[32] 王晓龙,Ross Girshick,Abhinav Gupta,和Kaiming He.非局部神经网络。arXiv预印本arXiv:1711.07971,2017年10月。[33] Ze Wang,Zehao Xiao,Kai Xie,Qiang Qiu,Xi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功