没有合适的资源?快使用搜索试试~ 我知道了~
视信息的重新审视以实现有效的人群计数
1重新访问透视信息以实现高效的人群计数MiaojingShiShi,ZhaohuiYang,ChaoXu,QijunChenRennes,Inria,CNRS,IRISA北京大学合作媒体网络研究中心机器感知实验室同济大学控制科学与工程系摘要人群计数是估计人群图像中的人数的任务。现代人群计数方法使用深度神经网络通过人群密度回归来估计人群计数。这个任务的一个主要挑战在于透视变形,这会导致图像中的人的尺度发生剧烈变化一般来说,在小人物区域上进行密度回归在这项工作中,我们提出了一个视角感知卷积神经网络(PACNN),用于有效的人群计数,它将视角信息整合到密度回归中,以提供图像中人员规模变化的额外知识首先生成用于训练的地面真实透视图;然后专门设计PACNN来预测多尺度透视图,并将其编码为网络中的透视感知加权层,以自适应地组合多尺度密度图的输出。在地图的每个像素处学习权重,使得最终密度组合对透视畸变是鲁棒的。我们在上海科技、世博会10、UCF CC50和UCSD数据集上进行了广泛的实验1. 介绍世界人口的快速增长导致了快速的城市化,并导致了更频繁的人群聚集,例如。体育赛事音乐节政治集会因此,准确和快速的人群计数对于处理大量人群以确保公共安全至关重要。传统的人群计数方法通过检测每个行人来估计人群计数[44,39,3,27,21]。最近的方法通过密度图的回归进行人群计数[5,7,30,12]:人群计数的问题被转换为估计连续密度函数,其在图像上的积分给出了该图像内的人数[7,15,16,25,46,47,31](见图1:密度图)。手工制作的特点首先采用的密度图1:密度图显示了图像中每个位置的局部平滑人群计数。透视图反映了图像中每个位置处的透视失真,例如,在每个位置有多少像素对应于一米的人类身高[46]。由于透视变形,人的比例变化剧烈。一般来说,在小人物区域上进行密度回归是非常困难的。我们将透视图集成到密度回归中,以提供关于图像中从近到远的一般个人尺度变化的附加信息回归[7,15,16],很快就被深度代表[25,46,47]超越。这项任务的一个主要挑战在于人群图像中的剧烈透视扭曲(见图1)。①的人。透视问题与相机校准有关,相机校准估计相机的6个除了摄像机自由度之外,它还被定义为在人群计数任务中表示图像中从近到远的人尺度变化[5,6,46,11]。视角信息已被广泛用于传统的人群计数方法中,以归一化在图像的不同位置处提取的特征[5,16,9,22]。尽管使用图像透视图可以获得很大的好处,但其获取存在一个明显的缺点,即通常需要相机参数7279密度图透视图7280或场景几何形状。当社区开始采用深度学习来解决各种场景中的问题时,情况变得严重[47,12],其中透视信息通常不可用或不易获取。虽然一些作品提出了某些简单的方法来标记透视图[5,46],但最近的趋势中的大多数研究人员都致力于无透视设置[25],其中他们利用卷积神经网络(CNN)的多尺度架构来回归不同分辨率的密度图[47,40,25,36,31,28,4]。为了考虑不同的人员规模和人群密度,通常采用基于块的估计方案[46,25,36,31,45,19,32,4改进是显著的,但时间成本也是昂贵的。在这项工作中,我们重新审视的角度信息,有效的人群计数。我们表明,与一个小的eff-fort上的视角采集,我们能够gener- ate不同密度的人群的透视图。我们提出将透视图集成到人群密度回归中,以提供关于图像中每个人的尺度变化的额外信息,这对于小人物区域的密度回归特别有帮助。积分直接在像素级上操作,使得所提出的方法可以是高效且准确的。总而言之,我们提出了一种用于人群计数的视角感知CNN(PACNN)我们的工作的贡献涉及两个方面,关于视角生成及其与人群密度回归的(A) 首先生成用于网络训练的地面实况透视图:根据他们与人的大小;提出了特定的非线性函数以基于透视几何形状来拟合每个图像中的采样值。有了基本事实,我们训练网络直接预测新图像的透视图。(B) 透视图被明确地集成到网络中,以指导多尺度密度组合:三个输出通过网络中的两个视角感知加权层自适应地组合,其中权重在每一层中,通过以相应分辨率对预测透视图进行非线性变换来学习。最终的输出对透视失真是鲁棒的;我们由此推断整个图像上的人群密度。我们在几个标准基准上进行了广泛的实验,即。ShanghaiTech [47]、WorldExpo '10 [ 46 ]、UCFFF 50 [12 ]和UCSD[ 5 ],以显示我们的PACNN优于最先进的技术。2. 相关工作本文将人群计数文献分为传统方法和现代方法两大类。现代方法是指那些使用CNN而传统方法不使用的方法。2.1. 传统方法基于检测方法.这些方法将人群视为一组检测到的个体行人[21,42,44,37,39,3,27]。它们可以在整体方式或基于部分的方式。单片方法通常是指采用手工制作的特征(如Haar [38]和HOG[8])来训练SVM或AdaBoost检测器的行人检测[37,39,3,27]。在行人被严重遮挡或重叠的密集人群中,这些方法的效果很差。因此,在许多工作中采用基于部分的检测[18,42,44,13]来从图像中的部分计数行人。尽管实现了改进,基于检测的人群计数总体上在具有复杂背景的密集人群中严重不足。基于回归的方法这些方法基本上分为两个步骤:第一步,从人群图像中提取有效特征回归特征包括边缘特征[5,7,30,29,6]、纹理特征[7,12,24,6]等。回归方法包括线性[29,26],岭[7]和高斯[5,6]函数。早期的作品通过简单地回归标量值(人群计数)来忽略空间信息,后来的作品改为学习从局部特征到密度图的映射[7,15,16]。将个体的空间位置编码到密度图中;通过在密度图上积分来获得人群计数。在传统的人群计数方法中,视角信息被广泛应用,它提供了关于人的尺度随视角几何变化的额外信息。它通常用于归一化回归特征或检测结果[5,16,22,13]。2.2. 现代方法由于使用了强大的CNN功能,最近的人群计数工作取得了显着进展[46,2,47,25、48、35、36、31、45、23、19、20、17、33、32、4、28]。为了为了处理在一个图像中的变化的头部尺寸,多列[47,25,31,2]或多尺度[23,4,32,28]网络结构经常被用于人群密度回归。许多作品还采用基于块的方案将每个图像划分为对应于不同人群密度和规模的局部块[25,31,32,4]。比如说,[25]使用在多个尺度上提取的图像块的金字塔,并将它们馈送到不同的CNN列中;而Sam et al.[31]引入一个开关分类器,将图像中的人群块中继到具有最合适尺度的最佳CNN列。Sindagi等人[36]设计一个称为上下文金字塔CNN的系统。它由一个局部和全局上下文估计器来执行基于块的密度估计。[32]引入对抗损失以生成更清晰和更高分辨率的密度图,并设计一种新的尺度一致性正则化器,其强制来自局部块的人群计数之和是共同的。7281❥❥图2:从①轴看针孔摄像机的透视几何。笛卡尔坐标系从原点O开始,其中②轴表示垂直方向,而③轴表示光轴(深度)。 一个真实身高为100的人在地上行走,他被位于O处的相机拍摄,相机的光圈在O处。 人的头顶部和脚底部分别被映射在图像平面上的② m和② m处。从照相机光圈到像平面的距离是λ,这也被称为焦距。摄像机离地面的高度为100米。与他们地区联盟的总计数不一致。Cao等人[4]提出了一种新的编码器-解码器网络和人群计数中的局部模式一致性损失。基于补丁的测试方案也被应用到减少统计量移位问题的影响。透视信息也被用于现代方法,但通常是以隐含的方式,例如。在地面真实密度[46,47]或身体部位[11]地图的概括中规范化行人的相反,我们预测图3:SHA和SHB的透视样本[47]。在每行中,左列是原始图像,中间列是使用(6)的GT透视图,而右列是通过PACNN估计的透视图。热图中的蓝色表示较小的透视值,而黄色表示较大的值。GT透视图生成。透视图被广泛应用于[5,16,9,22,46,11]。地图P的每个像素处的GT透视值被定义为表示真实场景中该位置处的一米的像素数[46]。因此,图像中观察到的物体尺寸下面,我们首先回顾传统的方法来计算行人拥挤场景中的透视初步的。图2可视化针孔相机的透视几何形状。参考图的说明,我们可以解决类似的三角形,❢ ✭❈❍ ✮透视图直接在网络中,并使用它们来自适应地组合多尺度密度输出。那里②❤❂❀③✶(二)也有其他作品试图学习或利用不同的线索来解决图像中的透视失真[13,1]。例如,[13]使用局部一致的尺度先验图来检测和计数密集人群中的人类;而[1]则利用深度图来预测野外物体的大小并对其进行计数。❢❈②❢❂❀③✶其中,② m和②m分别是人的头部和脚部在图像平面上的观察位置因此,观察到的人的身高由下式给出,❢❍3. 感知视角的CNN❤❂②❢②❤❂③✶(三)在本节中,我们首先生成地面真实密度图和透视图;然后介绍网络ar-将(3)的两边除以(2),❍最后给出了网络训练协议。❤❂❈❍(4)3.1. 地面实况(GT)生成GT密度图生成。 GT密度图可以因此,将透视值λλ定义为:通过卷积高斯核生成中心注释③,如[47,31,36]:与头部♣❣❂❤❍✶❂❈ ❍(5)❨❣❉❣❂❳●✛❥❂✶✭③ ③日本料理(1)为了生成人群图像的透视图,[46]中的作者将每个行人的成人平均身高由于对于每个图像,λ是固定的,所以λ变成了λ的线性函数,并且保持为其中,人数表示图像中的人的总数[47]这是一个很好的例子积分的积分等于积分的积分(见图1)。②③每排相同。为了估计高度,他们手动标记了每个图像中不同位置的几个行人的高度,使得透视值在图像Fz1OzyhHyfCHy地面7282❥❥采样的位置θ i是通过θ i =θi。我是说,到CNN中,以指导在不同的低密度回归❥✶✿ ✼✺然后用线性回归方法拟合Eqn.(5)和生成整个GT透视图。数据集WorldExpo'10 [ 46 ]和UCSD [ 5 ]的透视图然而,对于像ShanghaiTech PartA(SHA)[47]和UCF CC50 [12]这样具有密集人群的数据集,它不能直接应用,因为行人身体通常在密集人群中不可见。我们注意到,类似于观察到的足的高度,头部的大小也随着透视畸变而变化因此,我们通过观察到的头部大小来解释采样的透视值,该头部大小可以按照[47]计算为在K-最近邻(K-NN)。下一步是根据采样值生成透视图传统的线性回归方法[5,46]依赖于几个假设,例如:所述照相机不在平面内旋转;拍摄场景中地面平坦;忽略行人高度差;最重要的是,采样的透视值足够准确。前三个假设对于标准人群计数基准中的许多图像是有效的,但是存在诸如相机稍微旋转的特殊情况;人们坐在体育场的不同层,并且行人高度(头部尺寸)在局部区域内显著变化。对于最后一种情况,用K-NN距离来近似行人头部尺寸并不理想;即使在密集的人群中也存在噪音,因为人与人之间的距离高度依赖于图像的阳离子(如下所述)。拟议透视图还不完美,但证明是有帮助的(见第二节)。4).另一方面,如果我们简单地将K-NN距离作为映射中的最终值,那么在我们的实验中几乎没有任何显著的好处。我们使用我们提出的方法为数据集UCF CC 50和上海科技SHA生成GT透视图。而对于SHB,行人身体通常是可见的,并且采样的透视值可以简单地通过标记几个(少于10个)行人高度来获得;与传统方式不同,仍然应用非线性拟合过程(6)。我们在图中举例说明了一些例子。SHA和SHB均为3。请注意,我们还评估了人群计数中GT透视图的线性回归,其性能低于我们的非线性方法。3.2. 网络架构我们在图中显示了网络架构。4:主干来自VGG网络[34];从Conv 4 3中,我们分支出几个数据流来执行密度和透视回归,这将在下面描述。密度图回归。我们从Conv4 3、Conv5 1 3和Conv6 1 1模拟器的输出中回归出三个密度图。深层的过滤器有更大的感受野比那些从浅层。通常,三个密度图的组合被认为适应图像中不同的人的大小。We表示为 你知道吗 ❂❢❞❡✷❣and ❉❡✸ ❂每个地方的人群密度❥ ❥考虑到上述事实,现在我们引入一种新的非线性方法来拟合透视值,旨在产生精确的透视图,该透视图清晰地强调图像中从近到远的头部大小的总体变化。首先,我们计算每个采样行的平均透视值②,以减少由于任何突然的密度或头部大小变化而导致的离群值影响我们使用一个t-函数来拟合这些平均值在其r- w指数上的分布:第1006章:一个人的世界(6)其中,x1、x2和x3是适合每个图像的三个参数该函数生成一个透视图,其值从下到上递减,并且在同一行中相同,表示图像中的垂直人物比例变化。之前已经利用局部距离尺度来帮助规范传统方法的检测[13];而分别对来自Con v43、Con v513和Con v611的三个密度图进行回归;表示图中的第1个像素;使用1 × 1Conv对它们进行回归,输出为1由于池化,所以缓存、缓存和缓存具有不同的大小:输入的分辨率为10000,而输入的分辨率和分辨率分别为10000和10000。我们将地面实况密度图降采样到每个相应的分辨率,学习多尺度密度图的解决方案。为了将它们组合起来,一种简单的方法是平均它们的输出:首先,通过解码层将解码器上采样到与解码器相同的大小;我们将其表示为解码器上采样,解码器上采样是解码器上采样;我们将解码器上采样平均为解码器将平均输出作为平均输出,将平均输出增加一个增益,并进一步与平均输出组合 以产生最终输出结果:❉❡✶ ✰❯♣✭❉❡✷✰❯♣✭❉❡✸✮✮在现代基于CNN的方法中,它通常隐含地用于地面真值密度生成[47]。不像❉❡❂✷✷(七)在[13,47]中,视角大于局部距离尺度:我们从采样的局部尺度中挖掘可靠的透视信息,并在它们上拟合非线性函数,这确实提供了关于由于透视失真而在每个像素处的人尺度变化的附加信息。此外,我们显式地编码透视图输入的分辨率是1000,我们需要降低-也对相应的地面实况进行采样。这种组合很简单,下面我们介绍我们的透视感知加权方案。透视图回归。首先在网络中回归透视图。回归是分支的7283×1-W2WX21-WsConv6_1_1Conv5_1_3Ws×3X2PA权重WWPPX2×PA权重×❥❥❥❥❥❥❥❥❥❥❥Conv1_1-Conv4_31Conv5_2_3图4:提出的透视感知卷积神经网络(PACNN)的结构。P和P表示密度和透视图,而P和P表示估计和地面实况;绿色框“① P“表示用于上采样的去卷积层。主干网采用VGG网。 我们分别从Co n v43、Co n v513和Co n v611中生成三个密度图P1、P2和P3;两个透视图P 和P_(10)在Co_n_v_(523)之后产生。 我们通过两个透视(PA)加权层来自适应地组合多尺度密度输出,其中PA权重通过P的非线性变换来学习 和P。 我们在不同分辨率下,根据最小和最小的真实值,在损失上优化网络工作。最终的密度输出为100 0。从具有三个以上卷积层Co n v521到Co n v523的池4 2关闭。我们用P 表示Conv5 2 3之后的回归透视图。它具有输入的1/16分辨率,我们进一步将其上采样到1/8tiv evalues(在我们的工作中,非线性变换比线性变换更好)。 此函数需要是可重写的,并从对象生成可重写映射敬你我们选择sigmoid函数:获得最终透视图的输入分辨率s我 的天啊我们准备了两张透视图和你好,✶✰❡①♣✭☛s✄✭♣❡s ☞s✮✮中文 (简体)P -100 分 别 将 各 生 产 线 的 产 量还 有, 还 有 , 还 有✰❯♣✭❉❡✸✮✮❂✷and❉❡✶ 在不同的决议。地面实况透视图是下降-相应地增加以匹配估计大小。我们在图1中给出了一些估计的透视图P和它们相应的地面真值P。3 .第三章。透视感知加权。由于不同的接受❥其中,Pmax和Pmax是可以经由反向传播学习的两个参数但是,它在密度图的每个像素上都是不同的。PA加权层的后向函数计算损失函数▲相对于Δs和Δs 的 偏 导 数。我们将在后面讨论损失函数。在这里我们写出链式法则:字段大小 通常擅长估计小的头,▲ 埃克塞特❉❡✷ 中等个头, 大头。我们知道❂你好,埃克塞特埃克塞特一般来说,人的尺寸随着年龄❂❳❅▲✭❞❡✷ 你知道吗,你好,你好,你好,透视价值为了利用估计的前景,tiv e mapsP s 和P,我们添加两个透视图-aw are(P A)你好,❥ ❥(十)网络中的加权层(见图1)。4)具体适应组合的, 而且,在两个水平线上。两个PA加权层以类似的方式工作,以给出同样,我们也有❅▲ ❅▲❂❳✭❞❡✷ 你好,我是说,你好,我是说,你好,我是说,如果它擅长检测较小的头部,则密度图在较小的头部区域上具有较高的权重,反之亦然。我们首先埃克塞特你好,❥ ❥(十一)配制所述抗氧化剂和抗氧化剂之间的组合:埃克塞特 ❂❲s☞❉❡✷其中,表示逐元素(Hadamard)乘积,并且埃克塞特 的组合输出。s输出的输出值为 可以进一步上采样和组合使用另一个PA加权层进行加权:❉❡❂❲☞❉❡✶ 第12章:你是我的女人(12)其中,P视角感知加权层;它是由AP-✇❂❢✭♣❡✮ ❂✶中国(13)对透视图进行非线性变换,❥ ❥❥11Conv11Conv11Conv11Conv池5_1池4_1池4_2✶7284✖✰ ✖✛伊什❖❡❡✶✷❊✐●✐✶❳❳和是两个类似于(9)中 的 和的参数;可以按照(10,11)写出它们的反向传播。与在组合中给出相同权重的(7)中的平均运算相比,所提出的透视加权方案(8)给出了关于组合的不同权重,❉❡✷ 而且, 在图像的不同位置,使得最终输出对于透视失真是鲁棒的。3.3. 损失函数与网络训练我们在多任务网络中回归透视图和密度图。在每个特定任务中,典型的损失函数是均方误差(MSE)损失▲▼损失,它总结了估计图和地面实况图之间的像素欧几里德距离。MSE损失没有考虑地图中的局部相关性,同样在[4]中,我们采用DSSIM损失来衡量估计地图与地面实况地图之间的局部模式一致性。DSSIM损耗▲ε εε ■▼源自结构相似性(SSIM)[43]。任务的全部损失是,▲✭✂✮❂▲▼❙❊✰✕▲❉❙❙■▼◆❂❳❦❊✭❳❀✂✮●❦✷1骨干Conv1x1x1池X22ConvConv1x1x1池X2ConvConv1x1x13图5:不使用透视图的网络架构(表示为PACNN w/oP)。参考(7),多尺度密度输出适于相同的分辨率并被平均以产生最终预测。实践训练是用随机梯度下降(SGD)分两个阶段进行优化的。阶段1:我们使用图5中的架构来优化密度回归;阶段2:我们通过添加透视感知加权层来微调模型以联合优化透视和密度回归。4. 实验✷◆✐ ✐✷✐❂✶◆✶ ✶✰ ✕✭✶❙❙■▼✐ ✭❥✮✮◆▼✐❂✶❥(十四)4.1. 数据集上海科技[47]. 它由1,198张带注释的图像组成,共有330,165人带有头部中心注释。该数据集分为SHA和SHB两部分人群❙❙■▼✭✷✖❊✐✖●✐ ✰❈✶✮✭✷✛❊✐●✐ ✰❈✷✮❂✁与SHA相比,SHB中的图像更稀疏:平均✐✷ ✷❊✐● ✐ ✰ ❈✶✷✷✰❈✷人数分别为123.6人和501.4人。在[47]之后,我们使用300张图像进行训练,使用182张图像进行其中,k是所提出的网络中的一组可学习参数;k是输入图像,◆是训练图像的数量,并且▼是地图中的像素数量;Feat是平衡▲▼ k和▲ kk k ■▼的权重。 我们用和●表示任务的相应估计地图和地面实况地图。平均值(平均值,平均值)和标准差(平均值,平均值)在SSIM中,使用高斯滤波器计算每个点处的高斯滤波器区域内的标准偏差为1的滤波宗教法庭我们省略了方程中均值和标准差对像素间距对于透视回归任务P,我们得到其损失通过将P和P分别替换为和●,保留,我们从(14)中得到了▲P;而对于密度回归任务,我们通过将和●相应地替换为和,得到了它的损失▲我们提供整体损失函数,▲▲P▲P▲P s ▲▲(15)如S e c. 3.2,▲Ps 是P的次损失,▲刘翔,▲刘翔 和▲ 是三个子损失,分别为:我们根据经验为这些子损失设定了较小的损失权重我们注意到,地面实况透视图和密度图经过预处理,在SHA中的测试;400张图像用于训练,316张图像用于SHB中的测试。[ 46 ]第它包括3,980帧,这是从上海2010年世博会。3,380帧用作训练,其余帧用作测试。测试集包括五个不同的场景,每个场景有120帧一个.在每个场景中提供感兴趣区域(ROI),使得仅在每个帧中的ROI中进行人群计数该数据集中的人群相对稀疏,平均每个图像的行人数量为50.2。UCF CC 50 [12]. 它有50个图像,总共有63,974个头部标记。每张图像的人头数在94到4,543之间小数据集大小和大计数方差使其成为一个非常具有挑战性的数据集。在[12]之后,我们进行了5次交叉验证,以报告平均测试性能。UCSD [5]. 该数据集包含从UCSD校园中的一个监控摄像头中选择的2000帧。帧大小为158 238,以10 fps的速度记录。平均每帧只有25人左右它为每个视频帧提供ROI在[5]之后,我们使用框架从601到1400帧作为训练数据,剩余的1200帧作为测试数据。✰ ✛72854.2. 实施细节和评估协议每个头部中心的地面实况注释在标准基准中公开可用。对于Wolld-Expo '10和UCSD,提供了地面真实透视图。对于上海科技和UCF,地面实况透视图的生成方法见第3.11.给定一个训练集,我们通过从每个图像中随机裁剪9个补丁来增强它。每个补丁都是原始图像的100倍所有补丁都用于训练我们的PACNN。主干采用VGG-16 [34],在ILSVRC分类数据上进行预训练。我们将批量大小设置为1,学习率为1 e-6,动量为0.9。我们在第一阶段训练100个epoch,而在第二阶段训练150个epoch(第二节)。3.3)。网络推理是对整个图像的。我 们 通 过 平 均 绝 对 误 差 ( MAE ) 和 均 方 误 差(MSE)评估性能,如以前的作品中常用的[46,47,31,25,41]:小MAE和MSE值表示良好的性能。4.3. 关于ShanghaiTech消融研究。我们进行了消融研究,以证明利用多尺度和视角感知的加权计划PACNN。结果示于表1中。关于SEC 3.2,无菌,无菌 而且, 应该分别向小、中、大头多开火。看一下表1,即, ❉❡✷ 而且, 对SHA的敏感度分别为81.8、86.3和93.1; SHB组分别为16.0、14.5和18.2。SHA的人群密度远高于SHB,SHA的人群大多非常小,而SHB的人群大多为中等/中等-小型。在表1中反映出,一般来说,SHA上的性能更好,而SHB上的性能更好为了证明PA加权方案的合理性,我们将PACNN与平均加权方案进行了比较(见图1)。5)在表1中。直接在一个像素上切换 和上采样后的 而且, (PACNNw/oP)在SHA和SHB上产生MAE和MSE的显著例如,MAE降至76.5,而❉❡✶在SHA上;12.9与14.5相比, 关于SHB 相比之下,使用PA权重来适应性地组合最 小 化、最小化和最 小化显著降低了SHA和SHB上的MAE 和MSE:它们在SHA上分别为66.3和106.4;在SHB上分别为8.9和13.5与最先进的技术相比。我们将PACNN与表1中的最新技术[36,32,20,17,28,4]进行了比较。与之前的最佳结果相比,PACNN在SHA上产生最低的MAE66.3,在SHB上产生最低的MSE 13.5,在SHA上产生第二低的MSE 106.4,在SHB上产生MAE 8.9 [4,32]。我们注意到,许多以前的方法采用基于补丁的推理[36,32,4],其中模型-1 上 海 科 技 的 地 面 实 况 透 视 图 可 以 从 这 里 下 载 :https://drive.google.com/open?ID=117MLmXj24-vg4Fz0MZcm9jJISvZ46apK上海科技推理沙SHBMaeMSEMaeMSE❉❡✶图像81.8131.116.021.9❉❡✷图像86.3138.614.518.7❉❡✸图像93.1156.418.225.1PACNN w/o P图像76.5123.312.917.2PACNN图像66.3106.48.913.5PACNN +[17]图像62.4102.07.611.8Cao等人[4]美国贴片67.0104.58.413.6Ranjan等人[28日]伊马格河68.5116.210.716.0Li等人[17个]图像68.2115.010.616.0Liu等人[20个]-73.6112.013.721.4Shen等人[32个]贴片75.7102.717.227.4Sindagi等人[36个]贴片73.6106.420.130.1表1:PACNN的消融研究及其与上海T ech数据集上最新技术水平的比较。图中的密度图分别表示从Conv4 3、Conv5 13和Conv6 1 1回归的密度图。4,分别。“推断”表示它是基于补丁还是基于图像。“-”表示论文中未提及。“imag e“表示[ 28 ]中的两阶段推理。 PACNNw/oP表示我们的网络不使用透视图(见图1)。(五)。通常采用滑动窗口策略进行协商我们在表1中说明了每个方法的推理类型。基于补丁的推理可能非常耗时,因为从图像中裁剪补丁并调整补丁大小以及合并其结果的额外成本。另一方面,PACNN采用基于图像的推理,并且可以非常快;例如,在具有Nvidia GTX Titan XGPU的相 同 Caffe [14]框架 中,我 们的PACNN 对于1024*768输入的推理时间仅为230 ms,而基于补丁的推理时间可能更长(例如,5x)在我们的实验中慢。如果我们将我们的结果与先前的基于图像的推理的最佳结果进行比较(例如,[17]),我们的显然更好。我们可以进一步将我们的方法与[17]结合起来,通过采用其经过训练的骨干,我们实现了最低的MAE和MSE:62.4和102.0,SHB为7.6和11.8这证明了我们的方法在实际应用中的鲁棒性和效率图6示出了一些示例。4.4. 关于UCF CC 50我们在表2中将我们的方法与UCF CC 50上的其他最先进方法[36,20,17,28,4]进行了比较。我们的方法PACNN达到MAE 267.9和MSE 357.8;而最佳MAE为[ 4 ]的258.4,MSE为[ 36 ]的320.9。我们还提供了PACNN + [ 17 ] 的 结 果 , 它 产 生 了 最 低 的 MAE 和MSE:241.7和320.7。我们注意到[17]中用于与PACNN结合的骨干模型是我们自己训练的我们复制的模型产生的MAE和MSE(262.5和392.7)略低于[17]中的结果7286UCF CC 50MaeMSESindgai等人[36个]295.8320.9Liu等人[20个]279.6388.5Li等人[17个]266.1397.5Ranjan等人[28日]260.9365.5Cao等人[4]美国258.4344.9PACNN267.9357.8UCSDMaeMSEZhang等人[47个]1.603.31Onoro等人[25日]1.51-Sam等人[三十一]1.622.10Huang等人[第十一届]1.001.4048 181 361 106850 168 385 991图6:ShanghaiTech数据集上的结果。我们在下面展示了四张测试图像及其估计密度图。地面实况和估计的人群计数分别位于真实图像和相应密度图的右侧。表2:PACNN与UCF CC 50数据集上其他最新技术的比较。世界博览会S1S2S3S4S5Avg.Sindagi等人[36个]2.914.710.510.45.88.9Xiong et al. [45个]6.814.514.913.53.110.6Li等人[17个]2.911.58.616.63.48.6Liu等人[20个]2.013.18.917.44.89.2Ranjan等人[28日]17.012.39.28.14.710.3Cao等人[4]美国2.613.29.013.33.08.2PACNN2.312.59.111.23.87.8表3:PACNN与WorldExpo'10数据集上其他最先进技术的比较。报告每个测试场景的MAE,最后取平均值。4.5. WorldExpo'10的结果参考[46],培训和测试都在WorldExpo'10的每个场景提供的ROI内进行。每个测试场景的MAE都有报告,并取平均值以评估整体性能。我们在表3中将我们的PACNN与其他最先进的[36,45,19,17,28,4]进行了比较。可以看出,尽管PACNN在每个特定场景中的表现都不优于现有技术,但它在五个场景中产生最低平均MAE 7.8。透视信息通常有助于各种场景中的人群计数。4.6. 关于UCSD该数据集中的人群分布不均匀,并且由于透视失真,人员规模发生了急剧变化。透视图最初是在表4:PACNN与UCSD数据集上其他最新技术的比较。该数据集根据其在真实场景中的近似大小来加权人群分段中的每个图像位置我们在表4中评估了我们的PACNN:与最新技术水平[47,25,11,31,17,4]相比,PACNN将MAE和MSE显著降低至最低:0.89和1.18,这证明了我们的透视感知框架的有效性。此外,该数据集中的人群通常比其他数据集中的人群更稀疏,这表明我们的方法在不同人群密度下的5. 结论在本文中,我们提出了一个视角感知卷积神经网络自动估计的人群计数的图像。提出了一种新的生成GT透视图的方法,用于PACNN的训练,使得在测试阶段,它可以预测透视图和密度图。透视图被编码为两个透视感知加权层,以自适应地组合多尺度密度输出。实验结果表明,该方法对人群图像中的透视畸变具有较好的鲁棒性。在标准人群计数基准上的大量实验表明,该方法的效率和有效性超过了现有技术。致谢。本工作得到了国家自然科学基金61828602和61733013的资助。杨朝晖、徐超获得国家自然科学基金61876007、61872012资助我们感谢Yannis Avritis博士对透视几何的讨论,感谢Yannis Avritis博士对透视几何的讨论。霍尔格·凯撒校对。7287引用[1] Carlos Arteta,Victor Lempitsky,and Andrew Zisserman.在野外数数。 在ECCV,2016年。3[2] Lokesh布米纳坦SrinivasSS Kruthiventi和R·文卡特什·巴布Crowdnet:用于密集人群计数的深度卷积ACM MM,2016。2[3] 加布里埃尔J布罗斯托和罗伯托Cipolla。人群中独立运动的无监督贝叶斯检测。CVPR,2006。一、二[4] Xinkun Cao,Zhipeng Wang,Yanyun Zhao,and Fei Su.规模 聚合 网络 ,用 于准 确和高 效的 人群 计数 。在ECCV,2018。二三六七八[5] Antoni B Chan , Zhang-Sheng John Liang , and NunoVas- concelos.隐私保护人群监测:没有人模型或跟踪的情况下计算人数。CVPR,2008。一二三四六[6] 安东尼B陈和努诺Vasconcelos。统计低水平特征和巴氏回归的人。IEEE Trans-actions on Image Processing,21(4):2160-2177,2012。一、二[7] 陈克,陈昌来,龚少刚,和托尼·席昂.用于局部人群计数的特征挖掘在BMVC,2012年。一、二[8] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图。在CVPR,2005年。2[9] 卢卡·菲亚斯基,乌尔里希·柯尔特,拉胡尔·奈,弗雷德·阿哈姆-普雷希特。学习使用回归森林和结构化标签进行计数。载于ICPR,第2685-2688页,2012年。第1、3条[10] Xiao-Shan Gao,Xiao-Rong Hou,Jianliang Tang,andHang-Fei Cheng.透视三点问题的完全解分类。IEEETransactionsonPatternAnalysisandMachineIntelligence,25(8):930-943,2003. 1[11] Siyu Huang , Xi Li , Zhongfei Zhang , Fei Wu ,Shenghua Gao,Rongrong Ji,and Junwei Han.身体结构感 知 深 度 人 群 计 数 。 IEEE Transactions on ImageProcessing,27(3):1049-1059,2018。一、三、八[12] Haroon Idrees、Imran Saleemi、Cody Seibert和MubarakShah。密集人群图像中的多源多尺度计数。CVPR,2013。一、二、四、六[13] Haroon Idrees,Khurram Soomro和Mubarak Shah。使用局部一致尺度先验和全局遮挡推理在密集人群中检测人类。TPAMI,37(10):1986-1998,2015。二、三、四[14] 杨庆贾、埃文·谢尔哈默、杰夫·多纳休、谢尔盖·卡拉耶夫、乔纳森·朗、罗斯·吉希克、塞尔吉奥·瓜达拉马和特雷弗·达雷尔。Caffe:用于快速特征嵌入的卷积架构在ACM MM,2014中。7[15] 丹孔、道格拉斯·格雷和海涛。使用视点不变训练计算人群中的行人。BMVC,2005年。一、二[16] Victor Lempitsky和Andrew Zisserman。学习计算图像中的物体。在NIPS,2010年。一、二、三[17] 李玉红,张晓凡,陈德明。Csrnet:用于理解高度拥挤场景的扩展卷积神经网络。在CVPR,2018年。二七八[18] 林胜福、陈兆业、赵宏信。使用透视变换估计拥挤场景中的人数。TSMC-A,31(6):645-654,2001。2[19] Jiang Liu,Chenqiang Gao,Deyu Meng,AlexanderG. 豪普特曼Decidenet:通过注意力引导检测和密度估计来计算不同密度的在CVPR,2018年。二、八[20] 刘霞蕾,约斯特·魏杰,安德鲁·D·巴格丹诺夫。通过学习排名来利用未标记的数据进行人群计数在CVPR,2018年。二七八[21] Yuting Liu,Miaojing Shi,Qijun Zhao,Xiaofang Wang.点入,框出:除了在人群中计算人数。在CVPR,2019年。一、二[22] 陈昌来,陈可,龚少刚,陶祥昂.人群计数和分析:方法和评价。在人群的建模,模拟和视觉分析中,第347-382页。Springer,2013. 一、二、三[23] 张璐,施妙静,陈乔波。通过规模自适应卷积神经网络的人群在WACV,2018。2[24] AN Marana,L da F Costa,RA Lotufo和SA Velastin。纹理分析在人群监测中的有效性在SIB中-GRAPI,1998年。2[25] 丹尼尔·奥诺罗-卢比奥和罗伯托·J·洛佩斯-萨斯特雷。通过深度学习实现无视角对象计数。在ECCV,2016年。一、二、七、八[26] 尼科斯·帕拉吉奥斯和维斯瓦纳坦·拉梅什基于磁共振频率的地铁实时监测方法。载于CVPR,2001年。2[27] 文森特·拉博和塞尔日·贝隆吉计算拥挤的移动物体。CVPR,2006。一、二[28] Viresh Ranjan、Hieu Le和Minh Hoai。迭代人群计数。ECCV,2018年。二七八[29] Carlo S Regazzoni和Alessandra Tesei。实时拥挤估计的分布式数据融合Signal Processing,53(1):47-63,1996. 2[30] David Ryan , Simon De
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AA4MM开源软件:多建模与模拟耦合工具介绍
- Swagger实时生成器的探索与应用
- Swagger UI:Trunkit API 文档生成与交互指南
- 粉红色留言表单网页模板,简洁美观的HTML模板下载
- OWIN中间件集成BioID OAuth 2.0客户端指南
- 响应式黑色博客CSS模板及前端源码介绍
- Eclipse下使用AVR Dragon调试Arduino Uno ATmega328P项目
- UrlPerf-开源:简明性能测试器
- ConEmuPack 190623:Windows下的Linux Terminator式分屏工具
- 安卓系统工具:易语言开发的卸载预装软件工具更新
- Node.js 示例库:概念证明、测试与演示
- Wi-Fi红外发射器:NodeMCU版Alexa控制与实时反馈
- 易语言实现高效大文件字符串替换方法
- MATLAB光学仿真分析:波的干涉现象深入研究
- stdError中间件:简化服务器错误处理的工具
- Ruby环境下的Dynamiq客户端使用指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功