没有合适的资源?快使用搜索试试~ 我知道了~
8297通过地平面密度图和多视图融合CNN进行广域人群计数张琪安东尼B.香港城市大学计算机科学系网址:qzhang364-c@my.cityu.edu.hk,abchan@cityu.edu.hk摘要单视图图像中的人群计数在现有的计数数据集上已经取得了然而,单视图计数不适用于大且宽的场景(例如,公共公园、长地铁站台或活动空间),因为单个摄像机不能以足够的细节捕获整个场景以进行计数,例如,当场景太大而不适合照相机的视场时,太长以致于对于远处的人群分辨率太低场景图相机视图或者当有太多的大物体遮挡了大的物体时,信息提取信息对齐信息融合人群的一部分。因此,为了解决广域计数任务,需要具有重叠视场的多个相机。在本文中,我们提出了一种用于多视图人群计数的深度神经网络框架,该框架融合了来自多个相机视图的信息,以预测3D世界的地平面上的我们考虑融合框架的3个版本:后期融合模型融合了摄像机视角密度图,朴素融合模型融合了摄像机视角特征图;并且多视图多尺度早期融合模型有利于对准到相同地平面点的特征具有一致的尺度。我们在3个多视图计数数据集上测试了我们的3个融合模型,PETS 2009,DukeMTMC和一个新收集的包含拥挤的街道交叉口的多视图计数数据集。与其他多视图计数基线相比,我们的方法实现了最1. 介绍人群计数旨在估计图像或视频中的 它具有广泛的实际-世界应用,如人群管理、公共安全、交通监控或城市规划[43]。例如,人群计数可以检测铁路站台上的过度拥挤,并有助于列车时刻表规划。此外,估计的人群密度图提供了人群的空间信息,这可以有益于其他任务,例如人体检测[8,18,27]和跟踪[18,34,36]。最近,随着深度神经网络图1:所提出的多视图融合框架的流水线-工作从多个摄像机视图中提取特征图,在地平面上对齐,并融合以获得场景级地平面密度图。显示场景贴图以供参考。基于密度图的人群计数方法已经在现有的计数数据集[1,12,42]上实现了出色的性能,其中目标是对单个图像中的人群进行计数。然而,单个图像视图不足以覆盖大且宽的场景,诸如大公园或长的火车站台。对于这些宽区域场景,单个相机视图不能以不相等的细节捕获整个场景以用于计数,这是因为场景太大(宽)而不适合在相机的视场内,或者场景太长使得在遥远区域中分辨率太低。此外,单个视图不能计数仍然在场景内但被大对象完全遮挡的区域(例如,树木、大型车辆、建筑结构)。因此,为了解决广域计数任务,需要具有重叠视场的多个相机视图广域计数的目标是使用多个摄像机视图来估计整个场景的人群计数。现有的多视图计数方法依赖于前期提取技术和手工制作的特征。它们的人群计数性能受到前景提取的有效性以及手工制作的特征的表示能力的限制。考虑到DNN强大的学习能力以及性能,融合模块场景级密度图8298۪�早期融合场景级特征表示场景级密度图视图1视图2特征提取密度图估计投影正常化后期融合密度图融合视图3视图1视图2视图3相机视图密度图熔融密度图归一化权重图场景级密度图特征提取投影特征融合图2:用于多视图计数的后期融合模型和朴素早期融合模型的流水线在后期融合模型中,对单视图密度图进行融合。在朴素的早期融合模型中,融合了单视图特征图。随着使用密度图的单视图计数方法的进展,应探索基于端到端DNN的多视图计数方法的可行性。在本文中,我们提出了一种基于DNN的多视图计数方法,该方法从每个摄像机视图中提取信息,然后将它们融合在一起以估计场景级地平面密度图(见图11)。①的人。该方法由3个阶段组成:1)信息提取-使用DNN从每个相机图像中提取单视图特征图;2)信息对齐-使用相机几何模型,将来自所有相机的特征图投影到3D世界中的地平面上,使得同一个人的特征在多个视图中近似对齐,并适当归一化以去除投影效应;3)在形成融合-对准的单视图特征图被融合在一起并用于预测场景级地平面密度图。我们提出了三个版本的多视图框架,不同的是融合的信息。首先,在我们的后期融合模型中(见图1)。2顶部),为每个相机视图预测视图级密度图,投影到地平面,并融合以估计场景级密度图。我们还提出了一种投影后归一化方法,该方法消除了使密度图的总和(以及计数)失真的投影效应。第二,在我们的朴素早期融合模型中(见图11),2底部),从每个相机视图中提取卷积特征图,投影到地平面并融合以预测场景级密度图。第三,为了处理同一个人在摄像 机 视 图 中 的 尺 度 变 化 , 我 们 的 多 视 图 多 尺 度(MVMS)早期融合模型(见图1)。5)在对应位置上以一致的尺度提取特征在应用投影和融合之前在相机视图中。我们考虑2种方法来选择合适的尺度,根据距离计算的相机几何。可用于多视图计数的现有多视图数据集是PETS2009 [9]和DukeMTMC [35]。然而,PETS 2009不是一个 广 域 场 景 , 因 为 它 集 中 在 一 个 人 行 道 上 , 而DukeMTMC是一个广域场景,但不包含大量人群。为了解决这些缺点,我们从繁忙的街道交叉口收集了一个新的广域数据集,该数据集包含大量人群,更多的遮挡模式(例如,公共汽车和汽车)和大规模的变化。这个新的数据集更有效地测试了现实世界场景中的多视图人群计数。总之,本文的主要贡献是:• 我们提出了一个端到端的可训练的基于DNN的多视图人群计数框架,该框架融合来自多个摄像机视图的信息以获得场景级密度图。据我们所知,这是第一次研究场景级密度图估计多视图计数。• 我们提出了3个融合模型的基础上,我们的多视图框架(晚融合,天真的早期融合,多视图多尺度早期融合),实现更好的计数精度相比,基线方法。• 我们收集了一个由多个摄像机视角组成的真实世界广域计数数据集,这将促进多视角广域计数的研究。2. 相关工作我们简要回顾了单视图和多视图摄像机的人群计数方法。82992.1. 单视图计数传统方法。传统的单视图计数方法可分为3类[4,43]:检测、回归和密度图方法。检测方法试图通过提取手工制作的特征[38,45,48]来检测图像中的每个人,然后使用提取的特征训练分类器[10,14,46然而,当人被严重遮挡时,检测方法的性能并不理想,这限制了它们的应用场景。回归方法提取图像特征[2,6,15,19]并直接学习到人群的映射计数[3,5,29,31]。但它们的性能受到手工制作的低级特征的弱表示能力的不是直接获得计数数,[21]提出估计密度图,其中图像中的每个像素包含局部人群密度,并且通过对密度图求和来获得计数。传统的密度图方法学习手工制作的局部特征和密度图之间的映射[21,32,47,49]。基于DNN的方法使用DNN的人群计数主要集中在密度图估计上。第一个网络使用标准CNN [50]直接从图像中估计密度图。由于图像中的透视效应,尺度变化是人群计数中的一个关键问题。[51]提出了多列CNN(MCNN),由3列不同的感受野大小组成,可以模拟不同尺度的人。[39]在MCNN结构中添加了一个开关模块,以选择最佳列来匹配每个补丁的规模。[30]建议使用补丁金字塔作为输入来提取多尺度特征。类似地,[16]使用具有尺度选择注意力块的图像金字塔来自适应地融合不同尺度上的预测最近,已经提出了更复杂的网络结构来提高计数性能[1,23,25,40,41]。[42]将全局和局部上下文信息纳入人群计数框架,并提出了上下文金字塔CNN(CP-CNN)。[17]提出了一种自适应卷积神经网络(ACNN),它使用边信息(相机角度和高度)将上下文包含到计数框架中。[1]提出了尺度聚合模块来提取多尺度特征,并使用集合生成高分辨率密度图转置卷积所有这些方法都使用DNN来估计单个相机视图的图像平面上的密度图,其中不同的架构提高了跨场景和视图的性能。相比之下,在本文中,我们专注于融合同一场景的多个相机视图,以获得3D世界中的地平面密度图。2.2. 多视图计数现有的多视图计数方法可以分为-至3类:检测/跟踪,回归,3D cylin-der方法。检测/跟踪方法首先对每个场景进行检测或跟踪,得到单视点检测结果。然后,通过将单视图结果投影到公共坐标系(例如,地平面或参考视图。场景的计数通过求解对应问题获得[7,22,26,28]。基于回归的方法首先从每个视图中提取前景片段,然后使用回归模型建立片段和计数的映射关系[37,44]。基于3D圆柱体的方法试图通过最小化投影到相机视图中的人的3D位置与单个视图检测之间的间隙来找到人这些多视图计数方法主要基于手工制作的低级特征和回归或检测/跟踪框架。基于回归的方法只能给出全局计数,而当场景非常拥挤时,检测/跟踪方法不能很好地处理遮挡。与这些作品相比,我们的方法是基于预测的地面平面密度图在3D世界中融合的信息跨相机视图使用DNN。我们的方法的两个优点是能够在端到端训练中学习特征提取器和融合阶段,以及估计人群在地平面上的空间布置。虽然之前的方法主要在PETS2009上进行测试,其中仅包含人行道上的低/中等人群数量,但在这里,我们在新收集的数据集上进行测试,该数据集包括具有大量人群数量、车辆和遮挡的街道交叉口的真实场景。3. 通过多视图融合的多视图计数对于多视图计数,我们假设相机是固定的,相机校准参数(内在和外在)是已知的,并且跨视图的相机帧是同步的。给定一组多视图图像,目标是预测在3D场景的地平面上定义的场景级密度图(见图1)。①的人。地面实况地面平面密度图以与传统相机视图密度图类似的方式获得-使用人的地面实况3D坐标获得地面平面注释图,然后通过固定宽度的高斯进行在本节中,我们提出了三种用于多视图计数的融合方法:1)后期融合模型将摄像机视角密度图投影到地平面上,然后进行融合,需要进行投影归一化处理;2)早期融合模型将摄像机视角特征图投影到地平面上,然后进行融合; 3)为了处理视图间和视图内尺度变化,多视图多尺度早期融合模型(MVMS)在投影到同一地平面点时选择跨视图一致的特征尺度。我们首先介绍了COM-830000相机参数R,T; k,k,c,c,cy,.坐标对应关系图像平面位界采样器表1:FCN-7主干和融合模块。 过滤器尺寸-摄像头视图地图场景级地图Ssions是输出通道、输入通道和滤波器大小(w×h)。mon组件,然后是3个融合模型。3.1. 用于摄像机视图的全卷积网络(表示为FCN-7)用于每个摄像机视图,以提取图像特征图或估计相应的视图级密度图。FCN-7设置如表1所示。虽然更复杂的DNN,例如,[39,42,51],可以应用于摄像机视图,在本文中,我们主要关注如何有效地融合多视图信息来执行广域人群计数,因此使用FCN-7就足够了。3.2. 摄影机视图到场景投影由于我们假设摄像机的内部和外部参数是已知的,因此来自摄像机的投影可以是图3:投影模块将摄像机视图映射转换为场景级表示。在这里,相机视图图被可视化为密度图。在表1中给出。投影归一化。一个问题是密度图在投影步骤期间被拉伸,并且因此密度图的总和在投影之后改变。考虑到密度图是由一个和在高斯核中,每个高斯依赖于其在图像平面中的位置而被不同地拉伸。为了解决这个问题,我们提出了一种归一化方法,以确保每个高斯核的总和在投影后保持不变(见图2)。4).特别地,令(x0,y0)和(x,y)是图像平面和3D世界地平面表示中的对应点。地平面位置(x,y)的归一化权重wxy为2D图像空间到3D场景级表示可以是w=0ΣijD x0,y0(i,j)、(1)实现为可微分固定变换模,(见图)(3)第三章。对应于每个图像像素的3D高度(z坐标)是未知的。由于视图级密度图基于头部注释,并且即使在部分遮挡期间头部通常也是可见的,因此我们假设3D世界中的每个像素相机参数与高度假设一起用于计算2D图像坐标与3D平均高度平面上的3D 坐 标 之 间 的 对 应 映 射 P 。 最 后 , 来 自 空 间Transformer网络[13]的采样器用于实现投影,从而产生输入地图的场景级表示。3.3. 后期融合模型后期融合模型的主要思想是首先估计每个摄像机视图中的密度图,然后将它们融合在一起以获得场景级密度图。特别地,后期融合模型由3个阶段组成(见图1)。1)在每个视图上使用FCN-7估计相机-视图密度图; 2)使用投影模块将密度图投影到地平面表示; 3)逐通道连接投影的密度图,然后应用融合模块以获得场景级密度图。融合网络的网络设置xyP(Dx,y(m,n))其中Dx0,y0表示仅包含一个以(x0,y0)为中心的高斯核的图像空间密度图,P是从图像空间到地平面的投影操作,并且(i,j)和(m,n)分别是图像坐标和地平面坐标。每个相机的归一化图W=[wxy]在连接之前逐元素乘以对应的投影密度图。如示于图在归一化之后,投影密度图的总和保持与原始视图级密度图的总和相似。3.4. 幼稚早期融合朴素的早期融合模型直接融合来自所有相机视图的特征图来估计地平面密度图。与后期融合模型类似,我们通过用特征级融合替换密度图级融合来实现早期融合模型(见图11)。2 bottom- tom)。具体来说,朴素早期融合模型包括3个阶段:1)使用FCN-7的前4个卷积层从每个摄像机视图中提取特征图; 2)使用投影模块将图像特征图投影到地平面表示;FCN-7层滤波器转换器116×1×5×5Conv 216×16×5×5池化2×2Conv 332×16×5×5Conv 432×32×5×5池化2×2Conv 564×32×5×5Conv 632×64×5×5Conv 71×32×5×5融合层滤波器concat-转换器164×n ×5×5Conv 232×64×5×5Conv 31×32×5×58301这里F0是原始尺度,Fn是最小尺度。为相机视图计算距离图,其中d(x,y)是相机0 0以及点(x0,y0)在3D世界中的投影(在平均高度平面上)。比例选择图S,其中每个值对应于该像素的所选比例,使用距离图来计算,视图级密度图投影密度图归一化权重图归一化投影密度图S(x0,y0)=sr--原木d(x0,y0)n,(2)ZDR总和= 29.999总和= 50.682总和 = 28.398图4:后期融合模型的投影归一化过程。Sum是整个密度图的总和,而Sum(n)是圆圈区域的总和。场景级密度图。注意,在后期融合模型中使用的投影归一化步骤对于早期融合模型是不需要的,因为特征图不具有产生计数的求和的相同解释。3.5. 多视点多尺度早期融合视图内尺度变化是单视图计数中的一个重要问题,因为由于透视效应,人将以不同的尺寸出现在图像中。使用多视图增加了比例变化问题的严重性;除了视图内比例变化之外,多视图图像还具有视图间比例变化,其中同一个人将其中z是相邻比例之间的缩放因子,图像金字塔,并且·是地板函数。DR和SR是参考距离和对应的参考比例数,它们对于所有相机视图都是相同的。在我们的实验中,我们设置参考距离dr作为第一视图的中心像素的距离值,并且Sr作为图像金字塔的中间尺度。 考虑到规模-选择地图S,跨尺度的特征地图被合并到单个特征地图中,F=i<$(S=i)<$Fi,其中是元素乘法,指标功能可学习的尺度选择:固定比例尺选择策略需要设置参考距离和参考比例尺参数。 为了使尺度选择过程更适应视图上下文,考虑了一个可学习的尺度选择模型(图1)。5(右下)),d(x0,y0)在多个视图中以不同比例显示。这间-视图比例变化可能会在融合S(x0,y0)=b+klogz、(3)Dr阶段,因为存在出现在所有视图中的组合数量的可能为了解决这个问题,我们改为以多个尺度提取特征图,然后执行尺度选择,使得投影特征在所有视图中处于一致给定的人在所有视图中以相同的比例出现)。其中,可学习参数b对应于参考尺度,k调整参考距离。可学习的尺度选择可以实现为对数距离图上的1×1卷积。然后,可以获得用于尺度i的软尺度选择掩码Mi,e−(S(x0,y0)−i)2我们提出的多视图多尺度(MVMS)早期融合架构如图所示五、MVMS融合Mi(x0,y0)=nj=0−(S(x ,y)−j)2.(四)e0级0Σ模型包括4个阶段:1)通过将FCN-7的前4个卷积层应用于每个相机视图的图像金字塔来提取多尺度特征图;2)上采样所有比例一致特征图则为F=3.6. 培训详情iMi Fi.特征映射到最大尺寸,然后根据场景几何形状为每个相机视图中的每个像素选择尺度; 3)使用投影模块将尺度一致的特征图投影到地平面表示; 4)使用融合模块融合投影的特征并预测场景级密度图。我们考虑了两种选择一致尺度的策略,固定尺度选择和可学习尺度选择。固定比例选择。固定比例选择策略如图所示。5(右上角)。对于给定的相机,令{F0,· · ·,Fn}是从图像金字塔提取的特征图的集合,然后上采样到相同的大小。一个两阶段的过程被应用到训练模型。在第一阶段,单视图密度图与场景级密度图一起用作监督信息。每个单视图FCN-7主干都使用相机视图图像和相应的单视图密度图进行训练。学习率设置为1 e-4。在第二阶段,单视图密度图的监督信息FCN-7(密度图估计器或特征提取器)是固定的,融合和尺度选择部分进行了训练。损失函数是地面实况和预测密度图之间的逐像素平方误差。学习率被设置为1 e-4,并降低加总()/总和()wxy = 1.00/0.61(0,y0).Sum(. )=0.61Sum(. )=0.81Sum(. )=1.00..- 是的.8302视图1视图2视图3图像金字塔特征提取上采样尺度选择图5:多视图多尺度(MVMS)早期融合模型的流水线。首先,利用图像金字塔提取多尺度特征图。 多尺度特征图被上采样到相同的大小。 比例选择模块(虚线框)支持表示同一地平面点的要素的比例在所有视图中保持一致。将尺度一致性特征投影到平均高度平面上,然后进行融合,得到场景级密度图。使用两种尺度选择策略(右侧的两个虚线框):固定尺度选择使用相对于基准距离的距离信息,而可学习尺度选择使基准距离成为可学习参数。5E-5在训练中在训练了这两个阶段之后,对模型进行端到端的微调。在所有实验中,训练批次大小设置为1。4. 实验在本节中,我们将介绍使用DNN进行多视图人群计数的实验4.1. 数据集我 们 测 试 两 个 现 有 的 数 据 集 , PETS 2009 和DukeMTMC,以及我们新收集的城市街道数据集。表2提供了一个总结,图。六是举例说明。PETS 2009:PETS 2009 [9]是一个多视图序列数据集,包含来自8个视图的人群活动。前3个视图用于实验,因为其他5个视图具有低相机角度、差的图像质量或不稳定的帧速率。为了平衡人群水平,我们使用序列S1L3(14 17,14 33),S2L2(14 55)和S2L3(1441)来进行训练(总共1105张图像)和S1L1(13 57,13 59),S1L2(14 06,14 31)用于测试(794张图像)。相机的校准参数(外在和内在)与数据集一起提供。为了获得所有视图的注释,我们使用[20]提供的View 1注释并将其投影到其他视图,然后手动注释以获得图像中的所有人头。DukeMTMC:DukeMTMC [35]是用于多视图跟踪,人体检测或ReID的多视图视频数据集。多视图视频数据集具有来自8个同步摄像机的85分钟的视频,分辨率为1080p,帧速率为60 fps。对于我们的计数实验,我们使用具有重叠视场的4个相机(相机2、3、5和8)同步视频每3秒采样一次,产生989个多视图图像。前700张图像用于训练,其余289张用于测试。相机外部参数和单应性参数由数据集提供在表2:三个多视图数据集的比较。原始数据集、每个视图的注释仅在视图ROI中提供,它们在地平面上都不重叠。由于我们对重叠的相机感兴趣,因此我们将每个相机视图的注释区域R2(见图2)6)在实验期间被排除,因为那里没有提供注释。城市街道:我们收集了一个繁忙的城市街道使用5个同步相机的多视图视频数据集。视频长度约为1小时,分辨率为2.7k(2704×1520),每秒30帧。我们选择相机1,3和4进行实验-t(见图6底部)。使用[ 52 ]中的校准算法估计相机从视频中均匀采样500个多视图图像,前300个用于训练,剩余200个用于测试。地面实况2D和3D标注如下获得第一个摄像机视图的头部位置被手动注释,然后投影到其他视图并手动调整。接下来,对于第二相机视图,还注释了新的人(在第一视图中未看到重复此过程,直到场景中的所有人都被注释并在所有相机视图中关联。与PET-S(20-40)和DukeMTMC(10-30)相 比 , 我 们 的 数 据 集 具 有 更 大 的 人 群 数 量 ( 70-150)。我们的新数据集还包含更多的人群规模变化和由于车辆和固定结构造成的遮挡。实验设置:实验中使用的图像分辨率(w×h)为 : PETS 2009 为 384×288 ,DukeMTMC 为640×360,City Street为676×380场景级地平面密度图的分辨率为:场景级特征场景级密度图表示投影特征融合距离1 * 1conv可学习尺度选择۪�要素比例选择蒙版۪�特征缩放选择遮罩固定比例选择距离数据集决议视图train /test人群PETS 2009 [9]768×57631105 /79420-40[35]第三十五话1920×10804700 /28910-30城市街道2704×15203300 /20070-150830362米 * 85米58米 * 72米23110m4图6:来自3个多视图计数数据集的示例。第一列显示相机帧和注释。第二列显示相机布局和场景级地平面密度图。PETS 2009为152× 177,DukeMTMC 为160 × 120,City Street为160 × 192。 对于检测基线,使用原始图像分辨率(Faster-RCNN将调整图像大小)。4.2. 实验装置方法:我们测试了我们的3种多视图融合模型,分别称为后期融合模型使用投影归一化。MVMS使用可学习的比例选择,以及缩放因子为0.5.这些设置将在消融研究的后期进行测试。为了进行比较,我们测试了两种基线方法。第一个基线是将相机视图密度图融合到场景级计数中的简单方法首先应用FCN-7得到每个摄像机视图的密度图Di密度图然后使用对于每个视图的权重图WiΣ ΣC=Wi(x0,y0)Di(x0,y0),(5)我x0,y 0其中求和是在相机视图和图像像素上进行的权重图Wi是基于多少视图可以看到特定像素来构造的换句话说,Wi(x0,y0)=1/t,其中t是可以看到投影点P(x0,y0)的视图的数量。请注意,[37]使用这种简单的融合方法与传统的基于回归的计数(在他们的设置中,Di图基于人群斑点的预测计数在这里,我们使用了最近的基于DNN的方法和人群密度图,它们优于传统的基于回归的计数,因此与[37]相比形成了更强的基线方法第 二 个 基 线 是 使 用 人 检 测 方 法 和 人 重 新 识 别(ReID),表示为+ ReID首先,Faster-RCNN [33]用于检测每个摄像头视图中的人类。接下来,场景几何约束和ReID方法LOMO 2015 [24]用于跨视图关联相同的人。具体地,将一个视图中的每个检测框的顶部中心点投影到其他视图,并且在原始检测框与其他视图中的投影点附近的检测框之间执行ReID。最后,通过统计所有视图中检测框中唯一人物的数量来获得场景级人物计数。训练所需的边界框由头部注释和每个视图的透视图创建。评估:平均绝对误差(MAE)用于评估多视图计数性能,比较场景级预测计数和地面实况场景级计数。此外,我们还评估了每个摄像机视图中预测计数的MAE。每个摄像机视图的地面实况计数通过对摄像机注意,从相机完全遮挡但仍在其视野内的人仍被计数。4.3. 实验结果实验结果如表3所示。在PET-S2009上,我们的3种多视图融合模型在单视图计数和场景级计数方面都比两种比较方法取得了更好的结果。Detection +ReID在该数据集上的表现最差,因为人群中的人靠得很近,并且遮挡会导致严重的误检测。在我们的三种多视图融合模型中,朴素的早期融合效果较差,这表明多视图图像中的尺度变化限制了性能。此外,MVMS的性能要好PETS 2009Cpm@yp 1 Cpm@yp 2Cpm@yp 310mDukeMTMCR3R2R1Cpm@yp 2Cpm@yp 3Cpm@yp 5Cpm@yp 865米 * 88米10m城市街道Cpm@yp 1Cpm@yp 3Cpm@yp 48304数据集2009年宠物运动会[9][35]第三十五话城市街道相机123场景2358场景134场景深度图加权3.375.595.847.510.620.910.981.412.1210.1612.5521.5611.10检测+ReID8.6011.1914.619.412.060.250.963.582.2041.3832.9428.5727.60晚期融合(我们的)2.623.173.973.920.490.770.391.151.278.147.728.088.12幼稚早期融合(我们的)2.374.274.925.430.640.440.931.721.258.137.627.898.10MVMS(我们的)1.662.583.463.490.630.520.941.361.037.997.637.918.01表3:实验结果:三个多视图计数数据集的平均绝对误差(MAE)。“scene” denotes the scene-level counting error, 后期融合模型使用投影归一化,MVMS使用可学习的尺度选择。数据集PETS 2009 [9][35]第三十五话城市街道相机123场景2358场景134场景晚期融合(伴)2.623.173.973.920.490.770.391.151.278.147.728.088.12晚期融合(无)2.753.864.374.220.630.730.511.311.439.899.609.829.87MVMS(固定)1.742.573.813.820.650.460.881.441.098.117.838.327.80MVMS(可学习)1.662.583.463.490.630.520.941.361.037.997.637.918.01表4:比较有和没有投影归一化的晚期融合模型以及有固定或可学习尺度选择的MVMS的消融研究。这表明多尺度框架结合尺度选择策略可以提高特征级融合的性能。在DukeMTMC上,我们的多视图融合模型可以在场景级别和大多数摄像机视图上实现比比较方法更好的性能Detection+ReID在摄像机3上实现了最佳结果,因为该摄像机几乎平行于水平面,人员计数低,并且很少 有 遮 挡 , 这 是 检 测 器 的 理 想 操 作 机 制 。 由 于DukeMTMC中的人群数量较低,3种融合模型之间的性能差距不大,但MVMS仍然表现最好。在城市街道上,我们的3个多视图融合模型取得了比比较方法更好的效果。与PETS 2009相比,城市街道有更大的人群和更多的闭塞和规模变化。因此,基线方法的性能下降了很多,特别是Detection +ReID。我们的MVMS模型实现了比所有其他模型更好的场景级密度图和计数的示例结果可以在补充中找到。4.4. 消融研究我们在有和没有投影归一化步骤的晚期融合模型上进行了消融研究,结果见表4(顶部)。与不使用归一化步骤相比,使用投影归一化减少了后期融合模型的误差。我们还对MVMS的尺度选择策略进行了消融研究,结果见表4(底部)。在大多数情况下,可学习的尺度选择策略比固定尺度选择策略可以获得更低的误差。我们注意到,即使使用固定的尺度选择策略与MVMS仍然优于天真的早期融合,它不执行尺度选择。因此,获取在视图间具有一致比例的要素是重要的一步当融合多视图特征图时。5. 结论在本文中,我们提出了一个基于DNN的多视图计数框架,融合相机视图来预测场景级地平面密度图。研究了密度图的后期融合对于后期融合,提出了一种投影归一化方法来消除投影操作引起的拉伸效应对于早期融合,提出了一种多尺度的方法,选择具有一致的尺度跨视图的功能。为了推进多视图计数的研究,我们收集了一个新的数据集的大场景包含一个街道交叉口与大量的人群。实验结果表明,我们提出的多视图计数框架可以实现更好的计数结果比其他方法。在本文中,我们假设相机是固定的,相机参数是已知的。使我们的框架适应移动的摄像机和未知的摄像机参数(使用完整的空间Transformer网络)是未来有趣的工作。此外,我们还在每个数据集上单独训练和测试了网络。另一个有趣的未来方向是跨场景多视图计数,其中测试集中的场景与训练集中的场景不同-致谢这项工作得到中国香港特别行政区研究资助局的资助(项目编号:[T32-101/15-R]及城大11212518),以及香港城市大学策略研究资助计划(项目编号:7004887)。我们非常感谢NVIDIA公司的支持,为这项研究捐赠了Tesla K40 GPU。8305引用[1] Xinkun Cao,Zhipeng Wang,Yanyun Zhao,and Fei Su.规模聚合网络,用于准确和高效的人群计数。在欧洲计算机视觉会议(ECCV)的会议记录中,第734-750页第1、3条[2] 安东尼湾Chan,Zhang Sheng John Liang,and Nuno Vas-concelos。隐私保护人群监测:没有人模型或跟踪的情况下计算人数。在计算机视觉和模式识别中,第1-7页,2008年。3[3] 安东尼B陈和努诺Vasconcelos。 计数人使用低级特征和贝叶斯回归。IEEE Trans-actions onImage Processing,21(4):2160-2177,2012。3[4] 换陈来,陈克,龚少刚,陶希-埃人群计数和分析:方法和评估。Springer New York,2013. 3[5] K. 陈湖,澳-地C. Chen,S.Gong和T.翔特征挖掘用于本地人群计数。在BMVC,2012年。3[6] 程中伟、秦雷、黄清明、严水城、齐天。利用多线索分层模型识别人类群体行为。神经计算,136:124-135,2014。3[7] Fabio Dittrich,Luiz ES de Oliveira,Alceu S Britto Jr,and亚历桑德罗·L·科里奇。使用混合多相机方法在拥挤和户外场景中计算人数arXiv预印本arXiv:1704.00326,2017。3[8] Volker Schlelein , Hajer Fradi , Ivo Keller , ThomasSikora,and让-吕克·杜格莱使用人群密度测量和自适应校正滤波器增强人体检测。在第10届IEEE高级视频和基于信号的监视(AVSS)国际会议上,第19-24页。IEEE,2013。1[9] 詹姆斯·费里曼和阿里·沙洛克尼 Pets2009:数据集和挑战. 2009年,第十二届IEEE跟踪和监视性能评估国际研讨会,第1-6页IEEE,2009年。二、六、八[10] Juergen Gall , Angela Yao , Nima Razavi , Luc VanGool,维克多·伦毕斯基霍夫森林用于物体检测、跟踪和动作识别.IEEE transactions on pattern analysis and machineintelligence,33(11):21883[11] Weina Ge和Robert T.柯林斯使用多视图采样器进行人群检测。欧洲计算机视觉会议,第324-337页,2010年。3[12] Haroon Idrees , Muhmmad Tayyab , Kishan Athrey ,DongZhang , Somaya Al-Maadeed , Nasir Rajpoot , andMubarak Shah.在密集人群中用于计数、密度图估计和定位的成分损失。在欧洲计算机视觉会议(ECCV)的论文集,2018。1[13] 麦克斯·杰德伯格凯伦·西蒙尼安安德鲁·齐瑟曼还有科雷·卡武库奥卢空间Transformer网络。在神经信息处理系统(NIPS)的进展中,第2017-2025页,2015年。4[14] 托尔斯滕·约阿希姆支持vec的文本分类机床: 学习与许多相关的功能。在欧洲机器学习会议,第137Springer,1998年。3[15] Julio Cezar Silveira Jacques Junior , Soraia RauppMusse,and Claudio Rosito Jung. 使用计算机视觉技术进行人群分析。IEEE信号处理杂志,27(5):66-77,2010。38306[16] 迪康和安东尼陈。通过自适应融合来自图像金字塔的预测的人群计数。在BMVC,2018年。3[17] Di Kang,Debarun Dhar,and Antoni Chan. 结合通过自适应卷积获得辅助信息。神经信息处理系统的进展,第3867-3877页,2017年。3[18] Di Kang,Zheng Ma,and Antoni B Chan. 数不清-ing:用于人群分析任务的密度图比较-计数,检测和跟 踪 。 IEEE Transactions on Cir-10 and Systems forVideo Technology,2018。1[19] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展,第1097-1105页,2012年。3[20] 劳拉·里尔-塔克斯,安东·米兰,伊恩·里德,斯特凡诺·罗斯,康拉德·辛德勒Motchallenge 2015:多目标跟踪的基准。arXiv预印本arX- iv:1504.01942,2015年。6[21] Victor Lempitsky和Andrew Zisserman。学习数数图像中的物体。神经信息处理系统进展,第1324-1332页,2010年。3[22] Jingwen Li,Lei Huang,and Changping Liu. 人也算-通过多个摄像头进行智能视频监控。在IEEE第九届高级视频和基于信号的监视(AVSS)国际会议上,第178- 183页IEEE,2012。3[23] 李玉红,张晓凡,陈德明。 中国新闻网:Di-卷积神经网络,用于理解高度拥挤的场景。在IEEE计算机视觉和模式识别会议论文集,第1091-1100页,2018年。3[24] Shengcai Liao,Yang Hu,Xiangyu Zhu,and Stan Z Li.每-通过局部最大发生表示和度量学习进行子重识别。在Proceedings of the IEEE conference on computer visionand pattern recognition,pages 2197-2206,2015中。7[25] Jiang Liu,Chenqiang Gao,Deyu Meng,and AlexanderG豪普特曼Decidenet:通过注意力引导检测和密度估计来计算不同密度的人群。在IEEE计算机视觉和模式识别会议论文集,第5197-5206页3[26] Huadong Ma,Chengbin Zeng,and Charles X Ling. 再-可 靠 的 人 计 数 系 统 通 过 多 个 摄 像 头 。 ACMTransactions on Intelligent Systems and Technology(TIST),3(2):31,2012. 3[27] Zheng Ma,Lei Yu,and Antoni B Chan.小实例检测-在目标密度图上进行整数规划在IEEE计算机视觉和模式识别会议的Proceedings,第3689-3697页1[28] L.马达莱纳A. Petrosino和F.罗素. 人员计数通过学习它们在多视图照相机环境中的外观PatternRecognition Letters,36:125-134,2014。3[29] AN Marana,L da F Costa,RA Lotufo和SA Velastin。对纹理分析在人群监测中的有效性。在计算机图形
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功