密集人群中的成分损失计数与密度

106 浏览量更新于2023-10-13 收藏 1.71MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

密集人群中的成分损失计数、密度Haroon Idrees1、Muhmmad Tayyab5、Kishan Athrey5、DongZhang2、Somaya Al-Maadeed3、Nasir Rajpoot4和Mubarak Shah51卡内基梅隆大学2NVIDIA Inc.3卡塔尔大学4英国华威大学计算机科学系5中央佛罗里达抽象。每年有数百万人的多个人群聚集，活动范围从朝圣到抗议，从音乐会到马拉松，从节日到葬礼;视觉人群分析正在成为计算机视觉中的新前沿。特别是，在高度密集的人群中进行计数是一个具有挑战性的问题，在人群安全和管理以及衡量抗议和示威的政治意义方面具有深远的适用性。在本文中，我们提出了一种新的方法，同时解决的问题的计数，密度图估计和定位的人在一个给定的密集人群图像。我们的公式是基于一个重要的观察，即这三个问题是内在相关的，使得优化深度CNN的损失函数是可分解的由于定位需要高质量的图像和注释，我们引入了UCF-QNRF数据集，该数据集克服了以前数据集的缺点，包含125万人手动标记的点注释。最后，我们提出了评估措施，并与最近的深度CNN网络进行了比较，包括专门为人群计数开发的网络。我们的方法在新的数据集上显著优于最先进的技术，这是最具挑战性的数据集，在最多样化的场景集中具有最大数量的人群注释关键词：人群计数·定位·卷积神经网络·成分损失1引言从社会政治和安全的角度来看，对密集人群进行计数具有重要意义。在光谱的一端，存在大型仪式聚会，诸如在朝圣者年龄期间，其通常具有在已知和预定义的位置发生的大量人群。虽然他们通常有被动的人群为了和平的目的聚集在一起，但灾难已经发生，例如，在爱游行[9]和朝觐[1]期间。对于活跃的人群，例如示威和抗议中的表达性暴民，计数从政治和安全的角度来看都很重要。不同方面声称不同的人群聚集人数是非常常见的，倾向于他们在有关问题上的政治立场。超越主观性和对某些政治或2H. Idrees等人（一）（b）第（1）款图1：该图突出了由于来自两个现有密集人群数据集的低分辨率图像而引起的问题：（a）示出了其中由于实际上不可能区分相邻人的头部而未在图像的部分上进行注释的情况，而（b）示出了其中一些位置/计数是错误的并且因此不适合于定位的情况本文提出的UCF-QNRF数据集克服了这些问题。社会结果，来自对立方的不同计数估计也有数字认知的基础在人类中，subitizing [21]的结果表明，一旦观察到的物体数量增加到4个以上，大脑就会从精确的因此，基于计算机视觉的人群计数提供了对此类事件中的人数的替代的快速且客观的估计。此外，人群计数可扩展到其他领域，例如，从显微镜图像中计数细胞或细菌[17，27]，野生动物保护区中的动物人群估计[2]，或估计交通枢纽或交通拥堵处的车辆数量[19]。在本文中，我们提出了一种新的方法，人群计数，密度图估计和定位的人在一个给定的人群图像。我们的方法源于这样一种观察，即这三个问题是非常相互关联的--事实上，它们可以相互分解。计数提供了对人/物体的数量的估计，而没有关于其位置的任何信息。可以在多个级别计算的密度图提供关于每个人的位置的弱信息。定位确实提供了准确的位置信息，然而，由于其非常稀疏的性质，直接估计是非常困难的。因此，我们建议同时估计所有三个任务，同时利用每个任务都是另一个任务的特殊情况这一事实密度图可以被此外，我们还介绍了一个新的、迄今为止最大的数据集，用于训练和评估密集人群计数、密度图估计和定位方法，特别适用于训练非常深的卷积神经网络（CNN）。虽然计数传统上被认为是研究的主要焦点，但密度图估计和定位具有超出计数的意义和实用性。特别地，两个应用是值得注意的：用于在密集人群中跟踪的人的初始化/检测[13];以及校正来自自动计算机视觉算法的计数误差。也就是说，对于希望没有任何误差地估计真实图像的精确计数的真实用户或分析员，单独计数的结果是不够的。的密集人群3数据集Number图像Number注释平均计数最大计数平均决议平均密度UCF CC 50 [12]5063,974127946332101× 28882.02×10−4[29]第二十九话3980225,21656334576 ×7201.36×10−4上海科技大学A [30]482241,6775013139589 ×8689.33×10−4UCF-QNRF15351,251,642815128652013 ×2902 1.12×10−4表 1 ：不同数据集的统计摘要。 UCF CC 50 （ 44MB ） ; World- Expo'10（325MB）;上海科技大学A（67 MB）;以及UCF-QNRF数据集（4.33GB）。整个图像的单个数字使得难以评估误差或误差源。然而，定位可以提供个体的点位置的初始集合，然后用户可以快速地浏览图像并去除假阳性并添加假阴性。使用这种方法的计数将更加准确，并且用户可以获得查询图像的100%精确计数当图像样本的数量很少并且期望可靠的计数时，这是特别重要的在2013年之前，人群计数的大部分工作都集中在低密度场景上。例如，UCSD数据集[4]包含2，000个视频帧，其中有49，885个注释的人。与许多最近的数据集相比，该数据集是低密度和低分辨率的，其中训练和测试分割属于单个场景。WorldExpoUCF数据集[12]包含50个不同的图像，每个图像的计数范围在96和4，633每个图像都有不同的分辨率、摄像机角度和人群密度。虽然它是第一个密集人群图像的数据集，但由于当时高分辨率人群图像的可用性有限，它在注释方面存在问题（图1）ShanghaiTech人群数据集[30]包含1，198个带注释的图像，总共有330，165个注释。该数据集分为两个部分：A部分包含482张图像，B部分包含716张图像。训练图像的数量在两个部分中分别为300和400只有A部分中的图像包含高密度人群，具有482个图像和250K注释。表1总结了用于密集人群计数的多场景数据集的统计建议的UCF-QNRF数据集具有最多的高计数人群图像和注释，以及包含最多样化集合的更广泛的场景视点、密度和照明变化。与WorldExpo'10 [29]和ShanghaiTech [30]相比，分辨率较大，如图所示。第2段（b）分段。平均密度，即，在所有图像上每像素的人数也是最低的，这意味着高质量的大图像。较低的每像素密度部分地是由于包括背景区域，其中存在许多高密度区域以及零密度区域。上海数据集的A部分也有高计数的人群图像，但是，它们被严重裁剪为仅包含人群。另一方面，新的UCF-QNRF数据集包含建筑物，植被，天空和道路，因为它们存在于野外捕获的现实这使得这个数据集更真实，也更困难。类似地，图2（a）示出了数据集中计数的多样性建议数据集的分布与UCF CC 50 [12]相似，但是，新数据集为30和4H. Idrees等人×（b）第（1）款图2：（a）该图显示了四个数据集之间图像计数的相对分布。所提出的UCF-QNRF数据集具有来自所有五个计数范围的相当数量的图像。(b)该图显示了新数据集中所有图像的图像分辨率的2D直方图。X轴示出行数，而y轴是列数。每个箱（500 - 500像素）用具有相应分辨率的图像的数量进行颜色编码。与UCF CC 50 [12]相比，图像和注释数量分别大20倍我们希望新的数据集将显着增加视觉人群分析的研究活动，并为密集人群构建可部署的实用计数和定位系统铺平道路。本文的其余部分组织如下。节中2我们回顾了相关的工作，并提出了建议的方法，同时人群计数，密度图估计和定位在第二节。3. UCF-QNRF数据集的收集和注释过程在第2.2节中介绍4，而这三个任务和评价措施的动机在第二节。5.实验评价和比较在第2节中给出。6.最后，我们对SEC未来的工作提出了建议。7.第一次会议。2相关工作人群计数是一个活跃的研究领域，其工作涉及问题的三个方面：[23]，[17]，[12]，[4]，[28]，密度图估计[17]，[7]，[29]，[20]，[30]和定位[18]，[22]。早期的基于回归的方法映射全局图像特征或局部补丁特征的由于这些方法仅产生计数，因此它们不能用于密度图估计或定位。这些特征是手工制作的，在某些情况下使用多个特征[4]，[12]来处理低分辨率，透视失真和严重遮挡。另一方面，CNN固有地自动学习多个特征图，因此现在被广泛用于人群计数和密度图估计。基于CNN的人群计数方法包括[16]，[29]，[30]，[19]，[2]。Zhang等人[29]交替地训练CNN以预测密度图并在块中计数，然后对所有重叠块的密度图求平均以获得整个图像的密度图。Lebanoff和Idrees [16]在深度网络中引入了欧几里得损失函数的归一化变体，以实现一致的计数性能（一）数据集中图像的百分比密集人群5--在所有密度中。[30]中的作者使用三列CNN，每个CNN具有不同的滤波器大小，以捕获不同尺度的响应。通过对预测密度图求和来获得图像的计数。Sindagi和Patel [26]提出了一种基于CNN的方法，该方法在图像中结合了全局和局部上下文信息以生成密度图。通过学习将输入图像块分类为各种密度水平来获得全局和局部上下文，随后与多列CNN的输出融合以获得最终的密度图。类似地，在Sam等人的方法中。[24]，使用在训练期间学习的切换机制将图像块中继到适当的CNN。独立的CNN回归器被设计成具有不同的感受野，而开关分类器被训练成将人群场景补丁中继到最佳CNN回归器。对于拥挤场景中的本地化，Rodriguez等人。[22]在检测期间使用密度图作为正则化器。他们优化了一个目标函数，该目标函数更倾向于在检测到的位置上生成的密度图与预测的密度图相似[17]。这会导致更好的精确度和召回率。密度图是通过在每次检测的位置放置高斯核来生成的。Zheng等[18]首先通过[17]在图像上使用滑动窗口获得密度图，然后使用整数规划在密度图上定位对象类似地，在医学成像领域，Sirinukunwattanaet al.[27]引入了空间约束的CNN用于癌细胞核的检测和分类。在本文中，我们提出的结果和分析，同时人群计数，密度图估计，并使用组合损失的建议UCF-QNRF数据集本地化。3具有成分损失的在本节中，我们介绍了分解计数、密度图估计和定位这三个相互关联的问题的损失的动机，随后是关于深度卷积神经网络的细节，该深度卷积神经网络可以同时实现这三个任务的训练和3.1成分损失令x=[x，y]表示给定图像中的像素位置，并且N是用xi注释的人数：i=1，2，. . .N作为它们各自的位置。密集的人群通常描绘人的头部，因为它们是唯一最少遮挡且最可见的部分在定位图中，仅激活单个像素，即，每个头设置为1，而所有其他像素设置为0。这使得定位图非常稀疏，因此难以训练和估计。我们观察到，相对更容易训练的“更清晰”密度图的连续计算此外，所有三个任务都应该影响计数，其是在密度或定位图上的积分。我们使用高斯核，并将其适用于我们同时解决这三个任务的问题由于人群的透视效应和可能的可变密度，单个带宽值σ不能用于高斯核，因为它可能导致靠近相机或低密度区域中的人之间的明确分离，而过度的分离可能导致高密度区域中的人之间的分离。6H. Idrees等人Conv层密集块FC层积分平均损失−→∞KK损失损失最终计数损失图图3：该图示出了所提出的用于同时估计图像中给定块的计数、密度和局部化图的架构在顶部是基础DenseNet，它只回归计数。提出的合成损失是通过多个密集块分支后的基础网络。我们还测试了附加约束对密度和定位图（用琥珀色和橙色块示出）的影响，使得在每个中积分后的计数也应该与地面实况计数一致。在其他区域模糊许多密集人群的图像描绘了整个人群，使得自动透视校正变得因此，我们建议将每个人i的σi定义为在图像的空间域中到其最近邻居的2距离的最小值或某个最大阈值τ。这确保精确地保留每个人的位置信息，而不管默认内核带宽τ如何。因此，自适应高斯核由下式给出：ΣN1.（x − x）2+（y − y）2ΣD（x，f（·））=i=12πf（σi）exp−我2f（σi）2i，⑴其中函数f用于产生连续的一组“更清晰”的定义f（σ）=σ1/k。因此，Dk=D（x， f（·））。可以看出，当k=1时，Dk为使用最近邻相关带宽和τ的非常平滑的密度图，而当k时，Dk接近二进制定位图，其中Dirac Delta函数放置在每个注释像素处。由于每个像素具有单位面积，所以定位图在注释位置处假定单位值。对于我们的实验，我们使用三个密度水平，最后一个是定位图。还有趣的是，密度水平和基础CNN之间的各种连接也用于提供中间监督，这有助于在网络早期训练基础CNN的过滤器进行√密集人群7∞×××联系我们××假设，由于对每个估计的D k进行整数运算会产生该密度水平的计数这有两个潜在的优点：1）最终计数依赖于多个源-每个捕获计数在不同的尺度上。2）在训练过程中，四个计数的平均值应等于真实值count，这隐含地强制执行了一个额外的约束，即Dk不仅应该限制-真实的密度和定位信息，但是它们的计数中的每一个也应该总和为地面实况计数。对于训练，密度和局部化图的损失函数是预测图和地面实况图之间的均方误差，即，Lk=MSE（Dk，Dk），其中k=1，2，和，回归损失Lc是欧氏的预测和地面实况计数之间的损失，而最终损失被定义为加权平均四个损失。3.2具有成分损失的我们使用DenseNet [10]作为我们的基础网络。它由4个密集块组成，其中每个块具有多个连续的11和33个卷积层。每个密集块（最后一个）之后是一个过渡层，它通过应用1×1卷积和2×2步长平均池化来2.在我们的实验中，我们使用DenseNet-201 架构。它有 6 、12、48、32套11和33个卷积层四个密集块。表2：该表示出了附加到图1中的网络的三个密度层块的滤波器尺寸3.第三章。对于密度图估计和定位，我们从DenseBlock2分支并将其馈送到我们的密度网络（见表2）。密度网络引入了2个新的密集块和三个11卷积层。每个密集块具有在先前步骤中计算的特征，与迄今为止预测的所有密度水平连接作为输入，并且学习旨在计算当前密度/定位图的特征我们使用11卷积来从这些特征获得输出密度图。密度级别1直接从DenseBlock2特征计算。在我们所有的实验中，我们使用具有步长学习率的Adam求解器我们使用0的情况。001作为初始学习率，并在每20分钟后将学习率降低2时代我们训练了整个网络70个epoch，批量大小为16。4UCF-QNRF数据集数据集集合。从三个来源收集数据集的图像：Flickr，网络搜索和朝觐的录像。朝觐的图像是经过精心挑选的层输出大小滤波器512×28 × 28密度等级11×28 × 28Σ1× 1 conΣ v密度等级2641×28 × 281× 1转换 ×43 ×3转换1×28 × 28Σ1× 1 conΣ v密度水平∞771×28 × 281× 1转换 ×43 ×3转换1×28 × 281 ×1转换8H. Idrees等人存在捕捉不同位置、视点、透视效果和一天中的时间的对于Flickr和Web搜索，我们手动生成以下查询：人群，朝觐者，旁观者人群，朝圣者，抗议人群音乐会人群。然后将这些查询传递到Flickr和Google图像搜索API。我们为每个查询选择了所需的图像数量，对于Flickr为2000，对于Google图像搜索为200。搜索将所有结果按RELE-VANCE进行排序，其中包含标题和标签，对于Flickr，我们还确保仅下载允许降低原始分辨率的图像加载（通过URL O说明符）。提取所有图像的静态链接并保存所有查询项，然后使用相应的API下载。还通过计算图像相似性检查图像的重复项，然后手动验证并丢弃重复项。初始修剪。然后手动检查初始图像集的可取性。由于以下一个或多个原因，许多图像被修剪：– 完全没有描绘人群或低密度人群的场景– 物体或除人类– 运动模糊或低分辨率– 非常高的透视效果，即相机高度与人类平均身高相似– 带有水印的图像或文本占图像10%以上的在高密度的人群图像中，可见的主要是头部。然而，看起来远离相机的人在超过一定距离后变得不可区分，这取决于人群密度、照明以及相机传感器的分辨率。在修剪过程中，我们保留了那些头部在视觉上可分离的图像这些图像与其他图像一起被注释，然而，它们随后被裁剪以确保具有有问题的注释的区域或由于难以识别人类头部而根本没有注释的区域被丢弃。我们分两个阶段执行整个注释过程。在第一阶段中，未注释的图像被给予注释者，而在第二阶段中，图像被给予校正注释中的任何错误或错误的验证者有14名注释者和4名验证者，他们的时间分别为1，300和200整个过程总共花费了2000个工时。统计该数据集有1535张jpeg图像，带有1251642条注释。通过相对于绝对计数对图像进行分类并将每第5个图像选择到测试集中来创建训练集和测试集。因此，训练集和测试集分别由1201和334幅图像组成来自[Flickr，Web，Hajj]的训练和测试图像的分布分别为[1078，84，39]和[306，21，7]。在数据集中，最小和最大计数分别为49和12，865，而中值和平均计数为425和815。4，分别。5任务的定义和量化在本节中，我们定义了三个任务和相关的量化度量。密集人群9计数：第一任务涉及估计人群图像i的计数，由下式给出 c岛虽然该测量没有给出关于图像中的人的位置或分布的任何信息，但是这对于许多应用仍然非常有用，例如，估计跨越几平方公里或英里的整个人群的大小。对于计算大量人群的应用，由于Herbert Jacob的Jacob通常采用的方法包括将区域A分成更小的部分，找到每个部分中的平均人数或密度d，计算平均密度d并将结果外推到整个区域。然而，通过自动人群计数，现在可以获得不同位置处的多个图像的计数和密度，从而允许在人群覆盖的整个区域上更准确地整合密度此外，通过多个航空图像进行计数需要制图工具来将图像映射到地球上以计算地面面积。这里的密度定义为图像中的人数除以图像覆盖的地面面积。我们建议使用与文献中相同的评价指标来完成这项任务：平均绝对误差（C-MAE）、均方误差（C-MSE）加上归一化绝对误差（C-NAE）。密度图估计相当于计算图像中每个位置处的每像素密度，从而保留关于人的分布的空间信息这与安全和监视特别相关，因为在场景中的特定位置处的非常高的密度可能是灾难性的[1]。这与计数不同，因为图像可以具有在安全限制内的计数，同时包含具有非常高密度的区域。这可能是由于图像中存在空白区域，例如安装的摄像机的墙壁和天空;以及道路、车辆、建筑物和植树造林。用于评估密度图估计的度量类似于计数，除了它们是每像素的，即，每像素平均绝对误差（DM-MAE）和均方误差（DM-MSE）。最后，我们还建议在标准化地面实况和估计密度图之后计算2D这放弃了绝对计数的影响，并强调了与地面实况相比密度分布的误差。本地化：人群计数的理想方法是检测图像中的所有人，然后计算检测到的人数。但是，由于密集的人群图像包含个体之间的严重遮挡，并且对于远离相机的那些人，每个人的像素更少，因此这不是可行的解决方案。这就是为什么大多数人群计数方法绕过显式检测并对输入图像执行直接回归的然而，对于许多应用，需要个体的精确位置，例如，以在非常高密度的人群视频中初始化跟踪算法。为了量化定位误差，通过使用贪婪关联的1-1匹配将估计位置与地面实况位置相关联，然后在各种距离阈值（1，2，3，…. . 100像素）。然后通过精确度-召回曲线下的面积L-AUC来计算定位任务的总体性能。6实验接下来，我们给出第5节中定义的三个任务的实验结果10H. Idrees等人×最终计数本地化计数GT=236;拟定=236GT=2371;拟定=1684GT=475;拟定=475GT=3653;拟定=2633密度级别2计数密度级别1计数GT=394;拟定=397GT=130;拟定=2649GT=719;拟议=748GT=2240;拟定=8389图4：该图示出了图像对，其中，相对于组成损失的四个分量，该对中的左图像具有6.1计数对于计数，我们使用所提出的方法评估了新的UCF-QNRF数据集，该方法同时使用几种最先进的深度神经网络[3]，[8]，[10]以及专门为人群计数[30]，[25]，[24]开发的深度神经网络来估计人的计数，密度图和位置为了训练网络，我们从每个训练图像中随机提取大小为448，224和112像素的补丁。在决定从图像位置提取补丁时，我们将较高的选择概率分配给具有较高计数的图像区域。方法C-MAE C-NAE C-MSEIdrees等人[12]*3150.63508MCNN [30]2770.55426编码器-解码器[3]2700.56478CMTL [25]2520.54514[24]第二十四话2280.44445[8][9]1900.50277Densenet201 [10]*1630.40226提出1320.26191表3：我们显示了使用最先进的方法与所提出的方法相比获得的计数结果。带有“*”的方法我们使用计数的均方误差作为损失函数。在测试时，我们将图像划分为224 ×224像素单元格的网格-对不能被224整除的尺寸的图像进行零填充-并使用经过训练的网络评估每个单元格通过聚合所有单元中的计数来给出最终图像计数表3总结了结果，其显示所提出的网络显著优于竞争的深度CNN和人群计数方法。在图4中，我们示出了测试集中具有最低和最高误差的图像，用于通过组成损失的不同分量获得的密集人群116.2密度图估计对于密度图估计，我们描述并比较了几种方法，直接回归人群密度在训练过程中提出的方法在深度学习方法中，MCNN[30]由具有不同滤波器尺寸的三列卷积网络组成，以捕获不同的头部尺寸，并组合所有列的输出以进行最终的密度估计。SwitchCNN[24]使用类似的三列方法DM-MAE DM-MSE DM-HIMCNN [30]0.0066700.02230.5354[24]第二十四话 0.0056730.02630.5301CMTL [25]0.0059320.02440.5024提出0.000440.00170.9131表4：密度图估计的结果：我们展示了直方图相交（HI）的结果，使用现有的最先进的方法相比，所提出的方法。网络;然而，它也采用了一个开关网络，决定哪一列应该专门处理输入补丁。CMTL [25]采用多任务网络，该网络计算图像块（人群计数分类）和密度估计的高级先验。这些网络是专门为人群密度估计而设计的，其结果在表4的前三行中报告所提出的方法的结果在表4的底行中示出所提出的方法优于现有的方法的数量级。6.3定位对于定位任务，我们采用用于密度图估计的相同网络配置来执行定位。为了获得准确的头部位置，我们通过基于阈值找到局部峰值/最大值（也称为非最大抑制）来对输出进行后处理。一旦找到峰值，我们使用1-1匹配将预测位置与地面真实位置进行匹配，并计算精度和召回率。我们使用不同的距离阈值作为像素距离，即，如果检测在地面实况的特定距离阈值内，则将其视为真阳性，否则将其视为假阳性。类似地，如果在地面实况位置内没有检测，则其变为假阴性。定位结果见表5。此表显示DenseNet[10]和Encoder-Decoder [3]优于ResNet [8]和MCNN [30]，而所提出的方法优于所有比较的方法。本地化任务的性能因此，从神经网络输出中寻找最优定位策略或将后处理融入网络是未来研究的重要方向。我们还在图5中示出了定位的一些定性结果。红点表示地面实况，而黄色圆圈是通过我们的方法估计的位置。6.4消融研究我们进行了消融研究，以验证本文中介绍的成分损失的功效，以及在设计网络的各种选择这些结果12H. Idrees等人×××方法Av. 精度Av. 召回 L-AUCMCNN [30]59.93%63.50%0.591ResNet74 [8]61.60%66.90%0.612DenseNet63 [10]70.19%58.10%0.637编码器-解码器[3]71.80%62.98%0.670提出百分之七十五点八59.75%0.714表5：该表示出了针对不同方法在四个距离阈值上平均的定位结果我们显示了平均精度，平均召回率和AUC指标。图5：使用所提出的方法的定位的两个示例。地面实况以红色描绘，并且阈值之后的预测位置以黄色示出。见表6。接下来，我们描述并提供与表中的每一行相对应的实验的细节基础网络：这一行显示了我们选择的基本网络的结果，其中是DenseNet201一个全连接层被附加到网络的最后一层，然后是一个输出计数的神经元输入面片大小为224× 224。DenseBlock4：该实验研究将包含不同密度水平的密度网络（表2）与基础DenseNet的DenseBlock4由于DenseBlock4输出大小为7 7的特征图，因此我们使用步长为4的反卷积层来对特征进行上采样，然后再输入到我们的密度网络。DenseBlock3：这个实验类似于DenseBlock4，除了我们将密度网络连接到基础网络的DenseBlock3。DenseBlock 3输出空间维度为14 - 14的特征图，而我们打算预测空间维度为28 - 28的密度图，因此我们在将其馈送到建议的密度网络之前通过使用反卷积层对特征图进行上采样。仅D1：此行表示仅在密度网络中使用密度级别1以及基础网络中计数回归成果多多密集人群13实验Mae计数MSE NAE MaeD∞MSE NAE MaeD2MSE NAE MaeD1MSE NAE基础网络1632270.395---------DenseBlock41482650.385 382765 0.956 879 1235 3.892 2015 4529 4.295DenseBlock31442360.363 295687 0.721 805 1159 3.256 1273 2936 3.982仅D1仅D1 D2&1411372332080.2610.251-------691-1058-2.45917061887249635415.6776.850Concatenate1392230.264 258508 0.634 718 1096 3.570 1910 4983 6.574是说1503410.271 405710 1.135 1015 2099 2.916 1151 3170 3.283提出1321910.258 236408 0.506 682922 2.027 1629 3600 4.396表6：该表显示了消融研究的结果。D∞对应于使用定位图估计的计数结果，而D2和D1分别表示来自两个密度图的结果与在成分损失中使用多个水平的所提出的方法相比更差仅D1和D2：与仅D1类似，此行表示在密度网络中使用密度级别1和2而不使用D∞时与单个密度水平相比，另一密度水平的结合级联：在这里，我们取两个密度和一个定位图的和以获得3个计数。然后，我们将这些计数连接到基础网络的全连接层的输出，以预测来自单个神经元的计数因此，我们让优化算法为这3个值以及全连接层的其余1920个特征找到适当的权重平均值：我们还测试了对从基础网络和三个密度水平获得的计数使用相等权重的效果。我们对每个密度/定位图求和，并取4个值的平均值（2个密度图和，一个定位和，以及来自基础网络的一个我们将此平均值视为最终计数输出-无论是在训练还是测试期间。因此，这施加了以下约束：不仅密度和定位图正确地预测人的位置，而且他们的计数应该与地面实况计数一致，而不管预测的位置如何。建议：在本实验中，密度网络与基础网络的DenseBlock2连接，然而，密度网络仅输出两个密度和一个定位图，其中没有一个连接到计数输出（见图3）。总之，这些结果表明，密度网络对这三项任务的性能有显著的贡献。最好从基础网络的中间层分支出来，然而从基础网络和密度网络来回的多个连接的想法是进一步研究的一个有趣的方向。此外，强制来自所有源的计数等于地面实况计数稍微恶化了计数性能。然而，它确实有助于估计更好的密度和定位图。最后，表6中从右到左的错误率的降低突出了所提出的组成损失的积极影响14H. Idrees等人7结论本文介绍了一种新的方法来估计密集人群图像的计数、密度图和我们表明，这三个问题是相互关联的，并且可以通过组合损失相互分解，然后可以用来训练神经网络。我们同时解决了这三个任务，计数性能受益于密度图估计和定位以及。我们还提出了大规模的UCF-QNRF数据集密集人群适用于本文中描述的三个任务。我们提供了数据集收集和注释过程的详细信息，其中我们确保仅为数据集创建高分辨率图像最后，我们提出了广泛的实验使用几个最近的深度架构，并展示了如何提出的方法能够通过详细的烧蚀研究实现我们希望新的数据集将被证明对这类研究有用，应用于安全和监控，公共基础设施的设计和扩展，以及衡量各种人群事件的政治意义鸣谢：这项工作部分是由卡塔尔国家研究基金（卡塔尔基金会成员）的NPRP资助号NPRP 7- 1711-1-312实现的。本文中的声明完全由作者负责。引用1. 朝觐悲剧的历史。The Guardian（2006），http://www.guardian.co.uk/world/2006/jan/13/saudiarabia. [访问日期：2013年7月1日]2. 阿特塔角Lempitsky，V.齐瑟曼，A.：在野外数数欧洲计算机视觉会议pp. 483-498.Springer（2016）3. Badrinarayanan，V.Kendall，A.，Cipolla，R.：Segnet：用于图像分割的深度卷积arXiv预印本arXiv：1511.00561（2015）4. Chan，A.，梁志，Vasconcelos，N.：隐私保护人群监控：在没有人模型或跟踪的情况下计算载于：CVPR（2008年）5. Chen，K.，洛伊角龚，S.，Xiang，T.：用于局部人群计数的特征挖掘。03 The Dog（2012）6. Chen，K.，龚，S.，Xiang，T.，Change Loy，C.：用于年龄和人群密度估计的累积属性空间在：IEEE计算机视觉和模式识别会议论文集。pp. 24677. 菲亚施湖 Koüthe，U.，奈河Hamprecht，F. A.：学习使用回归森林和结构化标签进行计数在：模式识别（ICPR），2012年第21届国际会议。IEEE（2012）8. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。在：IEEE计算机视觉和模式识别会议的进展。pp. 770-778（2016年）9. Helbing，D.，Mukerji，P.：群体灾难是系统性的失败：爱的游行灾难的分析。EPJData Science1（1），110. Huang，G.，刘志，Weinberger，K.Q.，van der Maaten，L.：密集连接的卷积网络. arXiv预印本arXiv：1608.06993（2016）11. Hyde，D.C.：非符号数字认知的两个系统。人类神经科学前沿5（2011）密集人群1512. Idrees，H.萨利米岛Seibert，C.Shah，M.：密集人群图像中的多源多尺度计数In：Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition（2013）13. Idrees，H.Warner，N.，Shah，M.：利用显著性和邻域运动并发性在密集人群中进行跟踪Image and Vision Computing32（1），1414. Jacobs，H.：去数人群。《哥伦比亚新闻评论》6，3615. 孔，D.，Gray ，D. ，陶，H. ：一种用于人群计数的视点不变方法In：PatternRecognition，2006.ICPR 2006年。第18届国际会议。第3卷，第1187-1190. IEEE（2006年）16. 黎巴嫩夫湖Idrees，H.：使用深度学习在密集人群中计数（2015）17. Lempitsky，V.齐瑟曼，A.：学习计算图像中的物体NIPS（2010）18. 妈，Z.，尤湖陈A.B.：在目标密度图上通过整数规划进行小实例检测。参见：CVPR（2015）19. Onoro-R ubio，D.， L o'pez-Sastre，R.J.：为了使用深度学习进行无透视对象计数欧洲计算机视觉会议。Springer（2016）20. 范，V.Q. Kozakaya，T.，山口岛Okada，R.：计数森林：基于随机森林的不确定目标群密度估计。在：IEEE计算机视觉国际会议论文集（2015）21. Piazza，M.，Mechelli，A.，巴特沃斯湾Price，C.J.：subitizing和计数是作为单独的过程还是功能重叠的过程来实现的？Neuroimage15（2），435-446（2002）22. Rodriguez，M.Sivic，J.，拉普捷夫岛Audibert，J.Y.：人群中密度感知的人员检测和In：ICCV（2011）23. 瑞恩D Denman，S.，福克斯角Sridharan，S.：使用多个本地特征的人群计数。数字图像计算：技术与应用，2009年。DICTA'09。（二零零九年）24. 萨姆D.B.Surya，S.，巴布，R.V.：用于人群计数的切换卷积神经网络IEEE计算机视觉和模式识别会议论文集。第1卷编号=3，页数=6，年份=201725. Sindagi，VA，帕特尔，V.M.：基于cnn的高阶先验与密度估计之级联多任务学习于人群计数。高级视频和基于信号的监控（AVSS），2017年第14届IEEE国际会议。pp. 1-6. IEEE（2017）26. Sindagi，VA，帕特尔，V.M.：使用上下文金字塔cnn产生高品质人群密度图。IEEEInternational Conference on Computer Vision（2017）27. Sirinukunwattana，K.，拉扎S.E.A.曾耀文，Snead，D.R.，克里市洛杉矶Rajpoot，N.M.：局部敏感深度学习用于常规结肠癌组织学图像中的核检测和分类。IEEEtransactions on medical imaging35（5），119628. Wang，C.，中国地质大学，张洪，杨湖，Liu，S.，曹X：深的人在极其密集的计数人群。第23届ACM多媒体国际会议论文集。ACM（2015）29. 张，C.，Li，H.，王，X.，Yang，X.：通过深度卷积神经网络进行跨场景人群计数。在：IEEE计算机视觉和模式识别会议论文集（2015）30. 张玉，Zhou，D.，中国科学院学报，陈淑仪，Gao，S.，Ma，Y.：通过多列卷积神经网络的单图像人群计数。IEEE计算机视觉和模式识别会议论文集（2016）

下载后可阅读完整内容，剩余1页未读，立即下载