基于卷积神经网络的密度估计方法解决图像中的人群计数问题

151 浏览量更新于2023-10-13 收藏 3.16MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

迭代人群计数Viresh Ranjan、Hieu Le和Minh Hoai石溪大学{vranjan，hle，minhhoai}@ cs.stonybrook.edu抽象。在这项工作中，我们解决了图像中的人群计数问题。我们提出了一种基于卷积神经网络（CNN）的密度估计方法来解决这个问题。一次性预测高因此，我们提出了一种用于生成高分辨率密度图的两分支CNN架构，其中第一分支生成低分辨率密度图，并且第二分支将来自第一分支的低分辨率预测和特征图合并以生成高分辨率密度图。我们还提出了一个多阶段的扩展我们的方法，在管道中的每个阶段利用所有以前的阶段的预测与先前最先进的人群计数方法的实证比较表明，我们的方法在三个具有挑战性的人群计数基准上实现了最低的平均绝对误差：上海科技、世界-Exp〇10和U C F d a t a se t s。关键词：人群计数，密度估计，多阶段CNN1介绍如今，大量人群的聚集是常见的，并且估计人群的大小对于从新闻报道到公共安全的不同目的是一个重要的问题如果没有旋转栅门来提供精确的计数，媒体和人群安全专家必须根据人群的图像和视频来估计人群的规模。然而，人工视觉估计对于人类来说是困难且费力的。人类擅长subitizing，即，预测快速和准确的计数为少数项目，但准确性与人类计数恶化的项目数量增加[7]。此外，除了几个之外，每个新项目的添加增加了大约250到300毫秒的额外处理时间[17]。因此，任何依赖于人类在拥挤场景中对人进行计数的人群监控系统都将是缓慢且不可靠的。需要一种自动计算机视觉算法，其可以基于人群的图像和视频来准确地计数拥挤场景中的人数。存在许多用于人群计数的计算机视觉算法，并且当前最先进的方法是基于密度估计而不是检测然后计数。密度估计方法使用卷积神经网络2拉詹Fig. 1.人群计数可以被视为基于CNN的密度估计问题，但是由于不同图像的像素之间的密度值该图显示了来自Shanghaitech数据集的两张图像，它们具有非常不同的人群密度。可以看出，人群计数可以从几个到几千个变化。神经网络（CNN）[9，8]输出密度值的映射，输入图像的每个像素一个可以通过对预测的密度图求和来获得最终计数估计。与检测然后计数的方法（例如，[5])密度估计方法在每个像素处的输出不一定是二进制的。密度估计已被证明比检测然后计数方法更鲁棒，因为前者不必在早期阶段提交由于人群密度值的大变化，估计每个像素的人群密度是一项具有挑战性的如图1所示，一些图像包含数百人，而另一些图像只有几个人。单个CNN很难早期的作品[20，15]通过使用多列或切换CNN架构来解决这一挑战这些CNN架构由具有不同感受野大小的三个并行CNN分支组成。在这样的架构中，具有较小感受野的分支可以很好地处理高密度图像，而具有较大感受野的分支可以处理低密度图像。最近，提出了一种五分支CNN架构[16]，其中三个分支类似于以前的多列CNN [20]，而其余两个分支充当全局和局部上下文估计器。这些上下文估计器分支预先在将图像分类为不同密度类别的相关任务上进行训练。这些先前方法的一些关键要点是：（1）使用具有不同核大小的多列CNN模型提高了人群密度估计的性能;以及（2）用从与密度估计有关的任务（例如计数范围分类）中学习的特征来扩充特征集，从而提高了密度估计任务的性能。在这项工作中，我们提出了迭代计数卷积神经网络（ic-CNN），这是一种基于CNN的人群计数迭代方法与以前的方法不同，需要三个[20，15]或更多[16]列才能实现良好的性能，我们的ic-CNN方法具有更简单的架构，包括两个用于迭代人群计数的ic-CNN34图二、该图显示了由两个列/分支组成的ic-CNN架构顶部是低分辨率CNN分支（LR-CNN），底部是高分辨率CNN分支（HR-CNN）。LR-CNN以较低的分辨率（LR）预测密度图它将预测的密度图和卷积特征图传递给HR-CNN。HR-CNN将其特征图与LR-CNN的特征图和LR和HR分别是低分辨率和高分辨率预测图。列/分支。第一个分支以较低的分辨率1的原始图像的大小，并通过预测的地图和一组卷积特征到第二分支。第二分支预测原始图像大小的高分辨率密度图。密度图包含关于图像中人群的空间分布的信息。因此，第一阶段图用作高分辨率密度图预测任务的重要特征。我们还提出了ic-CNN的多级扩展，其中我们顺序地组合多个ic-CNN以进一步提高预测密度图的质量多级流水线中的每个ic-CNN向所有后续级提供低分辨率密度预测和高分辨率密度预测图2示出了ic-CNN的示意性架构IC-CNN有两个分支：低分辨率CNN（LR-CNN）和高分辨率CNN（HR-CNN）。LR-CNN以低分辨率预测密度图，而HR-CNN以原始图像分辨率预测我们的工作重点是：1. 我们提出了ic-CNN，这是一个用于人群密度估计和计数的两阶段CNN框架2. ic-CNN 在多个人群计数数据集上实现了最先进的结果在Shanghaitech Part B数据集上，ic-CNN产生48。在平均绝对误差方面比以前发表的结果提高了3%[16]。3. 我们还提出了ic-CNN的多阶段扩展，它可以组合来自多个ic-CNN模型的预测。2相关工作人群计数是一个重要的研究问题，计算机视觉界已经提出了早期的工作解决了4拉詹人群计数作为对象检测问题[11，12]。 Lin等人[12]提取了头部轮廓的Haar特征，并使用SVM分类器将这些特征分类为头部轮廓或非头部轮廓。 Li等人[11]提出了一种基于检测的方法，其中输入图像首先被分割成前景-背景区域，并且使用基于HOG特征的头肩检测器来检测人群中的每个人。这些基于检测的方法通常无法准确地对极其密集的场景中的为了处理密集人群的图像，一些方法[2，3]提出使用回归方法来避免更难的检测问题。相反，他们提取局部补丁级特征，并学习回归函数来直接估计输入图像补丁的总计数然而，这些回归方法没有充分利用与训练数据相关联的可用注释;它们忽略了训练图像中人的空间密度和分布。一些研究人员[10，14]提出使用密度估计方法来利用所提供的训练图像的人群密度注释图Lempitsky Zisserman [10]学习了人群图像和相应的地面真实密度图之间的线性Pham等人[14]通过使用随机决策来估计人群密度图，学会了一种更鲁棒的映射。这些基于密度的方法通过避免较难的检测问题并且还利用空间注释和相关性来解决早期的基于检测和回归的方法所面临的一些挑战上述所有方法都早于深度学习时代，他们使用手工制作的功能来进行人群计数。最近的方法[18，4，20，15，13，16]使用CNN来解决人群计数问题。Wang等人。 [18]将人群计数作为回归问题，并使用CNN模型将输入的人群图像映射到其相应的计数。相反为了预测总计数，Fu等人 [4]将图像分类为五个广泛的人群密度类别，并在类似boosting的策略中使用两个CNN的级联，其中第二个CNN在第一个CNN错误分类的图像上进行训练。这些方法还忽略了人群密度注释图所提供的益处。与我们的工作最相关的方法是[20，15，16]。Zhang等人[20]提出了一种基于CNN的方法来预测人群密度图。为了处理跨不同图像的人群密度和大小的大变化， Zhang et al. [20]提出了一种多列CNN架构（MCNN），具有各种大小的滤波器和接收域。具有较小感受野和过滤器大小的CNN列负责较密集的人群图像，而具有较大感受野和过滤器大小的CNN将来自三列的特征连接并通过1×1卷积层进行处理，以预测最终的密度图。为了处理图像中密度和大小的变化，作者将每个图像划分为不重叠的补丁，并在这些补丁上训练MCNN架构。考虑到与图像分类和分割任务相关的数据集相比，注释人群计数数据集中的训练样本数量要小得多，因此在完整图像上从头开始训练CNN可能会导致过拟合。因此，MCNN的基于补丁的训练对于预防用于迭代人群计数的ic-CNN5过拟合，并且还通过用作数据增强策略来提高整体性能MCNN的一个问题是它融合了三个CNN列的特征来预测密度图。对于给定的块，期望通过选择专门分析具有类似密度值的图像的正确CNN列来使计数性能更准确。Sam等人。 [15]建立在这个想法的基础上，将三列解耦为单独的CNN，每个CNN都专注于训练补丁的子集为了决定将补丁分配给哪个CNN，作者训练了一个基于CNN的开关分类器。然而，由于训练开关分类器所需的地面真实标签不可用，作者采取了多阶段训练策略：1）在整个训练片集上训练三个密度预测CNN，2）使用来自前一阶段的计数来训练开关分类器以决定开关标签，以及3）使用由开关分类器分配的片来重新训练三个CNN。在最近的工作中，Sindagi et al.[16]进一步修改了MCNN架构，增加了两个分支，用于估计全局和局部上下文映射。全局/局部上下文预测分支预先被训练用于将图像/补丁分类为五个不同计数类别的相关任务。分类分数用于创建与图像/补丁相同大小的特征图，其用作全局/局部上下文图。将这些上下文映射与使用三分支多列CNN获得的卷积特征映射融合，并通过卷积层和1×1卷积层进一步处理所得特征，以获得最终的密度映射。3该方法在本节中，我们描述了ic-CNN的架构，其多级扩展和训练策略。ic-CNN在第3.1节中讨论。ic-CNN的多级扩展在第3.2节中讨论，训练细节在第3.3节中讨论。3.1迭代计数CNN设D ={（X1，Y1，Z1），. . . ，（Xn，Yn，Zn）}是η个（图像，高分辨率密度图，低分辨率密度图）三元组的训练集，其中Xi是第i个图像，Yi是与图像Xi相同分辨率的对应人群密度图，并且Zi是人群密度图的低分辨率版本。Yi和Zi具有相同的总计数。设fl和fh分别是将图像变换成低分辨率和高分辨率密度图令低分辨率分支（LR-CNN）和高分辨率分支（HR-CNN）的参数分别为θ1和θh注意，fl仅取决于θl，而fh取决于θl和θh两者。给定输入图像Xi，下面的解决方案定义的结构图Zc可以通过以下方式获得：通过LR-CNN分支：Zi= fl（Xi;θl）.（一）6拉詹4高分辨率分支HR-CNN的输入是：图像X i，由低分辨率分支LR-CNN计算的特征，以及Z i上的低分辨率preicti。HR-CNN将图像大小的高分辨率分辨率映射作为原始图像：Yi= fh（Xi，Zi;θl，θh）.（二）下面的解决方案在图像Xi中的人群的空间分布的基础上，在Z i上进行约束。它作为高分辨率预测任务的重要特征图。我们可以通过最小化损失函数L（θl，θh）来学习参数θl和θh：1ΣnL（θl，θh）=ni=1（λlL（fl（Xi;θl），Zi）+λhL（fh（Xi，Zi;θl，θh），Yi）），（3）其中，L（·，·）表示损失函数，并且合理的选择是使用估计值和真实值之间的平方误差。λl和λh是标量超参数，其可以用于赋予损失项中的一个更重要。使用等式（1）和（2），右手侧可以进一步简化为：L（θl，θh）= 1Σnni=1（λlL（Zi，Zi）+λhL（Yi，Yi））.（四）在测试时，给定图像Xi，我们首先通过作为通过LR-C NN的小波分解获得低分辨率输出Z（i），并且该小波分解作为卷积神经网络和低分辨率映射Z（i）到HR-CNN，其中将生成高分辨率映射Y（i）。我们使用由HR-CNN生成的高分辨率输出作为ic-CNN的最终输出。总人群计数是通过对所确定的空间图Yi中的所有像素求和而获得的。下面我们提供LR-CNN和HR-CNN分支的架构细节CNN LR-CNN分支将图像作为输入，并预测密度在1处映射原始图像的大小。LR-CNN具有以下架构：Conv3-64、Conv3-64、MaxPool、 Conv3 - 128、Conv3 - 128、MaxPool、 Conv3 - 256、Conv3 - 256、Conv3 - 256、Conv7-196、Conv5-96、Conv3-32、Conv1-1。这里，ConvX-Y意味着卷积层具有Y个滤波器，其内核大小为X×X。MaxPool是最大池化层。我们在每个卷积层之后使用ReLU非线性。HR-CNN. HR-CNN分支预测与输入图像相同大小的高分辨率密度图。HR-CNN具有以下架构：Conv 7 - 16、MaxPool、Conv 5 -24、MaxPool、Conv3 - 48、Conv 3 - 48、Conv 3 -24、Conv 7 -196、Conv 5 -96、上采样-2、Conv 3 -32、上采样-2、Conv 1 -1。这里，上采样-2是将输入上采样为其大小的两倍的双线性插值层3.2多阶段人群计数多级ic-CNN是一种网络，它结合了上一节中描述每个ic-CNN块输入低用于迭代人群计数的ic-CNN7LHL以及来自所有先前块的高分辨率预测图给定输入图像Xi，由函数fk表示的第k块的低分辨率分支输出低分辨率预测：Zk=f k（Xi，Z1：k−1，Y1：k−1，θk），（5）我我我当θk表示LR-CNN的参数时，Z1：k−1和Y1：k−1表示l i i来自输入的前k-1个块的低和高级别预测的集合X i.由函数fk表示的第k块的高分辨率分支将图像Xi、由低分辨率分支计算的特征图作为输入。branc hf k，最低的一个值表示Zk，最低的一个值表示Zk，最高的一个值表示Z kL i分辨率预测映射来自前k-1个块。因此，第kHR-CNN可以使用以下公式计算：Yk= f k（Xi，Z1：k，Y1：k−1，θk，θk）.（六）我爱我爱我注意，fk和fk不依赖于前k-1个块的参数L h和Z（1：k−1）和Y（ 1：k−1）被定义为固定输入（i. 例如，的部分我我相应的网络块被冻结）。我们可以学习参数θk和通过最小化损失函数L（θk，θk）得到θkh l hλΣnL（θk，θk）=l L（f k（Xi，Z1：k−1，Y1：k−1，θk），Zi）l hnλLi=1Σn我我+hL（f k（Xi，Z1：k，Y1：k−1，θk，θk），Yi）.（七）IIL Hi=13.3培训详细信息通过最小化来自等式（3）的损失函数L（θl，θh）来训练ic-CNN我们使用随机梯度下降算法和以下超参数（除非另有说明）：学习率10 - 4动量0 9、批量1.我们更重视等式（3）中的高分辨率损失项，并将λl和λh分别设置为10−2和102我们在多个阶段训练多阶段ic-CNN。在第k阶段，我们通过使用具有与上述相同的超参数的随机梯度下降算法来最小化等式（7）中给出的损失函数来训练第k个CNN块。一旦第k个阶段的训练收敛，我们就冻结第k个阶段的参数并继续进行下一个阶段。训练数据由人群图像和相应的地面实况注释文件组成。图像的地面实况注释指定图像中的每个人的位置，其中在该人上具有单个点。我们将该节点转换为在所有节点处均为0的二元映射，例如对于被分配值1的注释点。我们将这个二进制映射与标准偏差为5的高斯滤波器进行我们使用由此产生的密度图来训练网络。Hn8拉詹n表1.统计不同方法在Shanghaitech数据集上的误差。这个数据集有两个部分：A和B。我们使用两个度量标准将ic-CNN与以前的最先进方法进行比较：平均绝对误差（MAE）和均方根误差（RMSE）。ic-CNN（一级）是具有两个分支HR-CNN和LR-CNN的单级ic-CNNic-CNN（两阶段）是ic-CNN的两阶段变体两种ic-CNN网络在4种情况中的3种情况下都优于以前的方法。在Shanghaitech Part B数据集上，使用具有比CP-CNN [16]更简单的架构的一阶段ic-CNN，我们将先前报道的最新结果提高了48。3%使用MAE指标和46。8%使用RMSE指标A部分B部分MaeRMSEMaeRMSE[19]第十九话181.8277.732.049.8[20]第二十话110.2173.226.441.3切换CNN [15]90.4135.021.633.4CP-CNN [16]73.6106.420.130.1ic-CNN（一级）69.8117.310.416.7ic-CNN（两阶段）68.5116.210.716.04实验我们在三个具有挑战性的数据集上进行实验：上海科技[20]、世界-Expo'10 [ 19]和UC F C r w d C ou n t in g D at et [ 6]。4.1评估指标在人群计数的基础上，我们使用平均绝对误差（MAE）和均方根误差（RMSE）来评估我们提出的方法的性能。如果图像的预检测计数是C，并且真值计数是Ci，则MAE和RMSE可以计算为：‚MAE=1Σ|C.n-C|，RMSE=.1Σ（C-C（）2（8）我我ni=1，我我ni=1其中n是测试图像的数量。4.2在上海科技数据集Shanghaitech数据集[20]由1198个带注释的人群图像组成。数据集分为两部分，部分A包含482幅图像，部分B包含716幅图像。部分A被分成分别由300和182个图像组成的训练子集和测试子集。部分B被分成由400和316个图像组成的训练和测试子集人群图像中的每个人用靠近头部中心的一个点来注释总的来说，数据集由330，165个注释组成用于迭代人群计数的ic-CNN94表2.当我们改变用于ic-CNN的低分辨率分支LR-CNN的分辨率时，在Shanghaitech Part-A数据集上的HR- CNN的分辨率固定为1，即输入图像的大小。LR-分辨率HR-分辨率MaeRMSE1/8174.9131.61/4169.8117.31/2173.3124.41174.4128.3表3.变化超参数λ h的影响：Shang-haitech Part A数据集上的平均绝对误差。λl保持固定在10 −2。λhLR-CNNHR-CNN−41073.778.8−21073.073.6175.173.310279.969.8104432.674.4人A部分的图片是从互联网上收集的，而B部分的图片是在上海繁忙的街道上收集的为了避免对少量训练图像过度拟合的风险，我们在大小为H×W的随机作物上训练ic-CNN，其中H和W是训练3 3形象在表1中，我们将ic-CNN与之前的最先进的ap-CNN进行了比较。接近在四分之三的情况下，ic-CNN的性能大大优于以前的方法在Shanghaitech数据集的B部分，使用具有比五分支CP-CNN [16]更简单的架构的一级ic-CNN，我们将先前报道的最新结果提高了48。3%的MAE指标和46. RMSE指标为8% 在上海理工大学数据集的A部分，我们实现了5。相对于CP-CNN，MAE有1个绝对改善此外，对于A部分数据，两阶段ic-CNN导致1的改进。3在一阶段ic-CNN上的MAE。我们还在A部分数据上训练了一个三阶段的ic-CNN，结果是MAE = 69.4，RMSE = 116.0。由于添加第3级并没有产生显著的性能增益，因此我们没有对超过3级进行实验。在表2中，我们分析了改变中间预测的分辨率对整体性能的影响使用1导联表现的下降在表3中，我们分析了改变超参数λh对ic-CNN性能的影响。我们使用Shanghaitech Part-A数据集进行本实验。我们显示了随着标量权重λh的变化，高分辨率和低分辨率分支的MAEλl保持固定在10−2。我们可以看到，当λl与λh相当时，LR-CNN分支表现得更好，而当λh太大时，其性能会下降HR-CNN的性能随着λh从10−4变化而提高10拉詹表4. Shang-haitech数据集A部分的训练时间、参数数量和MAE。在单个GPU机器（Nvidia GTX 1080TI）上训练ic-CNN模型训练时间数量的参数Mae[20]第二十话未知1 .一、27 ×105110.2切换CNN [15]22小时1 .一、2 ×10790.4CP-CNN [16]未知六、3 ×10773.6ic-CNN（建议）10小时7 .第一次会议。9 ×10669.8表5.上海理工大学A部分数据的消融研究。HR-CNN是高分辨率分支，LR-CNN是低分辨率分支。单独的LR-CNN和单独的HR-CNN是指仅包含LR-CNN或HR-CNN的计数网络。ic-CNN是我们提出的方法，其中LR-CNN的特征和低分辨率预测图都与HR-CNN共享我们还比较了两种变体，其中LR-CNN的低分辨率映射或卷积特征映射不与HR-CNN共享。方法MaeRMSELR-CNN单独78.5133.2HR-CNN单独136.2204.0HR-CNN + LR-CNN特征（无低分辨率预测）75.1129.0HR-CNN + LR-CNN低分辨率预测（无特征）77.4130.4ic-CNN（建议）69.8117.3到102.在当λh被设置为104时的极端情况下，LR-CNN分支的性能存在大的降级，这影响了HR-CNN分支的性能。当λh为104时，低分辨率预测任务可能被忽略，网络只关注解决高分辨率任务。在这样的场景中，低分辨率预测不包含任何有用的信息，这影响高分辨率分支HR-CNN的性能。当λh设置为102时，我们获得了HR-CNN分支的最佳结果。在这种情况下，高分辨率损失不会迫使网络完全忽略低分辨率任务。在表4中，我们示出了ic-CNN、MCNN、切换CNN和CP-CNN的训练时间和参数的数量。一个ic-CNN需要10个小时的训练，而一个SwitchingCNN需要大约22个小时。ic-CNN具有比CP-CNN和切换CNN显著更少的参数。我们联系了作者的MCNN和CP-CNN，但我们没有得到这些网络的训练时间的响应。在表5中，我们分析了我们提出的ic-CNN模型的每个组件的重要性。我们看到，特征共享和低分辨率预测的反馈对于ic-CNN都很重要移除这两个组件中的任何一个都会导致性能显著下降。用于迭代人群计数的ic-CNN1114001200Avg.依靠上海科技A部GTIC-CNN100080060040020001 2 3 4 5 6 7 8 910组ID图三.不同人群密度下的性能：我们将上海科技报A部分的182张测试图像按人群数量分为10组。除最后一组外，每组有18张测试图像。我们对一个组中的人群计数取平均值以获得平均计数。GT是基础事实，ic-CNN是来自高分辨率分支的预测对于大多数计数组，ic-CNN和GT的平均计数之间的差异很小。在图3中，我们分析了ic-CNN在不同群体中的表现不同人群数量的图像。4.3E x p o '10 D时的W或Ld Expo' 10 D上的Experi me1132个W或ldExpo' 10 d摄像头的摄像头不等于108个监控摄像头拍摄的摄像头。来自103个相机的注释帧用于训练，并且来自剩余5个相机的注释帧用于测试。我们使用大小为H×W的随机作物训练ic-CNN网络。我们2 2使用在上海理工大学A部分训练的网络来初始化模型WorldExpo数据集上的实验在表6中，我们将ic-CNN与其他现有技术方法进行了比较。ic-CNN在五分之三的情况下优于这些以前的方法4.4UCF数据集UCF人群计数数据集[6]由从网络收集的50张人群图像组成数据集中的每个人都用单个点注释进行注释。图像中的人数从94到4545不等，平均每张图像1280人。UCF数据集的平均计数比前两个数据集大得多。根据以前使用该数据集的工作，我们进行了五重交叉验证，并报告了MAE和RMSE值。我们使用大小为H×W的随机作物训练ic-CNN网络。我们比较ic-3 3CNN与之前的方法进行比较，并在表7中显示结果由于数据集如果IC-CNN很小，向IC-CNN添加多个阶段可能会导致过拟合。因此，我们只在UCF数据集上使用一级ic-CNNic-CNN在这个数据集上实现了最佳的MAE，远远优于CP-CNN。平均计数12拉詹6.我的朋友对WorldExpo' 10数据集上的差异进行改进。切换CNN（具有透视）是指使用透视图来获得人群密度图的情况，而切换CNN（无透视）是指不使用透视图的情况。ic-CNN是我们提供的一个跨平台的应用程序。6例中3例优于其他入路。方法S1S2S3S4S5Avg[19]第十九话9.814.114.322.23.712.9[20]第二十话3.420.612.913.08.111.6切换CNN（无视角）[15]4.415.710.011.05.99.4切换CNN（带透视）[15]4.214.914.218.74.311.2CP-CNN[16]2.914.710.510.45.88.8ic-CNN（建议）17.012.39.28.14.710.3表7.各种方法在UCF Crowd Counting数据集上的性能。所提出的方法ic-CNN实现了最佳的MAE。方法MaeRMSE俄罗斯[10]493.4487.1Idrees et.其他[6]419.5487.1[19]第十九话467.0498.5中文（简体）452.5-[20]第二十话377.6509.1Hydra2s [13]333.7425.6切换CNN [15]318.1439.2CP-CNN [16]295.8320.9ic-CNN（建议）260.9365.54.5定性结果在图4中，我们展示了使用ic-CNN获得的Shanghaitech Part-A数据集的图像的一些定性结果。前三个是ic- CNN的成功案例，后两个是失败案例。在失败的案例中，我们看到ic-CNN有时会将树叶误分类为人群中的小人在图5中，我们显示了来自Shanghaitech Part-B数据集的图像的一些定性结果。5结论在本文中，我们提出了ic-CNN，这是一种通过基于人群密度估计的人群计数的双分支架构。我们还提出了包括多个ic-CNN的多级流水线，其中每个阶段考虑所有先前阶段的预测。我们在三个具有挑战性的人群计数基准数据集上进行了实验，并观察了我们的迭代方法的有效性。用于迭代人群计数的ic-CNN13图像地面实况LR输出HR输出502 793 512270 346 28086 114 89172 493 317566 961 744见图4。定性结果，一些成功和失败的案例。四列示出了输入图像、地面实况注释图、低分辨率预测（LR输出）和高分辨率预测图（HR输出）。总计数显示在每个密度图下方。前三行是ic-CNN的成功案例，而最后两行是失败案例。ic-CNN有时会把树叶误认为人。14拉詹图像地面实况LR输出HR输出23 26 24252 257 252183 191 186181 167 16484 109 103图五. Shanghaitech Part B数据集上的定性结果。四列示出了输入图像、地面实况注释图、低分辨率预测（LR输出）和高分辨率预测图（HR输出）。在每个密度图下面是总数，四舍五入到最接近的整数。鸣谢。这项工作得到了SUNY 2020基础设施运输安全中心的支持。作者要感谢Boyu Wang参与与所提出的技术的早期版本相关的讨论和实验作者要感谢NVIDIA的GPU捐赠。用于迭代人群计数的ic-CNN15引用1. 布米纳坦湖Kruthiventi，S.S.，巴布，R.V.：Crowdnet：用于密集人群计数的深度卷积网络。在：ACM多媒体会议论文集（2016）2. 陈A.B. Vasconcelos，N.：人群计数的贝叶斯泊松回归。在：计算机视觉国际会议论文集（2009）3. Chen，K.，Loy，C.C.，龚，S.，Xiang，T.：用于局部人群计数的特征挖掘在：英国机器视觉会议论文集（2012）4. 傅，M.，徐，P.，Li，X.，刘昆，是的M Zhu，C.：用卷积神经网络快速估计人群密度。人工智能的工程应用43，815. Hoai，M.，齐瑟曼，A.：Talking Heads：Detecting humans and recognizingtheir interactions.在：IEEE计算机视觉和模式识别会议论文集（2014）6. Idrees，H.萨利米岛Seibert，C. Shah，M.：密集人群图像中的多源多尺度计数。在：IEEE计算机视觉和模式识别会议论文集（2013）7. Kaufman，E.L.，主啊M.W. Reese，T.W.，Volkmann，J.：visualnumber的判别。TheAmer icanjornalofpsycho l ogy62（4），4988. Krizhevsky ， A.，萨茨克弗岛 Hinton， G.：使用深度卷积神经网络的ImageNet分类。神经信息处理系统进展（2012）9. LeCun，Y.，Boser，B.，Denker，J.S.，亨德森，D.：反向传播应用于handwrittenzipcoderecognition。《新欧洲共同体》1（4），54110. Lempitsky，V.齐瑟曼，A.：学习计算图像中的物体神经信息处理系统进展（2010）11. Li，M.，张志，Huang，K.，Tan，T.：基于mid的前景分割和头肩检测估计拥挤场景中的人数。在：模式识别国际会议论文集（2008）12. Lin，S.F. Chen，J.Y.，Chao，H.X.：利用透视变换估计拥挤场景中的人数。 IEEETransactionsonSystems ， Man ， andCybernetics-PartA ：SystemsandHumans31（6），64513. Onoro-Rubio ， D. 、 Lo′pez-Sastre 、 R. J. ： Towwardspee-freeo b e-jec ttingwith deep learning.在：欧洲计算机视觉会议论文集（2016）14. 范，V.Q. Kozakaya，T.，山口岛Okada，R.：计数森林：基于随机森林的不确定目标群密度估计。在：计算机视觉国际会议论文集（2015）15. 萨姆D.B. Surya，S.，巴布，R.V.：用于人群计数的开关卷积神经网络。在：IEEE计算机视觉和模式识别会议论文集（2017）16. Sindagi，VA，帕特尔，V.M.：使用上下文金字塔cnn生成高质量人群密度图在：计算机视觉国际会议论文集（2017）17. 特里克L.M.Pylyshyn，Z.W.：为什么小数字和大数字的枚举方式不同？视觉上的有限能力的前注意阶段。Psychological Review 101（1），80（1994）18. Wang，C.，中国地质大学，张洪，杨湖，Liu，S.，曹X：在极其密集的人群中进行深度统计ACM Multimedia Conference（2015）16拉詹19. 张，C.，Li，H.，王，X.，Yang，X.：通过深度卷积神经网络的跨场景人群计数。在：IEEE计算机视觉和模式识别会议论文集（2015）20. 张玉，Zhou，D.，中国科学院学报，陈淑仪，Gao，S.，Ma，Y.：通过多列卷积神经网络进行单图像人群计数。在：IEEE计算机视觉和模式识别会议论文集（2016）

下载后可阅读完整内容，剩余1页未读，立即下载