学习空间感知以改进人群计数

190 浏览量更新于2023-10-12 收藏 1.45MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6152学习空间意识以改进人群计数程志奇1，2张，李俊秀1，3张，戴琦3，小吴1，Alexander G. 豪普特曼2西南交通大学1卡内基梅隆大学2微软研究院3{zhiqic，alex}@ cs.cmu.edu，{lijunxiu@my，wuxiaohk@home}. swjtu.edu.cn，qid@microsoft.com摘要人群计数的目的是估计通过利用对行人头部的中心位置的注释来识别图像中的人。随着深度卷积神经网络的流行，已经取得了有希望的进展。现有的方法广泛地采用欧氏距离（即， L2损失）来优化模型，然而，这有两个主要缺点：（1）损失在学习空间意识方面具有困难（即，头部的位置），因为它努力保持密度图中的高频变化，以及（2）该损失对人群计数中的各种噪声高度敏感，例如零均值噪声、头部尺寸变化和遮挡。虽然[16]之前已经提出了子阵列上的最大超额（MESA）损失，通过找到预测密度图与地面真实值具有最大差异的矩形子区域来解决上述问题，但它无法通过梯度下降来解决，因此很难集成到深度学习框架中。在这篇文章中，我们提出了一种新的架构称为空间感知网络（SPANet），将空间背景人群计数。最大超出像素（MEP）的损失，提出了实现这一目标，通过寻找像素级的子区域与地面真理的差异很大。为此，我们设计了一个弱监督学习计划，以产生这样的区域与多分支架构。该框架可以集成到现有的深度人群计数方法中，并且是端到端可训练的。在四个具有挑战性的基准测试上的大量实验表明，我们的方法可以显着提高基线的性能。更值得注意的是，我们的方法在所有基准数据集上都优于最先进的方法。1. 介绍人群计数的问题在[16]中描述与视觉对象检测不同，由于极其密集的人群，不可能为所有行人提供边界框在另一边，当只有总的人群*表示同等贡献。这项工作是在程智奇和李俊秀访问微软研究院时完成的小吴是这篇文章的作者.图1：L2损失函数在学习空间意识方面存在困难，并且对人群计数中的各种噪声敏感，这将导致高密度区域（每个示例的第一行）的估计值较低，而低密度区域（每个示例的第二行）的估计值较高。请注意，我们的方法的相应改进如图5所示。提供了图像的计数，训练过程将变得非常困难，因为空间意识被完全忽略。因此，为了保留尽可能多的空间约束并降低注释成本，先前的工作[16]开始仅提供头部的中心点，并利用高斯分布来生成地面真实密度图。值得注意的是，这一注释方案被后续研究广泛采用。现有的人群计数方法主要集中在提高特征表示的尺度不变性，包括多列网络[13，38，39，42，52，6]，尺度聚合模块[3，47]和尺度不变网络[9，17，20，39，45]。尽管这些方法的体系结构不同，但大多数方法都采用L2因此，虽然在人群图像特征中嵌入了更多的尺度信息，但在很大程度上忽略了人群图像的空间感知。我们已经研究了三种最先进的方法（即，MCNN[52]、CSRNet [17]和SANet [3]）四个人群计数数据集（即，上海科技[52]，UCF CC 50[11]，WorldExpo图1中示出了两个示例。与[3，19，20]类似，我们观察到密集人群区域通常被低估，而稀疏人群区域被高估。这种现象是由于两个主要因素。首先，像素级L2损失难以保留高频变化6153在密度图中：使L2损失最小化鼓励找到合理解的逐像素平均值，这些解通常过于平滑，因此具有较差的空间意识[15]。第二，L2损失对人群计数中的典型噪声高度敏感，包括零均值噪声、头部大小变化和头部遮挡。我们进行了一个简单的统计，结果表明，零均值噪声和高估的共同出现率可以达到96%（7，044张测试图像中的我们进一步发现，几乎所有估计的密度图不准确地预测头部的位置或大小时，闭塞发生，这可能会导致在高密度区域的低估。此外，由于注释误差和高斯核中的固定方差，注意，我们的方法的相应改进在图5中示出。为了充分利用空间感知，以前的工作[16]提出了一种名为子阵列最大超额（MESA）的损失来处理上述问题。一般来说，MESA损失试图找到矩形子区域，其预测的密度图与地面实况具有最大差异。它直接优化该子区域的计数而不是像素级密度。由于子区域的集合可以包括完整图像，所以MESA损失是整个图像的计数估计的上限。此外，这种损失只对行人的空间布局敏感，对各种噪声具有鲁棒性。然而，MESA损失函数的复杂性非常高. [16]利用切割平面优化来获得近似解。由于该方法不能通过传统的梯度下降来求解，因此在任何现有的基于CNN的方法中都没有采用MESA损失。受MESA损失的启发，在本文中，我们提出了一种称为空间感知网络（SPAN）的新型深度架构，以保留密度的高频空间变化。代替如在MESA中找到不匹配的直角子区域，提出了最大超过像素（MEP）损失以优化与地面实况密度图具有高差异的像素级子区域。为了获得这样的像素级子区域，利用弱监督排名信息[23]来生成指示具有高离散度的像素的掩模。我们进一步设计了一种多分支架构，通过模仿显著区域检测[33，50，54]来杠杆化完整图像以进行差异检测，其中使用具有增加面积的所提出的框架可以很容易地集成到现有的基于CNN的方法中，并且是端到端可训练的。这项工作的主要贡献是建议的空间意识网络和最大过量像素损失，以解决人群计数的问题。该解决方案还提供了什么样的空间背景应该被利用，以及如何有效地利用优雅的在人群图像中的这种空间意识，这是文献中尚未完全理解的问题。2. 相关工作2.1. 基于检测的方法这类方法使用对象检测器来定位图像中的人。考虑到每个人的个人定位，人群计数变得微不足道。这条线有检测1）整个行人[2，7，53]和2）部分行人[8，12，18，43]。通常，首先提取局部特征[7，18]，然后利用局部特征[7，18]来训练各种检测器（例如，[2018-04 - 18][2018 - 04 - 18][2018 - 04 - 18]虽然空间信息在这些方法中是很好地学习的，但是它们不适用于具有挑战性的情况，例如高密度堵塞人群。2.2. 回归方法与基于检测的方法不同，基于回归的方法避免了难以检测的问题，并从图像特征估计人群计数。早期的方法[4，5，11，28]通常直接从特征预测计数，这将导致性能不佳，因为空间感知被完全忽略。后来的方法尝试估计用于计数的密度图[16，26，29]，其中通过在密度图上积分所有像素值来获得人群计数。虽然学习密度图在一定程度上提供了空间信息，但他们的模型在保留密度图中的高频变化方面仍然存在困难。2.3. CNN方法基于深度CNN的人群计数方法与浅层学习方法相比，表现出非常强大的性能改进。现有的方法主要集中在应对行人规模的大变化，其中许多多柱网络被广泛研究。[1]提出了一种双列网络，用于结合浅层和深层来估计计数。受这项工作的启发，[52]提出了一个著名的三列网络MCNN，它在不同的列上使用不同的滤波器来获得不同尺度的特征许多工作已经改进了MCNN [13，38，39，42]以进一步增强尺度适应。Sam等人 [32]介绍了一种切换结构，该结构使用分类器将输入图像块分配给适当的列。最近，刘等人 [19]提出了一种多列网络，通过基于检测和回归的模型同时估计人群密度。 Ranjan等人 [27]利用两列网络用不同分辨率的图像迭代地训练他们的模型。还有很多其他的尝试来进一步提高尺度不变性，包括1）对各种尺度信息的融合的研究[22，40，45，46]，2）基于多blob的尺度聚集网络的研究[3，47]，3）设计6154我B∈B。.尺度不变卷积或池化层[9，17，20，39，45]，以及4）对自动尺度自适应网络的研究[30，31，49]。通常，Li et al. [17]提出CSRNet，利用膨胀的卷积层来扩大接收字段以提高性能。Cao等人。 [3]提出SANet来聚合多尺度特征，以获得更准确的人群计数。这两种方法已经实现了最先进的性能。此外，还存在致力于利用透视图[35]、几何约束[21，51]和感兴趣区域（ROI）[20]来提高计数精度的研究。上述方法利用欧几里得距离，即，L2损失优化模型。虽然这些方法可以获得尺度不变的特征，但由于它们在很大程度上忽略了空间感知，因此它们的性能仍然不能令人满意。请注意，SANet [3]还试图解决L2损失的问题，并在训练阶段添加局部模式一致性（Lc损失）。然而，我们发现Lc仍然不能很好地学习空间上下文。在我们的实验中，当将MEP损耗（Lmep）集成到SANet中时，我们实现了显着的性能改进。我们提出的MEP损失可以充分利用空间意识，这是人群计数任务的关键因素。3. 我们的方法在本节中，我们首先回顾人群计数问题和两个损失函数（即，MESA损失和L2损失）。然后，我们提出了详细的建议，SPAN和MEP损失。值得注意的是，我们的方法可以直接应用于所有基于CNN的人群计数网络。3.1. 问题公式化最近的技术将人群计数任务定义为密度回归问题[3，16，52]。给定N个图像I={I1，I2，· · ·，IN}作为训练集，每个图像Ii用行人的总共ci个中心点来注释头Pgt={P1，P2，···，Pc}。通常，地面真相图2：MESA损失的计算过程。需要遍历所有可能的子区域，并计算其预测密度图和地面实况之间的差异。然后选择差异最大的子区域进行优化。其中B是图像中所有潜在矩形子区域的集合。如图2所示，MESA损失试图找到其预测密度图与地面实况具有最大差异的盒子子区域它可以被视为整个图像的计数估计的上限，因为B可以包括整个图像。此外，这种损失与计数目标而不是像素级密度直接相关，并且仅对行人的空间布局敏感。在 1D 情况下，Kolmogorov-Smirnov距离[24]可以被视为L台面的特殊情况。尽管有上述优点，但由于寻找这种子区域的困难过程，难以优化MESA损耗。必须遍历所有潜在的子区域才能实现这一点，这在实际应用中显然是不可能完成的任务。为了解决这个问题，以前的方法[16]将MESA损失的优化转换为具有有限约束的凸二次规划问题，并利用切割平面优化来获得近似解。然而，由于该方法不能通过传统的梯度下降来解决，所以在任何现有的基于CNN的人群计数方法中都没有利用MESA损失L2损失。为了便于在深度框架中进行计算，现有的基于CNN的方法[17，27，52]都直接使用L2损失来最小化估计密度图和地面真实密度图之间的差异，我我图像Ii中每个像素p的密度图被定义为Dgt，i，.Σ1ΣNΣ.... 2n∈Ii，D gt，i （p）=ΣP∈PgtNgt （p;µ=P，σ2），（1）L2Dpr，Dgt =2Ni=1p∈Dpr，i.. Dpr，i（p）-Dgt，i（p）...（三）其中Ngt是高斯分布。人数-i中的p leciii等于然而，正如在SEC中所讨论的那样1，我们揭示了L2损失很难保持密度的高频变化所有像素为p∈Ii Dgt，i（p）= ci。有了这些训练数据，地图，导致空间意识差。而且对人群计数中的典型噪声也高度敏感，人群计数任务的目的是学习预测的密度-密度图Dpr朝向地面实况密度图Dgt。MESA损失。为了利用注释中的空间感知（即，中心头位置Pgt），先前的工作[16]已经提出了最大过量亚氩射线（MESA）损耗L台面如下，包括零均值噪声、头部尺寸变化和头部遮挡。例如，现有的方法总是在低密度区域估计密度值，而在高密度区域估计不足。3.2. 空间感知网络L型台面.Dpr，Dgt= 1ΣNNi=1...最大.p∈BDpr，i（p）−Σp∈BDgt，i...（p）.、.（二）提出的空间感知网络（SPAN）旨在利用空间背景准确预测密度值。而不是搜索不匹配的Σ26155KKKKKKKK密度k图3：我们提出的空间意识网络（SPAN）的框架。输入图像首先被馈送到骨干网络中以提取特征表示并输出估计的密度图Dpr。设计了一种K分支结构.在每个分支k中，通过对两个补丁（一个是另一个的子补丁）进行采样，利用排名对象i v e优化网络，并输出新的密度图Dpr。然后利用这两个密度图产生与地面真实值有很大差异的子区域Sk。在生成的Sk内的密度值在下一个分支中被擦除，以便于后面的优化。最后，将来自K个分支的K个子区域融合以形成最终的像素级子区域S，利用该像素级子区域S来计算最大超过像素（MEP）损失。由于在MESA损失中存在矩形子区域，这是优化的主要障碍，因此我们试图找到与地面真实密度图具有高差异的像素级子区域S由于不存在对这样的区域的任何注释，因此该问题是无监督的并且仍然将是显著难以解决的。受最近的弱监督方法[23]的启发，我们利用一个明显的排名关系来实现这一点，即，保证拥挤场景图像的一个片包含与原始图像相同数量或更少数量的个体。通过对一对斑块进行采样（其中一个是另一个的子斑块），网络被优化为具有排名目标，并输出新的密度图，该密度图进而被用于产生具有高差异的子区域以及先前的子区域。我们进一步设计了一个多分支架构，利用完整的图像采样多对补丁。请注意，整个SPAN可以进行端到端的训练。它提供准确的区域。因此，我们转向寻找随着网络训练变化较大的区域。很自然，可以从不同的迭代中挑选同一图像的两个密度图。但是，所得到的面积只反映了已经“修正”的区域，仍然严重遭受原L 2损失的空间感知差的为此，我们利用弱监督的排名线索，以产生的子区域。排名线索与人群计数的比较直接相关，而不是考虑像素级密度。在每个分支k中，首先对两个并行图像块进行采样。由于深度卷积层的特征图已经包含了丰富的位置信息，我们将采样过程视为密度图上的掩码池化操作。稍后将描述选择补丁的策略。不失一般性，假设两个掩码M1和M2是具有0或1的二维矩阵（1in-1）。K K图3说明了我们提出的框架12斯潘内特。输入图像I首先被馈送到主干中表示面片面积），并且Mk是Mk的子面片。的在掩码M1下的人群计数C（M1）和C（M2），k k k网络以生成预测密度图Dpr。期望的像素级子区域生成，即，Sk，由分支k使用一对从M2可以通过在单个掩模上积分密度图的值来获得，这可以被实现为如下的掩模池化，密度图Dpr.为了利用完整图像进行差异检测，设计了具有K个分支的多分支架构，以通过imi产生多个子区域。C.M1Σ=.2ΣΣ。ΣDprM1，p∈DprΣ。 pr2（四）显著区域检测[50，54]。最后，K-区域（S1，S2，…SK）组合以产生最终的C Mk=p∈DprDK Mk，S ，然后利用它来计算我们提出的最大超额像素（MEP）损失。我们将在下面详细介绍这三个子模块。像素级子区域生成。子区域S指示与地面实况具有高密度差异的区域不幸的是，直接从地面实况Dgt中减去预测的Dpr会使问题绕圈子其中，p是逐元素乘积，p表示密度图Dpr上的像素。值得注意的是，我们在计算时使用相同的预测k图Dpr，两个掩码的计数，而不是生成单独的在两次连续迭代中映射。原因是密度图Dpr不限于正的，因此在该对块上的池化也可以提供排序信息。我们做了一个实验61561 .一KKKKKKKK.Mk成对kk获得k+1k+1这两个方案有相似的结果。此外，直接在同一地图上池化比其他更有效假设M1是M2的子片，最大超出像素（MEP）损失。最后，K个子区域（S1，S2，…SK）是由K个分支生成的。最终期望的像素级子区域S是com。K K明确的限制是M1中的人数把它们简单地结合在一起，少于2。因此，我们使用k对铰链损失Lr进行排序，以模拟这种关系，其公式为ΣKS=k=1{Sk}，（10）L.12 Σ。12ΣΣrC（Mk），C（Mk）=max0，C（Mk）−C（Mk）+k，哪里表示合并值接近1的像素（五）其中ξ是被设置为地面实况中的差异的上界的裕度值。Lr损失的梯度计算为：在所有子区域掩码{Sk}中，而不是直接求和。实际上，我们在每个像素处取最大值所有面具的位置最终输出S是指示应当被优化的像素的掩模基于▽θLr= 2000年， ..如果CΣ1Σ −C。.Σ2+≤0，（六）因此，我们提出的MEP损失由下式给出：..▽θC1−▽θC2、否则Lmep .Dpr，Dgt=ΣN Σ.Dpr，i（p）− ΣDgt，i..（p）. .（十一）一旦网络参数θ通过反向传播用Lr更新，则重新估计的密度图DNi=1。p∈S.p ∈ S。由网络计算，Dpr=Con v（I，θ），（7）其中，I是输入图像，并且Co n v（·）是指网络的前向通过。在更新后的密度图Dpr 和旧的密度图Dpr之间，期望的子区域S为k通过阈值化它们之间的差ΔDpr，其中Dpr=|Dpr−Dpr|. 为了使其可区分，我们使用3.3. 模型学习我们的SPAN可以很容易地集成到现有的人群计数方法中，这相当于在最终卷积层上添加一个具有不同掩码的池化层。它通过顺序优化K次排名损失，MEP损失和现有方法的原始损失当计算原始损失时，掩码池化层被移除。总体培训目标是k k kSigmoid阈值函数，Sk由下式给出：Sk=1，（8）1 +exp（−δ（Dpr−））配制为L全局=ΣKk=1Lr+Lmep+Lvanilla，（12）其中Σ是所有元素都是σ的阈值矩阵。δ是参数，以确保当ΔDpr（p）>σ时，Sk的值近似等于1，否则为0。多分支架构。请注意，在上述章节中-在这种情况下，仅对一对补丁进行采样以生成次区域。原则上，我们希望可以利用全密度图来提供更多信息。我们采用多分支架构，而不是仅采样一对小-大的补丁，这可能会由于两个补丁之间的差异很大而导致较大的偏差误差，如图3所示。所有片的右下角位于相同的位置，即，密度图的右下角。斑块的面积随着枝条的生长而逐渐扩大，直至达到全密度图的大小这样的设计既保证了每个分支的小的偏差误差，又保证了训练图像的充分利用。为了消除检测到的子区域Sk的影响，以便在后面的分支中进行更好的优化，我们模仿显著区域检测[50]来擦除下一个分支中Sk内的密度值，其公式为Dpr=Dpr（1−Sk），（9）其中，1是所有元素都为1的矩阵，而λ是元素乘积。MMMMK6157其中Lvanilla指现有途径的原始损失。在大多数情况下，Lvanilla是L2损失。补充材料中描述了地面实况生成和数据增强的更多4. 实验4.1. 实验设置网络.我们通过将其与三个网络相结合来评估我们的方法，即，[17 ][18][19]MCNN1和CSR-Net2的实现来自他人，而SANet是我们自己实现的.总的来说，它们之间有四个主要区别：（1）不同规模的网络。具体来说，MCNN、SANet和CSRNet分别对应于小型、中型和大型人群计数网络。(2)不同的架构。MCNN和SANet是多列/多斑点网络，而CSRNet是单列网络。此外，SANet使用实例规范化（IN）层和去卷积层，而CSRNet使用膨胀卷积层。(3)不同大小的密度图。MCNN和CSRNet的密度图是1/4，1https://github.com/svishwa/crowdcount-mcnn2https://github.com/leeyeehoo/CSRNet-pytorch/tree/master网站6158我表1：在ShanghaiTech [52]，UCF CC 50 [11]和UCSD [48]数据集上与最先进方法的性能比较。上海科技A上海科技园BUCF CC 50UCSD方法会场&年MAE ↓MSE↓Mae ↓MSE↓MAE ↓MSE↓Mae ↓MSE ↓Idrees等人[第十一届]CVPR2013----419.5541.6- -Zhang等人[48个]CVPR2015181.8277.732.049.8467.0498.51.60 3.31[25]第二十五话ECCV2016------1.51-[25]第二十五话ECCV2016----333.7425.3- -C-MTL [38]AVSS2017101.3152.420.031.1322.8397.9- -[32]第三十二话CVPR201790.4135.021.633.4318.1439.21.62 2.10CP-CNN [39]ICCV201773.6106.420.130.1295.8320.9- -Huang at al. [10个国家]尖端2018--20.235.6409.5563.71.001.40SaCNN [49]WACV201886.8139.216.225.8314.9424.8- -ACSCP [34]CVPR201875.7102.717.227.4291.0404.6- -IG-CNN [31]CVPR201872.5118.213.621.1291.4349.4- -[36]第三十六话CVPR201873.5112.318.726.0288.4404.7- -MCNN [52]CVPR2016110.2173.226.441.3377.6509.11.071.35CSRNet [17]CVPR201868.2115.010.616.0266.1397.51.161.47SANet [3]ECCV201867.0104.58.413.6258.4334.91.021.29MCNN+ SPAN--99.7146.319.128.7292.5401.31.001.33CSRNet+ SPAN--62.499.58.413.2245.8333.11.121.42SANet+ SPAN--59.492.56.59.9232.6311.71.001.28原始图像的1/8，而SANet生成的密度图与输入图像大小相同。(4)不同的测试方案。SANet在图像补丁上进行测试，而CSRNet和MCNN在整个图像上进行测试。学习设置。对于MCNN和SANet，参数由平均值为0且标准偏差为0的高斯分布随机初始化。01. Adamopti- mizer [14]的学习率为1 e −5，用于训练模型。对于 CSRNet ，前十个卷积层来自预训练的 VGG-16[37]。其他层以与MCNN相同的方式在训练过程中应用具有1e−6的固定学习率的随机梯度数据集。我们在四个数据集上评估了我们的方法，包括ShanghaiTech [52]，UCF CC 50 [11]，World- Expo通常情况下，上海科技城A区拥挤且嘈杂，而上海科技城B区嘈杂但不太拥挤。UCF CC 50由具有重背景噪声的极其拥挤的场景WorldExpo'10和UCSD包含稀疏的人群场景。世界博览会'10的场景评估详情。MCNN和CSRNet在整个图像上进行测试，而SANet在图像补丁上进行测试。继以前的作品[17，27，52]，平均绝对Er-误差（MAE）和均方误差（MSE）用于评估-测量密度图的质量。为了公平比较，类似于[17]，采用双线性插值将估计的密度图调整为与输入图像相同的大小。4.2. 与最新技术水平的比较表1和表2报告了四个挑战性数据集的结果。总之，我们的方法显著改善了所有基线，并优于其他最先进的方法。这一结果充分证明了我们的SPANet的有效性，它可以在密集和稀疏的人群场景中提供准确的密度估计，并且可以应用于所有基于CNN的人群计数网络。在ShanghaiTech数据集上，我们的SPANet提升了MCNN，CSRNet，SANet，A部分的相对MAE分别提高了9.5%，8.5%，11.3%，A部分的相对MAE分别提高了27.7%，20.8%，22.7%。部分B.注意到A部分是从互联网上收集的，而B部分是从繁忙的街道上收集的，具有更多的空间限制。由于我们的SPANet可以充分利用空间感知，它带来了B部分的更多改进。在UCF CC 50上，SPAN et提供了三个基线的相对MAE改善22.5%，7.6%，10.0%注意到改进的MCNN甚至可以与其他最先进的方法相媲美。它清楚地表明，SPAN可以处理非常密集的人群场景。与上述两个数据集类似，SPANet也实现了显著的改进。评价业绩“UCSD和WorldExpo'10的改进N...N.Σ21Σ。gt..1件我们的方法在稀疏人群场景中的有效性。Mae=Ni=1.Ci−Ci. ，MSE=，Ni=1Ci−Ci、（十三）4.3. 消融研究其中Ci是估计的人群计数，并且Cgt是取样位置。我们首先评估不同的影响第i个图像的地面真值计数N是数量测试图像。此外，利用PSNR（峰值信噪比Ra）3和SSIM（结构相似性）4[44]来确定最佳信噪比。61593https://en.wikipedia.org/wiki/Peak信噪比4https://en.wikipedia.org/wiki/Structural相似性输入开始位置时，采样补丁的掩码池- ING。结果列于表3中。我们发现从底部开始总是比顶部好，右边也比左边好。可能的原因是它可能与相机校准密切相关结果是-61602HH表2：与世界博览会'10 [ 4 ]数据集上最先进方法的比较。每个场景只计算MAE，然后取平均值以评估整体性能。方法S1S2S3S4S5Avg.Zhang等人[48个]9.814.114.322.23.712.9Huang等人[10个国家]4.121.711.911.03.510.5Switch-CNN [32]4.415.710.011.05.99.4SaCNN [49]2.613.510.612.53.38.5CP-CNN [39]2.914.710.510.45.88.9MCNN [52]3.420.612.913.08.111.6CSRNet [17]2.911.58.616.63.48.6SANet [3]2.613.29.013.33.08.2MCNN+ SPAN3.414.915.112.84.510.1CSRNet+ SPAN2.611.18.913.53.37.9SANet+SPANet2.312.37.912.93.27.7对两种权重方案进行实验：随机权重和步长为0.1的网格搜索。如表3所示，我们的方法对权重不敏感。即使是网格搜索也带来了非常轻微的改进。分支机构的数量。我们测量了不同分支数K的SPAN网络的性能。如图4所示，随着K的增加，性能先是提高，然后下降。这种观察并不令人惊讶。在一侧，小K（例如，K= 1）将由于两个贴片之间的大差异而涉及另一方面，大K（例如，K=H，其中H是估计密度图的高度）意味着每个分支中的两个斑块的差异非常小，这不能为子区域生成提供足够的差异。在120102110100实验中，K被设置为8 对于MCNN/SANet和16对于100908070601小时/16小时/8小时/4小时/2小时分枝数98969492901/4 1/2 1估计密度图CSRNet，通过交叉验证确定。估计密度图的大小。我们进一步验证了估计密度图的大小我们在MCNN的顶部添加最后，两个变种图4：ShanghaiTech A部分的消融研究[52]。左侧显示了分支数K与MAE的关系，右侧显示了估计密度图的大小与MAE，与MCNN一起执行。表3：上海科技A部分数据集的贴片采样策略、面罩合并策略和损失的消融研究[52]。配置MAE ↓MSE↓中心点101.2153.3左上角101.5153.7左下角100.7149.2右上角100.5149.4右下角99.7146.3不同密度图100.3147.4同密度图99.7146.3L2110.2173.2Lr+Lmep99.3145.3L2+Lr107.2164.5L2+Lr+Lmep99.7146.3随机105.4162.2网格搜索98.3142.5鼓励我们从右下角采样补丁。注意，这些采样方案之间的差异此外，我们还比较了在每个分支中相同或不同密度图上执行掩码池化的情况，这在第节3.2和Eq.（四）、如表3所示，两种策略的结果相似。由于效率问题，我们直接池补丁从同一密度图。不同的损失/重量。我们来评估不同的损失和重量方案。如表3所示，增加排名损失仅提供轻微的改进，而显著的改进来自MEP损失。除此之外，是否使用 L2它表明，我们的MEP损失可以有效地学习空间意识，以提高人群计数。我们进一步MCNN的估计密度图分别为输入图像的1/2和相同大小如图4所示，随着密度图大小的增加，性能得到了提高结果表明，预测高分辨率密度图可以带来可观的改善。4.4. 估计密度图的研究我们现在评估估计的密度图，以验证我们的方法是否可以充分利用空间意识。表4总结了结果。我们的SPAN 可以显着提高所有基线和数据集的 PSNR 和SSIM，这表明生成的密度图的质量得到了显着提高。为了进一步验证我们的方法确实可以学习空间感知，我们在图5中展示了从不同方法生成的四个示例的密度图。这四个示例通常包含不同的人群密度、遮挡和比例变化。我们可以观察到，基线模型总是受到零均值噪声的影响，这导致在低密度区域的高估。相比之下，零均值噪声在我们的SPAN中被有效地抑制。此外，基线模型通常对高密度区域的估计不足注意，地面实况本身也是用行人头部的中心点生成的，其固有地包含不准确的信息。这意味着我们的方法仍然无法产生与地面真实情况相同的密度图4.5. 学习曲线研究最后，我们研究了学习曲线，以进一步评估我们的方法。图6显示了训练和验证-CSRNetSANetMCNNMaeMae6161图5：基线和我们的SPAN之间估计密度图的比较。140130120110100MCNN11010090807060CSRNet1009590858075706560SANet原值始发列车优化值优化列车75 100 125 150 175 200 225 250时代75 100 125 150 175 200 225 250时代50 100150200250 300时代图6：学习曲线。训练集和验证集的平均绝对误差（MAE）与MCNN [52]，CSRNet [17]和SANet [3]在ShanghaiTech Part A数据集[52]上的训练次数。表4：密度图质量比较。'左侧的值|“的值来自原始基线，而"|'是与建议的SPAN集成时的结果。MCNNCSRNetSANet数据集PSNR↑SSIM↑PSNR↑SSIM↑PSNR↑SSIM↑[52]第五十二话二十一点四十二分|二十二点十八分0.52 |0.66二十三点七九|二十四点八八0.76 |零点八五二十三点三十六|二十五点三十三分0.78 |零点八五上海科技-B [52]二十三点四十三|二十六点十九分0.78 |零点八五二十七点零二分|二十九块五0.89 |零点九二二十七点四十四|二十九点十七分0.89 |零点九一UCF CC 50 [11]十四点四十四分|十八点二十五分0.37 |零点五一十八点七十六分|20.170.52 |0.78十八点三十五分|20.010.51 |0.76加州大学圣地亚哥分校[48]十七点四十三分|十八点五十二分0.75 |0.8320.02|二十一点八0.86 |0.89二十一点三十三分|二十二点二十0.84 |0.90上海世博会二十三点五十三分|25.970.76 |零点八五二十六点九四|二十九点零五分0.92 |零点九三26.22|二十八点五四0.90 |零点九二在ShanghaiTech Part A数据集上，每个时期的平均绝对误差（MAE）。为了更好地查看，我们通过平滑因子α=0的指数移动平均（EMA）来平滑学习曲线。1.一、与原始结果相比，与我们的SPANet集成的基线在训练集和测试集上都表现出较低的MAE。由于训练集和测试集上的性能通常表示拟合和泛化程度，因此该结果表明了双方的良好能力。此外，这也意味着我们的方法可以显着提高模型训练期间的5. 结论在本文中，我们提出了一种新的深度架构称为空间感知网络（SPAN）的人群计数，这是能够捕捉空间变化，通过找到像素级的子区域与地面真相的高度差异。它可以集成到所有基于CNN的方法中，并且是端到端可训练的。四个数据集上的实验MaeMaeMae6162并且三个不同的网络充分证明了它可以显著地改善所有基线并且优于现有技术的方法。它提供了有效地使用空间意识来提高人群计数的优雅视图。在未来的工作中，我们将研究如何保持空间意识，尽可能多地在地面真值生成。确认本研究得到了美国财政援助基金60 NANB 17 D156的部分资助。美国国家标准与技术研究院商务部、美国内政部/内政部商务中心（DOI/IBC）合同号D17 PC 00340的智能高级研究项目活动（IARPA）、中国国家自然科学基金会（61772436）、中国河南省交通运输部基金会（2019 J-2-2）、四川省科学技术厅（2019 J-2-2）科技创新种子基金（2017 RZ 0015）、国家留学基金委（201707000083）、西南交通大学优秀博士学位论文培养计划（D-YB 201707）。6163引用[1] Lokesh 布米纳坦 Srinivas S. S. Kruthiventi，以及R.文卡特什先生Crowdnet：一个用于密集人群计数的深度卷积网络。 ACM International Conference onMultimedia，第640-644页，2016年。2[2] 加布里埃尔J布罗斯托和罗伯托Cipolla。人群中独立运动的无监督贝叶斯检测在IEEE计算机视觉和模式识别会议论文集，第1卷，第594-601页2[3] Xinkun Cao，Zhipeng Wang，Yanyun Zhao，and Fei Su.规模聚合网络，用于准确和高效的人群计数。在欧洲计算机视觉会议论文集，第757-773页，2018年。一二三五六七八[4] Antoni B Chan ， Zhang-Sheng John Liang ， and NunoVas- concelos.隐私保护人群监测：没有人模型或跟踪的情况下计算人数。在Proceedings of IEEE Conference onComputer Vision and Pattern Appraisition，第1-7页一二六七八[5] 安东尼B陈和努诺Vasconcelos。统计低水平特征和巴氏回归的人。IEEE Trans-actions on Image Processing，21（4）：2160-2177，2012。2[6] Zhi-Qi Cheng，Jun-Xiu Li，Qi Dai，Xiao Wu，Jun-YanHe，and Alexander Hauptmann.改进用于人群计数的多列卷积神经网络的学习2019年第26届ACM国际多媒体会议论文集。1[7] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图。在 Proceedings of IEEE Conference onComputer Vision and Pattern Recognition ，第 1 卷，第886-893页2[8] PiotrDolla'r ， BorisBabenko ， SergeBelongie ，PietroPerona，and Zhuowen Tu.用于对象检测的多分量学习。在 Proceedings of European Conference onComputer Vision，第211-224页，2008年。2[9] Siyu Huang，Xi Li，Zhiqi Cheng，Zhongfei Zhang，andAlexander G. 豪普特曼堆叠合并：通过提高规模不变性来改进人群计数。CoRR，abs/1808.07456，2018。第1、3条[10] Siyu Huang ， Xi Li ， Zhongfei Zhang ， Fei Wu ，Shenghua Gao，Rongrong Ji，and Junwei Han.身体结构感知深度人群计数。 IEEE Transactions on ImageProcessing，27（3）：1049-1059，2018。六、七[11] Haroon Idrees、Imran Saleemi、Cody Seibert和MubarakShah 。密集人群图像中的多源多尺度计数。在Proceeding

下载后可阅读完整内容，剩余1页未读，立即下载