基于语义先验的残差回归用于人群计数

159 浏览量更新于2023-10-18 收藏 13.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Jia Wan1,2∗Wenhan Luo2Baoyuan Wu2Antoni B. Chan1Wei Liu2{jiawan1998,whluo.china,wubaoyuan1987}@gmail.com abchan@cityu.edu.hk wl2223@columbia.eduSupport ImageSupport Density Map+Predicted Mapon deep learning by predicting a density map and aggregat-ing to a ﬁnal count. Some of them attempt to deal with scalevariations via different network structures with different re-ceptive ﬁeld sizes. Some of the methods utilize contextualinformation to improve the performance.Unfortunately, most of the algorithms concentrate solelyon the appearance of a single image but ignore the correla-tion information between image samples. Existing researchworks for other problems have shown that more intrinsicfeatures can be learned by comparing samples to mine thecorrelation knowledge [29, 31]. To this end, we propose aresidual regression framework, within which more effectivefeatures can be obtained by learning the difference betweensamples. The proposed algorithm can be considered as adata-driven learning method with prior knowledge [32, 6].To be speciﬁc, we propose a novel algorithm to predict thedensity map by taking into account not only the appear-ance but also the residual maps (i.e., the difference betweendensity maps) between the input image and labeled imagesfrom a support set (shown in Fig. 1). As the support im-ages are with different levels of crowdedness, comparingthe concerned image with diverse support images will im-prove the generalization ability in the case of unseen sce-narios. The ﬁnal density map is estimated by fusing densitymaps that are predicted using both appearance and residualmaps.40360基于语义先验的残差回归用于人群计数01 香港城市大学计算机科学系 2 腾讯AI实验室0摘要0由于拥挤程度的巨大变化和严重的遮挡等因素，人群计数是一项具有挑战性的任务。尽管最近基于深度学习的计数算法取得了很大的进展，但样本之间的相关知识和语义先验尚未充分利用。本文提出了一种残差回归框架，用于利用样本之间的相关信息进行人群计数。通过将这些信息纳入我们的网络，我们发现网络可以学习到更多内在特征，从而更好地适应未知场景。此外，我们展示了如何有效地利用语义先验来提高人群计数的性能。我们还观察到对抗性损失可以用于提高预测的密度图的质量，从而改善人群计数。在公共数据集上的实验证明了所提方法的有效性和泛化能力。01. 引言0人群计数在智能监控系统中起着非常重要的作用，旨在自动检测人群拥堵情况。从技术上讲，人群计数的解决方案接受像图像或视频剪辑这样的输入，并输出一个预测的数字，指示输入中的拥挤程度。这是非常具有挑战性的，因为存在密度、尺度、透视和严重遮挡等问题。传统算法通过检测人员来计算人群数量，在高度拥挤的场景下由于严重遮挡而极具挑战性（见图1）。为了避免在明确检测人员方面的困难，提出了基于回归的方法，通过密度相关特征直接估计人群数量。然而，由于密度和尺度的变化，这些算法的性能受到限制。最近，基于深度学习的人群计数算法取得了很大的进展，特别是那些通过预测密度图并聚合到最终计数的算法。其中一些尝试通过具有不同感受野大小的不同网络结构来处理尺度变化。一些方法利用上下文信息来提高性能。不幸的是，大多数算法仅关注单个图像的外观，而忽略了图像样本之间的相关信息。其他问题的现有研究表明，通过比较样本来挖掘相关知识可以学习到更多内在特征[29,31]。为此，我们提出了一种残差回归框架，通过学习样本之间的差异来获得更有效的特征。所提出的算法可以被视为具有先验知识的数据驱动学习方法[32,6]。具体而言，我们提出了一种新颖的算法，通过考虑输入图像和来自支持集的标记图像之间的残差图（即密度图之间的差异）来预测密度图（如图1所示）。由于支持图像具有不同的拥挤程度，将关注图像与不同的支持图像进行比较将提高在未知场景下的泛化能力。最终的密度图是通过融合使用外观和残差图预测的密度图来估计的。0� 这项工作主要是在Jia Wan担任腾讯AI实验室研究实习生期间完成的。0输入图像0残差图0图1.残差回归试图预测输入图像和支持图像之间的残差图（密度图之间的差异）。通过基于不同的支持图像预测各种残差图，可以提高泛化能力。40370此外，语义先验对于消除噪声区域是有效的，因为人群计数的场景通常具有语义结构（例如，通常有天空、建筑物和树木）。观察到这一点，属于天空、墙壁或树木的像素密度应接近于零。在本文中，我们展示了如何有效地利用这种语义先验来改善人群计数，即使不对使用的分割网络进行微调以产生语义信息。具体而言，我们通过一个因子减少没有人的区域的预测密度。在计算损失时，没有人的区域的权重也减小。通过这样做，网络被限制在更多地关注包含人员的区域，因此可以在一定程度上消除噪声误报。先前的工作还表明，高质量的密度图对人群计数的性能有益[27]。受此启发，我们采用对抗性损失来提高预测密度图的真实性，通过将其与真实密度图进行区分。此外，我们增加了预测密度图的分辨率，提高了质量改进的密度图对于提高人群计数性能是有帮助的。在实验中，所提出的方法优于几种最先进的算法，并在不进行微调的情况下展现了令人满意的泛化能力。我们的贡献有三个方面：1）我们提出了一种通过将关注图像与一组支持图像进行比较的残差回归学习的新方法，以提高在未知场景下的泛化能力。2）我们引入了语义先验来消除预测密度图中噪声误报的副作用。3）采用对抗性损失来增强预测密度图的质量，进一步提高人群计数性能。02. 相关工作0一般来说，大多数传统算法是基于人员检测和人群数量回归，而最近的深度学习方法通常通过估计密度图来计数，然后聚合到最终的计数数字。大多数常规检测算法通过检测[13]或跟踪[18,19]来检测整个身体或部分进行计数。[13]通过检测人头和肩膀来计数人群。[5]提出了一种形状学习过程，通过检测和计数个体。尽管随着深度学习的发展，检测已经取得了显著进展，但在高度拥挤的场景下检测行人仍然具有挑战性。除了显式检测外，还开发了一些方法，试图通过直接将人群图像映射到数字来计数人群。在这些方法中，手工制作的特征，如纹理、梯度、前景和边缘，经常被用作低级线索。0然后，使用线性回归、随机森林或高斯过程（GP）来预测最终的人群数量。例如，[3]通过整体特征和GP回归开发了一种计数人群数量的方法。在提出的贝叶斯泊松回归中引入了先验分布来估计不均匀人群的大小[4]。然而，[9]已经表明，由于大的变化、杂乱和遮挡，单一特征无法对极度拥挤的图像进行人群计数。最近，人群图像的密度图估计变得更加流行。[12]提出了计数局部补丁，然后将它们集成到最终计数中，这样可以更好地融入空间信息以进行准确计数。在此基础上，最近的基于深度学习的方法预测密度图并取得了显著进展。为了应对密度变化，[35]提出了一个由具有不同卷积核大小的不同CNN组成的多列卷积神经网络（MCNN）。[15]将检测和回归方法结合在一起，以处理不同类型的场景。提出了多个具有不同感受野大小的CNN来处理密度变化，并开发了一个切换网络来选择最佳的感受野[23]。[34]提出了一个自适应尺度网络，它结合了从不同层提取的多尺度特征，以处理尺度和透视变化。[1]开发了一个增量增长的CNN（IG-CNN）来应对人群图像中的大多样性。[27]提出利用全局和局部上下文来提高性能。他们发现高质量的密度图对进一步减少计数误差是有用的。为了提高泛化能力，[25]训练了一组不相关的回归器。[17]通过先验知识从无标签数据中学习进行人群计数。[33]提出了一种数据驱动的微调方法，将训练良好的模型转移到新的目标场景中。有关更多相关工作，读者可以参考[28]。与以前从单个图像预测的方法相比，我们提出的方法在不同样本之间挖掘了示例相关知识，因此在未知场景中具有更好的泛化能力。03. 我们的方法0通常，传统方法仅通过输入图像的外观来预测密度图，而忽略了样本之间的关系。我们认为样本之间的相关性很重要。因此，我们提出了一种残差回归算法，有效地融合了外观和相关性知识。如图2所示，密度图是通过同时考虑外观并将输入图像与一组支持图像进行比较来预测的，最终的预测结果是通过融合这些线索来估计的。在估计过程中，引入了语义先验来消除没有人群的区域中的误报。……++………40380外观模块预测0残差回归0支持图像0输入0深度特征0残差回归0残差图0支持密度图残差预测残差融合预测0基于外观的预测最终预测0真实值0外观损失0残差损失0最终融合损失0图2.提出方法的示意图。残差回归预测输入图像和支持图像之间的残差图（即密度图之间的差异）。所有残差预测被融合，最终的预测图基于融合的残差预测和输入图像的基于外观的预测计算得出。黑色箭头表示数据流动，而绿色、红色和紫色的双向箭头分别表示外观损失、残差损失和最终融合损失（最佳观看效果为彩色）。0此外，我们采用对抗性损失来提高密度图的质量。03.1. 通过残差回归进行计数0在本节中，我们首先提出了一个传统的基于外观的计数模型，并进行了自定义修改。然后，我们提出了一种残差回归算法，通过将输入图像与标记的示例图像进行比较来预测密度图。最后，将基于外观和基于残差的预测融合，得到最终的预测结果。03.1.1 基于外观的预测0在我们的实践中，我们分别采用两种典型的网络，MCNN[35] 和CSRNet[14]，作为骨干网络，通过图像的外观预测密度图。给定一个输入图像 Xi，网络输出一个预测的密度图。形式上，基于外观的预测如下，0ˆ Y a i = F a ( X i )，(1)0其中X i 是输入图像，ˆ Y a i 表示基于外观的预测，F a ( ∙ )是由修改后的基于外观的网络近似的映射函数。03.1.2 基于残差的预测0通过比较样本之间的相关性，利用一种新的回归方法来利用示例相关性（见图2）。首先，从提取的深度特征中估计出一个残差图。0通过比较输入图像和示例支持图像，然后通过添加估计的残差图和支持图像的真实密度图来计算密度图。具体来说，给定一个包含 k 个标记图像（X s 1，Y s 1），（X s 2，Y s2），...，（X s k，Y sk）的支持集，首先通过基于外观的网络提取特征。然后，将从输入图像和支持图像提取的深度特征进行连接，并输入到相关性学习网络中，以预测输入图像和支持图像的密度图之间的残差图。基于预测的 k个残差图和相应的支持图像的真实密度图，可以计算出基于残差学习的 k个估计密度图，并进行融合。形式上，给定输入图像 X i和标记的支持图像 � X s j，Y s j�，关于支持图像的密度图通过残差回归为0ˆ Y r j i = F r � f a ( X i ) , f a � X s j �� + Y s j , (2)0其中 ˆ Y r j i 是使用第 j 个支持图像 X s j 预测的密度图。F r( ∙ , ∙ ) 表示残差图预测网络，f a ( ∙ )表示外观模块（不包括线性函数）中定义的特征提取函数。由于我们通过与不同的支持图像进行比较预测了 k个密度图，因此我们将它们融合生成最终的基于残差的密度图 ˆ Y r i。0ˆ Y r i = F rf � ˆ Y r 1 i , ˆ Y r 2 i , ∙ ∙ ∙ , ˆ Y r k i � , (3)0其中 F rf 是一个融合网络。40390表1. 修改后的外观模块网络 F a 的详细配置。0MCNN CSRNet0C(16,9)-P C(20,7)-P C(24,5)-P 2 × C(64,3)-P0C(32,7)-P C(40,5)-P C(48,3)-P 2 × C(128,3)-P0C(16,7) C(20,5) C(24,3) 3 × C(256,3)-P0C(16,7) C(20,5) C(24,3) 3 × C(512,3,2)0T(8,4) T(10,4) T(12,4) 3 × C(512,3,2)0T(4,4) T(5,4) T(6,4)0C(256,3,2)C(128,3,2)C(64,3,2)0C(1,1) C(1,1)03.1.3 密度图融合0外观和样本相关性的密度图融合以获得最终的密度图。我们提出了一个复杂的网络来有效地嵌入空间上下文，而不是简单地使用一个 1 × 1 的卷积核。形式上，最终的预测 ˆ Y i通过融合外观和基于残差的预测来估计，如下所示，0ˆ Y i = F ff � ˆ Y a i , ˆ Y r i � , (4)0其中 F ff ( ∙ , ∙ ) 是最终融合网络。03.2. 基于语义先验的计数0在本节中，我们展示了如何有效地利用语义先验来提高所提出的基于残差回归模型的人群计数性能。直观地说，没有人的语义区域（如墙壁、树木和天空）的行人密度应该接近于零。为了使用这种语义先验，我们首先生成给定图像的语义地图。我们采用了一个在ADE20K数据集[36]上预训练的流行的编码器-解码器模型1来生成语义地图。注意，生成的语义地图中的像素被分类为两组：没有行人的区域和可能包含行人的区域。只有当置信度足够高时，像素才被分类为没有行人的区域。否则，像素被分类为可能包含行人的区域。语义地图与预测的密度图大小相同，为每个像素提供了一个重要性图。我们的目标是消除不包含人群区域的误报副作用，同时专注于可能被行人占据的区域。为了保持对包含行人区域的关注，我们将该区域像素的权重设置为1。理想情况下，如果语义地图是01 https://github.com/CSAILVision/semantic-segmentation-pytorch0表2. 我们提出的网络的详细配置。为了编码多尺度特征，我们使用了与MCNN类似的3个分支。0分支融合0残差图预测器 F r0C(16,3)0C(16,7)-C(8,5)-C(1,3) C(8,5)C(4,7)0残差图融合 F rf0C(8,1)0C(1,3) C(4,3) C(2,5)0最终地图融合 Fff0C(8,1)0C(1,3) C(4,3) C(2,5)0生成准确。然而，由于我们直接使用了一个分割网络而没有在我们的数据集上进行微调（我们没有人群图像的分割标签），语义预测可能不够准确。为了解决这个问题，我们将不包含行人的像素的权重设置为一个常数值 σ ∈ (0,1]，以减少不包含行人的区域的密度，而不是直接将其设置为零。通过一个语义MSE度量来进行这种带有区分性的加权方案，稍后将进行描述。通过这样做，可以消除树木等误报的副作用。03.3. 网络架构0Eqs. ( 1 ) - ( 4 )中的函数构成了网络的四个组成部分：基于外观的模块（MCNN或CSRNet） F a ( ∙ ) 学习深度特征，残差回归器 F r( ∙ , ∙ ) 预测残差图，残差图融合模块 F rf融合来自不同支持图像的密度图，多模态融合网络 F ff ( ∙ ,∙ )通过外观和残差回归将密度图融合为最终估计。外观模块如表格中所示01 .这里，C表示卷积层，大括号中的数字表示滤波器数量、滤波器大小和膨胀参数（默认为1）。P表示最大池化层，将分辨率降低到前一层的一半。T是分数步长卷积层，将分辨率增加两倍。除最后一层外，每个卷积层都附加了PReLU [ 7]激活函数进行激活。网络中的其他模块如表格 2 所示03.4. 损失函数0给定 N 个训练样本 { X i } N i =1 ，它们对应的语义图 { M i} N i =1 和真实密度图 { Y i } N i =1，所提出方法的损失函数为：L = La + αLr + βLff + ηLad,(5)fsmse( ˆYi, Yi, Mi) = ∥ ˆYi ⊗ Mi − Yi ⊗ Mi∥2,(6)La =fsmse( ˆY ai , Yi, Mi) .(7)Lr ={[fsmse( ˆY rji , Yi, Mi)]+fsmse( ˆY ri , Yi, Mi)}.(8)Lff =fsmse( ˆYi, Yi, Mi).(9)40400图像 A A+RR A+RR+SP 真实值0图 3. 我们方法的不同变体之间的定性比较：（ A ）外观，（ A+RR ）外观 + 残差回归，（ A+RR+SP ）外观 + 残差回归 + 语义先验0定义如下，0其中 L a ， L r ， L ff 和 L ad分别为外观损失、残差损失、最终融合损失和对抗损失。03.4.1 语义MSE0如3.2节所述，提出了一种基于语义先验的MSE度量方法，以减少潜在误报的影响。具体而言，所提出的语义MSE计算没有行人的区域，权重较低。给定一个预测值 ˆ Y i，其语义图 M i 和相应的真实值 Y i，语义MSE（S-MSE）为：0其中 M i 中的元素值为1（对应可能包含人的像素）或σ（对应没有人的像素），� 表示逐元素相乘。03.4.2 外观损失0外观损失衡量了预测的密度图 ˆ Y a i与真实密度图之间的差异0通过S-MSE，0N个03.4.3 残差损失0与外观损失类似，语义MSE用于衡量基于残差预测和真实值之间的差异。与外观损失不同，残差损失更加复杂，因为我们基于k个支持图像和融合模块得到了k+1个密度图，即{ ˆ Yr 1 i , ˆ Y r 2 i , ∙ ∙ ∙ , ˆ Y r k i , ˆ Y r i}。残差损失定义如下：0N个0k个03.4.4 最终融合损失0最终融合损失用于衡量融合后的最终预测与真实值之间的差异0N个Lad =N �log(Yi) − log( ˆYi)�,(10)40410表 3. 上海科技 A数据集的实验结果。指标旁边的箭头表示更好性能的方向，即 ↓表示较小的值更好。最佳结果以粗体显示，第二佳结果以下划线表示。以下表格同样适用。0方法 MAE ↓ MSE ↓0跨场景[33] 181.8 277.70MCNN[35] 110.2 173.20FCN[20] 126.5 173.50级联-MTL[26] 101.3 152.40Switching-CNN[23] 90.4 135.00CP-CNN[27] 73.6 106.40ASACP[24] 75.7 102.70自顶向下[22] 97.5 145.10L2R[17] 73.6 112.00CSRNet[14] 68.2 115.00IG-CNN[21] 72.5 118.20ic-CNN[21] 68.9 117.30SANet（块）[2] 67.0 104.50SANet（图像）[2] 88.1 134.30SCNet[30] 71.9 117.90空间感知[16] 69.3 96.40图像金字塔[10] 80.6 126.70我们的（MCNN，A）86.97 138.460我们的（MCNN，A+RR）79.72 119.90我们的（MCNN，A+RR+SP）75.9 118.10我们的（MCNN，全）72.6 114.30我们的（CSRNet，A）68.2 115.00我们的（CSRNet，A+RR）64.8 98.40我们的（CSRNet，A+RR+SP）64.2 98.00我们的（CSRNet，全）63.1 96.203.4.5 对抗损失0为了提高预测密度图的质量，在训练过程中使用对抗损失。具体来说，我们开发了一个浅层网络作为判别器。网络配置为C（64,3）-C（128,3）-P-C（256,3）-P-C（256,3）-C（256,3）-P-C（1,1）-Sigmoid。基于开发的判别器，对抗损失为0i =10其中 ˆ Y i 和 Y i 是最终预测和真实密度图。04. 实验0首先介绍实现细节，然后说明数据集和评估指标，随后报告实验结果，包括消融研究，与现有技术的比较以及跨数据集评估。0表4. 上海科技B数据集的实验结果0方法 MAE ↓ MSE ↓0跨场景[33] 32.0 49.80MCNN[35] 26.4 41.30FCN[20] 23.76 33.120级联-MTL[26] 20.0 31.10Switching-CNN[23] 21.6 33.40CP-CNN[27] 20.1 30.10DecideNet[15] 20.75 29.420ASACP[24] 17.2 27.40自顶向下[22] 20.7 32.80L2R[17] 14.4 23.80CSRNet[14] 10.6 16.00IG-CNN[1] 13.6 21.10ic-CNN[21] 10.7 16.00SANet[2] 8.4 13.60SCNet[30] 9.3 14.40空间感知[16] 11.1 18.20图像金字塔[10] 10.2 18.30我们的（MCNN）15.5 23.10我们的（CSRNet）8.72 13.5604.1. 实现细节0密度图合成。我们按照[35]的方法合成密度图作为真实密度图。支持集的生成。支持集在所提出的方法中起着重要作用。集合中的图像应该在拥挤度和空间结构方面具有广泛的覆盖范围，以提高泛化能力。我们首先从每个训练图像中提取空间人群特征。具体来说，我们将图像空间划分为网格区域。每个网格的计数值是覆盖区域中像素值的总和。然后，将这些计数值连接成一个向量，作为编码空间信息的人群特征。随后，将训练图像根据k-means算法分成几个簇。对于每个簇，我们选择与簇质心最接近的图像作为支持集中的一个支持图像。支持图像的数量设置为3，因为经验上增加数量会增加计算成本，但性能提升非常有限。训练。为了稳定所提出网络的训练，我们首先训练网络中的基于外观的模块，然后使用预训练的基于外观的网络对整个网络进行优化。注意，在训练基于外观的网络时，学习率设置为0.0001。在训练整个网络时，其他组件和外观模块的学习率分别设置为0.0001和0.00001。经验上，σ设置为0.5。α，β和η分别设置为1，1和1×10−12。K�� 1KKShanghaiTech BExpoUCF 50MAE MSEMAE MSEMAE MSE40420表5.WorldExpo上的实验结果。使用MAE进行评估。Avg.是所有测试场景的平均结果。方法 S1 S2 S3 S4 S5 Avg.0Cross-scene [33] 9.8 14.1 14.3 22.2 3.7 12.9 MCNN[35] 3.4 20.6 12.9 12.0 8.1 11.6 SwitchingCNN [23]4.4 15.7 10.0 11.0 5.9 9.4 CP-CNN [27] 2.9 14.7 10.510.4 5.8 8.86 CNN-pixel [11] 2.9 18.6 14.1 24.6 6.913.4 Body structure [8] 4.1 21.7 11.9 11.0 3.5 10.5DecideNet [15] 2.0 13.1 8.9 17.4 4.8 9.2 ASACP [24]2.8 14.1 9.6 8.1 2.9 7.5 Top-Down [22] 2.7 23.4 10.717.6 3.3 11.5 CSRNet [14] 2.9 11.5 8.6 16.6 3.4 8.6IG-CNN [1] 2.6 16.1 10.2 20.2 7.6 11.3 ic-CNN [21]17.0 12.3 9.2 8.1 4.7 10.3 SANet [2] 2.6 13.2 9.0 13.33.0 8.20SpatialAware [16] 2.6 11.8 10.3 10.4 3.7 7.76ImagePyramid [10] 2.5 16.5 12.2 20.5 2.9 10.90我们的（MCNN） 2.2 11.1 11.3 15.8 2.8 8.7我们的（CSRNet） 2.9 15.0 7.2 14.7 2.6 8.504.2. 数据集和评估指标0评估是在三个流行的数据集上进行的：ShanghaiTech[35]，Expo [33]和UCF 50[9]。ShanghaiTech数据集包括A和B两个部分。ShanghaiTechA包含482张具有不同分辨率的图像，人群数量从33到3139不等。ShanghaiTechB包含716张图像（768×1024），人群数量从9到518不等。WorldExpo是一个包含3980个标记帧（576×720）的真实监控数据集。UCF50是一个非常具有挑战性的数据集，包含50个拥挤的图像（平均1279人，最多4535人），具有不同的分辨率。为了提供定量评估，使用平均绝对误差（MAE）和均方根误差（RMSE）这两个指标：0MAE = 10i =1 | ˆ C i − C i | ,RMSE =0i =1 ∥ ˆ C i − Ci ∥ 2 ,0(11)其中K是测试大小。ˆCi和Ci是从相应的密度图计算得出的预测和实际人群计数。04.3. 消融研究0在ShanghaiTechA上进行了消融研究，以评估每个模块的有效性。基于MCNN和CSRNet，比较了以下变体：1）外观（A）：MCNN或CSRNet的修改版本。2）外观+残差回归（A+RR）：外观和残差回归模块的组合。0表6. 跨数据集评估的实验结果。0方法0MCNN [35] - - - - 397.6 624.1 L2R [17] - - - - 337.6 434.30外观 44.7 87.7 62.2 85.3 358.2 562.1 我们的(MCNN) 40.068.5 30.4 42.5 355.0 560.203）外观+残差回归+语义先验（A+RR+SP）：利用外观、残差回归和语义先验的模型。4）我们的（完整）：我们提出的方法使用对抗损失进行训练。这些变体的结果报告在表3中。我们观察到，1）A+RR相比A具有显著优势，表明在挖掘样本相关性知识后，网络更加有效。此外，与原始的MCNN[35]相比，单独的A模型的性能得到了改善-在联合优化与成对相关信息之后，学习到的深度特征变得更加强大。图3显示了四个示例图像的定性结果。残差回归模块使得估计的密度图更接近于真实值。2）将A+RR+SP与A+RR进行比较，性能得到了改善，表明嵌入的语义先验对于消除误报是有效的。这也可以从图3中第三列和第四列的比较中得到确认。嵌入的语义先验消除了天空区域（见顶部行）和树木区域（见第二行和第三行）的虚假密度。3）我们的完整方法进一步降低了MAE和MSE值，证明了引入对抗损失的有效性。4）通过用CSRNet替换MCNN，我们获得了与MCNN类似的结果，表明即使基于一个强基线，提出的框架也是有效的。04.4. 与现有技术的比较0我们在上海科技A和B、WorldExpo上进行评估，并与表3-5中的现有技术算法进行比较。1）在上海科技A上，表3显示所提方法在MAE和MSE方面的性能最佳，表明所提方法相对于其他方法具有优势。2）类似地，在上海科技B上，所提算法在表4中显示比大多数算法具有更好的性能，除了SANet[2]。值得注意的是，SANet中的评估方法与文献中的标准方法不同。最佳性能为40430估计值：189.60真实值：1990估计值：180.10真实值：1780估计值：30.20真实值：330估计值：106.40真实值：1060估计值：600.00真实值：6010估计值：1308.90真实值：12520上海科技B博览会UCF_500图4. 使用的数据集的示例图像（顶部），所提方法的相应预测（中部）和真实值（底部）。0SANet通过其补丁级别的评估来实现。然而，如表3所示，当使用标准的图像级别评估时，SANet的性能严重下降。因此，预计SANet在上海科技B数据集上使用标准评估协议时性能会下降。尽管如此，我们的方法仍然实现了与SANet（补丁）相当的性能。3）WorldExpo数据集用于评估不同场景中算法的泛化能力。如表5所示，所提方法在场景3和5上实现了最佳性能，表明所提方法在未见场景中具有更好的迁移能力。在大多数情况下，所提方法的性能略优于现有方法。我们进一步分析了图4中的定性结果。在包含相关知识和语义先验的情况下，密度图估计变得更加准确。然而，也存在失败案例。例如示例中的消防栓（第三列）被错误地分类为人群，因为消防栓的外观与单个人非常相似。因此，未来可以进一步研究挖掘困难的负例。04.5. 跨数据集评估0在实际应用中应用人群计数方法时，泛化能力非常重要，以确保在未见场景下有令人满意的性能。为了进一步评估所提方法的泛化能力，进行了跨数据集实验。在这个实验中，源域是上海科技A数据集，其他数据集作为目标域。模型在上海科技A数据集上进行训练，并在其他数据集上进行测试，无需微调。我们仅在表格6中报告了使用MCNN的完整方法的性能，因为UCF50只包含灰度图像，而CSRNet是使用灰度图像训练的。0使用RGB图像进行评估。请注意，对于MCNN [35]和L2R[17]，我们无法报告上海科技B和Expo的结果，因为它们的模型/代码不公开，我们找不到其他引用来源。所提方法显示出比仅基于MCNN[35]的外观模型更好的性能，表明在外观和残差回归模型联合优化后，泛化能力得到了改善。与MCNN相比，所提方法在UCF50数据集上实现了更好的性能。然而，由于在训练过程中使用了额外的数据，L2R略优于我们的方法。05. 结论0本文提出了一种新颖的残差回归方法，以融入相关知识。这种方法可以学习到更有效的特征，并在外观和相关性联合优化后显示出更好的泛化能力。此外，利用语义先验计算损失函数，被证明在消除人群图像中的误报方面是有效的。为了进一步提高预测的密度图质量，采用对抗性损失来规范预测的密度图。在未来的探索中，可以合成人群图像以帮助网络迁移到未见场景。0致谢0这项工作得到了香港特别行政区研究资助委员会（项目编号[T32-101/15-R]和CityU11212518）的部分资助，并获得了香港城市大学战略研究基金（项目编号7004887）的支持。我们感谢NVIDIACorporation捐赠用于此研究的Tesla K40 GPU。[1] Deepak Babu Sam, Neeraj N Sajjan, R Venkatesh Babu, andMukundhan Srinivasan. Divide and grow: Capturing hugediversity in crowd images with incrementally growing cnn.In Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition, pages 3618–3626, 2018.[2] Xinkun Cao, Zhipeng Wang, Yanyun Zhao, and Fei Su. Scaleaggregation network for accurate and efﬁcient crowd count-ing. In Proceedings of the European Conference on Com-puter Vision (ECCV), pages 734–750, 2018.[3] A. B. Chan, Zhang-Sheng John Liang, and N. Vasconce-los. Privacy preserving crowd monitoring: Counting peoplewithout people models or tracking. In IEEE Conference onComputer Vision and Pattern Recognition, pages 1–7, 2008.[4] A. B. Chan and N. Vasconcelos. Bayesian poisson regressionfor crowd counting. In International Conference on Com-puter Vision, pages 545–551, 2009.[5] W. Ge and R. T. Collins. Marked point processes for crowdcounting. In IEEE Conference on Computer Vision and Pat-tern Recognition, pages 2913–2920, 2009.[6] James Hays and Alexei A Efros. Scene completion usingmillions of photographs.ACM Transactions on Graphics(TOG), 26(3):4, 2007.[7] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.Delving deep into rectiﬁers: Surpassing human-level perfor-mance on imagenet classiﬁcation.In Proceedings of theIEEE international conference on computer vision, pages1026–1034, 2015.[8] Siyu Huang, Xi Li, Zhongfei Zhang, Fei Wu, ShenghuaGao, Rongrong Ji, and Junwei Han. Body structure awaredeep crowd counting.IEEE Trans. Image Processing,27(3):1049–1059, 2018.[9] H. Idrees, I. Saleemi, C. Seibert, and M. Shah. Multi-sourcemult

下载后可阅读完整内容，剩余1页未读，立即下载