实现跨数据集通用人群计数模型

26 浏览量更新于2023-10-14 收藏 28.27MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0123456012345632050实现跨数据集人群计数的通用模型0马志恒1，洪晓鹏3,4，魏星2�，邱云峰2，龚一洪201 西安交通大学人工智能学院 2 西安交通大学软件学院 3西安交通大学网络与信息安全学院 4 鹏城实验室人工智能研究中心0mazhiheng@stu.xjtu.edu.cn, {hongxiaopeng,weixing}@mail.xjtu.edu.cn,0yfqiu2015@stu.xjtu.edu.cn, ygong@mail.xjtu.edu.cn0摘要0本文提出解决跨场景和数据集学习通用人群计数模型的实际问题。我们分析了人群计数器对尺度变化的灾难性敏感性是这个问题的关键，而这在现实世界中非常常见，由不同场景布局和图像分辨率等因素引起。因此，训练一个可以应用于各种场景的通用模型是困难的。为了解决这个问题，我们提出了尺度对齐作为建立新型人群计数框架的主要模块。我们推导出一个闭式解，通过最小化它们的尺度分布之间的距离来获得最佳的图像缩放因子以进行对齐。我们还提出了一种基于高效切片Wasserstein距离的损失函数的新型神经网络，用于尺度分布估计。通过所提出的方法，我们学习到了一个通用模型，在几个数据集上表现良好，甚至可以显著优于专门为每个数据集微调的最先进模型。实验证明了我们的模型对未见过的场景具有更好的泛化能力。01. 引言0近年来，人群计数引起了广泛关注，因为它在现实世界中有各种应用。由于不同场景布局和图像分辨率等因素引起的尺度变化，人群计数是一项具有挑战性的任务。0� 通讯作者0致谢。本工作由中国国家重点研发计划资助（编号：2020AAA0105600和2019YFB1312000）、国家自然科学基金资助（编号：62006183和62076195）、中国博士后科学基金资助（编号：2020M683489）以及中央高校基本科研业务费专项资金资助（编号：xzy012020013）。0UCF-QNRFShanghai_AJHU-CROWD++UCF_CC_500UCF-QNRFShanghai_AJHU-CROWD++UCF_CC_500（a）（b）图1.（a）四个不同数据集中人群的尺度分布（对齐之前）（以对数域表示）。（b）我们的方法对齐的尺度分布。请注意，对齐之前数据集内部和跨数据集之间存在显著的尺度变化，而通过我们的方法可以很好地对齐分布。0由于不同场景布局、图像分辨率和视角变化等因素引起的真实场景中的遮挡和物体的大尺度变化是人群计数中的困难之一。最先进的人群计数器[55, 44,28]通常在大规模分类数据集（如ImageNet[9]）上预训练深度神经网络，然后针对每个人群计数数据集进行特定的微调。尽管取得了显著进展，但现有方法通常遵循单个数据集内的训练-测试协议，并且在跨数据集性能上存在显著的退化。一方面，当模型应用于未见过的数据集时，准确性大幅下降（表格6）。另一方面，联合训练在多个数据集上的模型通常不如在每个数据集上专门学习的模型（表格2），即使使用了更多的训练图像。现有人群计数器的这种差劲的泛化能力严重限制了它们在实际场景中的应用。本文提出了实际问题，即实现跨数据集的人群计数，以用于真实世界的应用。目标是有效地吸收更多的训练数据知识，提高计数性能和重建。80100100.392.588.791.798.3103.584.980.679.280.182.985.432060通过获得适用于各种场景的通用模型，可以降低部署成本。尽管泛化对于任何机器学习问题都是一个挑战，但对于人群计数问题来说尤为严重，有两个关键方面。首先，人群计数的人工注释非常耗时，场景可能过于拥挤并且存在严重的遮挡。根据[14]，UCF-QNRF的整个注释过程仅涉及1535张图像，耗时2000小时。之前发布的数据集甚至更小[13,60]。由于一些现有数据集的数量很少，学习到的人群计数器很容易在一定程度上过拟合[50]。此外，由于不同场景之间以及同一图像的不同子区域之间的人群密度和尺度分布通常存在较大差异，原因包括不同的场景布局和透视效果等因素。例如，UCF-QNRF[14]中的图像分辨率范围从0.08到66.65百万像素，包含的人数范围从49到12865。当考虑多个数据集时，尺度变化变得严重。如图1（a）所示，不同数据集之间存在明显的尺度变化，UCF-QNRF [14]的平均分辨率约为上海A[60]的三倍（表1）。由于这种尺度变化和数据偏差，使用来自多个来源的图像直接训练一个通用模型是困难的。为了进一步阐明这个问题，我们定量地研究了鲁棒人群计数对尺度变化的影响。我们测试了最先进的人群计数器BL[28]在简单图像缩放方面的性能。我们将UCF-QNRF的测试图像从0.75缩放到1.5，并分析这如何影响在原始分辨率图像上训练的模型，即尺度从-25%到+50%的变化。实验结果如图2所示，灾难性的。例如，BL[28]的MAE从88.7增加到100.3和103.5，尺度分别变化为-25%和+50%。此外，即使我们稍微放大（+15%变化）图像，仍然会有3个点的精度损失，尽管这种轻微放大在视觉上不会引入明显的失真或任何信息损失。受到在非受限环境中分析人脸之前进行面部对齐的事实的启发，我们在计数场景中指示了一个主要模块（称为尺度对齐）。这一步旨在将尺度分布对齐，以便在各种场景中学习单一模型。我们首先计算所有场景的尺度分布，然后将它们归一化为“标准”分布，该分布由所有分布的Wasserstein重心[32]表示。0-25% -15% 0% +15% +35% +50%0尺度变化0MAE0BL SDA+BL0图2. 人群计数对尺度变化的鲁棒性。曲线显示了BL[28]在UCF-QNRF上对测试图像的不同尺度变化的结果，而训练图像的分辨率保持不变，例如，+50%表示测试图像按1.5倍缩放。我们提出的方法SDA+BL比BL更加鲁棒。0尺度变化可以通过从每个尺度分布到重心的Wasserstein距离之和来量化。然后，我们的目标是找到分布变换和相应的图像变换，以最小化尺度变化。特别地，对数域中的分布平移对应于图像缩放。在此基础上，我们推导出一个闭式解来获得最优的平移和相应的缩放因子。我们可以通过将图像分成块来更细致地处理图像内部的尺度变化，并为每个块寻找缩放因子。如图1（b）所示，在尺度对齐后，不同数据集之间的尺度变化可以大大减小。此外，我们提出了SDNet，可以端到端地预测场景的尺度分布，而无需检测每个人。我们注意到，由于透视效果，尺度分布与空间位置高度相关，因此我们提出了一种基于尺度和位置的联合分布表示和切片Wasserstein距离[17]的新目标函数来训练SDNet。总结起来，我们做出了以下贡献：0•我们提出解决通用跨数据集人群计数的实际问题。我们建立了一个称为尺度对齐的主要构建块，证明了它对这个问题的必要性。0•我们通过将尺度分布转换为其Wasserstein重心来提出尺度对齐方法，并推导出闭合解来获得最佳的平移和相应的图像缩放因子。0•我们提出了一种新颖的神经网络（SDNet），可以直接预测各种场景的尺度分布，而无需检测每个人。我们还提出了一种基于尺度和位置的联合分布表示和高效的切片Wasserstein距离的损失函数来优化SDNet。32070对齐数据集0SDNet0SDNet0人群0人群0密度映射0密度图0对齐数据集0图像0结果0预测尺度0数据集0预测尺度0数据集0数据集A0数据集B0数据集A0数据集B0图3.我们方法的整体框架。首先，我们将图像划分为不重叠的补丁，并将它们输入SDNet来预测它们的尺度分布。然后，我们执行尺度分布对齐，并为每个补丁获得最佳的缩放因子。最后，我们对补丁进行缩放，并使用它们来学习计数模型。02.相关工作0跨场景人群计数。以前的人群计数工作是针对特定场景的，因此在同一场景中只能使用为该场景学习的模型。主要原因可以归因于早期的基准数据集，如UCSD [5]和Mall[7]只包含从一个或两个场景收集的视频剪辑。为了满足实际应用中的人群计数需求，提出了几个数据集，如ShanghaiTech [60]、UCF-QNRF [14]和JHU-Crowd++[40]，其中的图像是从互联网收集的，包含各种场景。这些数据集的出现使得人群计数成为一项更具挑战性的任务，并引起了广泛关注。随着深度学习[53, 54,6]和这些精细注释的数据集的发展，这个研究领域取得了很大的进展[46, 59, 60, 44, 36, 29, 47,52]。然而，当前的方法通常不采取缩小图像之间差距的策略，也不能很好地推广到未见过的场景。0人群计数的领域适应。最近，领域适应在人群计数中越来越受到关注，用于将训练好的模型适应于另一个领域[11, 18,50, 10]。CODA[18]采用对抗训练策略来处理源域和目标域的密度分布变化。Wang等人[50]构建了大规模的合成数据，并将其转化为真实场景中的图像进行人群计数。Han等人[10]引入了一个语义提取器来在语义空间中对齐特征。Wang等人[51]提出了在参数级别学习领域偏移，然后将源模型转移到目标模型。然而，仍然存在一些问题。0传统领域适应方法在处理规模转移问题时存在显著的局限性。领域适应通常不利用目标数据来提高源数据的性能，并进一步获得通用模型。0人群计数的尺度处理。许多工作通过多尺度特征融合[25,24, 29, 8, 39, 31, 24, 16,2]来处理大尺度变化。一些工作提出重建场景的透视图。PGC-Net [57]根据预测的透视图融合多尺度特征，PACNN[37]根据预测的透视图融合多尺度密度。[59]使用透视图生成地面真实密度图。虽然许多方法尝试处理更广泛的尺度范围，但我们的理念不同，我们试图对齐尺度，使问题更容易解决。一些工作还考虑对图像进行重新缩放。[1, 35,34]首先将图像补丁分类为不同的密度级别，然后使用固定的预定义比例调整它们的大小，或者根据预测的密度级别将它们输入不同的CNN模型。L2SM[56]尝试根据图像补丁的密度级别预测缩放因子，然后使用这些因子对特征图进行重采样以获得最终的预测。然而，密度并不直接表示尺度，例如，对于只有少量小型或大型对象的场景，密度可能是相同的。RPNet[58]估计透视图，然后对图像进行变形，使得图像中的人具有相似的尺度，但它不能处理图像之间的尺度转移。03. 方法0在本节中，我们首先给出了尺度对齐的闭式解，然后描述了一种新颖的网络结构。024log sP12024log sP12024log sP12PDF024log sP12CDFβ = 1Mδ(zm),(1)ϵ∗ = arg minϵ∈RW 22 (βϵ, ¯β),(2)(F −1u (t) − F −1v(t))2dt,(3)(4)32080图4. 图像缩放与对数域中尺度分布平移的关系。0图5.尺度分布对齐。（a）对齐前的尺度分布。（b）计算Wasserstein重心。（c）将尺度分布平移至重心。（d）对齐后的尺度分布。0（SDNet）用于预测尺度分布及其训练损失。图3可视化了我们方法的整体框架。03.1. 用于人群计数的尺度对齐0在本节中，我们建立了一种分割和重新调整尺度的策略来调整尺度。特别地，我们首先将每个图像分成 C × C个不重叠的块，然后为每个块寻找最优缩放因子以进行对齐。通过这种方式，我们不仅可以处理图像间的尺度变化，还可以处理图像内的尺度变化。第一个任务是找到合适的尺度分布变换及其相应的图像变换。特别地，我们观察到一旦尺度分布转换到对数域，图像缩放只会在该域中引起分布的平移，如图4所示。基于这个特性，我们引入了对齐过程，如图5所示。首先，我们通过平移（图像缩放）来对齐两个尺度分布。0ing），然后扩展以对齐多个。对数域中的尺度分布定义如下：0M×0其中 M 是图像中的总人数， s m 是第 m 个人的尺度， zm = log ( s m ) 是对数尺度， δ ( ∙ )表示一维狄拉克δ函数。我们将两个不同的尺度分布分别表示为 β 和 ¯ β。为了对齐两个尺度分布，我们可以将一个分布平移以最小化它们之间的距离，目标函数定义如下：0其中 β ϵ ( z ) = β ( z − ϵ ) 是平移后的尺度分布， ϵ �是最优平移， exp ( ϵ � ) 是相应的最优缩放因子， W 2 2 ( ∙, ∙ )表示2-Wasserstein距离。我们采用Wasserstein距离而不是常规的距离，如 p-范数距离或KL散度，因为尺度分布具有不同的支持集并且可能不重叠。Wasserstein距离表示将一个分布推向另一个分布的最小成本，非常适合这种情况[32, 30,21]。计算多维分布之间的精确2-Wasserstein距离是昂贵的，需要解决一个线性规划问题[32]。然而，一维分布之间的2-Wasserstein距离有一个闭式解：0W 2 2 ( u, v ) = ∫ 10其中 F u 是累积分布函数（CDF），即 F u ( t ) = ∫ t −∞ Iu ( x )d x ， I u ( x ) = d u ( x )是概率密度函数（PDF），而 F − 1 u是相应的反函数。基于一维Wasserstein距离，我们可以得到最优平移 ϵ � 如下：0ϵ� = arg min ϵ ∈ R0100 (F−1β(t) + ϵ - F−1¯β(t))2 dt0�ϵ0100 (F−1β(t) + ϵ - F−1¯β(t))2 dt = 00= � ϵ� = 100 (F−1¯β(t) - F−1β(t))dt0其中βϵ(z) = β(z - ϵ) → F−1βϵ(t) = F−1β(t) +ϵ。通过上述公式，我们可以使用最佳平移ϵ�来对齐任意两个比例分布。对齐多个比例分布的策略包括两个步骤。首先，我们计算所有比例分布的“平均值”。然后，我们将每个比例分布平移至“平均值”比例分布，使用公式（4）计算。Wasserstein视角中的“平均值”比例分布实际上是Wasserstein重心，定义如下：( 1αpre =βpre =Dxq,yqδ(Sxq,yq).(10)32090比例映射0比例网0预测的比例分布0距离0预测的比例分布的联合分布0图6. SDNet的整体架构。0“平均值”比例分布使用公式（4）计算。Wasserstein视角中的“平均值”比例分布实际上是Wasserstein重心，定义如下：0¯ β = arg min β01N0n =1 W2(β, βn), (5)0其中N是比例分布的总数。一维Wasserstein重心也有一个闭合形式的解。如[4]中所证明的，可以计算如下：0F−1¯β(t) = 10N0n =1 F − 1 β n ( t ) . (6)0最终，第n个比例分布的最佳平移可以计算如下：0ϵ�n = 10N0n =1 F−1βn(t) - F−1βn(t))dt, (7)0并且第n个图像的相应最佳缩放因子等于exp(ϵ�n)。一旦我们获得了每个补丁的比例分布，我们就可以通过最佳缩放因子对多个数据集的所有补丁进行对齐。在下一节中，我们提出了一种新的网络结构，可以预测比例分布，而无需检测每个人。03.2. 比例分布预测器（SDNet）0本节介绍如何通过CNN模型（SDNet）预测场景的比例分布。由于人的比例与其在图像中的位置高度相关，我们同时预测空间分布和比例分布，并使用它们的联合分布作为监督。地面真值联合分布定义如下：0α = 10M0m =1 δ ( x m , y m , z m ) , (8)0其中x是横坐标，y是纵坐标，z是对数尺度，δ(∙, ∙,∙)是三维狄拉克δ函数，M是图像中点（人）的总数。02 3 4 5 log s0地面真值预测0图7.SDNet输出的可视化结果。（a）输入图像。（b）预测的比例映射。（c）预测和地面真值比例分布的CDF。（d）预测的空间地图。0SDNet由一个完全卷积网络（FCN）组成，具有两个独立的输出头，如图6所示。这两个头部共享相同的网络结构，但具有不同的权重，用于分别预测空间地图和比例地图。我们将输出的空间地图表示为D（D已通过求和归一化），将输出的比例地图表示为S。S，D∈RW×H具有相同的空间分辨率，其中W和H分别是每个输出的高度和宽度。然后，预测的联合分布定义如下：0q =1 D x q ,y q δ ( d ∙ x q , d ∙ y q , S x q,y q ) , (9)0其中 Q = W × H 是输出像素的总数，x q , y q是两个输出（尺度图或空间图）的共享横坐标和纵坐标。Dx q ,y q 是 D 中第 q 个像素的值，S x q ,y q 是 S 中第 q个像素的值。由于采用了FCN作为基本框架，输入图像和输出之间的空间对应关系得以保留。因此，x q 和 y q可以通过乘以SDNet的下采样比例 d映射回输入空间坐标。可以看出，预测的联合分布具有固定的空间坐标（由输出的形状确定），但具有可学习的尺度坐标，由SDNet预测。我们可以通过边缘化预测的联合分布轻松获得预测的空间分布和尺度分布。空间分布可以计算为 Qq =1 D x q ,y q δ ( d ∙ x q , d ∙ y q )，而预测的尺度分布可以如下推导：0QW 22 (RIu(·, θl).RIv(·, θl)).(14)UCF-QNRF12012897x20061,006,800838JHU-Crowd++22721450x919844,387372UCF CC 5050902X65463,969127932100我们在图7中可视化了SDNet的输出。在下一节中，我们介绍了用于训练SDNet的基于切片Wasserstein距离的目标函数。03.3. 训练目标0真实联合分布 α 和预测联合分布 α pre具有不同的支撑集。因此，Wasserstein距离是衡量它们差异的首选方法。我们可以设计一个目标函数来最小化它们之间的2-Wasserstein距离，即 L = W 2 2 ( α, α pre )。然而，正如在第3.1节中提到的，计算多维分布之间的精确2-Wasserstein距离是昂贵的。因此，我们采用切片2-Wasserstein距离[17]作为近似方法。损失函数定义如下：0L = SW 2 2 ( α, α pre ) , (11)0其中 SW 2 2 ( ∙ , ∙ )表示切片2-Wasserstein距离。切片Wasserstein距离是为了高效地近似多维分布之间的Wasserstein距离而提出的，它建立在Wasserstein距离的一维闭式解（公式（3））之上。具体而言，通过随机变换首先获得多维分布的一系列一维边缘分布，然后计算一维Wasserstein距离的积分：0SW 2 2 ( u, v )=0S d − 1 W 2 2 ( R I u ( ∙ , θ ) , R I v ( ∙ ,θ ))d θ, (12)0其中 S d − 1 ∈ R d 表示 d 维单位球面，W 2 2 ( R I u ( ∙ ,θ ) , R I v ( ∙ , θ )) 可以通过公式（3）求解，R 表示 d维随机变换，将函数 I 映射到其在 R d的水平面上的积分集合，如下所示：0R I ( h, θ ) =0R d I ( x ) δ ( h - � x, θ � )d x, (13)0其中 δ ( ∙ ) 表示一维狄拉克δ函数，�∙ , ∙� 表示欧几里德内积，θ ∈ S d − 1。在实践中，对单位球面 S d − 1 进行积分0在公式（12）中的积分可以通过蒙特卡洛采样来近似，从 Sd − 1 上的均匀分布中抽取样本 { θ l } L l =1 ，其中 L是总样本数。最后，积分被替换为有限样本平均值：0SW 2 2 ( u, v )≈ 10L0具体而言，如果 θ = (0 , 0 , 1) t ，则切片损失等于 W 2 2 ( β,β pre )，即真实尺度分布和预测尺度分布之间的2-Wasserstein距离。0表1. 训练数据集的统计数据。请注意，存在显著的数据集偏差。0数据集图像平均分辨率总计数平均计数0上海 A 300 872x598 162,350 54104. 实验0在本节中，我们首先介绍了我们实验中使用的公共人群计数基准。其次，描述了我们方法的评估指标和实现细节。第三，我们将我们的方法与基线和最先进的方法进行比较。最后，我们进行了大量实验来研究每个组件的效果。0数据集。我们的实验是在四个广泛使用的计数基准数据集上进行的，即UCF-QNRF [14]，上海 A[60]，JHU-Crowd++ [40]和UCF CC 50[13]。我们在表1中总结了这些数据集（训练数据）的基本信息。请注意，这些数据集包含各种各样的自由视图图像，我们的提出的方法特别关注这些图像。0实施细节。对于人群计数问题，一个人的规模可以通过其头部的大小来表示，而一些数据集（例如JHU-Crowd++[40]）提供了边界框注释以提取此类信息。手动注释边界框是昂贵的，在大多数情况下，数据集只提供点注释。然而，我们可以从标记点的几何分布[60]中粗略地估计尺度。我们还可以利用目标检测器在没有严重遮挡的场景中获得更准确的尺度[22]。为了保持简单，我们只利用点注释来估计尺度。我们提出的尺度分布对齐（SDA）是一种可以插入到任何人群计数模型前面的预处理技术。在实验中，我们使用四种最先进的人群计数模型评估SDA，它们分别是CSRN ET[20]，BL [28]，DM [49]和M-SFAN ET[42]。我们使用原始论文中给出的相同超参数，并使用它们的官方开源代码进行实现[27，19，41，48]。SDNet的网络结构如图6所示。可以看出，SDNet是一个完全卷积网络，由一个单一的主干和两个回归头组成。具体来说，我们采用VGG19[38]在最后一个池化层之前截断作为主干，采用三层卷积回归器作为头部，即Conv 512×256×3×3 + Conv256×128×3×3 + Conv128×1×3×3（输入通道×输出通道×内核高度×内核宽度）。SD-Net的下采样比率d为16。我们通过优化SDNet来实现。CSRNET(S) [20]110.6 190.168.2115.085.9309.2266.1 397.5CSRNET(M)158.0 163.476.6119.591.1276.3323.7 401.9SDA+CSRNET(M)96.3155.758.497.965.1269.3183.4 272.1BL(S) [28]88.7154.862.8101.867.1268.9229.3 308.2BL(M)97.3168.566.1108.766.7270.4231.1 313.2SDA+BL(M)79.2134.853.684.458.3254.5169.4 243.6M-SFANET(S) [42]85.6151.259.795.765.5257.4162.3 276.8M-SFANET(M)111.8 186.665.1119.761.4256.9233.6 385.1SDA+M-SFANET(M)79.5140.752.987.357.4251.6159.1 239.4DM(S) [49]85.6148.359.795.766.0261.4211.0 291.5DM(M)102.6 171.463.3113.564.4229.5263.9 417.5SDA+DM(M)80.7146.355.092.759.3248.9197.5 264.1SDA+CSRNET96.3155.758.497.965.1269.3183.4 272.1SDA+M-SFANET79.5140.752.987.357.4251.6159.1 239.4SDA+DM80.7146.355.092.759.3248.9197.5 264.1SDA+BL(S)83.3143.158.495.762.6264.1186.3 261.5SDA+BL(M)79.2134.853.684.458.3254.5169.4 243.632110表2.与基线方法的计数性能比较。（S）表示模型在每个数据集上单独训练。（M）表示模型在多个数据集上联合训练。0UCF-QNRF 上海 A JHU-Crowd++ UCF CC 500方法 MAE MSE MAE MSE MAE MSE MAE MSE0表3.与最先进方法的计数性能比较。红色表示最佳性能，蓝色表示次佳性能。0UCF-QNRF 上海A JHU-Crowd++ UCF CC 500方法 MAE MSE MAE MSE MAE MSE MAE MSE0L2SM [56] 104.7 173.6 64.2 98.4 - - 188.4 315.30S-DCN ET [55] 104.4 176.1 58.3 95.0 277 426 204.2 301.30AMSN ET [12] 101.8 163.2 56.7 93.4 - - 208.4 297.30AMRN ET [26] 86.6 152.2 61.59 98.36 - - 184.0 265.80LIBRAN ET [23] 88.1 143.7 55.9 97.1 - - 181.2 262.20ASN ET [15] 91.6 159.7 57.8 90.1 - - 174.8 251.60RPN ET [58] - - 61.2 96.9 - - - -0MNA [45] 85.8 150.6 61.9 99.6 67.7 258.5 - -0ADSCN ET [2] 71.3 132.5 55.4 97.7 - - 198.4 267.30CSRN ET [20] 110.6 190.1 68.2 115.0 85.9 309.2 266.1 397.50BL [28] 88.7 154.8 62.8 101.8 67.1 268.9 229.3 308.20M-SFAN ET [42] 85.6 151.2 59.7 95.7 65.5 257.4 162.3 276.80DM [49] 85.6 148.3 59.7 95.7 66.0 261.4 211.0 291.50SDA+BL 79.2 134.8 53.6 84.4 58.3 254.5 169.4 243.60Adam的初始学习率为10^-5。我们使用随机水平翻转和随机调整大小来增强训练数据。在我们的实验中，我们设置C= 2和L =5。SDNet是在原始图像上训练的，而通用人群计数模型是在对齐图像上训练的。我们在多数据集训练期间手动检查训练数据和测试数据，以确保没有数据泄漏。训练数据根据地面实况尺度分布和从中计算的Wasserstein重心进行对齐，而测试数据根据SDNet预测的尺度分布和训练阶段使用的相同Wasserstein重心进行对齐。0与基准方法的比较。我们使用四种最先进的方法进行实验，以说明在多个数据集上训练之前进行尺度对齐的必要性。如表2所示，与在每个数据集上单独训练的相同模型相比，多个数据集在尺度对齐之前训练的模型性能更差，甚至更差。0表4.尺度对齐的上限计数性能。对齐表示模型是根据地面实况尺度分布对齐的图像进行训练。0UCF-QNRF 上海A JHU-Crowd++ UCF CC 500方法 MAE MSE MAE MSE MAE MSE MAE MSE0BL [28] 88.7 154.8 62.8 101.8 75.0 299.9 229.3 308.20BL+对齐 66.2 112.3 42.3 72.9 48.5 250.6 114.7 153.40改进 22.5 42.5 20.5 28.9 26.5 49.3 114.6 154.80表5. 切割研究。(S)表示模型在每个数据集上单独训练。(M)表示模型在多个数据集上联合训练。0UCF-QNRF 上海A JHU-Crowd++ UCF CC 500方法 MAE MSE MAE MSE MAE MSE MAE MSE0BL(S) [28] 88.7 154.8 62.8 101.8 75.0 299.9 229.3 308.20如果用更多的数据进行训练，是因为单个计数模型无法处理多个数据集的如此显著的尺度变化（如图1（a）所示），这使得模型欠拟合。相比之下，训练在多个对齐数据集上的模型不仅比在尺度对齐之前的多个数据集上训练的模型更好，而且比在每个数据集上单独训练的模型更好。0与现有技术的比较。我们在四个基准数据集上广泛比较了我们的方法与其他最先进的方法。定量结果在表3中说明，重点总结如下：1）我们的方法在JHU-CROWD++、上海A和UCF CC50上实现了最佳的计数性能。此外，所有预测都是由一个通用模型给出的，而不是在每个数据集上专门训练的不同模型。2）我们的方法始终改进了所有基线方法。证明了我们的方法可以成为现有方法的有效插件。0消融研究。表4中展示的实验探索了尺度对齐的上限性能。我们没有根据SDNet预测的尺度分布β对图像进行对齐，而是直接根据地面实况尺度分布β对图像进行对齐，这避免了在分布预测中引入的误差。可以看到，BL+对齐相对于基线方法取得了令人难以置信的改进。在四个数据集上，MAE减少了约20-100个点。表5显示了SDA和多数据集训练的相对贡献。从表的第二行可以看出，SDA可以改进分别在每个数据集上训练的基线方法。这是因为我们的方法可以大大减少尺度变化。第三行显示，如果进一步改进，性能可以进一步提高。GT Count: 582GT Count: 2154GT Count: 181GT Count: 712BL: 613.9BL: 2248.9BL: 234.7BL: 742.3SDA+BL: 560.9SDA+BL: 2186.3SDA+BL: 175.3SDA+BL: 706.8scaling factor: 2.68scaling factor: 3.19scaling factor: 1.52scaling factor: 1.60scaling factor: 0.36scaling factor: 0.40scaling factor: 1.66scaling factor: 1.50scaling factor: 1.14scaling factor: 1.27scaling factor: 0.56scaling factor: 0.86scaling factor: 0.52scaling factor: 0.24scaling factor: 1.13scaling factor: 1.12L2SM [56]73.4119.4----S-DCNET [55]61.8102.8----CSRNET [20]75.3138.791.4317.0389.8659.6SDA+CSRNET67.3107.480.8290.2296.5426.1BL [28]69.8123.881.2303.8309.6537.1SDA+BL60.598.376.9287.4244.7354.2M-SFANET [42]70.1128.184.7298.2397.5666.6SDA+M-SFANET62.5103.479.1283.0314.9456.9DM [49]69.3120.685.2303.4317.8550.2SDA+DM59.297.479.8289.7261.6384.332120图8. BL（第二行）和我们的SDA+BL（第三行）估计的密度图。我们还展示了我们的方法预测的尺度因子，以便在不同场景之间进行比较。请注意尺度对密度图的影响。0表6.对未见过的数据集的泛化。模型在UCF-QNRF上训练，然后在其他数据集上进行测试。0UCF-QNRF → 上海 A JHU-Crowd++ UCF CC 500方法 MAE MSE MAE MSE MAE MSE0改进 8.0 31.3 10.6 26.8 93.3 233.50改进 9.3 25.5 4.3 16.4 64.9 182.90改进 7.6 24.7 5.6 15.2 82.6 209.70改进 10.1 23.2 5.4 13.7 56.2 165.90该模型是在多个对齐的数据集上训练的。这证明了如果CNN基于计数方法能够得到适当的对齐，它们可以从数据的增加中受益。0对未见过的数据集的泛化。为了进一步说明SDA如何帮助计数模型更好地泛化到未见过的场景，我们进行了跨数据集评估。在这个实验中，SDNet和计数模型都是在一个数据集（UCF-QNRF）上训练的，然后在其他数据集上进行评估。实验结果如表6所示。0可以看到，我们的方法在改进基线的同时，也取得了最佳的跨数据集评估性能。0可视化。我们在图8中分别对使用BL训练的模型和使用对齐图像训练的SDA+BL模型进行了估计的密度图可视化。可以看到，我们的SDA+BL对于像树木这样的背景更加鲁棒，并在拥挤区域给出更准确、更清晰的估计。此外，我们的方法成功预测了大规模的人群，而基线模型无法预测。05. 结论0在这项工作中，我们提出并解决了一个实际问题，即学习一个适用于不同场景和数据集的通用人群计数模型。我们分析了人群计数对尺度变化的敏感性是这个问题的关键。然后，我们提出了一种简单而有效的尺度对齐方法，其中推导出了一个闭式解来获得最佳的图像缩放因子。进一步提出了SDNet来预测尺度分布。我们希望这种方法能够启发人们对人群计数的适应性和普适性的研究，并期待在这个方向上进行更多的研究工作。32130参考文献0[1] Deepak Babu Sam, Shiv Surya, and R Venkatesh Babu.Switching convolutional neural network for crowd counting.In CVPR, pages 5744–5752, 2017. 30[2] Shuai Bai, Zhiqun He, Yu Qiao, Hanzhe Hu, Wei Wu, andJunjie Yan. Adaptive dilated network with self-correctionsupervision for counting. In CVPR, pages 4594–4603, 2020.3, 70[3] Vinay Bettadapura. Face expression recognition andanalysis: the state of the art. arXiv preprint arXiv:1203.6722,2012. 20[4] Nicolas Bonneel and Hanspeter P�ster. Sliced wassersteinbarycenter of multiple densities. 2013. 50[5] Antoni B Chan, Zhang-Sheng John Liang, and Nuno Vas-concelos. Privacy preserving crowd monitoring: Countingpeople without people models or tracking. In CVPR, 2008. 30[6] Dongliang Chang, Yifeng Ding, Jiyang Xie, Ayan KumarBhunia, Xiaoxu Li, Zhanyu Ma, Ming Wu, Jun Guo, andYi-Zhe Song. The devil is in the channels: Mutual-channelloss for fine-grained image classification. IEEE Transactionson Image Processing, 29:4683–4695, 2020. 30[7] Ke Chen, Chen Cha

下载后可阅读完整内容，剩余1页未读，立即下载