规模聚合网络：准确高效的人群计数

164 浏览量更新于2023-10-13 收藏 1.83MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

规模聚合网络用于准确和高效的人群计数曹新坤1、王志鹏1、赵燕云1、2、苏飞11信息与通信工程2网络系统与网络文化北京市重点实验室北京邮电大学，中国{cc，wzpycg，zyy，sufei}@ bupt.edu.cn抽象。在本文中，我们提出了一种新的编码器-解码器网络，称为规模聚合网络（SANet），准确和高效的人群计数。编码器使用尺度聚合模块提取多尺度特征，解码器使用一组转置卷积生成高分辨率密度图。此外，我们发现，大多数现有的工作只使用欧氏损失，假设每个像素之间的独立性，但忽略了密度图中的局部相关性。因此，我们提出了一种新的训练损失，结合欧几里德损失和局部模式一致性损失，这提高了我们的实验中的模型的性能。此外，我们使用归一化层来简化训练过程，并应用基于补丁的测试方案来减少统计偏移问题的影响。为了证明所提出的方法的有效性，我们在四个主要的人群计数数据集上进行了广泛的实验，我们的方法在参数少得多的情况下取得了优于最先进方法的关键词：群体计数·群体密度估计·尺度聚集网络·局部模式一致性1介绍随着城市人口的快速增长，人群场景分析[1，2]近年来得到了相当大的关注。在本文中，我们专注于人群密度估计，可用于在许多情况下，如政治集会和体育赛事的公共安全人群控制然而，由于人群图像中的严重遮挡、背景杂波、大尺度和视角变化，精确地估计人群密度是极其困难的。最近，基于CNN的方法已经尝试解决人群密度估计问题。一些工作[3，4，5，6]通过解决多尺度体系结构的尺度变化问题取得了显著的改进。他们使用具有不同字段大小的CNN来提取适应人体大小变化的特征这些工作的成功表明，多尺度表示是人群计数任务的重要价值此外，基于人群密度估计的方法旨在将空间分布与人群密度估计相2Cao等人人群图像信息由于高分辨率密度图包含更精细的细节，我们认为生成高分辨率和高质量的密度图有助于人群密度估计。然而，在最近的基于CNN的作品中存在两个主要缺点。一方面，人群密度估计受益于多列架构的多尺度但是尺度多样性完全受列的数量限制（例如，在[ 3]中的多列CNN中只有三个分支）。另一方面，在大多数作品中仅使用像素级欧几里得损失，这假设每个像素都是独立的，并且已知会导致图像生成问题上的模糊图像[7]。在[6]中，对抗损失[8]已被应用于提高密度图的质量，并取得了良好的性能。尽管如此，密度图可能包含很少的高级语义信息，并且额外的鉴别器子网络增加了计算成本。为了解决这些问题，我们遵循上面讨论的两点，并提出了一种新的编码器-解码器网络，命名为规模聚合网络（SANet）。SANet的架构如图所示。1.一、受图像识别领域Inception [9]结构的启发，我们在编码器中使用尺度聚合模块来提高特征的表示能力和尺度多样性。解码器由一组卷积和转置卷积组成。它用于生成高分辨率和高质量的密度图，其大小与输入图像完全相同。受[10]的启发，我们使用欧氏损失和局部模式一致性损失的组合来利用密度图中的局部相关性。通过SSIM [11]指数计算局部模式一致性损失，以衡量估计的密度图和相应的地面实况之间的结构相似性。实验结果表明，该算法的额外计算量可以忽略不计，有效地提高了算法的性能。我们使用实例归一化（IN）[12]层来缓解消失梯度问题。不幸的是，我们的补丁为基础的模型实现较差的结果时，由于局部（补丁）和全局（图像）统计之间的差异与图像进行测试。因此，我们应用一个简单但有效的基于补丁的训练和测试计划，以减少统计变化的影响在四个基准上的大量实验表明，该方法优于最近的国家的最先进的方法。概括起来，我们工作的主要贡献如下：– 我们提出了一种新的网络，称为规模聚合网络（SANet）的准确和有效的人群计数，提高了多尺度表示，并生成高分辨率的密度图。网络可以端到端地训练。– 我们分析了IN层所造成的统计偏移问题，这些IN层用于减轻训练过程。在此基础上，提出了一种简单有效的基于补丁的训练和测试方案，以降低其影响。– 我们提出了一种新的训练损失，结合欧几里德损失和局部模式一致性损失，利用密度图中的局部相关性。前规模聚合网络用于准确和高效的人群计数3图1：SANet的架构。卷积层被表示为损失限制了逐像素的误差，并且后者加强了预测结果和相应的地面实况之间的局部– 在四个具有挑战性的基准上进行的大量实验表明，我们的方法具有更少的参数，达到了卓越的性能，以国家的最先进的方法。2相关作品已经提出了各种方法来处理人群计数任务。它们可以简单地概括为传统方法和基于CNN的方法。2.1传统方法大多数早期作品[13，14]通过行人检测[15，16，17]估计人群计数，其使用基于身体或部分的检测器来定位人群图像中的人并将其汇总。然而，这些基于检测的方法受到密集人群场景中的遮挡和背景杂波的限制。研究人员尝试使用基于回归的方法直接从要素中学习映射将图像块的数量增加到区域[18，19，20]中的计数。使用类似的方法，Idrees等人。 [21]提出了一种方法，该方法融合了通过傅立叶分析提取的特征，头部检测和SIFT [22]基于局部补丁中的兴趣点计数。这些基于回归的方法预测了全局计数，但忽略了人群图像中的空间信息。Lempitsky等人。 [23]提出了一种学习局部区域中特征和对象密度图之间的线性映射的方法。Pham等人。 [24]观察到学习线性映射的困难，并使用随机森林回归来学习局部斑块特征和密度图之间的非线性映射。4Cao等人2.2CNN方法由于CNN出色的表示学习能力，基于CNN的作品在人群计数方面取得了显着进展[25]介绍了基于CNN的计数方法的全面调查 Wang等人 [26]修改了AlexNet [27]，用于直接预测计数。 Zhang等人 [28]提出了一种卷积神经网络，该网络交替地由人群密度和人群计数训练。当部署到新场景中时，使用类似于目标场景的训练样本在[29]中，Walach和Wolf使用分层提升和选择性采样方法来减少计数估计误差。不同于现有的基于补丁的估计方法，尚等人。 [30]使用了一个网络，同时估计整个输入图像的局部和全局计数。 Boominathan等人 [31]用于生成密度图的组合的浅层和深层网络。 Zhang等人 [3]设计了多列CNN（MCNN）来解决人群场景中的大规模变化。基于类似的思想，Onoro和Sastre [4]也提出了一种称为Hydra的尺度感知网络，以提取不同尺度的特征最近，受MCNN [3]的启发，Sam et al. [5]提出了Switch-CNN，它训练分类器从特定输入补丁的多个独立回归量中选择最佳回归量。Sindagi等人。 [32，6]探索了通过学习各种密度水平并生成高分辨率密度图来结合上下文信息的方法。为了提高密度图的质量，他们使用对抗损失来克服欧几里得损失的限制。 Li等人 [33]通过结合VGG-16 [34]和扩张卷积层来聚合多尺度上下文信息，提出了CSRNet。然而，通过观察这些最新的最先进的方法，我们发现：（1）大多数工作使用多列结构来提取不同尺度的特征。正如在SEC中讨论的那样。1，该架构的多尺度表示可能不足以处理由于有限的尺度多样性而导致的大尺寸变化（2）[5，32，6]要求密度水平分类器提供上下文信息。然而，这些额外的分类器显著增加了计算。此外，密度水平与特定的数据集有关，并且难以定义。(3)大多数作品只使用像素欧几里德损失，假设每个像素之间的独立性。虽然对抗性损失已经显示出密度估计的改进，但密度图可能包含很少的高级语义信息。基于以前的观察，我们提出了一个编码器-解码器网络，以提高性能，而无需额外的分类器。此外，我们使用一个轻量级的损失，以加强估计的密度图和相应的地面真理之间的局部模式的一致性3规模聚合网络本节介绍规模聚合网络（SANet）的详细信息。我们首先介绍我们的网络架构，然后给出建议的损失函数的描述。规模聚合网络用于准确和高效的人群计数5图2：规模聚合模块的体系结构3.1架构如图1，我们基于两个见解构建我们的SANet网络即多尺度特征表示和高分辨率密度图。SANet由两个组件组成：特征图编码器（FME）和密度图估计器（DME）。FME聚合从输入图像中提取的多尺度特征，DME通过融合这些特征来估计高分辨率密度图特征映射编码器（FME）以前的大多数作品使用多列架构来处理由于透视效果或不同分辨率而导致的对象大小的大变化 MCNN [3]包含三个子网络，用于提取不同尺度的特征。然而，如在Sec.1，特征的尺度多样性受到列数的限制。为了解决这个问题，我们提出了一个规模聚合模块，以打破独立的列与连接操作，如图所示。二、该模块具有灵活性，可以扩展到任意分支。在本文中，我们构造了四个分支的滤波器大小为1× 1，3×3，5× 5，7× 7。1× 1分支用于保留前一层的特征尺度以覆盖小目标，而其他分支则增加各自的字段大小。为简单起见，每个分支的输出通道数被设置为相等。此外，我们在3× 3，5× 5和7× 7卷积层之前添加了1×1卷积，以将特征维数减少一半。这些缩减层在第一尺度聚合模块中被移除ReLU在每个卷积层之后应用。SANet的FME由如图所示的彼此堆叠的规模聚合模块构成。1，在每个模块之后具有2 × 2最大池化层，以将特征图的空间分辨率减半。该结构指数地增加了特征的可能组合形式，增强了输出特征图的表示能力和尺度多样性。在本文中，我们堆叠四个规模聚合模块。输出特征图的步幅是相对于输入图像的8个像素。直观地，FME可以表示可变的相应场尺寸网络的集合。整个模型中不同路径的集合将捕获密集人群中的人的多尺度外观，这将有利于人群密度估计。6Cao等人我密度图估计（DME）虽然基于人群密度估计的方法考虑了空间信息，但大多数工作的输出是低分辨率的，并且丢失了大量的细节。为了生成高分辨率密度图，我们使用与[6]类似但更深入的细化结构作为我们的DME，如图12所示。1. 我们的SANet的DME由一组卷积层和转置卷积层组成。我们使用四个卷积来逐步细化特征图的细节，过滤器大小从9× 9到3× 3。三个转置卷积层用于恢复空间分辨率，每个转置卷积层将特征图的大小增加2倍。 ReLU激活在每个卷积层和转置卷积层之后添加。然后，使用1 ×1卷积层来估计每个位置处的密度值。由于密度图的值总是非负的，我们在最后一个卷积层后面应用ReLU激活。最后，DME生成与输入大小相同的高分辨率密度图，这可以提供更精细的空间信息，以促进训练模型期间的特征学习归一化层我们观察到一个梯度消失的问题，导致不收敛的训练过程中，当我们结合FME和DME到一起。我们尝试批量规范化[35]（BN）和实例规范化[12]（IN）来缓解这个问题，但是由于小批量的不稳定统计，使用BN时得到的结果更差因此，我们在每个卷积层和转置卷积层之后应用IN层，其在训练和测试时使用当前批次中的每个实例的统计数据。然而，我们的小块训练模型在用整个图像进行测试时得到的结果较差。我们认为这是由统计数据的变化造成的考虑最后的1 × 1卷积层和前面的IN层，对于d维向量x =（x1.xd），输出为. Σd.ΣΣxi−µiy=ReLUi=0时wi·ReLUγiσ2+σ+βi+b，（1）其中w和b是卷积层的权重和偏置项，γ和β是IN层的权重和偏置项，μ和σ2是输入的均值和方差输出是由IN层归一化的特征的加权组合。因此，它对特征的大小敏感。但是我们发现当输入斑块或图像时，σ2然后用平方根和倒数函数对偏差进行放大由于考虑到速度和数据增强，使用补丁训练深度网络至关重要，因此我们采用了一种简单但有效的基于补丁的训练和测试方案来减少统计偏移问题的影响。3.2损失函数现有的方法大多采用逐像素欧氏损失来训练其网络，这种方法基于像素独立性假设，忽略了局部相关性规模聚合网络用于准确和高效的人群计数7FF密度图。为了克服这个问题，我们使用单尺度SSIM来衡量局部模式的一致性，并结合L2损失。欧几里得损失欧几里得损失用于测量像素级的估计误差，其定义如下：12LE=NF（X; Θ）−Y2（2）其中，Θ表示一组网络参数，N是密度图中的像素数量，X是输入图像，Y是对应的地面实况密度图，F（X; Θ）表示估计的密度图（为了在后面部分中符号简单，我们省略了X和Θ）。在每个像素处计算欧几里得损失并求和。考虑到输入图像在数据集中的大小可能不同，每个样本的损失值通过像素数进行归一化，以保持训练的稳定性。局部模式一致性损失除了像素损失函数之外，我们还将局部相关性纳入密度图中以提高结果的质量我们利用SSIM指数来衡量估计的密度图和地面实况的局部模式一致性SSIM指数常用于图像质量评价。它计算两个图像之间的相似性，从三个本地统计，即均值，方差和协方差。SSIM值的范围为-1到1，当两幅图像相同时，SSIM值等于1。根据[11]，我们使用标准差为1.5的11×11归一化高斯核来估计局部统计量。权重由W ={W （p）|p ∈ P，P ={（−5，−5），···，（5，5）}}，其中p是从中心的偏移，P包含核的所有位置。通过将权重设置为W并且不在反向传播中更新它，可以很容易地用卷积层实现对于估计的密度图F上的每个位置X和对应的地面实况Y，通过下式计算局部统计：µF（x）=σ2（x）=σFY（x）=Σp∈PΣp∈PΣp∈PW（p）·F（x+p），（3）W（p）·[F（x+p）−µF（x）]2，（4）W（p）·[F（x+p）−µF（x）]·[Y（x+p）−µY（x）]，（5）其中µF和σ2是F的局部均值和方差估计，σFY是2局部协方差估计µY和σY的计算方法与公式3类似4. 然后，SSIM指数逐点计算如下：（2µFµY+C1）（2σFY+C2）SSIM=，（6）（µ2+µ2+C1）（σ2+σ2+C2）F Y F Y8Cao等人其中C1和C2是小常数，以避免被零除，并设置为[11]。局部模式一致性损失定义如下：1ΣLC=1 −NSSIM（x），（7）X其中N是密度图中的像素数。LC是局部模式一致性损失，其测量估计结果与地面实况之间的局部模式差异。通过对上述两个损失函数进行加权，我们将最终目标函数定义如下：L=LE+αCLC，（8）其中αC是平衡逐像素损失和局部区域损失的权重。在我们的实验中，我们根据经验将αC设定为0.001。4实现细节在用IN层缓解消失梯度问题后，我们的方法可以端到端训练。在本节中，我们描述了我们的基于补丁的训练和测试方案，用于减少统计偏移问题的影响。4.1培训详细信息在训练阶段，在随机位置裁剪原始图像1/ 4大小的块人群图像的注释是行人头部中心处的点。需要将这些点转换为密度图。如果在像素xi处有一个点，则可以用δ函数（x−xi）表示。地面实况密度图Y通过将每个δ函数与归一化的高斯核Gσ：ΣY=xi∈Sδ（x−xi）*Gσ，（9）其中S是所有注释点的集合。密度图的积分等于图像中的人群计数代替使用几何自适应内核[3]，我们固定高斯内核的扩展参数σ以生成地面真实密度图。我们从头开始端到端地训练SANet。网络参数由平均值为零且标准偏差为0.01的高斯分布随机初始化。使用具有1e -5的小学习率的Adam优化器[36]来训练模型，因为它在我们的实验中显示出比具有动量的标准随机梯度下降更快的收敛我们的方法的实现基于Pytorch [37]框架。规模聚合网络用于准确和高效的人群计数9我我4.2评价详情由于IN层引起的统计偏移问题，输入在训练和测试期间需要一致。为了测试基于补丁训练的模型，我们将每个测试样本裁剪为原始图像的1/ 4大小，重叠50%。对于每一个重叠的像素块之间，我们只保留的密度值的补丁，其中心是最接近的像素比其他人，因为补丁的中心部分有足够的上下文信息，以确保准确的估计。对于人群计数，计数误差通过两个度量来测量，即平均绝对误差（MAE）和均方误差（MSE），这两个度量通常用于先前工作中的定量比较。其定义如下：‚N.N1吨.1ΣMae=N i=1|，MSE =，|,MSE=,N 我|第2条，第（10）项|2,(10)其中N是测试样品的数量，Ci和CGT是估计的，第i个样本对应的地面真实人群计数，由密度图的积分给出粗略地说，MAE表示预测结果的准确性，MSE衡量鲁棒性。因为MSE对异常值敏感，并且当模型在某些样本上表现不佳时，MSE会很大5实验在本节中，我们首先介绍数据集和实验细节。然后，烧蚀研究报告，以证明在我们的方法中的不同模块的改进最后，我们给出了评估结果，并执行所提出的方法与最近的国家的最先进的方法之间的比较。5.1数据集我们在四个公开的人群计数数据集上评估我们的SANet：ShanghaiTech[3]、UCFCC50[21]、W或ldExp〇10 [ 28]和UC S D [ 38]。上海科技ShanghaiTech数据集[3]包含1198张图像，总共有330，165个注释的人。该数据集分为两部分：A部分有482张图像，B部分有716张图像。A部分是从互联网上随机收集的，B部分包含从街道视图中捕获的图像。我们使用作者提供的训练和测试部分：300张图片用于培训甲部测试182幅图像; 400张图像用于训练和316张图像用于B部分中的测试。生成两个子集的地面真实密度图具有固定的扩展高斯核。10年世博会。WorldExpo10数据集[28]由从108个监控摄像头捕获的1132个视频序列中提取的总共3980帧组成。与ShanghaiTech数据集相比，该数据集的密度相对较稀疏。训练集包含3380帧，测试集包含600帧10Cao等人表1：ShanghaiTech A部分的消融实验结果。除非另有说明，否则(a) 模块：比较不同网络配置的估计误差。MCNN *指的是我们的重新实现(b) 实例规范化层：N层中用h或h训练的模型的估计误差。模型在MaeMSEMCNN+DMEMCNN+DME×C83.377.6134.7111.5SANetSANet×C-71.0-107.5(c) 损失函数和测试方案：用不同的损失函数训练SANet的估计误差，并用不同的样本进行测试。 LE是指欧氏损失，LC是指局部模式一致性损失损失函数测试样品MaeMSELELE图像贴片116.871.0180.4107.5LE、LCLE、LC图像贴片88.167.0134.3104.5从五个不同的场景和每个场景120帧。为所有场景提供感兴趣区域（ROI）。我们使用ROI来修剪最后一个卷积层的特征图。在测试期间，仅计算指定ROI中的人群估计误差。该数据集还提供透视图。我们评估我们的方法，地面实况生成的透视图和没有。我们遵循[6]的实验设置来生成具有透视图的密度图第50章我的秘密UCF CC 50数据集[21]包括50个注释的人群图像。人群数量变化很大，范围从94到4543。有限数量的图像使其成为深度学习的挑战性数据集-ing方法我们遵循标准协议，并使用5折交叉验证来评估所提出的方法的性能。地面真实密度图是用固定的扩展高斯核生成的。UCSD UCSD数据集[38]由从监控视频中收集的大小为158 × 238的2000帧组成。此数据集具有相对较低的密度一帧画面中平均有25个人。还提供感兴趣区域（ROI）以忽略不相关的对象。我们使用ROI来处理注释。在测试期间，仅在指定的ROI中评价MAE和MSE。在[38]使用的训练-测试分割之后，帧601到1400用作训练集，其余的用作测试集。我们生成地面真实密度图与固定的扩散高斯内核。模型MaeMSEMCNN [3]110.2173.2MCNN新闻109.4161.6FME90.5129.2MCNN+DME83.3134.7规模聚合网络用于准确和高效的人群计数11图3：估计的密度图的可视化。第一行：上海科技A部分的样本图片。第二行：地面真相。第三行：MCNN [3]估计的密度图，其大小调整为与输入图像相同的分辨率。四行：仅用欧几里得损失训练的SANet估计的密度图。五行：由SANet估计的密度图，该SANet使用欧几里德损失和局部模式一致性损失的组合进行训练。5.2消融实验我们实现了MCNN，并使用固定扩展高斯内核生成的地面实况对其进行训练。结果比报道的略好在 [3] 中。基于 MCNN 模型，在ShanghaiTech Part A数据集上进行了几项消融研究。评价结果报告于表1中。架构我们分别调查的FME和DME在SANet中的作用。我们首先将1×1卷积层添加到FME以估计密度图，其大小为输入图像的1/8。MCNN和FME都输出低分辨率密度图，但FME通过尺度聚合模块提高了特征的尺度多样性。然后，我们结合DME和MCNN模型来提高密度图的分辨率。通过DME中的转置卷积层进行上采样，估计密度图的大小与12Cao等人输入图像。与MCNN基线相比，FME和DME均显著减小了估计误差。表1a显示，FME降低MAE，DME组MAE和MSE较基线分别降低26.1该结果表明，多尺度特征表示和高分辨率密度图对于人群密度估计任务是极其有益的。实例规范化。考虑到梯度消失的问题，我们将 IN 层应用于MCNN+DME和SANet。如表1b所示，IN层可以简化训练过程并且大幅度地提高性能。对于MCNN+DME，IN层使MAE降低5.7个点，并且MSE降低5.7个点。23.2点该结果表明，在没有归一化层的情况下，模型倾向于落入局部最小值。同时，具有IN层的SANet在训练期间收敛并取得了有竞争力的结果，MAE为71.0，MSE为107.5。结果将鼓励尝试在密度估计问题中使用更深的网络。试验方案。我们评估了通过不同输入样本，即补丁训练的SANet。图像和补丁。如表1c所示，我们可以看到，SANet在使用补丁进行测试时获得了有希望的结果，但在使用映像进行测试时性能显著下降。验证了IN层引起的统计偏移问题。因此，应用基于补丁的测试方案是必不可少的。局部模式一致性丢失。表1c中给出了通过使用Eu-clidean损失和局部图案一致性损失的组合的结果。我们可以观察到，使用损失组合训练的模型比仅使用LE训练的模型具有更低的估计误差，这表明这种轻量损失可以提高模型的准确性和鲁棒性。此外，局部模式一致性损失显着提高了性能时，测试与图像，这表明损失可以提高统计偏移的不敏感性。我们认为它可以平滑局部区域的变化，减少斑块和图像定性分析来自MCNN和我们的SANet的估计密度图在样本输入图像上具有或不具有局部图案一致性损失的情况下在图1中示出。3.第三章。我们可以看到，我们的方法获得了更低的计数误差，并生成了比MCNN更高质量的密度图，噪声更少。此外，使用额外的局部模式一致性损失进一步减少估计误差，提高质量。5.3与最新技术水平的我们在四个具有挑战性的人群计数数据集上证明了我们的建议方法的效率表2、3、4、5报告了ShanghaiTech、World-Expo'10、UCF CC50和UCSDrespetively的结果。从所有表格中可以看出，本文方法的性能优于所有其他现有技术方法，这表明我们的方法不仅适用于密集人群图像，而且适用于相对稀疏的场景。规模聚合网络用于准确和高效的人群计数13表2：与上海科技数据集上最先进方法的比较[3]A部分B部分方法MaeMSEMaeMSEZhang等人 [28日]181.8277.732.049.8MCNN [3]110.2173.226.441.3[32]第三十二话101.3152.420.031.1Huang等人 [39]第三十九届--20.235.6SWITCH-CNN [5]90.4135.021.633.4CP-CNN [6]73.6106.420.130.1CSRNet [33]68.2115.010.616.0SANet（我们的）67.0104.58.413.6表3：与W或ldExpo' 10 d at as et [ 28]上的数据的比较。每个场景只计算MAE，然后取平均值以评估整体性能方法场景1 Scene2 场景3 场景4 场景5阿夫杰拉日Zhang等人 [28日]9.814.114.322.23.712.9MCNN [3]3.420.612.913.08.111.6Huang等人 [39]第三十九届4.121.711.911.03.510.5SWITCH-CNN [5]4.415.710.011.05.99.4CP-CNN [6]2.914.710.510.45.88.9CSRNet [33]2.911.58.616.63.48.6SANet（我们的）透视图2.814.010.212.53.58.6SANet（我们的）w/operspective2.613.29.013.33.08.2如表2所示，我们的方法在S和T的两个子集上获得最低MAE。在W或ldEXp〇_10d处，我们使用hand和hout透视图进行绘制，与表3中的其他方法相比，两者都能够实现更好的结果。另外，不使用透视图的方法比使用透视图的方法得到更好的结果，在两个场景中获得最佳的MAE。在表4中，与其他八种最先进的方法相比，我们的SANet也达到了最低的MAE和相当的MSE，这表明我们的SANet在小数据集的情况表5示出了即使在稀疏场景中，我们的方法也这些优越的结果证明了我们所提出的方法的有效性。如表6所示，我们提出的SANet的参数数量是除了MCNN之外最少的。虽然CP-CNN和CSRNet与我们的方法具有可比性，但CP-CNN的参数几乎是我们的75倍，CSRNet的参数接近17倍。我们的方法取得了优越的结果比其他国家的最先进的方法，而少得多的参数，这证明了我们所提出的方法的有效性。14Cao等人表4：与UCF CC 50数据集上最先进方法的比较[21]方法MaeMSEIdrees等人 [21日]419.5541.6Zhang等人 [28日]467.0498.5MCNN [3]377.6509.1Huang等人 [39]第三十九届409.5563.7Hydra-2s [4]333.7425.3[32]第三十二话322.8341.4SWITCH-CNN [5]318.1439.2CP-CNN [6]295.8320.9CSRNet [33]266.1397.5SANet（我们的）258.4334.9表5：与UCSD数据集上最先进方法的比较[38]方法MaeMSEZhang等人 [28日]1.603.31MCNN [3]1.071.35Huang等人 [39]第三十九届1.001.40[4]1.51-SWITCH-CNN[5]1.622.10CSRNet [33]1.161.47SANet（我们的）1.021.29表6：参数数量（百万）方法MCNN [3]SWITCH-CNN[5]CP-CNN [6]CSRNet [33]SANet参数0.1315.1168.416.260.916结论在这项工作中，我们提出了一种新的编码器-解码器网络准确和有效的人群计数。为了利用密度图的局部相关性，我们提出了局部模式一致性损失来加强密度图之间的局部结构相似性。通过缓解消失梯度问题和统计偏移问题，可以端到端地训练模型大量的实验表明，我们的方法实现了优越的性能上四个主要的人群计数- ING基准国家的最先进的方法，而少得多的参数。确认本工作得到了国家自然科学基金项目No.61532018和No.61471049的资助规模聚合网络用于准确和高效的人群计数15引用1. Zhan，B.，Monekosso，D.N.，Remagnino，P.，Velastin，S.A.，Xu，L.Q.：人群分析-ysis：asurv ey. MachineVisinandApplications19（5-6）（200 8）3452. Li，T.，张，H.，王，M.，Ni，B.，洪河Yan，S.：拥挤场景分析：一个调查。IEEE Transactions on Circuits and Systems for Video Technology 25（3）（2015）36 73. 张玉，Zhou，D.，中国科学院学报，陈淑仪，Gao，S.，Ma，Y.：通过多列卷积神经网络进行单图像人群计数。 In ： Proceedings of the IEEEconferenceoncomputerrvisionandpattternrecognition. （2016）5894. Onor o-Rubio ， D. 、 Lo′pez-Sastre 、 R. J. ： Towwardspee-freeo b e-jecttingwith deep learning.参见：欧洲计算机视觉会议，Springer（2016）615-6295. 萨姆D.B. Surya，S.，巴布，R.V.：用于人群计数的开关卷积神经网络。IEEE计算机视觉和模式识别会议论文集。第1卷（2017年）66. Sindagi，VA，帕特尔，V.M.：使用上下文金字塔cnn产生高品质人群密度图。在： 2017 年IEEE 国际计算机 Vision 会议（ ICCV）， IEEE（2017）18797. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译。在：ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition中。（2017）11258. 古德费洛岛Pouget-Abadie，J.Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，Courville，A. Bengio，Y.：生成性对抗网。In：Advances inneuralin Formal inProocessSystems.（2014）26729. 塞格迪角刘伟，Jia，Y.，Sermanet，P.，Reed，S.，Anguelov，D.，Erhan，D.，Vanhoucke，V.，Rabinovich，A.，等：深入了解卷积，IEEE（2015）10. 赵，H.，加洛岛弗罗西奥岛Kautz，J.：用于图像处理的神经网络的损失函数。IEEE Transactions on Computational Imaging（2017）11. 王志，Bovik，A.C.，Sheikh，H. R.，Simoncelli，E.P.：图像质量评估：从错误可见性到结构相似性。IEEE图像处理汇刊13（4）（2004）60012. 黄，X.，Belongie，S.：实时任意样式传输，具有自适应实例规范化。CoRR，abs/1703.06868（2017）13. Ge，W.，Collins，R.T.：人群计数的标记点过程。在：计算机视觉和模式识别，2009年。CVPR 2009。IEEE会议，IEEE（2009）291314. Li，M.，张志，Huang，K.，Tan，T.：基于mid的前景分割和头肩检测估计拥挤场景中的人数。In：Pattern Recognition，2008. ICPR 2008年。第19届IEEE国际会议（2008）115. Dollar，P.，沃杰克角Schiele，B.，Perona，P.：行人检测：对最先进技术的评估IEEE模式分析和机器智能汇刊34（4）（2012）74316. Felzenszwalb，P.F.，Girshick，R.B.，McAllester，D.Ramanan，D.：使用区分性训练的基于部分的模型进行对象IEEE Transactions on PatternAnalysis andMac hi nei n e intellige nce32（9）（2010）162717. 莱贝湾Seemann，E.，Schiele，B.：拥挤场景中的行人检测。计算机视觉与模式识别，2005年。CVPR 2005。IEEE计算机科学委员会。第1卷，IEEE（2005）87816Cao等人18. 陈 A.B. Vasconcelos ， N. ：人群计数的贝叶斯泊松回归。 In ：ComputerVision，2009I12thInternationalConferenceon，I（2009）54519. Chen，K.，Loy，C.C.，龚，S.，Xiang，T.：用于局部人群计数的特征挖掘。在：BMVC.第1卷（2012年）320. 瑞恩D Denman，S.，福克斯角Sridharan，S.：使用多个本地特征的人群计数。在：数字图像计算：技术与应用，2009。DICTA' 09 .，IEEE（2009）8121. Idrees，H.萨利米岛Seibert，C. Shah，M.：多源多尺度计数在密集的人群图像中在： Computer Vision and Pattern Recognition （ CVPR ），2013IEEEConferenceon，IEEE（2013）25 47- 2554中22. Ng，P.C.，Henikoff，S.：筛选：预测影响蛋白质功能的氨基酸变化。NucleAdsreearCh31（13）（2003）381223. Lempitsky ， V. 齐瑟曼， A. ：学习计算图像中的物体。 In ： AdvancesinNEURA N E RANPR CE SSYS STEMS. （2010）132424. 范，V.Q. Kozakaya，T.，山口岛Okada，R.：计数森林：基于随机森林的不确定目标群密度估计。在： IEEE 计算机视觉国际会议论文集。（2015）325325. Sindagi，VA，帕特尔，V.M.：以cnn为基础之单一影像人群计数与密度估计之最新进展。模式识别字母（2017）26. Wang，C.，中国地质大学，张洪，杨湖，Liu，S.，曹X：在异常密集的人群中数着的人。 In ： Proceedings of the 23rd ACM internationalconferenceonMultimedia，ACM（2015）129927. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：使用深度卷积神经网络的图像网分类。在：神经信息处理系统的进展。（2012）10 9728. 张，C.，Li，H.，王，X.，Yang，X.：通过深度卷积神经网络的跨场景人群计数 In ： Computer Vision and Pattern Recognition （ CVPR ），2015IEEEEConferenceon，IEEE（2015）83329. Walach ， E. ，沃尔夫湖：学习与 cnn 助推计数 In ： European Confer-enceonCom puterVision，Springger（20 16）66030. Shang，C.，Ai，H. Bai，B.：通过联合学习本地和全局计数进行端到端人群计数。在：图像处理（ICIP），2016 IEEE国际会议，IEEE（2016）121531. 布米纳坦湖Kruthiventi，S.S.，巴布，R.V.：Crowdnet：用于密集人群计数的深度卷积网络。In：Proceedings of the 2016 ACM on MultimediaConFere，ACM（2016）64032. Sindagi，VA，帕特尔，V.M.：基于cnn的高阶先验与密度估计之级联多任务学习于人群计数。在：高级视频和基于信号的监控（AVSS），2017年第14届IEEE国际会议，IEEE（2017）133. 李，Y.，张，X.，陈德：Csrnet：用于理解高度拥挤场景的扩展卷积神经网络。IEEE计算机视觉和模式识别会议（2018年）34. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。ArXiv预印本arXiv：1409.1556（2014）35. Ioffe，S.，Szegedy，C.：批次标准化：通过减少内部协变量偏移来加速深度网络训练。国际机器学习会议。（2015）44 8规模聚合网络用于准确

下载后可阅读完整内容，剩余1页未读，立即下载