人群计数的新模型：基于切换卷积神经网络的人群密度变化和CNN回归器

11 浏览量更新于2023-10-17 收藏 1.75MB PDF 举报

人群计数

计算模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5744用于人群计数迪帕克·巴布·萨姆·希夫·苏里亚·R. VenkateshBabu印度科学研究所班加罗尔，印度560012bsdeepak@grads.cds.iisc.ac.in，gmail.com，venky@cds.iisc.ac.in摘要我们提出了一种新的人群计数模型，将给定的人群场景映射到其密度。人群分析是由无数的因素，如人之间的相互遮挡，由于极端拥挤，人和背景元素之间的外观高度相似性，以及相机视点的大变化。目前最先进的方法通过使用多尺度CNN架构、递归网络和来自具有不同感受野的多列CNN的特征的后期融合来我们提出了切换卷积神经网络，该网络利用图像内人群密度的变化来提高预测人群计数的准确性和定位基于在训练期间建立的CNN的人群计数预测质量，将来自人群场景内的网格的补丁中继到独立的CNN回归器独立的CNN回归器被设计为具有不同的感受野，并且训练开关分类器以将人群场景补丁中继到最佳CNN回归器。我们对所有主要的人群计数数据集进行了广泛的实验，并证明了与当前最先进的方法相比更好的性能我们提供了可解释的代表性的多重分割空间的人群场景补丁推断开关。据观察，开关基于人群密度将图像补丁重新放置到特定CNN列。1. 介绍人群分析具有重要的地缘政治和公民应用。在烛光守夜、民主抗议、宗教集会和总统集会上，大规模人群聚集是司空见惯的。市政机构和规划者依靠人群估计来管理接入点，并为此类事件制定灾难应急计划。这种分析的关键是人群的数量和密度。原则上，人群计数背后的关键思想是自我-*同等贡献图1. 显示了来自ShanghaiTech数据集[19显然：密度乘以面积。然而，现场的人群并不规则。它们聚集在某些地区，分散在其他地区。来自ShanghaiTech数据集[19]的典型静态人群场景如图1所示。我们看到极端拥挤，人与背景元素之间的高度视觉相似性（例如，城市立面）在这些人群的场景，在进一步的复杂性因素。不同场景中的不同相机视点产生透视效果，导致人的尺度变化很大。作为计算机视觉问题的人群计数在方法上发生了巨大的变化，从早期的基于HOG的头部检测[6]到CNN回归[18，19，9]预测人群密度。基于CNN的回归器在很大程度上超过了基于局部特征弱表示的传统人群计数方法。我们建立在基于CNN的人群计数架构的性能基础上，并提出了切换卷积神经网络（Switch-CNN）来将给定的人群场景映射到其密度。Switch-CNN利用人群密度的变化以改进预测的人群计数的质量和定位。独立的CNN人群密度回归器在从给定人群场景中的网格采样的补丁上进行训练。选择独立的CNN回归量，使得它们具有不同的感受野和视野。这确保了每个CNN回归器学习到的特征这个仁-5745ders Switch-CNN对于在典型人群场景中观察到的人的大规模和视角如果在人群场景补丁上的回归量的性能是最好的，则在该补丁上训练特定的CNN回归量。开关分类器与多个CNN回归量的训练交替训练，以将补丁正确地中继到特定的回归量。开关和回归器的联合训练有助于增强开关学习在差分训练阶段学习的人群场景空间的复杂多分割的能力总之，在本文中，我们提出：• 一种新颖的通用CNN架构，Switch-CNN经过端到端训练，可以预测人群场景的人群密度• Switch-CNN将来自人群场景的人群补丁映射到独立的CNN回归器，以最小化计数误差并利用场景内的密度变化来改进密度定位。• 我们在所有主要人群计数数据集上证明了最先进的性能，包括ShanghaiTech数据集[19]，UCF CC50数据集[6]和世博会2. 相关工作在计算机视觉中，人群计数已经通过无数的技术来解决。通过头部检测的人群计数已经通过[17，16，14]使用运动线索和外观特征来训练检测器来解决。递归网络框架已被用于人群场景中的头部检测[12]。他们在LSTM框架中使用Googlenet[13]的深度特征来回归人群场景中头部的边界框。然而，使用头部检测的人群计数具有局限性，因为它在密集人群中失败，密集人群的特征在于人与人之间的高度相互遮挡在视频的人群计数中， [3] 使用图像特征，如Tomasi-Kanade特征到运动聚类框架中。[10]使用KLT跟踪器将视频处理为一组trajec-tory。为了防止碎片的射束，他们的条件信号的时间和空间。由于缺乏时间信息，这种跟踪方法不太可能用于单个图像人群计数。静态图像人群计数中的早期作品，如[6]，采用了手工特征的组合，即基于HOG的检测，基于兴趣点的计数和傅立叶分析。这些基于局部特征的弱表示被现代深度表示所超越。在[18]中，CNN被训练来回归人群密度图。它们使用密度和透视信息作为相似性度量，从训练数据中检索与测试图像相似的图像检索到的图像用于针对特定目标测试场景微调训练的网络，并预测密度图。然而，该模型能力受限于每个测试场景所需的微调以及不容易获得的训练和测试序列的透视图Alexnet [7]风格的CNN模型由[15]训练以回归人群计数。然而，这种模型的应用是有限的人群分析，因为它不能预测人群的分布。在[9]中，多尺度CNN架构用于解决人群场景中的大规模变化。他们使用定制的CNN网络，为每个尺度单独训练。全连接层用于融合以特定比例训练的每个CNN的地图，并回归密度图。然而，该模型的计数性能对图像金字塔中的级别数敏感，如跨数据集的性能所示。[2，19]使用的多列CNN执行来自不同CNN列的特征的后期融合，以回归人群场景的密度图。在[19]中，具有不同感受野的浅CNN列用于捕获人群场景中尺度和视角迁移学习是通过[2]使用VGG网络来实现的，该网络采用由具有不同感受野和视野的浅网络补充的扩张层这两种模型都通过加权通过1× 1卷积层进行平均，以预测人群的密度图。然而，加权平均技术本质上是全局的，并且不考虑场景内密度变化。我们以业绩为基础管理多列CNN，并在我们提出的架构中纳入基于补丁的切换架构，Switch- CNN以利用场景内的局部人群密度变化（有关架构的更多细节，请参见第3.13. 我们的方法像[18，19，9]这样的卷积架构已经学习了有效的图像表示，它们利用这些图像表示在回归框架中执行人群计数和密度预测。传统的卷积架构已被修改，以通过使用多列CNN架构与特征融合技术回归人群密度来模拟密集人群中引起的规模的极端变化。在本文中，我们考虑切换 CNN 架构（ Switch-CNN），该架构将人群场景中的网格中的补丁中继到基于开关分类器的独立CNN回归器。独立的CNN回归量被选择为具有不同的感受野和视场，如在多列CNN网络中，以增强对大规模变化建模的能力。如果在人群场景补丁上的回归器的性能是最好的，则在该补丁上训练特定的CNN回归器开关分类器与多个CNN回归量的训练交替训练，以将补丁正确地中继到特定的回归量。突出的属性，使这个模型优秀的人群分析-5746i=1我我我我Ll3我我我我我输入：N个训练图像块{Xi}N与地面真值密度图{DGT}NXi输出：训练参数{Θ}3i=1对于R和Θsw用于开关kk=1k用随机高斯权重初始化Θkk预训练{R}3对于Tpepochs：R←f（·; Θ）;kk=1k k k/*Td epochs的差分训练/*Ck是针对输入Xi由Rk预测的计数*//*CGT是输入Xi的地面真值计数*/对于t= 1到Td，对于i= 1到N，做lbest=argmin |Ck-CGT|;我我我K端反向传播Rbest并更新Θbest;我我端图2. 示出了所提出的模型Switch-CNN的架构。人群场景中的面片以红色高亮显示。这个补丁会根据从Switch中推断出的CNN标签被转发到三个CNN回归网络之一。突出显示的块被中继到回归器R3，回归器R3预测相应的人群密度图。整个密度图上的元素求和给出了人群场景补丁的人群计数。分析是（1）对大规模变化建模的能力（2）利用人群场景内的密度的局部变化的设施。利用密度的局部变化的能力3.1. 切换CNN我们提出的架构Switch-CNN由三个具有不同架构的CNN回归器和一个分类器（开关）组成，用于为输入的人群场景补丁选择最佳回归器。图2显示了Switch-CNN的整体架构。输入图像被分成9个不重叠的块，使得每个块是图像的第1 对于图像的这种划分，人群特征如密度、外观等。可以假设在人群场景的给定块中是一致的。将补丁作为输入馈送到网络有助于通过最适合于补丁属性（如密度、背景、规模和补丁中人群的透视变化）的CNN回归器独立地回归图像的不同我们在Switch-CNN中使用[ 19 ]中引入的三个CNN回归器R1到R3来预测人群密度。这些CNN回归器具有不同的接受域，可以在不同的尺度上捕捉人们。每个浅层CNN回归器的架构都是相似的：四个卷积层和两个池化层。R1有一个大的初始过滤器/* 针对Tc历元的耦合训练*/用VGG-16权重初始化Θ sw;对于t= 1到Tc，/* 为训练开关生成标签 */对于i= 1到N，做lbest=argmin |Ck-CGT|;K端Strain={（Xi，lbest）|i∈[1，N]}/* 训练开关1 epoch*/列车开关与S列车和更新Θsw;/* 切换差分训练 */对于i= 1到N，做/*从开关推断Rklsw=argmaxfswitch（Xi; Θsw）;反向传播Rlswitch并更新Θlsw;端端算法一：Switch-CNN训练算法。训练算法被划分为多个阶段，颜色. 颜色代码索引：差异化训练，耦合训练，转换训练尺寸为9 × 9，可以捕捉场景中的高级抽象，如人脸，城市立面等。R2和R3的初始过滤器大小为7 × 7和5 ×5，在较低的尺度下捕获人群，检测像斑点一样的抽象。使用开关将补丁中继到回归器。交换机由交换机分类器和交换机层组成开关分类器推断补丁将被中继到的回归量的标签。开关层采用从开关分类器推断的标签，并将其中继到正确的回归器。例如，在图2中，开关类，sifier中继补丁突出红色回归R3. 这片区域的人群密度非常高开关将其中继到具有较小感受野的回归因子R3：理想用于检测斑点状的补丁的抽象特征，5747我Xi我XiX我我我我我我人群密度高。我们使用VGG16 [11]网络的适配作为开关分类器来执行3路分类。VGG16中的全连接层被移除。我们在Conv5特征上使用全局平均池（GAP）来去除空间信息并聚合鉴别特征。GAP后面是一个较小的全连接层和3类softmax分类器，对应于Switch-CNN中的三个回归网络。人群图像的地面实况注释被提供为人头部中心处的点注释。我们通过模糊每一个头部来生成地面实况使用归一化为和为1的高斯核进行注释对所得密度图求和得到人群计数。密度图减轻了CNN回归的困难，因为预测头部注释的确切点的任务被简化为预测粗略位置。在上面的密度图中高斯分布是固定的。然而，生成表示图像X i的地面实况密度图。通过随机梯度下降（SGD）反向传播CNN来优化损失Ll2。在这里，l2损失函数充当回归估计计数和真实计数之间的计数误差的代理它间接地减少了计数误差。对回归量Rk进行预训练，直到验证准确度达到平台。3.3.差分训练CNN回归器R1 - 3使用整个训练数据。计数预测性能因R1−3的网络结构（如接收场和有效视场）的固有差异而变化虽然我们优化了用于训练CNN回归量的估计密度图和地面真值密度图之间的l2损失，但在训练期间考虑计数误差会导致更好的人群计数性能。因此，我们使用计数误差来衡量CNN的性能令由第i个图像的第k个回归量估计的计数为从一个固定的传播高斯是不合适的，如果变量-ΣCk=D我（x; Θ）。让引用计数推断人群密度大。我们使用几何自适应xXik核[19]根据局部人群密度改变高斯分布参数。它将高斯分布设置为与k个最近相邻头部注释的平均距离成比例。头间距离是一个很好的替代透视图，这是费力地生成和不可用的每一个数据集。这导致在人群场景中，对于密集人群的高斯模糊程度较低，而对于稀疏密度区域的高斯模糊程度较高。在我们的实验中，我们使用几何自适应核方法以及固定的扩散高斯方法来生成地面真值密度取决于数据集。几何自适应核方法用于生成地面真实密度图的数据集与密集的人群和大的变化，在计数跨场景。具有稀疏人群的数据集使用从固定分布高斯分布生成的密度图从地面真相是CGT=DGT（x）。然后计数错误对于第i个样本，由Rk评估为EC（k）=|Ck-C GT|、（二）预测计数和真实计数之间的绝对计数差。具有特定人群属性的补丁与具有互补网络结构的回归量给出较低的计数误差例如，具有大接收域的CNN回归器捕获高级抽象，如背景元素和面部。为了放大网络差异，提出了差分训练（在算法1中以蓝色显示）。差分训练的核心思想是对给定的训练人群场景块反向传播具有最小计数误差的回归量Rk 对于每个训练补丁i，我们选择回归变量lbest使得EC（lbest）是低的-我我我法Switch-CNN的训练分三个阶段进行，即第3.23.2. 预训练对所有回归变量R1 - 3进行检验。这相当于在k个回归变量中选择预测最准确计数的回归变量。形式上，我们将cho-sen回归变量lbest的标签定义为：lbest= argmin |Ck-C GT|（三）三个CNN回归器R1到R3分别进行预训练以回归密度图。预训练有助于学习良好的初始特征，从而改善后期的微调阶段.训练单个CNN回归器以最小化估计的密度图和地面真实值之间的欧几里得距离。令DXi（·;Θ）表示输入图像Xi的具有参数Θ的CNN回归器的输出。l2损失函数由下式给出：我我我K第i个样本的计数误差为EC=min|Ck-C GT|.（四）K这种训练机制鼓励回归器Rk偏好具有特定补丁属性的特定训练数据补丁集合，以便最小化损失。后面的-L（Θ）=1ΣNCITD（·;Θ）−DGT（·）<$2，（1）独立回归量Rk的传播仍然是用l22NXii=1Xi2l2-loss，反向传播CNN回归量的选择基于计数误差。间接差异化训练其中N是训练样本的数量，DGT（·）最小化平均绝对计数误差（MAE）57484我我、我我我训练图像。对于N个图像，这种情况下的MAE由下式给出：1ΣN切换一个epoch。对于给定的训练人群场景块Xi，在Xi上向前传播切换以推断回归量Rk的选择。交换层然后中继XiEC=min|Ck-C GT|、（五）到特定的回归量并反向传播R 使用Ni=1KK更新公式1和θk 本次培训其可以被认为是如果每个样本被正确地中继到正确的CNN则可实现的最小计数误差。然而，在测试期间，由于开关分类器并不理想，因此可能无法实现这种完全准确性。总而言之，差分训练生成三个不相交的训练补丁组，每个网络都在自己的组上进行微调对回归量Rk进行差分训练，直到验证准确度达到平台。3.4. 交换机培训一旦通过差分训练推断出补丁空间的多分性，则训练补丁分类器（开关）以将补丁中继到正确的回归量Rk。分离人群场景块空间的流形是复杂的，因此需要一个深度分类器来推断多分割中的块组。我们使用VGG16 [11]网络作为开关分类器来执行3路分类。分类器是在差分训练产生的多分性标签上训练的每个组中的训练块的数量可以是高度偏斜的，其中块的主要部分取决于人群场景的属性而被中继到单个回归量为了减轻开关分类器训练过程中的类不平衡，从差分训练中收集的标签被均衡，使得每组中的样本数量相同。这是通过从较小的组中随机抽样来平衡开关分类器的训练集来完成的。3.5. 耦合训练一个政权被执行了一个时代。在下一个时期中，使用等式3中的标准重新计算用于训练交换机分类器的标签，并且如上所述再次训练交换机。这种交替切换训练和CNN回归器的切换训练的过程在每个时期重复，直到验证准确度达到平台。4. 实验4.1. 测试我们评估了我们提出的架构Switch-CNN在四个主要人群计数数据集上的性能。在测试时，图像补丁被馈送到开关分类器，该分类器将补丁中继到最佳CNN回归器Rk。所选择的CNN回归量预测中继的人群场景块的人群密度图。生成的密度图被组装到一个图像中，以获得整个场景的最终密度图。由于CNN回归器中的两个池化层，预测的密度图是输入的1倍我们使用平均绝对误差（MAE）和均方误差（MSE）作为衡量标准，用于比较Switch-CNN与最先进的人群计数方法的性能对于具有N个图像的测试序列，MAE定义如下：1ΣNCNN回归器R 1上的差分训练通过Mae=N i=1|、（6）|,(6)R3生成一个多分法，通过为给定的人群场景补丁选择最佳回归量来最小化预测计数然而，经过训练的开关并不理想，并且分割补丁空间的方法学习起来很复杂为了减轻开关不准确性和任务固有复杂性的影响，我们通过以交替的方式训练开关和回归量来共同适应补丁分类器和我们将此阶段的训练称为耦合其中，Ci是由被评估的模型预测的人群计数，并且CGT是来自人类标记的注释的人群计数。MAE是跨测试序列的预测人群计数 MSE是与MAE互补的度量，并且指示预测计数的鲁棒性。对于测试序列，MSE定义如下：‚训练（在算法1中显示为绿色）。.N开关分类器首先使用来自在一个时期的差分训练中推断的多分割的标签进行训练（在算法1中以红色显示）。在下一阶段，使三个CNN回归器与开关分类器协同适应.1ΣMSE=Ni=14.2. 上海科技数据集（Ci-C GT）2.（七）（在算法1中显示为蓝色）。我们将这个强制切换和回归量R1−3的协同适应的训练阶段称为切换差分训练。在切换差分训练中，单个CNN回归器使用人群场景补丁进行训练，我们在ShanghaiTech人群计数数据集[19]上进行了广泛的实验，该数据集由1198张带注释的图像组成数据集分为两部分，分别称为A部分和B部分前者包含从互联网上解析的密集人群场景，后者是相对稀疏的人群5749图3. 显示了Switch-CNN对ShanghaiTech数据集[19]中人群场景的样本预测。顶行和底行分别描绘了人群图像、对应的地面实况和来自数据集的部分A和部分B的预测。在城市街道上拍摄的场景。在我们的实验中，我们使用了作者为这两个部分提供的训练测试分割。我们在数据集的两个部分上训练Switch-CNN，如算法1所述。由于透视效应导致场景内人群密度变化较大，因此使用几何自适应核方法生成地面实况（有关地面实况生成的详细信息，请参见第3.1在理想的开关（100%的开关精度）下，Switch-CNN的MAE为51.4。然而，数据集A部分和B部分的转换准确度分别为73.2%和76.3%，导致MAE较低。表1显示，Switch-CNN在MAE和MSE度量上都优于所有其他最先进的方法Switch-CNN显示，与MCNN相比，数据集A部分的MAE提高了19.8个点，B部分提高了4.8个点[19]。Switch-CNN在MSE度量上的表现也优于所有其他模型，这表明在整个数据集上，预测的方差低于MCNN。这是Switch- CNN预测人群计数的鲁棒性的指标我们在图3中显示了Switch-CNN对ShanghaiTech数据集的样本测试场景的样本预测以及地面实况。预测的密度图在视觉上紧密地跟随人群分布。这表明Switch-CNN能够准确地定位场景内人群的空间分布。A部分B部分方法MaeMSEMaeMSEZhang等人[18个国家]181.8277.732.049.8[19]第十九话110.2173.226.441.3Switch-CNN90.4135.021.633.4表 1. Switch-CNN 与其他最先进的人群计数方法在ShanghaiTech数据集上的比较[19]。4.3. UCF CC 50数据集UCF CC 50 [6]是一个50张带注释的人群场景图像集。该数据集在人群计数中表现出很大的差异，计数在94和4543之间变化的数据集的小尺寸和人群计数的大方差使其成为非常具有挑战性的数据集。我们遵循其他最先进模型的方法[18，2，9，19]，并使用5重交叉验证来验证Switch-CNN在UCF CC 50上的性能在表2中，我们使用MAE和MSE作为度量比较了Switch- CNN与其他方法的性能。Switch-CNN优于所有其他方法，并证明了与Hydra2s相比，MAE提高了15.7个百分点[9]。与Hy-dra 2s相比，Switch- CNN还获得了具有竞争力的MSE得分，表明预测计数的鲁棒性。开关的准确率为54.3%。切换准确度相对较低，因为数据集的训练示例很少，人群密度变化很大这限制了交换机学习人群场景片的空间的多分割的方法MaeMSELempitsky等人[八]《中国日报》493.4487.1Idrees等人[6]美国419.5487.1Zhang等人[18个国家]467.0498.5CrowdNet [2]452.5–[19]第十九话377.6509.1Hydra2s [9]333.73425.26Switch-CNN318.1439.2表2. Switch-CNN与其他最先进的人群计数方法在UCF CC 50数据集上的比较[6]。4.4. UCSD数据集UCSD数据集人群计数数据集由来自单个场景的2000帧组成。场景的特点是稀疏的人群，每帧的人数从11到46不等。为数据集中的场景提供感兴趣区域（ROI）我们使用[4]中使用的训练测试在2000帧中，帧601到1400用于训练，而其余帧用于测试。按照[19]中使用的设置，我们使用提供的ROI修剪最后一层的特征图。因此，误差在训练期间针对ROI内的区域反向传播我们使用固定的高斯分布来生成用于训练Switch-CNN的地面真值密度图，因为人群相对稀疏。在测试时，仅针对测试图像中指定的ROI计算MAE，以将Switch-CNN与其他方法进行基准测试。表3报告了Switch-CNN和其他最先进方法的MAE和MSE结果。与其他方法相比，Switch-CNN具有竞争力，MAE为1.62。将贴片中继到回归器R1至R3的切换准确率为60.9%。然而，该数据集的特征在于单个场景中的人群密度集的低可变性。这限制了Switch-CNN利用场景内人群密度变化实现的性能增益。5750方法MaeMSE核岭回归[1]2.167.45累积属性回归[5]2.076.86Zhang等人[18个国家]1.603.31[19]第十九话1.071.35CCNN [9]1.51–Switch-CNN1.622.10表3. Switch-CNN与UCSD人群计数数据集上其他最先进的人群计数方法的比较[4]。方法S1S2S3S4S5Avg.MaeZhang等人[18个国家]9.814.114.322.23.712.9[19]第十九话3.420.612.913.08.111.6Switch-CNN(GT透视图）4.214.914.218.74.311.2Switch-CNN(GT（没有前景）4.415.710.011.05.99.4表4. Switch-CNN与WorldExpo'10数据集上其他最先进的人群计数方法的比较显示了各个测试场景的平均绝对误差（MAE）和场景间的平均每平方误差4.5. WorldExpo世博会的10个数据集由108个监控摄像头拍摄的1132个视频序列组成。五个不同的视频序列，每一个来自不同的场景，举行了测试。每个测试场景序列有120帧。与平均每张图像50人的其他数据集相比，人群相对稀疏。为训练和测试场景提供感兴趣区域（ROI）。此外，还为所有场景提供了透视图。贴图指定图像中覆盖帧中每个位置的一平方米的像素数[19，18]使用这些地图自适应地选择高斯分布，同时生成地面真实密度图。我们使用有和没有透视图生成的地面实况来评估Switch-CNN的性能。我们使用提供的ROI修剪最后一层的特征图因此，在ROI内的区域类似地，在测试时，MAE仅针对测试图像中的指定ROI计算，以针对其他方法对Switch-CNN进行基准标记。MAE是为每个测试场景单独计算的，并取平均值以确定测试场景中Switch- CNN的整体性能。表4显示，Switch-CNN在场景中的平均MAE优于比通过最先进的方法MCNN获得的性能高2.2个点[19]。开关准确率为52.72%。5. 分析5.1. 回归量数量对Switch CNN的影响差分训练利用各个回归变量的结构变化来学习多变量，对训练数据的选择。为了研究回归量R1到R3的结构变化的影响，我们在上海科技数据集的A部分上用回归量（R1，R2），（R2，R3），（R1，R3）和（R1，R2，R3）的组合训练Switch-CNN。表5显示了Switch-CNN对于回归量Rk的不同组合的MAE性能。具有CNN回归量R1和R3的Switch-CNN具有比具有回归量R1-R2和R2-R3的Switch-CNN更低的MAE。这可以归因于前者模型具有比后者更高的切换精度。具有所有三个回归量的Switch-CNN优于两个模型，因为它能够用结构上不同的三个独立CNN回归量R1，R2和R3更好地Switch-CNN利用具有不同感受野的多个独立CNN回归量。在表5中，我们还比较了单个CNN回归器与Switch-CNN的性能。在这里，每个回归器都是在Shanghaitech数据集A部分的完整训练数据上训练的。个体CNN回归量的较高MAE归因于单个回归量无法对人群场景中的尺度和视角变化进行建模。方法MaeR1157.61R2178.82R3178.10Switch-CNN（R1，R3）98.87Switch-CNN（R1，R2）110.88Switch-CNN（R2，R3）126.65Switch-CNN（R1，R2，R3）90.41表5. Switch-CNN变体和CNN回归器R1至R3在ShanghaiTech数据集A部分的MAE比较[19]。5.2. 开关多分割特性Switch-CNN的主要思想是将训练补丁分成不相交的组来训练各个CNN回归器，以便最大化整体计数精度。通过差分训练，自动创建人群场景块空间中的多分割我们研究了补丁的底层结构，以了解学习到的多重分割和补丁的属性（如人群计数和密度）之间的相关性。然而，透视图的不可用性使得实际密度的计算变得我们认为人与人之间的头间距离是人群密度的候选度量。在高度密集的人群中，人与人之间的间隔很小，因此密度很高。另一方面，对于低密度场景，人离得较远，平均头间距离较大。因此，平均头间距离是人群密度的代理。这种密度测量对于尺度变化是鲁棒的，因为头间距离自然地包含尺度变化。57511008060402000 50 100 150 200 250没有人每个贴片的平均头间距图4. 来自ShanghaiTech数据集[19]的Part A测试集的人群场景块的平均头间距离的直方图如图4所示。我们看到，从开关推断出的人群场景斑块的空间的多分性基于与人群密度相关的潜在因素来分离斑块。图5. 显示了来自ShanghaiTech数据集[19]的A部分测试集的人群场景补丁样本。我们看到，斑块中人群的密度从CNN回归量R1-R3增加。为了分析斑块空间的多分性，我们计算了上海理工大学测试集A部分中每个斑块的平均头间距离。对于每个头部注释，计算到其10个最近邻居的平均距离。这些距离在整个斑块上平均，表示斑块的密度。我们在图4中绘制了这些距离的直方图，并根据用于推断补丁计数的回归量Rk按颜色对补丁进行分组图4中观察到基于人群密度的斑块空间分离。R1具有9 × 9的最大感受野，可评估低人群密度的斑块（corre-响应于大的平均头间距离）。一个有趣观察到的是，来自人群场景的其中没有人的块（图4中具有零平均头间距离的块）被交换机中继到R1。我们认为，没有人的斑块被中继到R1，因为它有一个大的感受野，有助于捕捉这些斑块的背景属性，如城市立面和树叶。图5显示了一些样本补丁，这些补丁被中继到CNN回归器 R1到 R3 中的每一个。斑块中人群的密度从CNN回归量R1到R3增加。5.3.属性聚类与差分训练我们在第5.2节中看到，差分训练近似将训练集补丁划分为多分割基于密度。我们调查的效果手动聚类的补丁的基础上的补丁属性，如人群计数或密度。我们使用斑块数作为度量对斑块进行聚类。训练补丁根据补丁计数分为三组，使得训练补丁的总数在三个CNN回归器R1 - 3中均匀分布。 R1，具有大的感受野，在人群较少的地方训练R2在中等数量的补丁上训练，而高数量的补丁被重新训练。在R3上。除了差分训练阶段之外，该实验的训练过程与Switch-CNN相同。我们重复这个实验的平均头间距离的补丁作为度量分组的补丁。具有高平均头间距离的补丁被中继到R1。R2是由交换机中继的具有低头间距离的贴片，而其余贴片被中继到R3。方法Mae按计数99.56平均头间距离94.93Switch-CNN90.41表6. Switch-CNN的MAE与基于ShanghaiTech数据集A部分的补丁属性的补丁手动聚类的比较[19]。表6报告了两种聚类方法的MAE性能人群计数和基于平均头间距离的聚类都比Switch-CNN提供更高的MAE基于平均头间距离的聚类与Switch-CNN的性能相当。这一证据强化了这样一个事实，即Switch-CNN在与人群场景的平均头间距离高度相关的补丁空间中学习多分割。Switch-CNN采用的差分训练机制能够独立于数据集自动推断这种分组6. 结论在本文中，我们提出了切换卷积神经网络，该网络利用图像内人群密度变化来提高预测人群计数的准确性和定位。我们利用多个CNN回归器中固有的结构和功能差异，能够通过执行差分训练方案来处理大规模和视角变化在多个数据集上的大量实验表明，我们的模型在主要数据集上表现出最此外，我们还证明了我们的模型可以根据与人群密度相关的潜在因素对人群斑块进行分组。7. 确认这项工作得到了印度政府科学技术部（DST）SERB的支持（项目编号SB/S3/EECE/0127/2015）。R1：9x9R2：7x7补丁数量5752引用[1] S. An，W. Liu和S.文卡特什基于核岭回归的人脸识别。在 Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition，第14.4[2] L. Boominathan，S. S. Kruthiventi和R.维·巴布Crowd-net：一个用于密集人群计数的深度卷积网络2016年ACM多媒体会议论文集，第640-644页，2016年2、4.3[3] G. J. Brostow和R.西波拉人群中独立运动的无监督的生物学检测。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Apparentation，第1卷，第594-601页，2006中。2[4] A. B. Chan，Z.- S. J.Liang和N.瓦斯康塞洛斯隐私保护人群监控：在没有人模型或跟踪的情况下计算人数在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition，第14.4、3[5] K. Chen C.，马缨丹属C. Loy，S. Gong和T.翔用于局部人群计数的特征挖掘。在BMVC，第1卷，第3页，2012中。4.4[6] H.伊德里斯岛萨莱米角Seibert和M. Shah.密集人群图像中的多源多尺度计数。在IEEE计算机视觉和模式识别会议论文集，第2547-2554页，2013年。1、2、4.3、2[7] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展，第1097-1105页，2012年。2[8] V.Lempitsky和A.齐瑟曼。学习计算图像中的物体。神经信息处理系统进展，第1324-1332页，2010年。4.3[9] D.Onoro-Rubio和R.J.我是洛佩斯·萨斯特通过深度学习实现无视角对象计数。在欧洲计算机视觉会议上，第615施普林格，2016年。1、2、3、4.3、4.4[10] V. Rabaud 和 S. 贝隆吉数着拥挤的流动场所。在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition，第1卷，第705-711页2[11] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014。3.1、3.4[12] R. Stewart和M.安德里卢卡拥挤场景中的端到端人员检测。arXiv预印本arXiv：1506.04878，2015年。2[13] C.塞格迪W.刘先生，Y.贾，P.SermanetS.里德D.安格洛夫，D。Erhan，V. Vanhoucke，和A.拉比诺维奇。更深的回旋。在IEEE计算机视觉和模式识别会议论文集，第1-9页2[14] P. Viola、M.J. Jones和D.雪使用运动和外观模式检测行人International Journal of Computer Vision，63（2）：153-161，2005。2[15] C. Wang，H.张丽Yang，S.刘，和X。曹在极其密集的人群中进行深度统计。法律程序2015年ACM多媒体会议，第1299- 1302页，2015年。2[16] M. Wang和X.王.通用行人检测器对特定交通场景的自动适应。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition 中，第 3401-3408页，2011年。2[17] B. Wu和R.奈瓦提亚利用边缘波部分检测器的最佳组合检测单个图像中的多个部分遮挡的人。IEEEInternational Conference on Computer Vision，第1卷，第90-97页，2005年。2[18] C. Zhang，H. Li，X. Wang和X.杨通过深度卷积神经网络进行跨场景在IEEE计算机视觉和模式识别会议的Proceedings，第833-841页，2015年。1、2、3、4.2、4.3、4.4、4.5、4、4.5[19] Y. Zhang，L. Zhou，S. Chen，S. Gao和Y. MA.通过多列卷积神经网络进行单图像人群计数。在IEEE计算机视觉和模式识别会议论文集，第5891、1、2、3、3.1、4.2、3、4.2、1、4.3、4.4、4.5、4.5、5、4、5、6

下载后可阅读完整内容，剩余1页未读，立即下载