基于网格编解码器网络的人群计数技术

102 浏览量更新于2023-10-19 收藏 1.88MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6133基于网格编解码器网络姜晓龙1人，肖泽浩1人，张宝昌3人，甄贤通4人，曹贤斌1，2人，David Doermann5人，邵凌4人1北京航空航天大学电子信息工程学院2近空间信息系统先进技术重点实验室（北京航空航天大学），中国工业和信息化部，北京，中国3北京航空航天大学自动化科学与电气工程学院4Inception Institute of Artificial Intelligence，UAE5美国纽约布法罗大学计算机科学与工程系jasperj1tmac@163.com，www.example.com，zhxiao@buaa.edu.cn，bczhang@buaa.edu.cn，zhenxt@gmail.com，xbcao@buaa.edu.cndoermann@buffalo.edu，ling. ieee.org摘要人群计数近年来在计算机视觉领域引起了越来越多的兴趣，但仍然是一个具有挑战性的问题。在本文中，我们提出了一个网格编码器 - 解码器网络（TEDnet）的人群计数，重点是生成高质量的密度估计地图。主要贡献有四方面。首先，我们开发了一种新的网格架构，该架构将多个解码路径合并到不同编码阶段的分层聚合特征，从而提高了卷积特征对对象大变化的代表能力其次，我们采用密集的跳跃连接交叉路径，以促进充分的多尺度特征融合，这也有助于TEDnet吸收监督信息。第三，我们提出了一个新的组合损失，以加强在本地的连贯性和空间相关性的地图之间的相似性。通过将这种组合损失分布在中间输出上，TEDnet可以改善反向传播过程并缓解梯度消失问题。最后，在四个广泛使用的基准测试中，我们的TEDnet实现了空间1 2 34语义1234空间在密度图质量和计数精度方面的最佳整体性能，MAE指标提高了14%这些结果验证了TEDnet用于人群计数的有效性。1. 介绍随着城市化的快速发展，人群聚集的频率越来越高，对有效的安全监测、救灾、城市规划和这些作者贡献相等。†本文作者为通讯作者。图 1. 具有分布式组合损耗的网格编码器 - 解码器网络（TEDnet）的说明。水平轴和垂直轴表示在TEDnet内高度建立的空间-语义-空间特征。我们将这个层次结构实例化为一个特征网格，其行和列在页边空白处进行索引。每个特征图的空间和通道维度由其边表示。人群管理作为支持这些应用的基本技术，人群计数已被研究并产生了先进的解决方案。大多数人群计数方法基于检测[18，9，45]、回归[28，4，10]和密度估计[17，53，2，11]。128 3多尺度编码块L1Z2、D128 1128 3Max池化D解码L2Z3、D128 1Z4，4128 32Z512 1组合损失L4U128 14、DZL3块U上采样块D641282DD8128 12128 642DDD8 96 74 5128 256128 128128 64128 322 31256 16解码器编码器6134估计数：1074Gt计数：1068估计数：269Gt计数：271图2.一个估计的密度图和人群计数所提出的方法和其他国家的最先进的说明。第一列显示了从上海科技A部分抽取的两个样本第二列示出了具有固定高斯内核的对应地面真值映射从第三列到最后一列，我们分别显示了MCNN [53]，SANet [2]和拟议的TEDNet估计的密度图。TEDnet生成的密度图更接近真实情况，人群计数也更准确。特别是基于密度估计的方法已经受到越来越多的研究关注。这些技术具有通过使用逐像素回归生成密度估计图来定位人群的能力然后将人群计数计算为密度图的积分。为了生成具有作为输入的保留空间大小的映射，深度编码器-解码器卷积神经网络（CNN）架构被广泛应用[6，42，54，33，8，20，25，12]。特别是，编码器-解码器方法在面向定位的任务中也起着重要作用，以促进准确的逐像素回归[19，31，43，30，24]，因为卷积本身本质上是使用遍历模板匹配的逐像素特征局部化。因此，我们提出了网格编码器-解码器网络（TEDnet）的密度估计，以解决人群计数问题。我们的方法改进了编码和解码过程，以获得更准确的像素估计。特征编码通过提取特征来促进准确的逐像素估计，同时在特征图中保持在具有严重遮挡和尺度变化的场景中，CNN特征被广泛用于增强特征编码性能[53，1，27，40，2，22]。值得注意的是，大多数当前的计数方法采用最初设计用于分类任务的CNN，例如VGG-16 [40，38，22]，Inception [2]和DenseNet [11]。尽管它们以前取得了成功，但这些网络建立了深层的层次结构，将低级空间信息转换为高级语义信息。结果，特征图的分辨率由于下采样操作而逐渐降级，并且因此，定位精度降低。期望在空间分辨率保持和语义特征提取之间保持良好的平衡。特征解码通过聚集编码的特征图来生成密度图。通过将低级别空间精度和高级别语义深度相结合的多尺度解码特征的融合来保证估计地图的逐像素精度。在具有单个解码路径的沙漏编码器-解码器网络中[33，54，6，42]，特征必须承受过度的下采样和上采样操作，这会降低像素精度。此外，沙漏两端的多尺度特征图中包含的丰富的低级空间信息和高级语义信息被编码器和解码器之间的间隙分隔开。尽管已经尝试通过跳跃连接来增强沙漏网络[20，25，8，50]，但由于多尺度特征之间缺乏分层融合，因此它们并从更基本的角度来看，人群计数中广泛采用的均方误差（MSE）损失假设像素独立性，而忽略了密度图中的局部相干性和空间相关性。因此，它不足以促进高质量密度图的生成。为了解决现有编码器-解码器网络中的这些问题，并通过增强的架构来提高计数性能，我们提出了网格编码器-解码器网络（TEDnet）来生成高质量的密度图。TEDnet实现了在已建立的网格状特征体系结构内的多尺度特征的充分聚合和融合在编码过程中，使用多尺度卷积核来获得尺度自适应，其中下采样步幅被削减为四个以保持逐像素空间精度。在解码过程中，在对应的编码阶段部署多个路径，每个路径聚合编码的多尺度特征。在路径上，包含不同的空间和语义信息的功能集成使用密集的跳过连接，这保证了彻底的多尺度特征融合。我们的多路径网格网络在精神上类似于具有不同特征尺度的多个沙漏网络的集合，建立了一个位于网格结构中的特征学习层次结构，如图1所示。TEDnet中的每条路径都生成一个中间输出图，该图本质上支持在每条路径内部署分布式监督6135这缓解了梯度消失问题，并增加了通过网络的梯度流TEDnet中的每个分布式损失都是基于空间抽象损失（SAL）和空间抽象损失（SCL）定义的组合损失SAL和SCL消除了由MSE损失引起的逐像素独立性假设，并通过加强地图之间TEDnet采用完整的图像，而不是图像块，作为输入和输出全分辨率密度图。这进一步确保了密度图的质量（图2中定性显示），避免了繁琐的逐块操作，这会导致边界伪影。所提出的方法的主要贡献总结如下：• 我们提出了一种新的深度学习架构，用于精确的密度估计和人群计数，称为网格编码器-解码器网络（TEDnet），它分层集成多个编码-解码路径，以生成高质量的密度图，用于精确的人群计数。• 我们建立了一个多路径解码器，该解码器在解码特征层次结构内普遍地聚集空间赋予的特征，并逐步融合多尺度特征与层次结构中交织的密集跳跃连接。• 我们引入了一个新设计的SAL和SCL组成的组合损失来监督密度图中的局部相干性和空间相关性分布式监督，结合组合损失，部署在中间多径输出，以改善网络的优化。• 我们在四个常用的基准数据集上实现了最佳的整体性能，在MAE指标上大大超过了最先进的方法高达14%。我们获得最好的质量估计密度图，在PSNR和SSIM措施。2. 相关工作在本节中，我们简要回顾了最相关的工作，并参考了人群计数的综合调查[35，36，41，13]。2.1. 基于检测和回归的方法基于检测的计数方法部署检测器来遍历图像，其沿着路径定位并计数目标[5，9，18，45]。这些方法被基于回归的替代方案超越，因为检测性能在过度拥挤的场景中受到影响。基于回归的方法ODS [3，34，10，51，15]因此可以归因于它们规避显式检测并直接将输入图像映射到标量值的能力。然而，基于回归的方法丧失定位能力，使得它们不能感知人群分布。为了恢复丢失的定位能力，基于密度估计的人群计数方法，因此开发进行逐像素回归。2.2. 基于密度估计的方法最初在[17]中介绍，基于密度估计的方法避免明确检测每个个体并保留定位人群的能力。早期的方法努力用手工制作的特征[17，7]和随机森林回归[7，29，49]来计算密度图。最近的方法呼吁基于CNN的特征提取，以提供尺度和视角不变的特征。特别是，MCNN[53] ， Crowdnet [1] ， Hydra CNN [27] ， CNN- boost[44]，CP-CNN[40]和Switching CNN [37]都符合集成设计方法，以实现多尺度自适应，其中具有不同接收字段的多个CNN分支这些方法引入的额外计算费用在一定程度上浪费在低效和不灵活的分支上[19]。作为补救措施，在[2，11，47]中提出了具有尺度适应性的单分支计数网络。值得注意的是，这些方法中的大多数遵循基于块的计数机制[52，44，27，1，37，21，11，2]，其中通过级联离散密度块来获得全密度图。更重要的是，诸如MCNN、Hydra CNN和CNN之类的方法由于过度的下采样步长而提高了分辨率降低的输出密度图。这不可避免地牺牲像素级细节并损害密度贴图质量。相比之下，CP-CNN [40]专注于在全局和局部语义信息的帮助下生成高质量的全分辨率地图在[2]中，研究人员使用新的编码器-解码器网络以及SSIM局部模式一致性损失计算了高质量的全分辨率地图。为了限制编码过程中的下采样步幅，CSRNet [19]采用扩张卷积层来代替池化层。与其他方法不同，所提出的网格编码器-解码器架构试图通过保留编码特征层次结构中的空间信息来生成高质量的密度估计图。更重要的是，它结合了一个多路径解码器，以加强聚合和融合的多尺度特征与丰富的空间和语义信息。结果，增强了估计图中的逐像素回归精度。在广泛的- 因此，密度估计类似于其他面向定位的任务，例如跟踪[32，30，23]和检测[24]，其也生成定位估计图作为输出。这些任务与密度估计相互关联，使得所得到的定位图6136i、j可以融合以整合特定于任务的定位响应[13，11]。此外，语义分割还依赖于强大的编码器-解码器架构来整合多尺度特征，以提高定位精度。因此，已经做出努力来增强沙漏架构。在[8]中，SDN将多个单路径沙漏网络堆叠成更深的序列，以提高特征融合并保证定位信息的精细恢复。在[20，25]中，单路径沙漏网络通过在跳跃连接内添加剩余单元来扩展3. 网格编解码器网络如图1所示，TEDnet的目标是通过生成具有高像素密度估计的密度图来实现改进的计数性能在编码器中，密度估计的定位属性符合卷积层操作的性质。这里，卷积核是经由模板匹配在特征图中本地化的特征模板。在解码器中，编码的特征图被聚合以表示拥挤对象的局部性。我们的TEDnet可以在网格架构内建立一个特征层次，其中可靠的多尺度特征被编码有保存良好的空间信息。然后这些被解码成精确的密度图，具有很大的精确定位能力。在下文中，我们将详细解释TEDnet中的多尺度编码器、多路径解码器和具有组合损失的分布式监督。3.1. 多尺度编码器我们设计了多尺度编码器来提取与拥挤的人类对象相关的可靠多尺度编码块能够克服人群计数场景中存在的遮挡和尺度变化，如下所述。如图3所示，多尺度编码块是用不同大小的内核来实现的，这使得编码器能够提取多尺度特征。如图1所示，总共九个编码块被实现并被分组为五个编码级。为了保证特征定位精度，我们限制了池操作的应用因此，在前两个编码级处仅插入两个2X2最大池化层，其中的每一个具有为2的下采样步幅。为了进一步扩大感受野，在最后两个编码块中采用了扩张率为2和4的扩张卷积核[19]。3.2. 多路径解码器我们设计了一种新的多径解码器，以分层聚集的空间保留的功能和恢复的空间。1×1Conv1×1Conv3×3ConvC1×1Conv5×5Conv1×1Conv7×7Conv多尺度编码块图3.多尺度编码块的图示图中带圆圈的C表示逐通道级联。直接生成密度图，解码器对密度图质量有重要影响不幸的是，在人群计数和密度估计的文献中，对解码器的重视程度较低。在CSRNet [19]中，通过应用双线性插值对编码特征图进行上采样来简单地生成密度图。在Crowdnet [1]中，1×1卷积层被实现为解码器。SANet [2]提倡在单路径沙漏解码器中进行细化的想法。据我们所知，这是迄今为止密度估计方面最复杂的设计。或者，已经在使用沙漏架构的其他任务中做出了努力，例如图像分割[33，54，8，20]和超分辨率。决议[6，42]。然而，如第1节所述，这些架构对于密度估计不是最佳的。他们遭受长期的单路径功能transforma- tion层次与沉重的参数化，以及在-足够的功能聚合和融合。为了弥补现有解码器的缺陷，我们在TEDnet上提出了一种多路径解码器，它将一组具有多尺度特征的单路径沙漏结构组合在一起。如图1所示，在从最后三个编码阶段计算的特征图上在每个路径内，建立解码特征hi-hi-hy以渐进方式聚合相同语义级别的特征表示。在不同的路径中，不同层次的特征图通过密集的跳跃连接进行这两个聚合和融合的功能实现密集交织的解码块。解码器的实现是通过将解码块堆叠到网格结构中来实现的，从而建立特征层次结构如图1所示，这种特征层次结构被精确定位到具有网格表示的网格架构中，其中每列指示一个解码路径，并且每行表示每个路径内的深度。解码块。如图4（a）所示，每个解码块采用两个输入。右输入特征从相同的解码路径传递，并且它具有更深的语义信息，其通道是左输入特征的通道的两倍。它是通过一个反卷积密度图中的分辨率作为组件，F2层用3×3的内核，这将通道减半。6137i、j空间相关性损失（一）（b）第（1）款图5.组合损失L的一个例子。Z表示其中一个分布式输出，而Y是对应图4.解码块（a）和上图的图示是采样块（b）。图中带圆圈的C表示逐通道级联。左输入要素通过卷积层聚合，地面实况地图，调整大小为与Z相同。在编码器-解码器中，空间信息不能在解码器中恢复，如图1中垂直指示的。虽然1i、j部署1×1内核，深度不变。稀疏链接的跳过连接可以减轻不充分的在单路径沙漏中进行一定程度的特征融合这两个聚合特征通过通道融合明智的级联，然后是卷积层F31×1过滤器在（1）中，Zi，j表示特征网格内第i行和第j列处的解码特征，由解码块Di，j计算，如下：Zi，j=Di，j（Zi−1，j−1，Zi−1，j）第1112章三个一=F（[F（Zi−1，j−1），F（Zi−1，j）]），编码器-解码器，在TEDnet中实现的普遍特征融合仍然无法实现。3.3. 分布式监控TEDNet的多路径架构产生中间输出估计图，即，Z2，D，Z3，D，Z4，D，Z，在如图1所示的解码路径的末端。这种设计自然能够实现分布式监督，例如可以在每个中间输出处应用多个损耗i、ji、ji、j放。先前的尝试已经被做出以提供多-其中F（·）指示卷积运算，并且[·]表示逐通道级联。在如图1所示的建立的特征层次结构内，解码的特征使得能够聚合和融合多尺度特征。结果，在最右侧解码路径的末端处的解码特征图Z4，4因此，通过经由上采样块恢复空间维度来从这些特征图生成最终输出密度图Z上采样块。如图4（b）所示，上采样块的设计受到超分辨率技术的启发[26]，其中最近邻插值之后是步长为1的3×3卷积层。TEDnet的整体下采样步幅为4. 我们通过重复来恢复密度图的空间大小-在上采样中执行上采样操作两次块总体而言，空间-语义-空间特征层次结构在TEDnet中得到充分利用。在图1中，建议的体系结构建立主机功能层次结构。如横轴所示，层次结构中右侧的特征图比左侧的特征图具有更多的语义信息。然而，左边的那些包含更丰富的空间细节。在垂直方向上，空间信息通过跳跃连接逐渐恢复，这种跳跃连接从左到右，从上到下传输低层空间特征。值得注意的是，对于简单的单路径沙漏，监督，其中损失在中间特征图和地面实况之间计算[48，16，8]。相比之下，在TEDnet中实现的拟议分布式监督计算中间密度估计图和地面实况图之间的多个损失。从系综的角度来看，计算每个分布式损耗来监督代表单路径沙漏网络的相应路径。特别是，为了计算Z2，D，Z3，D，Z4，D处的损失，每个损失都是使用具有1×1滤波器大小的卷积层从其先前的特征图使用平均池化操作，地面真实密度图被下采样到128×128。这些中间输出中的每一个都沿着其自身的路径在不同的特征级别上被单独解码。同时，通过密集的跳跃连接来整合来自不同路径的信息。因此，每个输出的监督是有意义的，可以帮助更好地优化网络。由于分布式监督，结合密集的跳跃连接，梯度消失现象，这表明在网络的早期阶段较弱的梯度，大大减轻。例如，考虑卷积块1。在反向传播过程期间，梯度流是在每个分布式监督处开始的传播流的总和，使得梯度被提升。此外，对于在其对应的监督下发起的每个流，代替仅沿着一个解码路径向后流动，交织的密集跳过连接在其对应的监督下提供更扩散的流路径。1×1转换3×3DeConv��(∙)��(∙)C��(∙)解码1×1转换块，最近邻插值3 ×3 Conv步幅= 1最近邻插值3 ×3 Conv步幅= 1上采样块YY1 −ZZMSEMSEMSEMSELSA×��LLSC最大池化最大池化最大池化erF6138Gt计数：920Gt计数：470Gt计数：2731Gt计数：681GT计数：20估计数：919估计数：468估计数：2367估计数：749估计数：19图6.从左到右，我们展示了TEDnet在上海科技A部分、上海科技B部分、UCF-QNRF、UCF CC 50和WorldExpo'10数据集上生成的密度图第二行显示了地面真实密度图，第三行描绘了我们估计的地图。每一个分叉点，从而进一步促进梯度流。3.4.组合损失如图5所示，损失函数分布在每个解码输出是两个损失的组合。一般来说，逐像素均方误差（MSE）损失已经主导了基于密度估计的人群计数方法的训练[53，1，11]。正如[2，19]中所提倡的，MSE损失假设像素隔离和独立，表示基于归一化互相关（NCC）相似性的两个密度图之间的差异。这对密度图强度的线性变化不太敏感此外，SCL是更容易计算和实验友好相比，MSE损失。在两个映射上定义的SCL的计算为：中国人民银行（Zpq·Ypq）dence. 因此，它无法执行空间核心-在估计的地图中，像素之间的关系和连贯性，然而，这在影响LSC =1−。p中国人民银行Q2Zpq中国人民银行·2Ypq、（3）密度图的质量为了补偿有限的MSE损失，我们定义了空间抽象损失（SAL）和空间相关损失（SCL），导致组合损失。空间抽象损失SAL逐步计算多个抽象级别上的MSE损失，预测地图和地面实况。这些空间抽象是通过级联最大池化层与下采样步幅来实例化的，从而导致每个级别上逐渐扩大的接收场。在每个级别，在抽象的地图中的像素值是非线性地从在前面的抽象级别中的相应位置处的感受野通过计算每个抽象层上的MSE，SAL可以用逐块监督来补充逐像素MSE损失。在我们的实验中，在正常的MSE损失之后，我们实现了三个抽象级别（在下面的等式中K=3），具有2×2个最大池化层，每个层的步幅为2。形式化了SAL的计算p q p q其中Ypq和Zpq分别表示地面实况密度图和预测密度图中的像素。p和q是映射中的行和列索引，P×Q表示像素总数。最终的组合损失L被公式化为SAL和SCL的加权和：L=LSA+λLSC，（4）其中λ是平衡SAL和SCL贡献的因子在4.2节中解释了λ的选择。4. 实验和结果4.1. 实现细节在[47]之后，我们通过以下方式生成地面实况地图：固定大小的高斯核，并使用在线采样策略来增加训练数据（更多细节可以在[47]中找到）。我们以端到端的方式训练我们的TEDnet，如：LSAΣK=k=112ǁϕk(Z)−ϕk(Y)ǁ2,(2)Kscratch，并基于Adam优化器优化网络参数[14]。我们使用批量大小为8，Xavier初始化，初始学习率为1e-3。学习其中，k（·）表示第k个抽象级别上的抽象计算。Nk是第k个抽象级别上的映射内的像素数。空间相关损失除了补丁式的超级-沙中线进一步补充了逐像素MSE损失与逐图计算。SCL速率是逐步的并且以因子0减小。每10K8个迭代关于TED的效率表现-net，训练到收敛需要2500个epoch，在上海科技A部分测试每幅图像需要0.027秒。图像操作。为了生成高质量的全分辨率密度图，N6139TEDnet将全尺寸图像作为6140我我我λ图7.不同网络结构和监督损失下的收敛性能说明输入和输出相同大小的密度图。我们的方法不同于采用分块操作的方法[52，44，27，1，37，21，11，2]。值得注意的是，分块操作会引起边界伪影，这会对定位精度产生负面此外，逐块计数精度受到跨块的统计偏移的影响[2]。计数精度。为了评估计数精度，我们采用了平均误差（MAE）和均方误差（MSE）度量，定义为：‚表1. ShanghaiTech A部分数据集的消融研究结果。最佳性能为粗体。所有表格中的箭头指示度量值的有利方向。配置MAE↓PSNR↑网络结构1网格编码器+单路解码器73.122.512网格编码器+多功能路径格形解码器71.224.24监督方法2单个监督71.224.243分布式监督69.224.71损失函数3正常MSE69.224.714SAL67.824.945SAL + SCL64.225.88组采用相同的网格编码器，对密度图Z采用单一的监督，具有正常的MSE损失。实验结果表明，在MAE指标下，多径解码器的计数精度提高了2.6%，在PSNR指标下，密度图质量提高了7.1%此外，图中的黄色曲线M.MMae =1ΣMi=1|Ci−Cgt.1Σ|，MSE=，Mi=1|Ci−Cgt |2 (5)图7展示了由于在多路径解码器中实现的密集跳跃连接而更快的收敛。的其中，M是测试集中的图像数量，Cgt和Ci表示第i个图像的真实值和预测计数，计算为密度图的积分。密度贴图质量。为了评估估计密度图的质量，我们还计算了PSNR（峰值信噪比）和SSIM（图像结构相似性）指数，如[40]所述特别是，SSIM指数通常用于图像质量评估[46]，它从均值、方差和协方差统计量计算两幅图像之间的相似性4.2. 消融研究消融研究结果如表1所示。的表按行划分为三个组，具有五种配置。每个组包含与TEDnet的一个主要贡献相对应的索引。这些包括多径解码的网格网络，分布式监督，以及SAL和SCL的组合损耗。在不同的列中，我们使用MAE方法报告每个配置的计数精度。我们还说明了使用PSNR度量的密度图的质量。在图7中，左图显示了配置1、2和3的收敛性能，展示了密集跳跃连接和分布式监控带来的收敛优势。图7中的右图显示，当λ=1时，即SAL和SCL在组合损失中的权重相等时，报告了最佳计数精度。表1中所示的第一组配置比较了多径网格解码器和单径沙漏解码器的性能。在此第二组配置都是用TED网络建立的，使用正常的MSE损失。实验结果表明，分布式监控使MAE提高了2.8%，P-SNR提高了1.9%，绿色曲线表明收敛速度和性能进一步提高。在最后一组中，我们比较了分布式部署不同损失的性能。SAL和S-CL（λ=1）的组合损失突出，MAE改善7.2和4.5%的峰值信噪比，这证实了更高的密度图，质量可以提高计数精度。总体而言，组合5报告的结果最好，它综合了所有三项贡献。4.3. 性能与比较我们将我们的TEDnet与八种最先进的方法在四个具有挑战性的数据集上进行了比较，包括ShanghaiTech[53]，UCF CC 50 [10]，WorldExpo我们解释了TEDnet在计数精度（MAE和MSE，如表2所示）和3）和密度图质量测量（SSIM和PSNR，如表4所示）。4.3.1计数准确度上海科技上海理工大学数据集是最大的数据集之一，包括A部分和B部分子集。如表2所示，在A部分，我们的方法实现了最低的MAE和有竞争力的MSE。在MAE方面，我们以4.2%领先第二名在B部分，我们报告了两个指标的该数据集的显著改进验证了TEDnet的有效性。第50章我的秘密 Idrees介绍的UCF CC 50数据集6141表2.ShanghaiTech数据集、UCF CC 50和UCF-QNRF数据集的估计误差上海科技A上海科技BUCF CC 50UCF-QNRF方法MAE↓ MSE↓MAE↓ MSE↓MAE↓ MSE↓MAE↓ MSE↓Zhang等人[五十二]181.8 277.732.0 49.8467.0 498.5- -MCNN [53]110.2 173.226.4 41.3377.6 509.1277 426[39]第三十九话101.3 152.420.0 31.1322.8 397.9252 514切换-CNN [37]90.4 135.021.6 33.4318.1 439.2228 445CP-CNN [40]73.6 106.420.1 30.1295.8320.9- -CSRNet [19]68.2 115.010.6 16.0266.1 397.5- -SANet [2]67.0104.58.4 13.6258.4 334.9- -Idrees等人[第十一届]- -- -- -132 191我们64.2109.18.2 12.8249.4354.5113 188表3. WorldExpo'10数据集的MAE，S是Scene的缩写。方法S1S2S3S4S5Ave.Zhang等人[五十二]9.814.114.322.23.712.9MCNN [53]3.420.612.913.08.111.6切换-CNN [37]4.415.710.011.05.99.4CP-CNN [40]2.914.710.510.45.88.9CRSNet [19]2.911.58.616.63.48.6SANet [2]2.613.29.013.33.08.2我们2.310.111.313.82.68.0等人[10]包含50幅不同分辨率的图像，密度范围很广。为了解决样本稀缺问题，我们按照[10]中的标准设置如表2所示，我们在MAE指标方面实现UCF-QNRF。UCF-QNRF是一个新的数据集，最高数量的高计数人群图像和注释。我们将我们的结果与四种最先进的方法进行比较，我们的方法在MAE和MSE方面都达到了最佳性能。如表2所示，我们通过MAE改善14.4%和MSE改善1.6%击败了第二种最佳方法。世界博览会 10. WorldExpo10 数据集是由 Zhang etal.[52]，包含来自2010年上海世博会108个不同场景的3980帧。表3显示，TEDnet在5个测试场景中的3个场景中提供了最低的MAE，并报告场景5比其他场景提高了13.3%。总体而言，我们实现了最好的平均MAE性能，比第二好的高出2.4%。4.3.2密度图质量如第2节所述，CP-CNN [40]和CSRnet [19]也强调生成高质量的密度图。MC-NN [53]是基于密度估计的人群计数中最具代表性的方法之一我们比较了TEDnet和这三个最先进的系统估计的密度图的质量。如表4所示，我们的方法在ShanghaiTech Part A数据集上的PSNR和SSIM指标方面优于其他方法。特别是，我们获得了8.1%和8.4%的改善，比第二个最好的方法，在PSNR和 SSIM 指标。定性地，我们将 MCNN 、 SANet 和TEDnet在上海科技大学的表4.上海理工大学A部分数据集和参数研究的密度图质量，M代表百万。方法PSNR↑SSIM↑参数MCNN [53]21.40.520.13MCP-CNN [40]21.720.7268.4MCRSNet [19]23.790.7616.26M我们25.880.831.63M图2中的A部分。此外，我们还在图6中显示了TEDnet在其他数据集上生成的密度图。我们的TEDnet引入了增强的多路径解码器架构，然而，与其他最先进的方法相比，它仍然是轻量级的，它也致力于生成高质量的密度图。如表4 所示，TEDnet中的参数数量仅相当于CRSNet的10%和CP-CNN的2.4%。更重要的是，我们展示了密度图质量以及计数精度的最佳整体性能。MCNN是最轻量级的，但我们在SSIM中显示出17.3%和36%的PSNR显着改善此外，在MAE和MSE方面，我们在所有数据集上的表现都5. 结论在本文中，我们提出了一种新的深度学习架构，称为用于人群计数的网格编码器 - 解码器网络（ T-EDnet）。它由一个多尺度编码器和一个多路径解码器，以产生高质量的密度估计地图。该算法在保持编码特征图定位TEDnet的训练与分布式监督实施与建议的组合损失。四个基准测试的实验表明，TEDnet在密度图质量和人群计数准确性方面实现了新的最先进的性能。6. 确认本文得到了国家杰出青年科学基金项目（ 61425014 ）、国家重点科学仪器设备研制项目（61827901）和国家自然科学基金项目（91538204、61871016）的资助。6142引用[1] L. Boominathan，S. S. Kruthiventi和R.维·巴布Crowd-net：一个用于密集人群计数的深度卷积网络2016年ACM多媒体会议论文集，第640-644页。ACM，2016。二三四六七[2] X.曹，Z. Wang，Y. Zhao和F.苏规模聚合网络，用于准确和高效的人群计数。在欧洲计算机视觉会议（ECCV）的Proceedings中，第734-750页，2018年。一二三四六七八[3] A. B. Chan和N.瓦斯康塞洛斯人群计数的贝叶斯泊松计算机视觉，2009年IEEE第12届国际会议，第545-551页。IEEE，2009年。3[4] K. Chen C.，马缨丹属C. Loy，S. Gong和T.翔用于局部人群计数的特征挖掘。在BMVC，第1卷，第3页，2012中。1[5] P.Dollar角沃杰克湾Schiele和P.佩洛娜 Pedestri-检测：对最新技术水平的评价。IEEE transactions on patternanalysis and machine intelligence，34（4）：743-761，2012。3[6] C.东角，澳-地C. Loy和X.唐加速超分辨率卷积神经网络。在欧洲计算机视觉上，第391施普林格，2016年。二、四[7] L. 菲亚斯基科尔特河 Nai r和F. A. 汉普雷希特学习使用回归森林和结构化标签进行计数。在模式识别（ICPR），2012年第21届国际会议，第2685-2688页中。IEEE，2012。3[8] 傅军，刘军，杨文。Wang和H.陆用于语义分割的层叠反卷积网络。arXiv预印本arX- iv：1708.04943，2017年。二、四、五[9] W. Ge和R. T.柯林斯人群计数的标记点过程。在计算机视觉和模式识别，2009年。CVPR 2009。IEEE会议，第2913-2920页。IEEE，2009年。第1、3条[10] H.伊德里斯岛萨莱米角Seibert和M. Shah.密集人群图像中的多源多尺度计数。在IEEE计算机视觉和模式识别会议论文集，第2547-2554页，2013年。一、三、七、八[11] H. Idrees ， M. 塔亚卜湾 Athrey ， D. Zhang ， S. Al-MaadeedN. Rajpoot和M. Shah.密集人群中计数、密度图估计和定位的成分损失。 arXiv 预印本 arXiv ： 1808.01050 ，2018。一二三四六七八[12] X. Jiang，P. Li，X. Zhen和X.曹无模型跟踪，深度外观和运动特征集成。2019年IEEE计算机视觉应用冬季会议（WACV），第101-110页。IEEE，2019。2[13] D.康，Z. Ma和A. B.陈超越计数：用于人群分析任务-计数、检测和跟踪的密度图的比较。IEEE Transactions onCircuits and Systems for Video Technology，2018。三、四[14] D. P. Kingma和J. BA. Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[15] S. Kumagai K. Hotta和T.栗田计数CNN的混合物：用于人群计数的专用于特定外观的cnn的自适应集成。arXiv预印本arX- iv：1703.09393，2017年。36143[16] C.- Y. 李，S。Xie，山核桃P.Gallagher，Z.zhang和Z.涂。深层监控网。在人工智能和统计，第562-570页，2015年。5[17] V.Lempitsky和A.齐瑟曼。学习计算图像中的物体。神经信息处理系统的进展，第1324-1332页，2010年。第1、3条[18] M. Li，Z.Zhang，K.Huang和T.Tan. 通过基于中值的前景分割和头肩检测估计在模式识别中，2008年。ICPR 2008年。第19届国际会议，第1-4页。IEEE，2008年。第1、3条[19] Y. Li，X. Zhang和D.尘Csrnet：用于理解高度拥挤场景的扩展卷积神经网络。在IEEE计算机视觉和模式识别会议论文集，第1091-1100页，2018年。二三四六八[20] G. Lin，L.米兰角沈和我D.里德Refinenet：用于高分辨率语义分割的多路径精化网络。在Cvpr，第1卷，第5页，2017年。二、四[21] J. Liu，C.，中国植物志和，2003 - 12 - 13; Gao，L.和A. G.豪普特曼Decidenet：通过注意力引导检测和密度估计来计算不同密度的人群。在IEEE计算机视觉和模式识别会议论文集，第5197-5206页三、七[22] X. Liu，J. van de Weijer，and A. D. Bagdanov通过学习排名，利用未标记的数据进行人群计数arXiv预印本arXiv：1803.03095，2018。2[23] E. Lu，W. Xie，和A.齐瑟曼。类不可知计数。arXiv预印本arXiv：1811.00472，2018。3[24] Z.马湖，加-地Yu和A. B.陈在目标密度图上通过整数规划进行小实例检测。在Proceedings of the IEEEConferenceonComputerVisionandPatternRecognition中，第3689-3697页，2015年。二、三[25] V. Nekrasov，C.沈和我里德用于实时语义分割的轻量级细化网络。arXiv预印本arX- iv：1810.03272，2018。二、四[26] A. Odena，V. Dumoulin和C.奥拉反卷积和棋盘式伪影。Distill，2016. 5[27] D.Onoro-Rubio和R.J. 我是洛佩斯·萨斯特通过深度学习实现无视角对象计数。在欧洲计算机视觉会议上，第615施普林格，2016年。二、三、七[28] N. Paragios和V.拉梅什一种基于磁共振频率的地铁实时监测方法。计算机视觉和模式识别，2001年。CVPR 2001年。2001年IEEE计算机协会会议论文集，第1卷，第I-I页。IEEE，2001年。1[29] 五Q. Pham，T.小坂屋岛Y

下载后可阅读完整内容，剩余1页未读，立即下载