多专家网络人群计数方法

195 浏览量更新于2023-10-13 收藏 960KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3215--利用样本相关性进行多专家网络人群计数刘欣燕1，李国荣*1，2，韩振军1，张伟刚3，杨一凡1，黄庆明1，2，4，Nicu Sebe51中国科学院大学，北京中国2中国科学院大学大数据挖掘与知识管理重点实验室北京3哈尔滨工业大学，威海，中国4中国科学院信息与通信技术智能信息处理重点实验室，北京5University of Trento，特伦托，意大利98@foxmail.com，liguorong，hanzhj，ucas.ac.cn，wgzhang@hit.edu.cn，yangyifan@yeah.net，sebe@disi.unitn.it摘要由于场景的多样性，人群计数是一项艰巨的任务。现有的人群计数方法大多采用具有大量主干的复杂结构来增强泛化能力。不幸的是，现有方法在大规模数据集上的性能并不令人满意。为了处理复杂度较低的网络的各种场景，我们探讨了如何有效地使用多专家模型的人群计数任务。本文主要研究了如何训练出更有效的专家网络以及如何选择最合适的专家。具体来说，我们提出了一个任务驱动的相似性度量的基础上样本的相似样本被认为是一个聚类器，用于获得专家的参数。此外，为了更好地利用该方法，我们设计了一个简单的网络FPN与反卷积计数网络，这是一个更适合多专家计数网络的基础模型。实验结果表明，多专家FDC（MFDC）算法在包括大规模NWPU-Crowd数据集在内的4个公共数据集此外，在广泛的密集人群数据集上训练的MFDC可以很好地推广其他数据集，而无需额外的训练或微调。11. 介绍人群计数是一项尝试估计图像中对象（如人、汽车或动物）数量的任务这*通讯作者1代码将在https://github.com/streamer-AP图1.类别伪标签在5个交替训练时期期间的稳定性。第一行是我们方法的结果，第二行是IG-CNN[16]的8路分割和增长训练方法的结果。任务由于其在安全监控、人流控制、热点发现等领域的广泛应用而受到广泛关注早期的数据集，如UCSD数据集[2]、Mall数据集[5]、World Expo先前的方法已经在这样的数据集上实现了可靠的性能[28，29，19，22]。然而，当涉及到更复杂的场景[32，1，11]时，现有方法的性能这是因为在这些场景下，由于扭曲的视角、可变的尺度、不平衡的分布和宽范围的亮度等，存在大量的视觉外观多样性。因此，基于单个网络的方法[12，15，17]可能在一个特殊场景中表现良好，但在其他场景中表现较差。为了处理复杂的场景，一些方法[16，12，17，30]探索了多专家结构，通常3216包括基本特征提取器、路由网络或加权网络和多个专家网络。每个专家都被设计为处理特定的规模或密度，从而减轻了仅由一个专家处理场景多样性的复杂性。路由器，本质上是一个分类器，为每个测试样本选择最佳专家为了获得有效的专家，大多数多专家计数方法[17，16]应用差分训练技术。该技术仅向后计算expert上的损失，这给出了当前样本的最准确预测训练后，每个训练样本被分配一个伪类标签，这是最合适的专家的索引，以训练路由器。文献[16]中已有的实验结果表明，路由器此外，如图1所示，所生成的伪标签是不稳定的，并且在差分训练期间难以收敛。这意味着在训练之后，对于许多样本来说，最合适的专家这违背了算法设计的初衷，即用特定集合训练的专家网络会更适合这个集合中的样本。这种现象表明，专家表现最好的样本可能不适合一起训练该专家以进一步提高性能。从图1可以看出，通过我们的方法获得的类别伪标签更稳定。这意味着使用我们的方法训练的专家网络确实更适合于训练这些网络所使用的样本。实际上，由于每个专家都是通过对训练数据的一个子集进行模型微调而产生的，因此关键问题是如何将训练集划分为几个子集。一个好的子集在对模型进行微调时应该会带来性能的提高。然而，很难直接划分整个数据集。我们考虑一个更简单的问题，即。如何评估两个样本之间的相似性。我们提出了一种新的度量标准来评估样本之间的相似性（引用co-fine-tune相似性），它可以反映其最佳专家参数之间的相关性。这种相似性可以近似地描述在包含这两个样本的子集上进行微调之后模型的性能改进。因此，如果聚类由相似的样本组成，则有利于在一致的方向上优化基础模型，从而为该子集中的所有样本生成有效的专家为了获得这种聚类，我们设计了一种简单的聚类方法，基于共微调相似性，发现潜在的集群在密集的人群数据集。然后，每个聚类用于获得专家的参数。为了在推断过程中为测试数据选择最佳权重，我们将每个聚类视为一个类，并将CNN分类器训练为路由器，该路由器预测测试数据的类标签。预测结果用于检索最佳专家这样，我们可以根据测试图像的特征动态地为测试图像选择合适的专家，大大提高了性能。此外，为了减少参数的存储空间和避免过拟合的集群，我们设计了一个简单而有效的人群计数模型（简称FDC），它具有一个微小的密度图回归。使用FDC作为基础模型，我们得到一个多专家FDC（简称为MFDC）与我们的训练策略。我们的主要贡献可以概括为：• 提出了一种新的多专家训练框架，利用样本之间的关系进行人群计数任务建议的管道可以集成与现有的方法，并提高其性能显着。• 为了获得多个代表性的权重，我们开发了一个有效的采取驱动的相似性和聚类方法，以获得多个集群的训练数据。每个聚类用于学习一组参数，这对于测试与该聚类相似的样本是有效的。• 在四个数据集上进行了广泛的实验，即STA，STB[32]，UCF-QNRF [11]和NWPU- Crowd [23]，以证明所提出的方法可以实现最先进的性能。2. 相关工作一般来说，以往的人群计数方法可以分为单模型方法和多专家方法。在本节中，我们将分析这两种趋势中的方法。2.1. 单模型方法为了处理多个尺度，MCNN [32]实现了一个有效的多分支架构，其中每个分支都有一个不同的感受野，以适应具有特定尺度范围的目标。它的成功使它成为几部作品的基本组成部分[4，18，14]，这有助于解决规模急剧变化的问题。Chen [4]设计了一种基于不同膨胀率的多列结构，比较了不同核大小的分支。这些列共享来自骨干的相同特征，从而提高了计算效率。MBTTBF [18]比较了不同特征融合在计数任务上的性能，并设计了一种具有尺度感知特征提取块的多级底-顶和顶-底融合方法。上下文感知[14]通过不同的池化层引导从局部到全局的尺度来重新加权特征。一些方法[9，31，33，25]引入了注意力机制，以关注人群计数任务中的目标区域。SCAR [9]应用了空间方向和通道方向的注意力3217模型一起提取上下文信息和背景估计。MRA-CNN [31]对具有不同分辨率的三个特征图进行了关注，并且密度水平估计任务指导了关注因子。ACM-CNN[33]首先生成粗略的特征图，并迭代地聚焦和微调图像高密度区域的密度图，获得更精细的FPN上桑佩上桑佩上桑佩ConvFPN输出特征重量记忆...负载佩格雷索尔高密度区域。 Jiang [25]设计了ASNet以提供粗略的密度掩模，DANet提供缩放因子和几个候选密度图。综合利用这两个网络可以为测试样本的不同区域应用特定的权重。这些网络有助于多尺度信息提取。然而，具有不同密度和视觉外观的对象的计数很难通过单个权重精确地预测2.2. 多专家方法还有一些作品[16，17，12，30]考虑独立训练几个网络或在推理期间微调测试图像的网络权重。Cross Scene CNN [30]通过训练样本（其场景与测试样本的场景相似）对网络进行微调根据感知图和密度图计算相似度然而，感知地图注释起来是昂贵的或不可访问的，特别是在诸如自动车辆或无人机的移动平台上。MoCNN [12]应用了专家CNN和门控CNN来衡量专家的重要性。MoCNN直接预测图像的人群计数，这比学习密度图更困难。更重要的是，我们使用多专家网络的一个主要原因是我们每次只需要加载一个专家，但MoCNN使用所有专家进行预测，然后对结果进行加权求和，这需要更长的运行时间和计算资源。Switch-CNN [17]在多列CNN之前设计了一个开关层，它预测了测试样本作物的最佳列。不同的列被分配有各种大小的卷积核，以加宽每个列的结果之间的裕度，这有利于训练列切换层。然而，这些预定义列之间的差异将迫使切换层关注作物的尺度变化而忽略其他变化。此外，在规模和密度上不断变化，这不能由有限数量的列来处理。即使在作物内部，也可以存在多个级别的尺度，并且单个固定列很难处理这样的变化。IG-CNN[16]采用分而治之的策略来训练多专家网络。从相同的基础CNN密度CNN生成器开始，IG-CNN分层生成图2.我们提出的模型的结构。在推理过程中，利用测试样本及其特征图从存储的权值中检索最优权值，生成密度图。每次通过对不同的样本簇进行微调来生成两个子网络。该策略需要合理的度量和分类方法来将数据集划分为簇。IG-CNN考虑了在训练时间期间由同一专家作为集群实现最佳损失的样本。不能保证由这样的集群微调的模型是最佳的模型。以前的多网络方法不能达到预期效果的主要原因是以前的相似性或距离度量不能反映人群计数任务下样本之间的对于多专家系统，关键在于如何产生有效的专家，并将最优的专家分配给测试样本。为此，我们提出了一个更有效和合理的度量来评估样本之间的关系，并开发了一种有效的方法来训练路由器通过这个度量。3. 方法如图2所示，我们的方法是一种多专家方法。在训练阶段期间，训练特征提取器和密度图生成器。与现有方法不同，我们为密度图生成器生成多个权重，并将它们存储在外部存储单元中。对于一个测试样本，特征提取器的输出与原始图像的特征相结合所提出的多专家方法的训练过程的概述由3个步骤组成：选择有信息的样本并计算训练图像作物的协同微调相似度;对所选样本进行聚类，生成多个专家并存储每个专家的参数;学习权重检索模块，为测试样本选择最佳专家。3.1. 共微调相似性通常，给定经训练的人群计数模型（被称为基础模型）和一个样本，如果在给定样本上微调该模型，则微调模型在该样本以及其他类似样本上的性能将得到改善。基于性能改进...权重检索............3218{|}2^QQ21212K1KIj2I2在其他样本上，我们可以定义它们之间的相似性。具体地，令T =（xi，yi）i=0，1，2，…N是具有N个样本作物的训练集。该功能前-细微的变化M个时期期间的样本Xa的稳定性可以通过等式（3）来计算。给定模型的牵引器和密度图生成器被定义为f=Ψ（x，θ）和d=Φ（f，θ）。J^i=Mm=1 I（i，m）（三）其中θ1和θ2是参数。损失函数是记为L（y，y），其中y=Φ（Ψ（x，θ1），θ2）。然后，基础模型的第i个样本（xi，yi）上的损失被描述为li=L（Φ（fi，θ2），yi）。然后我们微调基地模型以获得特定且有效的权重集合（表示为样本（xi，yi）和类似样本的θ i）。模型Φ（f，θ j）的第j个样本（xj ，yj ）上的损失可计算为lj=L（Φ（fj，θ j），yi）。预期如果样本i类似于样本j，则具有第i个样本将在第j个样本上实现性能改进。越相似，改善的幅度就越大。因此，这种改进可以看作是它们之间的相似性。为了使相似性对称，我们通过以下方式定义第i个样本和第j个样本之间的共同微调相似性. 0，li≤li或li≤li;LL如果Ji更接近于，则第i个样本的不稳定性更大1.选择不稳定性大于阈值η的样本以形成表示为η的不稳定集合。我们只计算所有样本在Q.为了简单起见，在下面的部分中，s（i，j）表示Q中第i个样本和第j个样本之间的相似性.3.2. 聚类方法为了减少实时微调的时间开销，我们设计了一种聚类方法，将不稳定的样本分成几个类，每个类用于获得一组权重。我们设计的聚类算法根据两个原则。首先，每个聚类内的所有样本的共同微调相似性应该是正的。其次，聚类的数量应该尽可能小，以减少权重存储器所需的空间。受DBSCAN [7]的启发，我们设计了一个启发式聚类算法，s（i，j）=0的情况。5.li+ljΣ我-1，否则。j（1）其细节在算法1中描述。J I聚类结果表示为S，S，· · ·，S，对于两个样本，所提出的共同微调相似性重新反映了两个样本之间的相互改善如果这个-两者中的任何一个的性能在微调另一个的基础模型，他们将是积极的，和更大的比例相互改进，相似性越大。然而，计算所有样本的共微调相似性是相当耗时的直观上，硬样本很重要，但我们发现存在一些不稳定的样本，在这些样本上基础模型的损失很大。其中Si表示簇，K表示簇的数目，所提出的算法得到的聚类。对于所有不在的样本，我们考虑它们表示为S0的一个簇。然后我们使用每个集群微调基本模型的密度图回归量，以及获得K+1个权重集合，表示为θ（k，k=1，···，K。3.3. 权重反演方法为了检索测试样本的最优权重，我们将S，···，S中的每个聚类视为一个类，并训练一个ΣM在训练过程中不稳定尽管一些3219我1，否则。我他们不是硬样品，微调对这些不稳定的样本在数据集中的损失会显著降低在这些样本上。所以，我们计算共同微调相似度在不稳定的样品而不是硬样品中。此外，我们认为，由于在训练期间稳定样本的损失变化很小对它们进行微调，对参数影响不大。Eters 因此，共同微调之间的相似性这些样本可以直接被认为是0。评估样本在训练过程中的不稳定性过程，我们采用[6]和[7]的顺序和反转测试。仅考虑损失函数的下降趋势我们在等式（2）中定义用于下降趋势的指标I（i，t在第m个时期中的第i个样本上，描述为：.0，L（y^m，yi）>L（y^m−1，yi）+ε;I（ i，m）=（二）3220···多类分类器然而，属于一个聚类可以与部件具有正的协同微调相似性其他集群中的样本。因此，除了简单地使用硬标签，我们引入一个软标签，其计算如下：聚类中样本之间的平均相似性我们采用ResNet-18 [10]作为我们类的骨干sifier。输入由两部分组成：原始图像以及特征提取器的对应输出基本模型原始图像对齐到相同的大小由浅CNN-Pool-CNN的特征提取器结构采用交叉熵损失法对神经网络多类分类器对于测试样本x，预测我们的分类器的结果表示为μ=（μ1，，μK），其中μi是x属于聚类Si的概率。如果每个元素都是小的，那么数据的概率是-对每个类的期望都很小，我们认为它来自于簇S0。我们定义一个阈值，最后的预测3221其中超参数ε用于调节结果的容限由等式（4）给出，其中N是簇的数量3222←联系我们QQQ≤←←关于我们←联系我们×Σ|GTMSE=，|第二章（六）|2(6)我算法一：提出的聚类方法输入：相似度矩阵s（i，j），输出：K个聚类Si i= 1，，K将V初始化为零向量;将不稳定样本复制到U;k0;为你在你做等人在我们的方法中，我们主要使用ResNet-18，这是足够有效的。为了对齐FPN的输出，我们添加了反卷积层作为上采样器。与现有技术的方法相比，FDC的密度图回归器具有较少的参数，但仍然足够有效。在训练过程中，从原始图像中裁剪出大小为224×224、448×448、896× 448的块。T（ u）←Σv∈Q s（u.idx，v.idx）; /* 计算Q896，并调整为224×224。四个特征图是由FPN产生，尺寸从7×7到56×56。那么这些它与 */中所有其他样品的端U中的样本按T降序排序;为你在你做如果V（u）==1，则继续;end ifV（u）1;k k+1;Sku;将不稳定样本复制到V中;根据s（u.idx，v.idx）对V进行降序排序;对于V中的V做如果s（u.idx，v.idx）0或V（v）==1，则继续;其他如果v类似于Sk中的所有样本，则SkSkv;V（v）1;end if结束if结束for端.0，max{µ}≤1;通过多个去卷积层对特征图进行上采样步长为2，以生成具有相同大小56 × 56的特征图。然后，这些特征图通过膨胀为3的两个卷积层级联和融合，以生成输出密度图。4. 实验我们在四个公共开放视图密集人群数据集上评估了我们的算法，即STA，STB，[32]，UCF-QNRF [11]，NWPU。人群[23]。为了证明所提出的多专家策略的有效性，我们还将所提出的框架应用于CSRNet [4]和MCNN[32]，并获得多专家版本的MCNN（称为M-MCNN）和多专家版本的CSRNet（称为M-CSRNet）。我们提出的具有 ResNet-18 的 FDC 简称为 FDC-18 ，多专家FDC-18称为MFDC-18。随着这些实验，我们还测试了跨数据集的性能。我们的模型的实现是由四个GTX 2080Ti GPU。对于FDC-18的训练，我们将批处理大小设置为128，内部迭代设置为500，并将Adam用作固定学习率为10−5的优化器。为了对每个集群进行微调，我们将内部批量大小设置为16，最大内部迭代次数设置为50，学习率设置为10- 6de。按平均绝对误差计算。如果簇d（ x）=Nargmaxj {µ}，否则为。（四）样本的数量小于100，则将进行扩增以使样本数量达到100。随机然后，对于测试样品X的每一次收获，将被加载到密度图生成器以用于预测细化的密度图。3.4. 建议的基础模型密度图生成器将在协同微调计算和聚类的过程中被微调数次。除了需要大的参数存储-水平翻转、随机模糊、随机对比度和亮度是在我们的实验中应用的增强。4.1. 评估指标平均绝对误差（MAE）和均方误差（MSE）是评估人群计数算法性能的两个主要指标，它们被定义为：N年龄空间，如果训练集很小，则具有大密度图生成器的模型容易过拟合。为了缓解这些问题，我们设计了一个简单的基础模型，称为FDC，它由标准的特征金字塔网络组成(FPN)[13]作为基本特征提取器和作为密度图生成器的扩张MAE=1 CNi=1”。1ΣNN i=1-Ci|（五）FDC中的FPN可以灵活采用不同的网络作为骨干，如ResNet-18、ResNet-34、ResNet-50、我3223其中，N是测试数据集中的图像数量，Ci表示预测计数，其可以通过下式计算：3224密度图数量：3G数量：2数量：44数量：41我GTQQMNi、j表1.与STA和STB上其他最先进的人群计数方法进行比较。在预测的密度图的像素上积分，以及Cgt是地面真理。表2.我们提出的方法与UCF-QNRF上的先前最先进方法相比的性能。(a)（b）（c）在一些具有细粒度场景标签的数据集上，我们还测试了场景度量，其定义如下：图像M N平均MAE =1Σ1Σ|Ci=1ij=1- - C键|（七）其中M是场景的数量，并且Nj表示第j个场景中的样本的4.2. 在密集人群数据集ShanghaiTech数据集[32]包括STA和STB两部分我们使用了数据集的官方划分来扩展数据集，并应用了[3]（包括水平翻转、模糊、随机裁剪和重新调整大小、光学失真以及随机对比度和亮度），并使用训练数据集生成了6000个裁剪。为了获得最佳性能，对于STA，阈值η被设置为0.36，并且1000个不稳定作物被选择为集合并被分成97个集群。对于STB，η为0.42并且选择1500个不稳定作物。性能示于表1中。在我们的多专家策略的帮助下，M-MCNN和M-CSRNet都实现了相当大的改进。虽然密度图回归器很简单，但FDC-18的性能与一些较大型号（例如，CAN [14]）。由于多专家的支持，MFDC-18在STA上将 FDC-18的MAE提高了15.3%，在STB上提高了39.4%据我们所知，这两个人的MAE都是最低的。UCF-QNRF[11]是一个大型计数数据集。采用与STA和STB实验相同的增强方法，从训练图像中裁剪出24020个样本阈值η被设置为0.41，并且4000个不稳定作物被选择为所设置的并且被分成357个集群。性能如表2所示，MFDC-18获得了最佳性能。与次佳方法（SS-DCNet（cls）[26]）相比，MFDC-18将MAE提高了7%。此外，与相应的基础模型相比，GT计数：2.2数量：26计数：1.2图3.从顶部到第三行，它们是FDC-18预测的原始图像、地面实况和密度图。图像(a)和（b）具有相似的密度图，而图像（b）和（c）根据它们的共微调相似性是相似的。在底部行中，第一图像是图像（a）的预测密度图，其中图像（b）上具有微调模型。第二个和第三个分别是图像（a）和（c）上的微调模型对图像（b）的预测结果。最后一个是图像（c）与图像（b）上的微调模型的预测结果。M-MCNN 和 M-CSRNet 分别使 MAE 降低 15.5% 和15.3%，而MFDC-18使MAE和MSE分别降低18.1%和22.8%。MFDC-18的改进是最显著的。我们认为原因是MCNN [32]的回归量太简单，无法很好地拟合每个聚类，而CSRNet的回归量太复杂，导致过拟合，FDC回归量的大小数量：28数量：28数量：0i、j方法MAE（A）MSE（A）MAE（B）MAE（B）MCNN [32]110.6171.126.441.3IG-CNN[16]72.5118.213.621.1CSRNet[4]68.2115.010.616.0SFCN-101[24]64.8107.57.613.0加拿大[14]62.3100.07.812.2[22]第二十二话59.795.77.411.8SDCNet[27]58.395.06.710.7M-MCNN94.1127.524.136.4M-CSRNet60.198.77.211.5FDC-1865.4109.211.419.1MFDC-1855.491.36.910.3方法MaeMSEMCNN[32]277426[17]第十七话228445加拿大[14]107183CSRNet[4]98.2157.2SDCNet[27]97.7167.6[22]第二十二话85.6148.3SS-DCNet（cls）[26]81.9143.8M-MCNN234.1381.8M-CSRNet83.1144.6FDC-1893.0157.3MFDC-1876.2121.53225数量：4G6数量：523数量：450数量：12624产品编号：G77G数量：12418QQ表3.在NWPU-Crowd测试集上比较了所提出的方法和以前的最新方法的性能划分标准亮度水平密度水平方法【0，0.25】[0.25，0.5][0.5，0.75]0（0，100）(100，500](500，5000](5000，）[22]第二十二话203.6488.0761.1951467.6331.19228.702075.78FDC-18206.13119.7897.181.3720.459.57295.532756.7MFDC-18138.5275.2459.575.688.5533.3215.971797.7表4.不同亮度和密度水平的NWPU-Crowd官方子集的比较数量：4G6数量：450数量：523数量：1713数量：1828数量：1302数量：12624数量：12418产品编号：G77G图4. FDC和MFDC方法在NWPU-Crowd数据集上的性能。从左到右，它们是地面实况、FDC预测的密度图、MFDC适用于多专家决策。NWPU-Crowd[23]是具有5109张高分辨率图像的大规模人群计数除了头部标记，边界框，亮度标签和密度标签的图像也被注释。在实验中，阈值η设定为0.64，并且选择10000个不稳定作物作为集合，分成592个簇，并且在NWPU-Crowd测试集合上的性能示于表13 .第三章。MFDC-18在四个评价指标中大大优于所有比较方法。为了更好地说明所提出的共同微调相似性，图3显示了一些定性结果。所提出的协同微调相似度更有效用于描述样本之间的关系在图4中，我们示出了FDC和MFDC方法在来自NWPU-Crowd数据集的具有不同场景、亮度和人群分布的三个典型图像上的性能。MFDC显著改善了FDC的预测结果。在表4中，将FDC-18和MFDC-18的性能与先前现有技术的DM计数在不同人群水平和亮度水平下进行比较。结果表明，MFDC-18提高了所有亮度级的MAE，特别是当涉及到低亮度级的图像时。此外，我们观察到MFDC-18不仅可以在没有拥挤的情况下识别样本多专家模型的引入大大提高了模型在各种情况下的适应性.4.3. 消融研究在本节中，我们进行了几个实验，研究不同的样本选择方法的效果，所提出的方法的可移植性和训练时间。样品选择方法。有两种选择子集的方法。第一种方法是选择基础模型的损失高的硬样本。另一种是选择具有较高不稳定性的样品。我们使用NWPU-Count数据集训练的FDC比较了这两种方法。结果见图5。当选择少量样本时，两种方法的性能相似。然而，当选择更多样本时，第二种方法的性能更好。原因是当选择过多的样品时，其硬度没有预期的高。而通过不稳定性选择可以得到更有效的样本。方法吴美O MSEO NAE平均MAE[S]平均MAE[L]MCNN[32]232.5714.61.0631171.9220.9CSRNet [4]121.3387.80.604522.7112.0SCAR[8]110.0495.30.288718.3102.3加拿大[14]106.3386.50.295612.2102.1[第24话]105.7424.10.254712.7106.8S-DCNet[27]90.2370.50.285567.882.9[22]第二十二话88.4388.60.169498.088.0FDC-18119.39380.60.34642.7105MFDC-1874.7267.90.184412.267.63226OO表5.分析所提出的方法的可移植性目标意味着使用目标数据来训练模型，而源意味着使用在NWPU-Crowd数据集上训练的权重而没有任何额外训练。微调意味着使用在NWPU-Crowd数据集上预先训练的权重，然后在目标数据集上进行微调。图5.两种样品选择方法的比较图6.（a）、（b）、（c）的orinate是MAE、ClassificationAccu-racy、Label Consistency，并且它们的abssisa是聚类的数目集群数量的影响。为了验证得到的聚类数是否为最优，我们在STA上通过合并最小的聚类或用 KNN如图6（a）所示，当减少或增加集群的数量时，性能降级。这证明了我们的聚类方法自适应决定的聚类数是最好的。一致性和分类准确性。对于一个训练样本，如果它的最佳专家是通过在它所属的聚类上微调基础模型的密度图回归量而获得的专家，则我们认为这个样本是标签一致的。我们引入标签一致性作为标签一致的训练样本的比率分类精度是指路由器选择最佳专家的精度我们进行消融研究，分析标签一致性和分类准确性的三种不同的策略。结果示于图6（b）和图6（c）中。我们可以看到，所提出的方法产生的子集更一致，更容易分类，导致较低的MAE随着专家数量的增加。可转让性。我们还进行了从NWPU-Crowd数据集到STA、UCF-QNRF、JHU- Crowd++的转移实验[20，21]。MFDC-18和FDC-18在NWPU-Crowd数据上进行训练，然后在其他数据集（称为目标数据集）上进行测试，结果示于表5中。可以看出，在NWPU上训练的MFDC-18可以在目标数据集上实现比在所有训练的FDC-18上可能的策略，即在NWPU上训练、在目标数据集上训练与在目标数据集上训练的MFDC相比，在NWPU-Crowd上训练的MFDC的性能下降幅度较小，说明该多专家方法可以赋予网络更强的泛化能力。训练时间复杂性在训练多专家网络时至关重要。当θ训练周期为常数时，单个模型的训练时间为（n）对于n个样本，并且对于MFDC，是的（n2）。更准确地说，是总的训练时间FDC的值为αnθ，其中α表示平均训练时间一个样品。对于MFDC，训练时间可表示为f（n）=αnθ+10αρn+αρ2n2+fc（n），其中ρ表示不稳定样本在所有样本中所占的比例在我们的实验中，ρ的范围从0.15到0.2，并且权重分类器fc（n）的训练时间比αnθ短。5. 结论本文提出了一种新的多专家训练方法的人群计数任务的基础上的共同微调相似性，估计样本之间的最佳专家的相似性。在此基础上，生成具有代表性的训练数据簇，以获得用于密度图生成的多组专家。在推理过程中，通过选择特定的专家，用相似的训练样本进行微调，对具有不同特征的测试样本进行不同的处理此外，该方法可以与几种先前的最先进的单一方法一起工作。为了更好地证明所提出的多专家策略的有效性，我们提出了一个简单的FDC网络。在多个人群数据集上的实验表明，该方法显著提高了基本模型的性能，尤其是FDC，在所有人群数据集上都能达到最佳的性能鸣谢本工作得到了意大利-中国合作项目TALENT的部分支持，资助号为2018 YFE 0118400;国家自然科学基金61620106009、61772494、61931008、61836002、61976069;中国科学院青年创新促进会;基础研究中央大学的资金。方法MFDC目标MFDC源FDC靶FDC源FDC微调数据集MaeMSEMaeMSEMaeMSEMaeMSEMaeMSEST A55.491.356.994.765.4109.293.5153.163.194.7UCF-QNRF76.2121.581.0145.993.0157.3255.9432.290.4133.2JHU-Crowd58.1221.972.3241.277.8263.1167.6391.278.6271.53227引用[1] CrowdBenchmark All.人群基准。1[2] Chan Aotoni ， B ， Liang Zhang-Sheng John ， andVasconcelos Nuno.隐私保护人群监测：无需人员模型或跟踪即可计算人数。在2008年IEEE计算机视觉和模式识别会议上，第1-7页1[3] 亚历山大·布斯拉耶夫弗拉基米尔·I Iglovikov、EugeneKhved-chenya 、 Alex Parinov 、 Mikhail Druzhinin 和Alexandr A.加里宁白蛋白：快速灵活的图像增强。Information，11（2）：125，Feb 2020. 6[4] 陈馨雅，宾彦瑞，桑农，高常新。用于人群统计的缩放金字塔网络。在IEEE Winter Conference on Applicationsof Computer Vi-sion，WACV 2019，第1941-1950页的论文集中。电气和电子工程师协会，2019年3月。二五六七[5] 程中伟、秦雷、黄清明、严水城、齐天。利用多线索分层模型识别人类群体行为。神经计算，136：124-135，2014。1[6] 作者：Alfred Cowles，Herbert E.琼斯股票市场行为中的一些后验概率。《计量经济学》，1937年。4[7] MartinEster， Hans-PeterKrie gel ， J ？ r gSander， XiaoweiXu.一种基于密度的含噪声大型空间数据库1996年第二届知识发现与数据挖掘国际会议论文集。4[8] Junyu Gao ， Wei Lin ， Bin Zhao ， Dong Wang ，Chenyu Gao，and Jun Wen. C3 framework：一个用于人群计数的开源 pytorch 代码。 arXiv预印本 arXiv ：1907.02724，2019。7[9] Junyu Gao，Qi Wang，and Yuan Yuan.疤痕：空间-/用于人群计数的通道式注意力回归网络。神经计算，363：1-8，2019。2[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofIEEEConferenceonComputerVisionandPatternRecognition（CVPR），第770-778页，2016中。4[11] Haroon Idrees 、 Muhmmad Tayyab 、 Kishan Athrey 、Dong Zhang 、 Somaya Al-Maadeed 、 Nasir Rajpoot 和Mubarak Shah。2018年密集人群中计数、密度图估计和定位的成分损失。一、二、五、六[12] 熊谷少平、堀田和宏、栗田多纪夫。计数cnn的混合：用于人群计数的专用于特定外观的cnn的自适应集成。2017. 第1、3条[13] 林宗义、多尔·拉尔·皮奥特、格希克·罗斯、何开明、哈尔·伊哈兰·巴拉特和贝隆吉·塞尔日.用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集（CVPR）中，第936-944页，2017年。5[14] Weizhe Liu，Mathieu Salzmann，and Pascal Fua.情境感知的人群计数。在IEEE计算机协会计算机视觉和模式识别会议论文集，2019- 2019年6月。二六七[15] Dani e lO noro-Rubio和RobertoJ. 我是洛佩斯·萨斯特通过深度学习实现无视角对象计数。在Bas- tian Leibe、JiriMatas、Nicu Sebe和Max Welling编辑的《计算机视觉施普林格国际出版社. 1[16] Deepak Sam，Neeraj Sajjan，R.巴布和穆昆丹·斯里尼-瓦桑。分裂和成长：随着cnn不断增长，捕捉人群图像的巨大多样性。第3618-3626页，2018年6月。一、二、三、六[17] Deepak Babu Sam、Shiv Surya和R.文卡特什先生用于人群计数的开关卷积神经网络在 Proceedings IEEEConference on Computer Vision and Pattern Recognition，2017年1月-2017年1月。一、二、三、六[18] Vishwanath Sindagi和Vishal Patel。用于人群计数的多级底-顶和顶-底特征融合。IEEE International Conferenceon Computer Vision，2019。2[19] 维什瓦纳特A. Sindagi和Vishal M.帕特尔以cnn为基础之单一影像人群计数与密度估计之最新进展。PatternRecognition Letters，107：3- 16，2018。面向视频监控的生物识别技术。1[20] Vishwanath A Sindagi ， Rajeev Yasarla ， and Vishal MPatel.推动无约束人群计数的前沿：新数据集和基准方法。在IEEE计算机视觉国际会议论文集，第1221- 1231页，2019年。8[21] Vishwanath A Sindagi ， Rajeev Yasarla ， and Vishal MPa- tel. Jhu-crowd++：大规模人群计数数据集和基准方法。技术报告，2020年。8[22] Boyu Wang，Huidong Liu，Dimitris Samaras，and MinhHoai. 人群计数的分布匹配在神经信息处理系统的进展进展，2020年。一、六、七[23] 王琦、高俊宇、魏林、李雪龙。Nwpu-人群：用于人群计数和本地化的大规模基准。IEEE Transactions onPattern Analysis and Machine Intelligence，2020。二、五、七[24] Qi Wang，Junyu Gao，Wei Lin，and Yuan Yuan.从合成数据中学习用于野外人群计数。在IEEE计算机视觉和模式识别会议（CVPR）的程序中，第8198-8207页，2019年。六、七[25] 姜小恒、张丽、徐明亮、张天柱、吕培、周兵、杨欣、庞燕薇。人群计数的注意力缩放。在IEEE/CVF计算机视觉和模式识别会议论文集（CVPR）中，第4705-4714页，2020年。二、三[

下载后可阅读完整内容，剩余1页未读，立即下载