图像中部分注释的人群计数方法

190 浏览量更新于2023-10-13 收藏 1.45MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15570图像中带有部分注释的人群计数徐燕宇* 1、钟子明* 2、连东泽 *2、李静 *2、李正新 *2、徐新星 *高胜华†2，3，41IHPC，A*STAR，新加坡。{徐燕玉，xuxinx}@ ihpc.a-star.edu.sg2中国上海科技大学。{zhongzm，liandz，lijing1，lizhx，gaoshh}@ shanghaitech.edu.cn3上海智能视觉与成像工程研究中心。4上海节能与定制AI IC工程研究中心，中国。摘要为了充分利用从具有不同视角的不同场景捕获的数据，同时降低注释成本，本文研究了一种新颖的人群计数设置，即。仅使用每个图像中的部分注释作为训练数据。受注释和未注释区域以及它们之间的重复模式的启发，我们设计了一个包含三个组件的网络来处理这些未注释区域：i）在未注释区域特征化（URC）模块中，我们采用存储库来仅存储注释特征，这可以帮助从这些注释区域提取的视觉特征流向这些未注释区域; ii）对于每个图像，特征分布一致性（FDC）将注释的头部区域和未注释的头部区域的特征分布正则化为一致的; iii）交叉回归一致性正则化（CCR）模块被设计成以自监督方式学习未注释区域的视觉特征。在ShanghaiTech、UCF-CC-50、UCF-QNRF、NWPU-Crowd和JHU-CROWD++等数据集上的实验结果验证了该模型的有效性。每个图像中只有10%的注释区域，我们提出的模型在所有数据集上的半监督或主动学习设置下都比最近的方法和基线具有更好的性能。代码为https://github.com/svip-lab/CrwodCountingPAL。1. 介绍人群计数任务旨在估计静态图像或动态视频中的总人数。由于CNN的成功，最近的数据驱动模型在人群计数方面取得了令人满意的结果[10]，但它们*：同等贡献。†：通讯作者。图1. 不同监督下的人群计数。仍然需要大量注释数据。例如，注释器需要用点标记所有头部的位置，以克服各种具有挑战性的场景，诸如图1中的照明、相机视图、遮挡和各种头部第1（a）段。这样的标记策略是极其劳动密集型的任务，例如：，标记NWPU-Crowd数据集的总注释成本为3，000人工小时 [42]。自然，一个关键问题出现了。所设计的模型是否仍然可以产生有竞争力的性能，但使用尽可能少的注释？其中一个潜在的方向是在半监督学习（SSL）[21，34]或主动学习[47]策略下使用完整注释中的部分数据集，如图1（b）所示虽然这些策略可以减少带注释的训练图像的数量，但我们仍然需要对图像进行完全注释。这可能会导致有限的挑战性场景，有限的视角的相机以及有限的照明条件，这可能会降低模型的泛化能力，在测试阶段。我们注意到，在一个图像中，人的头部姿势通常是相同或相似的，并且照明条件和视角是一致的。在一个图像中注释所有人的头部可能是多余的。因此，为了充分利用从不同视角的不同场景捕获的数据，同时降低注释成本，我们提出了一种新颖的人群计数设置，称为Partial15571图2.重复模式的插图。红色边界框内的区域是部分注释区域。∆密度图显示红点与其余区域之间的密度δ，∆要素图表示红点与其余区域之间的要素距离δ红点和其余区域。（f）中的蓝色和橙色曲线表示从CSRNet（完全注释的数据）和我们的模型（部分注释的数据）中提取的特征的平均最小距离分布。红点是（a）中使用的示例它们表明，相似或重复的模式（密度或特征）不仅发生在注释区域（红色边界框内）或未注释区域（没有红色边界框）中，而且几乎所有图像中的注释区域和未注释区域之间注释学习。与完全注释一些训练图像的尝试不同，我们提出的部分注释学习仅部分（例如10%）注释每个训练图像中特别地，每个图像由图1中第1段（c）分段。我们在整个训练图像上进行部分注释学习的主要挑战之一我们观察到，图像纹理通常是一致或相同的，例如人的头部姿势、照明条件和观看角度，就像图1所示。第2段（a）分段。进一步，为了研究特征空间上是否存在这种重复模式，我们计算了图中密度图空间中红点与其余区域之间的距离2（c）和图中的特征空间第2段（d）分段。在全局水平上，在两个图中的深蓝区域（最拥挤的区域）上存在类似甚至相同的分布。2（c）和（d）段。此外，我们计算图1中的地面实况密度图空间中的标记区域中的每个位置与未标记区域中的位置之间的每个图像中的平均最小距离。2（e）和图中的特征空间。2（f）。蓝色和橙色曲线表示从CSRNet（完全注释的数据）和我们的模型（部分注释的数据）中提取的特征的平均最小距离分布。红点是图中使用的示例。第2段（a）分段。几乎平坦的蓝色曲线示出了重复特征模式不仅发生在未注释或注释区域中，而且发生在几乎所有图像中的未注释和注释区域之间因此，它表明一致性假设对于几乎所有图像都是可靠的回顾一下如何提取为了充分利用未标注区域中的有用特征，我们在局部和全局级别上设计了以下模块首先，我们采用记忆库的思想，存储在整个数据集中的存储容量可控的标注区域提取的重复特征模式。然后，未注释区域的特征可以在图像表示的存储器中找到它们最接近的对应物因此，记忆库可以帮助注释区域的信息流向未注释区域。如果仅在局部水平上考虑每个特征向量，则对于从注释区域和未注释区域提取的特征可能不相似或不此外，由于背景由不受限制的模式和对象组成，例如建筑物或天空，因此我们仅考虑人因此，我们设计了一个特征分布一致性正则化器来正则化从未标注的头部区域中提取的特征，这些特征特别是，我们首先向前的网络没有向后梯度，得到的预测密度图作为一个注意力地图，它可以大致区分头部区域和背景区域。受先前工作[20]的启发，我们建议利用交叉回归一致性正则化来学习自监督风格中注释和未注释区域的视觉表示。该模型包括两个分支来估计由不同sigma的高斯带宽产生的密度图。它使用同一图像内的两个不同估计密度图之间的人群数量本文的主要贡献如下：（1）降低了标注成本，15572∈×⊂竞争的性能，我们提出了一种新的人群计数设置，命名为部分注释学习，只注释每个训练图像的补丁。 (2)灵感来自重复的模式，我们设计了一个未注释的区域表征在局部水平和特征分布一致性正则化在全球范围内利用未注释的区域的视觉表示。(3)基于人群数量的一致性，我们还设计了一个交叉回归一致性正则化学习的视觉表征在一个自我监督的风格。(4)实验结果证明了该模型的有效性在每个图像中只有10%的注释区域，我们提出的模型在所有数据集上的半监督或主动学习设置下比最近的方法和基线实现了更好的性能。2. 相关工作2.1. 人群计数早期的人群计数方法可以大致分为基于检测的方法[40，44，12]和基于回归的方法[3，4，16]。最近，鉴于卷积神经网络（CNN）在图像分类[37]、对象检测任务[6]中的成功，基于CNN的方法[8，2，1，17，43，18，14，22，28，41，45]已经广泛应用于人群计数。提出了MCNN [46]，之后，提出了Switch-CNN[30]和CP-CNN [33]来选择自适应尺度并结合上下文信息来改进人群计数。CSRNet [13]引入了扩张卷积以扩大感受野。为了同时解决计数、密度图回归和定位问题，在[9]中设计了一个合成损失。Ma等人。 [23]提出了一种贝叶斯损失，以最大化点监督的头部的预测期望Hu等人。 [7]使用神经架构搜索（NAS）策略搜索自动多尺度网络以提取头部的有效特征。为了获得更准确的头部定位，还提出了一些基于检测的人群计数方法[14，22，28]和相应的网络，并实现了与基于回归的方法相当的性能。尽管Wang等人提出了一种具有GTA-V游戏的合成计数数据集和一种域自适应方法来减轻真实场景中的标记负担，但与真实数据集的训练相比，性能仍然存在差距2.2. 有限标签对于头部密集的图像，人工标记是一项非常耗费人力的工作，因此人们开始寻求一些标记有限的人群计数方法。一个几乎无监督的学习策略[29]是亲提出了密集人群计数，其中几乎99.9%的模型参数是在没有任何标记数据的情况下训练的。然而，该模型的性能并不令人满意。为了获得性能和数据注释之间的平衡，Liu等人。 [20]利用未标记的数据来使用自监督方法对人群计数的人头数进行Lei等人 [11]设计了一个网络，可以有效地从计数级注释中训练模型，这被认为是一种弱监督学习。在[21]中，Liu等人提出了一种自训练算法，将这些相互关系结合起来，为半监督学习生成可靠的伪标签。ResNet 50-GP [34]是一种基于高斯过程的迭代学习机制，使用未标记数据的伪地面真值估计。Zhao等人。 [47]提出了一个主动学习框架，以逐渐标记头部。由于每个图像都包括注释和未注释区域，因此这些方法[34，21，47]不能直接应用，需要进行一些修改，例如添加注释区域掩码或裁剪这些注释区域和训练。由于标注区域可能在许多小区域中，因此裁剪的图像可能处于低分辨率，这可能导致基于多尺度的方法失败更重要的是，半监督学习方法是在有限的具有挑战性的场景中训练的，这可能限制了它们的泛化能力。不同于作品，我们介绍了一种新的部分一个符号学习设置人群计数，其中只需要注释一个小补丁，在每个图像。在[15]中，Lin等人提出了一种类似的块子图像注释（50%像素）作为全图像注释的替代。域自适应（DA）主要尝试对齐来自不同数据分布的图像间的特征分布间隙。我们的方法还将图像内块之间的特征分布间隙与相同的数据分布对齐，其中间隙主要是由于缺少标签。可以进一步研究DA [48][38]中的一些技术，例如对抗对齐，伪标签再训练，均值教师，以加强特征分布的一致性。3. 方法3.1. 问题公式化在这项工作中，我们提出了一种新的部分注释学习设置人群计数。我们只对每个图像的一个在训练过程中使用所有注释和未注释的区域。给定图像IR3×H ×W，总计数数为N，地面真实人。在部分标注设置下，我们只标注I中的一个斑块I，约占H-W区域的10%，Np（NpN）是标注的人数。然后，图像I的密度图GT由部分注释生成，如公式化的：15573∈2ǁ − ǁ×K82i=1的阳离子我σ我而不是从未注释区域提取的特征。因此，未注释的特征可以与它们在存储器中的最接近的对应物组合以用于更好的图像表示。特别地，类似于VQ-VAE [39，27]，存在一个存储器组E以编码和存储整个数据集中的注释的视觉特征存储体E定义为潜在向量字典E：= e1，e2，...，其中eiR1×128表示字典中存储的特征，n是存储器的总大小。本部分分为两个阶段：更新阶段和检索阶段。要注意的是，在更新阶段，我们仅使用从这些注释区域提取的学习特征，图1B中的红色块。3，更新记忆回E，其感受野位于注释区域或由注释区域组成。特别地，存储体将特征F0作为输入。对于这些注释区域中的F0的特征向量fj，我们通过L2距离度量找到存储体中最相似的潜在向量eifj = e i，i = arg min f j− e k2。（一）图3. 我们模型的一个例子。GT（p）=ΣNpδ（p−p）*G，其中p是中心lo-一旦找到最近的向量e i，我们就用e i替换f j。在[39]之后，我们使用矢量量化，一种字典学习算法来学习嵌入空间。VQ目标使用I2误差sg [f]e2来将嵌入向量ei朝向编码器输出fi移动，其用于更新存储器E。sg是stopgradient算子。我们使用f−sg[e]2确保编码器提交到第i个人。在我们的设置中，由于每个图像，I包括较少注释和较多未注释的区域，主要挑战之一是如何从它们两者中提取尽可能多的有用的视觉表示。受注释或未注释区域中的重复模式以及它们之间的重复模式的启发，我们提出了一个具有三个组件的模型在下文中，我们将详细描述每个模块。3.2. 特征提取在CSRNet [13]之后，我们使用VGG16 [32]来提取特征，并在CSRNet中使用相同的回归量来估计密度图。卷积层被用作编码器，并且两个完全连接的层被移除。如果输入块的大小是Hff，则从Conv5层提取的特征图F0经由3个最大池化层被减少13.3. 未注释区域表征由特征空间中的注释区域和未注释区域之间的重复模式激发，如图所示。2（d），我们采用基于VQ的存储器来存储来自整个图像的重复特征模式，以控制存储大小。它只存储可视注释的fea-2嵌入，并且其输出不增长。中的向量E可以从训练集中学习。存储器E中的潜在向量仅根据这些注释特征来更新。在检索阶段，从两个注释区域提取的特征，即，图中顶部的红色斑块。3和未注释的区域，即，图中顶部的蓝色斑块。3需要检索存储器组中最相似的潜在向量ei，类似于等式2。1.最后，我们将检索到的特征和原始特征连接起来作为存储库的最终输出，作为F1捐赠。一方面，未注释的区域可以借用这些注释特征基于注释区域和未注释区域之间的重复模式经由存储器被存储另一方面，它很容易扩展训练模型到一个新的领域的帮助下，从整个数据集提取的学习注释的功能要注意的是，从注释区域提取的特征的过程看起来像K均值。它们都可以看作是特征的量化。但是K-means方法需要预先定义聚类的数量，而我们的更新阶段不需要它。为了学习位于未注释区域的每个特征向量，简单的解决方案可能是直接从特征空间中15574N2N2θ1θ22T2在in整个图像或同一图像。然而，当从整个图像中检索时，搜索空间非常大，导致巨大的时间和内存开销。如果从相同的图像中检索，则搜索空间有限并且缺乏足够的重复模式。因此，我们采用存储器的思想来存储从整个图像中提取的重复特征模式在受控的存储大小。3.4. 特征分布一致性类似的特征分布不仅出现在注释或未注释的区域中，而且出现在注释或未注释的区域之间，如图2所示。第2段（d）分段。由于背景由各种物体组成，如建筑物、天空等，我们只考虑特征分布。人的头部区域。这些头部区域具有给定所提取的特征图F1，我们将其馈送到两个分支中，即 Net1和Net2来预测由不同sigma生成的密度图。它们都使用相同的前端网络来提取视觉特征。这里，我们将来自Net1和Net2的由θ1和θ2参数化的预测密度图表示为Mθ1和Mθ2，关于iv。由于Net1和Net2都使用相同的图像和特征F1作为输入，因此它们的预测密度图的人群数量因此，类似于以前工作中的自我监督风格[20] [35]，我们也使用它们的粗略预测之间的一致性作为一种弱监督信号。损失术语捐赠为LCCR=1ΣΣ（M i）−Σ（M i）2，（3）i=1有限的图案，如前头发或后头发。受此启发，在全局水平上，我们还设计了一个特征正则化器，以正则化从未注释的头部区域提取的特征分布，类似于从注释的头部区域提取的特征分布，以及注释的头部区域或未注释的头部区域内的特征分布。在我们的实现中，我们首先向前无向后梯度的网络，以获得预测的密度图，并将其归一化为注意力图A，它可以大致区分注释和未注释区域中的头部区域和背景区域特别地，该模块接收特征F0并用作注意力图A。注意力图A用于过滤掉未注释区域Iout和注释区域Iin中的背景特征。F_in和F_out表示从带注释的块I_in和未注释的区域I_out提取的特征。然后，我们使用Fin和Fout的均值和协方差来减少它们的差异，如下所示：LFDC=L均值+L协方差=µF输入−µF输出2其中L_CCR示出了由两个网络（Netl和Net2）预测的密度图的一致性损失。需要注意的是，由于两个分支使用由不同sigma生成的两个密度图，因此逐像素的人群密度是不同的，而总人群数量应该是相同且一致的。因此，我们设计的CCR强制执行的整体人群数量的一致性。3.6.实现细节在我们的实现中，最终损失函数由5个损失项组成，包括两个原始损失项Lθ1和Lθ2，一个交叉损失项LCCR，以及均值和协方差损失项Lmean和Lcovar。两个原始损失项的系数等于1，而交叉损失项的系数为0。1.一、在FDC模块中，我们使用网络预测作为注意力地图。考虑到开始阶段的预测没有得到很好的训练，均值和协方差损失项的系数从0增加到0。01训练中模拟的注释区域是随机选择的，并且是矩形形状。注释区域出现在+（Fin·A−µF）（Fin·A−µF）T-（Fout·A−µFout）（Fout·A−µFout）2，（二）不同的位置在不同的图像。在实验部分，我们还评估了模型在不同注释形状（如圆形和三角形）下的性能。其中，µFin和µFout分别是从注释区域和未注释由于注释区域中的特征的数量与未注释区域中的特征的数量不同，因此我们不使用特征的两个分布之间的KL散度3.5.交叉回归一致性正则化为了学习未标注区域的有意义的视觉特征，我们以自监督的方式设计了交叉回归一致性正则化（CCR）模块。它使用两个不同的估计密度图之间的人群数量的一致性。4. 实验4.1. 实验环境我们使用PyTorch [25]平台来实现我们的模型，参数设置如下：最小批量大小（16）、学习率（1.0e-6）、动量（ 0.95 ）、权重衰减（ 0.0005 ）和时期数（1000）。我们使用默认初始化来初始化模型。数据集。我们使用以下公共数据集来评估我们提出的模型：ShanghaiTech数据集[46] A部分和B部分，UCF-CC-50数据集[9]，UCF-QNRF数据集[9]，NWPU-人群数据集[42]和JHU-CROWD ++数据集[35][36]。15575MAEMSE1不同方法：MAE=1ΣN|zi−zi|，MSE=1NN（zi−zi）2，其中N是测试图像的数量方法类型比率A部分BMCNN [46]FSL百分百110.2173.226.441.3切换CNN [30]FSL百分百90.4135.021.633.4CP-CNN [33]FSL百分百73.4106.420.130.1IC-CNN [26]FSL百分百68.5116.210.716.0PACNN [31]FSL百分百62.4102.07.611.8贝叶斯+[23]FSL百分百62.8101.87.712.7IRAST [21]SSL百分之十86.9148.914.722.9GP（ResNet-50）[34]SSL百分之五10217215.727.9匈牙利（VGG16）[34]SSL百分之五112163NANAAL-AC [47]AC百分之十87.9139.512.720.4标签-10%图像SSL百分之十98.80165.2815.8826.62标签-10%区域PAL百分之十83.87138.0816.3526.11我们PAL百分之十72.79111.6112.0318.70CSRNet [13]FSL百分百68.2115.010.616.0表1.上海科技大学A、B部分数据集的比较。指标. 遵循现有人群计数工作中的常用指标，我们使用平均绝对误差（MAE）和均方误差（MSE）来评估图4.在上海科技大学A、B部分、UCF-QNRF和NWPU-Crowd数据集上的预测密度图的说明。.ΣN1zi是第i张图像中的实际人数，zi是第i张图像中的估计人数。4.2. 性能比较我们使用以下最先进的方法和我们在五个公共数据集上设计的基线，使用指标MAE和MSE来评估我们提出的模型。基线。由于这是第一次研究人群计数中的部分符号设置，我们将我们的模型与以下方法进行比较，分为三组。全监督学习（FSL）。第一组与全监督学习方法有关。我们列出了一些最新的人群计数方法，使用所有样本作为训练，如MCNN [46]，Switching-CNN [30]，CSRNet [13]等。半监督学习或主动学习（SSL/AL）。我们将我们的模型与以下相关的半监督或主动学习人群计数方法进行比较。IRAST [21]是一种自训练算法，可以将这些相互关系结合起来，为半监督学习生成可靠的伪标签。ResNet50-GP[34]是一种基于高斯过程的迭代学习机制，使用未标记数据的伪地面实况估计。PSSW [47]是一个用于人群计数的主动学习此外，我们还设计了一个简单的基线，部分注释学习（PAL）。第三组是部分注释学习。我们设计了一个简单的基线作为下限，方法类型比MaeMSEMCNN [46]FSL百分百377.6501.9切换CNN [30]FSL百分百318.1439.2CP-CNN [33]FSL百分百295.8320.9IC-CNN [26]FSL百分百260.0365.5PACNN [31]FSL百分百241.7320.7贝叶斯+[23]FSL百分百229.3308.2AL-AC [47]AC百分之二十318.7421.615576表2. 在UCF CC 50数据集上的实验结果。Net [13]，使用掩码对损失函数进行处理。表中的“比率”列表示该方法使用多少注释区域百分比作为训练样本。FSL方法使用100%注释数据。SSL方法使用10%完全注释的图像作为训练样本。对于PAL方法，10%意味着每个图像具有10%的注释区域。上海理工大学A、B部分实验结果如表1所示我们可以看到，我们的模型实现了显着的性能提升，并且非常接近完全监督的CSRNet，其中在ShanghaiTechPart B数据集上的MAE指标上的差距小于2。UCF-CC-50 我们还在UCF-CC-50数据集上进行了实验。在表2中，我们提出的方法甚至比早期的全监督计数方法（如MCNN [46]和Switching CNN [30]）实现了更好的性能。此外，我们的模型只使用10%的注释，优于使用20%注释的AL-AC。15577方法类型比MaeMSEMCNN [46]FSL百分百277426切换CNN [30]FSL百分百228445IRAST [21]SSL百分之十135.6233.4GP（ResNet-50）[34]SSL百分之五160275匈牙利（VGG16）[34]SSL百分之五175291标签-10%图像PAL百分之十188.33304.79标签-10%区域PAL百分之十169.04299.43我们PAL百分之十128.13218.05CSRNet [13]FSL百分百119.2211.4表3. UCF-QNRF数据集上的实验结果。方法类型比MaeMSEMCNN [46]FSL百分百218.53700.61CANNet [19]FSL百分百93.58489.90SCAR [5]FSL百分百81.57397.92SFCN+[42]FSL百分百95.46608.32标签-10%图像SSL百分之十221.941172.74标签-10%区域PAL百分之十203.291097.55我们PAL百分之十178.701080.43CSRNet [13]FSL百分百104.89433.48表4. 在NWPU-Crowd数据集上的实验结果。方法类型比MaeMSEMCNN [46]FSL百分百188.9483.4SFCN [43]FSL百分百77.5297.6简体中文[CN]FSL百分百75.0299.9DRCN [42]FSL百分百71.0278.6标签-10%图像SSL百分之十155.78463.61标签-10%区域PAL百分之十148.11409.23我们PAL百分之十129.65400.47CSRNet [13]FSL百分百85.9309.2表5.在JHU-CROWD++数据集上的实验结果UCF-QNRF。然后，我们将我们提出的模型与UCF-QNRF数据集上的其他相关方法进行比较。表3显示了比较结果。我们提出的方法比其他SSL方法甚至早期的完全监督方法（如MCNN [46]和Switching CNN[30]）都具有更高的性能。此外，与监督的CSRNet相比，MAE和MSE的差距小于10。NWPU-Crowd和JHU-CROWD++。我们还对大规模和广泛分布的人群计数 NWPU-Crowd 和 JHU-CROWD++数据集进行了比较。在表4和表5中，我们在部分符号设置下提出的模型可以实现比早期完全监督方法MCNN更好的性能但是由于大规模和各种场景，我们的模型与最近的全监督方法（如CSRNet [13]）之间仍然存在很大的差距，每个测试图像超过70人。所有表上的实验结果表明，我们提出的方法下的部分注释学习集，丁总是优于最近的国家的最先进的半15578表6.上海科技大学A、B部分数据集的消融研究监督学习或主动学习方法。除此之外，从图。4，我们可以看到我们预测的密度图看起来像网格，因为我们使用检索的VQ特征向量来预测最终的密度图。4.3. 消融研究基本网络架构的评估为了评估基本网络架构的效果，我们设计了以下基线：Net1和Net2使用具有10%注释区域（σ=15和σ=20）的图像来训练CSRNet[13]。Net12是多分支结构，它共享编码器，并有两个或三个解码器来预测密度图。从表6上的第一个块开始，多分支基线比两个基线实现更好的性能未注释区域表征（URC）的效果。为了评估我们提出的URC组件的效果，我们还设计了一个基线名为&“Net 1 2-URC”，它增加了UCR组件的基础上“Net 12”&。与表6上第二块中的Net-12的结果相比， Net-12-URC实现了更少的错误，这表明我们提出的URC组件可以表征未注释区域的特征。交叉回归一致性正则化（CCR）的效果。为了研究交叉回归一致性正则化（CCR）的效果，我们训练了一个具有CCR组件的多分支网络，称为其结果显示在表6的第二个方框我们可以看到，它的性能也优于基线Net-1 2，这表明我们提出的交叉回归一致性正则化可以为最终的密度图预测学习更多有用的视觉特征。特征分布一致性（FDC）的效果为了表明我们提出的特征分布一致性（FDC）的效果，我们用CCR组件训练一个多分支网络，添加FDC，命名为结果显示在表6的第二个方框这表明，FDC可以保持缓解注释和未注释区域之间的不一致性。部分一部分BNet1183.87138.0816.3526.11Net2179.96122.7815.4625.48网络1 2277.37119.8213.5121.17网络1 2277.37119.8213.5121.17Net1 2-URC275.27116.0612.8419.74Net1 2-CCR275.33119.6112.6020.15Net1 2-FDC275.80120.2612.7219.79标签-三角形283.06123.9814.0822.23标签-圆圈280.62120.0912.8820.49标签-矩形272.79111.6112.0318.7015579#所有点图5. 隐向量指标与人群计数的对应关系学习VQ潜在向量的努力。为了研究记忆库中学习的隐向量，我们展示了隐向量的索引与人群计数数量之间的对应关系，如图所示。5. 在完成训练过程之后，我们将整个训练图像馈送到训练模型中，并使用等式（2）来生成图1中的VQ向量的索引图。5（b）。然后，我们生成的VQ密度图的基础上的VQ向量的索引和计数之间的对应关系。1从图在图5（c）和（d）中，我们可以看到VQ密度图和地面实况密度图之间存在高度相关性和相似分布。此外，我们可以看到，即使从不同的图像中，相似的人群区域也共享相同的VQ向量索引。不同形状标注的效果。我们还使用不同的注释形状，如圆形和三角形来训练模型。表6的第三个方框显示了实验比较。在上海理工大学B部分，圆形/三角形和矩形之间的差距在两个指标中均然而，差距要大得多，在上海科技A部分的每个测试图像中有10多个人。原因可能是神经网络中使用的感受野形状，其更类似于矩形形状。对于圆形/三角形形状，一些边界元素可能在几次卷积之后被忽略，这可能导致性能差距。不同损失条款的影响。我们对损耗项进行了消融研究，结果见表7。我们结合了高度相关的术语：Lθ1&、L θ1和L均为&Lvar.4.4.图像中的更多或更少注释在我们的实现中，我们使用所有具有10%注释区域的图像来训练模型。沿着这个方向，对于每个图像，我们进一步注释更少的区域，即5%和更多的区域，即5%。50%，80%和90%的上海科技A和B部分，并使用它们来训练模型。它们的点比率（PR）是（ #标记区域中的点）。实验结果如表7所示。在5%训练数据上训练的模型比在10%训练数据上训练的模型表现更差但每次测试的差距大约是7个人1实施细则见补充材料。Lθ1Lθ1LCCRL均值L变量MaeMSEMaeMSE10.010.0173.85116.5612.7820.2310.10.0172.79111.6112.0318.70110.01136.08179.0114.8323.1910.10.173.43113.1813.1020.5010.10.0172.79111.6112.0318.7010.10.00173.42115.1512.8720.15方法区域比率PR（A/B部分）MaeMSEMaeMSE我们百分之五6.4%/4.0%79.42123.6016.5025.28我们百分之十12.2%/6.6%72.79111.6112.0318.70我们百分之五十57.4%/33.3%70.45105.0310.4916.28我们百分之八十86.4%/70.0%67.69103.719.5514.51我们百分之九十92.7%/81.2%67.44103.759.1013.79CSRNet百分百100%/100%68.20115.0010.6016.00表7. 结果与损失的重量和更多的注释。在度量MAE上生成图像。90%标签的模型可以达到类似的性能，充分监督，由于冗余和重复的模式。因此，在5%数据上训练的模型的有希望的结果表明，在图像中具有部分注释的人群计数中存在进一步改进的空间。5. 结论为了降低标注成本并产生有竞争力的性能，我们提出了一种新的部分标注学习设置，只标注每个图像的一个补丁。与半监督学习相比，我们的设置可以使用相同甚至更少的注释成本带来更多各种具有挑战性的场景。受重复模式的启发，我们还提出了一个新的模型，有三个模块。在每个图像中有10%的注释区域，我们提出的模型在所有数据集上的半监督或主动学习设置下总是优于最近的方法。此外，我们还使用仅5%的注释来训练模型，结果表明在此设置下还有进一步改进的空间。致谢本工作得到了国家重点研发项目（2018AAA0100704），国家自然科学基金资助项目编号61932020，上海市科学技术委员会（批准号：20ZR1436000），以及15580引用[1] Deepak Babu Sam、Neeraj N Sajjan、R Venkatesh Babu和Mukundhan Srinivasan。分裂和成长：随着cnn不断增长，捕捉人群图像的巨大多样性。在IEEE计算机视觉和模式识别会议论文集，第3618-3626页[2] Xinkun Cao，Zhipeng Wang，Yanyun Zhao，and Fei Su.规模聚合网络，用于准确和高效的人群计数。在欧洲计算机视觉会议（ECCV），2018年9月。[3] Antoni B Chan ， Zhang-Sheng John Liang ， and NunoVas- concelos.隐私保护人群监测：没有人模型或跟踪的情况下计算人数。在CVPR中，第1-7页。IEEE，2008年。[4] 陈克，陈昌来，龚少刚，和托尼·席昂.用于局部人群计数的特征挖掘在BMVC，第1卷，第3页，2012中。[5] Junyu Gao，Qi Wang，and Yuan Yuan.疤痕：空间-/用于人群计数的通道式注意力回归网络。神经计算，363：1[6] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页[7] 胡玉涛，姜小龙，刘旭辉，张宝昌，韩军功，曹贤斌，和大卫·多尔曼.Nas-count：使用神经结构搜索的密度计数。arXiv预印本arXiv：2003.00217，2020。[8] Haroon Idrees 、 Muhmmad Tayyab 、 Kishan Athrey 、Dong Zhang 、 Somaya Al-Maadeed 、 Nasir Rajpoot 和Mubarak Shah。在密集人群中用于计数、密度图估计和定位的在欧洲计算机视觉会议（ECCV）上，2018年9月。[9] Haroon Idrees 、 Muhmmad Tayyab 、 Kishan Athrey 、Dong Zhang 、 Somaya Al-Maadeed 、 Nasir Rajpoot 和Mubarak Shah。密集人群中计数、密度图估计和定位的成分损失在欧洲计算机视觉会议（ECCV）的会议中，第532[10] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。在NIPS，第1097-1105页[11] Yinjie Lei，Yan Liu，Pingping Zhang，and Lingqiao Liu.采用计数级弱监督进行人群计数。arXiv预印本arXiv：2003.00164，2020。[12] Min Li ， Zhaoxiang Zhang ， Kaiqi Huang ， and TieniuTan.基于mid的前景分割和头肩检测估计拥挤场景中的人数。见ICPR，第1-4页。IEEE，2008年。[13] 李玉红，张晓凡，陈德明。Csrnet：用于理解高度拥挤场景的扩展卷积神经网络。CVPR，第1091-1100页[14] Dongze Lian ， Jing Li ， Jia Zheng， Weixin Luo ， andShenghua Gao.用于rgb-d人群计数和定位的密度图回归引导检测网络。在IEEE计算机视觉和模式识别会议论文集，第1821-1830页[15] Hubert Lin ， Paul Upchurch ， and Kavita Bala. 区块注释：更好的图像注释与子图像分解。在IEEE/CVF计算机视觉国际会议集，第5290-5300页[16] 刘波和努诺·瓦斯康塞洛斯人群计数的贝叶斯模型适应。在ICCV，第4175-4183页[17] Lingbo Liu ， Zhilin Qiu ， Guanbin Li ， Shufan Liu ，Wanli Ouyang，and Liang Lin.具有深结构尺度集成网络的群体计数。在IEEE计算机视觉国际会议论文集，第1774- 1783页[18] Weizhe Liu，Mathieu Salzmann，and Pascal Fua.情境感知的人群计数。在IEEE计算机视觉和模式识别会议论文集，第5099-5108页[19] Weizhe Liu，Mathieu Salzmann，and Pascal Fua.情境感知的人群计数。第5099-5108页[20] Xiaei Liu，Joost van de Weijer，and Andrew D Bagdanov.通过学习排名，利用未标记的数据进行人群计数在IEEE计算机视觉和模式识别会议论文集，第7661-7669页[21] Yan Liu，Lingqiao Liu，Peng Wang，Pingping Zhang，and Yinjie Lei.通过代理任务自我训练的半监督人群计数arXiv预印本arXiv：2007.03207，2020。[22] Yuting Liu，Miaojing Shi，Qijun Zhao，Xiaofang Wang.点入，框出：除了在人群中计算人数。在IEEE计算机视觉和模式识别会议论文集，第6469-6478页[23] Zhiheng Ma，Xing Wei，Xiaopeng Hong，and YihongGong. 点监督下人群计数估计的贝叶斯损失。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，2019年10月。[24] Zhiheng Ma，Xing Wei，Xiaopeng Hong，and YihongGong. 点监督下人群计数估计的贝叶斯损失。在IEEE/CVF计算机视觉国际会议论文集，第6142-615

下载后可阅读完整内容，剩余1页未读，立即下载