自由计数焦点-图像对象计数中的点注释监督方法

177 浏览量更新于2023-10-16 收藏 19.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

142000自由焦点计数0Zenglin Shi，Pascal Mettes和Cees G.M.Snoek阿姆斯特丹大学0摘要0本文旨在对图像中的任意对象进行计数。主要的计数方法从每个对象的点注释开始，然后构建密度图。然后，通过深度卷积网络，将输入图像转换为密度图的训练目标。我们认为点注释的监督作用不仅仅是构建密度图。我们介绍了一种免费利用点注释的方法。首先，我们提出了监督分割焦点，将点转换为二进制图。将二进制图与网络分支和相应的损失函数结合起来，以便集中关注感兴趣的区域。其次，我们提出了监督全局密度焦点，其中点注释与图像像素的比率在另一个分支中用于规范整体密度估计。为了辅助密度估计和来自分割的焦点，我们还引入了改进的点注释的核大小估计器。在六个数据集上的实验证明，我们的所有贡献都减少了计数误差，无论基础网络如何，都能以单个网络实现最先进的准确性。最后，我们是第一个在WIDERFACE上进行计数的人，这使我们能够展示我们的方法在处理不同的对象尺度和拥挤水平方面的优势。代码可在https://github.com/shizenglin/Counting-with-Focus-for-Free找到。01. 引言0本文致力于对图像中的对象进行计数，无论是人群中的人[10, 35,40]，交通拥堵中的汽车[7]还是培养皿中的细胞[22]。这个具有挑战性的问题的主要方法是通过对密度图中的像素求和来进行计数，密度图是使用卷积神经网络估计的，例如[3,11, 14,22]。虽然这一系列工作已经证明是有效的，但点注释提供的丰富监督仅用于训练中构建密度图。本文的前提是点注释可以被重新利用，以进一步监督深度网络中的计数优化，而无需额外付出。本文的主要贡献总结如下：0来自分割的焦点非均匀密度图来自全局密度的焦点0图像点注释0图1：自由计数的焦点。通过点监督，我们学习从分割中获取焦点，从全局密度中获取焦点，并改进密度图。综合起来，无论基础网络如何，都能得到更好的计数估计。0图1.除了创建密度图外，我们还展示了点可以以两种其他方式作为免费监督信号。第一种是来自分割的焦点。从点注释中，我们构建二进制分割图，并将其与一个独立的网络分支和相应的分割损失一起使用，以便只关注感兴趣的区域。第二种是来自全局密度的焦点。通过图像中点注释的相对数量，我们使用另一个分支和损失函数来关注全局图像密度。这两种焦点形式与密度估计集成在一个单一网络中，通过多级损失进行端到端训练。在标准的注意力机制[9, 12, 19,33]中，权重图是间接从任务特定的目标中学习的，例如图像分类或对象计数。我们也依赖任务特定的监督，但我们明确地为分割和密度加权图添加了新的监督网络分支。我们从提供的点注释中获得必要的监督，并将其称为免费焦点。0总体而言，本文提出了三个贡献：（i）我们提出了监督分割焦点，这是一个网络分支，引导计数网络集中关注感兴趣的区域。监督来自已提供的点注释。（ii）我们提出了监督全局密度焦点，这是一个分支，使计数网络学习匹配的全局密度。�42010密度计数。深度卷积网络广泛应用于通过从图像中估计密度图来进行计数。早期的工作，例如[24, 30, 37,40]，提倡使用多列卷积神经网络，以鼓励不同列对不同尺度的对象做出响应。尽管这些网络取得了成功，但由于结构冗余[14]和不同列之间的优化冲突[1,27]，这些类型的网络很难训练。由于其架构简单性和训练效率，单列深度网络引起了越来越多的关注，例如[3, 14, 20, 21,28]。例如，Cao等人[3]提出了一种编码器-解码器网络，使用一个尺度聚合模块来预测高分辨率和高质量的密度图。Li等人[14]将VGG网络与扩张卷积层相结合，以聚合多尺度的上下文信息。Liu等人[21]依靠单个网络，在学习排序框架中利用丰富的可用无标签人群图像。Shi等人[28]使用深度负相关学习策略训练单个VGG网络，以减少过拟合的风险。我们也使用单列网络，但我们不仅仅关注密度图估计，而是以多种方式重新利用点注释来改进计数。最近，多任务网络已经显示出减少计数误差的效果[1, 10, 19, 25-27,29]。例如，Sam等人[26]训练一个分类器，从多个独立的回归器中选择最佳的回归器来处理特定的输入块。Ranjan等人[25]依靠一个网络预测高分辨率密度图和一个辅助网络预测低分辨率密度图。在本文中，我们也从多任务的角度研究计数，但从不同的角度。我们认为点注释的作用不仅仅是构建密度图，我们提出了具有来自分割和全局密度的监督关注的网络分支，以免费重新利用点注释。我们的免费关注不论基础网络如何，都有助于计数，并且与其他最先进的解决方案相辅相成。02. 相关工作0密度计数。通过从图像中估计密度图，深度卷积网络被广泛应用于计数。早期的工作，例如[24, 30, 37,40]，提倡使用多列卷积神经网络，以鼓励不同列对不同尺度的对象做出响应。尽管这些网络取得了成功，但由于结构冗余[14]和不同列之间的优化冲突[1,27]，这些类型的网络很难训练。由于其架构简单性和训练效率，单列深度网络引起了越来越多的关注，例如[3, 14,20, 21,28]。例如，Cao等人[3]提出了一种编码器-解码器网络，使用一个尺度聚合模块来预测高分辨率和高质量的密度图。Li等人[14]将VGG网络与扩张卷积层相结合，以聚合多尺度的上下文信息。Liu等人[21]依靠单个网络，在学习排序框架中利用丰富的可用无标签人群图像。Shi等人[28]使用深度负相关学习策略训练单个VGG网络，以减少过拟合的风险。我们也使用单列网络，但我们不仅仅关注密度图估计，而是以多种方式重新利用点注释来改进计数。最近，多任务网络已经显示出减少计数误差的效果[1, 10, 19, 25-27,29]。例如，Sam等人[26]训练一个分类器，从多个独立的回归器中选择最佳的回归器来处理特定的输入块。Ranjan等人[25]依靠一个网络预测高分辨率密度图和一个辅助网络预测低分辨率密度图。在本文中，我们也从多任务的角度研究计数，但从不同的角度。我们认为点注释的作用不仅仅是构建密度图，我们提出了具有来自分割和全局密度的监督关注的网络分支，以免费重新利用点注释。我们的免费关注不论基础网络如何，都有助于计数，并且与其他最先进的解决方案相辅相成。0使用注意力进行计数。注意机制[34]在各种计算机视觉挑战[4, 6, 15, 39,41]中取得了进展。软注意力是最常用的，因为它是可微分的，因此可以直接嵌入到端到端可训练的网络中。将软注意力纳入的常见方法是添加一个或多个隐藏层的网络分支，学习一个注意力映射，该映射为图像的不同区域分配不同的权重。空间注意力和通道注意力是两种广泛研究的软注意力类型[4,33]。空间注意力学习特征图的空间坐标上的加权映射，而通道注意力则学习特征图的通道上的加权映射。一些研究已经探索了基于空间注意力的密度计数[8, 12,19]。例如，Liu等人[19]通过生成独立的基于检测和回归的密度图来估计人群的密度。他们通过一个注意力映射融合这两个密度图，该映射与密度图回归损失一起隐式学习。虽然我们共享了使用关注点辅助基于密度的计数的概念，但我们在这项工作中表明，这种注意力不需要从头开始学习，而是可以从现有的点注释中推导出来。更具体地说，我们构建了一个分割图和一个全局密度，这两个信号是从地面真实注释的点中派生出来的，用于更好地计数，而且是免费的。03. 免费焦点0我们将计数任务定义为密度图估计问题，参见[13, 28,40]。给定N个训练图像{(Xi,Pi)}Ni=1，其中Xi�X表示输入图像，Pi表示一组点注释，每个对象对应一个注释，我们使用点注释通过与高斯核进行卷积来创建地面真值密度图，0Di(p) =0P∈PiN(p|µ=P,σ2P)，(1)0其中p表示像素位置，P表示单个点注释，N(p|µ=P,σ2P)是具有均值P和各向同性协方差σ2P的归一化高斯核。图像Xi的全局对象计数Ti可以通过对密度图Di中的所有像素值求和得到，即Ti=0p∈XiDi(p)。通过深度卷积网络学习从输入图像到密度图的转换。设Ψ(X)：R3×W×H→RW×H表示给定任意深度网络Ψ的映射，其中W和H分别表示图像的宽度和高度。在本文中，我们研究了两种重新利用点注释来帮助监督从输入图像到密度图的网络Ψ的方法。我们的方法概述如图2所示，其中多个分支与基础网络结合在一起。V(cxhxw).Vd(cxhxw)Vs(cxhxw)42020基础网络0C(1x1,2)FC(CxC)0FC(CxC)0双线性0SigmoidSoftmaxSoftmax0C(1x1,1)0全局密度0密度图0注释图0分割图0图2：我们方法的概述。顶部分支：从分割中学习焦点的焦点图Vs（第3.1节）。底部分支：从全局密度中学习焦点的焦点图Vd（第3.2节）。这两个监督信号都是从相同的点注释中获得的，我们引入了一个改进的核估计器（第3.3节）。通过逐元素乘法将具有免费焦点的两个分支与基础网络的输出结合，并通过多级损失进行端到端优化（第3.4节）。03.1. 分割焦点0重新利用点注释的第一种方法是提供空间焦点。直观上，处于任何点注释特定范围内的像素应具有高焦点，而不需要的区域的像素应该被忽略。在仅依赖于密度图的标准设置中，每个像素对网络损失的贡献相等。鉴于只有一小部分像素靠近点注释，损失将被大多数不相关的像素主导。为了克服这个限制，我们重新使用点注释创建一个二进制分割图，并利用该图通过一个独立的损失函数提供焦点监督。分割图。二进制分割图是根据点注释及其估计的方差而获得的。训练图像i中每个像素p的二进制值确定为：0Si(p) =01，如果�P∈Pi，||p−P||2≤σ2P，否则为0。（2）0方程2表明，如果至少有一个点P在像素p的方差范围σP内，像素p的值将为1，如核估计器所指定。分割焦点。设V∈RC×W×H表示基础网络的输出。我们在网络顶部添加一个新的分支，表示为Fs，具有网络参数θs。此外，设θn表示基础网络的参数。我们提出了一种基于像素加权的焦点损失[17]，以从分割中获得输入图像X的监督焦点：0Ls(X;θn,θs) = �0l∈{0,1}−αlSl0(1 − Fs(X;θn,θs))γslog(Fs(X;θn,θs)), (3)0|S|.焦点参数γs设置为2，这是根据[17]的建议。在图2的顶部可视化分割分支。网络细节。在基础网络的输出之后，我们使用具有参数θs的1×1卷积层，后面是softmax函数δ，生成每个像素的概率图Pi = δ(θsV) ∈R2×W×H。从这个概率图中，第一维度上的第二个值表示每个像素属于分割前景的概率。我们将这个切片复制C次，构建一个单独的输出张量Vs ∈RC×W×H，这将在密度估计分支中使用。03.2.从全局密度聚焦0除了空间焦点外，点注释还可以通过检查它们的上下文来重新利用。众所周知，低密度人群表现出粗糙的纹理模式，而高密度人群表现出非常细腻的纹理模式。在这里，我们利用这个知识来进行计数任务。给定一个网络输出V ∈RW×H×C，我们使用双线性池化层[5,18]来捕捉全局上下文中的特征统计，这对于纹理和细粒度识别特别适用[5,18]。在这项工作中，我们将全局上下文模式与训练图像中的点分布进行匹配，以获得来自全局密度的监督焦点。全局密度。对于训练图像i中的补丁j，其全局密度定义为：0Gj,i = |Pj,0L, (4)0其中|Pj,i|表示补丁j中的点注释数量，L表示全局密度步长，42030计算数据集的L为：0L = �maxi=1,..,N0�|0Zi∙Zj,i�/M�+1, (5)0其中Zi和Zj,i分别表示图像i和补丁j中的像素数。直观地说，步长计算图像补丁上的最大全局密度，M表示总共使用的全局密度级别数。全局密度聚焦。对于基础网络的输出V ∈RC×W×H，我们添加了第二个新分支Fc，具有网络参数θc。我们提出以下全局密度损失函数：0Lc(X;θn,θc) = �0l∈{0,1,..,M}−Gl0(1 − Fc(X;θn,θc))γclog(Fc(X;θn,θc)), (6)0其中γc也设置为2。上述损失函数旨在使估计的密度图的全局密度与地面实况密度图的全局密度相匹配。相应的全局密度分支在图2的底部可视化。网络细节。对于网络输出V，我们首先进行外积运算B = VVT ∈RC×C，然后沿第二个维度进行平均池化，以聚合图像上的双线性特征，即ˆB = 10C是一个C×1的矩阵，其中i=1到B。双线性向量ˆB进行ℓ2归一化，然后进行有符号平方根归一化，这在双线性池化中已经被证明是有效的[18]。然后我们使用具有参数θc的全连接层，后面是一个softmax函数δc，用于对全局密度进行个体预测C = δc(θcˆB) ∈RM×1。此外，另一个具有参数θd的全连接层0后面是sigmoid函数δd，也添加在双线性池化层之上，以生成全局密度焦点输出D = δd(θdˆB) ∈RC×1。我们注意到，这导致了对通道维度的焦点，与从分割中的空间维度的焦点相补充。与从分割中的焦点类似，我们将输出向量复制到Vd ∈RC×W×H中，也将在密度估计分支中使用。03.3. 非均匀核估计0密度估计本身和分割的焦点都需要对每个点注释进行方差估计，其中方差对应于物体的大小。确定每个点P的方差σP是困难的，因为透视失真引起的物体尺寸变化。一种常见的解决方案是将对象的大小（即方差）估计为K个最近邻注释的函数，例如Zhang等人的几何自适应核[40]。然而，该核只在假设图像中的对象均匀分布时有效。0在计数实践中，点通常不是均匀分布的。因此，我们引入了一个简单的核，通过将图像分割成局部区域来估计点注释P的方差：0σP = 10|R(w,h)|0a ∈ R(w,h) β ¯d a, ¯d a= 10k = 1 d k,a (7)0其中w和h是决定点注释P中心局部区域R范围的超参数，在我们的实验中将它们的值设置为图像大小的八分之一。a表示位于R中的任意点注释。|R(w,h)|表示p的数量。¯dp表示注释点p与其k个最近邻之间的平均距离，β是用户定义的超参数。通过在局部估计点注释的方差，我们不再需要假设点在整个图像上均匀分布。03.4. 架构和优化0网络。为了最大化聚焦能力并使用最准确的核估计，我们希望网络的输出与输入图像具有相同的宽度和高度。最近，编码器-解码器网络已经从其他视觉识别任务[16,36]转移到了计数[3, 25, 27,38]。我们发现，为了使编码器-解码器架构更适合计数，需要解决透视失真下物体尺度的广泛变化。因此，在我们的编码器-解码器架构中，在从编码器到解码器的步骤之间添加了一个蒸馏模块。该模块的目的是通过蒸馏最关键的信息来聚合来自编码器的多层信息以进行计数。对于编码器，我们通过将特征图在第4级之后的通道从256/512更改为96来使原始的扩张残差网络[36]适用于我们的任务，以减少模型的参数，以避免过拟合，考虑到计数中训练示例的数量较少。在编码器之后，蒸馏模块通过使用跳跃连接和连接操作将来自编码器模块的第4、5、7和8级的特征融合在一起。然后，使用四个卷积层进一步处理融合的特征，以获得更紧凑的表示。我们不融合第6级的特征的原因是第6级包含具有大的膨胀率的卷积层，这容易导致网格伪影[31,36]。与其他融合具有不同核的多个网络以处理物体尺度变化的工作[24, 30,40]相比，所提出的网络聚合了具有不同感受野的不同层的特征，并且更加高效和易于训练。解码器模块使用3个内核大小为4×4、步长大小为2×2的反卷积层逐步恢复空间分辨率。Count error. We report the Mean Absolute Error (MAE)and Root Mean Square Error (RMSE) metrics given countestimates and ground truth counts [28, 37, 40]. Since theseglobal metrics ignore where objects have been counted,we also report results using the Grid Average Mean abso-lute Error (GAME) metric. [7]. GAME aggregates countestimates over local regions as:GAME(L)=1N ·42040为了避免由常规反卷积操作引起的棋盘伪影问题[23,31]，我们在每个反卷积层之后添加了两个卷积层。我们在补充材料中对编码器-蒸馏器-解码器网络进行了详细的消融分析。多级损失。最终的计数网络包含三个分支，Fr用于像素级密度估计，F s用于二进制分割，Fc用于全局密度预测。设(θ n, θ r, θ s, θ c, θd)为基础网络和分支的网络参数。对于密度估计，我们首先将基础网络的输出V与来自自由焦点的平铺输出V s和Vd相结合。我们通过逐元素乘法融合三个信息源，并将融合结果馈送到具有参数θ r ∈ R C × 1 × 1 ×1的1×1卷积层，得到输出密度图。对于密度估计，L2损失是常见的选择，但已知对异常值敏感，这影响了泛化能力[2]。我们更喜欢通过联合优化L2损失和L1损失来学习密度估计分支，以增加对异常值的鲁棒性。0Lr（X；θn，θr，θd）= 102∥F0∥Fr（X；θn，θr，θd）−Y∥1，（8）0其中Y表示实际密度图。经验上，我们还发现这种组合损失优于仅使用L1或L2损失。三个分支的损失函数求和得到最终的目标函数：0L（X；θn，θr0λsLs（X；θn，θs）+λcLc（X；θn，θc），（9）0其中（λr，λs，λc）表示不同损失函数的权重参数。在本工作中，这些参数设置为（1，10，1），因为分割分支的损失值通常比其他分支的损失值低一个数量级。04. 实验设置04.1. 数据集0ShanghaiTech[40]包含1198张图像，共有330,165人。该数据集分为两部分：PartA包含482张图像，人群密集（33至3139人），PartB包含716张图像，人群稀疏（9至578人）。每个部分都分为训练集和测试集，如[40]中所述。TRANCOS[7]包含来自不同道路的1244张图像，用于计数车辆，数量从9到105不等。我们仅使用给定的训练数据（403张图像）和验证数据（420张图像）进行训练，没有使用其他数据集，并在上面进行评估。0测试数据（421张图像）。Dublin Cell Counting (DCC)[22]是一个细胞显微镜数据集，包含177张图像，细胞计数范围从0到100。训练使用100张图像，剩余的77张图像组成测试集。UCF-QNRF[10]是一个最近的大规模人群数据集，包含1,535张图像，计数范围从49到12,865。训练使用1201张图像，剩余的334张图像组成测试集。WIDER FACE[35]是一个人脸检测基准。在本文中，我们将其重新用于计数作为补充的人群数据集。与ShanghaiTech[40]和UCF-QNRF [10]相比，WIDERFACE由于尺度、遮挡、姿态和背景杂乱的大变化更具挑战性。此外，它包含更多的图像，总共32,203张，分为40%的训练集、10%的验证集和50%的测试集。测试集的真实值不可用，因此我们报告验证集的结果。每个人脸都用边界框而不是点进行注释，这使我们能够评估我们的核估计器，并允许在不同的对象尺度和拥挤水平下进行消融实验。04.2. 实现细节0预处理。对于所有数据集，我们通过将所有值除以255来对输入的RGB图像进行归一化。在训练过程中，我们通过随机裁剪128×128的图像块来增强图像。在测试过程中不进行裁剪。网络。我们使用TensorFlow在一台配备单个GTX 1080TiGPU的机器上实现我们的方法。网络使用Adam进行训练，使用一个小批量大小为16。我们将β1设置为0.9，将β2设置为0.999，初始学习率设置为0.0001。训练在最多1000个epoch后终止。核计算。对于具有密集对象的数据集，即ShanghaiTech PartA、TRANCOS和UCF-QNRF，我们使用我们提出的核函数，其中β = 0.3，k = 5。对于ShanghaiTech PartB和DCC，我们将高斯核方差分别设置为σ = 5和σ =10，参考[14, 28]。对于WIDERFACE，我们通过利用框注释来获得高斯核方差。对于来自全局密度的焦点，我们对ShanghaiTech PartA和UCF-QNRF使用M =8个密度级别，对其他数据集使用4个密度级别。04.3. 评估指标0l =1 | ( y l n − ˜ y l n ) | ) , with N 为图像数量， y l n为区域 l 中的实际计数， ˜ y l n 为估计计数。4 L表示网格数量，非重叠覆盖整个图像的区域。当Next, we demonstrate the effect of our proposed focusfrom global density. For this experiment, we again com-pare to two baselines. Apart from the base network, wecompare to the channel attention of [4] and the squeeze-and-excitation block of [9]. For fair comparison, we replacethe mean pooling used in the channel attention of [4] withbilinear pooling as used in our method for the sake of bet-ter encoding global context cues. The counting results areshown in Table 2. Channel-attentions can reduce the error(from 74.8 to 73.4 and 72.6 MAE) in ShanghaiTech Part Acompared to using the base network only, since the attentionmaps are learned on top of a pooling layer which encodesglobal context cues. Our focus from global density reducesthe count error further to 71.7 MAE due to more speciﬁcfocus from free supervision.To demonstrate that our focus has a lower error on dif-ferent crowding levels, we perform a further ablation onWIDER FACE. We deﬁne the crowding levels of each im-42050表1：根据分割焦点的MAE在上海科技A部分和WIDERFACE上的影响。在两个数据集和多个物体尺度（小、中、大）上，我们的方法优于基础网络，即使添加了空间注意力。0上海科技A部分 WIDER FACE0整体小中大整体0基础网络 74.8 9.2 2.7 2.2 4.7 w/ 空间注意力[4] 84.5 8.7 2.6 3.1 4.80w/ 分割焦点 72.3 8.6 2.3 2.0 4.30当 L 设置为 0时，GAME等同于MAE。密度图质量。最后，我们报告峰值信噪比（PSNR）和图像结构相似性（SSIM）[32]来评估预测密度图的质量。我们只在上海科技A部分报告这些结果，因为它们在其他数据集上不常见。05. 结果05.1. 分割焦点0我们首先分析分割焦点对上海科技A部分和WIDERFACE的影响。我们与两个基准进行比较。第一个基准使用基础网络进行计数，其中损失仅针对密度图估计进行优化。除非另有说明，编码器-蒸馏器-解码器网络在所有实验中都被用作基础网络。第二个基准在这个基础网络上添加了空间注意力，如[4]中提出的。结果如表1所示。对于上海科技A部分，基础网络的MAE为74.8。添加空间注意力将计数误差增加到84.5MAE，因为它未能强调相关特征。相反，分割焦点可以明确引导网络关注任务相关区域，并将计数误差从74.8降低到72.3 MAE。对于WIDERFACE，框注释使我们能够根据物体尺度对准确性进行消融分析。我们将每个图像的尺度级别定义为I scale = F s F n，其中 F s 和 F n分别表示人脸尺寸和人脸数量。我们根据尺度级别将测试图像按升序排序。最后，将测试图像均匀分成三组：小、中、大。在表1中，我们提供了多个物体尺度上的结果。我们观察到，在所有物体尺度上，我们的方法都更受欢迎，将MAE从4.7（基础网络）和4.8（带有空间注意力）降低到4.3。消融分析还揭示了为什么空间注意力总体上不太有效；虽然在物体较小时可以获得改进，但在物体较大时，空间注意力表现更差。分割焦点从重复使用的点注释中避免了这些问题。0表2：根据全局密度焦点的MAE在上海科技A部分和WIDERFACE上的影响。我们的方法在两个数据集上都更受欢迎。WIDERFACE上的消融研究表明，当场景中物体稀疏时，我们的全局密度焦点最有效。0上海科技A部分 WIDER FACE0整体稀疏中等密集整体0基础网络 74.8 2.1 2.5 9.5 4.7 w/ 通道注意力[4] 73.4 1.6 2.3 7.8 3.9 w/挤压激活[9] 72.6 1.7 1.6 7.8 3.70w/ 全局密度焦点 71.7 0.9 1.6 8.0 3.505.2. 全局密度焦点0I s ，其中 F s ，I s 和 F n分别表示人脸尺寸、图像尺寸和人脸数量。然后，我们根据全局密度水平将测试图像按升序排序。最后，将测试图像均匀分成稀疏、中等和密集三组。如表2所示，我们的方法在场景稀疏时的误差最低。05.3. 自由组合焦点0在上述实验中，我们已经证明每个焦点对计数都很重要。在这个实验中，我们将它们结合起来。结果如表3所示。组合在上海科技A部分达到了67.9的MAE降低，并在WIDERFACE上达到了3.2的MAE降低。我们与其他组合注意力基线进行了比较，即空间通道注意力[4]和卷积块注意力模块[33]。虽然注意力的组合比单独使用基础网络获得了更好的结果，但我们的方法在数据集、目标尺度和拥挤程度上都更受欢迎。自由焦点对基础网络是不可知的。为了证明这种能力，我们将其应用于四个不同的Part AWIDER FACEPart AWIDER FACEPart AWIDER FACEGAK [40]67.94.22.642060表3: 组合焦点对上海科技部分A和WIDERFACE的MAE的影响。无论数据集、对象尺度和拥挤程度如何，我们的方法都优于基础网络和组合空间和通道注意力变体。0整体小中大稀疏中等密集整体0基础网络 74.8 9.2 2.7 2.2 2.1 2.5 9.5 4.7 w/ 空间和通道注意力[4] 71.6 8.3 2.0 2.3 1.8 2.6 8.2 4.2 w/ 卷积块注意力模块[33]73.5 8.4 2.0 1.1 1.2 1.8 8.5 3.80w/ 我们的组合焦点 67.9 7.7 1.3 0.6 0.9 1.4 7.3 3.20表4: 在上海科技部分A和WIDERFACE上的基础网络焦点。基础网络结果基于我们的重新实现。无论基础网络如何，我们从分割和全局密度的结合焦点降低了计数误差。0基础网络 w/ 我们的焦点基础网络 w/ 我们的焦点0张等人[40] 114.5 110.1 7.1 6.1 曹等人[3] 75.2 72.7 8.5 8.2李等人[14] 74.0 72.4 4.3 3.9 本文 74.8 67.9 4.7 3.20不同的基础网络。除了我们的基础网络，我们还考虑了张等人的多列网络[40]，李等人的深度单列网络[14]和曹等人的编码器-解码器网络[3]。我们重新实现了这些网络，并使用与我们的基础网络相同的实验设置。表4的结果显示，我们的自由焦点降低了上海科技部分A和WIDERFACE上所有这些网络的计数误差。05.4. 非均匀核心估计0接下来，我们研究了我们提出的核心对于生成更可靠的地面真实密度图的好处。对于这个实验，我们与张等人的几何自适应核心（GAK）[40]进行了比较。对于WIDERFACE，对象的空间范围由框注释提供，我们使用这个额外的信息来衡量我们的核心相对于基线的方差质量。计数和方差结果如表5所示。与常用的GAK相比，我们提出的核心在上海科技部分A和WIDERFACE上的计数误差较小。为了表明这种改进是由于对感兴趣的对象尺寸的更好估计，我们将不同方法得到的估计方差σ与通过利用WIDERFACE的框注释得到的地面真实方差进行比较。与GAK相比，我们的核心将σ的MAE从2.6降低到2.2。05.5. 与最先进方法的比较0全局计数比较。表6显示，我们提出的方法在MAE方面优于所有其他模型0表5: 我们的核心的好处在上海科技部分A和WIDERFACE上。使用我们的核心的网络比使用GAK[40]的网络具有更低的计数误差（见MAE（n）列）。为了表明这种改进是由于更好的对象尺寸估计，我们将我们的核心与WIDERFACE的地面真实值进行比较，见MAE（σ）列，这表明与GAK相比，我们的核心具有更低的尺寸误差。0核心从MAE（n）MAE（n）MAE（σ）0本文 65.2 3.6 2.20地面真实值 n.a. 3.2 n.a.0在所有六个数据集上。我们提出的方法在上海科技部分B上取得了最新的最佳结果，在上海科技部分A上取得了有竞争力的结果，以RMSE为指标。沈等人[27]在上海科技部分A上获得了最低的RMSE，但他们的方法在部分B上不具竞争力。此外，他们依赖于四个网络，总共480万个参数，而我们的方法只需要一个260万个参数的网络。对于由Marsden等人[22]提出的DCC数据集，我们在不进行任何后处理的情况下预测出更准确的全局计数，将误差率从8.4降低到3.2。在UCF-QNRF上，我们的MAE和RMSE比Idrees等人[10]要好得多。对于WIDERFACE，我们使用MAE和归一化变体（NMAE）进行评估。对于NMAE，我们通过地面真实人脸计数对每个测试图像的MAE进行归一化。再次，与现有方法相比，我们的方法在MAE和NMAE上都取得了最佳结果。局部计数比较。图3显示了各种方法在TRANCOS上以常用的GAME指标的结果。GAME值越高，计数方法的局部计数误差越大。对于所有的GAME设置，我们的方法都创造了最新的最佳结果。此外，与其他方法相比，随着GAME值的增加，与其他方法的差异也增加，这表明我们的方法在定位和计数重叠车辆方面比其他方法更准确。密度图质量。为了证明我们的方法MAERMSEPSNRSSIMMAERMSEMAEMAEMAERMSEMAENMAEL012305101520This paperIssam et al.[11]Li et al.[14]Rubio et al.[24](a)(b)(c)[1] Deepak Babu Sam, Neeraj N. Sajjan, R. Venkatesh Babu,and Mukundhan Srinivasan.Divide and grow: Capturinghuge diversity in crowd images with incrementally growingcnn. In CVPR, 2018. 242070表6：上海科技A部分、B部分、TRANCOS、DCC、UCF-QNRF和WIDERFACE的全局计数误差与最先进方法的比较。基于我们的重新实现的WIDERFACE结果。UCF-QNRF的Zhang等人的结果取自Idrees等人。我们的结果在几乎所有指标上都在这六个数据集上创造了新的最先进水平。0A部分 B部分 TRANCOS DCC UCF-QNRF WIDER FACE0Zhang等人[40] 110.2 173.2 21.4 0.52 26.4 41.3 - - 277.0 426.0 7.1 1.10 Marsden等人[22] 85.7 131.1 - - 17.7 28.6 9.7 8.4 - - - -Shen等人[27] 75.7 102.7 - - 17.2 27.4 - - - - - - Li等人[14] 68.2 115.0 23.8 0.76 10.6 16.0 3.6 - - - 4.3 0.53 Cao等人[3] 67.0 104.5 -- 8.4 13.6 - - - - 8.5 1.10 Idrees等人[10] - - - - - - - - 132.0 191.0 - -0本文 65.2 109.4 25.4 0.78 7.2 12.2 2.0 3.2 93.8 146.5 3.2 0.400GAME(L)0图3：TRANCOS车辆的局部计数误差与最先进方法的比较。注意，与GAME值的增长相比，与其他方法的差异增加，表明我们的方法能够更准确地定位和计数重叠严重的车辆。0还生成更高质量的密度图，我们提供了上海科技A部分的PSNR和SSIM指标的结果。与MAE和RMSE的结果一致，我们的方法在这个维度上也取得了更好的性能。与[14]等方法相比，[14]方法通过降低分辨率生成密度图，并通过双线性插值恢复分辨率，而我们的方法直接学习具有更高质量的完整分辨率密度图。成功和失败案例。最后，我们在图4中展示了一些成功和失败的结果。即使在相对稀疏的小对象或相对密集的大对象的挑战性场景中，我们的方法也能够实现准确计数（前三行）。我们的方法在处理个体对象难以区分或对象与背景融合的极度密集场景时失败（最后一行）。这些场景仍然是一个开放的挑战。06. 结论0本文介绍了两种重新利用基于密度计数的点注释的方法。分割引导使计数网络专注于感兴趣的区域，全局密度引导使计数网络规范化学习匹配全局密度。0图4：密度图质量。 (a) 样本图像，(b) 预测的密度图，(c)真实值。当对象单独可见时，我们可以准确计数。在难以区分对象的密集环境中，需要进一步改进。0密度。我们的自由焦点从局部和全局的角度帮助密度估计，相互补充。本文还介绍了一种非均匀核估计器。实验证明了我们的提议在对象尺度、拥挤程度和基础网络方面的优势，从而在五个基准数据集上实现了最先进的计数结果。完美计数的差距和我们的定性分析表明，在极度密集的场景中进行计数仍然是一个开放的问题。当计数能够处理这种极度密集的场景时，进一步的提升是可能的。0参考文献[2] VasileiosBelagiannis,ChristianRupprecht,GustavoCarneiro, and Nassir Navab. Robust optimization for deepregression. In ICCV, 2015. 5[3] Xinkun Cao, Zhipeng Wang, Yanyun Zhao, and Fei Su. Scaleaggregation network for accurate and efﬁcient crowd count-ing. In ECCV, 2018. 1, 2, 4, 7, 842080[4] Long Chen，Hanwang Zhang，Jun Xiao，LiqiangNie，Jian Shao，Wei Liu和Tat-Seng Chua. SCA-CNN:用于图像字幕的空间和通道注意力卷积网络. 在CVPR，2017年. 2,6, 70[5] Yan

下载后可阅读完整内容，剩余1页未读，立即下载