没有合适的资源?快使用搜索试试~ 我知道了~
重新思考卷积网络的空间不变性对目标计数的影响
196380重新思考卷积网络的空间不变性对于目标计数的影响0程志琪1,戴琦2,李宏3*,宋景宽4,吴晓3,Alexander G. Hauptmann101 卡内基梅隆大学 2 微软亚洲研究院 3 西南交通大学 4 中国电子科技大学0{ zhiqic,alex } @cs.cmu.edu, qid@microsoft.com0{ hl1997.work,jingkuan.song } @gmail.com, wuxiaohk@home.swjtu.edu.cn0摘要0以往的研究普遍认为,改善卷积网络的空间不变性是进行目标计数的关键。然而,在验证了几个主流的计数网络之后,我们惊讶地发现过于严格的像素级空间不变性会导致密度图生成中的过拟合噪声。在本文中,我们尝试使用局部连接的高斯核来替代原始的卷积滤波器,以估计密度图中的空间位置。这样做的目的是允许特征提取过程潜在地刺激密度图生成过程,以克服标注噪声。受以前的工作启发,我们提出了一种低秩逼近伴随平移不变性的方法,有利于实现大规模高斯卷积的逼近。我们的工作为后续研究指明了一个新的方向,即如何适当地放松过于严格的像素级空间不变性以进行目标计数。我们在4个主流的目标计数网络(即MCNN、CSRNet、SANet和ResNet-50)上评估了我们的方法。我们在3个应用领域(人群计数、车辆计数和植物计数)的7个流行基准上进行了大量实验。实验结果表明,我们的方法明显优于其他最先进的方法,并取得了有希望的对象空间位置学习效果。01. 引言0目标计数已经得到广泛研究,因为它可以潜在地解决人群流量监测、交通管理等问题。之前的研究[8, 28,62]认为,改善卷积神经网络的空间不变性是提高目标计数的关键。基于这一出发点,越来越多的网络(如扩张卷积神经网络[3, 13, 39]、可变形卷积神经网络[17,34]和多列卷积神经网络[11, 13,71])被用于目标计数的研究。0* 本工作是与卡内基梅隆大学进行远程研究合作期间完成的。1代码可在https://github.com/zhiqic/Rethinking-Counting找到0�0Σ0图1.左图展示了密度图生成的思路,右图是来自SHTech-PartA数据集[76]的一个示例,其中红点是标注的真实中心位置,黑点是实际中心位置。密度图是通过将中心点与多维高斯分布进行平滑生成的。噪声主要有两种类型:1)真实中心点与标注之间的误差ϵ;2)由多个高斯核引起的重叠Σ。需要注意的是,左图仅为示例,人群计数的中心点通常指的是头部的中心位置。[最佳观看效果请查看彩色版本]。0然而,这个研究方向出现了性能瓶颈。我们注意到,随着进一步优化网络架构,计数准确性并没有显著提高。一些最近的研究[6, 10, 30,59]也发现在密度生成过程中存在大量噪声,并推测这可能是性能瓶颈的原因。尽管这些努力取得了一些进展,但我们仍然对以下问题不了解:1)盲目提高空间不变性对于目标计数任务是否有价值?2)密度噪声如何影响性能?在回答这些问题之前,让我们简要介绍一下密度图的生成过程。图1以人群计数为例。密度图是通过将中心点与多个高斯核进行平滑生成的。这种预处理将离散的计数问题转化为连续的密度回归,但不可避免地引入了一些噪声。一般来说,有两种类型的噪声。1)实际中心点与标注之间的误差(即红点和黑点之间的ϵ)。2)高斯核的叠加(即Σ)。更详细的数学描述请参见第3.1节和第3.2节。02 需要注意的是,这里有一些滥用符号。196390为了解决这些问题,我们对三种不同任务(人群、车辆和植物计数)中的四种主流目标计数方法(MCNN[77],CSRNet [28],SANet [4]和ResNet-50[18])进行了彻底验证。广泛的验证实验揭示了过于严格的像素级空间不变性不仅会导致较大的预测变化,还会对密度图中的噪声过拟合,如第4.2节所述。我们观察到现有模型1)无法泛化,甚至在相同的人群计数任务中也是不可能的,2)本质上无法学习密度图中实际对象的位置和分布。总的来说,这些实验给出了以下答案:1)仅增加空间不变性对目标计数任务没有益处。2)像素级空间不变性使模型更容易对密度图噪声过拟合。为了解决这些问题,受到之前的工作[15, 19, 26,57]的启发,我们尝试用高斯卷积替代传统的卷积操作。其背后的动机是在整个特征学习过程中模拟高斯式密度生成,而不仅仅是生成最终的密度图。在一定程度上,这种修改等同于对像素级空间不变性的放松。在像素网格滤波器使用高斯核进行修正后,我们可以摆脱过于严格的像素级限制。幸运的是,第4.4节的实验结果证明,这种放松可以使我们避免对密度图噪声过拟合,并有望学习到对象的位置和分布规律。从技术上讲,我们提出了一种新颖的低秩逼近方法来模拟特征提取过程中的高斯式密度图生成。尽管之前的工作[59]在损失函数中使用多元高斯逼近来优化密度图,但如何在卷积过程中明确建模这种逼近仍不清楚。需要注意的是,[59]中的逼近仅对预测的密度图施加约束,而不改变密度估计。相比之下,我们的方法采用高斯卷积替代标准卷积,我们的低秩逼近使用有限的高斯核(Eq.10)来逼近大规模高斯核卷积(Eq.7)。值得注意的是,我们的方法集中在密度估计过程中,而[59]只关注生成的密度图。如图3所示,我们用高斯卷积替代标准卷积操作,提供了一种生成密度图的新方法。我们首先提出了一个低秩逼近模块来逼近大规模高斯卷积。具体而言,我们从地面实况密度图中采样一些高斯核作为输入,然后使用主成分分析(PCA)选择一些代表性的高斯核。通过简单的注意力机制,我们可以计算这些高斯核之间的相关性。0通过学习选择性的高斯核,我们可以近似大规模高斯卷积。为了加速推理过程,我们还提出了一个平移不变性模块。在输入端,我们采用平移不变性来解耦高斯核操作,以加速卷积操作。在输出端,我们利用从低秩逼近模块获得的权重来完成逼近。需要注意的是,我们所有的实现都基于CUDA。它可以无缝应用于主流的卷积神经网络,并且可以进行端到端的训练。总之,我们的贡献主要有三个方面:0•我们揭示了在目标计数中过于严格的空间不变性是不必要甚至有害的,特别是面对密度图中的噪声。0•提出了一种低秩高斯卷积来处理密度图中的噪声。通过低秩逼近和平移不变性,我们可以用几个高斯核有利地替换标准卷积。0•在七个数据集上进行了大量实验,针对三个计数任务(人群、车辆、植物计数),充分证明了我们方法的有效性。02. 相关工作0我们将文献分为以下两个方向。2.1.通过CNN增加空间不变性0与传统的手动设计的计数检测器[2, 5, 40,47]不同,现有的主流方法将计数问题转化为密度回归[8,27, 62,74]。主要的研究方向是改善CNN的空间不变性。主流的技术路线包括多列CNN[11-13, 71, 77],扩张CNN[3, 13, 17,28, 39, 70],可变形CNN[17, 34],残差CNN[29, 43,78],图形CNN[38],注意力机制[14, 25, 44, 52, 72,73],金字塔池化[9, 21, 50]和层次结构/混合结构[38,51]。随着参数和结构的进一步优化,这些方法出现了性能瓶颈,我们必须调查其背后的原因。如图2所示,我们简要地展示了这些方法的思想。从卷积的角度来看,可以通过以下方式提高准确性:1)放松像素级的空间不变性(例如,扩张/可变形CNN),2)融合更多的局部特征(例如,多列CNN和空间金字塔池化),以及3)利用注意力/透视信息。受此启发,我们利用一组具有注意力机制的低秩高斯核来放松空间不变性并通过替换标准卷积来融合局部特征。在这里,我们只提供一种解决方案,后续工作可以继续探索如何适当地放松空间不变性。y (pi) =N�pi; ˜Di, βI�(1)=12πβ exp(−12���pi − ˜Di���y (pi) =N�pi; ˜Di − ϵi, βI�(3)=N (qi; ϵi, βI) ,(4)µ ≈ EN (ϵi, βI)≈ϵi,(5)12πγ N(0, δI) −µ2i ,(6)196400扩张CNN0合并0多列CNN0合并0偏移0可变形CNN0图2.目标计数中CNN研究方向的概述。1)扩张CNN逐渐增加卷积滤波器的步长以适应不同的尺寸。2)多列CNN利用不同的滤波器在不同的分支中合并特征。3)可变形CNN优化滤波器的形状以处理多尺度密度。4)空间金字塔池化对输入特征进行金字塔缩放。5)注意力/透视通过特征提取使用透视/注意力图。[最佳观看效果为彩色]。02.2. 处理密度图中的噪声0与我们的发现类似,一些研究也显示了密度图中显著的标签噪声[53, 59, 69,75]。克服噪声的主流方法是提出损失函数[6, 10, 30, 35,42, 48, 60],优化测量指标[30, 54],更新匹配规则[54,61],细粒度噪声区域[1, 4, 36, 55],加强正则约束[36, 45,59, 68, 69],结合额外标签[7, 53, 64, 75,80],以及优化训练过程[1, 4, 32,79]。一些最近的研究也开始使用对抗性[46, 65, 81,82]和强化学习[33]来处理密度学习中的噪声。总之,这些方法没有揭示空间不变性与密度图噪声之间的相关性。它们大多数只通过优化损失或正则化项来最小化噪声[23, 31, 42,59,68]。例如,最近的一项名为AutoScale的工作[68]试图将不同图像区域的密度归一化到合理范围内。我们的工作受到之前的工作[59]的启发。与其仅关注优化损失不同,我们的方法试图通过修改卷积操作来克服特征学习过程中的噪声。03. 方法0为了更好地理解我们的方法,我们首先简要回顾传统的密度图生成方法,以揭示对象计数任务中的标签噪声。3.1. 传统的密度图生成0最近的主流方法将对象计数任务转化为密度回归问题[27,50, 63]。对于图像 I 中的 N个对象,所有对象的中心点被标记为 � ˜D 1 , ..., ˜D i , ... ˜DN �。高斯核能够有效地克服预测过程中的奇异性。因此,图像中任意像素 � p i ∈ I的密度由多个高斯核生成,如下所示:0N �0N �0i =10β I ) , (2)0其中 N ( ˜ D i , β I ) 是多元高斯核,均值 ˜ D i 和协方差β I 分别描述了对象的中心点位置和形状。 β是高斯核的方差, ∥ x ∥ 2 β I = x T ( β I ) − 1 x是马氏距离的平方。03.2. 对象计数任务中的噪声0然而,与之前的工作[53, 59, 69,75]类似,我们发现密度图中存在两种无法避免的噪声,如图1所示。01. 对象的真实位置 D i 和标记的中心点 ˜ D i 之间的误差 ϵ ;02. 对象遮挡和多个高斯核近似重叠之间的误差 Σ ;0假设中心点位置的标签误差 ϵ是独立同分布的高斯分布。类似于公式 1 ,任意像素 � p i∈ I 的密度图也可以计算为:0N �0N �0在等式中进行了一些等价变换。进一步用 p i 替换 q i = ˜D i − p i ,密度图仍然是高斯分布 N ( µ, Σ )的组合。均值 µ 和方差 Σ 的值分别估计为:0� N �0�0N �0Σ ≈0N �0i =10N �0其中 β, γ, δ 是高斯函数的方差参数3。03 我们简单地通过 γ = 2 β重新定义参数,以得到简洁的表达式。更多细节请参考之前的工作[59]。< . >so#max*Σ°Σ𝑇!!Σ*< . >DatasetOutput: 𝒀Input: 𝑿𝒔196410: 求和0: 内积0: 逐元素乘积0: 卷积0: 移位和双线性0� !! °0残差块0加速与平移不变性0加速与低秩逼近01 ×1 卷积, 12801 ×1 卷积, 5120低秩高斯0卷积, K01 ×1 卷积0特征0低秩高斯0卷积, K0空间金字塔池化0无缝替换卷积网络0采样0图3.低秩高斯卷积层的示意图。我们提出的层主要包含两个加速模块。低秩逼近模块有两个步骤:1-主成分分析(PCA)用于选择高斯核,2-内积和softmax用于获取融合权重。平移不变性模块也将高斯核操作分为两个步骤:1-与均值为零的高斯核进行卷积,2-将结果与其他唯一均值进行平移。我们提出的层可以替换任何标准卷积层,右侧是残差块和金字塔池化的两个应用示例。[彩色最佳观看]。0尽管更新后的密度图仍然遵循高斯分布,但根据公式5和6,均值µ(表示中心点)和方差Σ(表示形状和遮挡)具有更复杂的形式。这从数学上解释了为什么严格的像素级空间不变性会导致严重的过拟合标签错误。如第4.2节所示,一些最先进的网络仍然无法准确预测高密度区域的遮挡,并且高估了低密度区域的密度。显然,这是由于过拟合到噪声,完全忽略了对象的位置和形状。接下来,我们将介绍我们的解决方案。03.3. 低秩高斯卷积层0受到之前的工作[15, 19, 26,56]的启发,我们尝试用高斯核替换标准卷积滤波器。这样,特征提取可以模拟密度图生成的过程。在像素网格滤波器被高斯核替换后,我们可以摆脱严格的像素级空间约束,以更宽松的空间方式学习密度图。修改后的卷积如下,0Ys =0i =0 G(µi,Σi) � Xs + bs,(7)0其中�和bs是卷积操作和偏移量。Xs和Y是二维特征。这里我们只以通道s的特征为例。由于我们想要模拟密度图的生成,所有N个高斯核G(µi,Σi)都必须用于卷积。对象的位置和形状分别由均值µi和方差Σi规定。然而,由于需要大规模高斯卷积,公式7无法实现。幸运的是,之前的工作[59]使用低秩高斯分布来近似密度图。受此启发,我们提出了一个低秩逼近模块(第3.3.1节)来实现对高斯卷积的逼近,并且0为了加速计算,我们还配备了一个平移不变性模块(第3.3.2节)。如图3所示,我们将在下面介绍这两个模块。03.3.1 使用低秩逼近加速低秩逼近模块使用少量具有低秩连接的高斯核来近似几乎无限的高斯卷积(公式7)。已经证明[59]通过聚合N个高斯核(N可以是数百到数千个)生成的密度图可以通过K个高斯核{G1(Σ1),...,GK(ΣK)}来近似,其中K�N。尽管之前的工作[59]使用低秩逼近来优化损失函数中的密度图,但如何近似大规模高斯卷积仍然不清楚。为此,我们尝试通过学习少量高斯核及其与注意力机制的相关性来近似有限高斯卷积。在逼近过程中,随机采样2K个高斯核。经过主成分分析(PCA)后,得到与K个非零特征值对应的特征向量{G(Σk)}Kk=1。然后,我们将挑选的K个高斯核的系数初始化为,0w k = �G(Σ k), G(Σ I)�,(8)0其中<.>表示内积,ΣI表示单位矩阵。由于我们将进一步分解高斯核以加速计算,这里忽略了高斯核的均值µ。最后,我们进行归一化操作,0σ(w k) = exp(w k) / Σ l=1 exp(w l),(9)0其中wk在训练过程中也会更新。除了融合局部特征,它还可以帮助限制梯度反向传播中的空间信息。04N是图像中对象的数量,如表1所示K�k=0KKK�k=0KSHTech-PartA [76][33, 3,139]482UCF CC 50 [22][94, 4,543]50UCF-QNRF [24][49, 12,865]1,525JHU-CROWD++ [49][0, 7,286]4,250SHTech-PartB [76][9, 578]7165https://github.com/gjy3035/C-3-Framework196420基于这一改进,优化后的高斯卷积层计算为,0Y s =0j =0 (w k◦0i =0 (G(µ i, Σ j) � X s)) + b s,(10)0其中◦表示逐元素乘积。我们利用低秩高斯核完成逼近过程。接下来,我们将继续应用平移不变性模块来进一步优化我们的方法。03.3.2 利用平移不变性加速0平移不变性模块旨在将高斯核与输入特征图之间的卷积操作分解,以加速推理过程。在Eq.10中完成所有高斯核的卷积操作需要大量的计算资源。利用高斯核的平移不变性,可以将高斯核与输入特征之间的卷积操作高效地实现为,0G(µ k, Σ k) � x = T µ k [G(0, Σ k)] � x,(11)0= T µ k [G(0, Σ k) � x],(12)0其中T µ k [y] = g(y - µ k)是函数g()的平移。G(0, Σk)是均值为零的高斯核。这样做的好处是可以在卷积操作中忽略高斯核的均值。由于Eq. 12只对离散的µk准确,我们在实际实现中将平移函数g()视为双线性插值,0˜ T µ k [y] = �0j a ij ∙ g(y - �µ k� + �i, j�), (13)0其中aij是双线性插值中的权重,允许计算亚像素位移,并且可以在CUDA中高效实现。最后,我们提出的低秩高斯卷积层可以计算为,0Y s =0j =0 (w k ◦ ˜ T µ k [G(Σ j) � X s]) + b s,(14)0其中所有的实现都基于CUDA。因此,我们提出的层可以应用于主流的CNN。在大多数情况下,我们将所有的卷积层(或者在所有的残差和金字塔池化块中的3×3卷积层)替换为我们的高斯卷积层。复杂度分析。理论上,考虑输入X =[H,W,C i]和输出Y = [H,W,Co],假设N个高斯核用于密度图生成,初始高斯卷积(Eq.7)的复杂度为O(C i C o HWNk w k h),其中k w,kh表示高斯核大小的上界。当使用低秩逼近时,Eq.10的复杂度为0表1. 目标计数基准。[最小值,最大值]和#图像分别表示每个图像中对象的范围和图像的数量。0数据集 [最小值,最大值] #图像0人群0车辆 TRANCOS [16] [9, 107] 1,2440植物 MTC [37] [0, 100] 3610O(KCiCoHWKkwh),其中K是采样卷积核的数量,K�N。通过进一步应用平移不变性,方程14的复杂度为O(4KCiCoHW),其中4与双线性插值有关。表2还显示了我们的方法的实验时间成本,证明了两个加速组件的有效性。04. 实验04.1. 实验设置0数据集。我们在三个应用领域(人群、车辆和植物计数)上评估了我们的方法。对于人群计数,我们使用了五个数据集进行评估,包括上海科技(SHTech)的PartA和PartB[76],UCF CC 50 [22],UCF-QNRF[24]和JHU-CROWD++[49]。对于车辆和植物计数,分别使用了两个数据集,即TRANCOS [16]和MTC[37]。表1总结了这些数据集。基线网络。我们通过将其与四个基线方法(MCNN [77],CSRNet [28],SANet[4]和ResNet-50[18])集成来评估我们的方法。训练过程遵循第三方Github存储库5。训练细节与原始论文略有不同。例如,包括批处理和其他功能。按照以前的工作[10,44,61],MCNN和CSRNet在整个图像上进行测试,而SANet在图像块上进行评估。此外,使用平均绝对误差(MAE)和均方误差(MSE)作为评估指标。揭示目标计数的标签噪声我们验证了四种主流目标计数方法(MCNN [77],CSRNet [28],SANet[4]和ResNet-50[18])的预测方差。预测方差较大。如图5所示,四种目标计数方法在SHTech-PartA和UCF-QNRF数据集上具有较大的预测方差。更令人惊讶的是,随着性能(空间不变性)的提高,方差并没有减小。图5的结果有意义地揭示了其隐藏的原因,即过于严格的像素级空间不变性使模型严重过拟合密度图噪声。GT:363PT:193GT:363PT:179GT:363PT:341GT:363PT:352GT:363PT:161w/o|noise-0GT:242PT:146w/o|noise-0GT:363PT:372our|noise-0GT:242PT:234our|noise-0our|noise-8w/o|noise-8our|noise-16w/o|noise-16GT:363PT:204GT:363PT:377our|noise-32w/o|noise-32GT:242PT:161GT:242PT:174GT:242PT:196GT:242PT:202our|noise-8w/o|noise-8our|noise-16w/o|noise-16GT:242PT:133GT:242PT:204our|noise-32w/o|noise-32105110115120125130CONV-1CONV-1 -2CONV-1 -3CONV-1 -4MAEcolomn 7*7colomn 5*5colomn 3*3105115125135145155165175CONV-1CONV-1 -2CONV-1 -3CONV-1 -4MSEcolomn 7*7colomn 5*5colomn 3*3196430无0我们的0无0我们的0图4.对注释噪声的鲁棒性可视化,其中红点是地面真值注释。我们通过随机移动注释点 { 0, 8, 16, 32 }像素来生成噪声数据集。可视化结果展示了两个示例,一个使用了我们提出的高斯卷积层,一个没有使用。0表2.MCNN的成本(批处理大小1,图像大小2562)。LRA和TI分别表示低秩逼近和平移不变性。香草设置每层使用256个高斯核。0时间(毫秒)香草 LRA LRA+TI0向前 51.3 13.3 4.10后退 160.0 44.1 12.60高密度区域的低估。我们对高密度区域进行了类似的验证,以找出预测方差较大的原因。如图5的第二列所示,我们注意到高密度区域的预测方差比整个图像更严重。整体统计数据证明,模型在高密度区域严重低估密度。更令人惊讶的是,随着性能(空间不变性)的提高,方差似乎增加了。低密度区域的高估。同样,在第三列中,我们分析了低密度区域。总体上,与高密度区域相比,方差减小了。我们推测,在低密度区域中,较少的高斯核天然具有较低的注释噪声。尽管方差比高密度区域小,但整体方差仍然比整个图像严重。我们猜测这是因为高密度区域和低密度区域相互补偿以减少方差。位置和形状的忽视。为了进一步阐明预测方差较大的原因,我们可视化了一些示例。图4显示了预测的密度图与对象的真实位置(由红点表示)之间的明显差异。在一些低密度区域,预测结果忽略了许多对象(即密度图未覆盖许多红点)。同样,在一些高密度区域,人群的估计不准确(即密度图上的聚类与红点的趋势不一致)。总之,这些可视化结果表明,盲目提高空间不变性不能学习对象的位置和形状。0图5.预测方差的比较分析。方差指的是不同收敛状态下结果的差异。误差指的是预测与真实值之间的差异。从左到右分别是完整图像、高密度区域和低密度区域的分析结果。结果清楚地显示了预测结果存在巨大的方差。0图6. MCNN[77]的剔除研究。CONV后面的数字表示使用我们提出的层的范围。04.3. 剔除研究0我们进行了剔除研究。由于空间限制,我们只以MCNN[77]为例。加速模块的有效性。我们进行了剔除研究,验证了低秩近似和平移不变性模块的有效性。表2显示了我们提出的层的实验时间成本。与原始的高斯卷积相比,我们提供的两个加速模块可以显著提高计算效率。应该在哪里进行替换?如图6所示,我们对MCNN的三列卷积结构进行了剔除研究。总体而言,三列结构的结果大致相同。我们注意到,在前三个卷积层中替换我们的层将获得更大的改进。我们在其他基线中也得到了类似的结果。我们的方法的参数比原始的卷积层少。因此,在大多数情况下,我们将所有的卷积层(或所有残差块和金字塔池化块中的3×3卷积层)都替换为我们的高斯卷积层。如何设置高斯核?我们的方法有三个超参数,即均值µ,方差σ和高斯核的数量K。均值可以根据原始卷积层的步长即时设置。因此,我们只讨论方差Σ和数量K的实验。如图8所示,我们对MCNN的三列卷积结构进行了研究。当K的值为196440表3. 在SHTech-PartA [76],UCF CC 50 [22],UCF-QNRF [24]和JHU-CROWD++[49]数据集上与最先进方法的比较。最佳结果以粗体显示。以下表格同样适用。0方法 会议 SHTech-PartA UCF CC 50 UCF-QNRF JHU-CROWD++ MAE MSE MAE MSE MAE MSE MAE MSE0ADSCNet [3] CVPR'20 55.4 97.7 198.4 267.3 71.3 132.5 - - AMSNet [20] ECCV'20 56.7 93.4 208.4 297.3101.8 163.2 - - MNA [59] NeurIPS'20 61.9 99.6 - - 85.8 150.6 67.7 258.5 DM-Count [61] NeurIPS'20 59.795.7 211.0 291.5 85.6 148.3 66.0 261.4 GLoss [60] CVPR'21 61.3 95.4 - - 84.3 147.5 59.9 259.5 URC [69]ICCV'21 72.8 111.6 294.0 443.1 128.1 218.1 129.7 400.5 SDNet [41] ICCV'21 55.0 92.7 197.5 264.1 80.7146.3 59.3 248.90MCNN [77] CVPR'16 110.2 173.2 377.6 509.1 277.0 426.0 188.9 483.4 CSRNet [28] CVPR'18 68.2 115.0266.1 397.5 119.2 211.4 85.9 309.2 SANet [4] ECCV'18 67.0 104.5 258.4 334.9 - - 91.1 320.40MCNN (我们的) 94.2 141.8 282.6 387.2 204.2 280.4 165.3 486.6 CSRNet (我们的) 61.2 97.8 215.4 296.484.2 152.4 69.4 262.4 SANet (我们的) 59.2 95.4 209.2 278.4 86.6 162.8 68.9 270.6 ResNet-50 (我们的) 54.889.1 186.3 256.5 81.6 153.7 58.2 245.10表4. 在SHTech-PartB [76]数据集上的结果。0方法 会议 SHTech-PartB MAE MSE0ADSCNet [3] CVPR'20 6.4 11.3 AMSNet [20]ECCV'20 6.7 10.2 DM-Count [61] NeurIPS'20 7.411.8 GLoss [60] CVPR'21 7.3 11.7 URC [69]ICCV'21 12.0 18.70MCNN [77] CVPR'16 26.4 41.3 CSRNet [28]CVPR'18 10.6 16.0 SANet [4] ECCV'18 8.4 13.20MCNN (我们的) 17.6 24.7 CSRNet (我们的) 7.612.7 SANet (我们的) 7.1 11.2 ResNet-50 (我们的)6.2 9.90表5. TRANCOS [16]和MTC [37]数据集上的结果。0方法 TRANCOS MTC MAE MSE MAE MSE0ADMG [58] 2.6 3.89 - - TasselNetv2 [66] - - 5.4 8.8S-DCNet [67] - - 5.6 9.10CSRNet [28] 3.56 - 9.4 14.4CSRNet(我们的方法)2.2 2.6 3.2 4.60MCNN(我们的方法)7.7 7.4 8.7 12.3SANet(我们的方法)2.5 2.8 3.4 4.5ResNet(我们的方法)2.1 2.6 3.1 4.30当K足够大(K =100)时,我们估计每个卷积层中高斯核方差的变化。我们观察到方差仅在第一个卷积层中发生了变化。受此启发,我们通常将K设置为16,前两个卷积层的方差范围为[-0.5,0.5],后续卷积层的K设置为2或4,方差范围为[-0.1, 0.1]。04.4. 与最先进方法的比较0我们将我们的方法与最先进的方法在人群、车辆、植物计数三个应用中进行了比较。0表6. 对注释噪声的稳健性。[59]和CSRNet都采用了VGG骨干网络。VGG的结果来自[59]的图4。0MAE(↓)0 4 8 16 320CSRNet(无我们的方法)119.2 125.4 133.7 142.5 166.20VGG [59] 85.8 91.0 96.0 97.0 99.00CSRNet(我们的方法)84.2 85.7 89.0 92.2 95.40人群计数结果。表3显示了在自由视角摄像机中进行人群计数的结果。我们考虑了预测方差并选择了最差的结果进行报告。除了MCNN外,其他三个修改后的基线方法优于其他最先进的方法。与原始基线相比,我们的改进方法也取得了巨大的提升。轻量级MCNN的性能甚至接近一些最先进的方法。表4显示了在监控场景中的结果。与自由视角相比,我们的模型超过了其他最先进的方法,但在监控场景中的改进不如自由视角那么大。我们猜测在自由视角中生成密度图时存在更多噪声。由于SHTech-PartB的地面实况中存在噪声标签,我们的方法无法进一步提高性能。物体计数结果。我们还评估了车辆和植物计数。表5显示了我们的模型在车辆场景中的良好表现。与人群计数相比,改进较小,因为车辆场景中的噪声较少。对于植物计数,我们得到了类似的结果。我们的模型优于其他最先进的方法。值得注意的是,MSE指标的改进表明我们的方法更加稳健。整体性能非常接近实况。04.5. 对注释噪声的稳健性0我们按照之前的工作[59]验证了对注释噪声的稳健性。我们通过随机移动注释点来生成一个带有噪声的数据集,移动范围为{4, 8, 16,32}个像素。然后我们在带有或不带有我们的方法的噪声数据集上训练模型。1e-51e-61e-61e-61e-41e-21e-11e-31e-31e-300.050.10.150.20.250.30.35-0.35-0.30-0.25-0.20-0.15-0.10-0.050.000.050.100.1500.10.20.30.40.5-0.35-0.30-0.25-0.20-0.15-0.10-0.050.000.050.100.1500.10.20.30.40.50.6-0.35-0.30-0.25-0.20-0.15-0.10-0.050.000.050.100.150.000.020.040.060.080.100.120.14-0.35-0.30-0.25-0.20-0.15-0.10-0.050.000.050.100.15196450图7. 卷积滤波器的可视化。从左到右依次是来自SHTech-PartA、SHTech-PartB、MTC、TRAN-COS和UCF-QNRF的结果。从上到下依次是示例图像、我们修改后的SANet和原始的SANet[4]。直观上,我们的方法可以充分理解物体的空间信息和视角规律。更多细节请参见第4.6节。0图8. MCNN [77]的消融研究。从左到右依次是第1到第4个卷积层的方差优化变化。横坐标表示变化范围,纵坐标表示变化的强度。0提出了高斯卷积。表6显示了比较结果。尽管所有方法的性能都随着注释噪声的增加而降低,但我们的方法仍然比其他方法更稳健。图4还展示了两个示例的预测结果,其中一个使用了我们的方法,另一个没有使用。4.6. 卷积滤波器的可视化0我们可视化了卷积滤波器以评估我们的模型是否能够模拟密度图生成并学习对象的空间信息。图 7显示了可视化后的结果。总体而言,我们的方法可以有效地学习对象分布的透视规律。植物计数的结果(第 3列)尤为明显,因为场景更加一致。我们的方法学习了种植分布,甚至反映了种植间隔。相比之下,原始的SANet [ 4 ]在图像中只显示一些噪声(例如标记的杆子)。类似地,我们的方法还通过计数监视视角下的行人和车辆来学习行人和车辆的分布(第 2 列和第 4列)。相反,原始的SANet盲目地猜测高密度区域或高估低密度区域。我们还发现类似的结果适用于自由视角(第 1列和第 5列),在那里我们的方法可以近似人行街和广场的人群密度分布。05. 结论我们揭示了空间不变性与密度图噪声之间的关系。大量实验证明,如果仅仅通过直接提高CNN的空间不变性,模型很容易过拟合密度图噪声。受此启发,我们利用一组局部连接的多元高斯核来替代卷积滤波器。与基于像素的滤波器不同,我们提出的变种可以近似模拟密度图生成的过程。考虑到目标计数的特点,我们尝试使用平移不变性和低秩近似来提高效率。大量实验证明,我们的方法优于其他最先进的方法。我们的工作指出了未来研究的方向。它可以避免为了目标计数而过度提高空间不变性。未来,我们将进一步分析高斯核与空间不变性之间的关系。0本能地提高CNN的空间不变性,模型很容易过拟合密度图噪声。受此启发,我们利用一组局部连接的多元高斯核来替代卷积滤波器。与基于像素的滤波器不同,我们提出的变种可以近似模拟密度图生成的过程。考虑到目标计数的特点,我们尝试使用平移不变性和低秩近似来提高效率。大量实验证明,我们的方法优于其他最先进的方法。我们的工作指出了未来研究的方向。它可以避免为了目标计数而过度提高空间不变性。未来,我们将进一步分析高斯核与空间不变性之间的关系。0致谢。本工作部分得到美国空军研究实验室根据协议编号FA8750-19-2-0200的支持;美国商务部国家标准与技术研究所(NIST)提供的财务援助奖励号码60NANB17D156;0Intelligence Advanced Research Projects Activity(IARPA)通过内政部/内政商务中心(DOI/IBC)合同号D17PC00340提供资助;国防高级研究计划局(DARPA)通过GAILA计划(奖励HR00111990063)提供资助。美国政府有权为政府目的复制和分发再版。0不论其中是否有版权注释,均可用于政府目的。本文的观点和结论仅代表作者本人,不必被解释为必然代表美国空军研究实验室或美国政府的官方政策或认可,无论是明示还是暗示。[16] Ricardo Guerrero-G´omez-Olmedo, Beatriz Torre-Jim´enez,Roberto L´opez-Sastre, Saturnino Maldonado-Basc´on, and196460参考文献0[1] Shahira Abousamra, Minh Hoai, Dimitris Samaras, andChao Chen. 在人群中的定位与拓扑约束. In AAAI , 2021. 30[2] Carlos Arteta, Victor Lempitsky, J Alison Noble, and An-drew Zisserman. 交互式对象计数. In ECCV , pages 504–518,2014. 20[3] Shuai Bai, Zhiqun He, Yu Qiao, Hanzhe Hu, Wei Wu, andJunjie Yan. 自适应扩张网络与自我校正监督用于计数. In CVPR ,pages 4594–4603, 2020. 1 , 2 , 70[4] Xinkun Cao, Zhipeng Wang, Yanyun Zhao, and Fei Su.精确高效的人群计数的尺度聚合网络. In ECCV , pages 734–750,2018. 2 , 3 , 5 , 7 , 80[5] Antoni B Chan, Zhang-Sheng John Liang, and Nuno Vas-concelos.隐私保护的人群监测:无需人群模型或跟踪即可计数人数. I
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功