没有合适的资源?快使用搜索试试~ 我知道了~
19618频域舒伟波1,万佳1,陈凯2,邝森1,安东尼B。Chan11部门香港城市大学计算机科学系2部香港理工大学weiboshu2-c@my.cityu.edu.hk,jiawan1998@gmail.com,kctan@polyu.edu.hk,{cssamk,abchan} @cityu.edu.hk摘要与传统的空域人群计数通过将密度映射变换到频域,利用特征函数的性质,提出了一种简单、有效、高效的新方法。坚实的理论分析最终成为一个易于实现的损失函数,它在训练过程中只需要标准的张量运算。 我们证明了我们的损失函数是地面实况和预测密度图(在它们的所有子区域上)之间的伪超范数度量的上界,并且证明其相对于其他损失函数的功效和效率。 实验结果还显示了它在五个基准数据集上与最先 进 技 术 的 竞 争 力 : 上 海 理 工 大 学 A& B 、 UCF-QNRF、JHU++和NWPU。我们的代码将在以下网址提供:频域中的群体计数1. 介绍自从提出基于密度图的方法以来,基于图像的人群计数的研究领域已经蓬勃发展[12]。在多列神经网络(MCNN)展示了使用深度卷积神经网络(CNN)生成密度图的能力之后[46],深度学习和密度图学习的结合已经引领了最新技术。在当前最先进的技术中,贝叶斯损失(BL)通过仅改变整个管道中的损失函数而区分自身[21]。BL使用地面实况点图来计算每个位置的类别条件分布(CCD),而不是生成离散密度图作为监督。这种优雅的方法表明,如何利用地面实况提供适当的监督信息(即,损失函数)对最终性能有很大影响。地面实况点地图本身就有大量的有用信息。因此,如何充分利用地面实况,提供高质量的监督信息,在人群计数中,运动成为一个活跃的问题。这一问题最近产生了一些突出的研究工作。其中,分布匹配(DMCount)[37]和广义损失(GL)[35]使用最佳运输(OT)距离作为预测密度图和地面实况点图之间的损失函数。当DNN根据逐像素L2损失调整一个预测像素值时,它仅考虑在地面实况中对相同像素的相比之下,当DNN根据OT损失调整一个预测像素值时,它必须根据它们的距离考虑地面实况中所有附近像素的影响因此,OT损失系列能够更好地利用地面实况的位置信息来提供高质量的监督。另一种更好地利用地面实况位置信息的方法地面实况中的精确位置信息通过计算1与预测和真实情况之间的一次匹配然而,这些SOTA方法也有一些缺陷。首先,OT损失[35,37]和P2PNet [31]都需要低效的外部算法来在每个训练步骤中从地面实况中提取空间信息。对于OT损失,执行Sinkhorn算法[22]以获得最优传输矩阵,而对于P2PNet,需要匈牙利算法[11]来获得一个与另一个。一分匹配。这两种算法都需要多次迭代,并且在每个训练步骤中执行,这使得OT/P2PNet训练效率较低。此外,匈牙利算法的复杂逻辑使得其在GPU上的并行化优势难以发挥。实际上P2PNet的官方代码是在CPU中实现的,这与完全在GPU中实现流水线的方法相比,进一步降低了效率其次,虽然OT/P2PNet充分利用了位置信息,但地面实况的计数信息19619特征函数DNN预测密度图特征函数反向传播������������=|������ ��� − ������ ��� |������ℝ2地面实况密度图将所有信息传递给DNN进行训练(见图1)。1)。特征函数就是有限测度在频域上的表示。 虽然它最初是为概率分布定义的,但在这里我们将定义扩展到有限测度,以便继承原始定义的一些这些属性在本文的分析中起着重要的作用,我们将在后面展示它们的影响总的来说,该文件的贡献是:• 我们还将特征函数的定义从概率分布推广到有限测度图1.我们的人群计数框架域通过计算其特征函数,将预测密度图和地面实况密度图中的分散空间信息转换为频域中的那么我们的损失是特征函数之间的L1范数我们证明了我们的损失是密度图(在所有子区域上)之间的伪超范数度量的上界,这使得它为训练人群计数模型提供了高质量的监督,从而在人群计数方面优于其他SOTA损失函数。是未充分开发的。因此,OT/P2PNet使用不同的方法来解决这个问题:加班损失引入了额外的损失条款;P2PNet需要设置每个图像块中的最大点数,但该信息在测试图像中实际上是未知的。这些额外的补救措施也产生了额外的超参数,需要进行调整或平衡。为了解决当前SOTA中存在的这些问题,我们研究了一种新的方法,该方法充分利用了地面实况的位置信息和计数信息。我们希望新方法既能为训练提供高质量的空间监督信息,又能很容易地从地面实况中提取。这样的属性可能很难在空间域中实现,所以我们转而在频域中进行分析。我们的解决方案是使用有限测度的特征函数(即,未归一化的概率密度)。直观地说,密度图是二维平面上的有限测度,位置信息和计数信息都在有限测度中。然而,在空间域中,该信息散布在各处,并且因此在没有一些外部算法来提取全局空间信息的情况下难以使用全局空间信息(例如,针对OT损失的Sinkhorn算法[22][35,37],针对P2PNet的匈牙利算法[11])。相反,如果有限测度被变换到频域中,则空间信息在频域中围绕原点的紧凑范围中被分层组织。更接近原点的值包含更大比例的全局空间信息,而更远离原点的值包含更大比例的局部位置信息。因此,在频域上的适当损失函数将充分地去来证明或强化它的一些重要特性。因此,我们将空间密度图监督的学习问题转化为频域特征函数监督的学习问题,频域特征函数监督对离散的空间信息进行了综合,更适合于监督。据我们所知,这是第一次在频域研究人群计数。• 利用特征函数的性质,我们提出了一个简单,有效,高效的损失函数,提供高质量的监督信息的训练,并在以前的作品相比,不需要外部算法提取空间信息。• 我们证明,最小化我们的损失函数将降低预测和地面真实密度图(在所有子区域上)之间的伪超范数度量的上界,这对人群计数是有效的。• 在五个基准数据集上的实验结果显示了我们方法2. 相关作品基于图像的人群计数。基于图像的人群计数研究可以分为几个阶段.早期的方法使用各种特征来检测图像中的头部/人[8,13,15,32,41,45,47],然后根据检测结果进行计数。第二阶段是基于目前流行的方法是从图像中回归密度图,由于其作为中间表示的有效性,它构成了最近大多数作品的基础密度图回归。密度图方法首先在[12]中提出之后,[46]通过使用CNN从图像中预测密度图达到了一个里程碑,然后深度学习和密度图回归的结合引领了人群计数的趋势最近的监督学习方法可以大致分为两类:改进网络架构19620ΣB∈FF可数集S_∞∞和m(A)=m(A)∞{|{\displaystyle {\frac {F}Bni(t,x)设计[2,4,14,17,18,26,43,44];和改善损失函数-训练的目的[21,31,34,35,37]。我们的方法属于第二类。改善训练和损失功能。最近的方法[21,31,34,35,37]旨在从地面实况中提取高质量的超分辨率信息,以使训练更有效(例如,对空间注释噪声鲁棒或在位置匹配上更精确)。代表性工作[31,35,37]取得了显著的效果,但它们需要低效的外部算法来从每个训练图像上的地面真值中提取空间另一方面,它们缺乏对计数信息的利用,而专注于地面实况的局部位置信息。相反,通过将离散的空间信息转换为紧凑的频域信息,我们的方法可以自然地同时使用计数信息和位置信息进行监督。此外,我们的方法不需要外部算法来提取这些信息。3. 频域在本节中,我们将介绍我们在频域中的人群计数框架,即,基于密度图特征函数的人群计数。首先介绍了测度和特征函数的数学概念,然后将特征函数的定义从分布推广到密度图。其次,我们证明了密度映射的特征函数的一些有用性质.第三,详细阐述了基于特征函数的损失函数,并分析了其性质。第四,我们讨论了如何实施我们的方法的基础上的实证和理论支持。3.1. 密度图在数学中,测度是定义在σ-代数上的非负集函数,它具有σ-可加性。正式定义如下。定义1(测度[33])测度是定义在可测空间(M,)上的集函数m,其中M是总空间,集合族是σ-代数(包括在并、交和补下闭合的M的子集),满足:(i) 非负性:m(A)≥0,则<$A ∈ F.(ii) σ-可加性:m(ε)=0,其中ε是空集,i=1ii=1iA iA i,A i Aj=如果i=j。如果m(m)< ,即,总测度是有限的,则它是有限测度因此,密度图是2D平面上的有限测量–密度图是定义在(R2,BR2)上的有限测度,其中R2是二维欧氏空间,R2是R 2上的所有Borel集。 密度图在R2上的总测量值等于总人口数。离散密度图是其测量仅分布在有限点的集合上的密度图,即,如果密度图m满足以下性质:nm(A)= m({xi}<$A),<$A∈BR2,(1)i=1其中xiR2是具有非零测度的那些点,则m是离散密度图。其次,我们引入概率分布的特征函数的定义,这是一类特殊的有限测度,总测度为1。定义3(分布的特征函数[3])给定一个定义在Rn上的分布d,其特征函数d是一个定义在 Rn上的复值函数:d(t)=EX其中t∈Rn是频域的自变量,EXd是X下分布为d的期望,i是虚部单位。由于概率分布只是总测度为1的有限测度,我们自然可以将特征函数的定义扩展到有限测度(即,密度图)。定义4(测度的特征函数)给定定义在Rn上的有限测度m,其特征函数m是定义在Rn上的复值函数:m(t)=其中dm(x)表示基于测量m计算积分。因此,密度图的特征函数可以通过Def计算。2、Def.4.第一章3.2. 特征函数其次,我们得到了有限测度的特征函数的几个重要性质。为了清楚起见,我们将直接给出密度映射的这些性质,而不是有限测度。因此,在其余的,术语所有证据都在补充材料中。19621R|(t)m×Gp2/物业1(唯一)特性 功能唯一地确定密度图,反之亦然。设λ m1和λ m2分 别是由两个密度映射m1和m2导出的两个特征函数.然后,我们有m1(t)=(四)当且仅当m1(A)=m2(A),<$A∈ BR2.(五)我们把它记为m1=m2. 在(4)中,a.e.表示L({t∈这是连接密度图和它的特征函数的一个重要性质。该性质说明了空间域虽然(9)中的积分是在整个频域R2上,但图2表明,大多数信息集中在频域中非常紧凑的范围内。因此,密度图的特征函数在该范围之外具有接近零的值,这对积分的贡献很小。只要将信息集中在频域的一个小范围内,就可以对每个地区21measure.其中L是勒贝格,第三,了解物业。与空间域的离散信息相比,频域的紧凑信息更适合用于训练。注:直觉上,这个性质表明,如果两个密度图该属性主要消除了损失函数中的非唯一最优解问题,这是[37]指出的BL [21]的潜在缺点。性质2(线性)假设m3是两个密度图m1和m2的线性组合,m3=αm1+βm2,α,β≥0(6)然后Δ m3(t)=α Δ m1(t)+ β Δ m2(t)。(七)注:此性质有助于简化推导预测密度图和地面真实密度图的特征函数,因为它们实际上是简单单点测量或高斯分布的线性组合。性质3(反演公式)对于密度图m,假设re是一个盒子are aA=[a1,b1][a2,b2]在零测度边界的R2中,即m(mA)= 0(8)其中,A是A的边界,则我们有1 ∫∫m(A)=limϕ(t)e−i(t,x⟩dxdt性质4(Lipschitz连续性)如果一个密度图m是一个离散密度图(见定义),2)或与高斯核卷积的离散密度映射,则特征函数φ m(t)是Lipschitz连续的。这个属性在我们的方法的实现中起着重要的作用。由于我们的方法没有解析解,因此我们使用基于此属性的近似方法来计算损失。3.3. 特征功能丧失在这一小节中,我们提出了我们的损失函数的基础上的特征函数和理论分析。图1示出了我们的方法的流程图给定地面真实密度图mg和预测密度图mp,我们的损失函数是它们的特征函数mm和mm之间的 L1范数度量,即,2lchf(m g,m p)=R|mg(t)− |dt(10)我们将损失lchf表示为chf损失。为了证明其有效性,我们首先表明,损失不是欠定的,这是在[37]中提出的,以描述当两个密度图m1和m2不相等时损失l可以为零的情况,即,m1=m2,s. t. l(m1,m2)= 0. 如果损失是欠定的,那么最小化损失可能不会使预测接近地面真相[37]。因此,一个好的损失函数应该T→∞(2π)2M[− T,T]2一(九)不要低估,这是我们的CHF损失的情况。(All证据在补充中)。其中dx和dt表示第一和第二积分,19622基于Lebesgue测度计算。11注意,当dx或dt出现在下一个上下文中时,它也意味着积分是基于勒贝格测度计算的。2注意这里我们直接使用R 2上的勒贝格积分,但是在(9)中我们使用了一个极限公式而不是直接的勒贝格积分。由于它们并不总是相同的,因此需要一些注意,我们在补充资料中提供了1962320100-||−×−∈BLL(A)2L(A)≤L∅-1.000.0030-0.75100-1.0-0.751002000.00250.0020-0.580-0.2560-0.5-0.25100803004005000 100200300400500600700(一)0.00150.00100.00050.00000.0400.25200.50.750-1.0-0.75-0.5-0.250.00.250.5 0.75(b)第(1)款0.00.25100.50.7520-1.0-0.75-0.5-0.250.00.250.50.75(c)第(1)款6040200(d)其他事项图2.空间域和频率域中信息分布的比较。(a)空间域中的密度图m[0,512] [0,749];(b)m的特征函数的实部,在范围[ 1,1]2中;(c)特征函数的虚部,在范围[ 1,1]2中;(d)特征函数的谱,即, 范围内的单位距离[1,1]2. 信息在空间域中到处分布,而频域中的信息则集中在一个很小的紧凑范围内靠近原点。通过性质3,紧凑频率信息可以恢复空间域中任何地方的信息命题1 chf损失lchf不是欠定的。接下来,我们将展示当chf损失相对于w.r.t.减少时,预测的密度图会发生什么。地面真相命题2对于地面真实密度图mg和预测密度图mp,|≤ (2 π )−2 l chf (m g ,m p )L(A ),(11)| ≤ (2π)−2lchf(m g, m p)L(A), (11)对于任何开集AR2。这里指的是勒贝格测度,即,面积A。这个命题揭示了为什么CHF损失是有效的。重新安排(11)中的项,我们得到(2π)2|mg(A)−mp(A)|≤lchf(mg,mp),则λA∈BR2. (十二)并且因此CHF损失是密度图中所有子区域A的归一化计数误差|,其中归一化基于|, where the normalization is based ontheL(A)次区域面积 (A).接下来,我们定义两个密度图之间的所有子区域上的最大归一化误差 使用用于训练的chf损失将在所有区域计数上更均匀地应用监督,这避免了空间域中的单个像素波动(例如,像L2那样的像素级损失所固有的)。具体而言,(12-14)表明,减少chf损失将确保预测接近空间域中所有区域的地面实况,即,本地和全球的数量都被考虑用于监督。3.4. 瑞士法郎损失由于(10)中的chf损失积分不可解析求解,我们接下来在本小节中提出一个chf损失的近似值。使用两个步骤近似计算chf损失中的积分:1)在有限值域上截断无穷积分值域;(2)用Riemann和来逼近这个有限域上的积分。截断积分。如示于图2,在紧凑的中心范围之外的特征函数值通常非常小。经验和理论证据也支持紧域上的积分与全域上的积分相差不大。理论上,考虑通过将点图与高斯核卷积而获得的离散密度图,下面的命题给出了一个上界的平均-(mg,mp)= supA=|、(十三)|, (13)L(A)原始密度图和重建密度图之间的年龄误差。其中,A=意味着A具有空边界(即, 它是一个开集),并且(A)0表示它具有非平凡的勒贝格测度。我们在(13)中的超范数与[12]中的MESA(子阵列上的最大超额)损失具有相似的闪光点,除了MESA是使用矩形区域定义的并且是非归一化的,而我们的是在所有子区域上定义的并且是归一化的。命题3假设密度图m是通过将离散点图与带宽为σ的高斯核卷积而获得的,并且由其特征函数λ m限制在圆盘B(0,r)上重建的密度图是mλ。 设T是m的总测度。 则在任何具有平凡边界的非空盒区域A上,即,m(A)= 0,则有最后,我们得到(2π)2π(mg,mp)≤lchf(mg,mp),(14)|m(A)−m˜ (A)|LTexp{−σ2r2}2πσ21.000.750.500.25零 点0.250.250.000.501.00 0.750.500.250.751.000.500.751.0019624.(十五)并且因此最小化CHF损失等价于最小化预测和基本事实之间的我们的超范数度量φ(Mg,Mp)的上限,即,尽量减少命题3表明,如果我们将与高斯核卷积的点图作为19625pMN−GpJ2GJJMMM地面真相在具体实现中,我们使用带宽为8的高斯核,这是常规设置。如果我们限制R2到圆盘{||X||<205}假设总人数最多密度图mp也是一个单例测度的堆栈,通过性质2,我们再次得到m(t)=0的情况。100万人在一个训练图像,然后由命题x x3的误差上限约为0。08.上述上限是松散的,在实际的情况下,近似甚至更好。图3示出了原始密度图与根据截断特征函数重建的密度图之间它们几乎相同,这表明在截断积分时不会丢失太多信息。近似积分。虽然积分被限制在一个很小的范围内,但CHF损失的积分仍然需要用黎曼和来近似。性质4其中δ(x)是位于x处的脉冲函数。假设我们将(10)中的整数值域截断为R,并使用黎曼和近似。然后,将R_i均匀地划分成小的正方形网格。设所有网格的中心点构成集合R,正方形网格的边长为c,则(10)lch f(mg,mp)=c2l. m(t)−-是的(十九)t∈R显示了特征函数的良好连续性,这为黎曼和近似提供了坚实的理论保证。此外,一些经验结果将在4.4小节中显示。近 似 在 我 们 的 方 法 中 引 入 了 两 个 超 参 数 : 1 )Riemann网格的粒度2)积分范围。性质4的重要功能之一是解耦两个超参数。Prop-最后,将(17)和(18)代入(19),得到我们的CHF损失的最终形式:荷 兰(mg,mp)(20)=c2。exp(iµTt− t T .t∈Rj=1X图4证明了特征函数的一致连续性,这意味着连续性的强度在域中的任何地方都是相似的。因此,如果黎曼和近似的粒度在某个整数范围内工作良好,那么它也适用于任何整数范围。因此,黎曼和近似的粒度与积分范围无关。然后将超参数搜索从二维网格搜索转化为两个一维线性搜索,这样效率更高。实施. 最后,我们的chf损失的实现如图所示。4.第一章 对于给定的图像,设在地面实况中有M人,位置为{µj}M。反4. 实验在本节中,我们介绍了验证我们的CHF损失函数有效性的实验结果,包括与SOTA和消融研究的比较。4.1. 实验装置实验在五个基准数据集上进行:Shanghai Tech A&B [46],UCF-QNRF [9],JHU++ [29,30],和NWPU[39].对于UCF-QNRF,我们调整图像的大小,使图像对于JHU++和NWPU,对长度2048执行类似的搜索图像裁剪窗口大小为384,围绕着每个人j=1j,具有协方差的高斯核UCF-QNRF、JHU++和NWPU,上海科技上海科技B为512。概率矩阵Σj产生高斯分布(μj,Σj)。然后,地面实况密度图m_g是所有M高斯分布的堆叠,即,m=N(µ,),(16)j=1密度图回归网络由VGG 19 [27]的特征提取层组成,连接到由三个卷积层组成的回归模块,这与[21,34,35,37]中使用的架构相同训练使用我们在(20)中提出的chf损失,表示为根据属性2,我们有(t)= iµTt − tTj t。权重衰减1 e-4。对于地面实况密度图,我们使用具有常规带宽8像素的高斯注意我们MGj=1N(µj,j)j=1J2(十七)不需要在实现中计算地面实况密度图,因为它的特征函数可以是请注意,可以直接从位置和协方差(μj,μj)计算出均方根g,而无需使用卷积计算地面真值密度图令P(x)为对应于空间位置x处的预测密度图的2D矩阵中的值。预测直接获得的封闭形式从注释的位置(见方程。第17段)。对于我们的CHF损失的另外两个超参数:1)积分范围设置为[ 0。3,0。2)对于所有数据集,黎曼和近似中的网格粒度19626−−0501000.00350.00300.00250501000.00350.00300.00250501000.00350.00300.00250501000.00020.00010501001500.00201500.00201500.00201500.00001502002500.00150.00100.00052002500.00150.00100.00052002500.00150.00100.00052002500.00012002500.0002050100(一)0.0000050100(b)第(1)款0.0000050100(c)第(1)款0.0000050100(d)其他事项050100(e)图3.原始密度图和由小范围内的特征函数重建的密度图之间的比较。(a)原始密度图;(b)从在[ 0. 3,0。3]2,以及(c)[ 0. 5,0。(2)(a)与(b)之间的差异;(e)(a)与(c)之间的差异。重建的密度图与原始密度图几乎相同。注意(d)和(e)中的差值的范围比密度值的范围小得多。这表明,被限制在一个小范围内的特征函数几乎携带了空间域中的所有信息。因此,当我们计算chf损失时,将积分限制在一个小范围内是合适的。高斯核DNN预测密度图:2D矩阵[ 35 ]第三十五话79.3346.159.9 259.584.3 147.561.3 95.4瑞士法郎(我们的) 76.8 343.057.0 235.780.3 137.657.594.3表1.与最先进的损失函数比较。所有损失都使用[21]中的相同网络架构。Ch.F.������������ =���2μ mexp i−1���������������������拉吉���∈���=12图4.执行我们的CHF损失。DNN的输出是表示为2D矩阵的密度图,其中矩阵中的预测密度图的特征函数是数值计算的,而具有高斯核的地面真实密度图的特征函数是从注释位置直接特征函数之间的L1范数使用黎曼近似在区域R上求和,它基于点集R。评 估 指 标 遵 循 标 准 惯 例 : 采 用 平 均 绝 对 误 差(MAE)和均方根误差(MSE)。4.2. 损失函数首先,我们将我们的chf损失与表1中人群计数中最先进的损失函数进行比较。所有损失函数都使用[21]中提出的相同网络架构。我们的chf损失在所有数据集上 都 优 于 其 他 损 失 。 此 外 , [37] 和 [35] 需 要 外 部Sinkhorn算法[22]在每个训练批次中运行数十甚至数百次迭代,而[34]需要在每个训练批次中反转大型矩阵。然而,chf损失不需要任何其他外部算法,并且可以使用标准张量运算快速完成计算。表2.不同损失函数的效率和超参数数。训练时间是使用上海科技A的训练集(300张图像)(批量大小为1,裁剪大小为512)测量的我们的实现在RTX2080 TI上使用PyTorch。表2显示了这些损失函数之间的效率比较。由于它们使用相同的网络架构,并且仅在训练阶段计算损失,因此这里省略了相同的推理时间。从表中可以看出,BL [21]是其中最有效的损失函数,但BL也具有最差的性能。我们的chf损失具有第二高的效率,以及第二低的超参数数量,同时也实现了最佳的MAE。请注意,在定时测试中只有300个训练图像,并且效率优势将随着训练大小和epoch数量的增加而增加。4.3. 与SOTA的表3显示了我们的chf损失和当前SOTA之间的比较。为了公平起见,这种比较只考虑使用单个模型并在个人数据集。虽然我们的方法很简单,但我们的chf损失在大规模数据集上与当前的SOTA竞争,在UCF-QNRF上获得最低的MAE/MSE0.000200.000150.000100.000050.000000.000050.000100.000150.00020Ch.F− exp���������������i损失时间/每一时期时间/500个纪元一些相关超参数第二十一章15.2秒2小时7分钟2NoiseCC [34]16.4秒2小时17分6DM计数[37]19.0秒2小时38分钟4公司简介UCF-QSHTC ASHTC BMae MSE MAE MSE MaeMSE MAE MSEMAE MSE(⋯(《基本法》[21]105.4 454.275.0二百九十九点九88.7154.862.8 101.87.7十二点七⋮⋱⋮[34]第三十四话 96.9 534.267.7二百五十八点五85.8150.661.9九十九点六7.4十一点三19627−−−NWPU JHU++ UCF-QNRF SHTC A SHTC B12090603000.1 0.2 0.3 0.40.5积分半径(一)12090603000.002 0.0050.010.020.040.1网格粒度(b)第(1)款表3.与在单个数据集上训练的最先进的单模型方法进行比较。算法训练时间每一时期/推理时间每一时期/作物图像大小在训练中KDMG [36]83.0秒6.9秒512P2PNet [34]60.8秒11.8秒128ChfL(我们的)15.4秒6.9秒512表4.最近算法的运行时间。使用上海科技大学的测试集(182幅原始图像)测量了推理时间A. 其他设置与表2相同。JHU++和NWPU。我们的方法也在上海科技A和B上获得了第二低的MAE(落后于P2PNet),但这两个数据集较小,不太能代表泛化能力。这些比较结果证明了在频域中监督人群计数的潜力。 We believe that there isalso room for improvement for facilitating the developmentof the crowd counting.我们还比较了我们的方法与表3中的其他最近算法的效率。我们的方法比P2PNet快4倍(尽管P2PNet使用较小的图像尺寸),比KDMG训练快5.4倍。对于推理,我们的方法具有与KDMG相同的运行时间,因为它们使用同样的架构,比P2PNet快41%。4.4. 消融研究积分在chf损失下的近似引入了两个额外的超参数:积分范围和Riemann和近似中的网格粒度。如第3.4节所述,属性4将这两个超参数合并,因此在上海科技A上对每个超参数单独进行消融研究。图5a显示了不同积分范围的结果。通常,计数性能对不同的积分范围是稳健的。当范围大于[ 0。3,0。3]2,性能逐渐退化,这表明超出此范围的频率信息可能使模型过拟合。在实践中,我们将范围固定在[ 0]。3,0。3]2.图图5b示出了针对不同网格宽度的计数结果普遍性当粒度太粗时,即,0的情况。1粒度,则误差显著增大当那个-图5.烧蚀研究(a)积分范围[α,α]2,其中α是x轴上的值;(b)黎曼和近似中的网格粒度,其中粒度是正方形网格的边长,积分范围固定在[−0]。2,0。2]2.亮度低于0。04、性能对粒度变化不太敏感 由于小粒度意味着更多的网格,这对应于更多的内存/计算,因此我们将粒度设置为0。01在实践中5. 限制按照惯例,密度图被计算为点图和高斯核之间的其他工作表明,将点图转换为平滑表示也有助于使训练鲁棒性用于计数[9,21,36,46]。事实上,在我们的框架中,高斯内核就像一个低通滤波器,以减少高频内容,这允许截断积分的实施。因此,在我们的框架中,需要将点图与高斯核或其他低通滤波器核进行6. 结论在本文中,我们研究了在频域中使用超视的人群计数。通过将特征函数的定义扩展到密度图(有限测度)上,并证明了一系列关键性质,为训练人群计数模型的监督新范式奠定了基础在此基础上,我们提出了一种简单、有效、高效的chf损失函数形式的方法。理论分析在该方法的设计、实现和超参数选择的各个方面都起着重要的作用。我们阐明了为什么我们的chf损失是有效的,通过证明它是一个上界的两个密度映射(在所有子区域)之间的超范数度量。实验结果表明,它优于其它SOTA损失函数.我们希望我们的工作将启发未来的工作设计损失函数的人群计数在频域中,以便更好地利用地面实况信息。鸣谢。 这项工作得到了中国香港特别行政区研究资助局的资助。编号:11212518)及香港城市大学策略性研究资助计划(项目编号:11212518)。No. 7005665)。96.9102.489.294.397.558.959.0五十七点五60.661.7MAEMSE119.593.792.089.294.196.682.260.359.059.058.6五十MAEMSE误差误差Mae MSE MAE[46]第四十六话 232.5 714.6 188.9MSE MAE483.4 277.0MSE MAE MSE426.0 110.2 173.2Mae26.4MSE41.3SwitchCNN [1]CVPR- 二百二十八点零445.090.4一百三十五点零21.633.4CSRNet [14]CVPR'18 121.3 387.8 85.9309.2 110.6190.168.2一百一十五点零10.616.0美国[4]190.6 491.4 九十一点一320.4--67.0一百零四点五8.413.6[18]第十八话 106.3 386.5 100.1314.010718362.3100.07.812.2[40]第四十话 105.7 424.1 七十七点五297.6 102.0171.464.8一百零七点五7.613.0MBTTBF [28]ICCV’19-- 八十一点八299.1 九十七点五165.260.2 九十四点一8.015.5《基本法》[21] 105.4 454.2 75.0299.9 八十八点七154.862.8一百零一点八7.712.7KDMG [36]TPAMI’20 100.5 415.5 六十九点七268.3 九十九点五173.063.8 九十九点二7.812.7[24]第20届亚太经合组织领导人会议454.4 120.5218.266.5一百零一点八7.712.7[43]第43话- --61.2 96.98.111.6AMRNet [19]ECCV-- 八十六点六152.261.6 九十八点四7.011.0NoiseCC [34]NeurIPS'20 96.9 534.267.7二百五十八点五 八十五点八150.661.9 九十九点六7.411.319628引用[1] Deepak Babu Sam,Shiv Surya和R Venkatesh Babu。用于人群计数的开关卷积神经网络在IEEE计算机视觉和模式识别会议论文集,第5744-5752页,2017年。8[2] 白帅、何志群、乔玉、胡汉哲、吴伟、严俊杰。具有自校正计数监督的自适应扩张网络。在IEEE/CVF计算机视觉和模式识别会议论文集,第4594-4603页,2020年。3[3] 帕特里克·比林斯利。概率与度量John Wiley Sons,2008年。3[4] Xinkun Cao,Zhipeng Wang,Yanyun Zhao,and Fei Su.规模聚合网络,用于准确和高效的人群计数。在欧洲计算机视觉会议(ECCV)的会议记录中,第734-750页,2018年。三、八[5] Antoni B Chan , Zhang-Sheng John Liang , and NunoVascon- celos.隐私保护人群监测:无需人员模型或跟踪即可计算人数。在2008年IEEE计算机视觉和模式识别会议上,第1-7页IEEE,2008年。2[6] Prithvijit Chattopadhyay,Ramakrishna Vedantam,Ram-prasaath R Selvaraju,Dhruv Batra,and Devi Parikh.在日常场景中计算日常物品。 在IEEE计算机视觉和模式识别会议论文集,第1135-1144页,2017年。2[7] Ke Chen , Shaogang Gong , Tao Xiang , and ChenChange Loy.用于年龄和人群密度估计的累积属性空间。在IEEE计算机视觉和模式识别会议论文集,第2467- 2474页,2013年。2[8] 作者声明:Robert T.人群计数的标记点过程。2009年IEEE计算机视觉与模式识别会议,第2913-2920页。IEEE,2009年。2[9] Haroon Idrees 、 Muhmmad Tayyab 、 Kishan Athrey 、Dong Zhang 、 Somaya Al-Maadeed 、 Nasir Rajpoot 和Mubarak Shah。密集人群中计数、密度图估计和定位的成分损失在欧洲计算机视觉会议(ECCV)的会议中,第532六、八[10] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。6[11] 哈罗德·库恩。指派问题的匈牙利方法。海军研究后勤季刊,2(1-2):83-97,1955年。一、二[12] Victor Lempitsky和Andrew Zisserman。学习计算图像中的物体。神经信息处理系统的进展,23:1324-1332,2010。一、二、五[13] Min Li , Zhaoxiang Zhang , Kaiqi Huang , and TieniuTan.基于mid的前景分割和头肩检测估计拥挤场景中的人数。2008年第19届模式识别国际会议,第1-4页。IEEE,2008年。2[14] 李玉红,张晓凡,陈德明。Csrnet:用于理解卷积神经网络的扩展卷积神经网络高度拥挤的场景。在IEEE计算机视觉和模式识别会议论文集,第1091-1100页,2018年。三、八[15] 林胜福、陈兆业、赵宏信。利用透视变换估计拥挤场景中 的人 数。IEEE 系 统、 人与 控 制论 汇 刊-A部 分:Systems and Humans,31(6):645-654,2001. 2[16] 刘波和努诺·瓦斯康塞洛斯人群计数的贝叶斯模型适应。在IEEE计算机视觉国际会议论文集,第4175-4183页,2015年。2[17] Lingbo Liu , Hongjun Wang , Guanbin Li , WanliOuyang,and Liang Lin.使用深度递归空间感知网络的人群计数。arXiv预印本arXiv:1807.00601,2018。3[18] Weizhe Liu,Mathieu Salzmann,and Pascal Fua.情境感知的人群计数。在IEEE/CVF计算机视觉和模式识别会议论文集,第5099-5108页,2019年。三、八[19] 刘喜阳,杨洁,丁文瑞,王铁强,王志进,熊军军.具有局部计数映射的自适应混合回归网络用于人群计数。在计算机视觉-ECCV 2020中:第16届欧洲会议,格拉斯哥,英国,2020年8月23日至28日,会议记录,第XXIV部分16,第241-257页。Springer,2020年。8[20] 马志恒,洪小鹏,魏兴,邱云峰,龚一宏。跨数据集人群计数的通用模型。在IEEE/CVF国际计算机视觉会议论文集,第3205-3214页,2021年。8[21] Zhiheng Ma,Xing Wei,Xiaopeng Hong,and YihongGong. 点 监 督 下 人 群 计 数
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功