没有合适的资源?快使用搜索试试~ 我知道了~
16065变量注意:群体计数中多领域学习的领域知识传播陈炳辉*,赵毅Yan*1,李克e,李鹏宇,王彪,王梦祖1†,张磊21哈尔滨工业大学,2香港理工大学chenbinghui@bupt.cn,yanzhaoyi@outlook.com,like1990@bupt.edu.cn,lipengyu007@gmail.comwangbiao225@foxmail.com,wmzuo@hit.edu.cn,cslzhang@comp.polyu.edu.hk摘要在人群计数中,由于费力标记的问题,感知到收集新的大规模数据集是困难的,所述新的大规模数据集具有在密度、场景等方面具有大多样性的丰富图像。因此,对于学习通用模型,使用来自多个不同数据集的数据进行训练可能是一种补救措施,并且具有很大的价值。在本文中,我们诉诸于多领域的联合学习,并提出了一个简单而有效的特定领域的知识传播网络(DKPNet)的无偏学习的知识,从多个不同的数据域在同一时间。它主要是通过提出新的变分注意力(VA)技术明确建模的注意力分布不同的领域。作为VA的扩展,提出了内在变分注意(InVA)来处理重叠域和子域的问题通过大量的实验验证了DKPNet在上海科技A/B、UCF-QNRF和NWPU等数据集上的性能。1. 介绍人群计数是一个具有挑战性的问题,因为它受到数据分布背后的多个实际问题的困扰,例如尺度、密度、遮挡、视角失真、背景场景等的高度可变性。缓解这些问题的直接解决方案是收集具有丰富数据变化的大规模数据集,如ImageNet[7],以便鼓励学习模型更加鲁棒和通用。然而,由于人类标记的困难,收集这样一个具有丰富多样性的大规模数据集具体地,在人群计数中,由于各种条件的限制,由研究组收集的图像可能仅包含某些类型的变化并且数量有限。例如,如图2所示1,可以观察到数据存在较大的变化*同等贡献†通讯作者图1:上海科技[64]、UCF-QNRF [15]和NWPU [54]之间的数据分布比较。ShanghaiTech A主要由拥挤的图像组成,QNRF是高度拥挤的样本并且具有更多的背景场景,NWPU由于密度、视角、背景等而覆盖更大的各种数据分布,而ShanghaiTech B更喜欢低密度和普通的基于街道的场景。分布在不同的数据集。Shang-haiTech A(SHA)[64]中 的 图 像 倾 向 于 显 示 拥 挤 的 人 群 , 而 UCF-QNRF(QNRF)[15]中的图像更可能描绘高度拥挤的人群,并且具有更多的背景场景,而NWPU[54]中的图像在规模、密度、背景等方面具有更多的多样性。相比之下,ShanghaiTech B(SHB)[64]中的样本更喜欢低密度人群和普通的街道场景。考虑到上述事实,为了学习用于正确密度预测的通用且鲁棒的估计模型,本文采用多域学习,其目的是通过利用这些域提供的所有数据来同时解决跨不同域1换句话说,多域学习提供了使用来自不同数据集的相对丰富的数据变化来学习通用且鲁棒的密度估计模型的机会。然而,在人群计数中,当用多个不同的数据集联合训练时,可以观察到有趣如Tab.所示1,如果在SHA、SHB和QNRF的3-joint的监督下,深度模型倾向于仅提高SHA和QNRF的性能,而牺牲SHB的性能(5%的性能下降)。实际上,这种现象(即有偏/部分学习)1通常,域通常是指样本遵循相似或相同的底层数据分布的数据集[57]。16066表1:3关节数据集中IT/JT的MAE结果。方法沙SHBQNRF个人培训(IT)60.68.897.7联合训练(JT)60.2(↓)9.3(↑)92.8(↓)广泛存在于计算机视觉领域。这是因为深度模型具有部分/有偏学习行为[2],即,深度模型容易学会关注表面统计规律而不是更一般的抽象概念。换句话说,深度模型将选择性地学习来自某些主导域2的主导数据知识,同时忽略来自其余域的其他潜在有用信息。为此,开发能够成功利用来自不同数据集的所有知识的有效算法仍然很重要。在本文中,我们提出了特定领域的知识传播网络(DKPNet)的多领域的联合学习,它的目的是细化传播的知识,根据特定领域的分布和突出的所有领域没有偏见。具体而言,一种新的变分注意(VA)的技术,介绍了促进特定领域的注意学习。基于VA,输出的注意力分布可以很容易地控制的潜在变量。并且我们将高斯混合分布作为多领域学习的VA先验。此外,作为VA的扩展,提出了内在变分注意(InVA),用于处理重叠域和子域的潜在问题。VA和InVA都坚持为知识传播提供特定领域的指导,但分别从粗糙和内在的角度出发综上所述,本文的贡献如下:• DKPNet通过多域联合学习,学习一个通用的、鲁棒的人群计数密度估计模型,避免了模型只学习几个主导域,并能在所有数据集上一致地提高模型的• 通过引入VA/InVA,利用隐变量对知识传播过程进行细化,为知识传播过程提供领域指导。据我们所知,这是第一个工作,使用变分学习的注意人群计数。• 已经在几个流行的数据集上进行了广泛的实验,包 括 ShanghaiTech A/B[64] , UCF-QNRF[15] 和NWPU[54],并在MAE评估上实现了最先进的性能。2. 相关工作人群计数:我们回顾了最近的作品,他们所应用的技术。这些技术包括多2由于SHA和QNRF数据比SHB数据更相似,并且当将它们三个组合在一起时,SHA和QNRF变成主导域。规模[64,42,47,30,43],多任务[63,14,27],atten-图[25,48,61,62,16,35],透视图[44,59,60],[31]第32话:我的世界,我的世界,我的世界。[2019-04 -22][2019 - 04][2019 - 04 - 22][2019 - 04-05][2019 - 04][2019 - 051、55、49、45、28、1]。然而,这些工作都没有注意到人群计数中的多域学习。人群计数中的跨域学习:跨域学习可以分为一次/几次学习[11,40],域适应[20,55,8]等。[40]提出了一种元学习启发的方法来解决少数镜头场景自适应人群计数问题,[11]进一步介绍了单镜头场景特定人群计数。对于主适应,CODA [20]使用来自源域和目标域的金字塔补丁执行对抗训练,以便处理不同的Wang等人[55]发布大型合成数据集(GCC),并提出SE循环GAN以弥合合成数据和真实数据之间的域差距。Gao等人[8]提出了多级特征感知自适应(MFA)和结构化密度图对齐(SDA)来提取主不变特征并产生在实域上具有合理分布的密度图。多领域学习:多领域学习旨在提高多个领域的性能。它已被开发在许多领域[36,57,39,9,29,56,19,5]。尽管在这些领域中对多领域学习有大量的研究,但在人群计数方面的研究工作却很少。与我们的方法最相关的工作是[34]。[34]呈现了嵌入在固定ImageNet [7]分类网络后面的特定领域分支。并且,提出了一个域分类器来决定哪个分支来处理输入图像。其结果是,最终的性能并不好,并且受到分支的硬分配的限制此外,这项工作的计算成本是线性相关的域的数量然而,与这项工作不同的是,DKPNet的参数和计算量很小,并且在训练和测试阶段都更加灵活和通用,从而导致更好的性能。变分学习:VAE[18]已被广泛探索并用于生成模型家族,并且擅长通过潜变量控制输出分布。基于VAE,Conditional-VAE[50]提出了一种使用高斯潜变量进行结构化输出预测的深层条件模型;β-VAE[10]提出使用平衡项β来控制容量和独立性先验; β-TCVAE[6]通过引入总相关项进一步扩展了β -VAE。所有这些方法旨在使用变化学习来生成视觉上良好的图像。然而,在本文中,我们集成了变分学习的注意力机制,并提出了变分注意力学习领域特定的注意力。160672|∈|||Cϕ∈−X∈X∈X|||∼NJ2det(Σ)1Σ3. 该方法log(p(y|x,l))= log(∫ pθ(y,z|x,l)q(z|x,l)dz)θ角在本节中,我们将首先给出我们的动机q(z|x,l)方法在Sec. 3.1,然后在第二节中介绍变分注意(VA)和内在变分注意(InVA)模型3.2和第二节3.3,分别最后给出了特定领域知识传播网络的整个流程≥Eq(z|x,l)log(p θ(y|z,x,l)pθ(z|x、l))q(z|x,l)工作(DKPNet)在Sec.三点四分。3.1. 动机如在Tab中实验的。1中,通过直接采用来自SHA、SHB和QNRF数据集的所有数据来优化深度模型引起了有偏域学习行为的问题[2,4],即深度模型更倾向于主要关注主导域而不是所有域的学习。这将导致混乱=Eq(z|x,l)log(p θ(y|z,x,l))− KL(q(z|x,l)||p θ(z|x、l))(一)该目标函数是证据下限(ELBO)并且包括两个项。第一项试图最大化似然以提高预测的置信度,换句话说,它试图产生良好的注意力建议,以便有利于密度估计(在本文中,它对应于密度估计损失,这将是当给出来自非主导域的数据时,模型预测是困难的,因为这些域没有很好地学习。显然如后所述,∫q(z|x,l)Y这种现象是不令人满意的,并且所学习的模型不是我们想要的。考虑到上述事实,即不是所有的有用的知识,从这些数据集可以捕获,本文试图使用的注意力机制。“Attention” gives chances of capturing the desiredinformationbyre-weightingorrefiningtheinformation/knowledge flow within deep models, so as toenhance the learning abil- ity然而,像SENet[12,3]这样的传统注意力模块实际上总是这将导致不受约束和混乱的注意力分布-密度图的地面实况,Y(y)是估计结果基于注意力输出y)。 第二项是指变分分布q(z x,l)(由参数化)和先验分布pθ(z x,l)之间的KL散度,因为它是先验分布,我们稍后使用p(z x,l)=pθ(z x,l)。由于不同领域的输出注意力分布应该彼此不同,我们将潜在变量zRd的先验分布设置为具有C个高斯分量的常用高斯混合分布,其中C是领域的数量,d是z的维度:C−1C −1不同域的输出,以及当这些输出再次用于重新加权原始输入数据,zΣγcN(uc,Σc),c,γc≥0,Σγc=1(2)数据分布将受到干扰,导致难以c=0c=0尤其是在多领域的情况下。因此,受VAE[18]的启发,为了控制具有不同分布的域的注意输出,我们提出了变分注意技术。3.2. 变异注意在不失一般性的情况下,假设我们有多个数据集*,并且它们彼此具有紧密且不同的分布,每个数据集都有多个实例Xi**,i [1,. . .,N*],N*是指*数据集,并且每个数据集都被赋予了一个粗略的标签l*,其中l*[0,. . .,C1],并且C是数据集的数量。在将每个图像馈送到深度模型中之后,我们可以在某个层处获得3-D张量X以用于学习注意力建议y。如前所述,为了控制注意力,对于每个域,u。是对应的均值向量,并且Σ。是d维协方差矩阵。 为了方便起见,本文设γc=1,Σc为对角矩阵。然后,在Eq中的第二项。1可以表示如:KL(q(z|x,l)||p(z|x,l))= 1 [log(det(Σc))− d+tr(Σ−c1Σ)+(uc−u)Σ−c1(uc−u)T](3)其中l=c,参数化分布q(z x,l)(u,Σ),u,Σ是模型的输出。由于Eq(z x,l)log(pθ(y z,x,l))在计算上是易处理的,并且整个过程应该是可微的,因此我们使用重新参数化技巧[18]进行计算:NElog(p(y|z,x,l))log(p(y|z,x,l))(4)其中θ是模型参数,我们遵循VAE思想,通过引入潜在变量z来表示q(z|x,l)θϕ16068|⊙ NNθj=1跟踪分布pθ(y)。具体地,为了对不同领域的注意力分布进行建模,我们最大化条件概率(pθ(y x,l))的对数似然,如下所示:其中zj由u+Σ采样ε,ε (0,1)。如前所述,假设每个域具有高斯分布,然而,难以人为地设置和固定先验参数uc,Σc。我们建议让16069⊙∈ −JJJT∈ −ΣzJJT∈Σ1NθCCCC不0不图2:SE和VA之间的比较。不同的数据集被联合训练。表示通道式乘积。可以观察到SE注意力输出是令人困惑的,而我们的VA可以通过引入高斯混合分布的潜在变量z来为不同的域产生更可分离的注意力分布。它们是用于自适应调整的可学习参数,并添加用于获得非平凡解的分布正则化器 考虑到域之间的语义关系,我们提出将来自第c个域的采样z j与先验可学习参数u c之间的相似度正则化为z j与u i之间的所有相似度中的最大相似度,i[0,. . .、Cl]。这可以表示为力:备注:通过引入和建模潜在变量,输出注意力将是领域相关的,使得领域特定的知识可以在多领域案例中被很好地捕获和学习。如图2、与SE注意不同,我们的VA可以在潜变量建模的帮助下为不同的领域产生更多可分离的注意分布。并且假设潜变量是高斯混合分布,使得对于每个域,可以应用独立的高斯分布并用于控制注意输出。3.3. 内在变化注意实际上,上面的VA只是假设每个数据集属于一个域。然而,在许多情况下,它并不坚持,可能会有两个常见的问题:(1)跨不同数据集的域重叠和(2)同一数据集中的子域。因此,标签l过于粗糙,无法为特定领域的注意学习提供细粒度和准确的指导,仍然留下注意学习中的一些混乱。 为此,为了捕获用于准确的特定领域注意学习的固有领域标签,我们将VA扩展为固有变分注意(InVA)。它主要是通过使用聚类(CL)标签和亚高斯分量(SGC),旨在减轻域重叠和子域的问题,分别实现。具体地,为了解决域重叠,需要将更正确的域标签重新分配给z,Tu ≥ {z,Tu,. . . ,zT umax(zjTu−zjTu,. . . ,zjTuC−1} ⇒- z(u)≤0(5)训练数据而不是使用原始数据集标签L.因此,我们首先训练VA,然后对由VA输出的注意力建议执行高斯混合聚类3。0c C−1c因为上面的max函数是分段不连续函数,这里,我们最小化其上限函数log-sum-exp来代替优化:VA模块。簇的数量设置为C¯。聚类后,labels´l中的新[0,. . . 、C¯1],即CL标签,被重新分配给原始训练数据。此外,每个域LregC−1= log( ei=0时ui−zuc)彡max(zjTu不-z uc,因为聚类是无监督的,所以聚类域不能找到每个潜在的子域。为了应对潜在的子域,我们建议. . . ,z jT uC−1 -z uc)(6)使用SGC进行隐变量建模。具体地说,我们假设在每个聚类中最多有k个子域最小化方程图6可以帮助正则化不同的域以具有不同的分布。 对于Σc ,我们简单地通过最小化log2(det(Σc))来重新调整它,并将其添加到L reg。域 因此,潜在变量zRd将变为a亚高斯混合分布如下:C¯−1zN(u,Σ)c=0-(8)Nϕ--LVA=1Σlo g(p(y|zj,x,l))+KL(q(z|x,l)||p(z|x、l))其中u c= arg max σ(uc,1u c),. . . ,σ(uc,ku)uc,ij=1C−1jT jTσ表示脱落率为0的脱落率。2,u c,k是中心向量在第c个高斯分布中的第k个子分量对于sim-+log(Σezui−zuc)+log2(det(Σc))(7)显式y,我们使用相同的Σc 对于亚高斯复合物,i=0时并且注意力输出y将进一步用于将输入张量x重新加权为x=x⊙y。nents 最后,使用CL标签¯l并将3我们还测试了其他聚类方法,例如Kmeans,DBSCAN等,性能相似。最后,可以通过最小化以下损失来优化VA:JTJT016070沙通道式注意QNRFSHBNWPU×个⊙×个2−-|2Σz1Σ图3:拟议的DKPNet的管道它包含两个阶段的训练:VA和InVA分别用于阶段I和阶段II。在第二阶段训练之前,我们将首先通过聚类从VA的注意力输出中获得CL标签,然后用这些CL标签重新分配训练图像。方程中的潜在变量z8进入Eq。7可以获得用于训练InVA的损失函数LInVA。注:CL标签专注于处理不同数据集之间SGC允许在每个集群域中存在子域,并且能够自适应地优化这些子域。因此,配备CL标签和SGC,InVA模块可以根据数据的“内在”域提供更准确的注意力知识精炼的指导由于基本模块结构与VA相似,除了CL标签和z的先验分布,这里由于论文长度的限制,我们省略了显示InVA的图。3.4. DKPNet现在,我们将介绍我们的DKP-Net的整个管道,如图所示。3 .第三章。在这里,我们将截断的HRNet[53](对于参数亮度,我们仅使用从stage1到stage3的参数)作为我们的主干。在训练期间,小批量图像从所有数据集中随机采样,然后一起馈送到主干中。之后应用具有512个通道的11卷积,产生4-D张量X。然后,张量X将被传递到VA/InVA以产生域特定的注意力权重y,其将通过逐通道注意力应用于X,从而产生新的张量x=x y。值得注意的是,VA/InVA分别用于I期和II期。对于每个阶段的训练,骨干由ImageNet预训练模型初始化最后针对预测密度图Y(y),三个11个版本解决方案层(分别具有通道64、32、1)。在用密度估计损失Y(y)i Y i 2替换log(p θ(yz j,x,l))之 后,整个DKPNet可以通过以下目标函数进行优化:BL=Y( y ) −Y+KL ( q ( z|x , l ) ||p(z|x、l))注:VA/InVA按顺序执行,并且逐步旨在通过注意力细化传播信息流,使得可以无偏地处理和学习来自不同分布的数据,而不会在预测中引起混淆。4. 实验数据集:我们在上海科技A/B[64],UCF-QNRF[15]和NWPU[54]上进行实验。 SHA包含482个人群图像,人群数量从33到3139不等,其中300个图像用于训练,其余182个图像用于测试。SHB包含716幅图像,人群数量从9到578不等,其中400幅图像用于训练,其余316幅图像用于测试。QNRF [15]包含1,535个图像。将这些图像分别分成具有1,201个图像的训练集和具有334个这个数据集有更多的注释头,更喜欢高度拥挤的密度的NWPU数据集[54]是一个新的公共数据集,由5109张图像组成,其中包括3109张训练图像,500张val图像和1500张测试图像,其中测试图像只能在官方网站上进行评估。提及&符号:如在多域联合学习中,这些数据集由单个模型同时训练,并单独测试,即分别报告每个数据集的结果。“DKPNet实现细节:提出的DKPNet应用于截断的HRNet-W40 [53]架构,该架构在ImageNet[7]上进行了预训练。对于模型训练,我们采用Adam[17]优化器,默认beta =(0. 九比零。999),将开始学习速率设置为0.00005,用于预2Bi=1i i2训练的骨干和新添加的层,并使用总共450个时期,学习率降低了1倍。C−1+ log(ei=0时ui−zuc)+log2(det(Σc))(9)每250个时期2.5个。对于数据预处理,我们采用大小为15的固定高斯核来生成地面实况密度图。对于最短边小于B是批量,对于VA/InVA,潜在变量z由Eq. 2和Eq。8,分别。416,我们将通过保持纵横比将最短边的大小调整为416。然后在训练期间,随机裁剪JTJT16071×个表2:SHA、SHB、QNRF和NWPU的结果。“个体”意味着模型仅由一个个体数据集训练。“3-联合”和“4-联合”是指分别使用(SHA,SHB,QNRF)和(SHA,SHB,QNRF,NWPU)的联合数据集。对于每个关节数据集,仅训练单个模型。此外,“IT”指的是仅使用单个数据集训练模型。“JT” means merging all the datasets 为了公平比较,IT和JT在与我们的DKPNet相同的训练设置下进行最好的颜色是红色。NWPU(V)和NWPU(T)分别指示NWPU上的Val集和Test集。训练数据集:个体方法SHA[64]MAE MSESHB[64]MAE MSEQNRF[15]MAE MSE[54](五)MAE MSE[54](T)MAE MSECSRNet [21]68.2115.010.616.0--104.8433.4121.3387.8CANet [26]62.3100.07.812.2107.0183.093.5489.9106.3386.5SFCN [55]64.8107.57.613.0102.0171.095.4608.3105.4424.1DSSINet [23]60.696.06.910.399.1159.2----贝叶斯[32]62.8101.87.712.788.7154.893.6470.3105.4454.2DM计数[52]59.795.77.411.885.6148.370.5357.688.4388.6IT(基线1)60.699.28.812.697.7155.781.7516.094.0371.9训练数据集:3关节JT(基线2)60.299.69.313.792.8159.7----MB [34]59.4101.28.313.291.9159.6----DKPNet(c=3,k=3)56.797.16.912.085.2151.4----训练数据集:4关节JT(基线2)59.996.79.715.291.1160.473.2509.581.9351.5MB [34]59.297.78.913.490.6157.172.7504.080.5377.8DKPNet(c=5,k=2)55.691.06.610.981.4147.261.8438.774.5327.4大小400400、随机水平翻转和颜色抖动被采用。在所有实验中,我们将批处理大小设置为32,并使用两个NVIDIA-V100 GPU。DKPNet由Pytorch[37]框架实现。评估指标:我们采用MAE和MSE指标对人群计数数据集进行评估,这与以前的工作一致[21]。4.1. 与现有技术的为了突出所提出的DKPNet的重要性,我们将其与最近在流行的具有挑战性的基准上的一些杰出作品进行了比较,包括Shang-haiTech A/B[64],UCF-QNRF[15]和NWPU[54]。IT和JT使用与我们的DKPNet相同的训练配置进行,并且两者都被设置为我们的基线。数据越多越好?为了回答这个问题,我们提供了一些结果,如Tab。二、从该表中,可以观察到合并4个以上的数据集以用于训练稳健性估计模型是不可行的。例如(1)在3-联合的情况下,将JT与IT进行比较,JT将偏向性地牺牲SHB上的性能,即将MAE从8.8提高到9.3(在4-联合数据集训练情况下也可以观察到相同的现象,即,将MAE从8.8提高到9.3)。JT将SHB的MAE从8.8提高到9.7)。(2)比较3-接头情况下的JT结果和4-接头情况下的JT结果,可以观察到3-接头和4-接头情况下的性能相似,甚至4-接头情况下的SHB性能比3-接头情况下的SHB性能更差。根据上述观察,我们4在JT中,我们对不同的数据集使用了平衡采样策略。可以得出这样的结论,使用更多的数据集不能轻易地产生更好的模型。DKPNet的有效性:为此,DKPNet被提出并应用于3关节和4关节的情况。在Tab。2,可以观察到DKPNet可以成功地使用更多的数据来学习更好的模型,即它可以在IT和JT基线上持续改进性能。例如,(1)当使用3-关节(或4-关节)数据集时,DKPNet可以超过基线 IT 很 大 的 余 量 ( 例 如 , 在 NWPU ( V ) 上 获 得61.8MAE,增益24%);(2)当使用4-Joint数据集时,DKPNet可以进一步提高DKPNet在3-Joint情况下的性能。这些结果验证了我们的DKPNet的重要性,传播特定领域的知识,通过使用潜在变量约束的注意。此外,DKPNet(c=5,k=2)在MAE评估中大大超过了所有列出的方法,证明了我们的DKPNet在人群计数中用于多域学习的有效性值得注意的是,DKP-Net只需要一个模型来进行所有评估,而其他方法必须需要每个数据集的相应训练模型。JT和DKPNet的密度图的可视化在图1B中。4.第一章与多分支学习的比较:此外,与最相关的工作MB[34]相比,该工作使用共享的主干,然后是多个分支来处理不同的数据集(其中参数数量和计算成本将以线性方式随着数据集的数量而增加),DKPNet可以大大超过它,如表所示。2,参数和计算成本的增加可以忽略不计。和MB使用160723-接头4-接头SEDKPNet(c=3,k=3)SEDKPNet(c=5,k=2)3-接头(一)(b)第(1)款(c)第(1)款(d)其他事项图6:注意力输出的Tsne可视化。图4:4接头情况下测试样本的可视化。(a)、(b)、(c)和(d)分别是JT、DKP-Net(c=5,k=2)和Ground-Truth的输入密度图。- 分支的硬分配,其太相比之下,DKPNet通过使用潜在可变约束注意力来处理不同的数据域要软得多,并且能够处理上述这些问题。4.2. 成分分析图5:SE[12]和我们的DKPNet的注意力输出的Tsne[33]可视化。不同的颜色是指基于GT标签和CL标签的不同区域。表3:SE[12]和DKPNet之间的MAE比较。对于3-关节和4-关节情况,我们分别使用DKPNet(c=3,k=3)和DKP-Net(c=5,k=2)。方法沙SHBQNRF沙SHBQNRFNWPU(V)它60.68.897.760.68.897.781.73-接头4-接头中文(简体)58.19.488.158.09.697.866.4DKPNet56.76.985.255.66.681.461.8为什么特定领域的注意力有效?为了回答这个问题并证明我们在DKPNet中增强注意力方法的有效性,我们采用SE[12]注意力进行比较。为了公平比较,我们通过采用与我们的DKPNet相同的训练配置和主干来训练基于SE的模型,仅用SE注意力模块替换VA/InVA模块我们首先提供了注意空间的比较,通过tsne可视化如图。五、具体地,如在3-Joint情况下,当用SE模块训练时,不同数据集的注意力分布彼此非常接近并且甚至彼此混淆,例如,SHB的注意力权重非常接近SHA和QNRF,甚至超过表4:VA/InVA的MAE结果比较3-接头4-接头方法沙SHBQNRF方法沙SHBQNRFNWPU(V)它60.68.897.7它60.68.897.781.7JT60.29.392.8JT59.99.791.173.2VA57.57.687.9VA57.67.287.666.2InVA(c=3)57.37.586.7InVA(c=5)56.578463.9InVA(c=3,k=3)56.76.985.2InVA(c=5,k=2)55.66.681.461.8和他们在一起。然而,这种令人困惑的注意力输出并没有带来SHB数据集上的性能改进(即如表所示。3,SHB的MAE结果将从8.8减弱至9.4)。这是因为,当且仅当深度模型能够准确地捕获真实的数据分布,然后专门从中学习知识时,它才会产生准确的预测。因此,当采用没有明确领域指导的SE注意力时,SHB中的图像(其与(SHA,QNRF)中的图像具有明显的此外,在4-接头情况下也可以观察到相同的现象,即同时,SE会导致SHB和QNRF上的成绩下降,即注意分配更加混乱。从8.8下降到9.6,从97.7至97.8,分别为然而,相反,如图所示5、Tab3,当使用我们的特定领域注意力模块进行训练时,输出的注意力空间比SE输出的注意力空间更可分离因此,传播信息可以被具体且准确地处理以产生正确的预测。最后,所有数据集上的性能都可以在没有偏差的情况下得到一致的改善,大大优于SE这些现象表明了明确学习领域特定注意对于多领域联合训练的必要性和重要性VA 和 InVA 的 影 响 : 如 表 1 所 示 。 4 和 图 6 、 在DKPNet上进行定量和定性比较为了方便起见,我们将主要描述3-接头的情况。 具体地,VA试图通过潜在变量z学习粗略的特定于领域的注意力输出。这导致在基线IT和JT两者上的一致性能改进(例如,57.5 vs.60.2/60.6、7.6 vs. 9.3/8.8和87.9与SHA为92.8/97.7,分别为SHB和QNRF。不同数据集的学习注意力分布是相对可分离的。128.7143.1139.0635.5691.2702.03819.23610.73470.016073表5:3关节情况下(c,k)值的MAE结果为了方便起见,当k= 1时,我们将省略写k。方法沙SHBQNRF方法沙SHBQNRFInVA(c=2)57.17.987.5InVA(c=3,k=2)57.17.385.9InVA(c=3)57.37.586.7InVA(c=3,k=3)56.76.985.2InVA(c=4)59.67.788.2InVA(c=3,k=4)57.77.486.2除了一些特殊情况(一些重叠分布)。此外,考虑到数据集标签不是固有数据域的精确定义,我们提出了InVA模块,通过数据聚类和细粒度高斯混合分布建模来进一步探索固有域。例如,当使用InVA(c=3)时,可以观察到上述重叠分布可以在一定程度上被适当地处理,从而获得相对于VA的进一步一致的性能改进(例 如,SHA 、SHB 和QNRF 分别从 57.5提高到57.3、从7.6提高到7.5和从87.9提高到86.7)。此外,还提出了InVA(c=3,k=3)来处理每个簇域内的潜在子域。可以观察到,在给出学习潜在子域的机会之后,每个聚类域的注意力分布比之前更紧凑,并且定量性能进一步提高(例如,在学习潜在子域的过程中,注意力分布的变化)。分别将SHA、SHB和QNRF的MAE从57.3提高到56.7、7.5提高到6.9和86.7提高到85.2)。并且在4关节的情况下也可以观察到类似的性能改进。总之,DKPNet专注于通过两阶段训练框架逐步学习特定领域的引导信息流,其中VA和InVA按顺序执行。(c,k)值的消融研究:如前所述,在InVA中,我们将首先获得在宏观角度上在一定程度上可分离的聚类域,然后处理潜在的子域。实验结果见表1。5,可以观察到,对于3-关节的情况,c=3效果最好。这是合理的,因为从VA输出的注意力空间的全局视图来看(见图1)。6),c=3可以很好地分离不同的分布,而不会造成太大的混乱。并且对于每个聚类域,k=2、3、4比k=1更好地工作,因为可以显式地学习潜在的子域,并且我们通过实验发现k=3是最好的。此外,对于4-关节的情况,我们实验发现(c=5,k=2)效果最好。子域分析:为了明确显示子域的学习结果,我们计算余弦表6:余弦相似性。表7:对于3关节情况,不同子域中子域中心之间的图像数量。Sim(q,p)3-联合情况。“子- p”是指第p个余弦相似度为-的子域。在子中心Uc,q和Uc,p之间。CL-0CL-1CL-2亚018042356Sub-121886257Sub-29251079计算子域的中心向量之间的相似性(参数化为u,c,k),并且还计算出每个子域中的图像的数量,如表10所示6-标签。7 .第一次会议。例如,从Tab。如图6所示,可以观察到每个聚类域中的子域是专门学习的并且彼此不同,因为Sim(q,p)示出子域中心之间存在角度此外,从Tab。在图7中,可以观察到所有子域都具有其对应的图像,这意味着子域确实存在并且被成功地学习。正则化项消融研究:如表8,与DKPNet相比,在训练DKPNet时不对z的先验分布进行正则化学习,性能会有所减弱。这表明了术语Lreg通过正则化跨域分布的差异来改善特定于域的注意力的学习的重要性。表8:关于正则化项的消融研究。方法沙SHBQNRFNWPU(V)JT(基线)59.99.791.173.2DKPNet w/oLreg57.37.586.964.2DKPNet55.66.681.461.8型号尺寸:从选项卡。9,可以观察到DKPNet的总参数数少于[32,52],但DKPNet可以大幅度超过它们,显示DKPNet确实此外,DKPNet只需要一个模型来进行所有数据评估,而[32,52]必须训练许多相应的模型来进行繁重而复杂的评估。表9:模型尺寸比较。PN表示参数编号(百万)。DKPNet由4-Joint数据集训练。方法PN沙SHBQNRFNWPU(V)NWPU(T)贝叶斯[32]2062.87.788.793.6105.4DM计数[52]2059.77.485.670.588.4DKPNet1455.66.681.461.874.55. 结论在本文中,我们提出了DKPNet学习的强大和一般的密度估计模型的人群计数的多域联合学习。具体而言,DKPNet是一个两阶段的训练框架,其中VA模块在阶段I中用于粗略地引导特定领域的注意力学习,并且InVA模块在阶段II中用于通过处理重叠领域和子领域的问题来探索固有领域,以便为特定领域的注意力学习提供更准确的指导。最后,在四个流行的基准测试上进行了大量的实验,验证了该方法的必要性和有效性。鸣谢:我们在此特别感谢阿里巴巴集团对本文的贡献CL-0CL-1CL-2模拟(0,1)0.610.420.90模拟(0,2)0.750.720.78模拟(1,2)0.670.590.8016074引用[1] 白帅、何志群、乔玉、胡汉哲、吴伟、严俊杰。具有自校正计数监督的自适应扩张网络。IEEE/CVF计算机视觉和模式识别会议(CVPR),2020年6月。[2] Binghui Chen and Wehong Deng.能量混淆对抗度量学习用于零拍摄图像检索和聚类。在AAAI人工智能会议论文集,第33卷,第8134-8141页[3] Binghui Chen and Wehong Deng.基于混合注意力的解耦度量学习零镜头图像检索。在IEEE计算机视觉和模式识别会议(CVPR),2019年。[4] Binghui Chen,WeiongDeng,and Jani Hu.混合高阶注意网络用于人的再识别。在IEEE国际计算机视觉会议(ICCV),2019年。[5] Binghui Chen,Wehong Deng,and Haifeng Shen. 虚拟类增强判别嵌入学习。神经信息处理系统的进展,第1946-1956页,2018年[6] 李雪晨,陈天勤,罗杰·格罗斯,大卫·杜维诺.变分自动编 码 器 中 解 纠 缠 的 分 离 源 。 arXiv 预 印 本 arXiv :1802.04942,2018。[7] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据 库 。 在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,第248[8] Junyu Gao,Qi Wang,and Yuan Yuan.视频监控中人群计 数 的 特 征 感 知 arXiv 预 印 本 arXiv : 1912.03672 ,2019。[9] Hengkai Guo , Tang Tang , Guozhong Luo , RiweiChen,Yongchen Lu,and Linfu Wen.用于多人姿态估计和跟踪的多域姿态网络。在欧洲计算机视觉会议论文集,第0-0页,2018年[10] Irina Higgins 、 Loic Matthey 、 Arka Pal 、 ChristopherBurgess 、 Xavier Glorot 、 Matthew Botvinick 、 ShakirMohamed和
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功