没有合适的资源?快使用搜索试试~ 我知道了~
12736利用异构辅助任务辅助人群计数赵慕明1,2,张建2,4,张重阳1,3,张文军11上海交通大学电子信息与电气工程学院2悉尼科技大学3上海交通大学人工智能研究所MoE人工智能重点实验室4鹏程实验室,深圳,中国赵慕明@ student.uts.edu.au,张健@ uts.edu.au,{sunny zhang,zhangwenjun}@ sjtu.edu.cn摘要人群计数是一项具有挑战性的任务,在存在剧烈的规模变化,杂乱的背景,和严重的闭塞,等等。现有的基于CNN的计数方法主要通过融合多尺度或多上下文特征来解决这些挑战,以生成鲁棒的表示。在本文中,我们提出了解决这些问题的杠杆化的异构属性的密度图复合。我们确定了三个几何/语义/数字属性的贡献本质上是重要的密度估计,并演示了如何有效地利用这些异构属性,以协助人群计数,制定成多个辅助任务。利用辅助任务引起的多重正则化效应,驱动骨干CNN模型显式地嵌入所需属性,从而获得更准确的密度估计的鲁棒表示在三个具有挑战性的人群计数数据集上的大量实验证明了所提出的方法的有效性。1. 介绍人群计数和密度估计在计算机视觉中非常重要,因为它在包括物理安全、公共空间管理和零售空间设计在内的广泛监控应用中起着至关重要的作用[11,38]。然而,剧烈的尺度变化、杂乱的背景和严重的遮挡使得生成高质量的人群密度图具有挑战性。已经提出了各种基于CNN的计数方法[35,36,29,12],主要通过融合多尺度或多上下文信息来处理具有挑战性的情况,以改善特征表示。例如,Zhang等人。[36]使用多列网络生成多尺度特征以处理尺度变化。辛达吉这是通讯作者。图1.影响人群密度估计的主要因素说明。al. [29]融合局部和全局特征以进行密度估计。他们的成功证明了从各种来源(即,不同的子模型)。受这些方法的启发,我们建议利用密度图的异质属性作为指导,以充分利用潜在的代表性,而不显式修改的功能。图1通过观察密度估计的三个因素说明了我们的动机。考虑到基于密度估计的计数范例[11]的公式,其对任何区域上的密度值求和以报告最终计数,期望估计的密度随着对象尺度而变化,给定人群图像的图像内尺度变化的因素。具体来说,较近的较大对象应该具有较小的密度值,而较远的对象具有较小的尺度。我们称之为密度图的几何属性。此外,杂波背景是另一个不应忽视的因素。为了更准确地估计密度,还期望密度分布符合人群的空间分布以避免背景杂乱,这可以被视为密度估计的语义属性。尺度变化杂波背景全局计数影响密度图的主要因素几何属性语义属性数字属性从因子中提取的属性CNN12737mation此外,全局计数也是衡量某一图像的整体密度水平的重要指标,可以称为密度估计的数值属性。这些属性是异构的,并满足人群图像的不同方面,这应该是有益的密度图预测的质量。受这些观察的启发,在本文中,我们建议利用密度图中的异质属性具体来说,我们制定每个属性作为一个辅助任务。对于几何属性,考虑到场景中某一物体的尺度变化一般与深度成反比,提出了单目深度对于语义属性,我们引入人群分割来突出背景上的前景。对于数值属性,我们引入了直接计数估计,以在优化每像素密度的同时兼顾整体计数准确性。辅助任务的学习将驱动骨干CNN的中间特征嵌入关于几何、语义和整体密度水平的所需信息,这有利于生成针对尺度变化和杂波背景的鲁棒特征虽然涉及到更多的目标,它们可以很容易地与外部模型或可以直接从原始密度图推断,不需要任何额外的注释。此外,将基本属性制定为辅助任务可以使任何骨干CNN模型受益于人群计数,而无需在推理时增加额外的计算,这进一步为所提出的方法引入了灵活性。我们强调这项工作的主要贡献如下:• 我们建议利用三个异质属性在书房中复合,密度图,这会影响密度估计的质量。• 我们将每个属性制定为辅助任务,它们一起为骨干CNN用于更强大的表示和密度估计。• 我们证明了所提出的方法在三个具有挑战性的数据集上的有效性,其中-在Shang-haiTech数据集[36]和worldExpo'2010数据集[35]上执行最先进的方法2. 相关工作已经提出了许多方法用于人群计数。基于检测的方法[26,31]通常受到现有技术中严重闭塞的挑战性情况的令人战栗的拥挤场面。因此,提出了基于回归的方法[6,7],该方法学习从整体人群特征到全局计数的映射函数。然而,这些早期的方法主要使用手工制作的特征,并且已经被从CNN中提取的深度特征所超越[9]。最近,深度CNN为计算机视觉社会带来了一个新时代。作为最早的基于CNN的方法之一,Zhang等人 [35]训练了一个深度模型来估计人群密度图,并在可切换的学习过程中进行计数。为了处理人群图像中的尺度变化,Zhanget al. [36]介绍了多列CNN,每列中具有不同的感受野大小,用于密度估计的多尺度特征融合。类似地,[16]中的网络使用输入补丁的金字塔来生成多分辨率特征。最近,Li等人。 [12]通过膨胀处理调整VGG模型[27],并在几个基准数据集上实现了引入新的深度架构有利于学习更鲁棒的特征,从而提高计数性能。其他研究人员致力于整合各种传达上下文/规模信息的模块,以改进基本CNN。这些工作包括[29]中的多上下文融合,其中全局和局部上下文信息是自适应学习的,并与来自基础模型的特征相结合以另一个典型的工作是[22],其中构建了一个开关网络,将每个输入补丁中继到不同的子网络[36]中,用于密度估计,而不是聚合来自所有子模型的特征。该方法中的开关模块被认为传达关于图像内密度变化的信息。为了处理尺度变化引起的影响,在[24]中提出了一个对抗性学习框架来追求跨尺度一致性。最近,在[20]中提出了一种自顶向下的反馈门控模块,该模块将乘法反馈引入到基础模型的原始特征中。反馈模块可以被视为学习校正信号以获得良好的密度图估计。我们没有用额外的模块来增强基本CNN,而是通过制定辅助任务来挖掘模型本身的潜力来增强功能。从这个角度来看,我们的工作也与多任务学习有关深度CNN中多任务学习的有效性已经在各种任务中得到验证[37,18],并激励我们探索其对人群计数的好处在[28]中提出了类似的工作,其中计数组分类作为高级先验知识学习,并与密度估计分支中的特征级联虽然两者都使用多任务学习的工具进行计数,但我们的方法在分析和解开密度es中出现的异质属性方面有所不同。12738^^RGB前端编码器用于主任务预测的后端解码器用于辅助任务预测的图2.概述了CNN中三个辅助任务的学习方法(AT-CNN)。L1到L3的符号表示优化人群分割、深度预测和计数回归的辅助任务的损失。L4的符号是密度估计的主要任务的损失。估计,特别是对尺度变化和杂波背景的处理,这在现有的方法中没有充分利用3. 方法如第1节所述,我们建议利用异构属性来辅助人群计数,其主要目的是通过辅助任务学习(AT-CNN)来改进骨干CNN通常,人群密度估计可以被视为编码-解码过程,其中前端CNN(编码器)将输入图像映射到高维特征图,并且后端CNN(解码器)将来自编码器的特征解释为逐像素密度值。将前端CNN表示为用we参数化的函数ge,则来自编码器的特征F可以表示为输入图像X的F=ge(X;we)。对于任何给定的骨干CNN模型,我们的方法构建了辅助任务预测(AT)模块,该模块使用来自前端CNN的深度特征F来优化辅助预测,并反向改进中间表示本身。我们的方法的框架如图所示。2.在训练期间,用于密度估计和三个辅助任务的地面实况标签,即,使用深度预测、人群分割和计数虽然涉及四种不同的监督信号,但我们不需要任何额外的注释工作。具体而言,我们利用现代的基于CNN的深度预测模型来推导辅助深度预测的地面实况标签用于人群分段和计数的地面实况信息可以分别从密度图标签直接推断3.1. 辅助任务预测基于前端CNN的深层特征,我们构建了三个辅助任务,人群分割、深度预测和计数估计。这三个任务各自负责密度图的不同特征,可以提供多重正则化效果来优化前端CNN。我们将在下面的文章中描述每个辅助任务的详细信息。注意人群分割由于行人在图像中所占的像素极其有限以及背景的复杂性,人群密度图通常带有噪声。针对这个问题,我们引入人群分割作为辅助任务,这将有助于前端CNN生成更多的区分性表示,从而净化输出预测。构建用wseg参数化的分割解码器网络gseg执行双向分类任务,解码器从前端编码器接受特征F,并输出具有指示属于目标的像素的概率的值的人群片段S:S=gseg(F;wseg)。人群分割的地面实况标签可以通过简单的二值化从计数数据集[36,35]中提供的行人的虚线注释中推断出来,如图3所示。我们将结果称为关注人群部分,因为它传达了重要的信息,澄清了目标对象所占据的关注区域严格地说,导出的分割图与语义分割[5]中的分割图不同,语义分割[5]中描述了对象的详细边界,但是我们在实验中表明,这种简单的策略可以有效地改善密度估计。给定一对输入图像和地面实况属性,L4深度解码器L2计数解码器141L3SegmentdecoderL112739^^^ ^您的位置:深度预测值化掩模图3.辅助任务的标签生成。给定一对人群图像及其真实密度图(第一列),可以使用外部深度预测算法[13]估计深度图,并通过密度图的二值化推断人群片段(第二列)。用于监督辅助任务的提取深度图(第三列)是通过用人群分段图掩蔽最初估计的深度图来获得的。对于有效的人群分割图{X,S},分割解码器的损失函数是每个像素的预测概率和真实概率ric先验也没有注入任何额外的信息,因此适合于我们的情况,以帮助在拥挤的场景中说明几何形状。给定输入人群图像X,我们使用预训练的DCFN模型[13]来生成深度Draw的原始度量。如图3所示,它能够描绘不同位置处的行人之间的深度差异然而,由于DCNF模型还没有特别地适应人群计数任务中的目标场景,因此深度预测包含降低效率的聚类,特别是对于背景区域。针对这个问题,我们进一步计算仅保留关注目标区域的深度信息的提取深度图D 这是使用原始深度图和关注人群片段两者导出的:D= S Draw,其中,表示Hadamard矩阵乘法。与提取深度作为深度预测的监督期望前端CNN特别了解那些关注区域与目标对象之间的深度关系/尺度变化。利用{X,D}的训练对,深度解码器可以使用用于预测深度图的简单欧几里德损失来训练:1ΣL=1Σ¨D^-D?(二)L1= |X| (i,j)∈Xtij洛戈伊杰+(1−tij )log(1−oij),(1)2|D|IJ(i,j)∈DIjé2其中tij∈ {0,1}是S中的像素的实际类别,其中1用于目标区域,0用于背景,并且oij表示预测S中的逐像素概率。为了处理监控场景中的透视失真[30],我们引入了单图像单目深度预测作为辅助任务非正式地说,对于给定的对象类别(例如行人),图像中物体的大小与距相机的距离成反比[8]。在具有较大深度值的区域中,对象具有较小的尺寸,并且应该相反地分配有较大的密度值,以保证它们的总和给出准确的计数。通过推断深度图,前端CNN被施加以照顾场景几何形状,从而获得图像内尺度变化的意识,这将有助于为尺度感知密度估计生成更具鉴别力的特征。类似于人群分割的任务,构建了一个用wdep参数化的深度解码器网络gdep,大多数基于密度估计的计数算法通过测量预测密度图和地面实况密度图之间的每像素误差来然而,一个问题是这种监督与测量输入图像的全局计数误差的MAE/MSE [15]的评估度量为此,我们引入了另一个辅助任务人群计数回归,它直接从编码的特征中估计人群计数。在此辅助任务的支持下,前端编码器将生成适应输入图像整体密度水平的特征,这有助于生成更准确的密度值。构建用w_num参数化的计数解码器g_num以将来自前端 编 码 器 的 特 征 F 映 射 到 人 群 计 数 C : C=g_cnt(F;w_cnt)。地面实况计数C可以通过对输入图像X中的所有带点注释求和来直接导出。L2范数用于训练计数解码器:深度预测解码器的输入是要素L=−C−(三)F,输出是深度图,其值指示每个像素到相机的距离:D=gdep(F; wdep)。为了完成这项任务,我们求助于深度图,基于CNN的单图像深度预测模型[13](DCNF)用于单目深度预测。DCNF模型可以估计没有geomet的一般场景的深度3¨ ¨23.2. 主要任务预测密度估计解码器g建立在从前端编码器发出的特征F为了生成地面实况密度图,我们按照[11]应用2D高斯内核22¨1274024在每个虚线注释上,其中在不同位置处简单地采用相同扩展(sigma)高斯核。主任务的解码器是使用密度图的欧几里得损失:1Σ¨ ¨包含716张图片,固定尺寸为768×1024,拍摄于繁忙的街道。与Mall数据集[3]相比,它提出了更具有挑战性的情况,具有严重的透视失真。和不同的场景。在公开分割之后,400张图像用于训练,其余316张用于测试-L4= |Y|3.3. 优化(i,j)∈Y<$Y^ij−Yij<$2(四)ing. 我们裁剪大小为224×224的图像块,训练WorldExpo最终的学习目标函数利用由超参数加权的多个损失:Lmt=λiLi(5)i=1我们采用了一个阶段式的过程来训练网络与辅助任务,通过改变超参数,如第4节所述。4. 执行我们使用公开可用的Matconvnet工具箱[32]和NvidiaGTX Titan X GPU实现了网络。采用随机梯度下降法对参数进行优化。我们将动量和重量衰减分别设置为0.9和0.0005。 我们用了首字母学习率为10- 6,并在验证损失达到平台时除以10。 所有反褶积的参数-ER被固定为用于训练和推断的双线性上采样内核在训练期间,应用随机翻转来增强输入图像块。所提出的模型的训练分三个阶段进行首先,我们训练用于密度估计的前馈基线模型。基于基本模型,依次训练分段解码器、深度解码器和计数解码器。在第三阶段中,四个解码器被联合优化,并且使用Eq.的目标函数对模型进行端到端训练。五、在模型训练完成后,可以将辅助任务预测模块分离出来,使用原模型进行推理,使原模型5. 实验在本节中,我们在shanghaiTech-B [36]、2010年世博会[35]和Mall [3]数据集的三个基准数据集上评估了所提出的人群根据现有工作的惯例[35,36],计算平均绝对误差(MAE)和均方误差(MSE)的度量以进行评估。5.1. 数据集ShanghaiTech part B它是最大的人群计数数据集,以注释人数计。它2010年上海世博会的相机,固定尺寸为576×720。与上海科技B部分[36]相比,它涵盖了各种各样的场景。在公开分割之后,来自103个场景的3380帧被视为训练和验证。验证集。左边的600帧,其中120帧来自5个测试场景中的每一个它为每个场景提供感兴趣区域(ROI),因此在评估中只考虑ROI内的行人,方法[35,36]。从原始图像中裁剪大小为256×256的图像块用于训练。Mall它包含2000帧,固定尺寸为320×240,记录自购物中心的监控摄像头。我们用公共通道进行训练和测试-ing,即,前800帧用于训练,其余1200帧用于测试。随机选择1/6的训练图像作为验证,这对于所有评估数据集都是相同的。为了增加训练数据,我们从原始图像中裁剪大小为160×160的图像块。表1.在实验中评估了不同的编码器-解码器架构。架构AT-CFCNAT-CSRNet编码器7×7×32转换,步幅27×7×64转换,步幅25×5×128转换器(3×3×64conv)×2,步幅2(3×3×128conv)×2,步幅2(3×3×256conv)×2,步幅2(3×3×512conv)×2,步幅2解码器(用于密度、深度和片段预测)5×5×64转换器7×7×32去卷积,上采样27×7×1去卷积,上采样2(3×3×512conv,扩张2)×33×3×256转换,扩张23×3×128转换,扩张23×3×64Conv,扩张23×3×1转换解码器(用于计数回归)N×N×64conv1×1×32 conv1×1×1转换N×N×512转化率,脱落率0.51×1×256转换器1×1×128转换器1×1×64转换器1×1×1转换5.2. 诊断实验为了深入分析所提出的方法并证明其有效性,我们对两个评估数据集进行了诊断实验:上海科技城B [36]和购物中心[3]。对于骨干CNN,我们实验了两种具有不同容量的模型,以适应各种数据集大小,并研究基于 在不同的模型上。Mall数据集选择了一个轻量级的计数FCN模型(CFCN),编码器和解码器都有三个卷积层[3]。另一个是更深入的模型(CSRNet [12]),12741VGG网络[27]用于人群计数和扩张处理。集成了辅助任务预测模块的AT-CFCN和AT-CSRNet的详细架构1.解码器中用于计数回归的卷积核N取决于输入图像大小和前端编码器中的下采样因子其将特征图转换为1×1向量以用于计数估计。在两个基线模型中,每个卷积-在 一 个 实 施 例 中 , 线 性 层 之 后 是 整 流 线 性 单 元(RIU),并且相应地被填充以保持空间分辨率。从CFCN/CSRNet的基本骨干模型,我们比较了几种不同的变体,包括那些只有一个辅助任务的变体(i)基本CNN + DE:用前端CNN执行深度预测(DE)任务;(ii)基本CNN + SE:用前端CNN执行人群分割(SE)任务;(iii)基础CNN + CT:利用所述前端CNN执行所述计数估计(CT)任务。具有两个辅助任务的变体包括(iv)基本CNN + DE+ SE:同时执行深度预测和人群分割任务;(V)基础CNN + DE + CT,以及(vi) 基本CNN + SE + CT,类似于(iv)学习两个辅助任务。最后,我们与所有三个辅助任务都集成的变体进行(vii) 基本CNN + DE + SE + CT。从表2中可以得出几个结论。i)。三种辅助任务都能有效地减少计数误差,即MAE和MSE(比较b和a)。这表明辅助任务执行影响密度估计精度的关键信息,并共同优化主任务。ii)。包括三个辅助任务中的任何两个将进一步减少计数误差(比较e与b、e与c、f与b等),并充分利用它们来实现最佳性能。这一结果与我们的假设一致,即辅助任务各自关注密度图的异质属性,并且它们的协作将进一步改善表示以获得更准确的密度估计。iii)。该方法不仅改进了简单模型(CFCN),而且还显 著 改 进 了 具 有 更 强 表 示 能 力 的 深 层 模 型(CSRNet)。这进一步验证了所提出的方法显式地杠杆化密度图中存在的异质属性从Mall数据集的表6中可以观察到类似的情况[3]。5.3. 与最新技术所提出的方法进行了比较,与几个国家的最先进的方法在三个具有挑战性的基准。比较结果见表4、6和5。如表4和表5所示,我们的方法在ShanghaiTech-B数据集[36]和WorldExpo'2010数据集[35]上的表现优于那个...表2.AT-CFCN和AT-CSRNet在ShanghaiTech-B数据集上的诊断实验[36]。项目方法AT-CFCNAT-CSRNetMaeMSEMaeMSE一基本CNN12.8922.310.616.0B基本CNN + DE11.7219.768.7313.63C基本CNN + SE12.3120.669.2014.14D基本CNN + CT12.2421.499.1114.39e基本CNN + DE + SE11.5219.788.2813.97F基本CNN + DE + CT11.5819.738.3213.57G基本CNN + SE + CT11.8820.428.5113.66H基本CNN + DE + SE + CT11.0519.668.1113.53表3. AT-CFCN在Mall数据集上的诊断实验[3]。项目方法MaeMSE一基本CNN3.143.90B基本CNN + DE2.793.51C基本CNN + SE2.683.37D基本CNN + CT2.833.55e基本CNN + DE + SE2.363.02F基本CNN + DE + CT2.483.18G基本CNN + SE + CT2.342.99H基本CNN + DE + SE + CT2.282.90这两个数据集中的年龄都是从具有显著视角变化和复杂背景杂乱的户外场景中收集的所提出的方法的优越性能证明了在训练过程中利用辅助属性来帮助追求密度估计的几何和语义一致性的有效性。我们的方法也在室内场景中稀疏人群的Mall数据集[3]上进行了验证。由于室内场景中的透视畸变不是很明显,我们的方法对尺度变化的有效性是有限的,在这个数据集。然而,在表6中,我们仍然实现了与现有技术一致的竞争结果,表明我们的方法不仅在密集场景中有效,而且还很好地推广到具有稀疏行人的图像。表4.与其他最先进的人群计数方法在ShanghaiTech-B数据集上的比较[36]。方法MaeMSELBP + RR [23]59.181.7[35]第三十五话32.049.8MCNN [36]26.441.3[28]第二十八话20.031.1[22]第二十二话21.633.4[29]第二十九话20.130.1DecideNet [14]20.7529.42ACSCP [24]17.227.4[21]第二十一话13.621.1CSRNet [12]10.616.0AT-CSRNet8.1113.53为了进一步理解所提出的方法,我们在上海科技B部分上与最新的CSRNet [12]进行了详细的比较实验。1274212.8912.5212.78十二点三十五分十二点12.51(一)3202702201701207020二十四二十三点二2220181614120.01 0.02 0.04 0.06 0.08 0.1 1 51值(用于人群分割丢失)1615.74(b)第(1)款图 4. (a) 直 方 图 : 根 据 每 张 图 像 中 人 数 的 增 加 , 对ShanghaiTech-B数据集的10个分割(b)失败案例的形象化151413120 0.20.40.60.8 11.21.41.61.8 2最后一次分裂。2值(用于计数回归损失)表5.与WorldExpo 2010数据集上其他最先进的人群计数方法的比较2018161412100 0.10.20.40.60.8 1103.3值(用于深度预测损失)图5.ShanghaiTech-B数据集上三个辅助任务的不同损失权重的MAE比较[36]。表6.与Mall数据集上其他最先进的人群计数方法的比较[3]。方法MaeMSESquareChn检测器[1]20.55439.1R-FCN [4]6.025.46更快的R-CNN [19]5.916.60岭回归[23]3.5919.0MORR [3]3.1515.7森林伯爵[17]4.402.40[28]第二十八话3.023.81[25]第二十五话2.419.12[34]第三十四话1.822.74[33]第三十三话2.01N/A美国有线电视新闻网[10]2.7513.4DecideNet [14]1.521.90AT-CFCN2.282.90根据每个图像中人数的增加将测试图像分为十组。从图中可以看出。4(a)我们的方法在大多数数据分割中优于CSRNet,证明了鲁棒性-所提出的方法的有效性和可行性。我们进一步可视化了图4(b)中最后一个数据分割的失败案例。我们保持深度解码器处于测试状态,并保存深度预测。如图4(b)的第二列所示,我们发现样本图像的深度图未能正确地描绘深度关系,特别是对于左上角的最远人群,这可能导致密度估计的不准确,从而导致计数结果的不准确。这表明训练的深度解码器的能力不足。考虑到当前用于训练我们的模型的地面实况深度图是由尚未专门适用于人群场景的现有深度算法生成的事实,我们猜测,在提供更准确的深度地面实况的情况下,深度解码器可以被更好地优化,并且相反地有益于基础模型,以便在这种示例上获得更好的结果。图. 6可视化并比较我们的方法(AT-CSRNet)和CSR-Net的预测密度图和计数总体而言,我们实现了更准确的计数估计,并保留了更多的人群分布的一致性。GT AT-CSRNet CSRNet1 2 3 4 5 6 7 8 910密度水平GT:493深度预测CSRNet:482AT-CSRNet:472平均计数12.73MaeMae12.8912.6912.5412.6712.7913.1512.4312.42Mae18.6212.8912.912.8512.3511.7212.08方法S1S2S3S4S5平均LBP + RR [23]13.659.837.121.823.431.0[28]第二十八话4.832.510.813.34.513.2[35]第三十五话9.814.114.322.23.712.9MCNN [36]3.420.612.913.08.111.6[22]第二十二话4.415.710.011.05.99.4[29]第二十九话2.914.710.510.45.88.86[21]第二十一话2.616.110.1520.27.611.3DecideNet [14]2.013.148.917.404.759.23CSRNet [12]2.911.58.616.63.48.6AT-CSRNet1.813.79.210.43.77.812743图像深度预测人群分段预测密度图(CSRNet)密度图(AT-CSRNet)地面实况69737889100110173195181205202194431459413图6.可视化和比较。第一列:测试图像第二列和第三列分别示出了来自对应解码器的预测深度图和人群片段。最后三列分别是CSRNet [12],我们的方法(AT-CSRNet)和地面实况的估计密度图。在每个密度预测的右上角标记计数估计例如,对于第一幅图像,CSR-Net的估计在伞区域中显示出不准确性,然而,辅助分割任务的学习反过来帮助细化中间特征并避免我们预测中的这种错误激活的密度估计。对于其他样本图像可以观察到类似的情况。5.4. 辅助任务权重的参数研究等式5中的权重λi确定每个辅助任务对主任务的影响,这是我们方法中的关键参数。为了优化λi的选择,我们在上海科技B数据集上与AT-CFCN模型进行了对比实验图.图5示出了当用于每个辅助任务的λ变化时(用于其他辅助任务的参数被设置为0)对密度估计的影响。如所观察到的,对于深度预测任务,当权重位于某个值范围内时,MAE误差减小。权值过小不利于主要任务的完成,而权值过大则会使特征表示漂移,性能恶化。对于人群分割损失和计数回归损失,可以观察到类似的情况。在我们的实验中,我们将深度预测损失、人群分割损失和计数回归损失的权重分别选择为0.6、0.04和1。6. 结论在本文中,我们建议利用混合在密度图的异质属性,以协助人群计数任务。具体来说,我们制定了观测到的属性作为三个辅助任务,以规范的学习的中间功能的主要任务的密度估计。辅助任务的学习驱动嵌入关于几何、语义和整体密度水平的信息,这有助于特征对尺度变化和杂波背景更加鲁棒。所提出的方法在推理时不产生任何额外的计算,这比一般的特征融合方案增加了表示的效率在多个数据集上的大量实验表明,与最近的最先进的方法相比,我们的模型取得了显着的改进或竞争力的结果。7. 致谢本 工 作 得 到 国 家 重 点 研 究 发 展 计 划( 2017YFB1002401 ) 、 国 家 自 然 科 学 基 金(61571297、61420106008)、111计划(B07022)和国家科技部(18DZ2270700、18DZ1112300)的部分资助。12744引用[1] Rodrigo Benenson,Mohamed Omran,Jan Hosang,andBernt Schiele.行人检测十年,我们学到了什么?欧洲计算机视觉会议,第613-627页。Springer,2014.[2] 瑞 奇 · 卡 鲁 阿 纳 多 任 务 学 习 。Machine learning , 28(1):41[3] 陈克,陈昌来,龚少刚,和托尼·席昂.用于局部人群计数的特征挖掘在BMVC,第1卷,第3页,2012中。[4] KHJS Jifeng Dai和Yi Li R-fcn。通过基于区域的全卷积网络进行目标检测。NIPS,2016年。[5] Kai Kang和Xiaogang Wang。用于人群分割的全卷积神经网络。arXiv预印本arXiv:1411.4464,2014年。[6] 丹孔、道格拉斯·格雷和海涛。使用视点不变训练计算人群中的行人。BMVC,第1-6页[7] 丹孔、道格拉斯·格雷和海涛。人群计数的视点不变方法在第18届模式识别国际IEEE,2006年。[8] 舒空和查尔斯·福克斯。循环中具有透视理解的循环场景解析。arXiv预印本arXiv:1705.07238,2017。[9] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展,第1097-1105页,2012年[10] 熊谷翔平、堀田和宏、栗田多纪夫。计数cnn的混合。机器视觉与应用,2018年7月。[11] Victor Lempitsky和Andrew Zisserman。学习计算图像中的物体。神经信息处理系统进展,第1324-1332页,2010年[12] 李玉红,张晓凡,陈德明。Csrnet:用于理解高度拥挤场景的扩展卷积神经网络。在IEEE计算机视觉和模式识别会议论文集,第1091-1100页[13] Fayao Liu,Chunhua Shen,Guosheng Lin,and Ian Reid.使用 深度 卷积神 经场 从单目 图像 学习深 度。 IEEEtransactionsonpatternanalysisandmachineintelligence,38(10):2024[14] Jiang Liu,Chenqiang Gao,Deyu Meng,and AlexanderG Hauptmann. Decidenet:通过注意力引导检测和密度估计来计算不同密度的人群。在IEEE计算机视觉和模式识别会议论文集,第5197-5206页[15] 陈昌来,陈可,龚少刚,陶祥昂.人群计数和分析:方法和评价。在人群的建模,模拟和视觉分析中,第347-382页。Springer,2013.[16] Dani e lOnoro-Rubio和RobertoJLo'pez-Sastre。通过深度学习实现无视角对象计数。在欧洲计算机视觉会议上,第615-629页。施普林格,2016年。[17] Viet-Quoc Pham,Tatsuo Kozakaya,Osamu Yamaguchi和Ryuzo Okada。计数森林:基于随机森林的不确定目标 群 密 度 估 计 。 在 IEEE International Conference onComputer Vision的会议记录中,第3253-3261页[18] Rajeev Ranjan , Vishal M Patel , and Rama Chellappa.Hy-表面:用于人脸检测、地标定位、姿势估计和性别识别的深度多任务学习框架。IEEE Transactions onPattern Analysis and Machine Intelligence,2017。[19] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn:利用区域建议网络进行实时目标检测。神经信息处理系统的进展,第91-99页,2015年[20] Deepak Babu Sam和R Venkatesh Babu。自顶向下的反馈用于人群计数卷积神经网络。arXiv预印本arXiv:1807.08881,2018。[21] Deepak Babu Sam、Neeraj N Sajjan、R Venkatesh Babu和Mukundhan Srinivasan。分裂和成长:随着cnn不断增长,捕捉人群图像的巨大多样性。arXiv预印本arXiv:1807.09993,2018。[22] Deepak Babu Sam、Shiv Surya和R.文卡特什先生用于人群计数的开关卷积神经网络在2017年IEEE计算机视觉和模式识别会议上,CVPR 2017,檀香山,HI,美国,2017年7月21日至26日,第4031-4039页[23] Craig Saunders , Alexander Gammerman , and VolodyaVovk.对偶变量岭回归学习算法。一九九八年。[24] Zan Shen,Yi Xu,Bingbing Ni,Minsi Wang,JianguoHu,and Xiaokang Yang.通过对抗性跨尺度一致性追求的人群计数。在IEEE计算机视觉和模式识别会议集,第5245- 5254页[25] Biyun Sheng,Chunhua Shen,Guosheng Lin,Jun Li,Wankou Yang,and Changyin Sun.密集属性特征图上加权vlad的群体计数。IEEE Trans- actions on Circuits andSystems for Video Technology,2016。[26] Oliver Sidla, Yuriy Lypetskyy , Norbert Brandle, andStefan Seer.行人检测和跟踪计数应用在拥挤的情况下。在2006年IEEE视频和基于信号的监控国际会议上,第70-70页。IEEE,2006年。[27] Karen Simonyan和Andrew Zisserman用于大规模图像识别 的 非 常 深 的 卷 积 网 络 。 arXiv 预 印 本 arXiv :1409.1556,2014。[28] Vishwanath A Sindagi和Vishal M Patel。基于cnn的cas-caded多任务学习的人群计数的高级先验和密度估计。高级视频和基于信号的监控(AVSS),2017年第14届IEEE国际会议,第1-6页。IEEE,2017年。[29] Vishwanath A Sindagi和Vishal M Patel。使用上下文金字塔 cnn 产 生 高 品 质 人 群 密 度 图 。 IEEEInternationalConference on Computer Vi-sion,2017。[30] Vishwanath A Sindagi和Vishal M Patel。基于cnn的单张图像人群计数和密度估计的研究进展模式识别快报,2017年。12745[31] Venkatesh Bala Subburaman , Adrien Descamps , andCyril Carincotte.使用通用头部探测器计算人群中的人数 。 在 Advanced Video and Signal-Based Surveillance(AVSS),2012年IEEE第九届国际会议上,第470-475页IEEE,2012。[32] 安德烈·维达尔迪和卡雷尔·伦茨。Matconvnet:卷积神经网络。第23届ACM国际多媒体会议论文集,第689-692页。ACM,2015.[33] 埃拉德·瓦拉赫和里奥·沃尔夫学习与cnn助推计数。欧洲计算机视觉会议,第660-676页。施普林格,2016年。[34] Yi Wang和Yuexian Zou。 快速视觉目标计数通过基于实例的密度估计。在图像处理(ICIP)中,2016IEEE国际会议,第3653-3657页。IEEE,2016.[35] Cong Zhang , Hongsheng Li , Xiaogang Wang , andXiaokang Yang.通过深度卷积神经网络进行跨场景人群计数。在IEEE计算机视觉和模式识别会议论文集,第833-841页,2015年。[36] Yingying Zhang,Desen Zhou,Siqin Chen,ShenghuaGao,and Yi Ma.通
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功