没有合适的资源?快使用搜索试试~ 我知道了~
合成数据提高野外人群计数性能
1从合成数据中学习用于野外群体计数王琦,高俊宇,林伟,袁媛西北工业大学计算机学院和光学图像分析与学习中心,陕西西安; R. 中国{crabwq,gjy3035,elonlin24,y.yuan1.ieee}@ gmail.com摘要近年来,由于其广泛的应用(例如,视频监控、公共安全)。在野外这是一项艰巨的任务:环境多变,人员数量大范围,导致现有的方法不能很好地发挥作用。此外,由于数据的稀缺性,许多方法在不同程度上遭受过拟合。为了解决上述两个问题,首先,我们开发了一个数据采集器和标注器,它可以生成合成的人群场景,并同时注释它们,而不需要任何人力。在此基础上,我们建立了一个大规模的,多样化的合成数据集。其次,我们提出了两种利用合成数据来提高野外人群计数性能的方案:1)在合成数据上预训练群体计数器,然后使用真实数据对其进行微调,这显著地提高了模型在真实数据上的性能; 2)提出了一种基于领域自适应的人群计数方法,将人类从繁重的数据标注中解放出来。大量的实验表明,第一种方法在四个真实数据集上达到了最先进的性能,第二种方法优于 我 们 的 基 线 。 数 据 集 和 源 代 码 可 在https://gjy3035.github.io/GCC-CL/上获得。1. 介绍人群计数是人群分析的一个分支[17,29,18,37],对于视频监控,公共区域规划,交通流量监控等至关重要。这个任务的目的是预测密度图和估计人群场景的人数。目前,许多基于CNN和GAN的方法[43,31,32,33,7]在现有数据集上获得了出色的性能。上述方法的重点是如何学习有效的和有区别的特征(如局部模式,全局上下文,多尺度特征等),以提高模型同时,上述主流的深度学习方法需要大量准确标记和多样化的数据。不幸的是,目前的数据集Finetune监督人群计数图像标签图像&标签图像Image合成数据真实世界数据人群计数通过域适配翻译 伊马格e合成&标签图像SE循环增益预先训练的人群计数器人群计数器人群计数器图1.使用建议的GCC数据集的两种方式:监督学习和领域自适应。[8,9,41,43,38,14,15]不能完全满足需求,这也导致了两个棘手的问题,人群计数在野外。首先,它导致现有的方法无法处理野外一些不可见的极端情况(如多变的天气、多变的光照和大范围的人数)。其次,由于标记数据的稀缺性,许多算法会出现过拟合,这会导致在将它们转移到野外或其他场景时性能大幅下降。此外,拥挤人群数据集中存在一个固有的问 题 : 标 签 不 是 很 准 确 , 例 如 UCF CC 50 [14] 和Shanghai Tech A [43](简称“SHT A”)中的一些为了解决上述问题,我们从数据和方法两个方面着手. 从数据的角度,我们开发了一个数据采集器和标注器,它可以生成合成的人群场景,并自动标注它们。通过收集器和标记器,我们构建了一个大规模和多样化的综合人群计数数据集。数据是从电子游戏侠盗猎车手V(GTA5)收集的,因此它被命名为 与现有的真实数据集相比,有四个优势:1)免费采集和标注; 2)更大的数据量和更高的分辨率;3)场景更加多样化,4)注释更加准确S.详细统计数据见表1。从方法论的角度,我们提出两个81988199如何利用合成数据来提高在野外的表现。首先,我们提出了一种监督策略来减少过拟合现象。具体来说,我们首先利用大规模的合成数据来预训练一个群体计数器,这就是我们设计的空间全卷积网络(SFCN)。然后,我们使用实际数据微调所获得的这一战略可以有效地促进-测试真实数据上的性能。传统模型(从头开始训练[43,26,7]或图像分类模型[5,33,15])具有随机初始化或规则分布的一些层,这不是一个好方案。与之相比较,我们的策略可以提供更完整、更好的初始化参数.其次,提出了一种域自适应的人群计数方法,提高了跨域迁移的能力。具体来说,我们提出了一个SSIM嵌入(SE)循环GAN,它可以有效地将合成的人群场景转换为真实场景。在训练过程中,我们引入了结构相似性指数(SSIM)损失。这是一个惩罚之间的原始图 像 和 重 建 图 像 通 过 这 两 个 发 生 器 。 与 原 有 的CycleGAN算法相比,该算法有效地保持了局部模式和纹理信息,特别是在拥挤的人群区域和某些背景中。最后,我们将合成数据转换为照片般逼真的图像。基于这些数据,我们训练了一个没有真实数据标签的人群计数器,它可以在野外很好地工作图1展示了所提出的方法的两个流程图。总之,本文的贡献有三个1) 我们是第一个开发用于人群计数的数据收集器和标签器的公司,它可以自动收集和注释图像,而无需任何人工成本。通过使用它们,我们创建了第一个大规模,合成和多样化的人群计数数据集。2) 我们提出了一个预训练方案,以促进原始方法此外,通过该策略,我们提出的SFCN实现了国家的最先进的结果。3) 我们是第一个通过域自适应提出人群计数方法的人,它不使用任何真实数据的标签。通过我们设计的SE循环GAN,可以显着减少合成数据和真实数据之间的域差距。最后,该方法优于两个基线。2. 相关作品人群计数方法。主流的基于CNN的人群计数方法[42,43,35,36,19,22,15,7,33,26]通过设计有效的网络架构来创造新的记录[42,35]利用多任务学习来探索表1.七个真实世界数据集和合成GCC数据集的统计数据数据集Number个图像平均决议计数统计总MinAveMax加州大学圣地亚哥分校[8]2,000158× 23849,885112546购物中心[9]2,000480× 64062,325133153[14]第十四话502101× 288863,974941,2794,543[ 41 ]第四十一话3,980576× 720199,923150253[43]第四十三话482589× 868241,677335013,139SHT B [43]716768× 102488,4889123578UCF-QNRF [5]1,5252013× 29021,251,6424981512,865GCC15,2121080 ×1920 7,625,84305013,995不同任务之间的关系,以提高计算能力。[43,15,7,26]整合多流、多尺度或多级网络的特征,以提高密度图的质量。[36,19]试图对人群场景的大范围上下文信息进行编码。为了解决稀缺数据,[22]提出了一种自监督学习来利用未标记的Web数据,[33]提出了一种深度负相关学习来减少过度拟合。人群计数数据集。除了算法之外,数据集还潜在地促进了人群计数的发展。UCSD [8]是Chan等人从加州大学圣地亚哥分校发布的第一个人群计数数据集。它记录的是一个行人通道上的人群,这是一个稀疏的人群场景. Chen等人。 [9]提出了一个公共Mall数据集,记录了购物中心场景。Idrees等人。 [14]发布了高度拥挤人群场景的UCF CC 50数据集。WorldExpoZhang等人。 [43]介绍了上海科技数据集,包括高质量的真实世界图像。Idrees等人。 [15]提出了一个大规模的极度拥挤的数据集。关于它们的更详细信息列于表1。合成数据集。注释地面实况是一项耗时且劳动密集型的工作,特别是对于像素级任务(例如语义分割,密度图估计)。为了解决这个问题,发布了一些合成数据集[28,16,27,30,6]以节省人力。[28,16,27]收集基于G-TA 5的合成场景。具体来说,[28]开发了一种基于渲染管道的快速注释 Johnson-Roberson等人[16]提出了一种根据深度信息分析引擎内部缓冲区的方法,该方法可以产生精确的对象掩码。[27]提出了一种在不修改源代码和内容的情况下从G-TA 5中提取数据的方法,它可以提供六种类型的地面实况。[30,6]基于一些开源游戏引擎构建合成模型。[30]利用Unity Engine [3]构建自动驾驶的合成街道场景数据,生成像素分割标签和深度图。[6]基于虚幻引擎4 [4]对合成的人重新识别数据集进行解压缩。8200场景容量:0~100~250~50 0~100 0~300 0~600 0~1000 0~2000 0~4000时间戳:0:00~2:59 3:00~5:59 6:00~8:59 9:00~11:59 12:00~14:59 15:00~17:59 18:00~20:59 21:00~23:59天气状况:晴朗云雨雾雷阴天额外的阳光图2.建议的GCC数据集从三个视图显示:场景容量,时间戳和天气条件。第1阶段图像+=阶段2图像组合图像四个监视摄像机配备有不同的参数(位置、高度、旋转/俯仰角)。最后,建立了400个不同的场景。在这些 场 景 中 , 我 们 实 验 性 地 定 义 了 感 兴 趣 区 域(ROI),图3.拥挤人群场景的图像组合演示。3. GTA5人群计数(GCC)数据集《 侠 盗 猎 车 手 5 》 ( Grand Theft Auto V , 简 称GTA5)是Rockstar Games于2013年推出的一款电脑游戏。在GTA5中,玩家可以沉浸在虚拟世界中的游戏中,这是一个以洛杉矶为G-TA 5采用专有的Rockstar高级游戏引擎(ARG),以提高其绘制距离渲染能力.得益于优秀的游戏引擎,它的场景渲染、纹理细节、天气效果等都非常接近现实世界的情况。此外,Rockstar Games允许玩家开发非商业或个人用途的mod。考虑到上述优点,我们在GTA 5中开发了一个用于人群计数的数据收集器和标记器,该数据收集器和标记器基于Script Hook V [2]。Script Hook V是一个用于开发游戏插件的C++库。我们的数据采集器通过利用虚拟世界中的对象来构建复杂拥挤的人群场景。然后,采集器从构建的场景中捕获稳定的图像。最后,通过分析绘制模板中的数据,自动标注人的头部位置之前的合成GTA5数据集[28,16,27]捕获了由游戏编程指导的正常场景。不幸的是,在GTA5中没有拥挤的场景。因此,我们需要设计一种策略来构建人群场景,这是与他们最明显的区别。3.1. 数据收集本节介绍数据采集的流水线,包括以下三个模块。场景选择。GTA5中的虚拟世界建立在一个虚构的城市上,占地面积为252平方公里。在城市中,我们选择了100个典型地点,如海滩,体育场,商场,商店等。对于每个位置,并根据一般意义排除一些无效区域人物模型。人是人群场景的核心。因此,我们有必要在我们提出的数据集中描述人模型。在GCC数据集中,我们采用265GTA5中的人物模型:不同的人物模型具有不同的肤色、性别、形状等。此外,对于每个人的模型,它有六个变化的外观,如服装,理发等。为了提高人物模型的多样性,每个模型被命令在稀疏的人群场景中做面向拥挤人群的场景合成。由于GTA5的限制,人数必须少于256.考虑到这一点,对于拥挤的人群场景,我们采取了一个逐步的方法来生成场景。具体来说,我们分割几个不重叠的区域,然后将人放置在每个区域中。接下来,我们将多个场景集成到一个场景中。图3描述了主要的整合过程:人被依次放置在红色和绿色最后,将两个图像合并为一个。摘要生成的流程图如下所述。 构建场景:a)选择一个位置并设置摄像机,b)分割人群的感兴趣区域(ROI),c)设置天气和时间。地点人员:a)cre-b)从模板中获取人的掩模; c)将多幅图像合并到一幅图像中; d)去除被遮挡的头部位置。 演示视频可在以下网址获得:https://www.youtube.com/watch? v=Hvl7xWklueo。3.2. GCC的特性GCC 数 据 集 由 15 , 212 幅 图 像 组 成 , 分 辨 率 为1080×1920,包含7,625,843人。与现有数据集相比,GCC是一个更大规模的人群计数数据集,无论是图像数量还是人数。表1比较了GCC和现有数据集的基本信息。除了上述优点外,GCC比其他真正的-8201空间输入图像密度图扩张图4.建议的GCC数据集上人群计数的统计直方图。(a) 时间戳分布。(b)气象条件分布。图5. GCC数据集上的时间戳和天气状况分布的饼图。在左侧饼图中,标签世界数据集不同的场景。GCC数据集由400个不同的场景组成,其中包括多种类型的位置。例如,室内场景:便利店、酒吧等。户外场景:商场、街道、广场、体育场等。此外,所有场景根据它们的空间容量被分配有级别标签。图中的第一行。2展示了不同层次的典型场景。通常,为了覆盖人的范围,较大的场景具有更多的图像。因此,如下进行设置:具有第一/第二/最后三个级别的场景包含30/40/50个图像。此外,包含一些不适当的事件的图像应该被删除.最后,某些场景中的图像数量可能小于其预期值。图4展示了GCC数据集的人口分布直方图。现有的数据集只关注稀疏或拥挤人群中的一种然而,一个大的场景也可能包含很少的人在野外。考虑到在图像的生成过程中,人的数量在其水平范围内被设置为随机值。因此,GCC比其他真实数据集具有更大的范围。多样化的环境。为了构建接近野外的数据,在一天中的随机时间和随机天气条件下捕获图像。在GTA5中,我们选择了七种天气类型:晴,多云,雨,雾,雷,阴,特晴。图的最后两行。2说明了在不同的时间和不同的天气下的范例。在生成过程中,我们往往会在一般条件下生成更多的图像图中的两个扇区图。5分别显示亲,图6.空间FCN(SFCN)的体系结构。GCC数据集的时间戳和天气条件的部分分布4. 监督人群计数基于FCN的方法[43,24,40,19]在人群计数方面表现良好。在本节中,我们设计了一个有效的空间全卷积网络(SFCN)来直接回归密度图,它能够编码全局上下文信息。4.1. 网络架构全 卷 积网 络 ( FCN ) 由 Long 等 人 在 2016 年 提 出[23FCN使用卷积层代替传统CNN中的全连接层,保证了网络可以接收任意大小的图像,并产生相应大小的输出。为了编码上下文信息,Pan等人。 [25]通过四个方向(下,上,左到右和右到左)上的卷积序列提出了一个空间编码器。在本文中,我们设计了一个空间FCN(SFCN)来生成密度图,它采用VGG-16 [34]或ResnNet-101 [12]作为主干。具体地说,就是在主干的顶部增加了空间编码器特征图流程如图1所示六、在空间编码器之后 在这里,我们不回顾空间编码器,因为有限的空间。期间在训练阶段,目标是在像素级上最小化标准均方误差;学习率设置为10−5; Adam算法用于优化SFCN。4.2. 实验在本节中,进行了两种类型的实验:1)在GCC数据集内进行训练和测试; 2)GCC上的预训练和真实数据集上的微调。4.2.1GCC数据集实验我们报告了在GCC数据集中进行的大量实验的结果,该实验从三种不同的训练策略中验证了SFCN:随机、跨相机和跨位置分裂。具体而言,本文对这三种策略进行了如下阐述.1)随机分割:整个数据集8202表2.我们提出的SFCN和三个经典的方法在GCC数据集上的结果方法随机分裂交叉摄像机分裂跨位置拆分MaeMSEPSNRSSIMMaeMSEPSNRSSIMMaeMSEPSNRSSIMMCNN [43]100.9217.624.000.838110.0221.523.810.842154.8340.724.050.857CSR [19]38.287.629.520.82961.1134.929.030.82692.2220.128.750.842FCN42.398.730.100.88961.5156.628.920.87497.5226.829.330.866SFCN36.281.130.210.90456.0129.729.170.88989.3216.829.500.906随 机分 为 两组 ,分 别 为训 练 集( 75%) 和测 试 集(25%)。2)交叉摄像机分割:对于特定位置,随机选择一个监控摄像机进行测试,其他监控摄像机进行训练。3)交叉位置分割:我们随机选择75/25个位置进行训练/测试。这些方案可以有效地评估GCC上的算法表2报告了 我 们 的 SFCN 和 两 种 流 行 方 法 ( MCNN [43] 和CSRNet[19])在建议的GCC数据集上的性能4.2.2预训练微调实验由于缺乏真实的标记数据,许多现有的方法存在过拟合问题。一些方法([5,33,15])利用基于ImageNet数据库的预训练模型[10]。然而,训练的分类模型(VGG [34],ResNet [12]和DenseNet [13])不是回归问题的最佳初始化:回归层和特定模块仍然以随机或规则分布初始化。在本文中,我们提出了一个新的方案来解决上述问题:首先在大规模GCC数据集上对所设计的模型进行预训练;然后使用真实数据集对在GCC上预训练的模型进行微调。在最后一步中,对整体参数进行训练,这比传统的训练方法要好。为了验证我们的策略,我们在 两 个 数 据 集 ( UCF-QNRF 和 SHT B ) 上 进 行 了MCNN,CSR和SFCN。请注意,SFCN采用VGG-16作为主干,SFCN†使用ResNet101主干。表3示出了比较实验的结果。从中,我们发现使用预训练的GCC模型比不使用或使用ImageNet分类模型更好。具体来说,对于从头开始的MCNN,我们的策略可以减少大约30%的估计误差。对于使用预训练的ImageNet分类模型的SFCN,我们的方案在四组实验中也平均减少了我们还在五个真实数据集上展示了SFCN的最终结果,这些数据集在使用GCC的预训练SFCN上进行了微调与最先进的性能相比,SFCN†刷新了四个数据集的记录。详细结果比较见表4。5. 通过域自适应的人群计数最后一节提出了在合成或真实数据集上的监督学习,它采用真实数据的标签。表3.预训练GCC模型对微调真实数据集(MAE/MSE)的影响。“*” denotes other researchers’方法PreTrUCF-QNRFSHHT BMCNN* 没有一第277/426号决议[15]26.4/41.3MCNN没有一281.2/445.026.3/39.5MCNNGCC199.8/311.2(↓29/30%)18.8/28.2(↓29/29%)CSR*ImgNt-10.6/16.0 [19]CSRImgNt120.3/208.510.6/16.6CSRGCC112.4/185.6(↓7/11%)10.1/15.7(↓5/5%)SFCNImgNt134.3/240.311.0/17.1SFCNGCC124.7/203.5(↓7/15%)9.4/14.4(↓15/16%)SFCN† ImgNt114.8/192.08.9/14.3SFCN†GCC102.0/171.4(↓11/11%)7.6/13.0(↓15/9%)表4.在真实数据集上与最先进的性能进行比较。数据集结果(MAE/MSE)SOTASFCN†UCF-QNRF [5]CL[15]:132/191102.0/171.4[43]第四十三话SA[7]:67.0/104.564.8/107.5SHT B [43]SA[7]:8.4/13.67.6/13.0[14]第十四话SAN[21]:219.2/250.2214.2/318.2[ 41 ]第四十一话ACSCP[32]:7.5(MAE)9.4(MAE)对于极其拥挤的场景,手动标注是一项繁琐的工作。不仅如此,人工标注也存在标注错误。因此,我们尝试提出一种通过域自适应来节省人力的人群计数方法,该方法从合成数据中学习特定的模式或特征,并将其转移到现实世界中。通过这种思想,我们不需要对真实数据进行任何手动标记然而,合成数据与真实世界的数据有很大的差异(如颜色风格、纹理等),这被称为即使在现实生活中,领域差距也很常见。例如,上海科技城B区和世博因此,如何在不同的领域之间传递有效的特征,即领域自适应问题,是一个重要的研究课题在这项工作中,我们提出了一种人群计数方法vi-一种域自适应算法,可以有效地学习合成数据和真实数据之间的域不变特征。具体地说,我们提出了一个SSIM嵌入(SE)循环GAN将合成图像转换为照片级真实感图像。然后,我们将在转换后的数据上训练SFCN。最后,我们直接在真实数据上对模型进行了检验整个过程不需要任何手动标记的数据。图78203合成图像照片级真实感图像(用于培训)预测密度图标签:GAN2-D伪矢量损失DSMSE损失GS->R地面真相SSIM嵌入循环损耗SFCN总和最终计数调用的图像真实图像(用于测试)预测密度图公司简介图7.通过域适应提出的人群计数的流程图。浅绿色区域表示SSIM Embedding(SE)Cycle GAN,浅橙色区域表示Spatial FCN(FCN)。由于篇幅所限,我们没有给出真实图像到合成图像(R→S)的自适应流程,这类似于S→R。演示了所提出的方法的流程图。5.1. SSIM嵌入循环GAN训练目标是对抗损失[11],其公式为:LGAN(GS→R,DR, S, R)在这里,我们回顾通过域adap的人群计数=EiRIR[log(DR(iR)](二)用数学符号表示DA的目的是学习合成域+EiS IS [log(1− DR(GS→R(iS))].S和现实世界的域R。合成域S提供图像IS和计数标记LS。而现实世界的域R只提供图像IR。 一句话,给定iS∈ IS,lS∈ LS和iR∈ IR(其中的两个字母表示最终损失函数定义为:LCycleGAN(GS→R,G R→S,D R,D S,S,R)=LGAN(GS→R,DR,S,R)发送相应集合中的样本),我们要训练一个人群计数器来预测R的密度图。公司简介(GR→S,DS、S、R)(三)循环增益最初的循环GAN [44]是由Zhu等人提出的。,其专注于不成对的图像到图像的翻译。对于不同的两个领域,我们可以利用循环GAN来处理DA问题,它可以将合成图像转换为照片级真实感图像。对于域S和R,我们定义了两个生成元GS→R和GR→S. 前者试图从do中学习映射函数主S到R,反之亦然,后者的目标是学习在[44]之后,我们引入了周期一致性损失来规范训练过程。具体地说,对于样品iS和iR,我们的一个观察结果是,是iS→GS→R(iS)→GR→S(GS→R(iS))<$iS。另一个目标是逆过程的iR。循环一致性损失是循环架构中的L1惩罚其定义如下:L循环(GS→R,GR →S,S,R)=EiS<$IS[<$GR→S(GS→R(iS))−iS<$1](1)+ EiR<$IR[<$GS→R(GR→S(iR))−iR<$1]。此外,还分别对GS→R和GR→S构造了两个判别器DR和DS.具体地说,DR试图区分图像来自哪里(IR或GS→R( IS)), 而 DS 试图区分图像来自 IS 或GR→S(IR)。以DR为例,8204+λL循环(GS→R,GR→S,S,R),其中λ是周期一致性损失的权重。SSIM嵌入周期一致性丢失。在人群场景中,高密度区域与其他区域(低密度区域或背景)的最大区别在于局部模式和纹理特征。然而,在合成图像到真实图像的转换过程中,原始图像的周期一致性容易丢失,导致转换后的图像丢失细节信息,容易失真。为 了 解 决 上 述 问 题 , 我 们 将 结 构 相 似 性 指 数(SSIM)[39]引入到传统的CycleGAN中,称为“SE循环GAN”。SSIM是一种广泛应用于图像质量评价领域的指标,它根据局部模式(均值、方差和协方差)计算 两 幅 图 像 之 间 的 相 似 性 。 关 于 人 群 计 数 中 的SSIM, CP-CNN [36]是第一个使用SSIM评估密度图的人,SANet[7]采用SSIM损失生成高质量密度图。与传统的周期一致性相似,我们的目标是:GR→S(GS→R(iS))iS.具体地说,除了L1惩罚之外,SSIM惩罚被添加到训练过程中。SSIM值的范围是[-1,1],SSIM越大,图像质量越高。特别地,当两个图像相同时,SSIM值为8205表5.在五个真实世界的数据集上,无自适应(No Adpt),循环GAN和SE循环GAN(我们的)的性能方法DASHT ASHT BUCF CC 50MaeMSEPSNRSSIMMaeMSEPSNRSSIMMaeMSEPSNRSSIMNoAdpt✗160.0216.519.010.35922.830.624.660.715487.2689.017.270.386[44]第四十四话✔143.3204.319.270.37925.439.724.600.763404.6548.217.340.468SE循环GAN(我们的)✔123.4193.418.610.40719.928.324.780.765373.4528.817.010.743方法DAUCF-QNRF2010年世界博览会MaeMSEPSNRSSIMS1S2S3S4S5Avg.NoAdpt✗275.5458.520.120.5544.487.259.151.811.742.8[44]第四十四话✔257.3400.620.800.4804.469.649.929.29.032.4SE循环GAN(我们的)✔230.4384.521.030.6604.359.143.717.07.626.3等于1μ在实践中,我们将SSIM值转换为可训练形式,其定义为:LSE循环(GS→R,GR →S,S,R)=EiS<$IS[1−SSIM(iS,GR→S(GS→R(iS)](4)+ EiR<$IR[1−SSIM(iR,GS→R(GR→S(iR)],其中SSIM(·,·)是标准计算:参数设置直接跟随[39]。第一个输入是来自域S或R的原始图像,第二个输入是由两个生成器轮流最后,SE循环GAN的最终目标被定义为:Lours(GS→R,GR→S,DR,DS, S, R)=LGAN(GS→R,DR,S,R)第例如,上海科技园不包含雷电/下雨的场景,世博会训练所有翻译的合成图像可以降低特定数据集上的适应因此,我们为不同的数据集手动选择一些特定的场景。具体策略见补充说明。一般来说,这是一个粗略的数据过滤器,而不是一个精心选择。5.2. 实验5.2.1真实世界数据集上的性能在本节中,我们进行了从GCC数据集到五个主流现实世界数据集的适应实验:Shang-haiTech A/B [43],UCF CC 50 [14],UCF-QNRF [15]和[ 41 ]第四十一为了获得最佳性能,所有模型都采用了第二节中提到的场景/密度正则化。+LGAN(GR→S,DS,S,R)+λL循环(GS→R,GR→S,S,R)+µLSE循环(GS→R,GR→S,S,R),(五)第5.1节。表5示出了无自适应(无Adp-t)、循环GAN和所提出的SSIM嵌入(SE)循环GAN的结果从中我们发现了适应后的结果其中λ和μ分别是周期一致性损失和S-SIM嵌入周期一致性损失在训练阶段,µ设置为1,其他参数和设置与循环GAN [44]相同。密度/场景正则化。为了更好地从合成到真实世界的领域适应,我们设计了两种策略来帮助DA模型学习领域不变特征并产生有效的密度图。虽然我们将合成图像转换为照片级真实感图像,但在训练转换图像期间,现实世界中的一些对象和数据分布是不可见的作为逐像素回归问题,密度在理论上可以是任意值。事实上,在一些初步的实验中,我们发现实际数据中的一些背景被估计为一些异常大的值。为了处理这个问题,我们设置了一个上限MAXS,它被定义为合成数据中的最大密度。如果像素的输出值大于MAXS,则输出将被设置为0。请注意,网络由于GCC是大计数器范围和多样化的数据集,使用所有图像可能会导致域适配中的副作用这表明自适应可以有效地缩小合成数据与真实世界数据之间的领域差距。在循环GAN中嵌入SSIM损失后,在五个数据集上几乎所有性能都得到了改善在上海泰克A和UCF CC50上,PSNR只有两次降低通常,所提出的SE循环GAN优于原始循环GAN。此外,我们发现上海技术B的结果达到了良好的水平,甚至优于一些早期的监督方法[43,35,31,36,20]。主要原因有:1)真实数据具有很强的一致性,这些数据是由相同的传感器捕获的; 2)数据图像清晰度高。这两个特点保证了SE CycleGAN图8展示了上海理工大学数据集上的三组可视化结果与无自适应相比,循环GAN算法的地图质量有了显著的提高,t.从第1行,我们发现预测的地图非常接近地面实况。然而,对于极其拥挤的场景(第2行和第3行),结果8206与地面实况相差甚远我们认为主要原因是翻译后的图像丢失了细节(如纹理、锐度和边缘)8207GT:49价格:70.59价格:75.27价格:47.35GT:565Pred:257.2Pred:640.4 Pred:603.5GT:1154价格:779.2价格:1351.6价格:1217.4输入图像真实数据NoAdpt CycleGANAdpt SECycleGANAdpt(Ours)图8.不同方法在SHT数据集上的演示列,我们发现这两种适应方法造成一些副作用。事实上,他们并没有产生理想的翻译形象。在引入DSR时,过滤掉真实数据集中不存在的合成场景,提高了域自适应性能。表6.在SHT A.方法无DSR关于DSRNoAdpt163.6/244.5160.0/216.5[44]第四十四话180.1/290.3143.3/204.3SE循环增益169.8/230.2123.4/193.46. 结论图9.循环GAN和SE循环GAN的比较。在高密度地区。6.1.1SE DSRSSIM嵌入。SSIM嵌入可以保证原始合成图像和重建图像具有较高的结构相似性(SS),从而促使两个生成器图9示出了两个适配的可视化,其中第一行是原始图像,第二和第三行是循环GAN和SE循环GAN的转换图像。通过比较,后者能够保留局部纹理和结构相似性。密度/场景正则化。在这里,我们比较了三种模型(无自适应,循环GAN和SE循环GAN)没有密度/场景正则化(DSR)和DSR的性能。表6报告了在SHT A数据集上具有或不具有DSR从一开始的结果来看在本文中,我们致力于提高性能的人群计数在野外。为此,我们首先开发了一个自动数据收集器/标签器,并构建了一个大规模的合成人群计数数据集。利用生成的数据,我们提出了两种有效的方法(监督学习和域适应),以显着提高计数性能在野外。实验结果表明,有监督的方法达到了最先进的性能和域自适应方法获得了可接受的结果。在未来的工作中,我们将重点研究基于领域自适应的人群计数,并进一步探索如何在合成数据和真实数据之间提取更有效的领域不变特征。致谢。本工作得到了国家自然科学基金U1864204和61773316 项 目 、 国 家 自 然 科 学 基 金 国 家 重 点 项 目61632018项目、陕西省自然科学基金2018 KJXX-024项目和国防科技创新特区项目的资助。8208引用[1] Rockstar游戏https://www.rockstargames。com/. 3[2] 脚本钩子vhttp://www.dev-c.com/gtav/scripthookv/.3[3] Unity引擎https://unity3d.com/网站。2[4] 虚幻引擎。https://www.unrealengine.com/网站。2[5] D. Babu Sam,N. N.萨詹河Venkatesh Babu和M.斯-里尼瓦桑。分裂和成长:随着cnn不断增长,捕捉人群图像的巨大多样性。在IEEE计算机视觉和模式识别会议论文集,第3618-3626页,2018年。二、五[6] S. Bak,P. Carr和J. - F.拉隆德通过合成的领域自适应用于 无 监 督 的 人 重 新 识 别 。 arXiv 预 印 本 arXiv :1804.10094,2018。2[7] X.曹,Z. Wang,Y. Zhao和F.苏规模聚合网络,用于准确和高效的人群计数。在欧洲计算机视觉会议上,第734-750页,2018年。一、二、五、六[8] A. B. Chan,Z.- S. J.Liang和N.瓦斯康塞洛斯隐私保护人群监控:在没有人模型或跟踪的情况下计算人数在Proceedings of the IEEE conference on Computer Visionand Pattern Recognition,第1-7页一、二[9] K. Chen C.,马缨丹属C. Loy,S. Gong和T.翔用于局部人群计数的特征挖掘。英国机器视觉会议论文集,第1卷,第3页,2012年。一、二[10] J. Deng,W.东河,巴西-地索赫尔湖J. Li,K. Li和L.飞飞。Imagenet:一个大规模的分层图像数据库。IEEE计算机视觉和模式识别会议论文集,第248-255页,2009年。5[11] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利,S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。神经信息处理系统进展论文集,第2672-2680页,2014年。6[12] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残 差 学 习 。 在 Proceedings of the IEEE conference onComputer Vision and Pattern Recognition,第770-778页四、五[13] G. Huang,Z.柳湖,加-地Van Der Maaten和K. Q. 温伯格。密集连接的卷积网络。在IEEE计算机视觉和模式识别会议论文集,第4700-4708页,2017年。5[14] H.伊德里斯岛萨莱米角Seibert和M. Shah.密集人群图像中的多源多尺度计数。在IEEE计算机视觉和模式识别会议论文集,第2547-2554页,2013年。一、二、五、七[15] H. Idrees , M. 塔 亚 卜 湾 Athrey , D. Zhang , S. Al-MaadeedN. Rajpoot和M. Shah.密集人群中计数、密度图估计和定位 的 成 分 损 失 。 arXiv 预 印 本 arXiv : 1808.01050 ,2018。一、二、五、七[16] M.约翰逊-罗伯森角巴托河梅塔,S。N. 斯里达K. Rosaen和R.瓦苏德万矩阵中的驱动:虚拟世界能否取代人类生成的注释,世界任务?在IEEE机器人与自动化国际会议,第1-8页,2017年。二、3[17] J. C. S. J. Junior,S. R. Musse,和C. R.俊作。使用计算机视觉技术进行人群分析。Signal Processing MagazineIEEE,27(5):66-77,2010. 1[18] X. Li,M. Chen,F. Nie和Q.王.基于多视图的无参数群体检测框架。在第三十一届AAAI人工智能会议的论文集中,第4147-4153页,2017年。1[19] Y. Li,X. Zhang和D.尘Csrnet:用于理解高度拥挤场景的扩展卷积神经网络。在IEEE计算机视觉和模式识别会议论文集,第1091-1100页,2018年。二、四、五[20] J. Liu,C.,中国植物志和,2003 - 12 - 13; Gao,L.和A.G.豪普特曼Decidenet:通过注意力引导检测和密度估计来计算不同密度的人群。在IEEE计算机视觉和模式识别会议论文集,第5197-5206页7[21] L. Liu,H. Wang,G. Li,W. Ouyang和L.是林书使用深度递归空间感知网络的人群计数。arXiv预印本arXiv:1807.00601,2018。5[22] X. Liu,J. van de Weijer,and A. D. Bagdanov通过学习排名,利用未标记的数据进行人群计数arXiv预印本arXiv:1803.03095,2018。2[23] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络 。在IEEE计算 机视 觉和模 式识 别会议 论文 集(Proceedings of the IEEECo
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功