深度人群转移网络用于适当人群计数的认知机器人

71 浏览量更新于2023-12-09 收藏 5.82MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

认知机器人2（2022）96DCTNets：用于适当人群计数的深度人群转移网络阿尔斯兰·阿里a，卫华·欧a，萨伊马·坎瓦尔b贵州师范大学大数据与计算机科学学院中国贵阳b兰州理工大学计算机科学学院中国兰州aRT i cL e i nf o保留字：人群计数人群估计迁移学习密度图a b sTR a cT由于人群计数工作的大量实际应用，它已经成为一个热门的研究课题。现代人群计数系统具有复杂的结构，并在大图像尺寸上使用滤波器，使其难以使用。由于这些技术是计算密集型的，并且难以在小型监视系统中实现，因此它们不适合于用于小型监控系统。它们在各种尺寸和密度下的功能也很差。迁移学习和深度卷积神经网络架构用于创建一个适度但有效的网络，我们在本文中描述了这个网络。我们将所提出的人群计数架构命名为深度人群转移网络（DCTNets），因为它将深度学习和转移学习原理集成到单个系统中。DCTNet的关键组件包括基于掩码R-CNN的检测模块和基于深度卷积神经网络的估计模块。在第一步中，我们使用ShanghaiTech，JHU-CROWD++和UCF-QNRF数据集将迁移学习应用于Mask R-CNN模型。之后，我们使用迁移学习结果在这些数据集上训练和评估完整的架构。输入图像通过Mask R-CNN发送，该CNN对个体进行计数并对计数区域进行分割，然后通过估计网络估计种群大小，最后通过合并两个模型的输出。对比测试结果表明，该模型在ShanghaiTech、JHU-CROWD++和UCF-QNRF数据集上的性能优于现有的最先进方法。1. 介绍由于许多现实世界的应用，如装配控制，交通监控，人群流量估计和监测，视觉监控，人群分析，以及操作和其他安全应用，基于视觉的人群计数已经成为一个重要的和开放的研究课题。观察和分析公共场所的人群，如火车站和零售商场以及教育机构，对于确保一切正常运作是必要的。公共场所的过度拥挤往往是拥挤、打架或安全问题的标志。在企业和家庭中，闭路电视（CCTV）、监控和无人机摄像头作为一种持续维护安全和监控的手段变得越来越普遍。研究人员已经提出了各种人群计数和估计的方法;然而，基于神经网络在大多数情况下，人群分析方法的范围从计算人群中的确切人数到显示各种特征*通讯作者。电子邮件地址：ouweihua@gznu.edu.cn（W. Ou）。https://doi.org/10.1016/j.cogr.2022.03.004接收日期：2021年12月20日;接收日期：2022年3月25日;接受日期：2022年3月25日2022年4月1日上线2667-2413/© 2022作者。Elsevier B. V.代表KeAi Communications Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）可在ScienceDirect上获得目录列表认知机器人期刊首页：http://www.keaipublishing.com/en/journals/cognitive-robotics/A. Ali，W. Ou和S. 坎瓦尔认知机器人2（2022）9697图1.一、在第一行的每个图像中有95 个人，但具有不同的空间分布，如下面第二行所示。输入图像分布[1]。模型的输出，人群分布图，然后用于提供有关人群的详细信息。然而，如果算法产生相同数量的人的相同分布，但这些人分布在整个图像的不同位置，如图所示，则是危险的。1.一、传统算法难以创建高度准确的分布模式，而拥挤的图像则是由于不均匀的人群和各种相机视角。早期提出的算法也采用了检测计数的思想，即在正确检测到一个人后对其进行计数[2]。这些类型的方法需要大量数据，并且需要出色的训练才能获得良好的性能。最新的卷积神经网络（CNN）和深度神经网络（DNN）是有效的框架，它们在分割任务[3-但大多数视觉显著性和分布图解决方案很难在小型和低功耗的实时人群场景分析监控系统中实现。因为现有的方法[9-[12]进行的详细比较实验表明，与简单的更深CNN架构相比，具有复杂分支的多列卷积神经网络（MCNN）模型[11]表现不佳。检测和基于回归的技术在高度拥挤的场景数据中是低效的，并且分别由于架构的复杂性。此外，Mask R-CNN[13]架构对于对象检测以及从其背景中分割是有效的，但大多数研究人员使用它在MS-COCO数据集上进行预训练[14]。Mask R-CNN是一个有效的模型，但它的预训练版本是在完整的人体上训练的，在拥挤的图像计数中表现最差。因此，研究人员[15，16]使用Mask R-CNN和不同密度估计网络的组合，以提高计数和估计方法的计数精度。同样，Mask R-CNN模型与任何其他估计架构的组合不会提高单个Mask R-CNN模型的计数精度，但它确实提高了整体精度，其中估计模型起着重要作用。在本文中，我们提出了一个有效的人群计数方法，是基于计数和估计技术相结合首先，我们采用迁移学习策略来提高Mask R-CNN算法的识别和计数准确性，使它们首次能够在混乱的情况下进行良好的计数。我们称之为基于迁移学习的检测网络（TDNet），因为我们将纯色分配给使用基于迁移学习的检测检测的输入图像区域其次，在输出图像的剩余一半中，我们使用深度卷积神经网络进行检测网络的人群估计，该检测网络被实现为深度卷积神经网络。主要贡献如下• 导致现有方法的局限性。• 我们提出了一种新的基于深度学习的近似人群计数架构，该架构采用了迁移学习方法，我们将其称为深度人群迁移网络（DCTNet）。由于迁移学习，掩码R-CNN• 此外，为了有效地计算人群的剩余部分，开发了深度CNN• 在上海理工大学Part_A、上海理工大学Part_B、JHU-CROWD++和UCF-QNRF数据集上推导结果并进行比较分析。文章的其余部分结构如下。第二部分介绍了现有的相关工作和不同的人群计数方法。在第3节中，我们解释了我们提出的DCTNets模型及其组件。第4节描述了实验设置，包括数据集，模型训练和实验结果。最后，文章在第5中结束。A. Ali，W. Ou和S. 坎瓦尔认知机器人2（2022）96982. 相关工作三种主要的传统方法用于人群分析，例如：1）基于检测的方法，2）基于回归的方法，以及3）基于密度估计的方法[17]。传统的人群分析技术目前被基于深度学习的神经网络系列算法所超越，因此，这些模型正在得到研究人员的关注2.1. 检测方法这是最早的方法之一，其使用移动窗口状检测器来检测和计数输入图像中的对象[18]。检测方法使用对象的低级特征，因此需要经过高度训练的分类器模型。这些模型在拥挤的场景数据中表现不佳，因为它们包括全身对象。这是基于检测的方法的核心问题，研究人员试图找到一种解决方案，其中模型在人体部位的帮助下给出输出，而不是完整的对象。2.2. 回归方法研究人员提出了基于回归的解决方案来克服基于检测的方法的问题。提出的回归模型首先从图像块中学习重要特征，然后计算其中的人傅立叶分析和尺度不变特征变换是回归模型，其中模型从输入图像的前景和纹理特征中获得低层信息[19]。但是，由于忽略了显著性特征，回归方法在图像的局部区域产生错误的结果2.3. 密度估计方法然后，一些研究人员提出了不同的基于密度估计的方法来解决这个问题，其中提出了一个解决方案，[20]学习密度图和局部区域之间的线性映射。他们的模型在训练过程中产生显著性信息，但模型很难获得有效的映射。与其他人不同的是，[21]使用随机森林回归模型的非线性映射学习方法2.4. CNN模型由于CNN模型在分类，识别和其他几项任务中占主导地位，因此，研究人员实施了这些模型来预测人群密度图[22]。文章[23]提出了一种基于CNN的端到端回归方法，其中所提出的模型将图像作为输入以生成完整的图像密度图。类似地，[24]实现了一个单列完全连接的CNN架构，其中使用高级先验信息以获得准确的密度图并提高模型另一个，[32]提出了一种拓扑限制，该限制应用基于连续同源性的弹性损失来模拟空间结构。但由于其庞大而复杂的结构，大多数基于CNN的解决方案都是计算密集型的最近最先进的模型是Switch-CNN[9]和上下文金字塔CNN（CP-CNN）[10]，它们使用密度水平分类器和基于MCNN的架构。这些技术是有效的，但它们也有许多缺点，例如MCNN同样，Mask R-CNN在图片中的项目完整清晰时运行得最好，但在拥挤的数据中表现不佳，因为分类器检测并计数整个人体。我们详细介绍了所有这些缺点，并在Mask R-CNN上使用迁移学习，使其在拥挤的情况下更加成功我们还提出了一个基于CNN的深度密度估计网络，它既简单又有效。3. DCT网络为了克服现有模型的复杂性，我们提出了一种由两个部分组成的新技术并提供有效的解决方案。相比之下，被分为计数检测和计数估计的模型被发现在各种设置中始终表现不佳。因此，我们建议的解决方案是两种策略的组合，利用迁移学习，同时保持架构尽可能简单。Mask R-CNN[13]是拟议架构的第一个组件。然而，它只识别和分割图像中整个身体突出的人，这与其他对象检测方法不同。我们的迁移学习方法用于改进并使其在拥挤的环境中更有效，因为它无法识别拥挤照片中的人，因为它在这些情况下具有最先进的性能。首先，我们将一张照片输入到我们修改后的Mask R-CNN模型中，然后识别，分割和计数这些人根据他们的面部特征来识别图像。然后从图像中去除分割区域，并将修正后的图像重新发送给估计算法进行评估。因此，我们提出了一种基于深度CNN的高效但简单的估计模型，当Mask R-CNN无法分割极其拥挤的场景时，使用密度图来估计图像的剩余部分图3描绘了所提出的深度人群传输网络（DCTNet）架构。两个组件的单独细节如下所示。A. Ali，W. Ou和S. 坎瓦尔认知机器人2（2022）9699图二. Mask R-CNN图三. 建议的DCT网络3.1. 转网传统的Mask R-CNN[13]属于深度神经网络家族，它是Faster R-CNN[8]架构的扩展版本Mask R-CNN分两步完成：首先，它定位项目该模型为了区分每个图中的每个像素Xel，每个像素x el被分配一个S形函数，并且使用二进制交叉熵损失来计算图损失掩模损失被并入数据集的地面实况类的输入数据中。为了感谢研究人员社区慷慨地提供了在MS COCO数据集上开发的Mask R-CNN模型的预训练版本[14]，我们在实验中使用了该模型。因此，由于它是在人类的整个身体上训练的，所以预训练的模型在处理大量数据时是不准确的。简而言之，如果模型找到了一个完整的人体，它会对其进行分割和计数;否则，它只会在人脸或头部上表现不佳。不幸的是，我们的情况是独特的，因为它涉及一个完整的人体在一张照片。因此，我们使用迁移学习在打包的数据集上训练预训练模型，如图2所示。预训练的Mask R-CNN模型的架构以绿色表示，下面的部分是在其上的迁移学习我们保留了大部分架构与迁移学习的原始架构相同，但我们改变了架构的头部部分，这是主要部分，包括处理类，边界框和创建掩码部分。我们将输入图像转换为三维数组，其形状为（256，256，3），分别用于高度，宽度和三个颜色通道。算法批量获取图像及其标签，其中数组维度扩展到（batch-size，256，256，3）。最后，我们计算每个掩模在架构的每一层的骰子系数，然后在整个批次中对其进行平均A. Ali，W. Ou和S. 坎瓦尔认知机器人2（2022）96100||3.2. 深度网络对于密度估计任务，我们再次考虑最有效但预训练的模型。我们评估了[9，25，26]并选择VGG16模型[27]作为我们估计架构的前端模块。凭借其灵活的设计，VGG16 CNN算法能够接受迁移学习和与任何后端方法的级联。ImageNet数据集[28]用于训练网络，然后用于ImageNet大规模视觉识别挑战赛2014，在那里它被认为是最先进的网络（ILSVRC 2014）。考虑到我们在实验中不需要分类能力，完全连接的分类层被删除，它们的位置由膨胀卷积层占据，与原始图像相比，这会产生高质量的密度另一方面，我们的估计网络非常简单，需要最小的处理能力，并且可以部署在资源有限的小型实时系统4. 实验在这项研究中，我们使用三个不同的人群数据集来分别训练我们的模型，并使用检测计数和估计计数方法进行测试此外，利用整个DCTNet，将定性和定量结果与使用公认方法获得的结果进行关于所选数据集、模型训练环境和比较实验结果的所有细节都将在本节中介绍4.1. 数据集ShanghaiTech[29]：ShanghaiTech数据集中有1198个带注释的人群图像，共计330，165个注释。数据集由两部分组成，其中Part_A包含482张拥挤场景照片，而Part_B包含716张来自上海街道的稀疏人群场景Part_A的密度明显高于Part_B。该数据集提供了一个要求严格的数据集，包括各种场景类型和密度。在我们的实验中，我们将这两个部分分为训练和测试部分，其中使用400张Part_A的图像进行训练，82张用于测试，而600张Part_B的图像用于训练，116张用于测试。JHU-CROWD++[30]：该数据集包含4372张图像，其中包含150万个以边界框、模糊级别、点等形式表示的多个注释。每张图像的总人数从0到25，791不等。所有的图像都是在不同的天气条件和不同的亮度环境下拍摄的。同样，我们将数据集分为80%和20%的比例，分别用于训练和测试UCF-QNRF[31]：该数据集包括1535张具有超过125万条注释的照片，这些照片来自Flickr，Web搜索和朝觐镜头。该数据集具有最多样化的视角，密度和照明变化范围，以及更多种类的场景。然而，有些图片过于详细，以至于在训练深度学习模型时会导致GPU上的内存问题与之前的设置类似，我们将该数据集分为80%和20%的比例，分别用于训练和测试模型。4.2. 培训我们的模型由两个组件组成;因此，我们单独训练组件以及组合。首先，我们在ShanghaiTech，JHU-CROWD++和UCF-QNRF数据集上评估和推导了预训练的Mask R-CNN的结果，然后应用迁移学习在所有包含的数据集上训练该模型其次，我们在这三个数据集上训练和评估了基于CNN的深度估计ADAM优化器用于以0.0002的学习率和每步1个批量大小来优化架构。此外，该模型经过微调，以改进对未知数据的训练和性能。我们每10个时期评估一次精度此实验设置是在基于GPU的桌面系统上完成的，该系统具有128 GBRAM、Nvidia TitanX Pascal（12 GB VRAM）和10核Intel Zeon处理器。4.3. 评估指标有几种不同的方法来评估预测估计与地面现实的绩效。在这一部分中，我们将研究各种被广泛接受和广泛使用的评估人群计数模型的方法。我们计算了平均绝对误差（MAE）和均方误差（MSE）来评估我们的模型。等式（1）和（2）分别是MAE和MSE的数学表示。��为 1∑|�� −��|（一）= 1个 |√√√1∑��|||这里N表示属于测试的图像的数量，代表了真实情况2==1��−��（二A. Ali，W. Ou和S. 坎瓦尔认知机器人2（2022）96101见图4。屏蔽R-CNN模型4.4. 上海科技实验结果本节详细介绍了上海科技数据集上的模块以及完整的架构结果。检测模型的结果：Mask R-CNN模块在ShanghaiTech数据集上的结果如图4所示，其中第一列表示来自数据集的输入图像，第二列表示没有迁移学习（TL）的结果，第三列表示将TL应用于模型后的结果，最后一列表示这些实验的定性结果。这里给出的结果是在没有应用迁移学习方法和应用迁移学习方法之后对预训练的Mask RCNN的比较检查。从直观和数值上都可以很容易地观察到，TL在多大程度上提高了Mask R-CNN模型的性能。估计模型的结果：图5显示了ShanghaiTech数据集上的深度CNN模块结果，其中第一列是来自数据集的输入图像，第二列显示了针对输入给出的真实密度图，第三列是预测密度图，最后一列显示了定性结果。最后一列描述了深度CNN模型与地面实况的定量进展。A. Ali，W. Ou和S. 坎瓦尔认知机器人2（2022）96102图五. 深度CNN模型DCTNets架构的结果：图6显示了我们提出的模型的最终结果。如第一列所示，我们将图像输入到基于迁移学习的Mask R-CNN模型中。如第二列所示，Mask R-CNN检测图像中的人，将其分割，对人进行计数，并将纯色添加到第一列所示的分割区域。然后，如第三列所示，该输出图像被输入到估计模型中，其中深度CNN模型估计图像的剩余一半中的人数，并生成密度图来表示他们的位置。接下来，我们将两个模型中的人数相加，这是建议的DCTNets架构对输入图像的总计数，以获得最终结果。图的最后一列包含比较结果的列表。由于建议的体系结构由两个模块组成，因此本节将介绍这两个模块的输出以及合并后的输出4.5. JHU-CROWD++上的实验结果本节详细介绍了JHU-CROWD++数据集上的模块以及完整的架构结果检测模型的结果：图。图7显示了JHU-CROWD++数据集上的MaskR-CNN模块结果，其中第一列是来自数据集的输入图像，第二列显示了没有迁移学习（TL）的结果，第三列显示了应用后的结果A. Ali，W. Ou和S. 坎瓦尔认知机器人2（2022）96103见图6。 DCTNets结果。模型上的TL，最后一列显示定性结果。可以定性和定量地清楚地看到TL对Mask R-CNN模型性能的改善程度。估计模型的结果：图8显示了JHU-CROWD++数据集上的深度CNN模块结果，其中第一列是来自数据集的输入图像，第二列是预测密度图，最后一列显示定性结果。在大多数情况下，当图像中的人数较少时，密度估计模型的表现非常差，估计的数量超过了地面真值。DCTNets架构的结果：图9显示了DCTNets模型的结果。我们输入图像，如第一列所示，转移到基于学习的Mask R-CNN模型，Mask R-CNN检测，分割，计数人，并将纯色添加到分割和计数的区域，如图的第二列所示。然后，将此输出图像馈送到估计模型，其中深度CNN模型估计图像剩余部分中的人，并生成密度图以显示他们的位置，如第三列所示。最后，我们将两个模型的输出相加，即所提出的DCTNets架构对输入图像的总计数。由于所提出的技术由两个模块组成，因此来自两个模块的输出以及组合输出包括在最后一列中。所提出的模型的总体结果非常接近地面真相。A. Ali，W. Ou和S. 坎瓦尔认知机器人2（2022）96104见图7。屏蔽R-CNN模型4.6. UCF-QNRF的实验结果本节深入研究UCF-QNRF数据集的模块和整体架构结果。数据集。检测模型的结果：图10显示了Mask R-CNN算法在UCF-QNRF数据集上的结果，第一列是来自数据集的输入图像，第二列显示了未将迁移学习应用于模型的结果，第三列显示了将迁移学习应用于模型后的结果，第四列显示了定性结果很明显，迁移学习方法在定性和统计上都显著提高了Mask R-CNN的性能估计模型的结果：图11显示了深度CNN方法在UCF-QNRF数据集上的结果，第一列显示了来自数据集的输入图像，第二列描绘了针对输入的给定基础事实，第三列显示了来自数据集的列显示了深度CNN预测的密度图，最后一列是关于定性结果。DCTNets架构的结果：所提出的模型的最终结果如图12所示。如图的第一列所示，我们将图像馈送到基于迁移学习的Mask R-CNN模型中，该模型检测、分割、计数并将纯色添加到分割和计数的区域，如第二列所示然后，使用此输出图像，深度CNN模型估计图像剩余部分中的人数，并生成密度图以识别其位置，如第三个图所示。A. Ali，W. Ou和S. 坎瓦尔认知机器人2（2022）96105见图8。深度CNN模型A. Ali，W. Ou和S. 坎瓦尔认知机器人2（2022）96106见图9。 DCTNets结果。柱最后，我们将两个模型的输出（即我们提出的DCTNets模型产生的总计数）与输入图像进行比较。图的最后一栏显示了比较结果。4.7. 定量结果上海科技大学数据集A和B部分的定量结果如表1所示。我们评估了我们提出的模型和现有的最先进的计数方法的性能在上海科技数据集的两个部分。我们的模型定量优于其他的，它也是一个简单而有效的解决方案，为小型和低计算能力的设备。类似地，JHU-CROWD++数据集的定量结果列于表2中。我们评估和比较我们提出的模型和现有的最先进的方法的性能。我们计算了每个模型的MSE和MAE，结果表明我们的模型在定量上优于其他模型。表3显示了UCF-QNRF数据集的定量结果。我们提出的模型的性能进行了评估，并与现有的国家的最先进的技术。我们计算了每个模型的MSE和MAE，结果表明我们的模型在数值上优于其他模型。A. Ali，W. Ou和S. 坎瓦尔认知机器人2（2022）96107见图10。屏蔽R-CNN模型表1上海科技数据集上的最新技术和建议的DCTNet。CP-CNN[10]73.6 106.4 20.1 30.1CSRNet[12] 68.2 115.0 10.6 16.0DENet[16] 65.5 101.2 9.6 15.4TopoCount[32]61.2 104.6 7.8 13.7NoisyCC[33]61.9 99.67.411.3DCTNet（我们的）60.7 99.17.510.6A部分B部分方法MaeMSEMaeMSEMCNN[11]110.2173.226.241.3A. Ali，W. Ou和S. 坎瓦尔认知机器人2（2022）96108见图11。深度CNN模型A. Ali，W. Ou和S. 坎瓦尔认知机器人2（2022）96109见图12。 UCF-QNRF数据集上的DCTNets结果。表2比较的国家的最先进的和建议的DCTNet上JHU-CROWD ++数据集。方法MAE MSE美国有线电视新闻网[11]美国有线电视新闻网[10]CSRNet[12]DENet[16] 84.6 298.7TopoCount[32]60.9267.4[33]第33话DCTNet（我们的）63.2249.3A. Ali，W. Ou和S. 坎瓦尔认知机器人2（2022）96110表3在UCF-QNRF数据集上比较最新技术和建议的DCTNet。方法MAE MSE美国有线电视新闻网[11]277 426CP-CNN[10]232 321CSRNet[12]127 199DENet[16] 197 243TopoCount[32]89 159NoisyCC[33]86 151DCTNet（我们的）84 1495. 结论在这篇文章中，提出了一种新的基于深度CNN的DCTNets模型，用于拥挤情况下的细粒度人群计数在Mask R-CNN中，我们使用迁移学习来有效地识别，分割和计数杂乱图像中的人。然后，对于处理能力很小的小型设备，创建了一种新颖而简单的基于深度CNN的拥挤估计架构。最后，我们的模型通过组合检测和估计模块的输出来增加个体总数，因为两个模型是链接的，第一个模型的输出输入到第二个模型的输入中。为了提供最先进的结果，我们的网络使用了迁移学习和扩张卷积层。在ShanghaiTech，JHU-CROWD++和UCF-QNRF数据集上，我们训练和推断了结果，并将其与最先进的方法进行了比较。竞争利益作者声明，他们没有已知的竞争性经济利益或个人关系，可能会影响本文报告的工作。确认本工作得到国家自然科学基金（No.61962010）、贵州省优秀青年科技人才（[2019]-5670）资助。引用[1]C. Zhang，K.康，H. Li，X.王河，巴西-地Xie，X.杨，数据驱动的人群理解：大规模人群数据集的基线，IEEE Trans.Multimed。18（6）（2016）1048-1061。三月十五日[2] V.A. Sindagi，V.M. Patel，基于cnn的单图像人群计数和密度估计的最新进展综述，模式识别。Lett. 107（2018）3-16.五月1[3] Y. Wei，X.Liang，Y.Chen，X.沈，M.M.郑，J.冯，Y.Zhao，S.Yan，Stc：一个简单到复杂的弱监督语义分割框架IEEETrans. 模式肛门。马赫内特尔 39（11）（2016）2314-2320。 12月6日[4] Y. Wei，J. Feng，X. Liang，M.M.郑，Y. Zhao，S. Yan，Object region mining with adversarial erasing：A simple classification to semantic segmentationapproach，in：Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2017，pp. 1568-1576年。[5] L.C. Chen，G.帕潘德里欧岛科基诺斯角Murphy，A.L. Yuille，Deeplab：使用深度卷积网络，atrous卷积和全连接crfs的语义图像分割，IEEE Trans.模式肛门。马赫内特尔 40（4）（2017年）第834-848页。四月二十七日[6] A. Bochkovskiy，C.Y. 王慧云 Liao，Yolov 4：物体检测的最佳速度和准确性，arXiv预印本arXiv：2004.10934（2020）。Apr 23[7] R. Girshick，Fast r-cnn，在：IEEE计算机视觉国际会议论文集，2015年，pp. 1440-1448年。[8] S. Ren，K.赫利河Girshick，J. Sun，Faster r-cnn：towards real-time object detection with region proposal networks，arXiv preprint arXiv：1506.01497（2015）.君4[9] D.B. Sam，S.Surya，R.V.Babu，用于人群计数的切换卷积神经网络，在：2017年IEEE计算机视觉和模式识别会议（CVPR），IEEE，2017年4031- 4039 7月21日[10] V.A. Sindagi，V.M.Patel，使用上下文金字塔cnn生成高质量人群密度图，在：IEEE国际会议论文集，计算机视觉，2017，pp。1861-1870年。[11]Y. Zhang，L. Zhou，S. Chen，S. Gao，Y. Ma，Single-image crowd counting via multi-column convolutional neural network，in：Proceedings of the IEEEConference onComputer Vision and Pattern Recognition，2016，pp. 589-597[12]Y. Li，X. Zhang，L. Chen，Csrnet：用于理解高度拥挤场景的扩展卷积神经网络，在：IEEE计算机视觉和模式识别会议论文集，2018年，第10页。1091-1100.[13]K. 他，G. Gkio X ari，P. 多拉尔河 Girshick，Mask r-cnn，在：IEEE计算机视觉国际会议论文集，2017年，pp. 2961-2969年。[14]T.Y.林，M。迈尔，S。放大图片作者：J. Ramanan，P. Dollár，C.L. Zitnick，Microsoft coco：Common objects in context，见：European Conference onComputer Vision，Springer，Cham，2014，pp. 740- 755 九月六日[15]J. Liu，C.，中国植物志和，2003 - 12 - 13; Gao，L. Meng，A.G. Hauptmann，Decidenet：通过注意力引导检测和密度估计来计算不同密度的人群，在：IEEE计算机视觉和模式识别会议论文集，2018年，pp. 5197-5206[16]L. 刘，J.姜，W.Jia，S.Amirgholipour，Y.Wang，M.Zeibots，X.Denet：a universal networkfor counting crowd with various densities and scales（Denet：一个计算不同密度和规模人群的通用网络）跨时间。23（2020）1060-1068。五月7[17]C.C.洛伊，K. Chen，S.龚氏T. Xiang，Crowd counting and profiling：methodology and evaluation，in：Modeling，Simulation and Visual Analysis of Crowds，Springer，New York，NY，2013，pp. 347-382.[18] P.Dollar角沃杰克湾Schiele，P. Perona，行人检测：对最新技术的评估，IEEE Trans. Pattern Anal.马赫内特尔34（4）（2011）743-761。八月四日A. Ali，W. Ou和S. 坎瓦尔认知机器人2（2022）96111[19]H. 伊德里斯岛萨利米角Seibert，M.Shah，在极其密集的人群图像中的多源多尺度计数，在：IEEE计算机视觉和模式识别会议论文集2547-2554[20] 诉 Lempitsky，A. Zisserman，Learning to count objects in images，Adv. 神经信息过程系统 23（2010）1324-1332。[21]V.Q.范，T.小坂屋岛山口河Okada，Count Forest：Co-voting uncertain Number of Targets Using Random Forest for Crowd Density Estimation，2015年，IEEE国际计算机视觉会议论文集，第100页。3253-3261。[22] F. Chollet，Xception：深度学习与深度可分离卷积，在：IEEE计算机视觉和模式识别会议论文集，2017年，pp. 1251-1258年。[23] C. 尚氏H.艾湾Bai，End-to-end crowd counting via joint learning local and global count，2016 IEEE International Conference on Image Processing（ICIP），IEEE，2016年，第页1215- 1219 Sep 25[24] V.A. Sindagi，V.M. Patel，基于Cnn的级联多任务学习，用于人群计数的高级先验和密度估计，在：2017年第14届IEEE高级视频和基于信号的监控（AVSS）国际会议，IEEE，2017年，pp。 1比6 八月二十九日[25] L. Boominathan，S.S.克鲁蒂文蒂河Babu，Crowdnet：一个用于密集人群计数的深度卷积网络，在：第24届ACM国际多媒体会议论文集，2016年640- 644Oct 1[26] L.C. Chen，G.帕潘德里欧F.Schro Schlafa，H.Adam，Rethinking atrous convolution for semantic image segmentation，arXiv preprint arXiv：1706.05587（2017）. 君17[27] K. 西蒙尼扬A. Zisserman，Very deep convolutional networks for large-scale image recognition，arXiv preprint arXiv：1409.1556（2014）。九月四日[28] J.邓，W.东河，巴西-地Socher，L.J. Li，K.利湖，加-地Fei-Fei，Imagenet：a large-scale hierarchical image database，in：IEEE Conference on Computer Visionand Pattern Recognition，IEEE，2009，pp. 248- 255 六月二十日[29] C. Zhang，H. Li，X. Wang，X. Yang，通过深度卷积神经网络进行跨场景人群计数，在：IEEE计算机视觉和模式识别会议论文集，2015年，pp. 833-841[30] 诉辛达吉河Yasarla，V.M.Patel，Jhu-crowd++：大规模人群计数数据集和基准方法，IEEE模式分析和机器智能，2020年。Nov 4[31]H. Idrees，M.塔亚卜湾Athrey，D. Zhang，S. Al-Maadeed，N. Rajpoot，M. Shah，计数的组成损失，密度图估计和密集cCrowds中的定位，在：欧洲计算机视觉会议（ECCV），2018年，pp. 532-546[32] S. Abousamra，M. Hoai，D. 萨马拉斯角 Chen，具有拓扑约束的人群定位，AAAI，2021。五月18[33] J. Wan，广枣A. Chan，人群计数的噪声标注建模，Adv. 神经信息过程系统 33（2020）。

下载后可阅读完整内容，剩余1页未读，立即下载