基于密度映射回归的RGB-D人群计数和定位检测网络

121 浏览量更新于2023-10-18 收藏 1.84MB PDF 举报

头部定位

大规模数据集

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1821×基于密度映射回归的RGB-D人群计数和定位检测网络连东泽1人，李静1人，郑佳1人，罗伟新1人，2人，高盛华1人1上海科技大学2优科智能{liandz，lijing1，zhengjia，luowx，gaoshh}@ shanghaitech.edu.cn摘要为了同时估计人头数和定位与包围框的人头，提出了一种回归引导检测网络（RDNet）的RGB-D人群计数。具体而言，为了提高针对小/微小头部的基于检测的方法的鲁棒性，我们利用密度图来提高检测网络中的头部/非头部分类，其中密度图用作像素是头部的概率还引入了考虑头部尺寸变化的深度自适应内核，以生成高保真密度图，从而实现更鲁棒的密度图回归。此外，深度感知锚被设计用于在检测框架中更好地初始化锚大小然后，我们使用边界框，其大小根据深度估计来训练我们的RDNet。现有的RGB-D数据集太小，不适合对基于数据驱动的方法进行性能评估，我们收集了一个大规模的RGB-D人群计数数据集。在我们的RGB-D数据集和MICC RGB-D计数数据集上的实验表明，我们的方法在RGB-D人群计数和定位方面取得了最好的性能。此外，我们的方法可以很容易地扩展到基于RGB图像的人群计数，并在上海科技B部分数据集上实现了计数和定位的可比性能。1. 介绍人群计数是一种估计图像或监控视频中的人数的任务，由于其在安全相关场景中的潜在应用，它已经引起了计算机视觉界的广泛关注。几乎所有以前的作品都以基于RGB图像的人群计数为目标[37，21，25，17]，并在此任务上取得了令人满意的性能。随着深度传感器的普及，人们也提出研究RGB-D人群计数[36，1，4]。*同等缴款。†通讯作者。监视场景与RGB图像相比，深度图提供了有关头部定位的额外信息[5，33]。在本文中，我们提出了同时计数和定位头与RGB-D数据。人群计数方法可以大致分为基于回归的方法和基于检测的方法。最近的工作表明，基于回归的方法[37，18，21，25，17]在人群计数中用于密度图估计的成功。然而，这些基于回归的方法中的一个关键问题是没有明确给出每个头部的位置，这限制了基于回归的方法在一些相关视频监控任务中的应用，包括行人检测[22]，异常检测[16]和人员重新识别[23]等。.相比之下，基于检测的人群计数方法[29，30，31]可以提供这样的头部定位信息。然而，基于检测的方法通常遇到低估问题，因为对于小/微小头部的低重新调用率。受基于回归的方法的成功以及用于对象检测的RGB-D数据的优势接下来，我们将分析基于检测的方法所面临的挑战，并通过利用RGB-D数据给出我们的解决方案。挑战1：低估。低估，这意味着检测到的头部的数量远小于头部的总数（即，低召回），是基于检测的方法中的常见问题。特别是当头部较小/微小或被遮挡时，基于检测的方法通常无法检测到它们[15]。然而，小/微小的头部在实际场景中非常常见。例如，如图1（a）所示，上海科技B部分中约23%的头部小于88像素。我们的解决方案。我们从以下几个方面缓解这种低估问题：i）密度图提供关于像素是头部的概率的先验。现有的工作[37，12]表明，对于那些小/微小甚至闭塞的头部（如图1（c）所示），密度图估计的有效性促使我们利用密度图，1822sity map，以促进基于检测的方法中的分类分支。因此，我们提出了一个回归引导检测网络（RDNet）的人群计数; ii）回归方法将极大地受益于训练阶段中的高保真地面实况密度图。然而，地面实况密度图通常是基于高斯核生成的，其具有以每个头部为中心的固定带宽，而不考虑头部大小的变化，而即使在每个图像内，这种变化也可能非常显著，如图1（b）所示显然，这样的密度图生成是不期望的。由于深度有助于估计头部大小，我们提出了一个深度自适应内核高斯为基础的地面真实密度图生成。我们的深度自适应内核生成高质量的密度图，用于训练更健壮的回归网络，从而提高基于检测的人群计数的性能 ;iii ）RetinaNet[14] 用于头部检测。RetinaNet无法检测到小头部的一个原因幸运的是，深度为估计头部的大小提供了一个先验，这有助于确定我们应该在哪些层中设置锚点以及锚点大小的初始化。我们将利用深度进行锚点大小初始化的策略称为深度感知锚点。挑战2：地面实况注释。基于检测的方法需要对所有头部进行边界框标注，但是与头部中心点标注相比，边界框标注非常耗时。此外，在拥挤的场景中，遮挡是很常见的，对于被遮挡的头部，用包围盒进行标注也是非常困难的。我们的解决方案。我们建议根据头部中心的深度估计边界框的大小，并使用估计的边界框作为地面实况来训练我们的网络。如图1（b）所示，我们估计的边界框可以很好地定位头部。实验还表明，我们的策略实现了国家的最先进的性能人群计数和定位。鉴于RGB-D对于基于检测的方法的重要性然而，现有的RGB-D数据集对于数据驱动的方法来说太小[1]。因此，我们引入了一个大规模的RGB-D数据集，从拥挤的场景中捕捉我们的数据集总共包含2，193张图像和144，512个头部计数据我们所知，它是用于人群计数的最大的RGB-D数据集。在我们的数据集中，每个头部都在头部中心标注了一个我们的主要贡献总结如下：i）我们提出了一个回归引导检测网络（RDNet），澰澬澬濲澥澩澥澪濲澧澥澧澦濲澪澧澪澨濲澥澦澫边界框(a)(b)（c）第（1）款图1. (a)显示了上海科技B部分训练数据中边界框的宽度范围（我们用最近的邻居生成这些边界框）。(b)显示了使用深度信息估计的边界框。(c)是密度图。RGB-D人群计数和定位; ii）设计深度自适应内核和深度感知锚点，以促进回归中的密度图生成和检测中的锚点初始化。我们进一步利用深度来估计所有头部的边界框大小，并将其用作训练RDNet的基础事实;（3）介绍了一个大规模的 RGB-D 人群计数数据集ShanghaiTechRGBD，该数据集将加速基于检测的人群计数方法的研究; iv）我们的方法可以容易地扩展到基于RGB图像的人群计数和定位。大量的实验验证了我们的方法对RGB-D和RGB人群计数的有效性。2. 相关工作2.1. 基于检测的人群计数早期的基于检测的方法[20，29，30，31，11]主要依赖于手工制作的特征，其性能通常会在具有遮挡的非常拥挤的场景中严重衰减。最近，基于深度学习的方法已经证明了它们在对象检测方面的性能[13，14]。因此，人们试图利用这些更先进的检测框架进行人群计数。一个例子是Stewart等人。 [28]提出了一种用于拥挤场景的端到端人员检测器。在非常拥挤的场景中，头部尺寸可能非常小，因此绑定框注释有时可能非常困难。因此，用于人群计数的地面实况通常在头部中心用点注释，这限制了用于人群计数的基于检测的方法的探索。然而，大多数先前的对象检测方法不能很好地处理在人群计数中常见的小/微小对象。因此，基于检测的方法的性能通常不如基于回归的方法。在本文中，我们将展示基于检测的方法也可以通过利用RGB-D数据实现可比的甚至更好2.2. 基于回归的人群计数基于回归的方法将图像映射到其密度图，其中积分是头部的总数人头数濬澥澤澤澤澤1823DF我FI→ D最近，基于CNN的方法[37，18，21，25，17]在学习这种非线性映射方面显示出其优于手工特征[10，3]的优势根据视角的变化以及不同区域的密度变化，许多网络[37，21，25，12]已经被精心设计并显示出其良好的人群计数性能，例如MCNN [37]，switch-CNN[21]，CSRNet [12]等。我们建议读者参考一篇调查论文[26]，以了解有关基于CNN的人群计数的更多细节。最近，Liu等人 [15]也提出利用密度图回归的检测结果。相比之下，我们利用回归来改善人群计数的检测，并且我们的解决方案还可以提供头部的位置信息。为了实现这一目标，Idrees等人。[7]建议在检测网络中增加了一个新的分支，方便了头部的分类，同时提出了深度感知的锚点策略，初始化合适的锚点，也有助于检测性能的提高。3.1.密度图回归模块密度图回归模块将图像作为输入，并利用CNN进行密度图估计。最常用的地面实况密度图生成策略利用具有固定带宽的高斯近似密度图。给定具有位置xi的头部，并且如果图像总共包含N个头部，则该图像的密度图可以写为：ΣN同时解决计数，密度图回归在近期的工作中，具体来说，他们的方法D（x）=i=1δ（x−xi）<$G σ（x）.（一）估计一个二进制定位图，其中头部中心cor-响应12.3. RGB D人群计数虽然深度传感器非常受欢迎，但由于缺乏RGB-D人群计数数据集，只有少数作品关注RGB-D人群计数[32，1，36]。在这些工作中，深度信息通常用于分割RGB图像中的Bondi等人 [1]利用深度图像来帮助检测头部的位置，并在他们的工作中提出了RGB-D数据集。同样，Zhang等人 [36]提出了一种无人监督的注水方法来计算人数。Song等人。 [27]利用深度区域提议网络对由头顶垂直Kinect传感器收集的深度图像进行头部检测。在[4]中，Fu等人利用RGB-D信息并检测头肩用于最终人群计数。然而，只有两个RGB-D数据集，并且两个数据集中的人数都很少在本文中，我们介绍了一个大规模的RGB-D数据集，我们利用深度来设计锚点，生成更准确的地面实况密度图，并估计基于检测的人群计数的边界框。3. 方法我们用于人群计数的回归引导检测网络（RDNet）的整体网络架构如图2所示。它包含两个模块：密度图回归模块和头部检测模块。在书房里-Gσ（x）是具有固定带宽σ的2D高斯核。因此，人群计数问题被转换为以下问题：（x）（x），其学习从图像空间（x）到密度图空间（x）的映射。一旦学习了映射函数，就可以获得任何给定图像的密度图，并且在整个图像上的需要高保真地面实况密度图。实际上，头部的尺寸变化很大，甚至对于图像内的头部也是如此，如图1（b）所示。因此，希望为不同的封头设计不同的σ，边界框标注可以提供这些信息，但它比点标注耗时更长，而且对于那些微小或被遮挡的头部，边界框标注也很困难。在[37]中，使用基于距离的策略来确定每个头部的σ，该策略将σ设置为与目标头部及其最近邻居之间的距离成线性比例这种策略在人群密集的地区效果很好，而在人群稀少的地区则失败了。考虑到深度提供了图像中头部大小的信息，假设所有头部在现实世界中具有相同的大小，我们提出了一种深度自适应核，密度图生成。如图3所示，实际中人的头部和图像中的头部的投影半径分别为R和r。f是照相机的焦距，d是头部1的深度。由于头部和凸轮之间的距离远大于头部的半径，我们可以将头部的直径近似为2R，如图3所示。根据摄像机投影和三角形相似性，我们有以下等式：sity map回归模块，深度自适应内核介绍，r=s2=f（二）以生成高保真地面实况密度图。在检测模块中，我们利用RetinaNet [14]进行检测，因为它在速度和性能方面都具有优势我们把估计的密度图输入分类器-R s1 d1这里，我们使用立体摄像机，假设头部半径R相同。事实上，相机的高度会对R产生轻微影响。具体提法可参考[6]。1824一DiRDNetଵ检测模块深度感知锚点FF深度感知锚点F深度图重新选择模块，以避免出现错误ଵ濗濸瀁瀆濼瀇瀌瀀濴瀃濺濸瀁濸瀅濴瀇瀂瀅按元素相乘深度自适应密度图ݑݐ&Conv1×1联系我们×× 256×××4×× 256濖×Ͷ× 256×××4×× 256ݔݑݐ来自FPNFConv1×1Conv1×1Conv1×1ݔ+ݐݑݔ+ݐݑݔ+ݐݑ图2.我们的RDNet由两个模块组成：回归模块和检测模块。ଶݐݔ22ଵݑ图3.人体头部实际半径与影像半径的关系。和Rf γ3.2.检测模块我们的检测网络基于RetinaNet [14]，因为它在速度和准确性方面具有优势具体来说，RetinaNet基于特征金字塔网络（FPN），它包含多尺度编码和解码层。对于每个解码层，它将来自相应编码层的特征以及来自其先前解码层的输出作为输入。该方法在每个尺度的特征图上进行检测，特征图包括用于分类的类子网和用于回归包围盒的盒子网。然而，RetinaNet不能直接应用于人头计数，因为它无法检测小/微小的人头，而人群计数只使用基于点的地面实况注释而不是边界框。因此，我们建议使用回归模块的估计密度图和深度感知锚点来提高RetinaNet的鲁棒性σ=βr=β=β。（三）D d用于小/微小头部检测，并使用深度生成在这里，我们让高斯密度图中的带宽σ与图像中头部的半径成比例。我们可以看到，对于给定的水头，σ与其深度d成反比。我们根据不同头部中心的深度生成密度图，并将这种密度表示为深度自适应密度图。具体地，我们将Gσ（x）替换为等式（1）中的G σ（x）。(1)深度自适应高斯核Gσ（d）（x），得到深度自适应密度图DA（x）。ΣN用于训练RetinaNet的边界框。密度图引导分类。RetinaNet无法检测到这些小/微小的头部，因为类子网无法将这些锚盒分类为阳性。然而，此类子网将受益于密度图。密度图显示了头部的分布，其在每个像素处的值与像素是头部的概率有关因此，我们建议将估计的密度图馈送到检测网络中，以提高小/微小头部的性能。RetinaNet检测不同尺度的头部，D（x）= i=1δ（x− xi）<$G σ（di）（x）.（四）进入解码层。较低层响应于较小头部的检测，而较高层响应于这里di对应于xi的深度，并且σ（di）= βγ。随着深度自适应密度图的生成，我们采用CSR- Net B [12]（膨胀率= 2）作为我们的回归模块，考虑到其最先进的人群计数性能。检测较大的头部。因此，我们提出了基于深度图的掩模密度图。具体地，对于给定的解码层l（l=1，. . .，L），假设在该层中要检测的头部的尺寸在[r1，r2]之间，基于等式3、1825L⊙d（m，n）ΣR2R1K..MM我们可以估计头部的深度d∈[γ，γ]。然后训练图像。DA是地面实况深度自适应基于深度图生成二值化矩阵M∈BL×Hd×Wd，其中Hd和Wd分别为生成的密度图的高度和宽度。在二进制化中，深度图被下采样到与密度图相同的大小。对于M中的每个通道l，具有较大或较小对应深度的像素的值被设置为0我们将该二元掩模表示为Ml，并使用它来掩模我们估计的密度图： DA=DAMl（5）密度图和EK是密度图估计的回归模型LR（Θ）是估计密度图和地面实况密度图之间的损失。对于检测模块，检测损失由分类损失和边界框回归损失组成，如下所示：LD=Lcls+λLreg（7）哪里. 0的情况。5（p）2，如果|p| ≤ 1L其中表示逐元素乘法，并且DA是对应于第l层的掩蔽密度图然后Lreg（p）=|-0。|− 0. 5、否则（八）我们简单地将该掩蔽的密度图与来自第l个解码层的特征F1连接，以帮助头/非头分类（如图2所示）。在具体实现中，我们选择L=5，这意味着提取5个尺度的特征图进行分类和回归。深度感知锚。其中一个原因是，一般的德-而λ是平衡分类损失和界限的权重回归损失。我们首先根据Eq.7、训练检测模块。最后，我们对整个网络进行微调。我们用PyTorch实现了我们提出的方法。[19]框架。我们根据经验选择λ=1，γ=5，无法直接检测到小/微小头部的检测器是，9我们的实施。输入图像的大小为540×960锚点设置在更高的层中，而对于那些小的/微小的头，锚应设置在较低的层。有了深度信息，我们可以得到一个先验估计的大小的头部，这是有助于确定我们应该设置锚，以及锚大小的初始化层。我们将利用深度进行锚初始化的策略称为深度感知锚。我们的深度感知锚不仅减少了搜索空间[35]，还方便了锚大小的初始化。我们遵循EQ。3至生成深度锚：H（m，n）=γ，其中（m，n）是深度感知锚点图中的高度和宽度的索引，d（m，n）是该位置处的对应深度。生成用于训练的边界框。定义边界框集合B ={b1，...，对于N个头，b N}。协议-在Eq。3，我们可以估计bi的宽度wi如下：为了效率。我们在NVIDIA Ti- tan X Maxwell GPU上进行实验，批量大小为4，学习率分别为10−4我们独立地对每个数据集进行训练和测试，并采用Adam [9]优化器。在RetinaNet [14]之后，我们只随机水平翻转图像用于数据增强。4. 实验4.1. 评估指标我们遵循人群计数评估的标准评估指标[37，21]：平均绝对误差（MAE）和均方误差（MSE）。M1.一、 .γwi=，其中我们假设对于所有的im，γDiMae=M j=1 . N j− N j。、（9）2岁。我们将边界框设置为正方形（wi=hi）。因为，对于那些具有无效深度值的位置，我们根据[37]采用最近邻来生成边界框。..MSE=，MΣMj=1Σ2Nj−Nj（十）3.3.损失函数对于回归模块，我们采用欧氏距离来衡量估计的密度图与地面真实值之间的距离。损失函数可以定义为：1米哪里是测试图像的数量，Nj和Nj分别表示第j个测试图像中的头的地面实况和估计数量。头的估计数量Nj是所有检测边界框的总数。此外，为了评价RD-1的检测性能L（Θ）=R<$E（I; Θ）−DA<$2（六）Net中，我们手动标记测试集中的边界框，2KKK2k=1其中Θ是要学习的CNN模型参数的Ik是第k个训练图像，M是2实际上γ与相机的角度和高度略有关系，这里我们忽略它们的影响。11826我们的RGB-D数据集作为地面实况。我们跟着斯坦-标准的二进制平均精度（AP）计算方法，如果IOU >0，则将样本分类为阳性样本。5之间的边界框地面实况和预测。对于那些只有点注释的图像，我们评估局部化性能并计算平均精度（AP）。1827≤表1. Shanghai TechRGBD与一些现有数据集的比较：Num是图像的数量;Max是一幅图像内的最大人群计数;Min是最小人群计数;Ave是平均人群数;Total是标记股骨头的总数。数据集决议NumMaxMinAve总模态CBSR [36]数据集1240 ×3202834701.64,541深度数据集2240 ×32015007011,553RGB +深度MICC [1]480 ×64033581105.3217,630RGB +深度公司简介1080 ×19202193234665.9144,512RGB +深度”[7]。在[7]之后，我们基于以下标准对预测的头点是否为正例进行分类：.预测=正，如果distθ否定，否则（十一）图4.ShanghaiTechRGBD数据集上的一些图像其中，dist是预测的头点和地面实况我们通过改变阈值θ来计算AP。为了区分用于检测的AP和用于定位的AP，我们将用于检测的AP表示为AP det，并且将用于定位的AP表示为APloc。4.2. RGB D人群计数数据集的评价4.2.1数据集上海科技RGBD。为了便于对数据驱动的人群计数方法进行性能评估，我们引入了一个名为ShanghaiTechRGBD的大规模RGB-D数据集，该数据集包含2，193张图像，其中包含144，512个注释的人头数。上海科技RGBD中的图像由立体相机（ZED3）捕获，其有效深度范围为0至20米。我们数据集中的场景包括大都市地区的繁忙街道和拥挤的公园。在不同的场景中，照明条件的范围从非常明亮到非常黑暗。图4显示了上海科技RGBD中的一些代表性图像。上海科技RGBD中人群计数的直方图和不同深度的头部统计如图5所示。我们还将ShanghaiTechRGBD与表1中的其他RGB-D人群计数数据集进行了比较，我们可以看到ShanghaiTechRGBD在图像和头部数量方面是最具挑战性的RGB-D人群计数数据集。我们随机选择1，193张图像作为训练集，并使用剩余的图像作为测试集。MICC数据集。MICC数据集由[1]引入。它是由室内场景中的监控摄像头采集的。MICC数据集中有三个视频序列：流、队列和组。在流动序列中，人们从一个点走到另一个点，而在排队序列中，人们排队缓慢移动。在GROUPS序列中，人们不会离开受控的3https://www.stereolabs.com/(a)（b）第（1）款图5. (a)上海技术研究所统计直方图。(b)深度分布（超过20m的值无效）。区应该注意的是，这三个序列的参与者是相同的。在FLOW序列中的1,260帧中有3,542个头部地面实况用装订框注释。以前的工作[1]利用MICC上的无监督学习。在这里，我们使用该数据集中每个场景的20%图像作为训练集，并使用剩余的作为测试集。4.2.2性能比较为了评估我们的方法的有效性，我们进行了实验上的ShanghaiTechRGBD数据集和MICC数据集与一些国家的最先进的方法。i）MCNN [37]。MCNN利用具有不同大小的内核的多列卷积网络来计数具有不同大小的头部ii）MCNN自适应。我们在MCNN中用我们的深度自适应核代替了高斯产生的具有固定带宽的密度图; ㈢CSRNet [12]。CSRNet利用扩大的CNN来扩大接收场。它在许多数据集上实现了最先进的性能; iv）CSRNet-自适应：我们用我们的深度自适应内核替换了具有固定带宽的高斯生成的密度图1828图6. RDNet对上海科技RGBD、MICC和上海科技B部分的检测结果从左至右分别为。更多检测结果和故障案例见补充资料。在CSRNet中; v）DecideNet（DetNet）[15]。DecideNet杠杆化检测的结果用于密度图估计;vi）Idreeset al. [8]. Idrees等人设计了合成损失来估计密度图、定位图和人头数;七）视网膜网。在这里，我们使用估计的具有深度信息的边界框来训练Reti- naNet;viii）RetinaNet作为比较，我们也使用固定大小的边界框来训练RetinaNet，并且大小固定为具有深度信息的所有估计边界框的平均大小。表2.上海科技RGBD绩效评估方法MaeMSEAP检测MCNN [37]7.5610.92-MCNN自适应7.149.99-CSRNet [12]5.117.34-CSRNet自适应4.917.11-[第14话]10.2514.560.356[第14话]21.8436.190.136DecideNet（DetNet）[15]9.7413.140.383Idrees等人[八]《中国日报》7.3210.48-RDNet4.967.220.610不同方法的性能如表2和表3所示。我们可以看到，与基于检测的方法相比，我们的RDNet实现了最佳性能，与基于回归的方法相比，性能相当。此外，我们有以下观察结果：i）对于所有基于回归的方法，深度自适应核总是优于具有固定带宽的高斯核，这验证了其对于地面真实生成的有效性; ii）RetinaNet的结果并不令人满意-表3.MICC数据集的性能评价方法MaeMSEAP检测MCNN [37]1.5002.259-MCNN自适应1.4892.114-CSRNet [12]1.3592.125-CSRNet自适应1.3432.007-[第14话]1.6412.5540.476DecideNet（DetNet）[15]1.5412.3820.481Idrees等人[八]《中国日报》1.3962.642-RDNet1.3802.5510.505由于低估的问题，工厂，如图7所示。而在密度图和深度感知锚点的帮助下，我们的方法大大提高了头部计数，特别是对于那些小的/微小的头部; iii）RetinaNet对RetinaNet的改进验证了我们的边界框估计策略用于训练RDNet的有效性。为了评估定位的准确性，我们比较我们的方法与Idrees等人。[8]在AP位置度量方面在图8中。我们可以看到，在三个数据集上，我们的方法总是比Idrees等人获得更好的AP定位，这验证了我们的定位方法的有效性。4.3. 消融研究为了了解RDNet中不同模块的有效性，我们进行了消融研究，如表4. 值得注意的是，我们的方法是基于检测的方法。如表4中的最后三行所示，深度自适应内核（DAK）和深度感知锚（DAA）有助于检测和计数头部。同时，表4中的前两行显示了DAK对于回归的有效性-1829RetinaNet我们的回归模块我们的探测模块训练阶段由于缺乏边界框注释和深度，如果提供边界框，则性能可以进一步提高。我们选择CSRNet [12]作为回归模型，我们的方法在CSRNet上的改进验证了回归引导检测策略的此外，通过比较SANet在CSRNet上的改进性能（2.2 MAE），以及我们的方法在CSRNet上的改进性能（约1.8图7.从左至右：来自上海科技RGBD上RetinaNet的检测结果。密度图回归结果来自我们的回归模块。检测结果来自我们的 RDNet 。我们可以发现我们的方法可以检测到比RetinaNet小/微小的头部。我们可以看到，我们的模型可能会受益于更好的回归模块，如SANet。我们还将我们的方法与Idrees等人进行了比较。[8]在定位度量AP loc方面，并在图8（c）中显示了结果。该方法具有较高的定位精度。10.80.60.40.20我们的数据集0 10 2030距离阈值（一）10.80.60.40.20MICC0 10 2030距离阈值(b)10.80.60.40.20上海科技有限公司我们Idrees等人0 10 2030距离阈值(c)锡永一些边界框预测结果如图6所示。我们可以看到，我们的方法可以准确地定位头部，即使是那些小的。表5.上海科技B部分数据集的评价结果图8. (a)、（b）、（c）分别是我们的RGB-D数据集、MICC和ShanghaiTech Part B上的AP位置比较。方法，其中DAA不适用。DAK改进了基于回归的人群计数的性能，DAA便于检测。表4.我们数据集上的消融研究（DAA：深度感知的anchor;DAK：深度自适应内核。4.4. RGB人群计数数据集的评价我们的RDNet可以很容易地扩展到RGB图像人群计数通过删除深度感知锚和深度自适应内核。由于没有深度，我们只简单地将第一层中的密度图馈送到类子网中，而不进行掩码。我们评估了 RDNet 在ShanghaiTech Part B [37]上基于RGB的人群计数的性能。与我们的数据集类似，ShanghaiTech Part B也是一个具有监控视图的数据集。在这里，由于缺乏深度，我们使用最近邻策略[37]估计的边界框作为训练RDNet的地面实况。我们将我们的方法与其他最先进的方法在表5中的上海科技B部分进行了比较。我们可以看到，我们的方法实现了与一些基于回归的方法相当的性能值得注意的是，我们只使用头部的粗略边界框作为监督，5. 结论提出了一种用于RGB-D人群计数和定位的回归引导检测网络（RDNet），该网络利用密度图来提高人群计数的检测性能。在深度的帮助下，i）设计深度自适应内核，其生成高保真地面实况密度图并促进基于回归的人群计数; ii）设计深度感知锚点我们的深度感知锚有助于锚的初始化，并提高了小头部的检测; iii）即使使用点注释，我们仍然可以使用深度来估计边界框的大小，这表明了它们对训练RDNet的有效性。我们进一步收集了大规模的ShanghaiTechRGBD人群计数数据集进行性能评估。在我们的数据集和MICC上的实验表明，我们的方法在RGB-D人群计数方面取得了最好的性能。此外，我们的方法可以扩展到RGB人群计数，并在ShanghaiTech Part B数据集上实现了相当的性能。谢谢。我们要感谢周德森，Yingying Zhang，Siqin Chen for their help in collection数据我们Idrees等人我们Idrees等人AP_locAP_locAP_loc方法MaeMSEZhang等人[34个]32.049.8MCNN [37]26.441.3[24]第二十四话20.031.1[21]第二十一话21.633.4[25]第二十五话20.130.1SANet [2]8.413.6DecideNet（DetNet）[15]44.9073.18Idrees等人[八]《中国日报》15.524.9CSRNet [12]10.616.0DAKDAAMaeMSEAP检测Reg√×N/A5.117.34N/AN/A4.917.11N/ADet×√×5.648.040.593√×√5.317.540.604我们4.967.220.6101830引用[1] EnricoBondi ， LorenzoSeidenari ， AndrewDBagdanov，and Alberto Del Bimbo.从拥挤环境的深度图像中实时计算人数。在Advanced Video and Signal BasedSurveillance（AVSS），2014年第11届IEEE国际会议上，第337-342页。IEEE，2014。[2] Xinkun Cao，Zhipeng Wang，Yanyun Zhao，and Fei Su.规模聚合网络，用于准确和高效的人群计数。在欧洲计算机视觉会议（ECCV），2018年9月。[3] 安东尼B陈和努诺Vasconcelos。人群计数的贝叶斯泊松回归计算机视觉，2009年IEEE第12届国际会议，第545-551页。IEEE，2009年。[4] Huiyuan Fu，Huadong Ma，and Hongtian Xiao.基于rgb-d信息的实时精确人群计数。在图像处理（ICIP）中，2012年第19届IEEE国际会议，第2685-2688页。IEEE，2012。[5] SaurabhGupta，RossGirshick，PabloArbela' ez，andJiten-dra Malik.从rgb-d图像中学习丰富的特征用于目标检测和分割。欧洲计算机视觉会议，第345-360页Springer，2014.[6] Derek Hoiem、Alexei A Efros和Martial Hebert。把物体放在透视图中。 International Journal of ComputerVision，80（1）：3[7] Haroon Idrees 、 Muhmmad Tayyab 、 Kishan Athrey 、Dong Zhang 、 Somaya Al-Maadeed 、 Nasir Rajpoot 和Mubarak Shah。密集人群中计数、密度图估计和定位的成分损失在欧洲计算机视觉会议（ECCV）的会议中，第532[8] Haroon Idrees 、 Muhmmad Tayyab 、 Kishan Athrey 、Dong Zhang 、 Somaya Al-Maadeed 、 Nasir Rajpoot 和Mubarak Shah。在密集人群中用于计数、密度图估计和定位的在欧洲计算机视觉会议（ECCV）上，2018年9月。[9] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[10] Victor Lempitsky和Andrew Zisserman。学习计算图像中的物体。神经信息处理系统的进展，第1324-1332页，2010年[11] Min Li ， Zhaoxiang Zhang ， Kaiqi Huang ， and TieniuTan.基于mid的前景分割和头肩检测估计拥挤场景中的人数。模式识别，2008年。ICPR 2008年。第19届国际会议，第1-4页。IEEE，2008年。[12] 李玉红，张晓凡，陈德明。Csrnet：用于理解高度拥挤场景的扩展卷积神经网络。在IEEE计算机视觉和模式识别会议论文集，第1091-1100页[13] 林宗义、杜拉拉、葛希克、何开明、哈里哈兰、贝隆吉.用于对象检测的特征金字塔网络。在CVPR，第1卷，第4页，2017年。[14] 林宗义，普里亚·戈亚尔，罗斯·格希克，何开明，和彼得·多尔。密集目标检测的局部损失InICCV，2017.[15] Jiang Liu，Chenqiang Gao，Deyu Meng，and AlexanderG Hauptmann. Decidenet：通过注意力引导检测和密度估计来计算不同密度的人群。在IEEE计算机视觉和模式识别会议论文集，第5197-5206页[16] Wen Liu ， Weixin Luo ， Dongze Lian ， and ShenghuaGao.异常检测的未来帧预测在IEEE计算机视觉和模式识别会议论文集，第6536-6545页[17] Xiaei Liu，Joost van de Weijer，and Andrew D Bagdanov.通过学习排名，利用未标记的数据进行人群计数在IEEE计算机视觉和模式识别会议论文集，第7661-7669页[18] Dani e lOnoro-Rubio和RobertoJLo'pez-Sastre。通过深度学习实现无视角对象计数。在欧洲计算机视觉会议上，第615-629页。施普林格，2016年。[19] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。2017年。[20] Mikel Rodriguez，Ivan Laptev，Josef Sivic，and Jean-Yves Audibert.人群中密度感知的人员检测和跟踪。2011年国际计算机视觉会议，第2423-2430页。IEEE，2011年。[21] D巴布萨姆，希夫苏里亚，和R文卡特什巴布。用于人群计数的开关卷积神经网络。在IEEE计算机视觉和模式识别会议上，第1卷，第6页，2017年。[22] Shao Shao、Zijian Zhao、Boxun Li、Tete Xiao、GangYu、Zhang Yu、and Jian Sun。Crowdhuman：用于检测人群中的人的基准点。 arXiv 预印本 arXiv ：1805.00123，2018。[23] Yantao Shen，Hongsheng Li，Shuai Yi，Dapeng Chen，and Xiaogang Wang.基于深度相似性引导图神经网络的人物再识别。在欧洲计算机视觉会议（ECCV），2018年9月。[24] Vishwanath A Sindagi和Vishal M Patel。基于cnn的cas-caded多任务学习的人群计数的高级先验和密度估计。高级视频和基于信号的监控（AVSS），2017年第14届IEEE国际会议，第1-6页。IEEE，2017年。[25] Vishwanath A Sindagi和Vishal M Patel。使用上下文金字塔cnn生成2017年IEEE国际计算机视觉会议（ICCV），第1879-1888页IEEE，2017年。[26] Vishwanath A Sindagi和Vishal M Patel。基于cnn的单张图像人群计数和密度估计的研究进展 PatternRecognition Letters，107：3-16，2018。[27] 宋迪平，乔玉，亚历山德罗·科贝塔。使用深度区域建议网络的深度驱动的人数统计。在信息与自动化（ICIA），2017年IEEE国际会议上，第416-421页。IEEE，2017年。1831[28] Russell Stewart，Mykhaylo Andriluka，and Andrew Y Ng.拥挤场景中的端到端人员检测在Proceedings of the IEEEconference on computer vision and pattern recogni

下载后可阅读完整内容，剩余1页未读，立即下载