人群计数的关系注意力网络与自我注意机制方法

133 浏览量更新于2023-10-12 收藏 2.49MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于人群计数的张安然1，沈佳怡1，肖泽浩1，朱凡4，甄贤通4，曹贤斌1，2，3邵玲41北京航空航天大学电子信息工程学院2近空间信息系统先进技术重点实验室（北京航空航天大学），中国工业和信息化部，北京，中国3北京大数据精准医学创新中心，中国北京4Inception Institute of Artificial Intelligence，阿布扎比，阿联酋zhanganran@buaa.edu.cn，shenjiayi@buaa.edu.cn，www.example.com，zhxiao@buaa.edu.cn，fan.inceptioniai.org，zhenxt@gmail.com，xbcao@buaa.edu.cn，ling. ieee.org摘要人群计数由于其在现实生活中的潜在应用价值而受到越来越多的研究者的关注。然而，由于存在遮挡、分辨率不足、动态背景等问题，人群计数仍然是计算机视觉中一个尚未解决的问题。密度估计是用于人群计数的流行策略，其中常规密度估计方法执行逐像素回归而不明确地考虑像素的相互依赖性。因此，独立的逐像素预测可能是噪声和不一致的。为了解决这个问题，我们提出了一个关系注意力网络（RANet）与自我注意机制，捕捉相互依存的像素。RANet通过考虑像素的短程和长程相互依赖性来增强自注意机制，其中我们分别将这些实现表示为局部自注意（LSA）和全局自注意（GSA）。我们进一步引入了一个关系模块来融合LSA和GSA，以实现更多信息的聚集特征表示。我们在四个公共数据集上进行了广泛的实验，包括ShanghaiTech A，ShanghaiTech B，UCF-CC-50和UCF-QNRF。所有数据集上的实验结果表明，RANet始终减少估计误差，并大大超过了最先进的方法。1. 介绍人群计数旨在获取特定场景中的个体数量，在视频监控、安全监控、城市规划、行为分析等方面有着广泛的然而，这是一个高度的挑战-*通讯作者图1.密度估计结果。左上：输入图像。上一篇：GroundTruth左下角：ic-CNN [28].右下角：我们的RANet。由于遮挡、低图像质量/分辨率、透视失真、对象的比例变化而导致的模糊任务图1给出了通过不同方法与密度图相关联的人群图像的示例近年来，针对人群计数问题提出了很多方法，主要是将人群计数问题视为逐像素回归问题。虽然每个像素的一元回归的输出独立于其他像素的回归的输出而产生，但是单独由一元所有回归产生的标记通常是有噪声的和不一致的。以前的工作已经表明，对于许多像素级分类/回归问题，例如，语义分割，轮廓检测和深度估计，可以通过编码相互依赖性来获得更准确的性能[15，39，13，45]。[15]在图像中的所有像素对上建立成对电位，从而能够极大地细化分割和la，67886789贝林收集以像素为中心的关系[13]以选择每个语义类别的最佳亲和字段大小，这验证了分割的空间结构。这已经显示了对用于语义分割的像素的相互依赖性进行建模的巨大有效性，然而，对于人群计数的任务，这在很大程度上仍未被探索。最近，深度卷积神经网络（CNN）的发展在人群计数方面取得了显着进展[33，44，2，12，37]。由于CNN结构的设计，它的卷积运算仅限于局部区域的统计效率[20，36，22]。另一方面，自我关注[34，25，5，42]在建模长期依赖性和统计效率之间表现出更好的平衡。与卷积运算的渐进行为[42] 通过计算任意两个位置之间的相互作用直接捕获长范围依赖性，并对像素的相互依赖性进行建模。它是卷积的补充，并有助于基于像素的相互依赖性捕获跨图像区域的长程依赖性。在本文中，我们提出了关系注意力网络（RANet）的人群计数探索长距离和短距离的相互依赖性的像素。我们通过关注局部和全局像素来扩展互补表示的自注意机制，并且我们进一步引入关系模块来学习注意特征之间的相关性，从而实现更多的信息表示。具体而言，RANet结合了自注意机制，通过对像素的依赖性进行建模来捕获相互依赖性。与以前的工作[34，42]不同，其中自注意力通过参加所有位置来重建每个位置的表示来学习每个邻居的权重系数，我们的RANet通过引入两个注意力模块来提高自注意力，即，局部自注意（LSA）和全局自注意（GSA）。更具体地说，LSA将自注意力应用于原始特征，仅对与中心位置密切相关的空间局部邻居进行此外，还应该考虑来自长距离的相关像素以捕获相互依赖性，而为了有效，GSA通过最大池化从整个地图中选择独特的像素GSA计算简单但有效，为LSA提供了补充信息，实现了更全面的表示。为了融合注意特征，我们进一步引入了一个关系模块，从LSA和GSA中学习注意特征之间的相关性，以实现统一的表示。LSA中的注意特征考虑的是短距离依赖关系，而GSA中的注意特征则对长距离依赖关系进行建模。因此，非常需要学习不同注意特征内的关系。关系模块实现为内部关系模块和内部关系模块，可以利用两个关注特征之间的相关性，这两个关注特征不仅在同一位置内，而且跨越不同位置。内部关系模块聚集来自LSA和GSA的相同位置相互关系模块可以学习跨每个位置的整体属性特征来推断隐藏关系，并且不需要存在于位置关系中的监督信息。总而言之，RANet提供了一种改进的自我注意机制，结合关系学习来实现用于人群计数的信息特征表示更重要的是，我们的RANet为像素级分类/回归问题提供了一个通用的卷积学习架构，可以很容易地用于各种视觉任务。本文的主要贡献有以下三个方面：• 我们建议通过本地和全球参与来扩展自我注意机制我们开发了局部自我注意（LSA）和全局自我注意（GSA），捕获本地邻近区域和远程独特区域中的相互依赖性。• 我们提供了一个关系模块来学习空间内和空间间的注意特征之间地点与简单的连接和求和相比，我们的关系模块为特征聚合提供了一种有效的可学习的方法。• 建议RANet大大提高了国家的最先进的性能对人群计数四个酒吧，lic基准数据集。特别是，在具有密集人群的加密的ShanghaiTechA和UCF-QNRF数据集上，我们的方法在MAE方面分别超过最好的先前方法高达10%和15%2. 相关工作我们简要回顾了最近的工作人群计数以及注意力机制和图形模型。2.1. 人群计数早期解决人群计数问题的工作主要遵循检测计数的思路。这些工作通过头部或身体检测来估计行人的数量[7，8，16]。然后，低级特征用于检测中的特征表示，例如，Haar特征[35]，直方图定向梯度（HOG）[6]，突出的欧米茄形状[17]和纹理元素[38，27，1，24]。这些方法提取了行人整体的特征来训练分类器，在低密度人群场景中取得了成功的效果而在非常密集的人群中，由于严重的遮挡，物体很难被为了处理密集人群的图像，一些方法[3，4，14]使用回归方法来避免更难的检测6790i=1问题.相反，他们提取了局部块级特征，并学习了一个回归函数来直接估计输入图像块的总计数。各种回归技术，如线性回归[24]、分段线性回归[3]、岭回归[4]、高斯过程回归和神经网络[21]，已用于建立从提取的特征到计数的映射。近年来，基于密度图的方法在解决人群计数方面发挥了主要作用。与基于过渡回归的方法相比，基于密度图的方法在密度图中嵌入了丰富的位置信息为了提高模型对人群变化的鲁棒性，开发了许多CNN模型来组合多层次信息[44，33，2，12]，在不同的任务中表现出很大的效率[18，40，46，43]。MCNN [44]采用了多列架构，旨在捕捉尺度变化和视角，在每一列的IED感受野。来自这些列的特征被1×1卷积层融合，以回归人群密度。CSRNet [19]用扩张的内核取代池化操作，以融合多尺度上下文信息。第CP-CNN [33]提出了一种上下文金字塔CNN，它利用各种估计器来捕获全局和局部上下文。通过融合CNN将上下文信息与从多列CNN提取的高维特征图融合以生成最终预测。最近，ic-CNN [28]通过使用多阶段方法提出，该方法将前一阶段的低分辨率密度图与提取的特征结合在一起以生成高分辨率密度图。SANet [2]依赖于卷积核的不同尺度来解决尺度方差问题。不同于这些最近的方法，我们的工作第一次模型的依赖性像素回归人群计数。我们通过我们提出的改进的自注意力模型来捕获像素的相互依赖性，而不是针对像素级回归问题的多大小内核[44，2]或使用扩张内核[19]此外，为了聚合注意特征，我们应用了一个关系模块，该模块有效地学习注意模型中的关系，以增强表示能力。2.2. 自我注意机制注意力机制最近在各种视觉任务中引起了越来越多的关注[43，34，41，9，42]。自我注意[34]机制通过关注同一序列中的所有位置来计算序列中某个位置的响应。这种关注被用来分配重要性，每种类型的邻居和重建功能表示。在计算机视觉中，SAGAN [42]将自注意力机制引入CNN，它是互补的。图像生成的自回归模型。我们的方法是从根本上不同于以前的方法，我们提出了改进的自我注意模块。2.3. 图形模型自我注意机制也与图形模型有关[43]。自注意[34]允许模型在全连接图模型中进行所有位置，并为每个邻居学习权重系数。GaAN[43]提出了一个可以端到端训练的图聚合器，以提取整个图的局部和全局特征。GaAN [43]对邻居之间的依赖关系进行建模，这可以在本质上提供更多的建模能力。受这些工作的启发，在本文中，我们使用自注意力来计算成对相似度作为权重。具体来说，我们的RANet使用位置特征来计算每个邻居的相似性，并将每个点重建为其邻居的加权和。重建的特征是具有丰富的成对依赖关系的代表性的，用于改善用于人群计数的像素级预测的3. 用于人群计数的关系注意力网络关系注意网络由注意模块和关系模块组成。注意模块源自自注意机制，以利用其强大的捕获像素之间的相互依赖性的能力。我们将自注意扩展为局部自注意（LSA）和全局自注意（GSA），可以有效地捕获像素的长距离和短距离依赖性。关系模块融合了这两种注意力，以实现更精确的信息特征表示。3.1. 预赛我们通过密度估计来解决人群计数任务，这是一个像素级回归问题。关键是通过聚合每个像素的邻居的特征来实现信息丰富的特征表示。我们的关系注意力网络通过结合自我注意力和关系机制的优势来完善这些功能。首先通过线性变换矩阵将输入特征转换为中间表示中间表示中的每个位置学习与所有邻域的特征相似性。使用归一化因子对相似度矩阵进行归一化。最后，将新聚合的特征添加到原始特征上。输入功能：自我注意层的输入是卷积神经网络中的特征映射。我们-卷积，并有助于建模长距离，多-将特征图细化为X={xi}N，其中xi表示跨图像区域的级别依赖性。[26]建议一个图像Transformer模型，将自我注意力添加到在特征图X中不同位置处的单个位置特征，并且xi∈RC，其中C是通道的数量6791i j ij在输入特征中，N是特征图中的像素数。中间代表：为了获得足够的表达能力，将输入特征转换为更高级别的特征，需要中间表示。线性变换W通过给每个位置i分配一个不同的中间表示来证明这一点。′条件X′={x′}N，其中x′∈RC，C′是ii=1i在中间表示空间中的通道。X′=WX（1）特征相似性：我们的自我关注层使用中间表示的位置特征进行相似性计算，这在等式中通过W进行线性变换。1.一、特征相似性权重ωi，j表示其他位置对位置i的影响。它被计算为Eq。第二章：ωi，j=F（x′，x′）（2）图2.上分支：LSA学习所选区域中每个相邻点的权重系数，以将每个点重建为其相邻点的权重和。此块中的灰色部分是选定的局部区域。底部分支：GSA通过最大池化以全局方式参与所有位置I j我们使用LSA来考虑本地邻居，因为pix-其中，F是特征相似性的函数，其被去-定义为F（x′，x′）=x′ <$x′[34，42]。相似性归一化：应用softmax操作来归一化等式中的特征相似性F（x′，x′）3.第三章。它空间上靠近当前位置的ELS与那些远离的ELS相比对于相互依赖性将更重要。虽然全球信息也将被...i j 表示整体特征图中的像素的依赖性表明在维度j中，我们可以比较维度i中每个位置的激活值。γi，j= softmax（F（x′，x′））（3）因此，我们引入GSA通过使用最大池化选择最有特色的像素来对长程依赖性进行建模。i j LSA：我们将λ（i）定义为以点为中心的区域位置i空间上。对于任意位置i，像素k∈{i}功能聚合：通过考虑标准化产生注意力系数F（x′，x′），其大小取决于在Eq. 3和ik中的中间表示当量1，zi可以汇总为：在其相应的表示在区域中的当量5，其中k枚举区域中的所有位置。zi= ΣNj=1i，jx′J（四）zl=我Σk∈ε（i）γi，k x′中文（简体）其中zi是单个自我注意力层的输出中的位置i当量4将位置处的响应计算为所有位置处的特征的加权和，这允许特征图中的所有位置zi需要线性变换来恢复表示空间，如等式（1）中所引入的。1.一、3.2. LSA和GSA在常规的自关注操作中，通过关注特征图中的所有位置来计算位置i的聚合特征往往是高度计算性的和冗余的，如等式（1）所示。4.我们的RANet改进了自我注意机制，在本地关注它的邻居与CNN中的卷积运算不同，我们基于特征相似度γi，k计算每个邻居的权重系数，以重建每个位置的表示。GSA：为了捕获像素的完全相互依赖性，距离当前位置较远的像素也起着重要作用，尽管并非所有像素都起着重要作用。一方面，整体特征图中的独特邻居为每个位置提供了重要的相关性。我们引入了全局自注意（GSA），其中我们应用最大池化来选择最有特色的像素来参加。特别地，我们首先将X′变换为g（X′），其中g（X′）是通过最大池化的X′ g（X′）=′{g（x′）}N/N，其中g（x′）表示单个位置fea。pp =1p全局自注意分别实现在二次采样特征图中的位置p处的真实值，并且N/N'表示最大池化之后的像素的数量对于每个位置p，我们考虑g（x′）中的所有位置来计算γ6792ppQijij（9）图3.关系模块：内部关系和相互关系。(1)Intra-Relation将注意力特征从局部注意力特征中的位置i聚合到全局注意力特征中的位置i。对于相应的位置，我们可以使用连接和求和来聚合它们。(2)Inter-Relation将注意特征从局部注意特征中的位置i聚合到全局注意特征中的所有位置，并使用关系模块来推断它们之间的关系。具有softmax归一化的相似度F（g（x′），g（x′）），以及网络学习更全面的表示，p q然后使用Eq. 4来计算聚合特征zg。在我们的实验部分得到证实。相互关系：这一点可以从以下事实推断出来：g（zg）=′数量/数量q=1g（γp，q）g（x′）（6）内部关系对两个自我注意模型都有点对点的聚合作用。而它在LSA中的位置i和GSA中的位置j之间没有带来任何东西。为此其是位置p的聚集注意特征。GSA将两两计算量从N减少到N/N′，并能兼顾每个局部区域内所有位置的最大激活值，以实现自注意。3.3. 关系模块LSA和GSA的注意力特征包含不同的问题，我们引入相互关系来模拟方程中它们之间的关系。9.第九条。由于LSA仅提供位置i的局部聚合信息，而GSA以全局方式计算自注意力。我们的相互关系通过将不同的聚合的自我注意信息关联起来提供洞察力，并将局部和全局特征带入位置i。我们学习聚合通过推断关系r（zl，zg）每个位置的信息重要的是要融合这些i j从LSA和GSA的专注功能转换为更具竞争力的方式。传统方法（例如，求和或连接）以简单方式聚集信息，如果不考虑它们的相关性，这可能是不够的。我们探讨深层关系的注意特征，更好地聚合它们，提供一个学习的方法，在关系注意特征。我们引入内部关系和相互关系来融合这些注意特征。内部关系：我们首先考虑从LSA中的位置i到GSA中的位置i的内部关系，如等式（1）所示。7.第一次会议。zl和zg在第节中介绍3.2.z= ReLU（Wc[zl，zg]）（7）其中[，]表示逐元素（例如，级联或逐元素求和运算），Wc是将级联向量投影到标量的卷积运算。z表示来自LSA中的位置i和GSA中的位置i的聚合信息，如图2所示。逐元素求和运算在卷积运算之前包含LSA和GSA信息，并且连接运算使用CNN中跨通道的后一种操作使在LSA中的位置i和GSA中的所有位置j之间，哪里r（zl，zg）= ReLU（W β[zl，zg]）。（八）然后，我们结合LSA中的所有位置与它们的关系，得到Eq中的聚合特征。9. Wβ是卷积运算，其被实现为，例如，空间中的1×1卷积。图3中在中间表示空间中示出了该操作。Σzi=ReLU（Wβ[zl，zg]）zlJ4. 实现细节在本节中，我们将详细介绍我们的关系注意力网络的实现。4.1. 网络架构我们在我们的RANet中应用堆叠沙漏[23]，与最近的人群计数工作不同[33，19，31]。我们使用具有中间监督的堆叠沙漏，并添加双线性上采样层以确保输出分辨率与输入分辨率相同。在这里，6793在每个沙漏模块的解码器中，我们应用了注意力模块和关系模块，并探讨了RANet在建模依赖性方面的互性能。4.2. 培训详细信息在训练过程中，在原始图像的随机位置裁剪具有固定大小的补丁，然后将它们随机水平翻转以进行数据增强。密度图估计相当于计算图像中每个位置处的每像素密度，从而保留关于人群分布的空间我们通过固定大小的高斯核生成我们的地面真实密度图。需要将这些点转换为密度图。如果在像素xi处存在一个点，则可以用delta函数来表示通过使用具有归一化高斯核的每个δ函数来生成地面实况密度图Y表1.注意力和关系模块（RM）。方法MaeRMSELSA，不含RM63.6113.7GSA w/o RM62.3107.2具有内部关系的LSA GSA（总和）&63.4113.0带内部关系的LSA GSA（Concat）&62.2103.4具有相互关系的LSA&59.4102.05.1.数据集上海科技A和B：ShanghaiTech数据集[44]包含1198张图像，总共有330，165个注释的人。ShanghaiTech是一个具有挑战性的数据集，因为它包含高密度和低密度人群。这G：D（x）=Σxi∈Sδ（x−xi）<$Gσ（10）数据集分为两部分：A部分，482张图像B部分有716张图片。A部分的图片是从互联网上随机抓取的，其中大多数都有大量的人。B部分取自繁忙的街道我们以端到端的方式训练RANet。网-工作参数由Xavier随机初始化，平均值为零，标准差为0.01。使用具有1e−3的小学习率的Adam opti- mizer来训练模型，并使用批量大小为8的批量来训练网络我们的方法的实现是基于Pytorch框架.在测试时，我们不提取图像作物，而是将整个图像馈送到网络。4.3. 评估指标根据以前的人群计数工作，我们使用平均绝对误差（MAE）和均方根误差（RMSE）来评估我们所提出的方法的性能。MAE表示预测结果的准确性如果预测的计数′对于图像i是Ci并且地面真值计数是Ci，MAE和RMSE可以计算为：‚N.N上海的大都市区。A部分包含高密度人群，B部分包含低密度人群。在每幅图像中，大多数人都有巨大的遮挡，而且人的规模是可变的。UCF-CC-50：中引入的UCF-CC-50数据集[10]包含50幅不同分辨率的图像，密度范围很这是第一个密集人群图像的数据集。与其他计票场景类似，这些图像中的场景也属于一系列不同的事件：音乐会、抗议、体育场、马拉松和朝圣。每个图像具有不同的分辨率，并且该数据集的图像分辨率相当大，平均分辨率为2101×2888。人群计数有很大的变化，图像中的人数范围从94到100人。4543. 有限的图像数量使其成为深度学习方法的挑战性数据集。UCF-QNRF： UCF-QNRF [11]是最新发布的数据集，是2018年高计数人群图像和注释数量最多的数据集之一的人数1Σ′.1 Σ′Mae =ni=1|和R M S E =，|andRMSE=,ni=1|2|2（十一）图像范围从49到12865。UCF-QNRF在所有数据集中具有最多的高计数人群图像和注释。新的UCF-QNRF数据集包含其中n是测试样本的数量。5. 实验我们在四个基准数据集上进行了广泛的实验，并将所提出的RANet与最先进的方法进行了比较。建议的RANet实现了所有数据集上的最佳性能，并在很大程度上超过了以前的方法的大幅利润。广泛的消融研究表明，所提出的注意和关系模块的巨大有效性。建筑物，植被，天空和道路，因为它们存在于野外捕获的现实场景中，这使得计数更具挑战性。5.2. 消融研究在本节中，我们比较了注意力模块的性能（即，LSA和GSA）和关系模块（即，内部关系和相互关系）。我们遵循之前的工作[28，2，19]，对上海科技A数据集进行消融研究。6794图4. 上海科技A部分数据集上的定性结果。这五列显示：（1）输入图像，（2）地面实况注释图，（3）MCNN [44]，（4）ic-CNN [28]，（5）RANet。LSA和GSA的效果。LSA和GSA的结果总结见表1。LSA和GSA在MAE和RMSE方面都表现良好。实验结果表明，所提出的注意力模块能够有效地捕捉像素的长距离和短距离相互依赖关系关系模块的作用。我们的关系模块提供一种融合来自注意力模块的注意力特征的有效方式。表1显示了内部关系和相互关系的改善。内部关系的结果表明，与一个可学习的拼接操作，性能已大大提高了3。5%的RMSE与GSA的性能相比，而求和操作提供了负面的结果。这表明我们的可学习连接使网络能够学习更全面的表示，以聚合注意力特征。相互关系实现了4的改善。7%和4.9%的MAE和RMSE。这个结果证明了我们的关系模块以可学习的方式融合注意特征间关系学习推断位置的隐藏关系，从LSA中的每个位置到GSA中的整个位置，这使得网络能够学习参数。定性结果。我们的RANet进行评估和com-champion到其他七个最近的国家的最先进的方法和比较结果显示在表2中。这表明，我们的方法在所有数据集的MAE和RMSE方面都达到了最高的性能相比，其他方法。我们的方法在MAE方面超过了最先进的方法（SANet[2]）高达10%。与之前的工作一样，SANet [2]和ic-CNN [28]在ShanghaiTech A上进行了消融研究。特别是，ic-CNN [28]提供了比SANet [2]更多的可变示例，其中包括消融中的遮挡、透视失真和尺度变化MCNN[44]提出了ShanghaiTech数据集，是基于密度估计的人群计数中最具代表性的方法之一。为了评估生成的密度图的质量，我们使用A部分数据集将我们的方法与MCNN[44]和ic-CNN [28]进行了样品6795图5.估计密度图从左至右：（1）上海科技A，（2）上海科技B，（3）UCF-QNRF，（4）UCF-CC-50。表2.与现有方法的性能比较上海科技集团上海科技B部UCF-CC-50UCF-QNRF方法MaeRMSEMaeRMSEMaeRMSEMaeRMSEMCNN [44]110.2173.226.441.3377.6509.1277426[32]第三十二话101.3152.420.031.1322.8397.9252514切换-CNN [31]90.4135.021.633.4318.1439.2228445CP-CNN [33]73.6106.420.130.1295.8320.9--[28]第二十八话68.5116.210.716.0260.9365.5--CSRNet [19]68.2115.010.616.0266.1397.5--SANet [2]67.0104.58.413.6258.4334.9--Idrees等人[11]------132191RANet（我们的）59.4102.07.912.9239.8319.4111190的测试用例可以在图4中找到，这表明我们的RANet可以解决遮挡、透视失真和尺度变化的问题。RANet在计算图像中的人数方面比MCNN [44]和ic-CNN [28]表现得更好。与地面实况相比，RANet也显示出更好的局部预测，更接近地面实况。5.3. 与其他方法的我们在表2中的所有数据集上将我们的RANet与以前的人群计数方法进行了比较，并在图5中显示了RANet生成的一些示例图像。我们在所有四个具有挑战性的数据集上提供最先进的产品。如表2所示，在最流行的基准测试-上海科技A，我们提出的RANet实现了最高的计数精度，并显着提高了以前的最佳性能从67。0到594、关于MAE此外，我们的RANet实现的较低RMSE- 102.0 -也表明它可以更好地计数人群数量。特别是在UCF-QNRF上，这是最新发布的具有最高数量的人群图像和注释的数据集之一，我们的RANet在MAE方面超过了之前最好的方法高达15%这些结果显示RANet的有效性，通过在注意力模块中使用关系模块来对用于人群计数的像素的相互依赖性进行建模。6. 结论在本文中，我们提出了关系 Atten- tion 网络（RANet）的人群计数。RANet包括全局和局部自注意机制，以捕获像素的长距离和短距离相互依赖性它还提供了一种新颖而有效的方法，通过以端到端的可训练方式推断它们的关系来融合注意RANet集成了注意力机制和关系模块，以增强人群计数的特征表示，在四个基准测试中实现了新的最先进的性能。鸣谢本论文得到国家重点研究发展计划项目基金2016YFB1200100、国家重点科学仪器与装备研制项目基金 61827901 和国家自然科学基金项目基金91538204、91738301、61871016、61571147的资助。6796引用[1] 加布里埃尔J布罗斯托和罗伯托Cipolla。人群中独立运动的无监督贝叶斯检测。在计算机视觉和模式识别，2006年IEEE计算机协会会议上，第1卷，第594-601页。IEEE，2006年。[2] Xinkun Cao，Zhipeng Wang，Yanyun Zhao，and Fei Su.规模聚合网络，用于准确和高效的人群计数。在欧洲计算机视觉会议（ECCV）的会议记录中，第734-750页[3] Antoni B Chan ， Zhang-Sheng John Liang ， and NunoVas- concelos.隐私保护人群监测：没有人模型或跟踪的情况下计算人数。在计算机视觉和模式识别，2008年。CVPR 2008。 IEEE会议，第1-7页。IEEE，2008年。[4] 陈克，陈昌来，龚少刚，和托尼·席昂.用于局部人群计数的特征挖掘在BMVC，第1卷，第3页，2012中。[5] 程建鹏、李东、米瑞拉·拉帕塔。机器阅读的长短期记忆网络。arXiv预印本arXiv：1601.06733，2016。[6] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图。在计算机视觉和模式识别，2005年。CVPR2005。 IEEE计算机协会会议，第1卷，第886-893页。IEEE，2005年。[7] Piotr Dollar，Christian Wojek，Bernt Schiele，and PietroPerona. 行人检测：对最新技术水平的评价。 IEEEtransactionsonpatternanalysisandmachineintelligence，34（4）：743 -761，2012.[8] Pedro F Felzenszwalb 、 Ross B Girshick 、 DavidMcAllester和Deva Ramanan。使用区分性训练的基于部分的模型进行对象检测。IEEE Transactions on PatternAnalysis and Machine Intelligence，32（9）：1627[9] Yuanjun Huang ， Xianbin Cao ， Xiantong Zhen ， andJungong Han.用于动态场景分类的注意时间金字塔网络在AAAI人工智能会议论文集，第33卷，第8497-8504页[10] Haroon Idrees、Imran Saleemi、Cody Seibert和MubarakShah。密集人群图像中的多源多尺度计数。在IEEE计算机视觉和模式识别会议论文集，第2547-2554页，2013年。[11] Haroon Idrees 、 Muhmmad Tayyab 、 Kishan Athrey 、Dong Zhang 、 Somaya Al-Maadeed 、 Nasir Rajpoot 和Mubarak Shah。在密集人群中用于计数、密度图估计和定位的成分损失。arXiv预印本arXiv：1808.01050，2018。[12] Xiaolong Jiang ， Zehao Xiao ， Baochang Zhang ，Xiantong Zhen ， Xianbin Cao ， David Doermann ， andLing Shao.利用格状编码器-解码器网络进行群体计数和密度估计。在 IEEE 计算机视觉和模式识别会议（CVPR）上，2019年6月。[13] Tsung-Wei Ke，Jyh-Jing Hwang，Ziwei Liu，and StellaX Yu.用于语义分割的自适应亲和字段。在欧洲计算机视觉会议（ECCV）的论文集，第587-602页[14] 丹孔、道格拉斯·格雷和海涛。一种视点不变的人群计数方法. In Pattern Decomposition，2006. ICPR 2006年。第18届国际会议，第3卷，第1187-1190页。IEEE，2006年。[15] Phi l ippKr aühenbuühl和VladlenKoltun。具有高斯边势的全连通 crfs 的有效推理在 Advances in neuralinformation processing systems，第109[16] Bastian Leibe，Edgar Seemann，and Bernt Schiele.拥挤场景中的行人检测。空，第878-885页。IEEE，2005年。[17] Min Li ， Zhaoxiang Zhang ， Kaiqi Huang ， and TieniuTan.基于mid的前景分割和头肩检测估计拥挤场景中的人数。模式识别，2008年。ICPR 2008年。第19届国际会议，第1-4页。IEEE，2008年。[18] 李培昭，张安然，雷跃，郑贤通，曹西安斌.多尺度聚合网络用于直接人脸对齐。2019年IEEE计算机视觉应用冬季会议（WACV），第2156IEEE，2019。[19] 李玉红，张晓凡，陈德明。CSRnet：用于理解高度拥堵场景的扩展卷积神经网络，2018年。[20] Wenjie Luo ， Yujia Li ， Raquel Urtasun ， and RichardZemel.理解深度卷积神经网络中的有效感受野。神经信息处理系统的进展，第4898-4906页，2016年[21] AN Marana，L da F Costa，RA Lotufo和SA Velastin。纹理分析在人群监测中的有效性。计算机图形学，图像处理和视觉，1998年。诉讼SIBGRAPI'98。国际研讨会，第354-361页。IEEE，1998年。[22] Xin Miao ， Xiantong Zhen ， Xianglong Liu ， ChengDeng，Vas-silis Athitsos，and Heng Huang.用于端到端面对齐的直接形状回归在IEEE计算机视觉和模式识别会议集，第5040-5049页[23] Alejandro Newell，Kaiyu Yang，and Jia Deng.用于人体姿态估计的堆叠沙漏网络在European Conference onComputer Vision，第483施普林格，2016年。[24] 尼科斯·帕拉吉奥斯和维斯瓦纳坦·拉梅什基于磁共振频率的地铁实时监测方法。计算机视觉和模式识别，2001年。CVPR 2001年。2001年IEEE计算机协会会议论文集，第1卷，第I-I页。IEEE，2001年。[25] AnkurPParikh，OscarT？ckstr？m，DipanjanDas，andJakobUszkoreit.自然语言推理的可分解注意模型。arXiv预印本arXiv：1606.01933，2016。[26] Niki Parmar，Ashish Vaswani，Jakob Uszkoreit，ŁukaszKaiser，Noam Shazeer，Alexander Ku，and Dustin Tran.图像 Transformer 。 arXiv 预印本 arXiv ： 1802.05751 ，2018。[27] 文森特·拉博和塞尔日·贝隆吉计算拥挤的移动物体。在计算机视觉和模式识别中，2006 IEEE计算机协会会议，第1卷，第705-711页IEEE，2006年。[28] Viresh Ranjan、Hieu Le和Minh Hoai。迭代人群计数。arXiv预印本arXiv：1807.09959，2018。6797[29] 大卫·瑞安，西蒙·登曼，斯里达·斯里达兰和克林顿·福克斯。人群计数方法、特征和回归模型的评价。计算机视觉与图像理解，130：1[30] Sami Abdulla Mohsen Saleh，Shahrel Azmin Suandi，andHaidi Ibrahim.视觉监视中人群密度估计与计数研究进展。人工智能的工程应用，41：103[31] Deepak Babu Sam，Shiv Surya和R Venkatesh Babu。用于人群计数的开关卷积神经网络在IEEE计算机视觉和模式识别会议论文集，第1卷，第6页，2017年。[32] Vishwanath A Sindagi和Vishal M Patel。基于cnn的cas-caded多任务学习的人群计数的高级先验和密度估计。高级视频和基于信号的监控（AVSS），2017年第14届IEEE国际会议，第1-6页。IEEE，2017年。[33] Vishwanath A Sindagi和Vishal M Patel。使用上下文金字塔cnn生成2017年IEEE国际计算机视觉会议（ICCV），第1879-1888页IEEE，2017年。[34] 作者：Ashish Vaswani，Noam Shazeer，Niki Parmar，Jakob Uszko-reit，Llion Jones，Aidan N.戈麦斯，卢卡斯凯泽，伊利亚·波罗苏欣。注意力是你所需要的，2017年。[35] 保罗·维奥拉和迈克尔·J·琼斯强大的实时人脸检测。国际计算机视觉杂志，57（2）：137[36] 王晓龙，Ross Girshick，Abhinav Gupta，和Kaiming He.非局部神经网络。arXiv预印本arXiv：1711.07971，2017年10月。[37] Ze Wang，Zehao Xiao，Kai Xie，Qiang Qiu，XiantongZhen，and Xianbin Cao. 为用于人群计数的单列网络辩护。英国机器视觉会议（BMVC），2018年。[38] Xinyu Wu ， Guoyuan Liang ， Ka Keung Lee ， andYangsheng Xu.使用纹理分析和学习的人群密度估计。在机器人和仿生学，2006年。ROBIO'06。IEEE国际会议，第214-219页。IEEE，2006年。[39] Dan Xu，Elisa Ricci，Wanli Ouyang，Xiaogang Wang，and Nicu Sebe.多尺度连续crfs作为单目深度估计的顺序深度网络。在CVPR的诉讼，第1卷，2017年。[40] 于小鱼，王德全，埃文·谢尔哈默，

下载后可阅读完整内容，剩余1页未读，立即下载