纯基于点的框架：重新思考人群中的计数和定位

99 浏览量更新于2023-10-13 收藏 1.51MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3365目标生成模型训练重新思考人群中的计数和定位：一个纯基于点的框架宋庆余1 * 王长安1 * 蒋正凯1王亚标1应太1王成杰1吉林李1黄飞跃1†杨武21腾讯优图实验室、2应用研究中心（ARC）、腾讯PCGqingyusong@zju.edu.cn，{changanwang，zhengkjiang，caseywang} @ tencent.com{yingtai，jasoncjwang，jerolinli，garyhuang，dylanywu} @ tencent.com摘要定位人群中的个体比简单地计数更符合后续高级别人群分析任务的实际需求。然而，现有的基于定位的方法依赖于中间表示（即，密度图或伪框）用作学习目标是反直觉的并且容易出错。在本文中，我们提出了一个纯粹的基于点的框架，联合人群计数和个人定位。对于这个框架，而不是仅仅报告在图像级的绝对计数误差，我们提出了一个新的度量，称为密度归一化平均精度（nAP），提供- vide更全面，更精确的性能评估。在此基础上，我们设计了一个直观的解决方案，称为点对点网络（P2PNet）。P2PNet抛弃了多余的步骤，直接预测一组点建议来表示地面实况（点）目标边界框预测边界框积分（我们的）图像，与人类注释结果一致。通过深入的分析，我们揭示了实现这样一个新的想法的关键步骤是为这些建议分配最佳的学习目标。因此，我们建议使用匈牙利算法以一对一的匹配方式进行这种关键的关联。P2PNet不仅在流行的计数基准上显著超越了最先进的方法，而且还实现了promis- ing定位精度。代码可从以下网址获得：腾讯优图/CrowdCounting-P2PNet.1. 介绍在人群分析的所有相关具体任务中，人群计数是一个基本的支柱，旨在估计人群中的个体数量然而，仅仅给出一个号码显然远远不能支撑后续更高层次人群的实际需求*同等缴款。†通讯作者。图1.我们的管道与前预测方法，其中预测标记为红色，而地面事实标记为绿色。顶流：基于主导密度图学习的方法不能提供个体的精确位置。中间流量：估计的不准确的地面实况边界框使得基于检测的方法容易出错，诸如所指示的丢失检测，尤其是对于类NMS的过程。底部流程：我们的流水线直接预测一组点来表示个体的位置，如所展示的，这是简单、直观和有竞争力的，绕过了那些容易出错的步骤。最好用彩色观看。分析任务，例如人群跟踪、活动识别、异常检测、流量/行为预测等。事实上，在该领域中存在更具有挑战性的细粒度估计（即，个人的位置）而不仅仅是计数。具体地，一些方法将人群计数作为头部检测问题，但是将更多的精力放在针对微小尺度头部的劳动密集型注释上。其他方法[26，30]尝试仅密度图密度图3366点注释提供，但似乎是棘手的或不准确的至少。同样试图直接定位个体，几种方法[14，20]陷入了抑制或分裂过近的实例候选者，由于极端的头部尺度变化，特别是对于高度拥挤的区域，使得它们容易出错。为了避免上述问题，我们提出了一个纯粹的基于点的框架，共同计数和定位人群中的个人该框架直接使用点标注作为学习目标，同时输出点来定位个体，这得益于点表示的高精度定位属性和相对便宜的标注成本。管道如图1所示。此外，在评估指标方面，一些有远见的作品[7，32]鼓励采用补丁级指标进行细粒度评估，但它们只提供了一个粗略的本地化度量。其他现有的定位感知度量要么忽略人群之间的显著密度变化[26，30]，要么缺乏对重复预测的惩罚[30，35]。相反，我们提出了一个新的met-ric称为密度归一化平均精度（nAP）提供一个全面的评价指标，本地化和计数错误。nAP度量支持作为输入的框和点表示两者（即，框和点表示）。预测或注释），而没有上述缺陷。最后，作为一个直观的解决方案，在这个新的框架下，我们开发了一种新的方法来直接预测一组点的建议与图像中的头部的坐标和他们的信心。具体来说，我们提出了一个点对点网络（P2PNet），直接接收一组注释的头点进行训练和预测点也在推理。然后，为了使这样的想法正确工作，我们深入研究了地面实况目标分配过程，以揭示这种关联的关键。结论是，无论是多个建议与单个地面事实匹配的情况，还是相反的情况，都可能使模型在训练期间混淆，导致高估或低估的计数。因此，我们建议通过匈牙利算法执行一对一的匹配，将点建议与它们的真实目标相关联，并且不匹配的建议应被分类为否定。我们的经验表明，这样的匹配是有益的，以提高证明nAP度量，作为一个关键组成部分，我们的解决方案在新的框架下。这种简单、直观和高效的设计产生了最先进的计数性能和有希望的定位精度。这项工作的主要贡献有三个方面：1. 我们提出了一个纯粹的基于点的框架联合计数和个人定位在人群中。该框架鼓励细粒度的预测，有利于人群分析中下游任务的实际需求。2. 我们提出了一个新的度量标准，称为密度归一化平均精度来考虑两个低-量化和计数，作为新框架下的综合评价3. 我们提出P2PNet作为一个直观的解决方案，这个概念上简单的框架。该方法实现了最先进的计数精度和有前途的定位性能，并且也可能对依赖于点预测的其他任务有所启发2. 相关作品在本节中，我们回顾了最近文献中根据是否可以提供个人的位置对它们进行分组由于我们专注于位置的估计，现有的指标占定位误差也进行了讨论。基于密度图的方法。密度图的采用是大多数最先进的人群计数方法的常见选择，因为它在[15]中首次引入。并且通过对预测的密度图求和来获得估计的计数。最近，许多努力已经致力于推进这种方法的计数性能他们要么进行逐像素密度图回归[16，28，11，1，25，8]，要么将局部补丁的计数值分类到几个bin中[39，21，22]。尽管已经提出了许多引人注目的模型，但这些基于密度图学习的模型仍然无法提供人群中个体的确切位置，更不用说[1，27，21]中指出的固有缺陷了。而该方法超越了计数的范畴，侧重于对个体位置的直接预测，避免了密度图的缺陷，也有利于下游的实际应用。基于本地化的方法。这些方法通常通过首先预测个体的位置来实现计数。受尖端对象检测器的激励，一些计数方法[17，26，30]试图预测个体头部的边界框。然而，在仅点注释可用的情况下，这些方法依赖于对地面实况边界框的启发式估计，这是容易出错的或者甚至是不可行的。这些不准确的边界框不仅混淆了模型训练过程，而且使后处理，即、NMS不能抑制错误检测。在没有引入那些不准确的目标的情况下，其他方法通过点[20]或斑点[14]来定位个体，但是留下更多的努力来去除重复或分割拥挤区域中的过接近的检测到的个体。相反，通过一对一的匹配绕过这些棘手的后处理，我们建议简化框架以直接估计个体的点位置。本地化感知指标。传统的评价指标仅对计数误差进行度量，完全忽略了单幅图像中估计误差更准确的评估-3367联系我们M{1}|联系我们PP{|∈ {}}CMMP{|联系我们为了更好地评估，一些作品[7，23，32]提倡采用块级或像素级绝对计数误差作为标准，代替常用的图像级度量。其他研究[30]提出平均定位误差来计算预测和地面实况之间的平均像素距离，仅评估定位误差。受对象检测中使用的评估度量的启发，[10]提出在贪婪关联后使用精确-召回曲线下的面积，然而，这忽略了对重复预测的惩罚因此，[20]建议采用序列匹配，然后使用标准的平均精度（AP）进行评估。在本文中，我们提出了一个新的metric，称为密度归一化平均精度（nAP），作为一个全面的评价指标定位错误和错误检测。特别地，nAP度量引入密度归一化以考虑人群中的大密度变化问题。3. 我们的工作我们首先详细介绍了所提出的框架（第二节）。3.1），并且还呈现了新的评估度量nAP（Sec. 3.2）。然后，我们进行了彻底的分析，以揭示在新框架下改进nAP度量的关键问题（第二节）。3.3）。启发有见地的分析，ysis，我们介绍了拟议的P2PNet（节。3.4），其直接预测一组点提议以表示正面。3.1. 纯基于点的框架所提出的框架直接接收点注释作为其学习目标，然后为人群中的个体提供确切的位置，而不是简单地计算其中的个体数量。并且个体的位置通常由头部的中心点指示，可能具有可选的置信度分数。形式上，给定具有N个个体的图像，我们使用pi=（xi，yi），i1，... N，表示第i个个体的头部中心点，位于（xi，yi）中。然后，所有个体的中心点的集合可以进一步表示为N.假设一个设计良好的模型被训练来实例化这个新框架。并且该模型预测了另外两个集合（=pjj1，..，M且=cj1，..，M其中M是预测个体的数量，并且c（j）是预测点p（j ）的置信度得分。在不损失一般性的情况下，我们可以假设pj恰好是对基础真值点p i的预测。然后我们的目标是确保pj和pi之间的距离尽可能接近，并且具有足够高的scorecj。作为副产品，预测个体的数量M也应该足够接近地面实况人群数量N。简而言之，新框架可以同时实现人群统计和个体定位。与传统的计数方法相比，该框架提供的个体位置有助于那些基于运动的人群分析任务，例如人群跟踪[42]、活动识别[6]、异常检测[3]等。此外，不依赖于劳动密集型注释、不准确的伪框或棘手的后处理，该框架受益于原始点表示的高精度定位特性，特别是对于人群中的高度拥挤区域。因此，这种新的框架是值得更多的关注，由于其优点和实用价值，比传统的人群计数。然而，由于存在严重的遮挡、密度变化和注释错误，因此处理这样的任务是相当具有挑战性的[20，26，30]，这甚至被认为是理想的，但在[10]中是不可行的。3.2. 密度归一化平均精密度在新的框架下如何评价模型的性能是一个很自然的问题。事实上，遵循此框架的良好运行模型不仅应该产生尽可能少的误报或误报，而且还可以实现有竞争力的定位精度。因此，受广泛用于对象检测的平均平均精度（mAP）[19]度量的激励，我们提出了密度归一化平均精度（nAP）来评估定位误差和计数性能。nAP是基于平均精度计算的，平均精度是精确度-召回率（PR）曲线下的面积。PR曲线可以很容易地通过按照[19]中的惯例累积二进制列表来获得。在二进制列表中，真阳性（TP）预测由1指示，假阳性（FP）预测由1指示。0.具体地，给定所有预测的头部点将点列表与其置信度分数从高到低排序。然后，根据预定义的密度感知标准，我们顺序地确定所研究的点是TP或FP。与[10，30]中使用的贪婪关联不同，我们应用顺序关联，其中首先关联那些得分较高的预测以这种方式，这些TP预测可以容易地通过在推断期间的简单阈值滤波来获得。我们介绍我们的密度感知标准如下。一个预测点pj只有在它可以与某个真实值pi匹配时才被分类为TP，其中pi之前不能被任何排名更高的点匹配。匹配过程由基于像素级欧几里得距离的准则1（p（j，pi）引导。然而，直接使用像素距离来测量亲和力忽略了来自群体之间的大密度变化的副作用。因此，我们引入了一个密度归一化的匹配标准，以减轻密度变化的问题。某个地面真值点周围的密度估计如下[41]。3368地面真值点正建议负建议匹配正区域||−||图2.nAP（k=3）中不同水平的定位准确度的图示黄色圆圈指示距离中心GT点pi的dkNN（pi）个像素内的区域。δ的典型值为0.5，如蓝色圆圈所示，这意味着最近的GT(a) 1 v N匹配(b) N v 1匹配(c) 1v1匹配该区域内的大多数像素的点应该是P1。红色圆圈表示更严格的定位精度的阈值（δ =0.25）。形式上，nAP中使用的最终标准定义为：图3.（a）多个地面实况点可以被匹配到当为它们中的每一个选择最接近的建议时，相同的建议，这导致低估的计数。(b)在为每个方案选择最接近的地面实况时，多个方案可能与同一地面实况点匹配，这导致1（p，p）=.1，如果d（p（j，pi）/dkNN（pi）δ，（一）被高估的计数 (c)我们的一对一比赛j < 0，否则，其中d（pj，pi）=pj表示到欧几里得距离，并且dkNN（pi）表示到pi的k个最近邻居的平均距离。我们使用阈值δ来控制期望的定位精度，如图2所示。3.3. 我们的方法我们的方法是一个直观的解决方案，提出的框架，它直接预测一组点proposals代表中心点的个人头部。事实上，点预测的想法对视觉界来说并不新鲜，尽管在这里它有很大的不同。举几个例子，在姿态估计领域，一些方法采用热图回归[4，37]或直接点回归[33，38]来预测预定义关键点的位置。由于要预测的关键点的数量是固定的，因此可以在训练之前完全确定这些点建议的学习目标不同的是，所提出的框架旨在预测未知大小的点集，并且本质上是一个开集问题[39]。因此，这种方法的一个关键问题是确定当前预测应该负责哪个地面真值点。我们建议解决这个关键问题，一个相互最优的一对一的关联策略在训练阶段。让我们进行一个彻底的分析，以显示其他两种策略的缺陷，地面实况目标分配。首先，对于每个地面实况点，具有最近距离的proposal应该产生最佳预测。然而，如果我们为每个地面真值点选择最近的建议，则很可能一个建议可能与多个地面真值点匹配，如图3（a）所示。在这样的情况下，仅一个地面实况可以被正确地预测，导致被低估的计数，特别是对于拥塞区域。其次，对于每个点建议，我们可以将最近的地面实况点分配为以上两个缺陷，因此适合于直接点预测。它的目标。直观地，该策略可能有助于减轻优化的总体开销，因为最近的然而，在这样的分配中，可能存在同时预测相同基础事实的多个提议，如图3（b）所示。因为没有可用的标度符号，所以抑制这些重复预测是棘手的，这可能导致高估。因此，关联过程应该考虑双方，并产生相互最佳的一对一匹配结果，如图3（c）所示。另外，其他两个策略都必须确定负阈值，并且与其匹配目标的距离高于该阈值的提议将被认为是负的。当使用一对一匹配时，那些不匹配的建议被自动保留为否定，而不引入任何超参数。简而言之，解决开集直接点预测问题的关键是确保预测点和地面真值点之间的相互最佳一对一匹配。在获得地面实况目标之后，可以通过端到端优化来训练最后，积极的建议应该被推向他们的目标，而那些消极的建议将被简单地归类为背景。由于点建议随着训练过程动态更新，因此可以通过一对一匹配逐渐选择具有更好表现的潜力的那些建议以用作最终预测。实际上，在上述匹配中使用的距离可以是像素距离之外的任何其他成本度量，诸如置信度分数和像素距离的组合。我们的经验表明，在一对一匹配过程中考虑建议的置信度得分有助于改进所提出的nAP度量。让我们考虑百分之二十五百分之五十百分百中心GT点3-最近的GT积分额外GT积分3369×FFF.ΣP|联系我们×DDLLLP P D联系我.Σ||·||.ΣM×N2××F||·||jy=（x，y）。这些参考点可以是N2Σ。ΣΣ特征映射图像(a) 中心布局特征映射图像(b) 网格布局其中γ是归一化项，其缩放偏移以校正相对小的预测。建议匹配。按照第2节中定义的符号 3.1中，我们使用一对一匹配策略Ω（P，P，D）为P中的每个点提案分配从P获得的地面真值。D是成对匹配成本矩阵。图4.参考点的两种布局类型（s = 2，K = 4）。在相同的基础事实点P1周围的两个预测建议。如果它们具有相同的置信度得分，则更接近于P1的一个应该被匹配为正，并且被鼓励以实现更高的定位准确度。而另一个提议应该被匹配为否定的并且被监督以降低其置信度，因此在下一个训练迭代期间可能不会被再次匹配。相反，如果两个建议共享与P1的相同距离，则具有较高置信度的建议应当被训练为以高得多的置信度更接近P1上述两种情况都将鼓励积极建议具有更准确的位置以及相对更高的置信度，这有利于在所提出的框架下改进nAP3.4. P2PNet模型在这一部分中，我们给出了所提出的点对点网络（P2PNet）的详细流水线。从生成点建议开始，我们详细介绍了我们的一对一关联策略。然后，我们提出了损失函数和网络结构的P2PNet。点建议预测。让我们用s来表示从骨干网络输出的深度特征图，其中s是下采样步幅，并且s的大小为Hff。然后在s的基础上，采用两个并行分支进行点坐标回归和建议分类。对于分类分支，其输出具有Softmax归一化的置信度分数。对于回归分支，由于固有的平移不变量特性，它诉诸于预测点坐标的偏移。卷积层的类型具体来说，F上的每个像素形状为N的线M，用来测量距离在一对中的两个点之间。除了简单地使用像素距离之外，我们还考虑该建议的置信度得分，因为我们鼓励积极的建议具有更高的置信度。形式上，成本矩阵定义如下：D（P，P）=τ||pi−pj||2−cji∈N，j∈M，（3）哪里2表示到l2的距离，cj是建议p j的置信度得分。τ是用于平衡来自像素距离的影响的权重项。基于成对成本矩阵，我们使用匈牙利算法[13，29，36]作为匹配策略Ω进行关联。请注意，在我们的实现中，我们确保M > N产生足够多的预测，因为那些冗余的建议将被分类为否定。从基础真值点的角度来看，让我们使用1，…M来表示最优匹配结果，即，n=n（，，）.也就是说，基础真值点pi与提议pξ（i）匹配。此外，委员会认为，这些匹配的建议（肯定的）可以表示为一个集合Ppos={pξ（i）|i∈{1，… N}}，以及集合neg=p{ξ（i）iN+1，… M被标记为阴性。损失设计。在获得地面真实目标之后，我们计算欧氏损失loc来监督点回归，并使用交叉熵损失cls来训练建议分类。最终的损失函数是上述两个损失的总和，其被定义为：1NLcls=−Mlogcξ（i）+λ1log1−cξ（i），应该对应于输入Im中的大小为s年龄在该面片中，我们首先引入一组固定的参考点R={Rk|k∈{1，…K}}具有预定义的KKKi=1L=1Σ.. pi=1i=N+1-p（四）..、（五）或者密集地布置在贴片上或者仅仅设置在中心如图4所示。由于s上的每个位置有K个参考点，回归分支应产生完全H W K点建议。由于参考点Rk预测偏移（∆k，∆k）L=Lcls+λ2Lloc，（6）其中，12表示欧几里得距离，λ1是针对否定建议的重新加权因子，并且λ2是权重项。以平衡回归损失的影响。公司简介对于其点建议pj=（xj，yj），则pj计算如下：xj=xk+γ∆k，网络设计。如图5所示，我们使用VGG-16 bn [31]中的前13个卷积层来提取深度特征。有了输出的特征图，我们upsam-JXyj=yk+γ∆k，（二）使用最近邻插值将其空间分辨率乘以2倍然后将上采样贴图与× 4= 2= 2位置Rloc我ξ（i）33701v1匹配F×F×地面真理角积极的建议消极建议上采样卷积求和VGG16H/2、W/2H/4、W/4H/8、W/8H/16、W/16H，W回归点H/8、W/8H/16、W/16分类分数地面实况点预测点建议回归头H/8、W/8分类头H/8、W/8H/8、W/8��丨��∈��,... , ��,��丨��∈��,... , ��图5.提出的P2PNet的整体架构。在VGG16的基础上，首先引入了一种上采样的方法来获得细粒度的深度特征图。然后，它利用两个分支同时预测一组点建议和他们的置信度分数。我们管道中的关键步骤是确保点建议和地面实况点之间的一对一匹配，这决定了这些建议的学习目标。通过逐元素添加从横向连接获得特征图。该横向连接用于在第四卷积块之后减小特征图的最后，合并的特征图经历3 × 3卷积层以得到s，并且其中的卷积用于减少由于上采样引起的混叠效应。我们的P2PNet中的预测头由两个分支组成，这两个分支都是s，分别产生点位置和置信度得分。为了简单起见，两个分支的架构保持相同，由三个堆叠的卷积与ReLU激活交织组成。我们已经经验性地发现，这种简单的结构产生有竞争力的结果。4. 实验4.1. 实现细节数据集。我们利用现有的公开可用的数据集在人群计数，以证明我们的方法的优越性。具体而言，在四个具有挑战性的数据集上进行了广泛的实验，包括ShanghaiTech PartA 和 PartB [41] ， UCF CC 50 [9] ，UCF-QNRF [10]和[35].对于UCF CC 50上的实验，我们按照[9]进行了五重交叉验证。数据扩充。首先采用随机缩放，其缩放因子选自[0.7，1.3]，保持短边不小于128。然后，我们随机地从重新调整大小的图像中裁剪具有128 128的固定大小的图像块。最后，随机翻转的概率为0.5也被采纳。对于包含极大分辨率的数据集，即，QNRF和NWPU-Crowd，我们保持图像的最大尺寸不超过1408和1920，恢复，并保持原来的长宽比。超参数。我们使用步幅s= 8的特征图进行预测。参考点的数量K被设置为4（对于QNRF数据集为8）。并且根据数据集统计来设置K以确保M > N。对于点回归，我们将γ设置为100。匹配期间的权重项τ被设置为δ e-2。在损失函数中，λ1设置为0.5，λ2设置为2 e-4。使用具有固定学习率1 e-4的Adam算法[12]来优化模型参数。由于骨干网络中的权重已经在ImageNet上进行了预训练，因此，我们使用较小的学习率1 e-5。训练批次大小设置为8。4.2. 模型评估作为一个全面的标准，建议的nAP度量首次报告，以评估我们的P2PNet模型的性能。如表1中所示，nAP报告如下：采用三个不同的δ阈值，其对应于预测的个体点在不同定位精度下的平均精度。通常，nAP 0. 5可以满足大多数实际应用的要求，这意味着地面实况点恰好是该区域内大多数点的最近邻。另外，纳普0. 1和nAP 0。25被报告为考虑高定位精度的一些要求。在最近的检测方法报告AP在几个阈值下的平均值以提供整体性能的单个数字之后，我们采用类似的度量。具体而言，我们计算多个nAPδ，δ从0.05至0.50，步长为0.05。然后进行平均以3371nAPδSHTech A部分SHTech第B部分UCF CC 50UCF-QNRFNWPU-Crowdδ = 0。05百分之十点九23.8%5.0%百分之五点九百分之十二点九δ = 0。25百分之七十点三百分之八十四点二百分之五十四点五百分之五十五点四71.3%δ = 0。5090.1%94.1%88.1%83.2%百分之八十九点一δ ={0. 05：0。05：0。5064.4%百分之七十六点三百分之五十四点三百分之五十三点一65.0%表1.我们的P2PNet的整体性能方法会场SHTech A部分SHTech第B部分UCF CC 50UCF-QNRFMaeMSEMaeMSEMaeMSEMaeMSE加拿大[24]CVPR'1962.3100.07.812.2212.2243.7107.0183.0贝叶斯+[27]ICCV'1962.8101.87.712.7229.3308.288.7154.8S-DCNet [39]ICCV'1958.395.06.710.7204.2301.3104.4176.1SANet + SPAN [5]ICCV'1959.492.56.59.9232.6311.7--SDANet [28]AAAI'2063.6101.87.810.2227.6316.4--ADSCNet [1]CVPR'2055.497.76.411.3198.4267.371.3132.5ASNet [11]CVPR'2057.7890.13--174.84251.6391.59159.71AMRNet [25]ECCV'2061.5998.367.0211.00184.0265.886.6152.2AMSNet [8]ECCV'2056.793.46.710.2208.4297.3101.8163.2DM计数[34]NeurIPS'2059.795.77.411.8211.0291.585.6148.3我们-52.7485.066.259.9172.72256.1885.32154.5表2.计数精度与最先进方法的比较得到总平均精度nAP{0. 05：0。05：0。50}。从表1中，我们观察到我们的P2PNet实现了在不同的定位精度水平下的有希望的平均精度。具体地，其总体度量nAP{0. 05：0。05：0。50}在所有数据集上大约是60%，这应该已经满足许多实际应用的要求褶皱就主要指标nAP 0. 5、P2PNet一般达到80%以上的有希望的准确率。对于大多数数据集，P2PNet可以实现nAP 0。5的近90%，这证明了我们的方法对个人本地化的有效性。即使对于更严格的度量nAP 0。25，精度仍高于55%。这些结果是令人鼓舞的，因为我们没有使用任何技术，如[2，40]中的坐标细化或开发多个特征级别[18]，这两者都与我们的贡献正交，应该带来更多的改进。此外，P2PNet在nAP 0上实现了相对较低的精度。05，这是合理的，因为在这样高的定位精度下，标记偏差的影响可能逐渐变得此外，我们还注意到，NWPU-Crowd数据集[35]提供了稀缺但有价值的框注释，因此我们使用他们的指标来报告我们的本地化性能，以与其他竞争对手进行比较。我们的P2PNet实现了71.2%/72.9%/69.5%的F1-measure/Precision/Recall，这是具有类似主干的已发表方法中最好的。对于其他基于本地化的方法与人工代码可用，我们还报告了他们的结果在nAP度量（远低于我们的）补充。此外，我们还评估了我们的模型的计数精度。我们的P2PNet的估计人群数量是通过对预测点进行置信3372方法NWPU-Crowd得分高于0.5。我们比较了P2PNet与国家的最先进的方法在几个具有挑战性的数据集具有不同的密度。与[41]类似，我们也采用平均绝对误差（MAE）和均方误差（MSE）作为评估指标。结果示于表2和表3中。最佳性能由粗体数字表示，次佳性能由下划线数字表示。MAE[O]MSE[O]MAE[L]MAE[S]CSRNet [16]121.3387.8112.0522.7贝叶斯+[27]105.4454.2115.8750.5S-DCNet [39]90.2370.582.9567.8DM计数[34]88.4388.688.0498.0我们77.4436283.28553.92表3.NWPU-Crowd数据集上的比较上海科技在上海科技数据集中有两个独立的子集：A部分和B部分。PartA包含从互联网收集的高度拥挤的图像。而PartB是从繁忙的街道收集的，并且表示相对稀疏的场景。我们的P2PNet在PartA和PartB上都实现了特别是，在PartA上，P2PNet与次优方法ADSCNet相比，分别降低了4.8%的MAE和12.9%的对于PartB中的稀疏场景，P2PNet还可以在MAE中带来2.3%的减少。第50章我的秘密UCF CC 50仅从互联网上收集了50张图像，但包含了复杂的场景，人群数量变化很大。如表2所示，我们的P2PNet超过了所有其他方法，与第二好的性能相比，MAE降低了2.1。UCF-QNRF。UCF-QNRF数据集具有挑战性，3373--30713663001397图6.我们的P2PNet预测个体的一些定性结果白色数字表示地面实况或预测计数。可视化结果表明，我们的方法在不同密度下的定位和计数方面的优越性更广泛的计数范围。如表2所示，我们的P2PNet实现了85.32的MAE，这比基于神经架构搜索的方法AM-SNet好得多。与以往的最佳方法ADSCNet相比，方法MAE MSE nAPδ虽然我们的方法的准确性不是那么有竞争力，但它仍然比所有其他数据集上的ADSCNet高得多。此外，在表2中的所有方法中，只有我们的方法可以提供精确的个体位置。NWPU-人群。NWPU-Crowd数据集是最近在[35]中引入的如表3所示，我们的P2PNet实现了最佳的总体MAE，与第二佳方法DM-Count相比减少了12.4%。由于为了简单起见，我们的预测仅基于MAE[S]是不同标度水平的平均MAE，请参见[35]。4.3. 消融研究中心53.789.6161.7网格52.7485.0664.4表4.参考点布局的效果对于总体比较，我们使用δ=0。05：0。05：0。50块参考点布局。我们首先对效果进行从参考点的布局。如表4所示，我们比较了图4中的两种布局。一般来说，这两种布局都实现了最先进的性能，只有微小的差异，证明目标关联比参考点的布局更重要。网格布局由于其参考点的密集排列而表现稍好，这对于拥挤的区域是有益的。功能级别的影响。我们展示了用于预测的不同特征水平的效果。为了公平比较，当使用具有不同步幅的特征级别时，我们保持总参考点相同。如表5所示，表5.SHTech PartA的消融研究对于总体比较，我们使用δ={0. 05：0。05：0。50}。P2PNet始终实现竞争力的结果，使用不同的特征级别，这表明了我们的点为基础的解决方案的有效性。特别地，具有步长8的特征水平提供了各种密度的折衷，因此产生更好的性能。在定位精度方面，当我们增加特征图分辨率时，我们观察到nAP的明显改善趋势，如表5所示。这意味着最好的特征图是有益的定位，这也是符合其他任务的共识。此外，基于我们的基线方法，引入现有的多尺度特征融合技术（如[18]）将是有趣的，为了简单起见，这些技术在我们的P2PNet中被丢弃。5. 结论在这项工作中，我们超越了人群计数，并提出了一个纯粹的基于点的框架，直接预测人群个人的位置。该框架能够更好地满足人群分析下游任务的实际需求与此同时，我们主张使用一个新的度量nAP对定位和计数进行更全面的准确性评估。此外，作为一个直观的解决方案，遵循这个框架，我们提出了一种新的网络P2PNet，这是能够直接采取点注释作为监督，同时预测点的位置，在推理过程中P2PNet这个概念上简单的框架产生国家的最先进的计数性能和有前途的定位精度。布局MAE MSE nAPδ预测地面实况S= 453.5185.7766.8P2PNETs= 852.7485.0664.4S= 1654.385.1852.43374引用[1] 白帅、何志群、乔玉、胡汉哲、吴伟、严俊杰。具有自校正计数监督的自适应扩张网络。在IEEE计算机视觉和模式识别会议上，2020。二、七[2] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn：深入研究高质量的对象检测。在IEEE计算机视觉和模式识别会议上，2018。7[3] 陈晓涵和赖建煌。基于流场div-curl特性的人群异常行为检测模式识别，2019年。3[4] Yilun Chen，Zhicheng Wang，Yuxiang Peng，ZhiqiangZhang，Gang Yu，and Jian Sun.用于多人位姿估计的级联金字塔网络。在IEEE计算机视觉和模式识别会议上，2018。4[5] Zhi-Qi Cheng ， Jun-Xiu Li ， Qi Dai ， Xiao Wu ， andAlexan- der G Hauptmann.学习空间意识以提高人群计数。在 IEEE International Conference on ComputerVision，2019。7[6] 卡米尔·杜邦路易斯·托拜厄斯和伯特兰·卢维森。Crowd-11：用于细粒度人群行为分析的数据集。在IEEE计算机视觉和模式识别研讨会上，2017年。3[7] 里卡多·格雷罗-戈麦斯-奥尔梅多、比阿特丽斯·托雷-吉梅内斯、罗伯托·洛佩斯-萨斯特雷、萨图尼诺·马尔多纳多-巴斯科恩和丹尼尔·奥诺罗-卢比奥。重叠的车辆数量。在 Iberian Conference on Pattern Recognition andImage Analysis，2015中。二、三[8] 胡玉涛，姜小龙，刘旭辉，张宝昌，韩军功，曹贤斌，和大卫·多尔曼.Nas-count：使用神经结构搜索的密度计数。2020年欧洲计算机视觉会议。二、七[9] Haroon Idrees、Imran Saleemi、Cody Seibert和MubarakShah。密集人群图像中的多源多尺度计数。IEEE计算机视觉和模式识别会议，2013。6[10] Haroon Idrees 、 Muhmmad Tayyab 、 Kishan Athrey 、Dong Zhang 、 Somaya Al-Maadeed 、 Nasir Rajpoot 和Mubarak Shah。密集人群中计数、密度图估计和定位的成分损失2018年欧洲计算机视觉会议。三、六[11] Xiaoheng Jiang ， Li Zhang ， Mingliang Xu ， TianzhuZhang， Pei Lv ，Bing Zhou ，Xin Yang ， and YanweiPang.人群计数的注意力缩放。在IEEE计算机视觉和模式识别会议上，2020。二、七[12] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。2014年国际学术代表会议。6[13] 哈罗德·库恩。指派问题的匈牙利方法。海军研究后勤季刊，1955年。5[14] Issam H Laradji 、 Negar Rostamzadeh 、 Pedro OPinheiro 、 David Vazquez 和 Mark Schmidt 。 Blob 在哪里：点监督的定位计数。2018年欧洲计算机视觉会议。2[15] Victor Lempitsky和Andrew Zisserman。学习计算图像中的物体。神经信息处理系统的进展，2010年。2[16] 李玉红，张晓凡，陈德明。Csrnet：用于理解高度拥挤场景的扩展卷积神经网络。在IEEE计算机视觉和模式识别会议上，2018。二、七[17] Dongze Lian ， Jing Li ， Jia Zheng， Weixin Luo ， andShenghua Gao.用于rgb-d人群计数和定位的密度图回归引导检测网络。在IEEE计算机视觉和模式识别会议，2019。2[18] 林宗义、彼得·多尔、罗斯·格希克、何启明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。IEEE计算机视觉和模式识别会议，2017年。七、八[19] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。2014年欧洲计算机视觉会议。3[20] Chenchen Liu，Xinyu Weng，and Yadong Mu.用于联合人群计数和精确本地化的经常性注意力缩放。在IEEE计算机视觉和模式识别会议，2019。二、三[21] Liang Liu，Hao Lu，Haipeng Xiong，Ke Xian，ZhiguoCao，and Chunhua Shen.通过分块分类对对象进行计数。IEEE Transactions on Circuits and Systems for VideoTechnology，2019。2[22] Liang Liu，Hao Lu，Hongwei Zou，Haipeng Xiong，Zhiguo Cao，and Chunhua Shen.加权计数：通过强化学习进行顺序人群计数2020年欧洲计算机视觉会议。2[23] Weizhe Liu ， Krzysztof Lis ， Mathieu Salzmann ， andPascal Fua.基于无人机的头部平面人群密度估计的几何和物理约束。在智能机器人和系统国际会议上，2019年。3[24] Weizhe Liu，Mathieu Salzmann，and Pascal Fua.情境感知的人群计数。在IEEE计算机视觉和模式识别会议，2019。7[25] 刘西洋，杨洁，丁文瑞。基于局部计数映射的自适应混合回归网络在人群计数中的应用.2020年欧洲计算机视觉会议。二、七[26] Yuting Liu，Miaojing Shi，Qijun Zhao，Xiaofang Wang.点入，框出：除了在人群中计算人数。在IEEE计算机视觉和模式识别会议上，2019年。一、二、三[27] Zhiheng Ma，Xing Wei，Xiaopeng Hong，and YihongGong. 点监督下人群计

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

纯基于点的框架：重新思考人群中的计数和定位

重新思考CrowdsA纯基于点的框架中的计数和本地化_Rethinking Counting and Localization

基于深度学习人群计数

基于数字图像处理的人群排队计数算法的研究与实现

基于卷积神经网络的人群计数

人群计数的常用方法有哪些

基于卷积神经网络的人群计数算法

基于数字图像处理的人群排队计数算法的国内外研究现状，1000字

yolov5实现人群计数

std::ostream 不用科学计数法

基于数字图像处理的人群排队计数算法的研究与实现的具体详细实施步骤

浅析计算机视觉人群计数C3框架中__C_SHHB.LOG_PARA = 100.这行代码的作用

std::shared_ptr引用计数设置成2

pytorch人群计数

web 页面上有一个输入框和计数按钮设计它的测试用例

js垃圾回收机制？ 携带关键字:标记清除、引用计数

yolov5 实现人群计数

yolov8人群计数

基于yolov5的行人检测计数

写一篇基于“stc51单片机的输液报警器”选题依据，要求系统有：实现透明水滴检测计数，实现水滴速度计算与无线传输与显示

基于halcon米粒计数

最新资源

js垃圾回收机制？携带关键字:标记清除、引用计数