图像级监督：共同对象计数及位置预测的方法

186 浏览量更新于2023-10-19 收藏 2.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于图像级监督的Hisham Cholakkal1孙国磊1法赫德ShahbazKhan1，2凌少11阿联酋Inception Institute of Artificial Intelligence，UAE2瑞典林可平大学电气工程系计算机视觉工程师{hisham.cholakkal，guolei.sun，fahad.khan，ling.shao}@ inceptioniai.org摘要自然场景中常见物体的计数是计算机视觉中一个具有挑战性的问题，有着广泛的应用前景。现有的图像级监督的共同对象计数方法仅预测全局对象计数，并依赖于额外的实例级监督人数：11（11）人：3（3）刀：1（1）主席：1（1）以确定物体的位置。我们提出了一种图像级监督的方法，既提供了全球的ob-体育用品：1（1）fork：1（1）蛋糕：2（2）时钟：1（1）餐桌：1（1）通过构建对象类别密度图来确定对象实例的对象计数和空间分布。受心理学研究的启发，我们使用有限的对象计数信息（最多四个）进一步减少图像级据我们所知，我们是第一个提出图像级监督密度图估计的共同对象计数，并证明其有效性，在图像级监督实例分割。在PASCAL VOC和COCO数据集上进行了综合实验。我们的方法优于现有的方法，包括那些使用实例级监督，在这两个数据集上的共同对象计数。此外，我们的方法改进了最先进的图像级监督实例分割[34]，相对增益为在PASCAL VOC 2012数据集1上，平均最佳重叠率为17.8%。1. 介绍公共对象计数，也称为通用对象计数，是准确预测自然场景中存在的不同对象类别实例的数量的任务（见图10）。①的人。自然场景中常见的对象类别可以从水果到动物而变化，并且计数必须在室内和室外场景中执行（例如， COCO 或 PASCAL VOC 数据集）。现有的工作采用基于定位的策略[13，27]或利用直接优化的基于回归的模型[4]来预测对象计数，*同等贡献1代码可在github.com/GuoleiSun/CountSeg图1.COCO数据集上的对象计数地面实况和我们的预测分别用黑色和绿色表示尽管使用subitizing范围内的图像级对象计数进行训练[1-4]，但它在左侧图像中的严重遮挡（用蓝色箭头标记以显示两个人）和右侧的不同对象类别下准确地计数了subitizing范围（11人）之外的对象。其中后者已被证明提供了更好的结果[15]。然而，基于回归的方法仅预测全局对象计数而不确定对象位置。除了全局计数之外，以每类别密度图的形式的对象的空间分布在实例分割中描绘相邻对象（见图1）。2）的情况。在人群计数[3，16，18，22，32]中充分研究了密度图估计以保持人群空间分布这里，通过对预测密度图求和需要标准的人群密度图估计方法来预测存在遮挡时的大量人数，例如，在监控应用中。在自然场景中构建密度图的关键挑战与人群密度估计中的挑战不同，并且包括通用对象中的大的类内变化、场景中不同对象的多个实例的共存（参见图11）。1），以及由于许多对象在多个图像上具有零计数而导致的稀疏性。用于人群密度估计的大多数方法使用实例级（点级或边界框）监督，其需要每个实例位置的手动注释。图像-1239712398羊羊羊狗狗个人人人person人人人人人人人人(a)输入图像(b)PRM [34](c)我们的方法(d)我们的密度图图2.使用PRM方法[34]（b）和我们的方法（c）在PASCAL VOC 2012上的实例分割示例。顶行：PRM方法[34]未能描绘空间相邻的两个绵羊类别实例。底行：预测为多人的单人部分以及不准确的掩码分离导致过度预测（7而不是5）。我们的方法通过利用每个类别密度图（d）中对象计数的空间分布来产生精确的掩模。为清楚起见，每个预测掩模的密度图累积显示在绘制的轮廓在顶行中，绵羊和狗类别的密度图被覆盖。级别监督训练通过仅需要图像中不同对象实例的计数来消除对这种用户密集注释的需要。本文提出了一种基于图像级监督的自然场景密度图估计方法，该方法在预测全局目标数的同时保持目标的空间分布。即使图像级监督对象计数减少了人类注释的负担并且与实例级监督相比弱得多，每个对象实例被顺序地计数。心理学研究表明，人类能够使用整体线索非顺序地计数物体，以获得较少的物体计数，称为subitizing范围（通常为1-4）。我们利用这个属性，以进一步减少图像级的监督，只使用对象计数注释的subitizing范围内。简而言之，我们称之为图像级低计数（ILC）监督。Chattopad- hyay等[4]还研究了常见对象计数，其中对象计数（在subitizing范围内和超出subitizing范围）用于预测全局对象计数。或者，实例级（边界框）监督用于通过将图像划分为非重叠区域来对对象进行计数，假设每个区域计数都落在subitizing范围内。与这些策略不同[4]，我们的ILC监督方法既不需要边界框注释，也不需要超出subitizing范围的信息来预测对象实例的计数和空间分布。除了常见的对象计数，建议的ILC监督密度图估计适用于其他场景理解任务。在这里，我们研究其有效性的图像级监督的实例分割，其中的任务是本地化每个对象实例像素级的准确性，提供图像级类别标签。最近的工作[34]，称为峰值响应图（PRM），通过提高局部最大值（峰值）来解决这个问题。在使用峰值刺激模块的图像分类器的类响应图[23]中。然后使用评分度量来对与每个峰值对应的现成对象建议[21，25]进行排名，例如掩模预测。然而，PRM努力描绘空间相邻的对象实例从同一对象类别（见图）。第2段（b）分段）。我们在评分指标中引入了一个惩罚项，该惩罚项为具有预测计数的对象建议分配更高的分数，从而提供改进的结果（图11）。第2段（c）分段）。预测是通过在整个对象建议区域上累积密度图来获得的第2段（d）分段）。贡献：我们提出了一个ILC监督密度图估计方法的共同对象计数。引入一种新的损失函数来构造具有显式项的每类密度图，以预测对象的全局计数我们还证明了所提出的方法用于图像级监督实例分割的适用性。对于常见对象计数，我们的ILC监督方法优于最先进的实例级监督方法，在PASCAL VOC 2007和COCO数据集上，平均均方根误差（mRMSE）的相对增益分别为6.4%和2.9%。对于图像级监督实例分割，我们的方法改进了现有技术，在 PASCAL VOC 2012 数据集上，平均最佳重叠（ABO）为37.6至44.32. 相关工作Chattopadhyay等人[4]研究了基于回归的常见对象计数，使用图像级（每类别计数）和实例级（边界框）监督。表示为扫视的图像级监督策略使用来自subitizing范围内和之外的计数注释来预测对象的全局计数，而不提供关于其位置的信息。实例级12399图3.我们整体架构的概述。我们的网络有一个图像分类和一个密度分支，使用ILC监督联合训练。图像分类分支预测对象的存在和不存在该分支用于生成用于训练密度分支的伪地面实况密度分支在损失函数中有两个项（空间和全局），并产生密度图来预测全局对象计数并保留对象的空间分布。（边界框）监督策略，表示为subitizing，通过将图像划分为非重叠区域来估计大量对象，假设每个区域中的对象计数落在subitizing范围内。相反，我们的ILC监督方法既不需要边界框符号，也不需要在训练过程中subitizing范围计数信息。然后，它预测全局对象计数，甚至超出subitizing范围，连同对象实例的空间分布。我们的新损失函数以及伪地面实况生成策略使对象计数与ILC监督。最近，Laradjiet al. [14]提出了一种基于本地化的计数方法，使用实例级（点）监督进行训练[1]。在推断期间，模型输出指示感兴趣对象的预测位置的斑点，并使用[30]从这些斑点估计对象计数与[14]不同的是，我们的方法是图像级监督的，并通过密度图的简单求和直接预测对象计数，无需任何后处理[30]。在[31]中研究了显着对象subitizing的减少对象计数监督。然而，它们的任务是类不可知的，并且subitizing仅用于在subitizing范围内计数。相反，我们的方法构造特定于类别的密度图，并准确地预测subitizing范围内和超出subitizing范围的对象计数。公共对象计数以前已被用于改进对象检测[4，8]。他们的方法仅在检测器训练期间使用计数信息，而没有显式的计数预测组件。相比之下，我们的方法显式地学习预测全局对象计数。3. 该方法在这里，我们提出了我们的图像级低计数（ILC）监督密度图估计方法。我们的ap-proach 是建立在 ImageNet 预训练的网络骨干（ResNet50）上的。建议的网络架构有两个输出分支：图像分类和密度分支（见图1）。（3）第三章。图像分类分支估计对象的存在或不存在，而密度分支通过构造密度来预测全局对象计数和对象实例地图我们从主干中删除了全局池化层，并使用具有2个P通道的1×1卷积作为输出来调整全连接层。我们在图像分类和密度分支之间平均划分这2个P然后，我们在每个分支中添加一个具有C个输出通道的1×1卷积，从而得到一个完全卷积。网络[19]。这里，C是对象类别的数量，P根据经验被设置为与C成比例。在每个分支中，卷积之前是一个批处理规范化和一个ReLU层。第一个分支提供对象类别图，第二个分支为每个对象类别产生密度图。3.1. 提出的损失函数设I是训练图像，并且t ={t1，t2，...，tc，.， t C}是C个对象类别的地面实况计数的对应向量。而不是使用绝对对象计数，我们采用较低的计数策略来减少图像级监督的量。给定图像I，对象类别基于它们各自的实例计数被分成三个不重叠的集合。第一组，A表示I中不存在的对象类别（即，t c=0）。第二个集合S表示subitizing范围内的类别（即，0Mc（i-ri，j-rj），都是零那些密度图D价值观也应该是M（i，j）=0，否则。在Eq.中计算损失时包括在内。4和backpropagation（见第二节）。3.2），由于其引入虚假的这里，−r≤r i≤r， −r≤r j≤r其中r是半径用于局部最大值计算。我们设r=1，如[34]。在所有空间位置搜索局部最大值，底片。这是通过计算密度图Dc和Bc之间的Hadamard乘积来实现的，一步之为了训练图像分类器，类置信度c= Dc 布雷伯角˜D12401（三）12402˜˜˜C如果预处理的对象类别的空间损失Lsp+，则排序损失惩罚密度分支在Bc之间计算子化范围SC和D使用对于c ∈ S，指定对象计数tc小于t。召回一个逻辑二进制交叉熵（逻辑BCE）[24]损失为积极的地面真理标签。物流BCE损失转移b.第二次迭代范围S_t从t_t=5开始。在subitizing范围S内，空间损失项C通过S形激活的网络预测（D）L个空间已优化以定位对象实例，而层σ并计算标准BCE损失为，布拉奇全局MSE损失（LMSE）被优化，以准确地预指示相应的全局计数。因为联合行动-LccCIBB双对数（σ（D））双和这两项在subitizing范围内的最小化sp+（D， B）=−εc∈S|·Bc|· ǁBcǁ总和.（四）网络学习在所定位的对象和全局计数之间进行关联。此外，网络能够定位在这里，|S|是集合S的基数和范数的平方和通过对矩阵中的所有元素求和来计算。例如，Bcsum=1hBc1w，其中1h和1w是大小为1×H和W×1的全一向量，re-布拉奇对象实例，概括超出subitizing范围S（见图1）。2）的情况。此外，所提出的损失函数中的排序损失Lr_n_k项确保了在低于subitizing范围S_n的情况下的计数的惩罚。分别为。在这里，最高的tc峰值在M假定小批量损失：标准化损失项Lsp+，L是p−，落在对象范畴c∈S的tc个实例上。由于地面实况对象位置的不可用，我们使用这个林世荣和Lrank是通过平均各自的假设并观察它在大多数情况下都成立。正地面实况标签的空间损失Lsp+增强了对应于S内的对象类别的实例的正峰值。然而，c∈S的密度图的假阳性在此损失中不受惩罚我们因此，在损失函数中引入另一项Lsp−解决了c∈A的假阳性问题。对于c∈A，Dc的正激活指示错误检测。零值掩码0H×W用作地面实况以减少这种使用逻辑BCE损失的错误检测，在小批量中的所有图像上的损失项。 L空间由L<$sp++L<$sp− 计算。对于在subitizing范围之外的类别，L_（？）r_（？）n_k可导致对计数的过度估计。因此，通过分配相对较低的权重（λ=0. 1）到Lrank（见表。2）的情况。即，Lglobal=L<$MSE+λ<$L<$rank.3.2. 训练和推理我们的网络分为两个阶段进行训练在第一阶段，密度分支仅用LMSE和L秩使用S和S的损失相对较小。空间损失LspatalLsp−（Dc，0H×W）= −Σǁlog(1−σ(Dc)ǁsum. （五）|一|·H·Wc∈A由方程式1在第一阶段中被排除，因为它需要从图像分类分支生成的伪地面实况。第二阶段包括空间损失。虽然空间损失确保了空间的保存，在对象的分布中，仅依赖于局部信息可能导致全局对象计数的偏差。全局损失：全局损失惩罚预测计数t_c与地面实况的偏差它有两个组成部分：排名损失L排名超出subitizing范围的对象类别（即，对于其余类别，均方误差（MSE）损失为LMSE。LMSE惩罚预测的密度图，如果全局计数预措辞与地面实况计数不符也就是说，反向传播：我们使用来自图像分类分支的B c作为伪地面实况来训练密度分支。因此，不需要通过Bc到分类器分支的梯度的反向传播（如图中的绿色箭头所示）。（3）第三章。图像分类分支如[34]中那样反向传播。在密度分支中，我们使用密度映射与Bc的Hadamard乘积，当量3对c∈S计算Lsp+。因此，梯度由于Lsp+，密度分支的最后一个卷积层的第c个通道的（δc）被计算为，LMSE（tc，tc）=Σc∈{A，S}（tc−tc）2.（六）|一|+的|S|csp+=Lsp+Bc。（八）D这里，预测计数t_c是类别c在其整个空间区域上的密度图的累积I.E. 特罗克 =Dcsum.注意，在空间损失L空间和均方误差损失LMSE的计算中，先前没有考虑S中的对象类别。在这里，我们引入了一个排名损失[29]，其边际为零，对S内的对象类别的r-计数进行惩罚，x（0，t−t）由于LMSE、Lrank和Lsp−是使用卷积输出上的MSE、排名和逻辑BCE损失计算的，使用现成的Pytorch实现来计算它们各自的梯度[24]。推断：图像分类分支为每个类别输出类别置信度得分sc，指示存在（t_c>0，如果s_c>0）或不存在（t_c=0，如果δ12403s_c≤0）。预测的计数tc通过求和获得L秩（tc，t）=c∈S|S˜|C.（七）在其整个空间区域上绘制类别c的密度图Dc所提出的方法只利用subitizing12404˜tic+1注释（tc≤4），并准确预测subitizing范围内和超出subitizing范围的对象计数（见图（六）。3.3. 图像级监督实例分割所提出的ILC监督密度图估计方法也可以用于实例分割。请注意，理想密度图在地面实况分割掩模上的局部总和为1。我们使用此属性来改进最先进的图像级监督实例分割（PRM）[34]。PRM采用了一个评分指标，该指标结合了来自峰值响应图R的实例级线索、来自对象类别图的类感知信息和来自现成对象亲的空间连续性先验。[21，25]. 在这里，峰值响应图是通用的-C从局部最大值（M的峰值）通过峰值返回，传播过程[34]。然后使用评分度量以将对应于每个峰值的对象建议排序以用于实例掩模预测。我们通过在度量中引入额外的项DP来改进评分度量。如果密度图Dc的那些区域中的预测计数不同于1，则项dp惩罚对象提议Pr当d p = |1 − Dc·P rsum|. 在这里，||是绝对值op-发电机对于每个峰值，新的评分度量Score选择得分最高的对象建议Pr.Score=α·RPr+RPr−β·QPr−γ·dp。（九）这里，背景掩模Q是从对象类别图导出的，并且P_r是使用形态梯度导出的建议P_r的轮廓掩模[34]。参数α、β[34]和γ是经验设定的方法SVmRMSEmRMSE- 新西兰m-relRMSEm-relRMSE-nzCAM+MSEIC0.451.520.290.64峰值+MSEIC0.642.510.301.06提出ILC0.291.140.170.61表1.使用我们的方法和两个基线在Pascal VOC 2007计数测试集上进行计数性能测试。这两个基线都是通过使用MSE损失函数训练网络获得的。(a)输入图像（b）类+MSE（c）+空间（d）+排序图4.通过逐步引入空间和等级损失项，密度图质量逐步提高。在这两种情况下（顶行：人和底行：自行车），我们的整体损失函数集成所有三个项提供了最好的密度图。全局对象计数被准确预测（顶行：5人，最下面一排：4辆自行车）通过累积各自的密度图。PASCAL VOC 2012数据集类似于[34]。评价标准：预测的计数tc四舍五入到最接近的整数。我们评估共同目标的数量-ing，如[4，14]中所述，使用均方根误差（RMSE）度量及其三个变体，即RMSE非零（RMSE- nz），相对RMSE（relRMSE）和相对RMSE非零（RMSE-nz）。零（relRMSE-nz）。RMSEC。和relRMSEcer-类别c的误差计算为1T（t −t）24. 实验.不i=1ic ic实施详情：输入通道数P并且，在本发明中，1ΣTTi=1（tic−tic）2respect iv el y. 这里，T是总数每个分支的1×1卷积被设置为P=1。5 ×C.SGD优化器使用的小批大小为16。预训练的ResNet-50主干使用10 -4的初始学习率，而图像分类和密度分支则使用0的初始学习率进行训练。01. 动量设为0.9，重量衰减为10−4。考虑非零和零计数在COCO数据集中（例如，对于每个正类别，79个负类别），集合A中只有10%的样本用于训练密度分支。数据集：我们在PASCAL VOC 2007 [7]和COCO [17]数据集上评估了常见对象计数。为了公平的比较，我们使用了相同的分裂，命名为计数训练，计数值和计数测试，如在国家的-艺术方法[14]，[4]。对于COCO数据集，训练集用作计数训练，验证集的前半部分用作计数值，后半部分用作计数测试。计数值集上的最佳在Pascal VOC 2007数据集中，我们在计数测试中对非困难实例的计数进行了评估，如[14]所示。例如分割，我们训练并报告结果12405测试集中的图像数量和tic，tic是预图像i的口述和地面实况计数。然后将所有类别的误差平均，以获得数据集上的mRMSE和m-relRMSE。还针对具有非零计数的地面实况实例评估上述度量作为mRMSE-nz和m-relRMSE-nz。对于所有错误度量，较小的数字表示更好的性能。我们称[4]的双曲余切值。例如分割，使用平均最佳重叠（ABO）[26]和mAPr评估性能，如[34]所示。mAPr是用0.25、0.5和0.75的联合区间（IoU）阈值计算的。监督级别：监管水平表明作为Tab中的SV。3和4 BB表示边界框监督，sion和PL表示对每个对象实例的点级监督仅使用子化范围内计数的图像级监督方法表示为ILC，而使用子化范围内和超出子化范围计数的方法表示为IC。4.1. 常见对象计数结果消融术研究：我们对PASCAL VOC 2007计数测试进行了消融研究。第一，影响12406L类+LMSEL类+L空间+LMSELλ =0。1Lλ= 0。01Lλ= 0。05Lλ =0。5Lλ=1mRMSE0.360.330.290.310.300.320.36mRMSE-nz1.521.321.141.271.161.231.40表2.左：损失中不同术语的逐步整合函数及其对PASCAL VOC计数测试集的最终计数性能的影响。右：排名损失的权重（λ）的影响。表4. COCO计数测试集上最先进的计数性能比较尽管使用减少监督，我们的ap-proach提供了优越的结果相比，现有的方法在三个指标。与图像级计数（IC）监督方法[4]相比，我们的方法在mRMSE方面实现了8%的绝对增益表3. Pascal VOC 2007计数测试的最新计数性能比较我们的ILC监督方法优于现有方法。橙色：2，8（8）胡萝卜：2、5（5）碗：0，1（1）人：4、1（1）西兰花：1，5（5）人：5、6（6）斑马：15、12（12）远程：2、1（1）tv：1，1（1）我们的双分支架构通过与两个基线进行比较来进行分析：基于类激活[33]的回归（CAM+MSE）和使用[34]的局部最大值提升方法的基于峰值的回归（峰值+MSE）。这两个基线都是通过网络的端到端训练获得的，采用相同的骨干，使用MSE损失函数直接预测全局计数。选项卡. 1显示了COM。我们的方法在很大程度上优于两个基线，突出了在损失函数中具有显式项的双分支架构的重要性，以保留对象的空间分布。接下来，我们评估损失函数中每个项对最终计数性能的贡献。图4显示了密度图的系统性改进（顶行：人和底行：自行车）质量与增量增加（c）空间L空间和（d）（b）MSE（Lrank）损失term. 增加空间损失项可以改善空间-两个密度图中物体的空间分布。通过在损失函数中引入排名项，进一步改进了密度图，该排名项对超出subitizing范围（顶行）的计数的低估进行惩罚。此外，它还有助于减少subitizing范围内的误报（底部行）。选项卡.图2显示了在损失函数中整合不同项时，在mRMSE和mRMSE-nz方面的系统改进当在我们的损失函数中集成所有三个项（分类，空间和全局）时，可以获得最佳结果。我们还评估了控制排名损失相对权重的λ的影响。我们观察到λ=0。1提供最佳结果并为所有数据集修复它。最先进的对比：选项卡.图3和图4分别显示了PASCALVOC 2007和COCO数据集上常见对象计数的最新比较。在 PASCAL VOC 2007 数据集上（选项卡。（3），glanc-图5. COCO数据集上的对象计数示例。地面实况、点水平监督计数[14]和我们的预测分别以黑色、红色和绿色显示。我们的方法准确地执行计数超出subitizing范围和不同的类别（水果动物）在沉重的闭塞（突出显示的红色箭头在左图）。使用在subitizing范围（IC）内和超出subitizing范围（IC）的图像级监督的[4]的ing方法（glance-noft-2L）实现了0的mRMSE得分。50块我们的ILC监督方法大大优于glance-noft- 2L方法，mRMSE的绝对增益为21%。此外，我们的方法实现了一致的改进，所有的错误指标，相比国家的最先进的点水平和边界框为基础的监督方法。选项卡. 4显示了COCO数据集上的结果。在现有方法中，两种BB监督方法（Seq-sub-ft-3x 3和ens）产生0的mRMSE分数。35和0。36分别。PL监督的LC-ResFCN方法[14]实现了0的mRMSE评分。三十八岁。IC监督的扫视方法（glance-noft-2L）获得的mRMSE评分为0。四十二我们的方法优于掠射ap-proach的绝对增益为8%的mRMSE。此外，我们的方法还在其他三个误差度量中提供了对掠览方法的一致改进，并且仅低于m-relRMSE-nz中的两个BB监督方法（Seq-sub-ft 3x3和ens）。图5显示了使用我们的方法和点级（PL）监督方法[14]的对象计数示例。我们的方法在严重遮挡下对各种类别（水果到动物）进行准确计数图6显示了COCO计数测试中所有类别的RMSE计数性能X轴显示不同的地面实况计数值。我们比较了不同的IC、BB和PL监督方法[4，14]。我们的方法在所有计数值上都取得了优于扫视方法的结果[4]方法SVmRMSEmRMSE- 新西兰m-relRMSEm-relRMSE-nzAso-sub-ft-3×3[4]BB0.431.650.220.68Seq-sub-ft-3×3[4]BB0.421.650.210.68中文（简体）BB0.421.680.200.65Fast-RCNN [4]BB0.501.920.260.85LC-ResFCN [14]PL0.311.200.170.61LC-PSPNet [14]PL0.351.320.200.70[4]第四届全国人大代表IC0.501.830.270.73提出ILC0.291.140.170.61方法SVmRMSEmRMSE- 新西兰m-relRMSEm-relRMSE-nzAso-sub-ft-3×3[4]BB0.382.080.240.87Seq-sub-ft-3×3[4]BB0.351.960.180.82中文（简体）BB0.361.980.180.81Fast-RCNN [4]BB0.492.780.201.13LC-ResFCN [14]PL0.382.200.190.99[4]第四话IC0.422.250.230.9112407马马人马马人人人马马牛牛牛图6.在所有类别中，在COCO计数测试集上的不同地面真值计数值下，在RMSE中进行计数性能比较。不同的方法，包括BB和PL监督，显示在图例中。我们的ILC监督的方法提供了优越的结果相比，图像级的监督扫视的方法。此外，我们的方法相比，使用实例级监督的其他方法表现尽管在训练期间没有使用超细化范围注释。此外，我们表现出良好的兼容性，其他方法使用更高的监督。密度图评价：我们采用人群计数中使用的标准网格平均绝对误差（GAME）评估指标[9]来评估密度图中的空间分布一致性。在GAME（n）中，图像被划分为4n个不重叠的网格单元。对于n=0、1、2和3，报告了预测和真实局部计数之间的平均绝对误差（MAE），如[9]所示。我们将我们的方法与最先进的PL监督计数方法（LCFCN）[14]在PASCAL VOC 2007计数测试集的20个此外，我们还通过在数据集上重新训练PASCALVOC 2007的人员类别，与最近的人群计数方法（CSR-net）[16] 对于人员类别，PL监督的LCFCN和CSRnet方法的得分为2。80比2 在GAME（3）中，所提出的方法优于LCFCN和CSRnet，得分为1。83，展示了我们的方法在对象计数的精确空间分布的能力。此外，我们的方法优于LCFCN的所有20个类别。4.2. 图像级监督实例分割最后，我们评估了我们的密度图在PASCAL VOC2012数据集上改进最先进的图像级监督实例分割方法（PRM）[34]的有效性（参见第二节）。3.3）。为了公平比较，我们使用与 [34]中使用的相同的建议（MCG）。在[34]之后，[25]的组合分组框架与[21]的区域层次结构结合使用，称为MCG。请注意，我们的方法是通用的，可以与任何对象建议方法一起使用除了(a) 输入图像(b)PRM [34](c)我们的方法图7. PRM的实例分割示例[34]和我们的方法。我们的方法准确地描绘了空间相邻的多个对象实例的马和牛类。方法贴图r0的情况。25贴图r0的情况。5贴图r0的情况。75Abo[28]第二十八话36.922.98.432.9CAM+MCG [33]20.47.82.523.0SPN+MCG [35]26.412.74.427.1PRM [34]44.326.89.037.6我们48.530.214.444.3表5. PASCAL VOC 2012 val.根据平均精确度（mAP%）和平均最佳重叠（ABO）设置。我们的方法执行了最先进的PRM[34]，ABO的相对增益为17.8%PRM，与MCG一起使用并由[34]报告的图像级监督对象检测方法MELM [28]，CAM [33]和SPN [35]也包含在表中。五、在所有四个评估指标中，所提出的方法在很大程度上优于所有基线方法和[34]。尽管我们的方法略微提高了监督水平（较低计数信息），但它提高了最先进的PRM，平均最佳重叠（ABO）相对增益为17.8%。与PRM相比，在较低的IoU阈值（0.25）下获得的增益突出了所提出的方法的改进的位置预测能力。此外，在较高IoU阈值（0.75）处获得的增益指示所提出的评分函数在将较高分数分配给与地面实况对象具有最高重叠的对象属性方面的有效性图7显示了我们的方法和PRM之间的定性实例分割比较。5. 结论提出了一种基于ILC监督的密度图估计方法，用于自然场景中常见目标的计数。与现有的方法不同，我们的方法提供了一个新的损失函数的帮助下，对象实例的全局对象计数和空间分布我们进一步证明了所提出的密度图在实例分割中的适用性。我们的方法优于现有的方法，共同的对象计数和图像级监督实例分割。超出次级化范围12408引用[1] Amy Bearman，Olga Russakovsky，Vittorio Ferrari和LiFei-Fei。What’s the point：带有点监督的语义分割。在ECCV，2016年。[2] 莎拉·T·博伊森和约翰·卡帕尔迪。数字能力的发展：动物和人类模型。北京：人民出版社，2014.[3] Xinkun Cao，Zhipeng Wang，Yanyun Zhao，and Fei Su.规模聚合网络，用于准确和高效的人群计数。在ECCV，2018。[4] 作者： Ram- prasaath R.Selvaraju Dhruv Batra 和 DeviParikh。在日常场景中计算日常物品。在CVPR，2017年。[5] Chhavi k最大（或最小）元素在一个数组添加的最小堆方法，2018年。[6] 道格拉斯·H·克莱门茨什么是真的？为什么要教它？《教孩子数学》，1999年，第5期[7] Mark Everingham 、 SM Ali Eslami 、 Luc Van Gool 、Christo-pherKIWilliams 、 JohnWinn 和 AndrewZisserman 。 Pascal Visual Object Classes Challenge ： ARetrospective.IJCV，111（1），2015年。[8] 高明飞，李昂，于瑞驰，弗拉德. Morariu和Larry S.戴维斯C-wsl：计数引导的弱监督局部化。在ECCV，2018。[9] R格雷罗，B托瑞，R洛佩兹，S马尔多纳多和D奥诺罗。车辆计数极其重叠。InIbPRIA，2015.[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[11] BrendaRJJansen 、 AbeDHofman 、 MartheStraatemeier 、 Bianca MCW van Bers 、 Maartje EJRaijmakers和Han LJ van der Maas。模式识别在儿童精确计数小数中的作用。英国心理学杂志，32（2），2014年。[12] Maksim Lapin，Matthias Hein，and Bernt Schiele.多类、top-k和多标签分类的损失函数分析和优化。TPAMI，40（7），2018年。[13] 伊萨姆·H放大图片作者：Negar Rostamzadeh皮涅罗、大卫·巴斯克斯和马克·施密特。Blob在哪里：点监督的定位计数。在ECCV，2018。[14] 伊萨姆·H放大图片作者：Negar Rostamzadeh皮涅罗、大卫·巴斯克斯和马克·施密特。Blob在哪里：点监督的定位计数。在ECCV，2018。[15] Victor Lempitsky和Andrew Zisserman。学习计算图像中的物体。在NIPS。2010年。[16] 李玉红，张晓凡，陈德明。Csrnet：用于理解高度拥挤场景的扩展卷积神经网络。在CVPR，2018年。[17] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C

下载后可阅读完整内容，剩余1页未读，立即下载