基于检测的对象计数方法的改进与优势

118 浏览量更新于2023-10-13 收藏 1.47MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Blob在哪里定点监控定位计数伊萨姆·HLaradji1， 2，Negar Rostamzadeh1，PedroO.Pinheiro1，David Vazquez1，Mark Schmidt2， 11Element AI，蒙特利尔，加拿大{negar，pedro，dvazquez}@ elementai.com2部加拿大温哥华英属哥伦比亚大学计算机科学系{issamou，schmidtm}@ cs.ubc.ca抽象。对象计数是计算机视觉中的重要任务，这是由于其在诸如监视、交通监控和计数日常对象的应用中的增长的需求。最先进的方法使用基于回归的优化，其中它们显式地学习对感兴趣的对象进行计数。这些通常比基于检测的方法执行得更好，基于检测的方法需要学习预测每个对象的位置、大小和形状的更困难的任务然而，我们提出了一种基于检测的方法，不需要估计的大小和形状的对象，并优于基于回归的方法。我们的贡献是三方面的：（1）我们提出了一种新的损失函数，鼓励网络仅使用点级注释输出每个对象实例的单个斑点;（2）我们设计了两种方法来分割对象实例之间的大预测斑点;（3）我们表明，我们的方法在几个具有挑战性的数据集上实现了新的最先进的结果。包括Pascal VOC和企鹅数据集。我们的方法甚至优于那些使用更强监督的方法，如深度特征，多点注释和边界框标签。1介绍物体计数是计算机视觉中的一项重要任务，在监控系统[3，4]，交通监控[5，6]，生态调查[1]和细胞计数[7，8]中有许多在交通监控中，可以使用计数方法来跟踪移动的汽车、行人和停放的汽车的数量它们还可以用来监测不同物种的数量，如企鹅，这对动物保护很重要此外，它已被用于对具有挑战性的数据集中的日常场景中存在的对象进行计数，其中感兴趣的对象来自大量的类，例如Pascal VOC数据集[2]。许多挑战与对象计数相关联。模型需要学习对象在形状、大小、姿势和外观方面的可变性。此外，物体可能以不同的角度和分辨率出现，并且可能被部分遮挡（见图11）。①的人。此外，背景，天气条件和照明可以在场景中广泛变化。因此，模型需要2拉腊吉、罗斯塔姆扎德、皮涅罗、巴斯克斯、施密特企鹅：10只企鹅：28只Fig. 1. Penguins [1]和PASCAL VOC数据集[2]的定性结果。我们的方法明确学习本地化对象实例，只使用点级注释。然后，经训练的模型输出斑点，其中每个独特的颜色表示预测的感兴趣对象。注意，预测计数仅仅是预测的斑点的数量。在存在这些变化的情况下足够鲁棒以识别对象，以便执行有效的对象计数。尽管如此，诸如“亮度”和对象密度估计器的基于寄存器的模型已经一致地定义了对象计数中的最新结果[9，10]。这是因为它们的损失函数被直接优化用于预测对象计数。相比之下，基于检测的方法需要优化用于估计对象实例的位置、形状和大小的更困难的任务。实际上，完美检测意味着完美计数，因为计数仅仅是检测到的对象的数量。然而，学习检测物体的模型通常导致对象计数的更差结果[9]。因此，我们来看看这是一项比检测更容易的任务，因为它只关注于简单地定位场景中的对象实例。预测对象实例的确切大小和形状是不必要的，并且通常会带来更困难的优化问题。因此，我们提出了一种新的损失函数，该函数鼓励模型输出实例区域，使得每个区域包含单个对象实例（即，单个点级注释）。类似于检测，预测计数是预测实例区域的数量（参见图1B）。①的人。我们的模型只需要点监督，这是一种比边界框更弱的监督，以及大多数基于检测的方法所使用的每像素注释[11，12，13]。因此，我们可以为大多数计数数据集训练我们的模型，因为它们通常具有点级注释。这种类型的注释获取成本低，因为它需要比边界框和每像素注释更低的人力[14]。点级注释提供对象位置的粗略估计，但不提供它们的大小或形状。我们的计数方法使用所提供的点注释来引导其注意场景中的对象实例，以便学习将它们本地因此，我们的模型具有为不同对象实例预测不同大小区域的灵活性，这使得它适合于计算大小和形状不同的对象相比之下，最先进的基于密度的估计器通常假设固定的对象大小（由高斯内核定义）或受约束的环境[6]，这使得难以对具有不同大小和形状的对象进行斑点在哪里：通过点监督的本地化计数3仅给定点级注释，我们的模型使用一种新颖的损失函数，该函数(i)强制其预测图像中每个像素的语义分割标签（类似于[14]），以及（ii）鼓励其输出每个对象实例的分割斑点。在训练阶段，模型学习拆分包含多个点注释的斑点，并删除不包含点级别注释的斑点。我们的实验表明，与最先进的计数方法相比，我们的方法实现了更好的对象计数结果，包括那些使用更强的监督，如每像素标签。我们的基准测试使用代表对象计数的不同设置的数据集：Mall [15]，UCSD [16]和ShanghaiTech B [17]作为人群数据集; MIT Traffic [18]和Parklot [5]作为监视数据集; Trancos [6]作为交通监测数据集; Penguins [1]作为人口监测数据集。我们还显示了PASCAL VOC[2]d的计数结果，其中，在通常情况下，每个数据都有一个对象出现。我们还研究了使用建议的损失函数的不同部分对计数和定位性能的影响。我们总结了我们的贡献如下：（1）我们提出了一个新的损失函数，鼓励网络输出一个单一的斑点每个对象实例使用点级注释只;（2）我们设计了两种方法，用于分割大预测斑点之间的对象实例;（3）我们证明了我们的方法在几个具有挑战性的数据集上取得了新的最先进的结果，包括Pascal VOC和Penguins数据集。论文的其余部分组织如下：第2节介绍了对象计数的相关工作;第3节描述了拟议的方法;第4节描述了我们的实验和结果。最后，我们在第5节中给出了结论。2相关工作对象计数在过去几年中受到了极大的关注[19，9，8]。它可以大致分为三类[20]：（1）通过聚类进行计数，（2）通过回归进行计数，（3）通过检测进行计数。对象计数的早期工作使用基于聚类的方法。它们是无监督的方法，其中基于诸如外观和运动线索的特征对对象进行聚类[19，21]。Rabaud和Belongie [19]提出使用通过运动和外观线索检测的特征点，并使用KLT [22]进行时间跟踪。然后基于相似特征对对象进行聚类。Sebastian等人。 [21]使用了一种期望最大化方法，该方法基于头部和肩部特征对人群中的个体进行聚类。这些方法使用基本特征，并且与深度学习方法相比，通常在计数方面表现不佳。另一个缺点是这些方法仅适用于视频序列，而不是静止图像。通过回归方法计数在许多基准测试中定义了最先进的结果他们被证明是更快，更准确的比其他组，如计数检测。这些方法包括扫视和基于密度的4拉腊吉、罗斯塔姆扎德、皮涅罗、巴斯克斯、施密特明确学习如何计算而不是优化基于本地化的目标的方法Lempitsky等人[8]提出了第一种使用物体密度来计算人数的方法。它们使用高斯核将点级注释矩阵转换为密度图。然后，他们使用最小二乘目标训练他们的模型来预测密度图。一个主要的挑战是确定高斯核的最佳大小，其高度依赖于对象大小。因此，Zhang et al. [17]提出了一种使用透视图调整内核大小的深度学习方法。这假设固定的摄像机图像，诸如在监视应用中使用的那些。Onoro-Rubio等人 [10]通过提出一种无视角的多尺度深度学习方法来扩展这种方法。然而，这种方法不能用于计数日常对象，因为它们的大小在场景中变化很大，因为它对内核大小高度敏感一种用于通过图像级标签进行计数的方法是“glan ce”[ 9 ]，其中明确地学习仅使用图像级标签进行计数。如果对象计数很小，则扫视方法是有效的[9]。因此，作者提出了一种不被称为“替换”的全局约束方法，以约束图像中的大量对象。该方法使用扫视来独立地对图像的不同非重叠区域处的对象进行计数。虽然扫视是容易的，但对于图像质量要求不高，这种“替换”方法需要更复杂的训练过程，该过程需要完全的每像素注释地面实况。通过检测方法计数首先检测感兴趣的对象，然后简单地计数实例的数量。成功的对象检测方法依赖于边界框[11，12，23]和每像素标签[24，25，26]地面实况。完美的对象检测意味着完美的计数。然而，Chattopadhyay等人。 [9]表明，Fast RCNN [27]，一种最先进的对象检测方法，比基于扫视和subitizing的方法表现更差。这是因为检测任务具有挑战性，因为模型需要学习可能被严重遮挡的对象实例的位置、大小和形状。虽然一些作品[9，10，8]表明通过检测进行计数对于对象经常被遮挡的监控场景是不可行的，但我们表明学习局部化的概念可以帮助模型改进计数。类似于我们的方法是由Arteta等人提出的工作线。 [28、29、30]。他们提出了一种基于优化树结构离散图形模型来检测重叠实例的方法虽然他们的方法仅使用点级注释显示出良好的检测结果，但其计数性能比基于回归的方法（如[8]）差。我们的方法也类似于分割方法，例如U-net [31]，它使用全卷积神经网络学习分割对象与我们的方法不同，U-net需要完整的每像素实例分割标签，而我们只使用点级注释。斑点在哪里：通过点监督的本地化计数53基于本地化的计数FCN我们的模型基于Long等人提出的全卷积神经网络（FCN）。[24]。我们扩展了他们的语义分割损失执行对象计数和本地化与点监督。我们表示新的损失函数为基于本地化的计数损失（LC），我们指的是建议的模型LC-FCN。接下来，我们描述了建议的损失函数，我们的模型的架构，和预测过程。3.1提出的损失函数LC-FCN使用由四个不同项组成的新型损失函数前两个项，图像级和点级损失，强制模型预测图像中每个像素的语义分割标签。这是基于Bearman等人提出的弱监督语义分割算法。 [14 ]第10段。这两个术语单独不适合对象计数，因为预测的斑点通常将许多对象实例分组在一起（参见第4节中的消融研究）。最后两项鼓励模型为每个对象实例输出唯一的blob，并删除没有对象实例的blob。请注意，LC-FCN只需要指示对象位置而不是其大小和形状的点级注释。令T表示点注释地面实况矩阵，其在每个对象的位置处具有标签c（其中c是对象类）并且在其他地方具有零。我们的模型使用softmax函数来输出矩阵S，其中每个条目Sic是像素i属于类别c的概率。所提出的损失函数可以写为：L（S，T）=LI（S，T）`联系我们图像级损失+LP（S，T）`联系我们点级损耗+LS（S，T）`˛¸X分电平损耗+LF（S，T）`联系我们假阳性损失、（1）下面我们将详细描述。图像级丢失。设Ce是图像中存在的类的集合。对于每个类c∈Ce，L1增加模型将至少一个像素标记为类c的概率。此外，令Cee是图像中不存在的类别的集合。对于每个类别c∈C¬e，损失降低了模型将任何像素标记为类别c的概率。可以从所提供的地面实况点级注释获得Ce和Ce更正式地，图像级损失计算如下：L（S，T）=−1我|Ce|Σc∈Celog（S ）− 1tc cc|塞额|Σc∈C¬elog（1 −Stcc），（2）其中r e tc=argmaxi∈ISic。对于图像中的类别，至少一个像素应被标记为该类别。对于图像中不存在的类，没有像素应该属于该类。注意，我们假设每个图像具有至少一个背景像素;因此，背景类属于Ce。6拉腊吉、罗斯塔姆扎德、皮涅罗、巴斯克斯、施密特积分级损失。该术语鼓励模型正确地标记包含在地面实况中的监督像素的小集合Is表示对象实例的位置。这被正式定义为，ΣLP（S，T）=−i∈Islog（SiTi），（3）其中Ti表示像素i的真实标签。请注意，此丢失将忽略所有未注释的像素。分层损耗。LS不鼓励模型预测具有两个或更多个点注释的斑点。因此，如果斑点具有η个点注释，则该损失强制将其分割成η个斑点，每个斑点对应于唯一对象。这些分割是通过首先找到对象对之间的边界来进行的然后模型学习预测这些边界作为背景类。该模型输出二进制矩阵F，其中如果argmaxkSlk> 0，则像素i是前景，否则是背景。我们应用由[32]提出的连通分量算法来找到前景掩模F中的斑点B。我们只考虑具有两个或更多个groundtrutthpoint的斑点，而不是在sB′上。我们采用了两种方法来解决问题（见图1）。2）、1. 我是一个很好的朋友。对于Bw中的一个任务，在一组P对中使用了一个封闭的端口。如果ea cpair（pi，pj）∈bP，则使用评分函数来确定垂直于pi和pj 之间的直线的最佳段 E。这些片段线包含在所提供的数据库中，并在选定的数据库区域中。用于分段的函数z（·）E被计算为，z（E）=1|E|Σi∈ES10，（4）其是属于段E的背景概率的平均值（其中0是背景类别）。最佳边缘E_best被定义为表示在所有的边缘线中具有作为背景的最高概率的边缘的像素集合。该设计使得两个对象之间的分离的边缘最接近然后，我们将Tb设置为表示由线分裂方法生成的最佳边缘的像素的集合。2. 分水岭分割法这包括全局和局部分割过程。对于全局分割，我们在输入图像上全局应用分水岭分割算法[33将分割应用于前景概率的距离变换，这导致k个片段，其中k是图像中的点注释的数量。对于局部分割过程，我们对B¯中的一个小块应用分水岭分割，而重新使用它们内部的点作为种子。这增加了在计算损失函数时分裂大斑点的重要性最后，我们将Tb定义为表示像素的集合发送由局部和全局分割确定的边界。斑点在哪里：通过点监督的本地化计数7预测的斑点线分割流域分割图二. 拆分方法。线分割和流域分割之间的比较。损失函数标识边界分割（显示为黄线）。黄色斑点表示具有多个对象实例的斑点，红色斑点表示没有对象实例的斑点。绿色斑点是真阳性。正方形表示地面实况点注释。图2示出了使用线分割和分水岭分割方法的分割边界（如黄线）。给定Tb，我们计算分裂损失如下：LS（S，T）=− Σi∈Tbαilog（Si0），（5）其中Si0是像素i属于背景类的概率，αi是像素i所在的斑点中的点注释的数量这鼓励模型专注于分割具有最多点级注释的blob这种方法背后的直觉是，学习预测对象实例之间的边界允许模型区分它们。因此，惩罚项鼓励模型为每个对象实例输出单个blob。我们强调，为了准确计数，没有必要获得正确的边缘。只需要确保每个对象上有一个正区域其他启发式方法可以构建仍然可以在我们的框架中使用的负区域。例如，[34，35]中提出的快速标签传播方法可用于确定图像中对象之间的边界。注意，这4个损失函数仅在训练期间使用。该框架在测试时不拆分或移除假阳性blob预测纯粹基于从概率矩阵S获得的斑点。假阳性损失。LF不鼓励模型预测没有点注释的斑点，以便减少假阳性预测的数量损失函数定义为LF（S，T）=− Σi∈Bfplog（S10），（6）8拉腊吉、罗斯塔姆扎德、皮涅罗、巴斯克斯、施密特图三. 给定输入图像，我们的模型首先使用ResNet等主干架构提取特征。然后通过上采样路径对所提取的特征进行上采样，以获得对象的斑点。在本例中，模型预测PASCAL VOC 2007数据集中图像的人和自行车的斑点其中，Bfp是构成针对不包含地面实况点注释的每个类别（背景类别除外）预测的斑点的像素集合（注意，Si0是像素i属于背景类别的概率Bfp内的所有预测都被认为是假阳性（参见图5中的红色斑点）。因此，优化该损失项会导致较少的假阳性预测，如图2中的定性结果所示五、实验表明，这个损失项是非常重要的准确的对象计数。3.2LC-FCN体系结构和推理LC-FCN可以是任何FCN架构，例如FCN 8架构[24]，Deeplab [36]，Tiramisu [25]和PSPnet [26]。LC-FCN由提取图像特征的主干组成。主干是Imagenet预训练的网络，如VGG 16或ResNet-50 [37，38]。然后，使用上采样路径对图像特征进行上尺度化，以输出指示概率的每个像素i的分数它属于C类（见图）。（3）第三章。我们通过以下三个步骤预测类c的对象数量：（i）上采样路径输出矩阵Z，其中每个条目Zic是像素i属于类别c的概率;然后（ii）我们生成二进制掩码F，其中如果arg max kZik= c，则像素Fic = 1，否则为0;最后（iii）我们对F应用连接分量算法[32]以获得每个类别c的斑点。计数是预测的斑点的数量（参见图1B）。（3）第三章。4实验在本节中，我们将描述评估指标、训练过程，并给出实验结果和讨论。4.1设置评估指标。对于具有单类对象的数据集，我们报告平均绝对误差（MAE），该误差测量预测计数pi的偏差斑点在哪里：通过点监督的本地化计数9分离混合方法Max中值Max中值仅密度[1]8.115.019.817.09和赛格一起。深度[1]6.383.995.743.42带分段且无深度[1]5.773.415.353.26一眼6.085.491.842.14公司简介3.743.281.621.80LC-ResFCN3.963.431.501.69表1.企鹅数据集。我们的方法对以前的国家的最先进的方法的评价在数据集描述中解释的四种设置中进行评价根据真实计数c，计算为1Σ|p−c|. MAE是常用的INi我我用于评估对象计数方法的度量[39，40]。对于具有多个类对象，我们报告使用的平均均方根误差（mRMSE在[9]的PASCALVOC 2007数据集。我们使用[6]中的平均绝对误差（GAME）来测量定位性能。由于我们的模型预测的是斑点而不是密度图，因此GAME可能不是准确的因此，在第4.3节中，我们使用F-Score度量来评估预测的斑点相对于点级注释地面实况的定位性能。培训程序。我们使用Adam [41]优化器，学习率为10−5，权重衰减为5×10−5。我们仅将提供的验证集用于提前停止。在训练期间，模型使用批量大小1，其可以是任何大小的图像我们通过在每个图像上应用水平翻转增强方法来加倍我们的训练集最后，我们报告的预测结果的测试集。我们比较了三种架构：FCN 8 [24]; ResFCN，它是使用ResNet-50而不是VGG 16作为主干的FCN 8;以及使用ResNet-101作为主干的PSPNet [26我们在所有的实验中使用分水岭分裂程序。4.2结果和讨论企鹅数据集[1]。企鹅数据集包括位于南极洲的企鹅殖民地的图像。我们使用两个数据集分裂[1]。在本说明书中，存储在数据集中的信息来自随机缓存，而不是在数据集中的选项。在所描述的实施例中，训练集中的图像来自与测试集中的图像相同的相机。在表1中，相对于最大和中值计数计算MAE（因为存在多个注释器）。我们的方法在所有四种设置中的表现都明显优于他们的方法，尽管他们的方法使用了深度特征和多个注释10拉腊吉、罗斯塔姆扎德、皮涅罗、巴斯克斯、施密特方法Mae游戏（1）游戏（2）游戏（3）Lemptisky+SIFT [6]13.7616.7220.7224.36[10]第十话10.9913.7516.6919.32FCN-MT [42]5.31---FCN-HA [43]4.21---CSRNet [44]3.565.498.5715.04一眼7.0---公司简介4.537.0010.6616.05LC-ResFCN3.325.27.9212.57LC-PSPNET3.574.987.4211.67表2. Trancos数据集。我们的方法相对于先前最先进的方法的评估，比较平均绝对误差（MAE）和网格平均平均绝对误差（GAME），如[6]中所述。为每一只企鹅提供。这表明，LC-FCN可以学会区分个别企鹅，尽管严重的闭塞和拥挤。Trancos数据集[10].Trancos数据集包括从位于不同道路上的交通监控摄像机拍摄的图像该任务是对交通场景的感兴趣区域中存在的车辆进行每个车辆都用表示其在图像中的位置的单点注释来我们在表2中观察到，我们的方法实现了计数和定位的新的最先进的结果注意，GAME（L）使用4L个非重叠区域的网格来细分图像，并且误差被计算为这些子区域中的每个子区域中的平均绝对误差对于我们的方法，区域的预测计数是该区域中的预测斑点中心的数量这提供了对本地化性能的粗略评估与表2中的方法相比，LC-FCN不需要透视图，也不需要多尺度方法来学习不同大小的对象这些结果表明，LC-FCN可以准确地定位和计数极端重叠的车辆。停车场[5]。该数据集包括在巴西库里蒂巴的一个停车场拍摄的监控图像。我们使用数据集的PUCPR子集，其中前50%的图像被设置为训练集，最后50%作为测试集。将训练集的最后20%设定为早期停止的验证集。地面实况由每个停放的汽车的边界框组成，因为该数据集主要用于检测任务。因此，我们通过取每个边界框的中心将它们转换为点级别的注释表5显示LC-FCN在MAE方面显著优于GlanceLC-FCN 8每幅图像的平均误计数仅为0.21，尽管许多图像包含超过20辆停放的汽车。这表明明确地学习定位停放的汽车可以执行斑点在哪里：通过点监督的本地化计数11方法UCSD 商城上海科技园BFCN-rLSTM [43]1.54--MoCNN [45]-2.75-CNN增强[46]1.102.01-M-CNN [17]1.07-26.4CP-CNN [47]--20.1CSRNet [44]1.16-10.6公司简介1.512.4213.14LC-ResFCN0.992.1225.89LC-PSPNet1.01 2.0021.61方法mRMSE mRMSE-nz m-relRMSE m-relRMSE-nzGlance-noft-2L [9]0的情况。501 .一、830的情况。270的情况。73Aso-sub-ft-3× 3 [9]0的情况。421 .一、650的情况。210的情况。68Faster-RCNN [9]0的情况。501 .一、920的情况。260的情况。85LC-ResFCN0.311.200.170.61LC-PSPNet0.351.320.200.70表3. PASCAL VOC.我们与[9]中提出的方法进行比较。我们的模型在完整的测试集上进行评估，而其他方法则采用测试集评估的十个随机样本的平均值。表4.群组数据集MAE结果。图4.第一章上海科技的预测斑点B测试图像。在计数方面，它比从图像级标签中明确学习计数的方法更好（见图1）。五是质量问题）。请注意，这是在此数据集上应用的第一个计数方法。MIT Traffic [3].该数据集由从单个固定摄像头拍摄的监控视频组成它有20个视频，分为训练集（视频1-8），验证集（视频0-10）和测试集（视频11-20）。每个视频帧被提供有指示每个行人的边界框我们通过取每个边界框的中心将它们转换为点级别的注释表5显示，我们的方法显著优于Glance，这表明学习基于定位的目标允许模型忽略对对象计数没有贡献的背景区域。因此，LC-FCN不太可能过拟合来自背景的不相关特征据我们所知，这是第一个应用于该数据集的计数方法。Pascal VOC 2007 [2]. 我们使用[2]中指定的标准训练，验证和测试分割。我们使用Bearman等人提供的点级注释地面实况。[14]来训练我们的LC-FCN方法。我们对Pascal VOC 2007测试集的非困难实例的计数进行了评估。表3比较了LC-FCN与[9]提出的不同方法的性能。我们向读者指出[9]，以了解表中使用的评估指标的我们表明，LC-FCN实现了新的国家的最先进的结果12拉腊吉、罗斯塔姆扎德、皮涅罗、巴斯克斯、施密特2TP+FP+FNMIT 交通PK批次特兰科斯企鹅分离方法MaeFSMaeFSMaeFSMaeFS一眼1.57-1.92-7.01-6.09-LI+LP3.110.3839.620.0438.560.059.810.08LI+LP+LS1.620.769.060.836.760.564.920.53LI+LP+LF1.840.6939.600.0438.260.057.280.04LC-ResFCN1.260.8110.160.843.320.683.960.63公司简介0.910.690.210.994.530.543.740.61表5. 定量结果。所提出的损失函数的不同部分的计数和定位性能的比较。关于mRMSE。我们看到，LC-FCN优于明确学习计数的方法，尽管学习本地化该数据集的对象是一项非常具有挑战性的任务。此外，LC-FCN使用比Aso-sub和Seq-sub更弱的监督，因为它们需要完整的每像素标签来估计不同图像区域的对象人群计数数据集。表4报告了我们的方法在3个人群数据集上使用调查论文[40]中描述的设置对于该实验，我们使用ResFCN作为主链，使用水分流方法显示了我们的结果我们看到，我们的方法在人群计数方面取得了有竞争力的图 4 显示了我们的模型在ShanghaiTech B数据集的测试图像上的预测斑点。我们看到，我们的模型预测每个人脸上的斑点这是预期的，因为地面实况点水平不被标记在图像的面上。4.3消融研究本地化基准。由于鲁棒定位在许多计算机视觉应用中是有用的，我们使用F-Score度量来直接评估我们的模型的定位性能 F-Score是用于检测的标准度量，因为它考虑了精确度和召回率两者。F-Score= 2 TP，其中真阳性（TP）的数量是包含至少一个点注释的斑点的数量;假阳性（FP）的数量是不包含点注释的斑点的数量;并且假阴性（FN）的数量是点注释的数量减去真阳性的数量。积极的。表5显示了我们的方法在几个数据集上的定位结果。损失函数分析我们评估的损失函数的每一项计数和本地化的结果的影响。我们先看一个模型的结果斑点在哪里：通过点监督的本地化计数13图五. 用所提出的损失函数的不同项训练的LC-FCN的定性结果。(a)测试图像来自MIT Traffic、Parking Lot、Trancos和Penguins。（b）仅使用图像级和点级损失项的预测结果（c）使用图像级、点级和分裂级损失项的预测结果（d）用完整的拟议损失函数训练的预测结果绿色斑点和红色斑点分别指示真阳性和假阳性预测黄色斑点表示包含多个对象实例的斑点。仅用图像级损失L1和点级损失LP训练这两个术语用于使用点注释的语义分割[14]。我们在图中观察到在图5（b）中，使用这两个项的模型导致将许多对象实例分组在一起的单个斑点因此，这在平均绝对误差和F分数方面表现不佳（参见表5）。因此，我们引入了分裂级损失函数LS，它鼓励模型预测不包含多个点注释的我们在图中看到在图5（c）中，使用该附加损失项的模型预测几个斑点作为对象实例，而不是一个大的单个斑点。然而，由于LI+LP+LS不会惩罚模型预测没有点注释的斑点，因此它通常会导致许多假阳性。因此，我们引入了假阳性损失LF，其阻止模型预测没有点注释的斑点通过将该损失项添加到优化中，LC-FCN实现了显著的改进，如定性和定量结果所示（见图11）。5（d）和表5）。此外，仅包括分裂级损失导致预测大量的小斑点，从而导致许多误报，这使得性能下降。14拉腊吉、罗斯塔姆扎德、皮涅罗、巴斯克斯、施密特.2 8×1014.第一章7.1 9× 1013 .第三章。2.1 2× 1018.1五、35 1015202530历元二、 21 .一、 51 .一、 05 10 15 20 25 30历元图六、拆分启发式分析。分水岭分割法和线分割法与验证MAE评分之间的比较糟了将其与假阳性损失相结合避免了这个问题，这导致性能的净改进。另一方面，仅使用假阳性损失，它倾向于预测一个巨大的斑点。拆分启发式分析。在图6中，我们表明分水岭分割在Trancos和Penguins验证集上实现了更好的MAE。此外，使用分水分裂实现了关于时期的数量对验证集的快得多的改进。这表明，使用适当的启发式来识别负区域是重要的，这为未来的工作留下了一个开放的领域。5结论我们提出了LC-FCN，一个完全卷积的神经网络，以解决问题的对象计数仅使用点级注释。我们提出了一个新的损失函数，鼓励模型输出一个单一的斑点为每个对象实例。实验结果表明，LC-FCN优于目前的状态的最先进的模型上的PASCAL VOC 2007年，Trancos，和企鹅数据集，其中包含对象被严重遮挡。对于未来的工作，我们计划探索不同的FCN架构和拆分方法，LC-FCN可以使用这些方法来有效地拆分具有复杂形状和外观的重叠对象6确认我们要感谢匿名的审稿人，他们的有益的意见，显着改善了文件。Issam Laradji由UBC四年期博士奖学金（4YF）资助Trancos Val Set上的MAEMAE on Penguins Val SetSplit方法特兰科斯企鹅LC-ResFCN（L）4.771.89斑点在哪里：通过点监督的本地化计数15引用1. 阿特塔角Lempitsky，V.齐瑟曼，A.：在野外数数ECCV（2016）2. Everingham，M.Eslami，S.M.，古尔湖威廉姆斯，C.K.，Winn，J.，齐瑟曼，A.：pascal visual object classes挑战：回顾展。IJCV（2015）3. 王，M.，Wang，X.：通用行人检测器对特定交通场景的自动适应。CVPR（2011）4. Zen，G. Rostamzadeh，N.，Staiano，J.，Ricci，E.，Sebe，N.：功能场景分类的增强语义描述符。ICPR（2012年）5. De Almeida，P.R. Oliveira，L.S.，Britto Jr，A.S.，小席尔瓦E.J. Koerich，A.L.：Pklot- a robu s t a s et t at ExpertSystemswithithApp-cations（2015）6. 格雷罗河Torre，B.，洛佩斯河，巴西-地Maldonado，S.，Onoro，D.：重叠的车辆数。02 The Dog（2015）7. Cohen，J.P.，Boucher，G.，加利福尼亚州格拉斯顿伯里卢，H.Z.，Bengio，Y.：计数：全卷积冗余计数法计数。ICCV研讨会（2017）8. Lempitsky，V.齐瑟曼，A.：学习计算图像中的物体NIPS（2010）9. Chattopadhyay，P.，韦丹塔姆河RS，R.，Batra，D.，Parikh，D.：在日常场景中计算CVPR（2017）10. Onoro-Rubio，D. 、Lo′pez-Sastre、R. J. ：Towwardspee-freeo b e-jecttingwithdeep learning. ECCV（2016）11. Ren，S.，他，K.，格尔希克河孙杰：更快的r-cnn：利用区域建议网络进行实时目标检测。NIPS（2015）12. Redmon，J.，Divvala，S.，格尔希克河Farhadi，A.：你只看一次：统一的实时物体检测。CVPR（2016）13. 白，M.，乌尔塔松河：用于实例分割的深分水岭变换CVPR（2017）14. Bearman，A.，Russakovsky，O.，法拉利，V。，李菲菲：重点是什么：带有点监督的语义分割。ECCV（2016）15. Chen，K.，Loy，C.C.，龚，S.，Xiang，T.：用于局部人群计数的特征挖掘。BMVC（2012）16. 陈A.B. Liang，Z.S.J.，Vasconcelos，N.：隐私保护人群监测：没有人模型或跟踪的情况下计算人数。CVPR（2008）17. 张玉，Zhou，D.，中国科学院学报，陈淑仪，Gao，S.，Ma，Y.：通过多列卷积神经网络进行单图像人群计数。CVPR（2016）18. 王，X.，妈，X.，Grimson，W.E.L.：基于分层贝叶斯模型的拥挤复杂场景下的无监督行为感知。PAMI（2009）19. Rabaud，V.，Belongie，S.：计算拥挤的移动物体。 CVPR（2006）20. Loy，C.C.，Chen，K.，龚，S.，Xiang，T.：人群计数和分析：方法学和评价。人群建模、仿真和可视化分析（2013）21. Tu，P.，Sebastian，T.Doretto，G.Krahnstoever，N.Rittscher，J.，宇、T：统一人群细分。ECCV（2008）22. 施，J.，Tomasi，C.：很好的跟踪功能康奈尔大学（1993年）23. 刘伟，Anguelov，D.，Erhan，D.，塞格迪角Reed，S.，Fu，C.Y.，Berg，A.C.：Ssd：单发多盒探测器。ECCV（2016）24. 朗J Shelhamer，E.，达雷尔，T.：用于语义分段的全卷积网络。CVPR（2015）25. 我来了S Drozdzal，M.， Vazquez，D. ，Romero，A.， Bengio，Y. ：多层提拉米苏：用于语义分割的完全卷积密集网。CVPR（2017）16拉腊吉、罗斯塔姆扎德、皮涅罗、巴斯克斯、施密特26. 赵，H.，施，J.，Qi，X.，王，X.，Jia，J.：金字塔场景解析网络。CVPR（2017）27. Girshick，R.：快速R-CNN。 ICCV（2015）28. 阿特塔角Lempitsky，V.诺布尔J·A齐瑟曼，A.：学习使用非重叠极值区域检测细胞。02 The Dog（2012）29. 阿特塔角Lempitsky，V.诺布尔J·A齐瑟曼，A.：学习检测部分重叠的实例。CVPR（2013）30. 阿特塔角Lempitsky，V.诺布尔J·A齐瑟曼，A.：使用极值区域树检测显微图像中的重叠物质。MIA（2016）31. Ronneberger，O.，Fischer，P.，Brox，T.：U-net：用于生物医学图像分割的卷积网络。02 The Dog（2015）32. Wu，K.，Otoo，E.，Shoshani，A.：优化连通域标记算法。医学影像学：02 The Dog（2005）33. Beucher，S.，Meyer，F.：分割的形态学方法：分水岭改造。光学工程-纽约-马塞尔·德克尔公司（1992）34. 你是我，J.，拉拉吉岛， S chmidt，M. ：Let's makeblock cordinatatedescent go fasts t：更快的贪婪规则、消息传递、活动集复杂性和超线性收敛。ArXiv（2017）35. 努蒂尼，J.，Sepehry ，B. ，拉腊吉岛施密特，M.，Koepke ，H.，Virani，A.：贪婪kaczmarz算法的收敛速度，更快的随机kaczmarz规则使用的正交图。2016年《ArXiv36. Chen，L.C.，帕潘德里欧，G.，科基诺斯岛墨菲K Yuille，A.L.：Deeplab：使用深度卷积网、无环卷积和全连接的crfs进行语义图像分割。PAMI（2018）37. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。ICLR（2015年）38. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：ImageNet：一个大规模层次化图像数据库。CVPR（2009）39. Charles，R.M.，Taylor，K.M.，Curry，J.H.：利用非负矩阵分解方法对单幅图像像素进行分片排序，得到结构化的非负字典。05 The Fall（2015）40. Sindagi，VA，帕特尔，V.M.：以cnn为基础之单一影像人群计数与密度估计之最新进展。模式识别字母（2017）41. 金玛，D.P.，Ba，J.：Adam：随机最佳化的方法02 The Dog（2014）42. Zhang，S.，（1991），中国农业科学院，吴，G.，Costeira，J.P.，莫拉，J.M.：从大规模网络摄像头数据中了解流量密度CVPR（2017）43. Zhang，S.，（1991），中国农业科学院，吴，G.，Costeira，J.P.，莫拉，J.M.：Fcn-rlstm：深度时空神经网络，用于城市摄像头中的车辆计数。ICCV（2017）44. 李，Y.，张，X.，陈德：Csrnet：用于理解高度拥挤场景的扩展卷积神经网络。CVPR（

下载后可阅读完整内容，剩余1页未读，立即下载