自然场景中物体计数：分析和应用

23 浏览量更新于2023-10-15 收藏 1.5MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1在日常场景PrithvijitChattopadhyay，1RamakrishnaVedantam，1Ramprasaath R. Selvaraju1Dhruv Batra2Devi Parikh21弗吉尼亚理工大学2佐治亚理工1{prithv1，vrama91，ram21}@ vt.edu 2{dbatra，paradox}@ gatech.edu摘要我们感兴趣的是计算自然的、日常的图像中对象类的实例的数量。以前的计数方法解决了限制领域的问题，例如在监控视频中计数行人计数也可以从其他视觉任务（如物体检测）的输出中估计在这项工作中，我们构建了专门的计数模型，旨在解决自然场景中物体的计数，外观和尺度的巨大差异我们的方法受到了subitizing– 给定一个自然场景，我们采用分而治之的策略，同时将整个场景的上下文，以适应subitizing的想法计数。我们的方法在PASCAL VOC 2007和COCO数据集上提供了许多基线方法的连续改进。随后，我们研究了如何计数可以用来提高目标检测。然后，我们展示了我们的计数方法的概念应用程序的任务，视觉问题识别，通过研究“有多少？' VQA和COCO-QA数据集中的问题。1. 介绍我们研究了自然场景中常见物体计数的场景理解问题。也就是说，例如图1中的图像。1，我们要计算其中存在的日常物品类别的数量：例如4把椅子、1个烤箱、1张餐桌、1盆植物和3把勺子。这样的计数能力似乎是人类与生俱来的（甚至在一些动物中也是如此）。因此，作为人工智能（AI）的垫脚石，希望拥有能够计数的智能机器。类似于场景理解任务，如对象检测[43，14，18，37，17，44，34，29]和分段，问题[4，30，36]需要对场景进行细粒度的理解，对象计数是一个具有挑战性的问题，*表示平等贡献。瓶数：3瓶勺子：3个椅子：4盆植物：1餐桌：1烤箱：1图1：我们研究在日常场景中计数日常物品的问题。给出一个日常场景，我们想要预测像瓶子，椅子等常见物体的实例数量。要求我们在处理尺度和外观变化的同时另一个密切相关的视觉任务是视觉问题回答（VQA），其中的任务是回答自由形式关于图像的自然语言问题。有趣的是，问题涉及到一个特定的对象计数-你看到多少红色的汽车？形成常见视觉问答数据集中提出的问题的重要部分[2，35]。此外，我们观察到，为这项任务训练的端到端网络[2，35，31，15这并不奇怪，因为目标通常被设置为最小化问题的正确答案的交叉熵分类损失，这忽略了计数固有的顺序结构。在这项工作中，我们系统地基准测试当前VQA模型在计数方面的表现，并研究了专用模型在VQA数据集中计数问题子集上5.4计数也可以用作补充信号，以帮助其他视觉任务，如检测。如果我们对图像中存在多少物体有一个估计，我们可以在每个图像的基础上使用该信息来检测这么多物体。事实上，我们发现我们的对象计数模型提高了对象检测性能。我们首先描述了一些基本的计数方法，随后建立我们提出的模型。11351136检测13568+这...+这...Glance关联子化（aso-sub）9 7被认为是试图从图像的一瞥中subitize然而，如图所示。2（中心），subitizing是很难在高计数的人。受此启发，使用分治策略，我们将图像划分为不重叠的单元格（图1）。2右）。然后，我们在每个单元格中subitize，并使用加法来获得总计数。我们称这种方法为关联subitizing或aso-sub。图2：一个解释三个类别动机的玩具示例本文探讨的计数方法。任务是计算星星和圆圈的数量。在detect中，其思想是检测某个类别的实例，然后报告检测到的实例总数作为计数。在一瞥中，我们根据对完整图像的一瞥来判断计数。在aso-sub中，我们将图像划分为区域，并根据局部区域中的模式来来自不同地区的计数通过算术相加。按检测计数：很容易认识到，完美的物体检测意味着完美的计数。虽然检测是足够的计数，本地化对象是没有必要的。想象一个场景，其中有许多杯子放在桌子上，这些杯子之间相互遮挡。为了计数杯子的数量，我们不需要用像素精确的分割或检测来确定它们在哪里（这在存在遮挡的情况下是困难的），只要我们可以确定手柄的数量。当物体以较小尺度出现而难以检测时，减轻检测物体的负担对于计数也是有效的[18]。然而，通过检测或检测计数仍然形成用于计数的自然方法。通过浏览计数：从在图像分类上训练的深度卷积神经网络[42，26]中提取的表示已成功应用于许多场景理解任务，例如细粒度识别[12]，场景分类[12]，对象检测[12]等。我们通过我们的扫视（glance）模型的实例来探索深度CNN的特征在计数方面的表现，这些模型在单个向前传递中估计整个场景的全局计数。这可以被认为是在一次射击或一瞥中估计计数。这与检测相反，检测随着每个检测到的对象依次增加其计数（图1）。2）的情况。注意，与针对定位对象进行优化的检测不同，扫视模型明确地学习计数。按Subitizing计数：Subitizing是一个广泛的在发展心理学中研究的现象[8，25，10]表明儿童有能力直接将感知信号映射到对少量物体（通常为1-4）的数值估计Subitizing是至关重要的发展，并协助算术和推理技能。subitizing的一个例子是我们如何能够计算出一个骰子的一面上的点数，而不必计算它们，或者我们如何能够推理计数标记。受subitizing的启发，我们设计了一种新的计数方法，采用分治策略，利用计数的可加性。注意，扫视可以是在实践中，为了在真实图像上实现这一想法，我们在每个单元格中依次subitiz- ing时，在整个单元格中嵌入企业上下文我们称之为顺序subitiz-ing或seq-sub。对于这些细胞中的每一个，我们都策划了真实值的基础事实，这有助于我们处理规模变化。有趣的是，我们发现，通过结合上下文seq-sub显着优于上述朴素subitizing模型aso-sub。(see秒5.1更多详情）。通过Ensembling计算：众所周知，当人类被给予具有大的地面真值计数的计数问题时（例如，计数罐子里鹅卵石的数量），个体猜测具有高方差，但多个响应的平均值往往令人惊讶地接近地面真相。这种现象被称为群众的智慧[16]。受此启发，我们创建了一个计数方法（ens）的集合。总之，我们评估了几种自然的计数方法，并提出了一种新的上下文和subitizing基于计数模型。然后，我们研究如何计数可以提高检测。最后，我们学习计数问题在视觉问题分类（VQA）[2]和COCO-QA [35]数据集中，并与最先进的VQA模型进行了一些比较。2. 相关工作在计算机视觉中已经广泛研究了小生境设置中的计数问题[45，41，6，27]。[6]探索了用于人群计数的低级特征的贝叶斯泊松回归方法[5]将监控视频分割成均匀运动的分量，并使用高斯过程回归回归来回归每个区域中的计数。由于监控场景往往是有限的和高度闭塞，计数检测是不可行的。因此，基于密度的方法是流行的。Lempitsky和Zisser-man [27]通过使用低级特征估计对象密度来计算人数。他们展示了生物图像中的监视和细胞计数的应用。Anchovi实验室为用户提供了交互式服务，以计算特定对象，如卫星图像中的游泳池，生物图像中的细胞等。最近的工作构建了基于CNN的模型，用于人群计数[45，33]和企鹅计数[3]，使用来自shal- lower CNN模型的较低级别卷积特征。在约束设置中计数问题有一个基础-2 2 3 2+++2 2 2 224791137n心理上不同的一套挑战计数问题，我们在本文中研究。例如，在监视中，挑战是在存在大量地面实况计数的情况下准确地估计计数，其中可能存在显著的遮挡。在日常场景的计数问题因此，我们需要一套性质不同的工具来解决这个问题。其他最近的工作 [46] 研究了显着对象 subitizing（SOS）的问题这是计算图像中显著对象的数量的任务（独立于类别）。相反，我们感兴趣的是计算每个类别的对象实例的数量。不像Zhanget al. [46]，他们使用SOS来改进显著对象检测，我们建议使用计数来改进通用对象检测。我们诊断计数性能的VQA实验在精神上也与最近研究模型在特定问题类别（计数，属性比较等）上的表现的工作相似。[22]或关于合成的一般化[1]。3. 方法我们的任务是准确地计算图像中不同对象类的实例数量。对于训练，我们使用可以访问对象注释的数据集，例如对象边界框和类别计数。模型的计数预测使用第2节中描述的度量进行评估。四点二。glance，aso-sub和seq-sub模型的输入是来自VGG-16的fc7特征[42] CNN模型。我们使用ImageNet [38]的现成分类权重和我们检测模型的检测微调权重进行实验。3.1. 检测（detect）我们使用Fast R-CNN [18]对象检测器进行计数。检测器通常对一组初步框执行两个后处理步骤：非最大抑制（NMS）和分数阈值。NMS丢弃高度重叠和可能冗余的检测（使用阈值来控制重叠），而分数阈值过滤掉具有低分数的所有检测。我们通过改变这两个参数，图3：规范计数量表：考虑网格为2×2（左）和6×6（右）的图像。请注意两个图像中的红细胞：显然，如果单元大小与对象（左）相比太大，则难以估计单元中的“绵羊”的大整数计数。然而，如果单元太小（右），可能很难估计单元中“总线”的小部分计数。因此，我们假设在细胞的离散化中存在最佳点，这将导致最佳计数性能。(MLP)具有L2损失以从从CNN提取的深度表示MLP在隐藏层之间具有批量归一化 [20] 和整流线性单元（ReLU）激活这些模型的学习率为10−3，权重衰减设置为0.95。我们尝试了单个隐藏层的选择，以及MLP的两个隐藏层，以及隐藏单元的大小。更多详细信息和消融研究见[7]。3.3. Subitizing（aso-sub，seq-sub）在我们的subitizing启发方法中，我们将计数问题划分为非重叠网格中每个单元格上的子问题，并在网格上添加预测计数。在实践中，由于真实图像中的对象以不同的尺度出现，因此这样的单元可能包含对象的部分我们通过允许真实有价值的地面事实来对此进行调整。如果与对象重叠的细胞与对象相比非常小，则细胞的小分数计数可能难以估计。另一方面，如果一个细胞是太大相比，目前的对象可能很难估计的大整数计数的细胞（见图。（3）第三章。这种权衡表明，在某种规范分辨率下，我们将能够更容易地通过subitizing它们来计数较小的对象，以及预测较大对象的部分计数更具体地说，我们将图像I划分为一组Sn非超参数，以找到计数错误的设置重叠小区P={p1，···，pn}，使得I=i=1pi最少的我们使用网格搜索来选择这些参数，保持值集。对于每个类别，我们首先为所有类别选择0.3的固定NMS阈值，并在0和1之间改变分数阈值。然后，我们将分数阈值固定为最佳值，并将NMS阈值从0变为1。3.2.一瞥（glance）我们的扫视方法通过训练多层感知器来重新使用通用CNN且pi<$pj（i=fj）=φ。给定一个这样的分割P年龄I和相关的CNN特征X={xi，· · ·，xn}，我们现在解释基于这种方法的模型：aso-sub：我们的朴素aso-sub模型独立地处理每个细胞，以回归到实值的基础事实。我们在数据集的增强版本上进行训练，其中数据集大小是n倍（每个图像n个细胞）。与扫视不同，其中在完整图像上提取的特征用于回归到整数值计数，aso-sub模型回归到实数。1138GT3胡伯损失GT上下文卷计数体积Pred980fc层（4096x500）上下文聚合器（Bi-LSTM）ConcatBi-LSTM输出态fc层（4000x80）#类图4：对于这两个图像，人的计数都是1。考虑将此图像拆分为2× 1单元（用于说明）以进行aso-sub。左图像的下半部分和右图像的上半部分都包含类似的视觉信号-人的上半部分。但是，左侧单元格的地面真值计数为1，右侧单元格的地面真值计数为0.5。在这些情况下，脱离上下文从单个细胞估计计数的方法注定会失败这激发了我们提出的方法seq-sub。根据每个单元格的特征对非重叠单元格进行有值计数。给定类实例注释作为图像I 中的猫图k 的边界boxesb={b1，...，bN}，我们计算要用于训练的网格单元（pi）的地面真实部分计数（ck），如下所示：图5：seq-sub模型使用的我们提取对应于图像的3×3离散化的fc7特征量的隐藏层表示随后，我们在两个特定序列中并行遍历该表示体积，如每个序列通过两个堆叠的双LSTM所示，并在图像上聚合上下文我们得到对应于每个细胞的输出状态，随后通过另一个隐藏层得到细胞计数。隐藏层使用ReLU作为非线性。在单元级，还需要知道全局图像上下文以产生有意义的预测。从本质上讲，我们提出了seq-sub，它从glance和aso-sub两个世界中吸取了最好的东西。seq-sub的架构如图所示五、它由一对2个堆叠的双向层序-层序ΣNpi：ck=pibj（一）LSTM [40].我们将跨单元的上下文合并为gtbjj=1CPi =h（f1（x1，θ1），···，fn（xn，θn），i，θ）（2）我们计算每个盒子bi和单元格的交集并将由bi归一化的交点相加。此外，本发明还giv en单元-水平计数预测cipi，图像-水平计数预测c ipi，其中各个fi（xi，θ i）是具有相应参数的每个单元特征的隐藏层表示，并且h（.， θ）是捕获上下文的机制。这是可以打破的计数预测计算为c=ni=1 max（0，cpi）.如下所示设H是包含fi（xi，θi）s的集合我们使用max来过滤掉负面的预测。我们尝试将图像划分为相等大小的3×3、5×5和7×7网格单元。在增强数据集上训练的模型的架构与glance相同。更多详情请参见[7]。seq-sub：我们通过识别朴素aso-sub方法中的潜在缺陷来激励我们提出的seq-sub图4显示了限制aso-sub模型。如果细胞被独立地处理，则初始aso-sub模型将不知道相关对象在其他细胞中的部分存在。这就导致了类似的视觉信号需要映射到细胞中物体的部分和全部存在的情况（见图1）。4）.这尤其是病态的，因为Huber或L-2损失不能在输出空间中捕获这种多模态，因为与这种损失相关联的隐式密度是拉普拉斯或高斯的。有趣的是，缓解这个问题的一个简单解决方案是对上下文进行建模，这解决了计数中的这种模糊性。也就是说，如果我们知道其他细胞中存在部分类，我们可以使用该信息来预测正确的细胞计数。因此，尽管aso-sub中的独立性假设是方便的，但它忽略了增强数据集不是IID的事实。虽然推理很重要，设HO1和HO2是2个有序集，它们是置换基于2个特定的序列结构。（Traver-）sal）序列，当我们在特征列中的网格上移动时，是根据细胞的接近程度来决定的（见图2）。（五）。我们实验的序列结构最好描述为3 × 3网格作为和Z，对应于H O1和H O2。这些特征序列中的每一个然后被馈送到一对堆叠的Bi-LSTM（L ，j（.，i，θl））和相应的单元输出状态被级联以获得每个单元的上下文向量（vi），如vi=L1（HO1，i，θl）||L2（HO2，i，θl）. 细胞计数可表示为c pi = g（vi，θg）。 Lj（.，i，θ l）和g（.， θ g）实现h（.，θ）。我们使用Huber Loss目标回归到计数值，学习率为10−4，权重衰减设置为0.95。为了优化，我们使用Adam [24]，小批量大小为64。用于训练的基础事实构建过程和用于评估的计数聚合过程如aso-sub中所定义。4. 实验装置4.1. 数据集我们用两个描述日常场景中的日常物体的数据集进人数~ 0#人~ 1VGG（fc特征量人数~ 0.5人数~ 0.51139行实验：PASCAL VOC 2007 [13]和1140、、COCO [28]. PASCAL VOC数据集包含2501个图像的训练集，2510个图像的val集和4952个图像的测试集，并具有20个对象类别。COCO数据集包含82783张图像的训练集和40504张图像的val集，具有80个对象类别。在PASCAL中，我们使用val集作为Count-val集，使用test集作为Count-test集。在COCO上，我们使用val的前半部分作为Count-val集合，val的后半部分作为Count- test集合。每个对象类别的最常见计数（正如人们在日常场景中所期望的那样）是0。尽管这两个数据集具有相当数量的计数变异性，但存在明显的偏向较低计数值的倾向。请注意，这与人群计数数据集不同，特别是[19] ，其中平均计数为 1279 。 48±960 。 42 也不像PASCAL和COCO，图像在对象方面的比例和外观变化很小4.2. 评价我们采用均方根误差（RMSE）作为我们的度量标准。我们还评估RMSE的一个变体，可能更适合人类的感知。这个度量背后的直觉如下。在现实世界中，人类倾向于以对数尺度感知计数[11]。也就是说，对于2的地面真值计数，1的错误可能看起来令人震惊，但对于25的地面真值计数，同样的错误可能看起来合理。因此，我们通过地面真值计数的函数来缩放每个偏差。我们首先通过将计数阈值设置为0来对来自每种方法的计数预测进行后处理，并将预测舍入到最接近的整数以获得预测c_k。考虑到这些预测和类别k和图像i的地面真值计数cik，我们如下计算RMSE：‚always-1：预测所有类的最频繁的非零值（1）。category-mean：预测Count-val上每个gt-class：将地面真值计数视为类，并使用用交叉熵损失训练的分类模型来预测计数。我们评估了以下计数方法的变体（见第二节）。3了解更多详情）：detect：我们比较了两种检测方法。第一种方法找到最佳NMS和评分阈值，如第二节中所解释的。第3.1条第二种方法使用vanilla Fast R-CNN，因为它开箱即用，具有默认的NMS和分数阈值。一瞥：我们探索以下功能选择(1)vanilla分类fc7特征noft，（2）检测微调的fc7特征ft，（3）来自CNN的fc7特征，该CNN被训练来执行显著对象子化sos [46]，以及(4)来自训练用于分类的CNN的扁平化conv-3特征aso-sub，seq-sub：我们研究了网格大小的三种选择（第二节）。3.3）：3×3，5×5，和7×7和noft和ft功能如上所述。ens：我们采用性能最好的方法子集，并对其预测进行平均，以通过ensem- bling（ens）进行计数。5. 结果本文中给出的所有结果都是在替换抽样的测试集的10个随机分裂5.1. 计数结果.N.1ΣRMSEk=Ni=1（cik−cik）2（3）PASCAL VOC 2007：我们首先介绍了结果（表。1）对于每种方法的最佳性能变体（基于val集挑选）。我们看到seq-sub优于相对RMSE为：所有其他方法。既能扫视又能察觉-.N的形式同样好，根据这两个指标，而一瞥.1（cik−cik）2relRMSEk=（四）在两个指标上都稍好，Ni=1cik+ 1零地面真相也算把这些数字放在透视，我们发现，0的差异。01mRMSE-非零其中N是数据集中的图像数量然后我们对所有类别的误差进行平均，以报告数据集上的数字（mRMSE和m-relRMSE）。我们还评估了上述指标的地面真相-具有非零计数的姿态。这更清楚地反映了一种方法产生的计数（除了预测缺失）的准确性。4.3.方法和基线我们将我们的方法与以下基线进行比较：always-0：预测最频繁的地面实况计数（0）。mean：预测Count- val集合上的平均地面实况计数seq-sub和aso-sub之间的差异导致0.19%的平均F-测量性能在我们的计数，以改善检测应用程序（第5.3）。我们还尝试使用conv3特征回归到计数，类似于Zhang.et. al。[45 ]第45段。我们发现conv3得到的mRMSE为0.63比FC7差得多。我们还在conv3特征上尝试了PCA，但这并没有提高性能。这表明我们的计数任务确实是更高层次的，需要对物体而不是低层次的纹理进行推理。我们还将我们的方法与SOS模型[46]进行了比较，方法是从经过训练的模型中提取fc7特征，以执行与类别无关的显着对象subitizing。我们观察到，我们的最佳表现一瞥设置使用1141方法mRMSEmRMSE-nzm-relRMSEm-relRMSE-nz方法mRMSEmRMSE-nzm-relRMSEm-relRMSE-nz总是-00.66± 0.021.96± 0.030.28± 0.030.59± 0.00总是-00.54± 0.013.03± 0.030.21± 0.001.22± 0.01是说0.65± 0.021.81± 0.030.31± 0.010.52± 0.00是说0.54± 0.002.96± 0.030.23± 0.001.17± 0.01总是-11.14± 0.010.96± 0.030.98± 0.000.17± 0.03总是-11.12± 0.002.39± 0.031.00± 0.000.80± 0.00类别平均数0.64± 0.021.60± 0.030.30± 0.000.45± 0.00类别平均数0.52± 0.012.97± 0.030.22± 0.001.18± 0.01gt级0.55± 0.022.12± 0.070.24± 0.000.88± 0.01gt级0.47± 0.002.70± 0.030.20± 0.001.08± 0.00检测0.50± 0.011.92± 0.080.26± 0.010.85± 0.02检测0.49± 0.002.78± 0.030.20± 0.001.13± 0.01glance-noft-2L0.50± 0.021.83± 0.090.27± 0.000.73± 0.00glance-ft-1L0.42± 0.002.25± 0.020.23± 0.000.91± 0.00glance-sos-2L0.51± 0.021.87± 0.080.29± 0.010.75± 0.02glance-sos-1L0.44± 0.002.32± 0.030.24± 0.000.92± 0.01aso-sub-ft-1L-3×30.43± 0.011.65± 0.070.22± 0.010.68± 0.02aso-sub-ft-1L-3×30.38± 0.002.08± 0.020.24± 0.000.87± 0.01seq-sub-ft-3×30.42± 0.01 1.65± 0.070.21± 0.010.68± 0.02seq-sub-ft-3×30.35± 0.00 1.96± 0.02 0.18± 0.000.82± 0.01ens0.42± 0.171.68± 0.08 0.20± 0.000.65± 0.01ens0.36± 0.001.98± 0.020.18± 0.000.81± 0.01表1：PASCAL VOC 2007计数测试集的计数性能（L表示隐藏层的数量）。越低越好。ens是glance-noft-2L、aso-sub-ft-1 L-3×3和seq-sub-ft-3×3的组合。Imagenet训练的VGG-16功能优于使用SOS功能的功能。这也是直观的，因为SOS是一个类别独立的任务，而我们想要计算每个类别的对象实例的数量。最后，我们观察到从aso-sub到seq-sub的性能增量在统计上并不显著。我们假设这是因为PASCAL数据集的规模较小。请注意，我们在COCO上获得了更一致的改进（表1）。2），这不仅是一个更大的数据集，而且还包含上下文更丰富的场景。1COCO：我们给出了每种方法的最佳性能变体的结果（根据val集挑选）。结果总结见表。二、我们发现seq-sub在mRMSE和m-relRMSE以及它们的非零变体上都表现最好。比较表明，始终为0的基线在COCO上比在PASCAL上做得更好这是因为COCO比PASCAL有更多的类别因此，任何特定对象出现在图像中的机会都与PASCAL一致。与PASCAL相比，这里从aso-sub到seq-sub的性能跳得更多Ren和Zemel [36]最近在实例分割方面的工作也报告了两个COCO类别的计数性能- 人与斑马2对于PASCAL和COCO，我们观察到，虽然ens在某些情况下优于其他方法，但它并不总是这样。我们假设这是由于扫视的表现不佳。关于ens的详细消融研究，请参见[7]。5.2. 预测计数分析计数与计数误差：我们分析了每种方法在不同计数值下的性能，1当考虑Count-val分割时，PASCAL的平均值为1 .一、每个场景有98个注释对象，不像COCO有7个。每个场景22个带注释的2我们比较了我们最好的seq-sub模型和他们的方法。就个人而言，seq-sub的表现优于1。29RMSE和0. 24relRMSE。在zebra上， [36] 的性能优于 seq-sub ，差距为 0 。 4RMSE 和 0. 23 个relRMSE。最近与作者的交流表明，他们的实验设置中存在异常，这可能导致他们报告的数字对真实性能的乐观估计表2：COCO计数测试集上的计数性能（L表示隐藏层的数量）。越低越好。ens是glance-ft-1 L、aso-sub-ft-1 L-3 × 3和seq-sub-ft-3 × 3的组合。图6：我们绘制了mRMSE（在所有类别中），其中误差条（太小而不可见）在COCO数据集的Count-test分割上的计数（x轴）上。我们发现，seq-sub-ft-3×3和ens在较高的计数值下表现非常好，而在较低的计数值下，所有模型的结果都是可比的，除了检测。COCO计数测试集（图（六）。我们在x轴上选取每个计数值，并计算该计数值处所有实例的RMSE有趣的是，我们发现subitizing方法在一系列计数值上都能很好地这支持了我们的直觉，即aso-sub和seq-sub能够更好地捕获部分计数（来自较大对象）以及整数计数（来自较小对象），这是直观的，因为较大的计数可能发生在较小的尺度上。在这两种方法中，seq-sub工作得更好，可能是因为与aso-sub相比，关于全局上下文的推理帮助我们更好地捕获类似零件的特征。当我们在计数范围11到15中比较seq-sub和aso-sub的性能时，这一点对于较低的计数值，ens做得最好（图。（六）。我们可以看到，对于计数>5，扫视和检测性能开始下降。检测：我们调整Fast R-CNN的超参数，以便在数据集的Count-val分割上找到均方误差最低我们展示了一些定性的检测地面真相的例子，没有调整计数的性能（使用黑盒快速R-CNN），以及调整计数后的性能114224瓶11人固定阈值（0.8）Count：1计数阈值计数：17固定阈值（0.8）Count：1计数阈值计数：4浏览和检测设置。然而，我们注意到，对于seq-sub，这个最佳点位于更靠右的地方。5.3. 计数以改善检测我们现在探讨计数是否有助于提高检测性能（在PASCAL 数据集上）。检测器通常通过平均精度（AP）度量进行评估虽然这是一个有用的辅助工具，但在任何实际应用中（例如自动驾驶），检测器必须在某个固定阈值下做出艰难的决定图7：我们显示了地面真值计数（顶部），默认分数阈值为0.8的检测输出（第1行），以及为计数调整超参数的检测显然，选择不同的阈值允许我们权衡定位精度和计数精度（见瓶图像）。该方法查找计数的部分证据，即使它无法本地化整个对象。图8：我们绘制了aso-sub和seq-sub在PASCAL Count-val上的所有类别（y轴）的mRMSE与subitizing网格单元格当我们改变离散化时，我们在概念上探索扫视和检测方法之间的连续体我们发现，aso-sub存在一个甜蜜点（3×3），在那里的计数性能是最好的。有趣的是，seq-sub的离散化最佳点比aso-sub在图中的PASCAL数据集上。7.第一次会议。我们使用未调优的Fast R-CNN，分数阈值为0.8，NMS阈值为0.3，如Girshick等人所使用的。[18]在他们的演示中。在这种配置下，它在COCO的计数测试分裂上实现了0.52的mRMSE。我们发现，通过调整检测的超参数，我们实现了0.02mRMSE的增益。Subitizing：接下来我们分析aso-sub中不同的设计选择如何影响PASCAL的性能。我们选择性能最好的aso-sub-ft-1 L-3 ×3模型，并改变网格大小（如第2节所述）。4）.我们使用3×3、5×5和7×7网格大小进行实验。我们观察到，对于aso-sub，3×3网格的性能是最好的，当我们达到7×7网格时，性能显着恶化（图1）。（八）。3这表明，确实有一个甜点的离散化，因为我们之间的插值3从1×1到3×3，有人可能会认为aso-sub的性能提升是由于更多的（增强的）训练数据。但从老了该阈值可以在每个图像或每个类别的基础上选择。有趣的是，如果我们知道一个类别中有多少对象，我们可以简单地设置阈值，以便检测到这些对象，类似于Zhang等人。[46 ]第46段。因此，我们可以使用每图像每类别计数作为先验来改进检测。请注意，由于我们的目标是智能地为检测器选择阈值，因此计算AP（涉及对阈值的因此，为了量化检测性能，我们首先为每个检测到的框分配一个与其具有最高重叠的地面实况框。然后，对于每个地面真值框，我们检查是否有任何检测框具有大于0.5的重叠。如果是这样，我们在地面实况和检测之间分配一个匹配，并将它们从检测和地面实况池中取出。通过这个过程，我们得到一组真阳性和假阳性检测输出。通过这些输出，我们计算检测器的查准率和查全率值。最后，我们将F-测度计算为这些精确度和召回率值的调和平均值，并对图像和类别的F-测度值进行平均。我们称之为mF（mean F-measure）度量。作为基线，我们在NMS之后使用Fast-RCNN检测器来扫描验证集上每个类别的阈值，以找到使该类别的F-测度最大化的阈值我们称之为基础探测器。采用固定的每类得分阈值，基础检测器的性能为15.26% mF。使用地面真值计数来选择阈值，我们得到了20.17%的最佳情况预言率最后，我们选择ens和seq-sub-ft模型的输出，并使用每个模型的计数我们的计数方法通常低于计数4，高计数意味着地面真值计数可能更高。因此，对于计数为0，我们默认为基本阈值，对于其他预测计数，我们使用计数来设置阈值。通过这个过程，我们分别使用ens和seq-sub-ft因此，通过以图像特定的方式智能地拾取检测器阈值，将网格大小增加到5×5（甚至更多的数据来训练），我们假设情况并非如此。[4]更多细节见[7]。1143场上有多少运动员？已解决COCO类别人员VQA：5 COCO：5检测：5浏览：5aso-sub：5seq-sub：5镜头：5显示了多少个冲浪板？解决COCO类冲浪板VQA：5 COCO：5检测：1扫视：2aso-sub：3 seq-sub：4ens：3有多少个杯子装满了酒？解决COCO类酒杯VQA：10 COCO：10检测：5浏览：7aso-sub：8seq-sub：9中文（简体）（因为有多少问题通常先有主题名词）。然后我们运行COCO category的计数方法（见图9）。更多的细节可以在supple中找到。注意，解析指称表达式仍然是一个开放的研究问题[23，39]。因此，我们过滤问题的基础上解决引用表达式的“神谕”。这个预言是通过检查我们使用word2vec解析的COCO类别的地面真值计数是否与问题的答案匹配来构造的。仅对这些问题进行评估可以使我们隔离由于计数不准确而导致的错误。我们使用RMSE度量来评估我们的输出。我们用这个程序来编制一个1774和图9：Count-QA VQA子集的一些示例。考虑到问题-在此过程中，我们解析名词并将其解析为COCO类别。解决的基础事实类别在问题之后表示我们展示了VQA地面实况和COCO数据集解析的地面实况计数，然后是来自detect，glance，aso-sub，seq-sub和ens的输出。方法mRMSE（VQA）mRMSE（COCO-QA）检测2.72± 0.09 2.59± 0.12glance-ft-1L2.19± 0.05 1.86± 0.12aso-sub-ft-1L-3×31.94± 0.07 1.47± 0.04seq-sub-ft-3×31.81± 0.091.34±0.07耳鼻喉科1.80±0.071.40± 0.08深度LSTM [21]2.71± 0.23 N/ASOTA VQA [15]3.25± 0.94 N/A表3：分别在VQA数据集和COCO-QA数据集的Count-QA分割中对问题计数的各种方法的性能（L表示隐藏层的数量）。越低越好。ens 是 glance-ft-1 L 、 aso-sub-ft-1 L-3×3 和 seq-sub-ft-3×3的组合。5.4. VQA实验我们探讨如何以及我们的计数方法做简单的计数问题。最近的工作[2，35，31，15]已经探索了回答图像的自由形式自然语言问题的问题。该空间中的一个大型数据集是Visual Question Questioning [2]数据集。我们还使用[35]中的COCO-QA数据集进行评估，该数据集自动从人类帽中生成问题。在VQA和COCO-QA中，分别有10.28%和7.07%的问题是请注意，这两个数据集都使用COCO [28]数据集的图像我们应用我们的计数模型，以及一些基本的自然语言预处理来回答其中的一些问题。在“冰箱里有多少瓶酒？“我们需要推理感兴趣的对象（bottles），理解指称表达（在冰箱里）等。请注意，由于这些问题是自由形式的，因此感兴趣的类别可能不完全对应于 COCO 类别。我们通过使用word2vec嵌入来解决这种歧义[32]。给定一个自由形式的自然语言问题，我们从问题中提取名词，并通过检查名词与word2vec嵌入空间中的类别的相似性来计算最佳COCO类别在多个名词的情况下，我们只保留句子分别来自 VQA 和 COCO-QA 数据集的 513 个问题（Count-QA），以进行评估。我们将公开重新租赁我们的Count-QA子集，以帮助未来的工作。我们在表中报告性能。3 .第三章。性能的提高趋势是显而易见的，从一瞥到ens。我们发现，seq-sub显着优于其他方法。我们还在Count-QA VQA子集上评估了最先进的VQA模型[15]，并发现即使是扫视也有很大的优势。56. 结论我们研究在日常场景中计数日常物体的问题。我们评估了一些基线方法，这个问题使用对象检测，回归使用全局图像特征，并关联subitizing，其中涉及非重叠图像细胞的回归。我们提出了顺序subtizing，关联subtizing模型的一个变体，它使用一对堆叠的双向LSTM将上下文跨单元格。我们发现，我们提出的模型导致PASCAL VOC 2007和COCO数据集的性能提高。我们彻底评估了我们的方法的相对优势，弱点和偏见，为未来的计数方法提供了一个基准，并表明我们提出的方法的集合是最好的。此外，我们表明，计数可以用来提高对象检测和目前的概念验证实验回答“多少？'视觉问题回答任务中的问题。我们的代码和数据集将公开提供。鸣谢。我们非常感谢Torch [9]的开发人员构建了一个出色的框架。这项工作部分由NSF资助。职业生涯奖给DB和DP，ONR YIP奖给DP和DB，ONR Grant N00014 -14-1-0679给DB，斯隆奖学金给DP，ARO YIP奖给DB和DP，艾伦杰出研究员奖给DP从保罗G。Allen家族基金会、GoogleFaculty Research Awards授予DP和DB、Amazon Academic ResearchAwards授予DP和DB，以及NVIDIA GPU捐赠给DB。本文中包含的观点和结论是

下载后可阅读完整内容，剩余1页未读，立即下载