弱监督对象检测方法中结合区域建议和CNN进行特征提取的研究

178 浏览量更新于2023-10-13 收藏 1.07MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1WSOD2：学习自下而上和自上而下的对象提取，用于弱监督对象检测赵杨增g1、2、李贝u3、傅建龙u3、查洪阳o1、2、张磊u31中山大学数据与计算机科学学院2机器智能与先进计算教育部重点实验室（中山大学）3微软研究院zengzhy5@mail2.sysu.edu.cn;{ bei.liu，jianf，leizhang} @microsoft.com;isschhy@mail.sysu.edu.cn摘要我们研究了弱监督对象检测（WSOD），它在减轻人类参与对象级注释中起着至关重要的作用主要的工作是将区域建议机制与卷积神经网络（CNN）相结合。虽然CNN在提取区分性局部特征方面很有优势，但在测量包含完整对象的边界框的可能性方面仍然存在巨大挑战（即， “客体”）。在本文中，我们提出-提出了一种新的具有O对象D蒸馏的WSOD框架（即，WSOD2）通过设计一个量身定制的训练机制，用于弱监督对象检测。多元回归通过联合考虑来自低水平测量的自下而上（BU）和自上而下（TD）对象性以及具有自适应线性组合的CNN置信度来具体确定目标。由于边界框回归可以在训练过程中使区域建议学习以高对象性接近其回归目标，因此可以通过优化将从自底向上证据中学习到的深度对象性表示逐渐提取到CNN我们探索BU/TD目标的不同自适应训练曲线，并表明所提出的WSOD2可以达到最先进的结果。1. 介绍图像中目标的识别和定位能力反映了对视觉信息的深刻理解，近年来引起了人们的广泛关注。随着卷积神经网络（CNN）的发展，已经取得了重大进展[5，14，19，27]。然而，当前最先进的对象检测器主要依赖于大规模的训练数据，这需要手动注释的边界框（例如，PASCAL VOC 2007/2012 [7] ， MS COCO [22] ， OpenImages [20]）。到本文的工作是在曾朝阳作为研究实习生访问微软研究院时完成的。图1：OICR产生的典型弱监督对象检测结果我们可以分别在第一、第二和第三行观察对象实例为了减轻繁重的标记工作并降低成本，已经提出了通过仅利用图像级注释的弱监督对象检测范例[2，30，37，38]。为了解决弱监督对象检测（WSOD）任务，大多数以前的工作采用多实例学习方法将WSOD转换为多标签分类问题[2，18]。后来，提出了在线实例分类器改进（OICR）[29]和建议聚类学习（PCL）[28]，通过显式分配实例标签来学习更具区分性的实例分类器。OICR和PCL都采用了利用初始对象检测器的输出作为伪地面真值的思想，这在提高WSOD的分类能力方面表现出了优势。然而，分类模型往往以检测某类对象的存在为目标，而不能预测图像中对象的位置、大小和数量。这种弱点通常会导致检测到部分或过大的边界框，如图1中的第一行和第三行所示。OICR和PCL的性能很大程度上依赖于初始目标检测结果的准确性，这限制了进一步的改进。此外，他们忽视了学习边界框回归，这在模型设计中起着重要作用82928293ern对象检测器[3，4，13，21，24]。C-WSL将边界框回归器集成到OICR框架中以减少定位错误，然而，它依赖于贪婪的地面真值选择策略，这需要额外的计数注释[9]。现有的依赖于初始弱监督对象检测结果的工作试图通过卷积神经网络（CNN）从特征图中学习对象边界。尽管CNN是以自上而下的方式学习具有图像级标签的对象的区分性局部特征的专家（我们在这项工作中称之为自上而下的分类器），但它在检测边界框是否包含一个完整的对象而没有监督的基础事实一些基于低层特征的对象证据（例如，颜色对比度[23]和超像素跨越[1]）已经被提出来测量通用对象，该通用对象量化边界框以自下而上的方式包含任何类别的对象的可能性。受这些自下而上的对象事件的启发，在这项工作中，我们探索利用它们的优势来提高CNN模型在捕获图像中的对象性方面的能力。我们建议将这些善于发现边界的自下而上的证据和具有强大表示能力的CNN集成在单个网络中。我们提出了一个具有对象分离的 WSOD 框架（WSOD2），以利用自底向上的对象证据和自顶向下的分类输出，培训机制首先，给定具有数千个区域提议的输入图像（例如，通过Selec- tive Search [33]生成），我们学习了几个实例分类器来预测每个区域提案的分类概率。这些分类器中的每一个都可以帮助选择多个高置信度的边界框作为可能的对象实例（即，伪分类和边界框回归地面实况）。其次，我们引入了一个边界框回归器来微调每个提案的位置和大小。第三，由于每个边界框不能单独通过CNN特征捕获精确的对象边界，我们以自适应线性组合的方式将自下而上的对象证据和自上而下的CNN置信度得分结合起来，以测量每个候选边界框的对象性，并为每个区域建议分配标签来训练分类器和回归器。对于CNN喜欢的一些有区别的小边界框，自下而上的对象证据（例如，超像素跨越）往往非常低。WSOD2可以调节伪地面实况，以满足更高的CNN置信度和更高的和低层次的对象完整性。此外，为了减小定位误差，同时增强自底向上目标证据在训练过程中的效果，还引入了一个包围盒回归器。我们设计了一种自适应训练策略，使指导逐渐提取，这使得CNN模型可以训练得足够强，以在模型收敛时同时表示对象的区分性局部和边界信息。据我们所知，这项工作是第一次在弱监督对象检测任务中探索自下而上的对象证据。其贡献可归纳如下：1. 我们建议在弱监督对象检测任务中将自下而上的对象证据与自上而下的类置信度得分相结合。2. 我们提出了 WSOD2 （ WSOD with objectnessapplication-lation）来提取CNN中的对象边界知识通过边界框回归器和自适应训练机制。3. 在PASCAL VOC 2007/2012和MS COCO数据集上的实验证明了WSOD2的有效性。2. 相关工作2.1. 弱监督目标检测近年来，弱监督目标检测受到了广泛的关注。大多数现有的工作采用多实例学习的思想[2，6，17，28，29，31，34]将弱监督对象检测转换为多标签分类问题。Bilen等人 [2]提出了WS- DDN，它对分类和检测分支的得分进行乘法，以便可以选择高置信度的阳性样本。 Tanget al. [28] and Tang[29]发现在线将图像级标签转换为实例级监督是提高准确性的有效方法，因此建议基于先前分支的输出在线细化实例分类器的几个分支。作为类激活图，分类器可以粗略定位对象[39，40]，Wei等人 [36]试图利用它来生成过程检测结果，并将其作为后续细化的参考。大多数先前的作品严重依赖于伪地面真相挖掘，无论是在线（训练循环内）还是在线（训练后）。这种伪地面真理是由分类置信度[28，29]或手工制定的规则[9，38]确定的，这些规则对于测量区域的客观性并不准确。2.2. 边界框回归边界框回归在[12]中提出，并且被几乎所有最近的基于CNN的全监督对象检测器[3，4，13，21，24]采用，因为它可以减少预测框的局部化误差。然而，由于缺乏监督，只有少数工作将包围盒引入弱监督对象检测。一些作品认为边界框回归作为一个后处理模块。其中，OICR [29]直接使用训练集的检测结果来训练Fast R-CNN。W2F [38]基于OICR的输出，设计了一些策略来高精度地选择伪地面真值。不同的是，Gao等人 [9]将边界框回归器集成到OICR训练循环内，利用加法计数82940. 九点九0. 八点八0. 七点七0. 六点六0. 四点四0. 五点五0. 八点八0. 六点六D伪地面实况挖掘低级图像特征（例如超像素）NMSClsK伪cls/bbox GT0.6BU证据0.80.50.40.9TD置信度BboxCls k+10.60.70.8图像提案Conv层ROI Fc层池化交叉熵损失平滑L1损失图2：WSOD2的框架。带有标签和预先计算的建议的图像将被馈送到CNN中以获得区域特征。然后，区域特征将通过几个分类器和一个边界框回归器。非最大值抑制（NMS）被应用于从预测中挖掘阳性样本自顶向下（TD）的信心和自底向上（BU）的证据分别计算的分类分支和低级别的图像特征它们被组合起来为每个建议分配类标签和回归目标白色箭头表示两个示例区域建议的优化方向。[Best颜色查看]信息，以帮助选择伪地面真理。在本文中，我们将边界框回归器集成到弱监督检测器中，并通过新颖地利用自底向上的对象证据来分配回归目标。3. 方法概述了我们所提出的weakly-s-viewed对象介绍了一种具有对象分解功能的检测器（WSOD2连接层。然后，区域特征x通过两个单独的全连接层被馈送到两个流中，并且两个产生的特征矩阵被表示为 xc，xd∈RC×|R|，其中C表示类别编号，|R|表示提案编号。两个softmax函数在xc和xd上朝着两个不同的方向应用，如下所示：D在图2中我们首先采用基于多实例的检测方法，[xc]CΣdΣe[x]ij、（1）tor（即Cls 0）以获得初始检测到的对象边界框。根据每个提议的边界的本地化[σ]ij=ΣCk=1e，σ[xc]kjij= Σ|R|k=1e [xd]ik在框中，我们计算自底向上的对象证据。等其中[σc]ij表示第i个类别标签对于第j个类别标签的预测，证据用作将图像级标签转换为实例级监督的指导。我们优化整个网络-区域提案，以及Σ Σσij是学习jthre的权重-以端到端和自适应的方式工作。在本节中，我们将详细介绍WSOD2。gion为i级提出的建议我们计算提案得分通过元素乘积s=σc<$σd，得到图像级得分向量3.1. 基于多实例检测器φ=[φ，φ，···，φ]乘φ=Σ|R|[s]. 这样，1 2C cr=1cr在弱监督对象检测中，只有图像级注释可用。为了更好地理解图像内部的语义信息，我们需要深入到区域级别，分析每个框的特征我们首先我们可以利用图像级类别标签作为监督，应用二进制交叉熵损失来优化基本检测器。基本损失函数表示为：ΣC建立基本检测器，得到初始检测结果。我们遵循WSDDN [2]采用多实例学习的思想[32]，通过变换优化基本检测器Lbase=−c=1（φclog（φc） +（1−φc）log（1−φc）），（2）将WSOD转化为多标签分类问题。具体而言，给定输入图像，我们首先通过选择性搜索[33]生成区域命题R，并提取区域特征 x由CNN骨干，RoI池化层和两个完全-其中，φ_c=1表示输入图像包含第类，否则φ∈c=0。预测得分s是con-作为初步检测结果。然而，它不够精确，可以进一步细化，如[29]中所讨论的。...图像标签伪GT伪GT伪GTCls KCls 1Cls 0BboxeIJ8295RTDRRTDtd rc rcR rrr3.2. 自下而上和自上而下的客观性目标检测器的本质是一个包围盒排序函数，其中目标度量是一个重要因素。在最近的基于CNN的检测器中，通常将分类置信度视为对象得分[13，24，25]。然而，这种策略在弱监督场景中有一个缺陷，即训练的检测器很难将完整的对象与有区别的对象部分或不相关的背景区分开来。为了缓解这个问题，我们探索自底向上的对象证据（例如，超像素跨越），其在传统对象检测中起重要作用。如[1]所述，对象是具有明确边界和中心的独立事物。因此，我们期望具有完整对象的框具有比部分、超大或背景框更高的对象性分数。自底向上的对象存在性概括了普通对象的边界特征，弥补了CNN在边界发现方面的不足。我们建议整合自下而上的对象证据来训练弱监督对象检测器。具体来说，受OICR [29]的启发，我们在x之上构建K个实例分类器，将第k个分类器的输出视为第（k +1）个分类器的监督，并利用自下而上的对象证据来指导网络训练。每个分类器都由一个全连接层和一个softmax层沿着C +1个类别实现（我们将背景视为第0类）。形式上，对于第k个分类器，我们将第k个分类器的细化损失函数定义为：边缘密度（ED）。这些证据的实验细节可以在Sec.四点二。自顶向下类置信度O td。我们根据当前分支的输出计算当前分支的自顶向下置信度。具体地说，一旦我们获得第（k-1）个分支的类概率pk-1，branch计算为：ΣCOk（r）= （pk−1·pk）。（五）c=0因为pk是一个独热向量r，所以只有pk−1的一个值会被选取来计算O k（r）。影响因子α。α是平衡自下而上对象证据和自上而下类确认效果的影响因子。dence，它是由一些权重衰减函数计算的。这种设计使边界知识能够被提取到CNN中，这将在第2节中详细讨论。三点四分。由于自底向上的对象证据和自顶向下的类置信度可以从边界和语义信息的角度衡量一个盒子包含对象的可能性，因此我们将这两种表示分别视为自底向上和自顶向下的对象性。3.3. 边界框回归自底向上的对象证据能够发现对象边界，因此我们探索如何使其指导训练过程中更新的预先计算的边界框一个在-Lk=−1Σ（wk·CE（pk，pk）），直观的想法是集成边界框回归来细化提案的位置和大小ref|R|R rrr∈R（三）边界框回归是典型的全监督对象检测器中的必要组件，因为它能够重新定义对象。其中pk表示{C+1}-dim输出类概率建议R的，和pk表示其地面实况一热la，rC减少定位误差。虽然边界框注释在弱监督对象检测中不可用，贝尔CE（pk，pk）=−pklog（pk）是标准杂交种一些现有的作品[9，28，30，38]表明，在线或-r r c=0rc rc熵函数因为真正的实例级地面实况标签不可用，我们使用在线策略来动态选择训练循环中每个建议的伪地面实况标签，这将在第3.4节中进一步解释。我们在线分配损失重量wk的基础上的对象的建议r。具体地说，我们首先提取r的自底向上的证据并将其表示为Obu（r），然后将Obu（r）与Ok（r）进行积分，这是第k个分类器产生的类置信度。wk是自下而上证据挖掘伪地面事实并对其进行回归可以大大提高了性能受此思想的启发，我们在x的顶部集成了一个边界框回归器，并使其可以在线更新。边界框回归器具有与Fast R-CNN [11]相同的公式。对于region_pro-bandr，回归量预测位置和大小的偏移tr=（t x，t y，t w，t h），并且进一步优化如下：|Rpos|rL=1（wK·smooth（t，t）），（6）自上而下的信心如下：wk=αObu（r）+（1 −α）Ok（r），（4）框|Rpos|Rr=1L1R rr td其中，是通过坐标和大小的不同来计算其中α表示自下而上对象evi的影响因子dence.等式4中的三个项定义如下：底向上客观证据O bu.我们主要采用S像素S tradling（SS）作为自底向上的证据，这项工作，我们还探讨了其他三个证据：textbf多尺度分辨率（MS）、颜色对比度（CC）和8296R如[12]中所描述的，r和r之间的关系，其中r是indi。选择回归参考。Rpos表示阳性（非背景）区域，将在第2节中解释。3.4. 光滑L1函数与[25]中定义的函数相同。wK表示最后一个分类分支计算的回归损失权重。我们计算伪回归8297RMTDTDRrtdR参考文献基于w K的影响，如我们在第二节中所述，wK评估了提案的客观性。3.2：2. 对于每个猫图c（c >0），如果φ∈c=1，我们从R中寻找所有保持r=argmax{m∈M（K，R）|IoU（m，r）>TIOU（wK），（7）}c大于另一个预先定义的阈值T conf，并将这些框分配为类别标签c。特别地，如果没有选择框，我们将寻找得分最高的框其中M是正样本挖掘函数，在第3.4节中解释，Tiou是一个特定的IoU阈值。等式7使得每个正区域样本能够接近具有高客观性的附近框。我们采用边界盒回归来增强训练过程中的框预测。我们将方程4更新为：w k=αO bu（r′）+（1 −α）O k（r），（8）其中r′是r偏移tr。我们保持Ok（r）不变，所有查找框的集合被表示为R查找。3. 对于Rseek中的每个种子盒，我们在R中寻找它的所有邻居盒。在这里，我们认为一个盒子是另一个盒子的邻居，如果它们的交集大于并集（IoU）。我们将所有邻居盒的集合表示为R 邻居。所有相邻盒子将被分配与它们的种子盒子相同的类标签。其他非种子和非邻居盒将被控制。因为O k包含RoI特征扭曲操作，作为背景。我们把指定的字母-bels到one-hotvector以获得所有pplk。将受到边界框预测的影响在这个新制定，建议的本地化是在线更新。更新的框可以实现更高的对象性，这意味着更精确和完整的回归目标具有更高的被选择的概率。3.4. 客观蒸馏方程3与知识描述[15，16]具有类似的公式，其中外部知识来自自底向上和自顶向下的对象性。其中，α是平衡每个知识的权重。在训练开始时，自上而下的分类器不够可靠，因此我们希望自下而上的证据在组合中占据主导地位（即，等式4）。在自下而上证据的指导下，网络将试图调节自上而下分类器的置信度分布，以符合自下而上证据。我们称这个过程为客观蒸馏。随着训练的进行，Otd的可靠性增加，R4. 最后，我们考虑R seek和R neighbor的并集作为积极的建议：R pos=R seekRneighbor.我们将上述操作分组为函数M（k，R），该函数将返回肯定建议集，如我们在第3.2节和第3.3节中所述。通过这种方法，接近的阳性样本将被分配相同的类别标签，而具有高对象性的样本将获得高权重。通过优化将这些信息提取到细胞神经网络中，从而使细胞神经网络逐渐提高发现对象边界的能力。3.5. 训练和推理详细信息训练整体学习目标如下：ΣK而Otd继承了Obu的边界判定能力，但仍保留了语义理解能力，L=L碱+λ1k=1Kref +λ2L盒，（9）分类监督的原因。因此，α可以逐渐将注意力从自下而上的对象证据转移到自上而下的CNN置信度。具体来说，α是由一些权重衰减函数计算的。我们综述了几种权重衰减函数，包括多项式函数、余弦函数和常数函数，我们将在第4.2节中比较不同函数的有效性。除了α，为了实现客观性蒸馏，我们还需要确定pk。我们希望在保持语义识别能力的同时，平均自下而上的证据以增强边界表示，因此我们利用分类器的前一个分支的输出来挖掘积极的建议。给定第（k-1）个分类器的输出，我们通过以下步骤挖掘伪地面真值：1. 我们基于每个建议r的类概率pk−1，使用预定义的阈值Tnms，对R应用非最大值抑制（NMS）。我们将保留的盒子表示为Rkeep。其中λ1和λ2是平衡损失权重的超参数。我们采用λ1= 1和λ2= 0。3，并遵循[29]设置K=3。由于所有K分类器的监督都来自以前的分支，因此我们在前2000次迭代中设置α=0进行预热。当挖掘伪地面真理时，通常我们遵循 [38] 设置 T nms= 0 。 3 ， Tconf=0。7，T iou= 0。五、推理。我们的模型有K个细化分类器，一个边界框回归器。对于每个预测框，我们遵循[29]对所有K个分类器的输出进行平均以产生类置信度，并使用边界框回归器调整其位置和大小。最后，我们应用阈值为0的NMS。3.删除多余的检测框。4. 实验4.1. 实验装置数据集和评估指标。我们在三个对象检测基准上评估我们的方法：PASCALL8298证据Aero自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视地图N/A58.563.546.325.018.766.463.655.726.445.742.243.848.563.515.024.544.349.862.354.345.9CC62.064.544.924.519.670.362.952.620.654.544.249.055.764.915.122.049.256.252.758.647.2ED52.760.244.232.220.665.860.867.021.857.738.151.057.566.215.025.052.254.161.037.847.0MS62.066.241.225.119.268.161.560.712.252.947.961.658.865.618.117.647.259.054.351.447.5SS61.363.644.626.621.065.561.249.025.152.644.258.364.165.816.721.949.653.759.457.848.1CC+ED+MS59.557.643.129.719.765.459.768.121.557.645.750.558.464.014.617.250.461.264.950.047.9表1：自下而上物体证据的消融实验我们将每个证据整合到WSOD2中，并报告PASCAL VOC 2007测试分割的平均精度（mAP）我们还对所有证据进行了简单平均，结果列在最后一行。100次迭代（一）80000（b）第（1）款表 2：WSOD2的不同组分的消融研究。 C表示使用了该组件。“NMS” is unchecked when proposal with highest conﬁdence for eachcategory is used as seed多尺度训练。具体来说，输入图像的短边将被随机重新缩放到图3：α权重衰减函数的消融研究。(a)不同函数的重量衰减曲线。（b）PASCAL VOC 2007测试拆分的不同衰减设置的mAP。n和N分别表示当前步数和总[Best颜色查看]VOC 2007 2012 [7]和MS COCO [22]。在删除这些数据集提供的边界框注释后，我们只使用图像及其标签信息进行训练。PASCAL VOC 2007和2012年由9，962和20类22531张图片。对帕斯卡VOC，我们在训练分割（2007年为5，011张图像，2012年为11，540张图像）上进行训练，在测试分割上报告平均精度（mAP），并在Trainval分裂以测量定位精度。这两个度量都是在IoU> 0的条件下执行的。5、作为一个标准。MSCOCO包含80个类别。我们在train2014split上进行训练，并在val2014split上进行评估，分别由82，783和40，504张图像我们报道美联社。50和AP @[。50：05：95]在val 2014上。实作详细数据。我们采用VGG 16 [26]作为CNN骨干，并使用在Ima-geNet [19]上预训练的参数进行初始化。我们使用高斯分布随机初始化所有新层的权重，平均值为0，标准差为0。01（除0。对于边界框回归量为001），并将所有新偏差初始化为0。我们遵循广泛使用的设置[2，29，30，37]来使用选择性搜索[33]为每个图像生成大约2，000个全网端到端优化{480，576，588，864，1280}，我们限制了长边不大于2000。此外，水平方向的所有训练图像也将用于训练。我们报告了消融研究的单尺度测试结果，并报告了与其他工作相比的多尺度测试结果。我们所有的实验都是基于PyTorch在4个NVIDIAP100 GPU上实现的。4.2. 消融研究我们进行了消融研究，以证明WSOD2对PASCAL VOC2007的有效性。自下而上的证据对于自下而上的对象证据，我们分别从单个证据和组合证据两个方面对四个证据的效果进行了检验。现将四项证据列举如下：1) 多尺度显着性（MS），它总结了几个尺度上的显着性;2) CcolorC onstrast（CC）计算与直接周围区域的颜色差异;3) 边缘密度（ED），用于计算内环中边缘的密度;4) S超像素S跨越（SS），其分析所有超像素的跨越。由于不同证据的取值范围是一致的，我们将计算值归一化为[0-1]。对于CC、ED和MS，我们通过设置θ MS = 0来固定它们的参数。2，θCC=2，θED=2，经验上由于缺乏超声波，透视对于SS，我们遵循[8]设置θ SS=0。8，θSS=σk使用初始学习率为10−3的SGD，0的cay。0005，动量为0。9 .第九条。在VOC 2007上，总迭代步数被设置为80，000，并且学习速率将在第40，000步除以10对于VOC 2012，我们将迭代步数加倍，学习率衰减步数也加倍到第80，000步。对于MSCOCO，我们将迭代步数设置为360，000，并使学习率重量bboxNMS步α衰变地图J43.345.1JJ45.9JJJ48.1JJJJ50.3α衰变函数γ地图α=γ（绿色曲线，从上到下向下，γ= 0，1，1）2045.9二分之一47.2148.1α=−（n）γ+1N(red曲线，从上到下γ=3，2，1，1，1）23349.2249.0150.3二分之一46.5三分之一46.3（1+cos（nπ））(blue曲线）8299在第180，000步衰减。我们将遵循[28，29]三百关于这四个证据的更多细节以及θMS、θCC、θED、θSS的含义，请参考文献[1]。为了更容易地分析这些自下而上证据的影响，我们简单地在这个消融实验中对于包括这些证据的所有设置保持α= 1，对于不涉及任何自下而上证据的方法保持α= 0作为比较的基线。我们还测试了这四个证据的平均值的组合。如[1]中所讨论的8300方法Aero 自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视地图WSDDN [2]39.4 50.1 31.5 16.3 12.664.5 42.8 42.6 10.135.7 24.938.2 34.455.69.414.730.240.7 54.746.934.8[18]第十八话57.1 52.0 31.5 7.611.555.0 53.1 34.1 1.733.1 49.242.0 47.356.615.312.824.848.9 44.447.836.3OICR [29]58.0 62.4 31.1 19.4 13.065.1 62.2 28.4 24.844.7 30.625.3 37.865.515.724.141.746.9 64.362.641.2PCL [28]54.4 69.0 39.3 19.2 15.762.9 64.4 30.0 25.152.5 44.419.6 39.367.717.822.946.657.5 58.663.043.5Tang等人[30个]57.9 70.537.8 5.721.066.1 69.259.4 3.457.1 57.335.2 64.268.632.828.650.849.5 41.130.045.3C-WSL [9]62.9 64.8 39.8 28.1 16.469.5 68.2 47.0 27.955.8 43.731.2 43.865.010.926.152.755.3 60.266.646.8MELM [34]55.6 66.9 34.2 29.1 16.468.8 68.1 43.0 25.065.645.353.2 49.668.62.025.452.556.8 62.157.147.3ZLDN [37]55.4 68.5 50.1 16.8 20.862.7 66.8 56.5 2.157.8 47.540.1 69.768.221.627.253.456.1 52.558.247.6WSCDN [35]61.2 66.6 48.3 26.0 15.866.5 65.4 53.9 24.761.2 46.253.5 48.566.112.122.049.253.2 66.259.448.3WSOD2（我们的）65.1 64.857.2 39.224.369.866.2 61.029.864.6 42.560.171.270.721.928.158.659.7 52.264.853.6WSOD2英寸（我们的）68.2 70.7 61.5 42.3 28.073.4 69.3 52.3 32.771.9 42.857.9 73.871.425.529.261.660.9 56.570.756.0表3：PASCAL VOC 2007测试拆分中不同方法的平均精密度“07+12”指的是07+12训练分割。方法Aero 自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视CorLocWSDDN [2]65.1 58.8 58.5 33.1 39.868.3 60.2 59.6 34.864.5 30.543.0 56.882.425.541.661.555.9 65.963.753.5[18]第十八话83.3 68.6 54.7 23.4 18.373.6 74.1 54.1 8.665.1 47.159.5 67.083.535.339.967.049.7 63.565.255.1OICR [29]81.7 80.4 48.7 49.5 32.881.7 85.4 40.1 40.679.5 35.733.7 60.588.821.857.976.359.9 75.381.460.6ZLDN [37]74.0 77.8 65.2 37.0 46.775.8 83.7 58.8 17.573.1 49.051.3 76.787.430.647.875.062.5 64.868.861.2PCL [28]79.6 85.562.2 47.9 37.083.8 83.4 43.0 38.380.1 50.630.9 57.890.827.058.275.368.575.778.962.7C-WSL [9]85.8 81.2 64.9 50.5 32.184.385.9 54.7 43.480.1 42.242.6 60.590.413.757.582.561.8 74.182.463.5Tang等人[30个]77.5 81.2 55.3 19.7 44.380.2 86.669.5 10.187.7 68.452.1 84.491.657.463.477.358.1 57.053.863.8WSCDN [35]85.8 80.4 73.0 42.6 36.679.7 82.8 66.0 34.178.1 36.968.6 72.491.622.251.379.463.7 74.574.664.7WSOD2（我们的）87.180.074.860.136.679.2 83.8 70.643.588.446.074.787.490.844.252.481.461.8 67.779.969.5WSOD2英寸（我们的）89.6 82.4 79.9 63.3 40.182.7 85.0 62.8 45.889.7 52.170.9 88.891.637.056.485.664.3 74.185.371.4表4：PASCAL VOC 2007训练分割上不同方法的正确定位“07+12”指的是07+12训练分割。方法AP@.50AP@[.50：.05：.95]Ge等人[10个国家]19.38.9PCL [28]19.48.5PCL + Fast R-CNN [28]19.69.2WSOD2（我们的）22.710.8表5：PASCAL VOC 2012数据集上不同方法的比较。“07+12”指的是07+12训练分割。线性组合并不是一种很好的组合方法，我们进行这个实验只是为了评估自底向上证据的有效性和启发未来的工作。结果示于表1中。从与基线的比较中，我们可以发现，在自下而上的证据指导下，业绩可以显著提升。表1还包括所有类别的AP，从中我们发现不同的证据可能有利于不同的类别。例如，对于单一证据，ED倾向于“船”，而不是在“电视”上表现良好。此外，我们可以发现这个结果也与[1]中报告的测量每个证据的客观性的性能一致，这表明这些自下而上的证据与对象检测性能呈正相关。从它们组合的结果来看，它比除SS之外的所有单一证据都具有更好的性能。我们认为线性平均法并不是一种正确的综合方法，今后还可以探索更好的方法。在以后的实验中，我们采用SS影响因子α。我们测试了几个重量衰减函数，包括常数（α = 0，0。5，1），多项式（α=−（n/N）γ+1，其中γ=2，3，1，1/2，1/3）和余弦（α=（1+cos（nπ/N）/2）函数，其中n和N在-1http://host.robots.ox.ac.uk:8080/anonymous/AVFPZC.html2http://host.robots.ox.ac.uk:8080/anonymous/Z4VIWW.html网站表6：不同方法在MS COCO数据集上的实验结果分别表示当前步数和总步数。结果如图3所示。从前三条线的比较中，我们发现自底向上的证据将有助于模型学习边界表示，从而获得更好的目标检测结果。在不同的设计中，林耳腐（即，α=−（n/N）+1）性能最好，后面的实验是基于这个设置进行的。我们为今后的研究探索最佳参数每个组件的效果。表2显示了每个组件的有效性。我们可以发现边界框回归器至少带来2。6mAP改善。不使用NMS的设置直接将每个类别的最高置信度框视为OICR的种子框[29]。NMS还可以提高0. 8mAP。上面讨论了自底向上证据（BU）和α衰变函数的细节，其中自底向上证据和α衰变函数都可以得到2。2mAP改善。4.3. 与现有技术的我们在PASCAL VOC 2007 2012 [7]和MS COCO数据集[22]上评估了WSOD2，报告了性能，与最先进的弱监督检测器相比。由于我们比较的方法大多采用多尺度测试，我们报告我们的多尺度测试结果。关于PASCAL VOC的AP评价。从表3中我们可以发现， WSOD 2 达到了 53 。 2007 年 PASCAL VOC 的6mAP，明显优于其他端到端结束可训练模型[28，29，35]，至少有5。3mAP。WSOD2在PASCAL VOC 2012上也很强大，方法地图CorLocOICR [29]37.962.1PCL [28]40.663.2Tang等人[30个]40.864.9ZLDN [37]42.961.5WSCDN [35]43.365.2WSOD2（我们的）47.2171.9WSOD2英寸（我们的）52.7272.28301图4：conv5特征映射的可视化。响应图通过沿所有特征图通道的平均值生成，并归一化为（0，255）。中间4列的特征图由WSOD2在不同的迭代中提取最后一列是我们通过OICR提取的特征图[29]。CNN中的输入图像。与OICR相比，WSOD2能使反应区从辨别部位逐渐过渡到完整物体.图5展示了WSOD2的一些成功和失败案例。我们发现WSOD2能够很好地处理多个离散实例，但在解决密集场景下的检测问题上仍然存在挑战。我们也发现对于“人”类，大多数弱监督对象检测器倾向于发现人脸。原因是在当前的数据集中，人脸是最常见的模式，图5：WSOD2的示例结果。绿框表示修正后的预测，红框表示失败案例。[最佳颜色]四十七2mAP，见表5。此外，我们遵循全监督对象检测中的常见设置，在PASCAL VOC 07+12 trainval splits上训练WSOD2，并将其标记为WSOD2。这样的设置实现了令人惊讶的mAP得分56。1，如表3的最后一行所示。PASCAL VOC的CorLoc评价。 CorLoc在训练集上评估检测器的定位精度。我们分别在表4和表5中报告了PASCAL VOC 2007 和 2012tranaval 我们可以发现，WSOD2在PASCAL VOC上的表现明显优于其他端到端可训练模型[28，29，35]。2007年和2012年。关于MS COCO的AP评价。我们在表6中报告了MSCOCO数据集由于很少有作品报告MS COCO数据集的结果，我们仅与[10]进行性能”[28]。我们可以发现WSOD2的性能至少比同类产品高出2个AP。4.4. 可视化与案例研究对WSOD2与OICR的有效性进行了定性分析.我们提取了训练模型的conv5特征，并在图4中可视化了一些情况。突出显示的部分表示高响应区域“人”，而其他部分往往在图像中被遗漏。这仍然是一个具有挑战性的问题，我们可以考虑在未来优先利用人类结构。5. 结论在本文中，我们提出了一种新的弱监督对

下载后可阅读完整内容，剩余1页未读，立即下载