弱监督目标检测中使用实例标签的迭代更新方法的研究

142 浏览量更新于2023-10-12 收藏 1.95MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6064面向弱监督目标检测的Satoshi Kosugi Toshihiko Yamasaki Kiyoharu Aizawa东京大学，日本{kosugi，yamasaki，aizawa}@ hal.t.u-tokyo.ac.jp摘要弱监督目标检测（WSOD），其中检测器仅使用图像级注释进行训练，正引起越来越多的关注。作为获得性能良好的检测器的方法，迭代地更新在这项研究中，为了更有效的迭代更新，我们专注于实例标记问题，一个问题，哪个标签应该被注释到每个区域的基础上最后的定位结果。而不是简单地标记得分最高的区域及其高度重叠的区域为积极的和其他为消极的，我们提出了更有效的实例标记方法如下。首先，为了解决仅覆盖对象的某些部分的区域倾向于被标记为正的问题，我们发现覆盖整个对象的区域集中在上下文分类损失上。其次，考虑到图像中包含的其他对象可以被标记为负的情况，我们对标记为负的区域施加空间限制。使用这些实例标记方法，我们在PASCALVOC 2007和2012上训练检测器，并与其他最先进的方法相比获得了显着改善的结果1. 介绍在具有实例级注释的大规模数据集上训练的对象检测器（即，强监督对象检测器）随着卷积神经网络（CNN）的最近发展已经取得了重大进展[7，13，14]，但是这种详细的大规模数据集要准确地收集是耗时且劳动密集的另一方面，可以容易地并且大量地获取指示对象的存在的图像级标签，因为这样的标签花费较少的时间来手动注释或者可以使用互联网上的图像搜索来收集。为了利用现成的图像级注释，在这项研究中，我们专注于训练检测器的问题，只有图像级注释;即弱监督对象检测（WSOD）。作为获得仅具有图像级注释的性能良好的检测器的方法，检测器和实例标签被迭代地更新。常规方法包括交替迭代策略[3，9，12，18]。检测器在基于简单规则（例如，，假设对象位于图像的中心[18]），并且使用经训练的检测器一遍又一遍地更新实例标签。虽然初始实例标签是粗糙的，并且在初始标签上训练的检测器具有较低的性能，但是通过交替优化，检测器和实例标签被逐步细化。在最近的方法[20]中，对于检测器和实例标签的端到端迭代更新，已经采用了多个实例分类器（对象检测器）。每个实例分类器使用最后一个实例分类器的定位结果作为监督来训练。该方法通过对多个实例分类器进行端到端的优化，减少了训练时间，取得了较好的性能。为了获得有效的迭代更新，我们专注于一个实例标记的问题，该问题的标签应该被标注到每个区域的基础上最后的定位结果。最先进的方法之一[ 20 ]所采用的实例标记方法相当简单;最可信的区域及其高度重叠的区域被标记为阳性，而其它区域被标记为阴性或背景。为了更有效的实例标记，我们提出了两种方法：上下文感知正标记（ CAP ）和空间限制负标记（SRN）。CAP标记的目的是解决对象的最有区别的部分（例如，人物类中的面部）而不是整个对象。我们发现，分类损失的背景下的区域（即。区域的外部）取决于该区域是否覆盖整个对象而不同。利用这一特性，我们用覆盖整个对象的区域来替换不完整的检测区域。除了CAP标记外，我们还发展了SRN标记，以考虑负标记;也就是说，哪个区域应该被注释为背景。当图像具有同一类的多个对象时，即使一个对象被标记为正，其他对象也可以被标记为负。SRN标记通过对负标记施加空间限制来解决这个问题。我们在图1中显示了与基线标签的比较。6065图1.比较（a）基线实例标记和（b）我们的实例标记。在定位结果中，仅显示得分最高的区域（红色框）。实例标签中的红色/蓝色框表示标记为阳性/阴性的区域我们的标记方法可以标记覆盖整个对象的区域作为积极的关注上下文分类损失，并避免标记其他对象作为消极的引入空间限制。为了验证我们方法的有效性，我们在PASCAL VOC2007和2012数据集上进行了实验[6]。获得的平均精度（mAP）得分分别为47.6%和43.4%，这超过了其他最先进的方法。本文的主要贡献如下：• 从实例标注的角度对WSOD方法进行了• 我们提出了两种方法，例如标签。第一种方法的目的是找到一个覆盖基于上下文的整个对象分类损失。第二种可以通过施加空间限制来避免将对象标记为负面。• 在PASCAL VOC 2007和2012数据集上的实验表明，我们的方法可以实现更好的性能优于其他最先进的方法。2. 相关作品WSOD是一项任务，其中仅使用图像级注释来训练检测器。WSOD的方法可以大致分为三种方法：交替方法、端到端方法和传输方法。2.1. 交替进场训练仅具有图像级注释的检测器的常规方法是交替方法[3，9，12，18]。Song等人。[18]初始化实例标签，假设对象位于图像的中心，并训练检测器。初始实例标签是粗糙的，因为对象的位置信息是不可用的，并且在初始标签上训练的检测器具有低性能。通过交替更新检测器和实例标签，逐步细化检测器和实例标签。基于交替方法，开发了其他方法来更准确地检测对象。Li等人。[12]使用整个图像训练分类器，然后使用屏蔽策略选择自信的类特定区域建议。Cinbis等人[3]开发了一种多重学习方法来解决交替方法容易陷入局部最优的问题。Jie等[9]开发了一种自学方法来选择更可靠的种子阳性提案。我们的实例标记方法可以应用于这些交替的方法，但交替的方法，它分裂的优化检测器和更新实例标签之间的训练过程，往往陷入局部最优，是耗时的。因此，我们将我们的实例标记方法应用于下面描述的端到端迭代方法。2.2. 端到端方法Bilen等人[2]提出了一种具有两个流的弱监督深度检测网络（WSDDN）：分类流和检测流。这两个流的输出被组合并用于对每个区域进行评分。Kantorov等人[10]扩展WSDDN以考虑上下文信息。Diba et al. [5]and Wei et al.[24]使用基于类激活图的语义分割[29]来发现紧密覆盖对象的区域建议。Tang等人[21]通过利用CNN中的低级信息开发高质量的区域建议Tang等人提出了一种利用交替方法的端到端方法（在线实例分类器细化，OICR）。[20 ]第20段。OICR采用WSDDN作为初始实例定位方法，并具有多个实例分类器（对象检测器）。第一实例分类器在由WSDDN标记的实例级监督上训练，并且第二实例分类器使用第一实例的定位结果来训练6066CJCJCJ=ccjstance分类器as supervisors监督.类似于交替的方法，实例分类器和实例标签被迭代地细化。由于OICR需要更少的时间来训练，并且比交替方法具有更高的性能，因此最近的方法[21，24]采用OICR作为基线。我们还将我们的实例标记方法应用于OICR。2.3. 转移途径通过上述WSOD方法获得的位置信息可以被传送到监督对象检测器。Shen等人[16]提出了一种生成对抗学习范式。他们引入了一个鉴别器并训练了一个以便估计哪个区域对于分类最有价值。两个输出分数通过元素乘积组合并定义为每个区域假设输入图像是X，图像标签向量是Y =[y1，.，y C]，并且其通过选择性搜索[23]的区域提议是{r1，r2，.，其中，C表示数量。图像类别的ber，yc=1或0表示图像，或者没有对象c，并且J表示区域提案通过WSDDN，我们得到初始建议得分矩阵x0∈RC×J，其中每个元素x0表示区域rj对类c的得分。当训练WSDDN时，通过对所有建议求和来获得图像质量分数φc，一个类似于SSD的阶段检测器[13]，以便辨别，φc=Jj=1x0，以及以下多类交叉熵Nator无法区分探测器和OICR [20]型号。经过训练的一级检测器实现了更快的检测。Zhang等人[28]提出了称为伪地面实况挖掘和伪地面实况适应的伪标记方法。使用这些方法，他们生成了伪被最小化，ΣCLb=−c=1{y clog φ c+（1 − y c）log（1 − φc）}。（一）来自OICR [20]的定位结果的地面实况框，并训练了更快的R-CNN [15]模型。Zhang等人[26]提出了一种锯齿形学习策略，其中他们开发了一个标准（能量累积分数）来自动测量和排名定位难度。由于WSOD的定位结果不可靠，他们首先使用简单的图像进行定位，然后逐步添加困难的图像而不是只使用得分最高的区域作为伪地面真相，监督对象检测器可以更有效地训练这些转移方法。我们可以获得进一步的性能改进组合-通过利用WSDDN作为初始定位网络，多个实例分类器被逐步训练以细化定位结果并获得性能良好的检测器。这里，设K是实例分类器的数量，并且Xk∈R（C+1）XJ是kth中的输出建议得分。姿态分类器不同于x0，xk（k ∈ {1，.，（K）具有背景的{C+1}th维。为了渐进地训练多实例分类器，用于第k个实例分类器的基础真值标签yk∈R（C+1）×J是从最后一个实例分类器的输出x k −1中得到的。基于yk，训练每个实例分类器以最小化以下损失：我们的移植方法和我们的本地化结果。Lk=− 1ΣJCΣ+1 y klog x k.（二）3. 方法WSOD的目标是训练仅具有图像级注释的检测器。作为获得性能良好的检测器的典型方法，检测器和实例标签都被迭代地更新。为了迭代地训练检测器，我们必须解决根据最后的定位结果将哪个标签注释到每个区域的问题。在本研究中，我们重点研究这一问题;即实例标记问题。在迭代更新方法中，我们采用OICR [20]作为基线。我们首先简要介绍一下OICROICR包括两个模块，多实例分类和实例精化.特别是，一种名为WSDDN [2]的端到端WSOD方法被用作多实例分类模块。WSDDN包括两个流，它们基于由SpatialPyramidrJcj cjj=1c =1在OICR中，实例标记是如何从最后一个本地化结果xk−1生成实例标记y k的问题。假设图像X具有类别标签c，它们首先选择具有最高得分的建议r，j，cjc= arg maxxk−1，（3）J并且受到高度重叠的区域应该具有相同标签的事实的启发，他们制定了以下标签算法，.K1如果IoU（r j，r jc）> I t，（4）cj0否则其中，IoU是计算两个区域之间的交集大于并集（IoU）的函数，并且It是阈值。当多个类满足IoU（rj，rj）> It，yk时，c=argmaxc′IoU（rj，rj′）为1，其余为0。如果池化（SPP）[8]、分类流和检测ck源源不断的分类流对用于分类的每个区域建议进行softmax操作。检测-区域不被分配任何对象类，即，对于所有c∈{1，…C}，该区域被标记为背景，中的每个类上执行softmax操作K（C+1）j=1时。（yy6067五）6068CJCJ然而，从最后的定位结果生成的标签是不可靠的，特别是在训练的开始。这导致训练的不稳定性。为了解决这个问题，方程中的损失函数。（2）改为加权版本如下，wk=xk−1，（6）我们发现这个特征可以用来判断一个区域是否覆盖了整个物体。我们关注的不是区域内部，而是区域外部。我们把这个区域的外部称为这个区域的背景。以包含猫的图像为例;当区域覆盖整个猫时，在该区域的上下文中不存在猫。另一方面，当一个地区Lk=−J1ΣJcjcCΣ+1 w k y klog x k.（七）并不涵盖整只猫，猫的某些部分是在上下文中。如果我们把所有区域的上下文都标记为一只猫，这些都是带噪声的标记图像：当一个区域覆盖了RJj=1c =1jcj cj整只猫，该区域的上下文是嘈杂的，否则当图像具有多个类别时，在等式中，（ 6 ），c=argmaxc′IOU（rj ，rj′）. 在训练开始时或对于难以定位的图像，权重w k取低值，并且对训练的贡献变小。问题上述简单的实例标记方法有两个问题。首先，对象的最有区别的部分往往被检测到，而不是整个对象。如果rjc不与整个对象高度重叠，则渐进式更新陷入局部最优。其次，简单的实例标记没有考虑图像包含同一类的多个对象的情况即使一个对象被正确地标记为正，其他对象也可能被错误地标记为背景。为了解决这些问题，我们提出了更有效的实例标注方法，CAP标注和SRN标注。3.1. CAP标签干净通过使用这些数据训练分类器，分类损失根据区域是否覆盖整只猫而有所不同。作为一种基于上下文训练分类器的简单方法，在将图像输入CNN之前，用平均像素值填充区域的内部。然而，这种方法需要对每个区域进行CNN转发，并且非常耗时。为了实现低计算成本，我们对CNN特征执行屏蔽。对应于区域内部的CNN特征填充为零值。然后将屏蔽后的特征与全局平均池化（GAP）进行池化，并输入到完全连接（FC）层。假设具有CNN特征掩码输出的分类器的输出是p∈RC×J，其中每个元素pcj表示rj的上下文的类c的概率训练分类器以最小化具有图像级标签Y的标准多类交叉熵损失，我们提出CAP标记，以避免问题，最具歧视性的部分，对象往往被检测到Lcontext=− 1ΣJ ΣC {yclogpcj+（1−yc）lo g（1−pcj）}。而不是整个物体。我们引入一个网络，判断一个区域是否覆盖整个对象，Jj=1c =1（八）当我们生成实例标签时，从覆盖整个对象的区域中选择得分最高的在一些先前的方法[1，12]中，使用屏蔽策略来找到整个对象。如果被区域遮蔽的图像降低了分类置信度，则该区域可以被认为是有区别的。然而，我们通过实验发现，仅覆盖对象的某些部分的区域的掩蔽可以降低分类置信度。这样的掩蔽方法不适合于发现覆盖整个对象的区域。如果一个区域覆盖整个对象，在训练之后上下文是高的，因为区域的上下文是噪声。换句话说，其类别c被图像（yc=1）包含的类别概率pcj另一方面，如果区域不覆盖整个对象，则干净的上下文的类概率高。当我们进行实例标记时，得分最高的区域是从上下文类概率较低的区域中选择的，为了更准确地判断一个区域是否覆盖了整个物体，我们重点研究了Tanaka等人的研究。[19]，他们处理分类问题，jc= arg maxxk−1JS.T.pcj i，则、（10）训练集、验证集和测试集。我们选择训练图像（5，011j0否则其中it是低于It的阈值。2007年为11，540，2012年为11，540），以使用图像级注释来训练我们的模型。我们采用两个指标来评估我们的方法：平均精密度（mAP）和Cor-X6070表1.PASCAL VOC 2007和2012测试数据集的平均精密度（%）方法Aero自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视地图- VOC 2007OICR [20]58.062.431.119.413.065.162.228.424.844.730.625.337.865.515.724.141.746.964.362.641.2SGWSOD [11]48.461.533.330.015.372.462.459.110.942.334.353.148.465.020.516.640.646.554.655.143.52TS C[24]59.357.543.727.313.563.961.759.924.146.936.745.639.962.610.323.641.752.458.756.644.3WSRPN [21]57.970.537.85.721.066.169.259.43.457.157.335.264.268.632.828.650.849.541.130.045.3我们61.564.843.726.417.167.462.467.825.451.033.747.651.265.219.324.444.654.165.659.547.6- VOC 2012OICR [20]--------------------37.9SGWSOD [11]51.761.032.320.424.859.945.262.213.745.113.651.051.264.922.121.239.919.144.349.139.62TS C[24]67.457.037.723.715.256.949.164.815.139.419.348.444.567.22.123.335.140.246.645.840.0WSRPN [21]--------------------40.8我们70.261.343.828.923.554.052.155.219.151.015.652.656.668.922.021.743.637.034.856.343.4表2.PASCAL VOC 2007和2012 trainval数据集的CorLoc（%）方法Aero自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视是说- VOC 2007OICR [20]81.780.448.749.532.881.785.440.140.679.535.733.760.588.821.857.976.359.975.381.460.62TS C[24]84.274.161.352.132.176.782.966.642.370.639.557.061.288.49.354.672.260.065.070.361.0SGWSOD [11]71.076.554.949.754.178.087.468.832.475.229.558.067.384.541.549.078.160.362.878.962.9WSRPN [21]77.581.255.319.744.380.286.669.510.187.768.452.184.491.657.463.477.358.157.053.863.8Teh等人[22日]84.064.670.062.425.880.773.971.535.781.646.571.379.178.856.734.369.856.777.072.764.6我们85.579.668.155.133.683.583.178.542.779.837.861.574.488.632.655.777.963.778.474.166.7- VOC 2012OICR [20]--------------------62.1SGWSOD [11]70.479.354.144.956.889.872.369.241.067.332.361.172.085.043.956.477.842.664.077.662.92TS C[24]79.183.964.650.637.887.474.074.140.480.642.653.666.588.818.854.980.460.470.779.364.4WSRPN [21]--------------------64.9我们86.582.167.258.748.980.575.662.346.081.940.064.282.488.244.253.578.154.756.782.966.7rect本地化（CorLoc）。mAP用于测试我们的模型在测试数据集上的检测性能，CorLoc用于测量trainval数据集上的定位精度。这两个指标都基于预测的边界框和地面实况之间的相同IoU阈值，即，IoU> 0。五、4.2. 执行我们的模型建立在VGG16模型上[17]。对于上下文分类器，获得了CNN特征，将最后一个池化层和全连接层替换为大小为3× 3，步幅为1，填充为1的附加卷积层，其中具有1024个单元。[29]第10段。特征边界框的对应内部由零屏蔽，并且屏蔽后的特征由GAP合并，随后是FC层。对于WSDDN [2]和多实例分类器[20]，VGG16的CNN特征通过SPP层提取对应于边界框内侧的特征来池化在训练过程中，我们首先训练上下文分类器进行10K次迭代（VOC 2007）或20K次迭代。迭代（VOC 2012），学习率为0.001。然后我们训练WSDDN和多实例分类器进行70K次迭代。对于前10K次迭代，学习率从0线性增加到0.001，并且对于随后的30K次迭代和最后的30K次迭代，学习率分别固定为0.001模型的权重在每个训练步骤开始时使用ImageNet[4]数据集上预训练的权重进行初始化。新添加的层使用平均值为0且标准偏差为0.01的高斯分布来初始化。偏差初始化为0。动量设置为0.9，权重衰减设置为0.0005。作为一种区域建议方法，我们采用选择性搜索[23]，它为每个图像生成大约2，000个建议对于数据增强，我们使用五个尺度{480，576，688，864，1200}将较短的一侧连接到其中一个比例，并与水平翻转上限较用于训练和测试。我们将实例分类器的数量K设置为3，并且在测试期间使用这些实例分类器的平均输出。其他参数It、Pt和it分别设置为0.5、0.5和0.1。6071图3.使用我们的方法和基线的检测结果示例（OICR [20]）。红框表示我们方法的检测结果;绿框表示基线的检测结果。4.3. 与最新技术水平的比较我们比较了我们提出的方法与以前的方法基于一个单一的VGG16模型。2007年VOC的mAP结果见表1。这一结果表明，我们的方法优于其他方法。特别是，我们的方法优于OICR [20] 6.4%，这是我们方法的基线。这种改进是通过发现覆盖整个对象的区域并意识到多个对象来实现的。虽然OICR存在只检测到猫和狗的可区分部分的问题，但我们的方法解决了这个问题，如猫和狗的增益所示（分别为39.4%和22.3%）。在此外，TS2 C[24]和WSRPN [21]也采用OICR作为基线，但我们的方法优于这些方法。测试数据集上的检测结果的示例在图3中示出。这一结果表明我们的方法可以与OICR相比有效地减少了误报。VOC 2012的mAP结果也显示在表1中。我们的方法的得分高于WSRPN[21]，这是另一种最先进的方法。表2显示了2007年和2012年VOC的CorLoc结果我们的方法优于以前的每一种最先进的方法。使用我们的定位结果，我们训练了一个快速R-CNN[7]（FRCNN）检测器。结果示于表3中。第一至第三方法采用预测的最高得分区域作为伪基础事实;第四至第六种方法集中于如何使用定位结果有效地训练FRCNN检测器。在前面的方法之后，我们使用我们的方法使用得分最高的区域训练FRCNN检测器此外，我们采用伪地面实况挖掘（PGE）[28]，表3.通过训练FRCNN检测器对PASCAL VOC 2007和2012测试数据集的mAP（%）。方法VOC 2007VOC 2012[20]第二十话2[24]第二十四话[21]第二十一话47.048.050.442.544.445.7ZLDN（WSDDN + FRCNN）[26]47.642.9ML-LocNet（WSDDN + FRCNN）[27]49.743.6PGE（OICR + FRCNN）[28]51.747.3我们的+FRCNN51.448.1PGE（我们的+FRCNN）52.147.9表4.每种标记方法对PASCAL VOC 2007中mAP（%）的影响。方法地图CorLoc基线（OICR [20]）41.260.6CAP标记45.666.6SRN标记45.163.4CAP和SRN标签47.666.7这是用于挖掘更准确和更紧密的框而不是仅一个最高得分框的现有技术的方法如表3所示，我们的方法在结合PGE用于VOC 2007时获得了最高分数，并且超过了先前的具有和不具有PGE用于VOC 2012的方法4.4. 消融实验我们进行了广泛的烧蚀实验来分析我们的方法。所有消融实验均在VOC 2007数据集上进行。每个标记的贡献我们的方法是由CAP标记和SRN标记。我们调查了每种方法对改进的贡献程度，并在表4中显示了结果。每种方法都可以提高性能，并且通过结合两种标记方法可以获得更大的改进。上下文分类CAP标记是基于上下文分类损失取决于对象被区域覆盖的程度而不同的假设。在这里，为了验证假设，我们将训练损失曲线可视化。为了根据对象的覆盖范围划分区域，我们定义以下集合，Si={（c，r j）|0的情况。2（i−1）≤ coverage（c，rj）≤ 0。2i，yc=1}，（十二）其中i∈ {1，2，3，4，5}，coverage（c，r，j）是计算类c的地面真值框对象被区域rj覆盖。训练上下文分类器以最小化损失Eq.（八）、为了调查这个关系-6072上下文上下文上下文上下文图4.在PASCAL VOC 2007数据集上训练时具有不同对象覆盖率的损失曲线。通过训练过程，具有低覆盖率的损失减少，而具有高覆盖率的损失不减少。在对象的覆盖率和训练损失之间的关系中，我们定义以下损失，图5.通过每种方法覆盖整个对象的区域的发现结果表5.比较我们的方法和我们的方法，其上下文分类被替换为简单的屏蔽时，使用PASCAL VOC 2007数据集。i上下文1=−|SI|Σc，rj∈Silogpcj.（十三）因为我们只考虑图像所包含的类log（1−pcj）未计算。注意，对象ive func-消耗对于相同的CNN转发时间，我们屏蔽-输出的不是输入图像，而是CNN特征。损失是Eq。（8）和L1第每个Li的变化只用于可视化-在训练过程为了比较上下文分类和简单屏蔽，我们在图5中示出了其pcj或pcj低于阈值Pt的区域。虽然使用简单的屏蔽，但当如图4所示。箱盖的训练损失仅对象的某些部分（L12上下文）减少对象被覆盖，我们的上下文类的信心只有当整个物体被覆盖时，过滤器才会下降作为通过培训过程。另一方面，损失覆盖物体大部分的盒子（L5）不结果，我们可以获得覆盖整个对象的区域。我们通过替换上下文分类来训练模型减少。该结果表明，上下文分类损失可以用来找到覆盖整个对象的盒子在一些先前的方法[1，12]中，用图像级注释训练分类器，并且将其掩蔽降低分类置信度的区域定义为对象。我们把这种方法称为简单屏蔽。在这里，我们比较了我们的上下文分类和简单的屏蔽方法。为了执行简单的mask-out，我们首先训练一个标准分类器，除了mask-out之外，它与上下文分类器假设输入图像是X，图像标签向量是Y=[yi，…y C]，并且类概率为p =[p1，...， p C]。训练分类器以最小化以下分类损失，ΣC简单的屏蔽（表5）。在CorLoc和mAP这两个度量中，使用上下文分类的方法获得了更好的性能。这一结果证明了我们的上下文分类的有效性。5. 结论在这项研究中，我们解决弱监督对象检测。作为训练具有图像级注释的检测器的典型方法，迭代地更新检测器和实例级标签。为了实现更有效的迭代更新，我们专注于实例标记问题，一个问题的标签应该被注释到每个包围盒的基础上最后的定位结果。我们以两种方式改进实例标记。首先，我们将覆盖整个对象的框标记为正，意识到上下文分类损失根据覆盖范围而L简单=−c=1{y clog pc+（1 − y c）log（1 −pc）}。（十四）的对象。其次，我们引入了空间限制，以避免将其他对象标记为负面。实验表明训练后，我们屏蔽了对应的CNN特征，以与上下文分类相同的方式对每个区域rj进行分类，并获得概率pcj。在Bazzani et al.[1] Li et al. [12]，在输入图像上执行掩蔽，但它需要针对每个区域进行转发，并且非常耗时。我们的方法取得了显著的进步。本研究的一部分得到了JST-CREST（JPMJCR 1686）和科学研究补助金（19 K22863）的支持。L，L方法地图CorLoc简单屏蔽47.164.9上下文分类47.666.76073引用[1] Loris Bazzani、Alessandra Bergamo、Dragomir Anguelov和Lorenzo Torresani。使用深度网络自学目标定位。InWACV，2016. 四、八[2] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络在CVPR，2016年。二、三、六[3] Ramazan Gokberk Cinbis，Jakob Verbeek，and CordeliaSchmid. 基于多重多示例学习的弱监督目标定位。InTPAMI，2017. 一、二[4] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. ImageNet：一个大规模的分层图像数据库。CVPR，2009。6[5] Ali Diba 、 Vivek Sharma 、 Ali Pazandeh 、 HamedPirsiavash和Luc Van Gool。弱监督级联卷积网络。在CVPR，2017年。2[6] Mark Everingham 、 SM Ali Eslami 、 Luc Van Gool 、Christo-pherKIWilliams 、 JohnWinn 和 AndrewZisserman 。 Pascal Visual Object Classes Challenge ： ARetrospective.IJCV，111（1）：98-136，2015. 二、五[7] 罗斯·格希克。快速R-CNN。CVPR，2015。1、7[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。在TPAMI，第37卷，第19043[9] 杰泽群，魏云超，金小杰，冯佳世，刘伟。用于弱监督对象定位的深度自学学习。在CVPR，2017年。一、二[10] Vadim Kantorov 、 Maxime Oquab 、 Minsu Cho 和 IvanLaptev。Contextlocnet：用于弱监督定位的上下文感知深度网络模型。在ECCV，2016年。2[11] 赖百胜和龚小金。针对弱监督对象检测的显着性引导的在IJCAI，2017。6[12] Dong Li，Jia-Bin Huang，Yali Li，Shengjin Wang，andMing-Hsuan Yang.弱监督对象定位与渐进域适应。在CVPR，2016年。一、二、四、八[13] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. SSD ：单次触发多盒探测器。在ECCV，2016年。第1、3条[14] Joseph Redmon，Santosh Divvala，Ross Girshick，andAli Farhadi.你只看一次：统一的实时对象检测。在CVPR，2016年。1[15] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。2015年，在NIPS中。3[16] Yunhan Shen ， Rongrong Ji ， Shengchuan Zhang ，Wangmeng Zuo，and Yan Wang.面向快速弱监督检测的生成对抗学习在CVPR，2018年。3[17] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。ICLR，2015年。6[18] Hyun Oh Song、Ross Girshick、Stefanie Jegelka、JulienMairal、Zaid Harchaoui和Trevor Darrell。学习如何在最少的监督下定位物体。InICML，2014. 一、二[19] 田中大贵，池上大贵，山崎俊彦，相泽贵治.带噪声标签学习的联合优化框架。在CVPR，2018年。4[20] Peng Tang ，Xinggang Wang， Xiang Bai， and WenyuLiu.具有在线实例分类器细化的多实例检测网络。在CVPR，2017年。一二三六七[21] Peng Tang，Xinggang Wang，Angtian Wang，YongluanYan，Wenyu Liu，Junzhou Huang，and Alan Yuille.弱监督区域建议网络与目标检测。在ECCV，2018。二三六七[22] Eu Wern Teh ， Mrigank Rochan 和Yang Wang 。 Atten-tion Networks for Weakly Supervised Object Localization.在BMVC，2016年。6[23] Jasper RR Uijlings、Koen EA Van De Sande、Theo Gevers和Arnold WM Smeulders。对象识别的选择性搜索。在IJCV，第104卷，第154-171页，2013中。三、六[24] Yunchao Wei，Zhiqiang Shen，Bowen Cheng，HonghuiShi ， Jinjun Xiong ， Jiashi Feng ， and Thomas Huang.TS2C：用于弱监督对象检测的周围分割上下文的紧盒挖掘。在ECCV，2018。二三五六七[25] Huaxin Xiao ， Jiashi Feng ， Yunchao Wei ， MaojunZhang，and Shuicheng Yan.具有密集连接和分心诊断的深度显著对象检测。在TMM，第20卷，第

下载后可阅读完整内容，剩余1页未读，立即下载