弱监督自学习定位方法

101 浏览量更新于2023-10-15 收藏 1.26MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1377用于弱监督对象定位的深度自学学习泽群杰新加坡国立大学†腾讯人工智能实验室{elejiez，eleweiyv，elefjia}@ nus.edu.sgxiaojie. u.nus.eduwliu@ee.columbia.edu摘要大多数现有的弱监督定位（WSL）方法通过基于图像级监督学习的特征找到正边界框来学习检测器。然而，这些特征不包含空间位置相关信息，并且通常提供用于训练检测器的质量差的为了克服这个问题，我们提出了一种深度自学的学习方法，它使检测器能够可靠地学习对象级别的特征，以获取紧密的正样本，然后基于它们重新训练自己。因此，检测器逐步提高其检测能力，并定位更多的信息阳性样本。为了实现这种自学学习，我们提出了一种种子样本获取方法，通过图像到对象的传输和密集子图发现，以找到可靠的正样本初始化检测器。进一步提出了一种在线支持的样本收获方案，动态选择最可信的紧正样本，并以相互提升的方式训练检测器。为了防止检测器由于过拟合而陷入糟糕的最佳状态，我们提出了一种新的预测CNN分数的相对在PASCAL 2007和2012上进行的大量实验表明，我们的方法优于最先进的方法，有力地验证了其有效性。1. 介绍弱监督定位（WSL）是指学习定位图像中的对象，仅使用简单指示对象类别存在的图像级注释。WSL在大规模视觉应用中越来越重要，因为它在模型训练阶段不需要像完全监督对应物那样昂贵的边界框注释[1，2，3，4，5，6]WSL是一个具有挑战性的问题，由于学习一个好的检测器的信息不足因此，从候选集合中正确识别可靠的正样本（边界框）至关重要。最图1：用于弱监督对象定位的深度自学学习的说明。给定图像级监督，首先获得种子阳性建议作为CNN检测器的初始阳性样本然后，利用自学学习来训练CNN检测器，自学学习在训练和在线支持性样本收获之间交替，这取决于检测器预测的CNN分数的相对改善先前的WSL方法[7，8，9，10]通过应用多实例学习（MIL）或其它类似算法从具有肯定注释的图像中发现最近的WSL方法[11，12，13，14，9]还将深度卷积神经网络（CNN）模型[15，16，17]与MIL相结合，考虑到CNN架构可以提供更强大的图像表示。然而，由定制为分类的CNN提供的表示不包含关于对象空间位置的任何特定信息，因此不适合对象级定位任务，导致学习高质量对象检测器的边际效益。此外，这些方法仅执行离线MIL以在训练之前挖掘自信的类特定对象建议。1378使用检测器，其中学习的对象级CNN检测器的强大辨别能力没有被完全利用来挖掘检测器学习的高质量建议。在本文中，我们提出通过利用一种新的深度自学学习方法使弱检测器“训练”自己，使得它逐渐获得更强的对象检测能力并解决WSL问题，如图所示。1.一、这是一种新的WSL范例，可以解决现有方法的上述问题。给定几个种子肯定建议，自学学习使得检测器能够通过检查来自检测器本身的预测分数，以在线方式自发地收获最自信的紧密肯定建议（称为支持性样本）。通过充分利用区域CNN检测器（例如，，FastR-CNN[3]），与传统CNN加MIL方法提供的样本相比，可以识别出更高质量的支持样本然而，上述用于自学的在线支持样本收获策略的一个关键问题是，由于CNN检测器的强学习能力，一些差的种子阳性样本可能容易被CNN检测器拟合，从而使CNN检测器陷入差的局部最优。为了解决这一关键问题有关的自学，我们提出了一种新的相对的改进指标，以促进支持性的样本收获。分数的相对提高可以有效地过滤那些其高预测分数来自不期望的过拟合的可疑样本，从而帮助识别高质量的真实样本。上述自学过程的第一步是获得高质量的种子阳性样本。我们提出了一种图像到物体的转换方案，以找到可靠的种子阳性样本。具体地说，我们首先选择具有高响应的对象建议1通过训练多标签分类网络获得的目标类。以这种方式选择样本大致建立了图像级注释和对象级高响应建议之间的对应关系。然后，我们提出采用密集子图发现方法来选择一些密集的空间分布的建议作为种子正样本，通过利用所选择的propos- als的空间相关性，如上所述。实验结果表明，所提出的方法能够有效地获取可靠的种子样本，所获得的种子样本对后续的WSL问题的自学过程有总之，我们在这项工作中对WSL做出了以下贡献1. 我们提出了一种新的深度自学方法，以逐步收获高质量的阳性样本1在本文中，响应和CNN得分是指softmax归一化到目标类后的最终由检测器本身引导，因此显著地提高了检测器训练期间阳性样本的质量2. 提出了一种新的基于相对得分改进的选择策略，以防止检测器陷入局部最优解。3. 为了获得高质量的种子阳性，我们提出了一种新的图像到对象的传输技术来学习的空间感知功能量身定制的WSL。为了进一步结合所选对象样本之间的空间相关性，提出了一种新的基于稠密子图发现的方法，从一组空间高度相关的候选样本中挖掘最可信的类特定样本。2. 相关工作WSL上以前的工作可以大致分为基于MIL的方法和端到端CNN模型。实际上，大多数现有的方法制定WSL作为一个MIL问题。给定弱图像级超分辨率信息，这些方法通常在学习对象的区别性表示和基于该表示选择正图像中的正对象样本之间然而，这导致了非凸优化问题，因此这些方法容易陷入局部最优，并且它们的解对初始正样本敏感。为解决上述问题已作出了许多努力。Deselaers等人[18]使用对象方法[19]初始化对象位置。Siva等人[20]通过最大化正样本和负图像中的正样本之间的距离来选择正样本。 Bilen等人[7]提出了一个平滑版本的MIL，它对对象提案进行软标签，而不是选择得分最高的提案。 Song等人[21]提出了一种基于图的方法，通过解决子模块覆盖问题来初始化对象位置。Wang 等人[22]提出了一种基于概率潜在语义分析（pLSA）的潜在语义聚类方法，为每个类选择最具区分力的聚类。除了提高正样本的初始质量外，一些工作还关注于在迭代训练期间改进优化。 Singh等人[23]在初始阳性样本的子集上迭代训练SVM分类器，并在另一组上评估它们以更新训练样本。Bilen等人。[7]提出了一种后验正则化公式，该公式通过基于对象的对称性和互斥性惩罚不太可能的配置来正则化潜在（对象位置）空间。Cinbis等人[8]提出了一种多重训练策略来缓解局部最优问题。端到端CNN模型也用于WSL。比伦等人[24]提出了一种端到端CNN模型，1379i=1i j=1流，一个用于分类，另一个用于定位，其通过对两个流的结果进行逐元素乘法来输出提案的最终分数Kan-torov等人。[25]提出了一种使用基于对比度的上下文指导训练的上下文感知CNN模型，从而实现了检测到的对象的精确边界。也许[9]是最接近我们的工作。 [9]第一批火车一个完整的图像多标签分类网络，然后选择有信心的类特定的建议与屏蔽策略和MIL。最后，在这些建议上训练快速R-CNN检测器然而，[9]中的整体图像分类可能无法为需要整个对象实例的紧密空间覆盖的对象定位提供合适的此外，SVM在[9]中用于MIL，其具有比区域CNN检测器更差的鉴别能力。相比之下，我们的方法通过在多标签图像分类和区域CNN检测器学习中的在线支持样本收获过程中执行图像到对象的传输来克服这一弱点。3. WSL的深度自学在本节中，将详细介绍针对WSL提出的深度自学方法。我们首先描述了图像到对象的转移和密集子图发现的方法，用于获得高质量的种子阳性样本的检测器自学学习。然后，提出了在线支持样本收获，其逐步提高了阳性样本的质量，其中检测器在学习期间动态地收获信息量最大的阳性样本，由检测器本身的相对CNN分数改进指导。3.1. 种子样品采集3.1.1图像到对象传输我们提出了一种图像到对象的转移方法，以识别可靠的种子样本具有最高的类特定的可能性，只给出图像级的注释。考虑到每个正图像包含至少一个对每个类别有显著贡献的正对象建议，我们训练多标签分类CNN模型作为识别种子样本的第一步。我们遵循多标签分类中的Hypothesis-CNN-Pooling（HCP）[26]方法来挖掘对图像级分类贡献最大的建议。具体来说，HCP接受一些输入建议，并将它们输入CNN分类网络。然后在综合预测阶段对每个类执行交叉建议最大池化。更正式地说，假设{vi}n是输出re，来自CNN的第i个提案的sponse向量，并且{vj}c是vi中第j个类的输出响应。对第j类图像的最终综合预测是v j= max（v j，v j，. . . ，v j）。图2：对相应类别响应最高的候选提案的说明。显示了每个图像的前10名排名靠前的建议可能包含上下文或仅包含对象的关键区别部分然而，这些排名靠前的建议大多在空间上集中在真实对象实例周围。使用交叉建议最大池，与目标类的对象对应的最高预测响应将被保留，而来自否定对象的响应将被忽略。以这种方式，图像级分类错误将仅通过最有信心的建议反向传播，使得网络在训练期间实现空间感知。这填补了图像级注释和对象级特征之间的空白，从而为对象级检测任务提供了更多有区别的特征。HCP的更多详细信息可参见[26]。3.1.2可靠的种子提案生成在图像到对象的传输之后，具有对目标类的最高预测响应的前N个建议被选择为置信候选建议。然而，高响应并不意味着真实对象的紧密空间覆盖。我们的实验观察表明，在上述意象-客体转换中，具有一定语境或仅包含关键区分部分的提案也会对目标类产生较高的反应另一个关键的问题是，尽管一些建议包含了对象或上下文的一部分，但它们可能会使对象拥挤（见图1）。2）的情况。为了将空间相关性，我们将其公式化为密集子图发现（DSD）问题，即。在包含N个高响应提案的候选提案池中选择在数学上，设G=（V，E）是一个无向无权图，其节点V对应于顶点N12N1380我我电话+1图3：图G的图示，其节点是N候选提案池中的提案。每个候选方案都以IoU ≥ 0连接到其他方案。5在这个例子中通过稠密子图发现，从所有的方案中选出两个空间上集中的方案s，框在红色的盒子里。高响应的提案。边E={e（vi，vj）}通过将每个提议（节点）连接到其相邻节点来形成。具有大于预定义阈值T的交集大于并集（IoU）的无聊提议。示例图G的可视化示于图1中。3.第三章。我们提出一个贪婪算法来发现G的稠密子图。贪婪算法迭代地选择具有最大度（到其他节点的连接数）的节点，然后修剪该节点及其所有连接的邻居。该算法重复查找-修剪迭代，直到剩余节点的数量小于预定义的数量k。所有在迭代中修剪的节点形成稠密子图。该过程在算法1中详细描述。图G上稠密子图的发现算法1输入：无向图G =（V，E）。初始化：V′= π。而不是要求预先指定的固定数目作为聚类。这在解决WSL问题时是非常需要的，因为图像可能具有不同数量的对象实例。第二，DSD不依赖于预测的响应，避免了不利的情况下，其中具有最高响应的差的本地化建议被选择。这是NMS的一个常见问题，NMS无法过滤仅包含关键区别部分或上下文的pro-task。在所选的空间集中的建议中，对目标类别具有最高预测响应的建议是被选择作为该图像的种子阳性样本。3.2. 在线支持性样本采集在获得种子阳性建议后，我们进一步利用对象级CNN检测器寻求更高质量的阳性样本特别是，我们实现了自学，以逐步提高对象级区域CNN检测器的能力我们提出了一种新的在线支持性样本收获（OSSH）策略，以逐步收获高质量的阳性样本，从而显着提高阳性样本的质量。以这种方式，检测器的能力可以利用所提供的新的信息样本而被显著增强。Fast R-CNN被用作我们的区域CNN检测器。我们观察到，在种子样本上训练的区域CNN检测器（Fast R-CNN）足够强大，可以选择最有信心的紧密阳性以进行进一步训练。在训练和重新定位之间的交替与通常的MIL共享类似的精神，即不断更新SVM以挖掘高质量的阳性样本。尽管使用Fast R-CNN更强大，但由于其更强的拟合能力，它很容易陷入由初始种子差引起的局部最优解。为了解决这个问题，我们建议基于输出CNN分数的相对改善（RI）在线选择最自信和最紧密的阳性样本，而不是依赖于某些训练迭代的静态绝对CNN分数。具体来说，对于一个训练图像，我们将其所有的N个建议按照RI在最后一个时期的降序而|V|>k dovmax=arg maxidi，其中di=V邻居={v|e（v，vmax）=1};V ′=V ′≠ {vmax};Σj∈Ve（vi，vj）;具有最大RI的建议被选为积极的当前epoch的训练样本对于一幅图像，我们将第t个时期的第i个提案的Fast R-CNN预测得分（在此图像上训练Fast R-CNN之后）记为V=V\Vend while邻居;霸王为了计算RI，我们还表示其快速R-CNN s-第（t+1）个时期的核心（但在训练Fast R-CNN输出：构成稠密子图的一组节点V′在这张图片上）作为Bt+1。然后，在N个候选方案中，选择具有最大RI的方案P ，第（t+1）个训练时期：与其他两种选择空间一致性的方法相比，P= arg max（B t+1−A t）。集中的建议，即，聚类和非极大超电话+1我我我压力（NMS），DSD具有以下吸引人的优点。第一，它可以提供一个适应性的提案基于对WSL问题的以下观察，我们建议使用RI进行建议选择。高1381图4：目标类的CNN得分与训练过程中的e-pochs数量Fast R-CNN for different proposalS.训练建议是训练Fast R-CNN的种子阳性样本。“ 类似的含义适用于符号在其他时代。未用作训练样本的高质量建议主要来自Fast R-CNN检测能力的提高，而假阳性训练样本的s-核心改善主要来自于对自身的过拟合。建议的预测得分可能是由于模型过拟合到该建议或快速R-CNN模型的检测能力增加我们需要解开这两个因素，因为前者是不可取的。坏种子样本在训练过程中很难从快速R-CNN的检测能力增加中获得RI相比之下，由于模型的检测能力提高，未被选为种子的高质量阳性样本大多获得RI。因此，RI是识别高质量阳性样本的可靠指标。图4显示了直观的例子来证明观察结果。在图1的示例（a）中，4、错误初始训练方案的得分主要从对自身的过拟合中获得提高，并且在对其他图像（例如，、在以后的时期（例如，、高-质量候选方案（即，候选建议1）在其他图像上的训练期间主要获得分数改善低质量候选提案的得分（即，可以修改包含上下文的提议2）在CNN模型在早期阶段的泛化能力的增加（例如，，“1+”到“2 -”），但在以后的时期（例如，、在图1的示例（b）中，4、低质量种子训练方案在早期时期（例如，，因此，Fast R-CNN检测能力不断提高的RI可靠地反映了该提案的质量。为了确保在该图像上的两个连续训练之间从其他图像中获得足够的阳性样本用于训练，例如：在第t个和第（t+1）个时期，我们固定在每个时期中馈送到网络中的训练图像的顺序。这保证了在特定图像上的两个连续训练之间通过目标类的所有其余图像来训练模型。最后，我们介绍了在线支持性样本收获（OSSH）几个时期后进行的阴性拒绝（NR）具体来说，我们通过将每个图像中具有Fast R-CNN最高预测得分的所有阳性样本按照其预测CN-N得分的顺序进行排名来执行NR，然后在随后的Fast R-CNN训练中删除10%这是受到以下观察的启发：即使从困难的正图像中选择的最佳正样本也具有不令人满意的质量（对真实对象的低IoU）。对于数据增强，除了具有最大相对分数改进的所选提议之外，该图像中与所选提议重叠IoU ≥ 0的所有提议。5也被视为积极的训练detec，在那个时代。具有IoU ∈ [0. 1，0。第五章）与所选建议重叠的是负样本。4. 实验4.1. 数据集和评估指标我们在PASCAL VOC2007和2012数据集[28]上评估了我们的方法，这些数据集是弱监督对象检测中使用最广泛的基准。对于PAS-CAL2007，我们在训练集（包含5，011张图像）上训练模型，并在测试集（包含4，952张图像）上进行评估。对于PASCAL2012，我们首先在训练集（包含5，717个图像）上训练模型，并在val集（包含5，823个图像）上进行评估。此外，我们还在PASCAL2012训练集（包含11，540张图像）上训练我们的模型，并在测试集（包含1，0991张图像）上进行评估。我们使用两个指标来评估我们的方法。首先，在PASCAL2007测试集上评估[28]定义的标准检测平均精度（mAP）1382表1：我们的方法和其他最先进的方法在PASCAL2007训练集上的正确定位（CorLoc）（%）。OSSH1仅在第2个时期执行OSSH， OSSH2在第2和第3个时期执行OSSH，OSSH3在第2、第3和第4个时期执行OSSH。方法Aero 自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视Avg.Cinbis等人[八]《中国日报》57.262.250.937.923.964.874.424.829.764.140.837.355.668.125.538.565.235.856.633.547.3Bilen等人[27日]66.459.342.720.421.363.474.359.621.158.214.038.549.560.019.839.241.730.150.244.143.7Wang等人[22日]80.163.951.514.921.055.774.243.526.253.416.356.758.369.514.138.358.847.249.160.948.5Kantorov等人[25日] 83.368.654.723.418.373.674.154.18.665.147.159.567.083.535.339.967.049.763.565.255.1Li等人[9]第一章78.267.161.838.136.161.878.855.228.568.818.549.264.173.521.447.464.622.360.952.352.4HCP54.437.242.128.113.847.849.640.616.438.713.834.522.236.410.836.442.320.846.149.334.1HCP+DSD56.936.045.426.515.749.854.553.115.945.613.437.538.142.116.234.245.429.755.646.137.9HCP+DSD+OSSH170.260.053.926.128.358.975.458.914.863.417.952.651.767.019.746.363.942.467.065.150.2HCP+DSD+OSSH273.956.052.126.934.066.680.059.513.170.222.955.760.683.822.051.571.150.471.274.454.9HCP+DSD+OSSH372.755.353.027.835.268.681.960.711.671.629.754.364.388.222.253.772.252.668.975.556.1表2：我们的方法和其他最先进的方法（在PASCAL2007训练集上训练）在PASCAL2007测试集上的检测平均精度（AP）（%）。OSSH1、OSSH2和OSSH3具有与表1相同的含义。07+12表示在PASCAL2007和2012trainval集上进行培训。方法Aero 自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视地图Cinbis等人[八]《中国日报》38.1 47.6 28.2 13.913.245.2 48.0 19.317.127.717.319.030.145.413.517.028.824.8 38.215.027.4Song等人[21日]27.6 41.9 19.79.110.435.8 39.1 33.60.620.910.027.729.439.29.119.320.517.1 35.67.122.7Bilen等人[27日]46.2 46.9 24.1 16.412.242.2 47.1 35.27.828.312.721.530.142.47.820.026.820.8 35.829.627.7Wang等人[22日]48.9 42.3 26.1 11.311.941.3 40.9 34.710.834.718.834.435.452.719.117.435.933.3 34.846.531.6Kantorov等人[25日]57.1 52.0 31.57.611.555.0 53.1 34.11.733.149.242.047.356.615.312.824.848.9 44.447.836.3Li等人[9]第一章54.5 47.4 41.3 20.817.751.9 63.5 46.121.857.122.134.450.561.816.229.940.715.9 55.340.239.5HCP42.6 40.8 26.5 21.05.741.7 47.8 34.210.827.212.328.912.527.91.818.229.012.5 45.547.126.7HCP+DSD45.7 41.0 26.8 23.15.051.4 51.5 43.310.437.610.229.223.039.13.116.833.513.6 47.240.529.6HCP+DSD+OSSH152.5 56.9 35.5 18.513.859.5 62.4 51.77.053.114.938.334.660.05.715.149.736.0 55.754.638.8HCP+DSD+OSSH252.9 53.6 32.4 20.314.859.2 64.8 50.33.351.216.742.544.462.96.119.147.242.0 57.162.440.2HCP+DSD+OSSH349.6 47.0 33.6 21.715.760.4 66.0 51.75.654.124.538.445.265.06.118.553.346.0 52.561.540.8HCP+DSD+OSSH3+NR52.2 47.1 35.0 26.715.461.3 66.0 54.33.053.624.743.648.465.86.618.851.943.6 53.662.441.7HCP+DSD+OSSH3+NR（07+12）54.2 52.0 35.2 25.915.059.6 67.9 58.710.167.427.337.854.867.35.119.752.643.5 56.962.543.7表3：我们的方法和其他最先进的方法的检测平均精度（AP）（%）（在PASCAL上2012火车集）上的PASCAL2012val集。OSSH1、OSSH2和OSSH3具有与表1相同的含义。方法Aero 自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视地图Li等人[9]第一章––––––––––––––––––––29.1HCP49.333.324.714.011.837.930.235.76.926.66.925.414.129.41.118.125.713.444.145.424.7HCP+DSD55.339.325.314.310.650.435.645.411.431.32.330.629.735.35.014.228.113.847.141.128.3HCP+DSD+OSSH160.754.036.514.419.557.545.547.711.139.92.843.438.255.54.318.640.531.156.652.036.5HCP+DSD+OSSH257.755.934.817.418.357.848.651.09.740.87.242.547.262.24.618.443.036.855.757.838.4HCP+DSD+OSSH361.053.830.318.118.657.451.153.16.140.712.138.248.265.54.820.945.534.054.157.338.5HCP+DSD+OSSH3+NR60.953.331.016.418.258.250.555.69.142.112.143.445.364.67.419.344.839.351.457.239.0表4：我们的方法和其他最先进的方法在PASCAL2012训练集上的正确定位（CorLoc）（%）方法Aero 自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视Avg.Kantorov等人[25日] 78.370.852.534.736.680.058.738.627.771.232.348.776.277.416.048.469.947.566.962.954.8HCP+DSD+OSSH382.468.154.538.935.984.773.164.817.178.322.557.070.886.618.749.780.745.370.177.358.8表5：我们的方法和其他最先进方法的检测平均精度（AP）（%）（在PASCAL上2012trainvalset）在PASCAL2012测试集上07+12表示在PASCAL2007和2012trainval集上进行培训方法Aero 自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视地图Kantorov等人[25日]64.0 54.9 36.48.112.653.1 40.5 28.46.635.334.449.142.662.419.815.227.033.1 33.050.035.3HCP+DSD+OSSH3+NR60.8 54.2 34.1 14.913.154.3 53.4 58.63.753.18.343.449.869.24.117.543.825.6 55.050.138.31383HCP+DSD+OSSH3+NR（07+12）62.4 55.3 34.1 17.117.356.4 54.9 57.63.954.66.744.352.071.24.017.342.928.4 54.152.539.41384PASCAL2012val set和PASCAL2012test set及其各自的培训模型如上所述。第二，在训练集上（即，PASCAL2007训练集和PASCAL2012训练集），我们报告了正确定位（CorLoc）[29]，这是用于测量训练集上定位准确度 CorLoc是图像的年龄百分比，其中最有信心的检测到的边界框重叠（IoU ≥0）。（5）一个真实的盒子。4.2. 实现细节我们使用以下设置训练HCP多标签分类模型[26]。在所有的实验中，选择100个对目标类响应最高的建议来形成候选建议池，以平衡性能和效率。在稠密子图发现中，我们将T和k的值固定为0。图8和图5中所示的所有实验，因为经验表明，当T大于0时，定位性能不会改变太多。7或当k的范围为3至8时。在快速R-CNN训练中，通过在线支持样本采集，模型从ImageNet上的预训练模型进行微调[30]。批量大小被设置为2，使得对该小批量的训练导致的对特定图像的过拟合训练图像的顺序在所有时期中是固定的。学习率设置为0。001，并且在每6个时期之后以因子10我们使用EdgeBoxes[31]生成的对象建议，并在Fast R-CNN中采用VGG-16网络[32]4.3. 消融研究为了验证我们的两个组件的有效性，即。密集子图发现和在线支持样本采集，我们通过将它们中的每一个累积添加到我们的基线来进行消融研究，即，，HCP。基线HCP选择对目标类别具有最高响应的建议作为每个图像中的阳性样本在我们方法的所有消融版本中，Fast R-CNN都使用IoU≥ 0的建议进行训练。5例阳性标本。从表1中可以观察到，与仅使用 HCP 来选择阳性方案相比， DSD 将CorLoc提高了近4%。OSSH 1、OSSH 2和OSSH 3表示在训练Fast R-CNN的第2个时期的前1、2和3个时期中执行在线支持性样本采集（注意，在第1个时期中，种子位置为在培训中使用DSD的工具）。12%的改善对OSSH 1带来的CorLoc的测试表明，对某个图像执行OS-SH仅1次就足以发现候选池中的紧密正建议。可以看出，较晚的OSSH比第2个时期的OSSH对CorLoc的益处更少，这表明高质量的积极提议在这些时期中的每个时期中获得一致的CNN分数改善，因此可以在第一次OSSH中容易地挑选出来。表2显示，mAP具有类似的走向CorLoc。DSD和OSSH1分别使mAP提高了3%和9%，验证了它们的有效性。NR对探测器也是有益的，并且通过丢弃来自困难图像的假阳性而贡献1%的表3还显示了将DSD和OSSH添加到PASCAL 2012val集的基线方法后mAP的显著改善为了验证使用相对CNN分数改进的优点，我们进行了使用绝对CNN分数的比较实验，以在OSSH中收获置信的阳性在OSSH的时期之后，在每个图像中具有最高预测得分的建议被选择为置信的正样本。从表6中可以发现，在所有情况下，相对分数改善始终优于绝对CNN分数，特别是当OSSH在更多时期中执行时。使用绝对CNN分数，OSSH在后两个时期的改进远小于使用相对分数改进。这进一步表明，当基于绝对CNN分数选择阳性样本时，检测器更容易陷入不良局部最优，因为检测器高度过拟合种子阳性样本，因此种子阳性样本可以在前2个时期之后获得高预测分数。4.4. 与最先进技术的我们将我们的方法与最先进的方法进行比较。表1显示了PAS- CAL2007训练集的CorLoc比较。我们的方法实现了最高的结果56. 1%，与所有基于MIL的方法（即， [8 ， 7 ， 9] ）和端到端 WSL 网络（即，，[25]）。表2显示了使用在PASCAL2007训练集上训练的模型在PASCAL 2007测试集上的AP方面的比较。我们的方法达到41。7%的mAP，由于在相应的训练集上实现了高CorLoc，其也优于所有最新技术水平（表1）。有了更多的训练数据（PASCAL 2007和PASCAL2012训练集），mAP可以进一步提升到43。7%，我们的方法。表3显示了PASCAL 2012val套件与最新技术方法的AP比较[9]。我们的模型和他们的模型都只在PASCAL2012训练集上训练。我们的方法始终保持更高的性能，在mAP方面超过[9]近10%表4给出了我们的方法和最先进的方法[25]在PASCAL2012tranaval集上的CorLoc方面的比较。在CorLoc中，所提出的方法显著优于[25]4%。表5显示了我们的方法的PASCAL2012测试集上的AP和[25]使用在PASCAL2012训练集上训练的模型。通过我们的方法实现了3%的mAP优势。有了更多的训练数据（PASCAL2007和PASCAL 2012训练集），mAP可以进一步提高到39。4%的方法。1385HCP HCP + DSD+OSSH1HCP+DSD+OSSH2HCP+DSD+OSSH3图5：在我们的方法的不同消融版本中检测到的对象的定性示例。从第1柱到第5柱依次为HCP、HCP+DSD、HCP+DSD+OSSH1、HCP+DSD+OSSH2和HCP+DSD+OSSH3。绿色和红色边界框分别表示地面实况对象边界框和检测到的对象的边界框表6：在OSSH中使用相对CNN评分改善和绝对CNN评分的PASCAL2007训练集上的正确定位（CorLoc）（%）在3种情况下进行比较：在训练Fast R-CNN的第2个时期的前1，2和3个OSSH时代123绝对CNN得分48.8 52.3 53.2相对分数提高50.2 54.9 56.14.5. 定性结果我们在图1中示出了在我们的方法的不同消融版本五、我们观察到，在某些情况下，基线HCP仅定位对象的关键区分部分，并且可以通过向其添加DSD和OSSH来逐步提高定位精度。注意，在图5的最后一行中的第五示例中，HCP和HCP+DSD检测到的对象是假阳性样本，其在训练快速R-CNN检测器时用作种子阳性通过执行一个epoch的OSSH，可以粗略地定位地面实况对象，并且更多epoch的OSSH有助于精确地选择紧密的正建议，这验证了重要性在OSSH中使用相对得分改进，以避免检测器陷入局部最优。5. 结论我们提出了一种用于弱监督对象定位的深度自学方法。我们的方法首先通过检查它们对分类网络中目标类的响应得分来获取有效的种子正对象建议，然后通过密集子图发现来挖掘空间集中的样本。然后，凭借在线支持的样本收获与一个新的相对CNN得分改善度量增强，我们的方法可以成功地检测到提高质量的阳性样本。实验结果表明，该方法优于现有的方法。在PASCAL2007和2012上，所提出的方法在所有评估场景中均明显优于它们。致谢泽群杰由腾讯AI Lab提供部分支持Jiashi Feng的工作得到了新加坡国立大学启动基金R-263-000-C 08 -133和新加坡教育部AcRF Tier One基金R-263-000-C21-112的部分支持。1386引用[1] PierreSermanet，Da vidEigen，XiangZhang，Micha eülMathieu，RobFergus，and Yann LeCun.优势：使用卷积网络集成识别，本地化和检测。arXiv预印本arXiv：1312.6229，2013。[2] Ross Girshick，Jeff Donahue，Trevor Darrell和Jitendra Malik。丰富的特征层次结构，用于精确的对象检测和语义分割。CVPR，2014。[3] 罗斯·格希克。快速R-CNN。在ICCV，2015年。[4] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：用区域建议网络实现实时目标检测。2015年，在NIPS[5] 梁晓丹，魏云超，沈晓辉，杰泽群，冯佳世可逆递归实例级对象分割。在CVPR，2016年。[6] 杰泽群，梁晓丹，冯佳世，金小杰，陆文，严水城。用于序列目标定位的树结构强化学习。在NIPS，2016年。[7] Hakan Bilen、Marco Pedersoli和Tinne Tuytelaars。基于后验正则化的弱监督目标检测InBMVC，2014.[8] Ramazan Gokberk Cinbis，Jakob Verbeek，and Cordelia Schmid.弱监督目标定位与多重多实例学习。arXiv预印本arXiv：1503.00949，2015年。[9] Dong Li ， Jia-Bin Huang ， Yali Li ， Shengjin Wang ， Ming-Hsuan Yang.弱监督目标定位与渐进域适应.在CVPR，2016年。[10] 帕提潘湿婆和陶香。带模型漂移检测的弱监督对象检测器学习。见ICCV，2011年。[11] Judy Hoffman、Sergio Guadarrama、Eric S Tzeng、RonghangHu 、 Jeff Donahue 、 Ross Girshick 、 Trevor Darrell 和 KateSaenko。Lsda：通过自适应进行大规模检测。在NIPS，2014。[12] 朱迪·霍夫曼，迪帕克·帕塔克，特雷弗·达雷尔，凯特·萨恩科。在野外的探测器发现：联合多实例和表征学习。CVPR，2015。[13] Mrigank Rochan和Yang Wang。使用外观转移的新对象的弱监督定位CVPR，2015。[14] Zhiyuan Shi，Parthipan Siva，Tony Xiang，and Q Mary.弱监督对象标注的排序迁移学习。InB-MVC，2012.[15] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。Imagenet分类与深度卷积神经网络。NIPS，2012年。[16] Christian Szegedy，Wei Liu，Yan

下载后可阅读完整内容，剩余1页未读，立即下载