弱监督目标定位中的自产指导掩模方法（SPG）：从背景中提取感兴趣的对象，辅助分类网络训练，提高对象定位准确率

45 浏览量更新于2023-10-13 收藏 1.32MB PDF 举报

对象定位

弱监督学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

弱监督目标定位张晓琳1，魏云超2，康国梁1，杨毅1，黄伟21 CAI，悉尼科技大学，新南威尔士州，澳大利亚{Xiaolin.Zhang-3@student.，郭亮.康@学生.，Yi.Yang@} uts.edu.au2伊利诺伊大学厄巴纳-香槟分校，美国{yunchao，t-huang1}@ illinois.edu抽象。弱监督方法通常基于由分类网络产生的注意力图来生成定位结果。然而，注意力地图展示了对象的最有区别的部分，这些部分很小，很稀疏。我们建议生成自产指导（SPG）掩模，其分离前景，即从背景中提取感兴趣的对象，以向分类网络提供像素的空间相关性信息。提出了一种分阶段的方法，将高置信度的对象区域学习的SPG掩模。利用注意力图内的高置信度区域来逐步学习SPG掩模。然后将掩模用作辅助像素级监督以促进分类网络的训练。ILSVRC上的大量实验表明，SPG是有效的，在生产高质量的对象定位地图。特别地，所提出的SPG在ILSVRC验证集上实现了43.83%的Top-1定位错误率，这是新的最先进的错误率。关键词：对象定位，弱监督学习1介绍弱监督学习（WSL）已成功应用于许多任务，例如对象定位[5，6，11，13，26，35，44]，关系检测[40]和语义分割[3 2- 3 4，3 6，3 7 ]。WSLattratextenivetin e 在本文中，我们专注于弱监督对象定位（WSOL）问题。现有的WSOL方法使用卷积分类网络来定位目标对象区域。分类网络通过识别对象的区分区域来不使用全连接层的全卷积网络[17]可以保留像素的相对位置因此，所发现的区分区域可以指示目标对象的确切位置。Zhou等人重新访问了分类网络（例如AlexNet [12]，VGG [25]和GoogleNet [27，28]），并提出了一种仅使用图像级的类别激活图（CAM）方法来找到感兴趣的区域。Xiaolin Zhang等人2输入注意种子SPGFig. 1. 自编指导的学习过程。给定一幅输入图像，我们首先用一个分类网络生成相应的注意力图然后对注意图进行粗略分割，遵循置信度高的区域为对象，置信度低的区域为背景的规则具有中等置信度的区域仍然未定义。所有这三个区域构成种子。自生成引导被定义为由种子监督的多阶段像素级对象掩模监管在[14]之后，CAM用卷积层替换了顶部的全连接层，以保持对象位置，并且可以发现不同类别的区分区域的空间分布。由CAM生成的定位图的关键弱点为了克服这一弱点，Wei等人 [32]提出了应用附加的网络来丰富对象相关区域，给定图像，其中根据来自预训练网络的注意力图来擦除最具区别性的区域。此外，Zhang等人。 [43]证明CAM方法可以简化以实现端到端训练。有了这个证明，在[43]中提出了一种对抗性互补学习方法，通过引入一个额外的分类器来挖掘互补对象区域，最终可以产生准确的对象定位图。然而，这些方法都忽略了探索像素之间的相关性。我们观察到图像可以大致分为前景和背景区域。前景像素通常构成感兴趣的对象。我们发现，从分类网络推断的注意力图[32，43，45]可以有效地提供每个像素是前景或背景的概率尽管高前景/背景概率的像素可能不覆盖整个目标对象/背景，但是它们仍然提供用于获得目标对象的一些共同模式基于此，我们可以简单地利用那些可靠的前景/背景种子作为监督，以鼓励网络感知前景对象和背景区域的分布。由于具有相关性的像素（例如，在同一对象或背景内）通常共享相似的外观，因此可以通过从所发现的种子学习来容易地发现更可靠的前景/背景像素通过引入更多可靠的引导像素进行监督，整个前景目标可以逐渐从背景中区分出来，这最终将有利于弱目标定位。弱监督目标定位3受上述动机的启发，在本文中，我们提出了一个自我产生的指导（SPG）的方法来学习更好的注意力地图，并获得精确的位置的对象。我们利用注意力地图产生的前景和背景区域的指导面具在一个阶段的方式。每个阶段的前景/背景种子可以按照简单的规则生成：1）具有高置信度分数的区域被认为是前景;2) 具有非常低分数的区域是背景种子; 3）具有中等置信度的区域保持未定义。未定义的区域意味着使用中间特征来计算我们采用自上而下的机制，使用底层的输出作为底层存储器的备份，以便通过对象本地化进行分析。上层维护更抽象的语义信息，而下层具有更具体的像素相关信息。在更多的区域可以使用上层特征定义为前景/背景之前，我们保留不明确的区域。定义的区域越多，定义更难区域的能力越强。在得到前景和背景的引导模板后，将其作为辅助监督。期望这些监督使得分类网络能够学习像素相关性。因此，注意力地图可以清楚地指示类特定的对象区域。图1说明了自制指南的学习过程给定输入图像，我们首先根据[43]中的方便方法通过分类网络生成相应的注意力图然后将注意力图粗略地分成前景/背景种子和忽略区域。自生成的指导是从这些种子中学习的，其中以分阶段的方式输入中间特征。最后，为了更精确和完整地指示目标对象，融合了多个层的SPG掩模。总而言之，我们的主要贡献是：– 我们提出了一种分阶段的方法来学习高质量的自产生的引导掩模，展示了给定图像的前景和背景– 提出了一种结合自生成监督的弱目标定位方法，该方法可以启发分类网络发现像素相关性，从而提高定位性能。– 所提出的方法实现了新的国家的最先进的错误率Top-1 43.83%的ILSVRC数据集，只有图像级的监督。我们将在第3节中详细讨论所提出的SPG方法。在第4节中，我们在ILSVRC2016数据集上实证评估了所提出的方法，表明SPG在仅具有图像级监督的对象定位任务中的优越性。我们还讨论了进一步的见解，建议SPG算法通过额外的实验。2相关工作卷积神经网络已广泛用于目标检测和局部化任务[3，8，10，18，25，42]。最早的以一阶段方式检测对象的深度网络之一是OverFeat [23]，其采用多尺度和多分辨率的方法。Xiaolin Zhang等人4滑动窗口方法来预测对象边界。然后，这些边界被应用于累积边界框。SSD [16]和YOLO [20]使用类似的一步法，并且这些检测器是专门设计用于加速检测过程的。 Faster-RCNN由Ren等人设计。 [21]在物体探测任务中取得了巨大成功。它生成区域建议并实时预测统一网络中高度可靠的对象位置。Lin等人。 [15]提出，Faster-RCNN的性能可以通过构建具有边际额外成本的特征金字塔来显着提高。虽然这些方法在检测图像中的感兴趣对象方面相当成功，但是大量的注释对于以有限的预算训练这样的网络弱监督方法通过使用更便宜的注释（如图像级标签）来缓解这个问题 Jie等 [11]提出了一种自学的学习框架，首先选择一些高响应的建议，然后在选定的区域上对网络进行微调，以逐步提高其检测能力。这种方法高度依赖于通过选择性搜索[30]等算法预处理的区域通用提议算法可能不稳健以产生准确的边界框。Dong等人 [5]采用了两个独立的网络来共同完善区域建议并选择积极的区域。高质量的注意力图对于对象检测和分割也是至关重要的[19]。 Diba等人 [4]建议可以利用注意力地图来产生区域建议。在这些建议的协助下，可以很容易地发现更详细的信息。然而，这些方法由于使用预处理的区域提议和多个网络而引入了额外的计算。 Zhou等人 [44]发现每个类的定位图可以通过使用类特定的全连接层聚合顶级特征图来产生。 Zhang等人 [41]引入了一种不同的反向传播方案，通过向下传递自上而下的信号来产生对比响应图。然而，通过单独使用图像标签来监督的该方法倾向于仅发现目标对象的一小部分。Wei等人。 [32]应用了一种类似但更有效的方法，在预先训练的网络的指导下隐藏有区别的区域，然后对处理后的图像进行训练，以发现更多的感兴趣区域。这些方法增加了图像的数量，因此它们需要更宝贵的计算和时间资源来训练网络。Zhang等人 [43]提供了理论证明，通过仅从最后一层特征图中进行选择，在正向传递期间产生特定于类别的注意力图，这使得端到端的注意力学习成为可能。此外，他们提出了ACoL方法[43]，以有效地挖掘增强分类网络中的完整目标对象3自制指南3.1网络概述我们将图像集表示为I={（I，y）}N-1，其中y={0，1，… C-1是我我i =0ii的标签，N是图像的数量，并且C是图像班图图2示出了SPG方法的架构，其主要具有弱监督目标定位5图二. 所提出的SPG方法的概述。输入图像由Stem处理以提取中级特征图，然后将其馈送到SPG-A进行分类。然后从分类网络推断注意力图在注意力地图的引导下，逐步学习自制的SPG-C使用自制的引导图作为辅助监督，以加强注意力地图的质量GAP是指全球平均池化四种不同的组件，包括股骨柄、SPG-A、SPG-B和SPG-C。不同的组分具有不同的结构和功能。我们使用小写字母f表示函数，大写字母F表示输出特征图。Stem是一个完全卷积的网络，表示为fStem（Ii，θStem），其中θStem是参数。fStem的输出特征图表示为FStem。fStem充当特征提取器，其将RGB图像作为输入并产生多个通道的高级位置感知特征图然后将提取的特征图F_Stem馈送到以下组件SPG-A中。我们将SPG-A分量表示为fA（FStem，θA），这是用于图像级分类的网络 fA（F_Stem，θ A）由四个卷积块（即A1、A2、A3和A4）、全局平均池化（GAP）层[14]和softmax层。A4有一个卷积层，核大小为1× 1的C滤波器。这些过滤器对应于每个类别的注意力图，以便在前向传递期间生成注意力图[43]。利用SPG-B学习自编的指导面具，通过使用种子的前景和背景产生的注意力地图。提取注意力图中的高置信度区域作为监督，以学习更好的对象区域。SPG-B利用来自分类网络SPG-A的中间特征图来预测自产引导掩模。具体地，A1和A2的输出特征图FA1和FA2分别被馈送到SPG-B中的两个块SPG-B的每个块包含三个卷积层，随后是S形层，其中第一个卷积层是SPG-A干A1A2A3A4间隙CLSSPG-BSPG-CB1 B2保险丝阈值化二进制交叉熵曲状层公元前公元前公元前公元前分享…CNNXiaolin Zhang等人6层的目的是适应特征图FAl和FAl2中的不同数量的通道。SPG-B的输出分别表示为两个分支的FB1和FB2组件SPG-C使用辅助SPG监督来鼓励SPG-A学习像素级相关性。SPG-C包含两个卷积层，分别具有3× 3和1× 1内核，然后是sigmoid层。3.2自编导学从分类网络生成的注意力地图只能显示目标对象的最具区分力的我们建议生成自产指导（SPG）掩模，其将前景（即感兴趣的对象）与背景分离，以向分类网络提供像素的空间相关性信息。然后利用生成的SPG掩码作为辅助监督，以鼓励网络学习像素之间的相关性因此，相同对象内的像素将在特征图中具有相同的响应。作为详细信息（即对象的边缘和边界）在顶层特征图中通常是非常抽象的，我们使用中间特征来产生精确的SPG掩模。事实上，一些以前的作品使用低级特征图来学习对象区域[9，38]。这些方法需要像素级地面实况标签作为监督。不同的是，我们建议使用自制的指导，将高信心的对象区域内的注意力地图。详细地，对于任何图像Ii，我们首先简单地从分类网络中提取其注意力图O。我们观察到，注意力地图通常突出对象的最有区别的区域初始对象和背景种子可以很容易地根据注意力图中的分数获得。特别地，具有非常低分数的区域被认为是背景，而具有非常高分数的区域是前景。其余区域在学习过程中被忽略我们通过这些种子初始化SPG学习过程B2由种子图监督，它可以学习前景和背景的模式。以这种方式，被忽略的区域内的像素被逐渐识别。然后，我们使用相同的策略在B2的输出图中找到前景和背景种子，这些种子用于训练B1分支。在这种分阶段的方式中，神经网络的中间信息被用来学习自制制导。我们正式定义这个过程如下。给定大小为W×H的输入图像，我们表示二值化SPG掩码M∈ {0， 1， 255}W×H，其中如果第x行第y列的像素属于背景区域，则Mx，y= 0，如果它属于对象区域，则Mx，y= 1，并且如果它被忽略，则Mx，y我们将注意力地图表示为O。所产生的引导掩模可以通过下式计算：Mx，y=0如果Ox，y δ1，0<δ 111如果Ox，y> δh，0<δh 1255如果δl≤Ox，y≤δh， 0<δl δh 1（一）其中δ1和δh分别是用于将定位图中的区域识别为背景和前景的阈值弱监督目标定位7i=1我我们采取分阶段的方法，逐步学习高质量的自制监理图。B2被应用于学习由种子地图M_A监督的更好的自产地图。在训练中，仅将自制地图中标记为0和1的位置用作像素级监督。值为255的像素被忽略的像素不会造成损失，并且它们的梯度不会反向传播。网络将从已经标记的像素中学习模式，然后将识别更多的区域，因为属于背景或对象的像素通常具有很大的相关性。例如，属于同一对象的区域通常具有相同的外观。然后，B2的输出被进一步应用为注意力图，并且可以使用等式2中的相同策略来计算更好的自产监督掩码。（一）.在获得B1和B2的输出图之后，将这两个图融合以生成我们最终的自产监督图。特别地，我们计算这两个地图的平均值，然后根据等式（1）生成自制的制导M引信（一）.所生成的自制指南被用作分类网络SPG-A的像素级因此，分类网络将学习像素之间的相关性，并且我们将获得更好的定位图。整个网络以端到端的方式进行训练。在分类学习和自产生式指导学习中，我们采用交叉熵损失函数。算法1说明了所提出的SPG方法的训练过程。算法一：SPG的训练算法输入：训练数据I={（Ii，yi）}N、阈值δl和δh1：边训练边不收敛2：更新特征图FA4←fA（fStem（I，θStem），θA）3：根据图像标签y从FA4提取定位图04：根据等式4计算前景/背景M_A的种子（1）5：生成SPG映射FB2←fB2（FA2，θB2）6：计算下一阶段SPG图FB17：通过对FB1和FB2求平均来计算融合的映射Ffuse8：根据等式（1）计算熔合的SPG掩模Mfuse←Ffuse（一）9：更新由M和yi监督的整个网络θStem、θA、θB和θC10：结束时Output：输出定位图O在测试过程中，我们根据具有最高预测分数的类提取注意力地图，然后通过双线性插值将地图调整到与原始图像相同的大小为了公平比较，我们应用[44]中使用的相同策略来基于生成的对象定位图生成对象边界框。特别地，我们首先通过一个固定的阈值分割前景和背景。然后，我们寻求覆盖前景像素中最大连通区域的紧密包围盒。的阈值我Xiaolin Zhang等人8使用网格搜索方法将生成的边界框调整到最优值。更多详情请参见[44]。3.3实现细节我们通过修改Inception-v3网络[29]来评估所提出的SPG方法。特别地，我们移除第二个Inception块之后的层，即，第三个Inception块，池化和线性层。为了进行公平的比较，我们构建了一个普通版本的网络，命名为SPG-plain。我们添加了两个卷积层，内核大小为3× 3，步幅为1，填充1，具有1024个过滤器，以及一个卷积层，大小为1× 1，步幅为1，具有1000个单元（CUB-200-2011为200）。最后，在顶部添加GAP层和softmax层。我们通过添加两个组件（SPG-B和SPG-C）来更新普通网络。B1和B2的第一层是卷积层，内核大小为3×3，分别具有288和768个滤波器。第二层是512个滤波器的卷积层，后面是1× 1卷积输出层。第二层和第三层共享B1和B2之间的参数。对于所有卷积层，步长为1。为了保持特征图的分辨率，我们将内核大小为3× 3的过滤器的pad设置为1SPG-C由两个内核大小为3× 3的卷积层和一个内核大小为1× 1的输出卷积层组成SPG-B和SPG-C中的所有分支我们在ILSVRC上使用预训练的权重[22]。按照基线方法[26，44]，输入图像在重新整形为256× 256的大小后被随机裁剪为224×在测试过程中，我们直接将输入图像调整为224× 224。对于分类结果，我们将softmax层的类得分与10个裁剪（4个角加中心，与水平翻转相同）进行平均。我们使用PyTorch实现网络。我们在ILSVRC上以0.001的初始学习率（对于添加的层为0.01）对网络进行微调，并且在每个历元之后将其减少10倍。批量为30，重量衰减为0.0005。SGD优化器的动量设置为0.9。我们随机抽取一些图像并可视化它们的定位图。我们调整δh以挖掘对象种子。对象种子应包括尽可能多的对象像素，同时排除背景像素。类似地，可以调整δ1，使得背景种子应该尽可能大，同时排除对象区域。我们选择B1的参数为δ h= 0。5和δ 1= 0。05，B2的参数为δ h=0。7和δ 1= 0。1.我们在具有11GB内存的NVIDIAGeForce TITAN 1080TiGPU代码可在https://github.com/xiaomengyc/SPG上获得。4实验4.1实验装置数据集和评估我们评估了所提出的方法的Top-1和Top-5定位精度。我们主要比较我们的方法与其他弱监督目标定位9表1. ILSVRC验证集上的定位误差（* 表示仅使用具有高分的预测来改善前5名性能的方法）。方法Top-1错误前五错误[24]第二十四话61.1251.46[24]第二十四话61.3150.55AlexNet-GAP [44]67.1952.16VGGnet-GAP [44]57.2045.14[44]第四十四话56.4043.00[26]第二十六话54.53-VGGnet-ACoL [43]54.1740.57[43]第四十三话53.2842.58SPG平原53.7141.81SPG51.4040.00SPG*51.4035.05ILSVRC 2016数据集上的基线方法，因为它有1，000个类别的120多万张图像用于训练。我们报告了50，000张图像的验证集的准确性我们还在鸟类数据集CUB-200- 2011上测试了我们的算法[31]。CUB-200-2011包含200个类别的11，788张图像，其中5，994张用于训练，5，794张用于测试。我们利用[22]建议的本地化度量。如果1）图像具有图像标签的正确预测，则图像具有正确预测的边界框; 2）并且其预测的边界框与地面实况框具有超过50%的重叠。表2. CUB-200-2011测试集上的定位错误（* 表示仅使用高分预测来提高前5名性能的方法）。方法Top-1错误前五错误[44]第四十四话59.00-ACoL [43]54.0843.49SPG平原56.3346.47SPG53.3642.28SPG*53.3640.624.2与最新技术水平的我们比较了所提出的SPG方法与ILSVRC验证集和CUB-200-2011测试集上的最先进的方法本地化：表1示出了ILSVRC值集上的各种基线算法的定位误差。我们观察到，我们的基线SPG平面模型实现了Top-1和Top-5定位误差的53.71和41.81。基于SPG-平面网络，SPG策略进一步将定位误差减小到10Xiaolin Zhang等。表3. ILSVRC验证集上的定位/分类错误，具有最新技术水平的分类结果。方法Top-1错误前五错误GoogLeNet-SPG-ResNet-50GoogLeNet-SPG-ResNet-15248.79/26.2248.15/24.9047.92/24.3938.93/8.4738.55/7.8038.53/7.59GoogLeNet-SPG-DPN-9245.06/17.7037.32/3.83GoogLeNet-SPG-DPN-9844.92/17.4237.34/3.67GoogLeNet-SPG-DPN-13144.81/17.0837.24/3.42GoogLeNet-SPG-DPN-ensemble43.83/15.4736.78/2.70GoogLeNet-SPG-DPN-集成 *43.83/15.4729.36/2.70Top-1 51.40和Top-5 40.00。我们在表2中示出了CUB-200-2011上的结果，SPG方法实现了Top-1 53.36%的定位误差ILSVRC和CUB的结果都优于最先进的方法ACoL [43]，后者应用两个分类器分支来发现互补的对象区域。遵循基线方法[43，44]，我们通过重复使用具有高分类分数的预测边界框来提高Top-5定位误差我们从第一和第二预测类中选择两个边界框，从第三类中选择一个边界框。通过这种方式，ILSVRC上的Top-5定位误差（用综上所述，平面网络的改进主要归功于Inception-v3网络的结构，它可以捕获更大的对象区域。SPG网络的改进归功于辅助监测的使用SPG可以鼓励分类网络学习更多的像素级相关性，因此，定位性能提高。由于定位重叠的计算仅在具有正确的图像级标签预测的图像上进行，因此定位性能受到分类精度的限制为了打破这种限制，我们通过将我们的定位结果与最先进的分类结果（即ResNet [7]和DPN [2]）相结合来进一步提高定位性能。如表3所示，随着分类结果变得更好，定位性能不断提高。当我们使用集成DPN方法（DPN-92，DPN-98和DPN-131的集成）的分类结果时，其具有非常低的分类误差Top-115.47%和Top-5 2.70%，定位误差降低到Top-1 43.83%和Top-529.36%。图3显示了ILSVRC和CUB-200-2011上我们提出的方法可以突出几乎整个对象区域，并产生精确的边界框。图4可视化了在生成自产指南时多个分支的输出。利用从分类网络生成的注意力图来产生前景和背景的种子。我们可以观察到种子通常覆盖对象和背景像素的小区域。然后将所产生的种子掩模（掩模-A）用作用于以下步骤的监督：弱监督目标定位11(a) ILSVRC（b）CUB-200-2011图三. ILSVRC和CUB-200-2011上SPG的注意力图和预测边界框的图示。预测的边界框为绿色，地面实况框为红色。最好用彩色观看。bbox关注bbox关注bbox关注bbox关注12Xiaolin Zhang et al.定位映射面罩-ASPG-B2SPG-B1SPG-C见图4。所提出的SPG方法的输出图。定位图通常仅突出显示对象的小区域。我们通过将定位图的置信区域分割为前景（白色）和背景（黑色）来提取自制引导的种子，并且忽略左侧区域（灰色）。这些种子被应用作为监督，以学习更好的自制指导地图。最后，利用学习的地图来鼓励网络提高定位地图的质量弱监督目标定位13表4.ILSVRC验证数据的本地化错误（带有真实标签）。方法GT-已知位置错误。AlexNet-GAP [44]45.01[26]第二十六话41.26[44]第四十四话42.98[26]第二十六话39.67[44]第四十四话41.34[26]第二十六话39.43德康[39]41.60反馈意见[1]38.80MWP [41]38.70ACoL [43]37.04SPG平原37.32SPG35.31B2分支。利用这样的监督信息，B2可以学习前景和背景像素的更一致的图案，并且精确地预测在掩模A中未定义的剩余前景/背景区域B1利用较低级别的特征图和来自B2的监督来学习更详细的区域。最后，通过融合B1和B2的两个输出来获得自制制导该指导被用作辅助监督，以鼓励分类网络更好地学习注意力图。4.3消融研究定位精度作为对局部计算的计算，网络的性能受到网络负载的影响。我们使用地面实况标签来比较定位性能，以消除由分类准确度引起的影响。如表4所示，所提出的SPG优于其他方法。SPG-plain的Top-1误差为37.32%，优于其他基线方法。在辅助监督的辅助下，使用地面真实值标签的定位误差降低到35.31%.这揭示了由我们的方法生成的注意力地图的优越性，并表明所提出的自制指导地图可以成功地鼓励网络学习更好的对象区域。级联学习策略的效果在所提出的方法中，我们学习自制的指导地图在两个阶段的方式。分支B2由来自SPG-A的定位图生成的引导图监督，而分支B1由来自B2的输出的自产引导为了验证这种两阶段方法的有效性因此，当提供地面实况分类标签时，我们获得了35.58%因此，我们可以得出结论，SPG-B中使用的两阶段结构有助于生成更好的自制制导图，并且它对于生成更好的制导图更有效。14Xiaolin Zhang et al.注意力地图此外，我们发现共享B1和B2的第二层和第三层是有帮助的。通过移除共享设置，定位错误率将从35.31%增加到36.31%。辅助监督我们建议使用自制的指导地图作为像素级辅助监督，以鼓励分类网络使用SPG-C学习更好的定位地图。因此，我们移除SPG-C以测试SPG-C是否影响分类网络。删除SPG-C后，性能变得更差，在提供地面真实标签时，ILSVRC验证集上的Top-1错误率为36.06%。这表明，所提出的自制的指导地图是有效的，以提高定位地图的质量，通过添加辅助监督与SPG-C。值得注意的是，仅使用SPG-B的本地化性能仍然优于普通版本。因此，SPG-B中的分支也有助于提高定位精度。5结论在本文中，我们提出了自我生产的指导方法定位目标对象区域只给出图像级标签。所提出的方法可以生成高质量的自制指导地图，鼓励分类网络学习像素级的相关性。因此，网络可以检测更多的目标区域进行定位。大量的实验表明，该方法可以检测到更多的目标区域，并优于最先进的定位方法。确认张晓琳（第201606180026）部分由中国学校理事会支持这项工作得到了IBM-ILLINOIS认知计算系统研究中心（C3 SR）的部分支持，该研究合作是IBM AI Horizons Network的一部分。我们感谢数据决定CRC（D2D CRC）和合作研究中心计划资助这项研究。引用1. Cao，C.，Liu，X.，中国科学院院士，杨，Y.，Yu，Y.，王杰，王志，黄，Y.，Wang，L.，美国，黄，C.，徐伟，等：仔细看，三思而后行：用反馈卷积神经网络捕获自上而下的视觉注意力。In：Proceedings of theIEEEInternatalConferenceonComuterVison. pp. 29562. 陈玉，李杰，Xiao，H.，Jin X Yan，S.，Feng，J.：双路径网络。arXiv预印本arXiv：1707.01629（2017）3. 郑，B.，魏，Y.，施，H.，费里斯河Xiong，J.，黄T：重温rcnn：论快速rcnn分类能力的觉醒。In：ECCV（2018）弱监督目标定位154. Diba，A.，Sharma，V. Pazandeh，A.，Pirsiavash，H.，Van Gool，L.：弱监督级联卷积网络。ArXiv预印本（2017）5. 董X Meng，D.，Ma，F.，Yang，Y.：弱监督目标检测的双网络渐进方法。在：ACM多媒体（2017）6. 董X郑湖，Ma，F.，杨，Y.，Meng，D.：具有模型通信的少示例对象检测。arXiv预印本arXiv：1706.08249（2017）7. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习在：IEEE计算机视觉和模式识别会议论文集。pp. 7708. 他S焦，J.，张，X.，Han，G.，刘荣文：深入研究显着对象subitizing和检测。 2017 年 IEEE 计算机视觉国际会议（ ICCV ）。 pp. 1059IEEE（2017）9. Hou，Q.，郑女士Hu，X.，Borji，A.，Tu，Z.，Torr，P.：具有短连接的深度监督显著对象检测。 In ： Computer Vision and Pattern Recognition（CVPR），2017IEEEConferenceon. pp. 5300-5309 IEEE（2017）10. 江，H.，王杰，Yuan，Z.，吴，Y.，郑，N.，李S：显著对象检测：Discriminativeg inalfategr atinapr oach. In：IEEECVPR. pp. （2013年11. 杰，Z.魏，Y.，Jin X冯杰，刘伟：用于弱监督对象定位的深度自学学习。In：IEEE CVPR（2018）12. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：具有深度卷积神经网络任务的图像网分类。 In：NIPS. pp. 109713. 梁湘，Liu，S.，魏，Y.，刘，L.，林，L.，Yan，S.：关于计算婴儿学习：一种弱监督的目标检测方法。In：IEEE ICCV. pp. 99914. Lin，M.，陈昆，Yan，S.：网络中的网络ICLR（2013年）15. 林， T. 是的，做吧， PGir shi ck ， R. ， He ， K. ， Hariharan ， B.Belongie，S. ：用于对象检测的Fetur金字塔网络。在：CVPR中。第1卷，第4页（2017年）16. 刘伟，Anguelov，D.，Erhan，D.，塞格迪角Reed，S.，Fu，C.Y.，Berg，A.C.：Ssd：单发多盒探测器。在：欧洲计算机视觉会议。pp. 21-37 第201章：一个人的世界17. 朗J Shelhamer，E.，达雷尔，T.：用于语义分段的全卷积网络。In：IEEE CVPR（2015）18. Luo，Y.，（1996年），美国，Guan，T.，潘，H.，王玉，Yu，J.：使用多平面城市模型的移动终端的精确定位 In ： Pattern Recognition（ICPR），2016 23rdInternatio nalCo nfere nceo n.pp. 3733IEEE（2016）19. Luo，Y.，（1996年），美国，Zheng，Z.，郑湖，Tao，G.，俊青，Y.，Yang，Y.：用于人类解析的宏-微对抗网络。In：ECCV（2018）20. Redmon，J.，Divvala，S.，格尔希克河Farhadi，A.：你只看一次：统一的实时物体检测。在： ProceedingsoftheIEEEconferenceoncomputervisionandpat ter nregni t ition中。pp. 77921. Ren，S.，他，K.，格尔希克河孙杰：Faster r-cnn：Towards real-timeobject detec- tion with region proposal networks.神经信息处理系统进展。pp.9122. Russakovsky，O.，Deng，J.，Su，H.，Krause，J.，Satheesh，S.，妈妈，S.，黄志，Karpathy，A.，Khosla，A.Bernstein，M.Berg，A.C.，李菲菲：ImageNet大规模视觉识别挑战。International Journal of ComputerVision（IJCV）115（3），211 http：//doi. org/10。1007/s11263-0 1 5-0816-y23. Sermanet，P.，Eigen，D.张，X.，Mathieu，M.，费格斯河LeCun，Y.：Overfeat：使用卷积网络集成识别、定位和检测。学习表征国际会议（2014）16Xiaolin Zhang et al.24. 西蒙尼扬，K.，Vedaldi，A.，齐瑟曼，A.：深入卷积网络内部：可视化图像分类模型和显着图。arXiv预印本arXiv：1312.6034（2013）25. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。学习表征国际会议（2015）26. Singh，K.K.，Lee，Y.J.：捉迷藏：迫使网络对弱监督的对象和动作定位进行细致的处理。arXiv预印本arXiv：1704.04232（2017）27. 塞格迪角刘伟，Jia，Y.，Sermanet，P.，Reed，S.，Anguelov，D.，Erhan，D.，Vanhoucke，V.，Rabinovich，A.：更深的回旋。ArXiv预印本arXiv：1409.4842（2014）28. 塞格迪角刘伟，Jia，Y.，Sermanet，P.，Reed，S.，Anguelov，D.，Erhan，D.，Vanhoucke，V.，Rabinovich，A.：更深的回旋。In：IEEE CVPR. pp. 129. 塞格迪角Vanhoucke，V.，Ioffe，S.，Shlens，J.，Wojna，Z.：重新思考计算机视觉的接收架构。 In ： Proceedings of the IEEE Conference on C 〇mputerVis i sinandPater nRec 〇 gnit i tin. pp. 281830. Uijlings，J.R.，van de Sande，K.E.，Gevers，T. Smeulders，A.W.：选择性地搜索块记录。IJCV104（2），15431. Wah，C.，Branson，S.，Welinder，P. Perona，P.，Belongie，S.：Caltech-UCSD 鸟类 -200 -2011 数据集。 Tech. Rep. CNS-TR-2011-001 ， CaliforniaInstitute of Technology（2011）32. 魏，Y.，冯杰，梁湘，郑女士赵玉，Yan，S.：具有对抗性擦除的对象区域挖掘：对语义分割方法的简单分类In：IEEE CVPR（2018）33. 魏，Y.，梁湘，陈玉，杰，Z.肖，Y.，赵玉，Yan，S.：学习使用图像级注释进行分割。模式识别（2016）34. 魏，Y.，梁湘，陈玉，沈，X.，郑女士冯杰，赵玉，Yan，S.：Stc：一个从简单到复杂的框架，用于弱监督语义分割。IEEE TPAMI（2016）35. 魏，Y.，沈志，郑，B.，施，H.，Xiong，J.，冯杰，黄T：Ts2c：用于弱监督对象检测的周围分割上下文的紧盒挖掘。In：ECCV（2018）36. 魏，Y.，Xiao，H.，施，H.，杰，Z.冯杰，Huang，T.S.：回顾扩张性卷积：弱监督和半监督语义分割的简单方法。In：IE E ECVPR. pp. 726837. Xiao，H.，魏，Y.，Liu，Y.，张，M.，Feng，J.：可转移的半监督语义分割。In：AAAI（2018）38. Xie ， S. ，图， Z. ：整体嵌套边缘检测。 In ： Proceedings of the IEEEiintérnationalconferenceoncommputeri sision. pp. 139539. Zeiler ，医学博士， Fergus ， R. ：可视化和理解卷积网络。 In ：Europeanconferenceoncommputtervision. pp. 818-833 02TheDog（2014）40. 张洪，Kyaw，Z.，余，J.，Chang，S.F.：Ppr-fcn：通过并行成对r-fcn进行弱监督视觉关系检测In：IEEE ICCV（2017）41. 张杰，林芝，Brandt，J.，沈，X.，Scaroff，S.：自上而下的神经注意力。 In ： E uropea nCo nfere nceo nCom u p uterViso n 。 pp. 543Springer（2016）42. 张，Q，焦，J.，曹玉，刘荣文：任务驱动的网页显著性。In：ECCV（2018）43. 张，X.，魏，Y.，冯杰，杨，Y.，黄T：弱监督目标定位的对抗互补学习。In：IEEE CVPR（2018）弱监督目标定位1744. Zhou，B.，（1991年），中国地质大学，Khosla，A.一、L.，Oliv

下载后可阅读完整内容，剩余1页未读，立即下载