弱监督目标定位的分为两部分：类不可知的对象定位和对象分类

25 浏览量更新于2023-10-25 收藏 840KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1重新思考弱监督对象定位南京大学软件新技术国家重点实验室{zhangcl，caoyh}@ lamda.nju.edu.cn，wujx2001@nju.edu.cn摘要弱监督对象定位（WSOL）旨在定位仅具有图像级标签的对象。以前的方法通常尝试利用特征图和分类权重来间接地使用图像级注释来定位对象。在本文中，我们证明了弱监督目标定位应分为两部分：类不可知的对象定位和对象分类。对于类无关的对象定位，我们应该使用类无关的方法来生成噪声伪注释，然后在没有类标签的情况下对它们执行边界框回归。我们提出了伪监督目标定位（PSOL）方法作为一种新的方法来解决WSOL。我们的PSOL模型在不同数据集之间具有良好的可移植性，无需微调。使用生成的伪边界框，我们在ImageNet上实现了58.00%的定位准确率，在CUB-200上实现了74.97%的定位准确率，与以前的模型相比具有很大的优势1. 介绍深度卷积神经网络在各种计算机视觉任务中取得了然而，当前的深度学习模型需要大量准确的标注，包括图像级标签、位置级标签（边界框和关键点）和像素级标签（用于语义分割的每像素类标签）。许多大规模数据集被提出来解决这个问题[15，10，3]。然而，由于源域和目标域之间的差异，在这些大规模数据集上预训练的模型为了放宽这些限制，弱监督方法被提出。弱监督方法尝试仅使用图像级标签来执行检测、定位和分割任务，这相对容易且便宜。国家自然科学基金部分资助项目J. Wu是通讯作者。获得。在这些任务中，弱监督对象定位（WSOL）是最实用的任务，因为它只需要定位具有给定类标签的对象。这些WSOL方法中的大多数试图增强分类模型的本地化能力，以使用类激活图（CAM）[30]执行WSOL任务[19，28，29，2，27然而，在本文中，通过消融研究和实验，我们证明了WSOL的本地化部分应该是类不可知的，这是不相关的分类标签。基于这些观察结果，我们提出了一种范式转变，将WSOL分为两个独立的子任务：类不可知的对象定位和对象分类。我们的方法的整体流水线在图中。1.一、我们将这种新型管道命名为伪监督对象定位（PSOL）。我们首先基于类不可知方法深度描述符变换（DDT）生成伪地面实况边界框[26]。通过对这些生成的边界框执行边界框回归，我们的方法消除了对大多数WSOL模型的限制，包括仅允许一个完全连接的层作为分类权重的限制[30]以及分类和局部化之间的困境[19，2]。我们在ImageNet-1 k [15]和CUB-200 [25]上实现了最先进的性能，结合了这两个独立子任务的结果，获得了比以前的 WSOL 模型更大的优势利用最近EfficientNet [22]模型的分类结果，我们在ImageNet-1 k上实现了58.00%的Top-1定位精度，这显著优于以前的方法。我们将我们的贡献总结如下。• 我们表明，弱监督对象定位应分为两个独立的子任务：类不可知的对象本地化和对象类-化我们提出PSOL来解决以前的WSOL方法的缺点和问题。• 虽然生成的边界框是嘈杂的，我们认为，我们应该直接优化他们没有使用- ing类标签。与拟议的PSOL，我们实现1346013461WSOL输入图像Conv层公鸡PSOL输入图像Conv层培训类不可知生成伪包围盒公鸡分类器回归器输入图像Conv层图1：以前的WSOL方法（顶部）和我们提出的PSOL（底部）的整体管道。以前的WSOL方法需要最终的特征图来隐式地生成边界框。然而，PSOL首先使用类不可知的方法生成不准确的边界框，然后执行边界框回归来显式预测边界框。ImageNet-1 k上的Top-1 定位准确率为58.00%，CUB-200上的Top-1定位准确率为74.97%，远远超出了之前的最先进水平。• 我们的PSOL方法在不同数据集之间具有良好的本地化可移植性，无需任何微调，这明显优于以前的WSOL模型2. 相关作品卷积神经网络（CNN）自AlexNet [8]成功以来，已广泛应用于计算机视觉的许多领域，包括对象定位和对象检测任务。在本节中，我们将简要回顾完全监督和弱监督的检测和定位。2.1. 完全监督的方法在AlexNet [8]成功之后，研究人员试图采用CNN进行对象定位和检测。开创性的工作OverFeat [17]试图使用滑动窗口和多尺度技术在单个网络中进行分类，定位和检测。VGG-Net [18]增加了每类回归和模型集成，以增强定位的预测结果。对象检测是另一个可以同时生成绑定框和标签的任务R-CNN [5]和Fast-RCNN [4]使用选择性搜索[24]来生成候选区域，然后使用CNN对其进行分类。更快-RCNN [14]提出了一个两阶段网络：该地区建议网络（RPN）用于生成感兴趣区域（ROI），然后R-CNN模块对它们进行分类并将区域中的对象局部化。这些流行的两阶段检测器被广泛用于检测任务。YOLO [13]和SSD [11]是具有精心设计的网络结构和锚点的单级检测器。最近，提出了一些无锚检测器来缓解CornerNet [9]和CenterNet [31]等常见检测器中的锚问题。然而，所有这些方法都需要大量、详细和准确的注释。现实任务中的注释是昂贵的，有时甚至很难获得。因此，我们需要一些其他的方法来执行对象定位任务，而不需要许多精确的标签。2.2. 弱监督方法弱监督对象定位（WSOL）学习仅使用图像级标签定位对象。它更有吸引力，因为图像级标签比对象级标签更容易弱监督检测（WSOD）试图在训练图像只有图像级标签的情况下同时给出目标的位置WSOL假设整个图像中只有一个特定类别的对象基于这一假设，人们提出了许多方法来提高WSOL的极限。[30]首先生成具有全局平均池化层和最终全连接层（分类器的权重）的类激活图。Grad-CAM [16]使用gra-tools而不是输出功能来生成更准确的类响应图。除了这些方法，热图特征图分类器13462在改进类响应图方面，一些其他方法试图使分类模型更适合于本地化任务。HaS [19]试图随机删除输入图像中的一些区域，以迫使网络对WSOL进行细致的处理。ACoL [28]使用两个具有动态擦除和对抗学习的并行分类器SPG [29]生成自生成引导掩码以定位整个对象。ADL [2]提出了重要性图和丢弃掩码，并采用随机选择机制来实现分类和定位之间的WSOD 没有一个类约束中的一个对象。然而，WSOD通常需要生成区域建议的方法，如选择性搜索[24]和边缘框[32]，这将花费大量计算资源和时间。此外，当前的WSOD检测器使用高分辨率输入来输出边界框，导致沉重的计算负担。因此，大多数WSOD方法难以应用于大规模数据集。3. 方法在本节中，我们将主要讨论当前WSOL管道的缺点，并提出我们的伪监督对象定位（PSOL）。3.1. 从WSOL到PSOL的范式转变目前的WSOL方法可以生成带有给定类标签的包围盒。然而，社会已经确定了这条管道的严重缺陷。• 学习目标是间接的，这将损害模型在本地化任务上的性能。[19]当只有一个CNN模型时，可以进行分类定位试图定位整个对象，而分类试图对对象进行分类。分类模型通常试图仅定位图像中对象的最有区别的部分。• 离线CAM [30]具有阈值参数，需要存储三维特征图，进一步计算。阈值是棘手的，很难确定。这些缺点使得WSOL很难应用到实际应用中.在选择性搜索[ 24 ]和Faster-RCNN [ 14 ]中生成感兴趣区域（ROI）的类不可知过程的鼓励下，我们将WSOL分为两个子任务：类不可知的对象定位和对象分类。基于这两个子任务，我们提出了我们的PSOL方法。PSOL直接优化显式生成的伪地面实况边界框上的定位模型。因此，它消除了所示的限制和缺点算法1伪监督对象定位输入：具有类别标签Ltr的训练图像Itr输出：测试图像Ite上的预测边界框bte和类别标签Lte1：在Itr上生成伪边界框xesboundarytr2：使用Bloc tr在Itr上训练本地化CNNFloc3：使用Ltr在Itr上训练分类CNNFcls4：使用Floc在Ite上预测bte5：使用Fcls预测Ite上的6：返回：bte，Lte在以前的WSOL方法中，它是WSOL的范式转变。3.2. PSOL方法我们的PSOL的一般框架在算法1中。我们将逐步介绍我们的PSOL。我们将在第3.2.1节讨论生成伪地面实况边界框的细节，然后在第3.2.2节讨论我们的模型中使用的定位方法对于分类方法，我们直接使用计算机视觉社区中的预训练模型。3.2.1边界框生成WSOL和我们的PSOL之间的关键区别是生成用于训练图像的伪边界框。检测是这项任务的自然选择，因为检测模型可以直接提供边界框和类。然而，检测中最大的数据集只有80个类[10]，它无法为ImageNet-1 k等具有许多类的数据集提供通用的对象定位器。此外，像Faster-RCNN [14]这样的当前检测器需要大量的计算资源和大的输入图像大小（如测试时的短边=600）。这些问题阻碍了检测模型应用于大规模数据集上的生成边界框。在没有检测模型的情况下，我们可以尝试一些定位方法来直接输出训练图像的边界框。一些弱监督和协同监督方法会产生噪声包围盒，我们将对它们进行简要WSOL方法。现有的WSOL方法通常遵循此管道来生成图像的边界框。首先将图像I输入网络F，然后生成最终的特征图（通常是最后一个卷积层的输出）G：G ∈ Rh×w×d= F（I），其中h，w，d是最终特征图的高度，宽度和深度。然后，在全局平均池化和最终完全连接之后，层，产生标签Lpred。根据预测标签Lpred或地面真值标签Lgt，我们可以得到最终全连接层13463wihihiwiW∈Rd. 则G的每个空间位置是通道式的加权并求和，以获得最终的热图HFcls和Floc可以集成到一个模型中，该模型与分类标签联合训练并生成具体类别：Hi、jΣdk=1 Gi，j，kW k. 最后，H上升了-边界框然而，我们将通过经验证明，采样到原始输入大小，阈值为ap。生成最终的边界框。滴滴涕概述。一些协同监督方法在定位任务上也有很好的性能。在这些协同监督方法中，DDT具有良好的性能和较小的计算资源需求。所以我们用DDT [26]作为例子。这里是一个简短的回顾滴滴涕。给定一组图像S，其中有n个图像，其中每个图像I∈S具有相同的标签，或包含图像中的相同对象使用预训练的模型F ，还生成最终的特征图：G∈Rhw×d=Rhw×d=F（I）.然后，这些特征图被聚集在一起成为一个大的特征集：Gall∈Rn×hw×d=Rnhw×d。沿深度维度应用主成分分析（PCA）[12]。Af-在PCA过程之后，我们可以得到具有最大特征值的特征向量P。然后，对G的每个空间位置进行通道加权和求和以获得最终热图本地化和分类模型应该分开。4. 实验4.1. 实验设置数据集。我们在两个常见的WSOL数据集上评估我们提出的方法：ImageNet-1 k [15]和CUB- 200 [25]。ImageNet-1 k数据集是一个包含1000个类的大型数据集，包含1，281，197个训练图像和50，000个验证图像。对于训练图像，边界框注释是不完整的，而对于验证图像，边界框标签是完整的。在本文中，我们不使用任何准确的训练边界框注释。在我们的实验中，我们生成的训练图像上的伪包围盒由以前的方法。详细消融研究见第5.1节。我们在生成的边界框注释和分类标签上训练所有模型，H：Hi、jΣdk=1 Gi，j，kPk. 然后H被上采样到在验证数据集上测试它们。原始输入大小。零阈值和最大连接应用分量分析来生成最终的边界框。我们将使用WSOL方法和DDT方法生成伪边界框，并评估它们的适用性。4.1.1定位方法在生成边界框之后，我们为每个训练图像添加了（伪）边界框注释然后，它是自然的执行对象定位与这些生成框。如前所述，检测模型太重，无法处理此任务。因此，执行边界框回归是很自然的以前的完全监督工作[18，17]提出了两种边界框回归方法：单类回归（SCR）和逐类回归（PCR）。PCR与类别标签密切相关。由于我们主张本地化是一个类不可知的，而不是一个类意识的任务，我们选择SCR为我们所有的实验。我们遵循以前的工作来执行边界框回归[18]。假设边界框是x，y，w，h格式，其中x，y是边界框的左上角坐标，w，h分别是边界框的宽度和高度。我们首先将x，y，w，h转换为x，y，w，h，其中x=x，y=y，w=w，h=对于CUB-200数据集，它包含200种鸟类，5,994张训练图像和5,794张测试图像。数据集中的每个图像都有一个精确的边界框和符号。我们遵循ImageNet-1 k上的策略来训练和测试模型。指标. 我们使用三个指标来评估我们的模型：Top-1/Top-5定位准确度（Top-1/Top-5 Loc）和已知地面实况类的定位准确度（GT-已知Loc）。他们遵循先前最先进的方法[30，2]：当给定模型的地面真值类时，GT已知Loc当Top-1分类结果和GT-已知位置都正确时，Top-1位置Top-5 Loc是正确的，当给定地面实况标签和边界框的Top-5预测时，存在分类结果和定位结果都正确的一个预测基本模型。我们准备了几个基线模型来评估我们在本地化任务中的方法： VGG16 [18] 、 InceptionV3[21]、ResNet50 [6]和DenseNet161 [7]。先前的方法试图扩大特征图的空间分辨率[28，29，2]，我们在PSOL模型中没有使用这种技术。以前的WSOL方法需要分类权重将3D特征图转换为2D空间热图。但是，在PSOL中，我们不需要fea-h，并且wi和hi分别是输入图像的宽度和高度。我们使用具有两个完全连接的层和相应的ReLU层的子网络进行回归。最后，输出被sigmoid激活。我们使用均方误差损失（mean squared error loss，简写为m2 loss）来进行回归。算法1中的步骤2和步骤3可以合并，即，我们的模型将直接输出用于对象定位的边界框。为了公平比较，我们将VGG 16修改为两个版本：VGG-GAP和VGG 16。VGG-GAP将VGG 16中的所有全连接层替换为GAP和单个全连接层，并且VGG 16保持VGG16中的原始结构为==13464其他模型，我们保持每个模型的原始结构对于回归，我们使用具有相应ReLU层的双层全连接网络来替换原始网络中的最后一层，如第3.2.2节所示。联合和单独优化在前一节中，我们讨论了分类和本地化任务的联合优化问题为了消除这个问题，我们为每个基础模型准备了几个模型。对于联合优化模型，我们在模型中添加了一个新的边界框回归分支（-Jointmodels），然后同时使用生成的边界框和类标签来训练这个模型对于单独的优化模型，我们将分类部分替换为回归部分（-Sep模型），然后分别训练这两个模型，即，局部化模型仅用生成的边界框来训练，而分类模型仅用类别标签来训练所有模型的超参数保持不变。4.2.实现细节我们使用PyTorch框架和TitanX Pascal GPU支持。对于所有模型，我们在ImageNet-1 k上使用预训练的分类权重，并对目标定位和分类任务进行微调对于ImageNet-1 k上的实验，所有模型的超参数都设置为相同：批量大小256，0.0005重量衰减和0.9动量。我们将微调所有模型，初始学习率为0.001。由于随机初始化，添加的组件（如回归子网络）将具有更大的学习率。我们在ImageNet上训练6个epoch，在CUB-200上训练30个epoch。对于仅本地化的任务，我们在所有eppochs中保持学习率固定其原因是DDT生成的包围盒噪声较大，包含许多不准确甚至不符合要求的错误包围盒。[23]中的结论表明，对于噪声数据，我们应该保持较大的学习率。对于分类相关的任务（包括单一分类和联合分类和定位任务），我们在ImageNet/CUB- 200上每2/10 epoch将学习率除以10。对于测试模型，我们在ImageNet上使用10个作物增强来输出ImageNet上[28]和[29]之后的最终分类结果以及CUB200上的单个作物分类结果，并为我们所有的本地化结果使用单个图像输入。我们使用中心作物技术为了得到图像输入，例如，调整大小为256×256，然后中心裁剪为224×224，除了InceptionV3（调整大小为320 × 320，然后中心裁剪为299×299），按照[2，27]中的设置。对于最先进的分类模式-els，我们也遵循他们论文中的输入大小，例如，EfficientNet-B7为600以前的WSOL方法可以为具有不同标签的单个图像提供多个框。然而，我们的SCR模型只能提供一个边界框输出，表1：各种弱监督和协同监督定位（DDT）方法在ImageNet-1 k验证数据集上的GT-已知Loc模型ImageNet-1k Cub-200VGG16-CAM [30]59.0057.96[28]第二十八话62.9659.30SPG [29]64.6960.50[26]第二十六话59.9272.39DDT-VGG 16 [26]61.4184.55[26]第二十六话51.8751.80[26]第二十六话61.9278.09每个图像。因此，我们将输出边界框与基线模型（-Sep模型）的Top-1/Top-5分类输出或与分类分支（-Joint模型）的输出相结合，以获得最终输出，从而在测试图像上进行评估。对于CUB-200上的实验，我们将批量大小从256更改为64，并保持其他超参数与ImageNet-1 k相同。5. 结果和分析在本节中，我们将提供实证结果，并对其进行详细分析。5.1. 伪包围盒以前的WSOL方法可以生成具有给定地面真实标签的边界框。一些协同定位方法还可以提供具有给定类别标签的边界框。由于ImageNet-1 k训练图像中缺少一些注释，我们在ImageNet-1 k和CUB-200的验证/测试集上测试这些方法，以选择更好的方法来生成PSOL的伪边界框关于DDT该方法首先将训练图像的分辨率调整为448×448，然后对训练图像进行DDT。根据在训练图像上收集的统计数据，我们在测试图像上生成具有正确类别标签的边界框。对于其他WSOL方法，我们遵循原始在他们的论文中的说明，并使用预先训练的模型，以正确的类标签生成验证/测试图像上的边界框我们在表1中列出了DDT的GT已知位置和弱监督定位方法。如表1所示，DDT在ImageNet-1 k上实现了与WSOL方法相当的结果，但在CUB-200上实现了比所有WSOL方法更好的性能。CUB- 200上的DDT结果表明，对象定位不应该与分类标签相关。此外，这些WSOL方法需要大量的计算资源，例如，存储每幅图像的特征图，然后进行离线CAM操作，13465表2：CUB-200和ImageNet-1 k上的经验定位精度结果。论文的第一列显示模型名称，第二列显示每个模型的主干网络参数编号和FLOP显示在第三和第四列中。接下来的四列显示了CUB-200和ImageNet-1 k的Top-1/Top-5 Loc精度。最后一列说明了ImageNet-1 k上的GT已知位置精度。对于DDT和我们的-Sep模型，我们将它们的定位结果与基线模型的分类结果相结合。对于FLOPs计算，我们仅将卷积运算计算为FLOPs，并使用ImageNet上的网络作为计数示例。在相同的骨干网中，粗体的结果最好。模型骨干参数FLOPsCub-200ImageNet-1kTop-1位置Top-5位置Top-1位置Top-5位置GT-已知位置VGG16-CAM [30]VGG-GAP14.82M 15.35G36.13-42.8054.8659.00[28]第二十八话VGG-GAP45.08M 43.32G45.9256.5145.8359.4362.96ADL [2]VGG-GAP14.82M 15.35G52.36-44.92--VGG16-Grad-CAMVGG16138.36M 15.42G--43.4953.59-[27]第二十七话VGG-GAP138.36M 15.35G52.53-43.45--DDT-VGG 16 [26]VGG16138.36M 15.42G62.3078.1547.3158.2361.41PSOL-VGG 16 - 9月VGG16274.72M 30.83G66.3084.0550.8960.9064.03PSOL-VGG 16-接头VGG16140.46M 15.42G60.0775.3548.8359.0062.1PSOL-VGG-GAP-SepVGG-GAP29.64M 30.70G59.2974.8848.3658.7563.72PSOL-VGG-间隙接头VGG-GAP15.08M 15.35G58.3972.6447.3758.4162.25SPG [29]InceptionV338.45M 66.59G46.6457.7248.6060.0064.69ADL [2]InceptionV338.45M 66.59G53.04-48.71--PSOL-启动V3 - 9月InceptionV353.32M 11.42G65.5183.4454.8263.2565.21PSOL-InceptionV 3-接头InceptionV329.21M 5.71G60.3278.9852.7661.1062.83ResNet50-CAM [30]ResNet5025.56M 4.10G29.5837.2538.9949.4751.86ADL [2]ResNet50-SE28.09M 6.10G62.29-48.53--[27]第二十七话ResNet5026.61M 4.10G54.81-47.25--PSOL-ResNet 50 - 9月ResNet5050.12M 8.18G70.6886.6453.9863.0865.44PSOL-ResNet 50-接头ResNet5026.61M 4.10G68.1783.6952.8262.0064.30DenseNet161-CAMDenseNet16129.81M 7.80G29.8139.8539.6150.4052.54PSOL-DenseNet161-Sep DenseNet16156.29M 15.46G74.9789.1255.3164.1866.28PSOL-DenseNet 161-接头DenseNet16129.81M 7.80G74.2487.0354.4863.4165.39得到最终的边界框。与这些方法相比，DDT方法计算量小，计算结果可对于DDT的基本模型选择，尽管DDT-DenseNet 161在ImageNet-1 k上的准确度高于基于这些观察结果，我们选择使用VGG16的DDT在PSOL中的训练图像上生成边界框。5.2. 与现有技术方法的在本节中，我们将比较我们的PSOL模型与最先进的WSOL方法：[2019 - 03 - 29][2019 - 03][2019 - 03 -29][2019 - 03][2019 - 0ImageNet-1k。我们在表2中列出了实验结果。此外，我们可视化由CAM [30]，DDT [26]和我们的方法生成的边界框。二、根据这些结果，我们有以下发现。• 在没有任何培训的情况下，DDT已经在CUB-200和 ImageNet 上表现良好。 DDT-VGG 16 实现了47.31%的 Top-1 Loc 准确度，比基于 VGG 16 的WSOL模型由于滴滴涕是一种类不可知的方法，它建议WSOL应分为两个独立的子任务：类无关的对象定位和对象分类。• 所有单独训练的PSOL模型都比联合训练的PSOL模型表现得更好在所有五个基线模型中，-Sep模型的表现始终比-Joint模型好很多。这些结果表明，联合分类和局部学习是有效的。所以不适合calization。•我们所有的PSOL型号都具有较大的优势（大多数与最新技术相比，CUB-200的使用率>5%WSOL方法，包括DDT-VGG 16方法。CUB-200是一个细粒度的数据集，包含许多类别的鸟类。类内变量，13466（a）CUB-200- 2011图2：我们的方法与CAM和DDT的比较请注意，在CAM图中，黄色框是CAM预测框，红色框是地面实况框。在我们的方法图中，蓝色框是DDT生成的框，绿色框是我们的回归模型预测的框，红色框是地面实况框。我们使用DenseNet 161-Sep模型来输出DDT并预测盒子。此图最好以彩色方式查看并放大。在大多数细粒度数据集中，类间变异要大得多[25]。确切的标签可能对本地化过程没有帮助。因此，共定位方法DDT将比以前的WSOL方法表现得更好• CNN能够容忍一些不正确的注释，并在验证集上保持高准确性。对于所有单独的本地化模型，GT已知位置为高于DDT-VGG 16。这种现象表明CNN可以容忍一些注释错误，并从噪声数据中学习鲁棒的模式。• WSOL 中的一些限制和经验法则并不适用于PSOL。在以前的WSOL论文中，只允许有一个最终的全连接层，建议输出特征图的大空间尺寸。许多方法试图删除最后一个下采样卷积层的步幅，这将导致较大的 FLOP （如 SPG 和 VGG 16-ACoL ）。此外，VGG16中的三个全连接层都被移除，这将直接影响精度。然而，在我们的实验中，VGG-Full的表现明显优于VGG-GAP。由于CAM需要GAP和只有一个FC层，当这个限制被删除，VGG16可以得到更好的性能。另一个限制是网络的推理路径。WSOL需要模型中最后一个卷积层的输出不推荐使用DenseNet等复杂网络结构，并且在WSOL问题中表现不佳 [30] 。如表 2 所示， CAM 在DenseNet161上的性能很差。DenseNet将使用每个块的特征，而不仅仅是最后一个特征来进行分类。因此，最后一个特征的语义意义可能不如像ResNet和VGG这样的顺序网络。然而，PSOL-DenseNet模型直接在有噪声的边界框上训练，可以避免这个问题。此外，DenseNet161实现了最佳性能。5.3. 本地化迁移能力在本节中，我们将讨论不同本地化模型的可移植性。以前的弱监督定位模型需要精确的标签来生成边界框，而不管标签的正确性。然而，我们提出的方法不需要标签，直接生成边界框。所以我们感兴趣的是：单目标定位任务可迁移吗？直接在对象定位任务上训练的模型是否像在图像识别任务上训练的模型一样，具有良好的泛化能力？我们进行以下实验。我们采用在ImageNet-1 k上训练的对象定位模型，然后直接在CUB-200测试图像上进行预测，即，无需任何训练或微调过程。我们添加以前的WSOL方法进行公平的比较。由于它们需要精确的标签，我们对所有这些模型进行了微调。对于所有标记为 * 的模型，它们仅使用分类部分（最后一个完全连接的层）进行微调，即，在ImageNet-1 k上学习的功能直接转移到CUB-200。对于没有标记 * 的型号我们采用 VGG-GAP-Sep 模型进行公平比较，采用DenseNet 161-Sep模型进行更好的结果。结果见表3。令人惊讶的是，在没有任何监督的情况下，PSOL对象定位模型可以很好地从ImageNet-1 k转移到CUB-200，其性能明显优于传统的WSOL方法，包括仅微调分类权重的模型（标有 * 的模型），以及微调整个权重的模型。它进一步表明，目标定位不依赖于分类，我们凸轮13467表3：我们的模型在CUB-200和ImageNet-1 k上的传输结果。为了公平比较，我们添加了 VGG-GAP 与CAM，VGG 16-ACoL [28]和SPG [29]用于转移实验。VGG-GAP对所有层进行微调，而VGG-GAP* 仅对最终的全连接层进行微调请注意，在ImageNet-1 k上训练的PSOL模型在CUB-200上没有任何训练或微调过程。模型训练目标GT-已知位置VGG-GAP + CAMCub-200Cub-20057.96VGG-GAP* + CAMImageNetCub-20057.53VGG16-ACoL + CAMCub-200Cub-20059.30VGG16-ACoL* + CAM ImageNetCub-20058.70SPG + CAMCub-200Cub-20060.50SPG* + CAMImageNetCub-20059.70PSOL-VGG-GAP-SepCub-200Cub-20080.45PSOL-VGG-GAP-SepImageNetCub-20089.11PSOL-DenseNet161-SepCub-200Cub-20092.54PSOL-DenseNet161-Sep ImageNetCub-20092.07表4：在ImageNet-1 k上将我们模型的局部化与更先进的分类模型相结合的Top-1和Top-5 Loc结果。模型Top-1 Top-5VGG16-ACoL+DPN13153.94 61.15VGG 16-ACoL+ DPN-系综54.86 61.45SPG + DPN13155.19 62.76SPG + DPN-集成56.17 63.22PSOL-InceptionV3-Sep + DPN13155.72 63.64PSOL-DenseNet161-Sep + DPN13156.59 64.63PSOL-InceptionV3-Sep + EfficientNet-B757.25 64.04PSOL-DenseNet161-Sep + EfficientNet-B7 58.00 65.02而使用类标签执行对象本地化是不必要的此外，它证明了我们的PSOL方法的优势。5.4. 结合最新技术水平分类以前的方法试图将本地化输出与最先进的分类输出相结合，以实现更好的分类效果。表5：将我们的方法与ImageNet-1 k验证数据集上最先进的完全模型监督Top-5位置[30]第三十话弱57.1[30]第30话弱62.9VGG 16 - 9月弱60.9DenseNet161-Sep弱64.2[20]第二十话充分73.3[第17话]充分70.1AlexNet [8]充分65.8VGG 16 [18]充分70.5[18]第十八话充分73.1ResNet + Faster-RCNN-ensemble [14]充分90.0顶级定位精度。5.5. 与完全监督方法的我们还将我们的PSOL与ImageNet-1 k上的完全监督局部化方法进行了完全监督的方法使用ImageNet-1 k中带有精确边界框注释的训练图像来训练模型。结果在表5中。通过边界框回归子网络，我们的DenseNet 161-Sep模型可以粗略地匹配具有Top-5 Loc精度的完全监督的AlexNet然而，我们的性能仍然比完全监督的OverFeat，GoogLeNet和VGGNet差。值得注意的是，ResNet + Faster-RCNN-ensemble [14]实现了最佳的Top-5 Loc精度。该算法将在ILSVRC检测轨迹上训练的区域建议网络直接应用于1000类的定位任务，其中ILSVRC检测轨迹包含200类完全标记的图像区域建议网络在不同类别之间表现出良好的泛化能力，无需微调，表示本地化与分类分离。6. 讨论和结论针对现有弱监督目标定位方法的不足，提出了伪监督目标定位各种实验表明，我们的方法获得了显着的优势，称为定位结果。SPG [29]和ACoL [28]与DPN网络（包括DPN-98、DPN-131和DPN-ensemble [1]）相结合。为了进行公平比较，我们还将其他模型（InceptionV 3和DenseNet 161）的结果与DPN-131进行了合并此外，EfficientNet [22]最近在ImageNet-1 k上取得了我们将本地化输出与EfficientNet-B7结果在表4中。从表中我们可以看到，当结合来自DPN 131 [1]的相同分类结果时，与SPG [29]和ACoL [28此外，当与EfficientNet-B7 [22]结合时，我们可以实现58.00%比以前的方法。此外，我们的PSOL方法在不同数据集之间具有良好的传输能力，无需任何训练或微调。对于未来的工作，我们将尝试深入研究联合分类和定位问题：我们将尝试将这两个任务整合到一个CNN模型中，减少局部化精度下降。另一个方向是尝试用类无关的方法来提高生成边界框的质量。最后，应该找到关于定位问题的新的网络结构或算法，这应该防止当前检测框架中的高输入分辨率和计算资源应用于大规模数据集。13468引用[1] Yunpeng Chen，Jianan Li，Huaxin Xiao，Xiaojie Jin，Shuicheng Yan，and Jiashi Feng.双路径网络。在NIPS，第4467-4475页，2017年。8[2] 崔俊锡和沈贤贞用于弱监督对象定位的基于注意力的丢弃层。在CVPR中，第2219-2228页，2019年。一、三、四、五、六[3] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele. Cityscapes数据集用于语义城市场景理解。在CVPR，第3213-3223页，2016年。1[4] 罗斯·格希克。快速R-CNN。在ICCV，第1440-1448页，2015中。2[5] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在CVPR中，第5802[6] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。4[7] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger. 密集连接的卷积网络。在CVPR中，第4700-4708页，2017年。4[8] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的ImageNet分类。在NIPS，第1097-1105页，2012中。二、八[9] 黑律和贾登。CornerNet：将对象检测为配对关键点。在ECCV，LNCS第11218卷，第734-750页，2018年。2[10] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft COCO：上下文中的公用对象。在ECCV，LNCS的第8693卷，第740-755页，2014中。第1、3条[11] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. SSD ：单次触发多盒探测器。在ECCV，LNCS的第9905卷，第21-37页，2016年。2[12] 卡尔·皮尔森在与空间点系最接近的直线和平面TheLondon，Edinburgh，and Dublin Philosophical Magazineand Journal of Science，2（11）：559-572，1901. 4[13] Joseph Redmon，Santosh Divvala，Ross Girshick，andAli Farhadi.你只看一次：统一的实时对象检测。在CVPR，第779

下载后可阅读完整内容，剩余1页未读，立即下载