弱监督级联卷积网络：用于改进弱监督对象检测、分类和定位的深度神经网络方法

19 浏览量更新于2023-10-16 收藏 1.16MB PDF 举报

目标检测

卷积神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1914弱监督级联卷积网络Ali Diba1，Vivek Sharma2，Al-Ghana，Ali Pazandeh3，Hamed Pirsiavash4和Luc Van Gool1，51ESAT-PSI，KU Leuven，2简历：HCI，卡尔斯鲁厄理工学院3Sharif Uni versity，4Uni versity of Maryland Baltimore County，5CVL，ETH Zürichali. kuleuven.be，vivek. kit.edu，pazandeh@ee.sharif.edu，hpirsiav@umbc.edu摘要目标检测是视觉理解领域的一项具有挑战性的任务，在监督较弱的情况下更是如此。最近，很少有人通过有前途的深度神经网络来处理没有昂贵的人类注释的任务。提出了一种新的级联网络结构，用于在这种条件下学习卷积神经网络（CNN）。我们介绍了两个这样的architectures，无论是两个级联阶段或三个这是在一个端到端的管道训练两种架构的第一阶段提取类特定区域的最佳候选猫猫通过训练一个完全卷积的网络。在三级架构的情况下，中间级使用第一级的激活图的输出来提供对象分割两种架构的最后阶段都是卷积神经网络的一部分，该卷积神经网络对在连续阶段中提取的建议执行多实例学习。我们在PASCAL VOC 2007、2010、2012和大规模对象数据集ILSVRC 2013、2014数据集上的实验显示了弱监督对象检测、分类和定位领域的改进。1. 介绍通过仅命名训练图像中的对象而不指定它们的数量或它们的边界框来训练检测杂乱场景中的对象的系统的能力被理解为是非常重要的。这样就可以对非常大的数据集进行注释，或者从网络上自动收集数据集。训练对象检测系统的大多数当前方法都假设有强有力的监督[12，26，19]。提供边界框和它们的标签作为每个对象的注释虽然较大的训练数据集的可用性对于卷积神经网络（CNN）的训练是有利的，但弱超这项工作是在他在鲁汶大学ESAT-PSI时进行的图1. 弱监督级联深度CNN：概述提出的级联弱监督目标检测和分类方法。我们的级联网络采用图像和前向对象标签，以找到对象样本在每个图像中的最佳位置。基于这些位置的训练网络能够在弱监督环境下检测和分类图像中的对象视觉作为一种生产这些的手段，只在有限的程度上受到欢迎。拟议的弱监管方法有一些不同的风格。最常见的方法之一[7]包括以下步骤。第一步生成对象建议。最后一个阶段从提案中提取特征。最后一个阶段对特征进行多实例学习，从弱袋（图像）标签中找到盒因此，可以通过加强其任何步骤来改进这一方法。例如，如果第一级要产生更可靠的--因此更少的--物体投影，这将是有利的。我们的弱监督算法也遵循上述方法。为了提高检测性能，对象建议生成，特征提取和MIL以级联方式以端到端的方式进行训练我们提出了两种架构。第一个是两级网络。第一阶段使用完全卷积网络提取类特定对象pro-prism，然后使用猫初级阶段中学阶段CONCON猫1915全局平均（最大）池化层。最后一个阶段通过ROI池层从对象建议中提取特征并执行MIL。考虑到获得更好的对象建议的重要性，我们在三阶段网络中的前一个架构中添加了一个中间阶段。该中间阶段使用输入图像和第一阶段提取的对象执行类特定分割。这导致更可靠的对象建议和更好的检测。该架构提高了初始对象建议提取和最终对象检测。在向前的意义上，较少的噪声的建议确实导致改进的对象检测，由于成本函数的非凸性。在相反的反向意义上，由于两个阶段的第一层之间的权重共享，在所提取的建议上训练MIL将提高第一卷积层中的特征提取的性能，并且因此将产生更可靠的建议。接下来，我们在第2节回顾相关工作，并在第3节讨论我们提出的方法。在第4节中，我们解释了我们实验的细节，包括数据集和完整的实验和结果。2. 相关作品弱监督检测：在过去的十年中，已经使用多实例学习算法研究了几种弱监督对象检测方法[4，5，29，30]。为此，他们将图像定义为区域袋，其中他们假设标记为阳性的图像包含特定类别的至少一个对象实例，并且标记为阴性的图像不包含来自感兴趣类别的对象。最常见的弱监督学习方法通常是通过在正包中选择候选的正对象实例，然后使用外观模型学习对象外观的模型由于MIL问题的训练阶段在包外对象提取和训练分类器之间交替，因此解是非凸的，并且因此对初始化敏感。在实践中，糟糕的初始化容易使解决方案陷入局部最优，而不是全局最优。为了缓解这一缺点，一些方法试图改善初始化[31，9，28，29]，因为解决方案强烈依赖于初始化，而其他一些方法则专注于正则化优化策略[4，5，7]。Kumar等人[17]采用迭代自学习策略，在训练阶段将较硬的样本用于一小组初始样本。Joulin等人[15]使用软最大损失的凸松弛，以最小化陷入局部最小值的倾向。Deselaers等人[9]通过对象性分数初始化对象位置。Cin- bis等[7]以多重方式分割训练数据，以避免陷入局部最小值。为了从不良初始化中获得更大的鲁棒性Song等人。[30]将Nesterov的平滑技术应用在[31]中，相同的作者基于子模块聚类方法初始化对象位置Bilen等人[4]制定了MIL，通过基于惩罚不可能的配置正则化潜在对象位置来软标记对象实例。进一步在[5]中，作者通过正则化技术在对象窗口之间强制相似性来扩展他们的工作[4]Wang等人。[35]在阳性样本的窗口上采用概率潜在语义分析来选择代表对象类别的最具区分力的聚类。事实上，大多数以前的作品[25，32]使用大量的噪声对象建议来训练他们的对象检测器。相比之下，我们的方法只关注极少数干净的对象建议集合，这些对象建议更可靠，更健壮，计算效率更高，并且性能更好。对象建议生成：在 [20 ， 23]中， Nguyen et al.和Pandey et al.使用初始边界框从图像中提取候选投影的密集区域。来解决无法产生足够的候选提议由于固定的形状和大小，提出了基于对象显著性[9，28，29]的方法来提取区域提议。在此之后，采用通用对象度量[1]来提取区域建议。选择性搜索算法[33]，提出了一种基于分割的对象提案生成，这是目前用于提案生成的最有前途的技术之一。最近，Ghodrati et al.[11]提出了一种反向级联方法，使用各种CNN特征图以粗略到精细的方式定位对象提案。基于CNN的弱监督对象检测：鉴于CNN用于视觉识别的有希望的结果，最近在弱监督分类中的一些努力已经基于CNN。Oquab等人[21]改进的有限元分析法基于预先训练的CNN的真实区分在[22]中，相同的作者通过在新的CNN架构上引入定位和分类来进一步提高性能。Bilen等人[4]提出了一种基于CNN的凸优化方法来解决问题，以避免陷入局部极小值。它们在可能的区域和聚类之间的软相似性Li等人[18]介绍了一种基于[2]的屏蔽策略的类特定对象建议生成，以便具有可靠的初始化。他们还提出了分类自适应和检测自适应两阶段算法。3. 该方法本节介绍我们的弱级联卷积网络（WCCN），用于弱监督的对象检测和分类。我们的网络旨在共同学习多个不同但相关的任务。的1916多类损失损失1损失2图像孔夫斯全球集中共用阶段1共享Convs的类激活图Conv5FCFCCON…密耳损FCSROI池V5CONMilNetLocNet阶段2图2.WCCN（2stage）：端到端2级级联CNN的流水线，用于弱监督对象检测。网络的输入是图像、标签和无监督对象建议。第一阶段学习基于对象类别创建类激活图，为每个对象实例创建一些候选框第二阶段通过多实例学习损失在候选对象中选择最佳边界框来表示任务是分类、本地化和多实例学习。我们表明，以端到端的方式联合学习这些任务可以实现更好的对象检测和本地化。目标是从具有多个对象的图像中学习良好的外观模型，其中唯一的手动监督信号是图像级标签。我们的主要贡献是提高多目标检测与这种弱注释。为此，我们提出了两种不同的级联网络架构。第一个是一个2阶段的级联网络，首先定位的对象，然后学习检测他们在多实例学习框架。我们的第二个架构是一个3级级联网络，其中新的中间级在弱监督设置中使用伪地面真值执行语义分割。3.1. 两级级联如前所述，只有少数端到端框架具有用于弱监督对象的平均池（GAP）或全局最大池（GMP）层，受[36]启发。训练产生对象位置或“类激活”图，其提供候选边界框。由于单个图像中可以存在多个类别[22]，因此我们在CNN架构的这个分支中为每个类别使用独立的损失函数，因此损失函数是C二进制逻辑回归损失函数的总和。最后阶段（MIL网络）：最后一个阶段的目标是使用多实例学习（MIL）从第一阶段的输出中为每个类选择最佳候选框。为了获得端到端的框架，我们将MIL损失函数引入到我们的网络中。假设x={xj|j=1，2，…n}是图像的实例包其中xj是一个候选框，并假设fcj∈<$C×n是属于类别i的框xj的得分。我们使用ROI-池化层[12]，以实现fcj。我们将概率和损失定义为：侦测。特别地，没有太多关于物体的现有技术。在本地化水平上没有监督的本地化。什么假设我们有C类中N个训练图像的数据集IP（x，I）=.ΣexpmaxfcjJ1 1N Nkc=C。Σ该集合被给出为I ={（I，y），...，（I，y）}其中Ik=1expmaxfkj是图像并且yk=[y1，...，{0}j（1）ΣC标签指示每个类的存在或不存在，图像Ik.在所提出的级联网络中，初始全卷积阶段学习推断对象位置图LMIL（y，x，I）=−yc log（Pc（x，I））c=1基于给定图像中的对象标签。这个阶段产生一些候选对象框作为下一阶段的输入。最后一个阶段通过端到端的多实例学习选择最佳盒子。第一阶段（定位网络）：我们级联模型的第一阶段是一个全卷积CNN，conv1到conv5的权重由两个阶段。对于最后一个阶段，我们有额外的两个全连接层和一个分数层用于学习MIL任务。端到端培训：具有两个损失函数的整个级联通过端到端随机梯度下降优化来联合学习。总损失函数的cas-1917多类损失孔夫全球集中共用损失1损失2图像损失3共享Convs的类激活图阶段1Conv5分割损失弱监督第2分割Conv5CFCFC…密耳损FCSROI池V5ONLocNetMilNetCONSegNet阶段3图3. WCCN（3阶段）：端到端3级级联CNN的流水线用于弱监督对象检测。对于这个级联网络，我们设计了新的架构，将弱监督分割作为最后一级，因此第一级和最后一级与前一级级联的级相同。新阶段将通过提供更准确的对象区域来改进候选边界框的选择。caded网络是：L总=L间隙（y，I）+λLMIL（y，x，I）（2）其中λ是平衡两个损失函数的超参数。在实验中，我们设定λ=1。我们怀疑对这个超参数的交叉验证可以改善结果。正在生成实例包：我们使用Edgeboxs [37]来生成一组初始的对象建议。然后我们对类激活图[36]进行阈值处理，以得出一个掩码。最后，我们选择与掩码重叠最大的初始框。3.2. 三级级联在本节中，我们通过添加对象分割作为另一项任务的另一个阶段来扩展我们的2阶段级联模型我们相信在分割任务中学习到的关于对象边界的更多信息可以导致获得更好的外观模型以及更好的对象定位。为此，我们的新阶段使用另一种形式的弱监督来学习分割模型，嵌入级联网络中并与其他阶段一起训练这个额外的阶段将帮助多损失CNN有更好的初始位置来选择候选边界框以传递到下一阶段。所以这个新的级联有三个阶段：第一阶段，类似于以前的级联是一个具有全局池化层的CNN;中间阶段，全卷积网络分割损失;最后一个阶段，多实例学习，相应的损失。中期（分割丢失）：受[3，24]的启发，我们建议使用弱监督分割网络，该网络使用对象位置点，并将其标记为监督信号。在分割阶段中结合来自前一阶段的对象的初始位置（位置网络）可以获得更有意义的对象位置图。弱分割网络使用第一阶段的结果伪地面实况），并与MIL阶段联合学习，以进一步改善对象定位结果。在中间阶段，我们将类似于[3]中的完全卷积最后一层是一个pixel-wisesoftmax，输出S∈C×m，其中m是图像中的像素数。假设类别c的热图为Hc，我们在整个图像上定义αc=max（Hc），Ic为argmax（Hc）周围的邻域。在实验中，我们使用一个邻居3×3像素。请注意，我们的公式是密切遵循-在[3]中，除了我们的点式注释之外，由自动生成的热图而不是手动注释提供。考虑y作为图像I的标签集，弱监督分割网络1918由下式给出：LSeg（S，H，y）=−ΣCc=1.yc log（Stcc）+Σi∈IcΣαc log（Sic）和弱监督方式下的分类。我们介绍了数据集，并分析了我们的方法在不同方面的评估。4.1. 数据集和指标（三）其中tc=argmaxSic。第一个术语是用于图像-i∈I第二个术语是用于热图自信地预测为对象上的点的像素。请注意，αc是第二项，强调更有信心的类别。由于更多的监督使用热图提供的伪地面实况，中间阶段提供了一个赌注-与原始热图相比，因此，我们将得到的分割图传递到最终MIL阶段，以找到具有重叠的候选框，然后计算MIL损失。该中间阶段的输出是一组候选对象绑定框，用于推送到CNN级联的下一阶段，CNN级联使用多实例学习来选择最准确的框作为对象类别的代表。在实验中，我们表明，学习这个额外的任务作为级联的另一个阶段可以提高整个网络作为弱监督分类器的性能。端到端培训：与最后一个叶栅类似，方程中的总损失。4是通过简单地将所有三个损失项相加来计算的。我们以端到端的方式共同学习网络的所有参数。L总=L间隙（y，I）+γL间隔（y，I）+λLMIL（y，x，I）（四）在实验中，我们设置λ=1和γ=1。3.3.目标检测培训由于我们对弱监督对象检测感兴趣，因此我们建议使用我们的网络的输出作为标准对象检测框架中的伪地面实况，例如，Fast-RCNN [12].有两种方法可以做到这一点：我们可以在没有训练模型的情况下训练标准的Fast-RCNN，或者我们可以将我们学习的模型转移到Fast-RCNN框架中并对其进行微调。对于后一种情况，我们在模型的最后阶段使用共享的早期卷积层以及全连接层。在这两种情况下，在测试时，我们使用EdgeBoxes [37]提取对象提案，使用训练好的Fast-RCNN在提案池中检测对象，并执行非最大抑制。4. 实验在下面的部分中，我们将详细讨论我们应用于目标检测我们提出的方法的实验是广泛的 PASCAL VOC2007年，2010年，2012年数据集和ILSVRC 2013年，2014年，这是大规模的对象数据集。PASCAL VOC是评估弱监督对象检测方法的更常见数据集。VOC数据集有20个类别的对象，而ILSVRC数据集有200个类别，我们也针对弱监督对象分类和定位。在所有提到的数据集中，我们都包含了标准的训练集、验证集和测试集。实验指标：为了测量对象检测性能，使用平均精度（AP）和正确定位（CorLoc）。平均精度是PASCALVOC的标准度量，它将边界框作为真实检测，其中它与地面实况框的交集超过联合（IoU）超过50%。Corloc是该方法针对图像中每个目标类别的至少一个对象实例通过最置信检测框获得正确位置的阳性图像的分数对于目标分类，我们也使用PASCAL VOC标准的平均精度。4.2. 实验和实施细节我们已经评估了我们提出的两种级联CNN的两种架构：Alexnet [16]和VGG-16 [27]。在每种情况下，网络都在ImageNet数据集上进行了预训练[8]。由于级联的多个阶段包含不同的CNN网络损耗，因此在下文中，我们将分别解释每个部分的细节，以便更好地概述实现。CNN架构：1. Loc Net：受[36]的启发，我们从Alexnet或VGG-16中删除了全连接层，并将其替换为两个卷积层和一个全局层。池化层因此，对于Alexnet，conv 5层之后的层已被删除，对于VGG-16，conv 5 -3之后的层已被删除。对于全局池化层，我们测试了平均池化和最大池化方法，我们发现全局平均池化的性能优于最大池化。对于这部分网络的训练损失标准，我们使用C（类数）二元逻辑回归损失的简单总和，类似于[22]。2. Seg Net：这部分网络是3级级联网络中的中间级，是用于分割任务的众所周知的全卷积网络[3]。卷积部分与来自第一阶段的其他阶段和附加的全连接层共享，并且去卷积层用于产生分割图。1919方法Aero自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视地图Bilen等人[4]美国42.243.923.19.212.544.945.124.98.324.013.918.631.643.67.620.926.620.635.929.626.4Bilen等人[五]《中国日报》46.246.924.116.412.242.247.135.27.828.312.721.530.142.47.820.026.820.835.829.627.7Cinbis等人[七]《中国日报》39.343.028.820.48.045.547.922.18.433.523.629.238.547.920.320.035.830.841.020.130.2Wang等人[35]第三十五届48.841.023.612.111.142.740.935.511.136.618.435.334.851.317.217.426.832.835.145.630.9Li等人，Alexnet [18]49.733.630.819.91340.554.337.414.839.89.428.838.149.814.524.027.112.142.339.731.0Li等人，VGG 16 [18]54.547.441.320.817.751.963.546.121.857.122.134.450.561.816.229.940.715.955.340.239.5WSDDN [6]46.458.335.525.914.066.753.039.28.941.826.638.644.759.010.817.340.749.656.950.839.3WCCN 2stage Alexnet43.556.834.119.213.463.151.533.15.839.319.632.946.256.111.217.538.545.752.643.336.2WCCN 2级VGG 1648.258.937.327.815.369.855.241.110.142.728.640.447.362.312.921.244.352.259.153.141.4WCCN 3stage Alexnet43.957.634.921.314.764.752.834.26.541.220.533.847.656.812.718.839.646.952.945.137.3WCCN 3级VGG 1649.560.638.629.216.270.856.942.510.944.129.942.247.964.113.823.545.954.160.854.542.8表1.PASCAL VOC 2007数据集测试集的检测平均精度（%）方法Aero自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视地图WSDDN [6]95.092.691.290.479.089.292.892.478.590.580.495.191.692.594.782.289.980.393.189.189.0Oquab等人[21日]88.581.587.982.047.575.590.187.261.675.767.385.583.580.095.660.876.858.090.477.977.7SPPnet [13]−−−−−−−−−−−−−−−−−−−−82.4Alexnet [6]95.390.492.589.654.481.991.591.964.176.374.989.792.286.995.260.782.968.095.574.482.4[27]第二十七话−−−−−−−−−−−−−−−−−−−−89.3WCCN 2stage Alexnet92.890.389.388.280.489.49090.475.388.180.191.389.188.391.280.688.577.892.288.787.1WCCN 2级VGG 1693.493.7929183.191.592.793.579.390.783.196.992.991.295.982.490.381.395.188.389.9WCCN 3stage Alexnet93.191.189.688.98189.690.791.276.489.280.892.290.18992.78289.378.192.889.187.8WCCN 3级VGG 1694.294.892.891.784.19393.593.980.791.985.397.593.492.696.184.291.183.395.589.690.9表2. PASCAL VOC 2007测试集的分类平均精度（%）方法Aero自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视地图Bilen等人[五]《中国日报》66.459.342.720.421.363.474.359.621.158.214.038.549.560.019.839.241.730.150.244.143.7Cinbis等人[七]《中国日报》65.355.052.448.318.266.477.835.626.567.046.948.470.569.135.235.269.643.464.643.752.0Wang等人[35]第三十五届80.163.951.514.921.055.774.243.526.253.416.356.758.369.514.138.358.847.249.160.948.5Li等人，Alexnet [18]77.362.653.341.428.758.676.261.124.559.618.049.956.871.420.944.559.422.360.948.849.8Li等人，VGG 16 [18]78.267.161.838.136.161.878.855.228.568.818.549.264.173.521.447.464.622.360.952.352.4WSDDN [6]65.163.459.745.938.569.477.050.730.168.834.037.361.082.925.142.979.259.468.264.156.1WCCN 2stage Alexnet78.466.458.238.134.960.177.853.826.666.518.747.362.873.520.445.26421.659.951.651.3WCCN 2级VGG 1681.27062.541.738.263.481.157.730.470.321.75165.975.723.947.967.525.662.453.954.6WCCN 3stage Alexnet79.768.160.438.936.861.178.656.727.867.720.348.163.975.121.546.964.823.460.252.452.6WCCN 3级VGG 1683.972.864.544.140.165.782.558.933.772.525.653.767.477.426.849.168.127.964.555.756.7表3. PASCAL VOC 2007阳性（CorLoc）训练集上的正确定位（%）损失函数在第3节中解释。由于这种损失是由弱监督提供的，因此部分监督是以对象实例的最佳初始区域的形式从最后阶段获得的。3. MIL Net：最后一个阶段使用共享的卷积特征映射作为初始层，训练两个大小为4096的全连接层和一个标签预测层。使用从前一阶段选择的候选边界框，它训练多实例学习损失，以选择图像中呈现的每个对象的最佳样本。实施详情：我们使用MatConvNet [34]作为CNN工具包，所有网络都在一个Titan X GPU上训练。在训练时间期间，图像已被重新调整大小为多个图像尺度（{480，576，688，84，1200}），相对于原始的纵横比。学习率为CNN网络对于20个时期为0.0001，批量大小为100.对于每一个图像，我们使用2000个对象的建议生成的EdgeBox或SelectiveSearch算法。在最后阶段，我们为每个对象实例选择10个框，1920每次迭代用于训练多个实例学习。为了使用Fast-RCNN检测通过我们的方法获得的地面实况，我们将迭代次数设置为40 K。为了在我们的管道中选择候选框，我们使用了一种阈值方法，如[36]用于弱定位。4.3. 检测性能与最新技术水平的比较：我们在本节中评估我们的方法的检测性能。为了比较我们的方法，使用深度学习管道[6，18]或多实例学习算法[7]或基于聚类的方法[5]进行了研究。表1、4、5显示了PASCAL VOC 2007、2010、2012在测试集上进行物体检测的结果，具有平均精度测量。可以观察到，通过使用弱监督设置，我们在所有其他最近的方法中取得了最好的性能。我们的方法不包含任何复杂的聚类或优化的初始化步骤，所有步骤都是通过深度神经网络的端到端学习一起训练的有1921图4.我们的目标检测结果示例绿色边界框是地面实况注释，红色框是阳性检测。图像取自PASCAL VOC 2007测试集。在我们的网络中使用不同CNN架构的改进增益与在其他方法中使用相同CNN的改进增益之间的语义关系。我们有几乎相同的改善与两个不同的架构比其他方法。PASCAL VOC 2007的表3也显示了CorLoc度量的本地化性能采用VGG-16结构的三级级联网络，最高性能达到56.7%。然而，我们使用Alexnet的网络优于使用具有相同层数的类似网络架构和其他非深度学习方法的其他方法。大多数其他作品都使用CNN作为其管道的一部分，而不是端到端的方案或简单地将其用作特征提取器。因此，我们的级联深度网络将多个概念集中在一个单一的训练方法中，在弱监督环境下学习更好的感知模型和对象的特征表示我们还将我们在ILSVRC'13上的对象检测器结果与[18，35]进行了比较结果如表4所示，与我们的其他测试类似，我们在性能方面取得了更好的数字由于我们的部分工作受到 [36] 中 GAP 网络的启发，我们在ILSVRC'14数据集上比较了我们的弱监督目标检测培训：我们比较了使用Fast-RCNN进行训练对象检测的两种不同方法，方法VOC2010VOC2012ILSVRC 2013Cinbis等人[七]《中国日报》27.4−−Wang等人[35]第三十五届−−6.0Li等人，Alexnet [18]21.422.47.7Li等人，VGG 16 [18]30.729.110.8WSDDN [6]36.2−−WCCN 2stage Alexnet27.627.39.1WCCN 2级VGG 1637.836.414.6WCCN 3stage Alexnet28.828.49.8WCCN 3级VGG 1639.537.916.3表4. VOC 2010、2012测试集和ILSVRC 2013验证集的检测性能（%）比较。在Caffe [14]中实现，这两种情况都使用我们生成的伪地面实况。由于Fast-RCNN [12]是一种监督方法，因此我们使用由级联网络生成的伪地面实况（GT）边界框。通过我们的实验证明，在图中。5，表明Fast-RCNN也可以使用我们的输入边界框执行良好的结果。由我们生成的GT训练的Fast-RCNN比我们转移的模型表现稍好，PASCAL VOC 2007测试集的平均精度这项工作的主要目标是找到最具代表性和歧视性的样本，表示在每个图像的经验类别。目标提案：在我们的工作中，我们评估了不同的无监督对象建议生成器的效果。基于我们的网络训练的检测器，比较了Edge- Box [37]和SelectiveSearch [33]。根据重新-1922WCCN Fast-RCNN（使用我们的伪GT）0的情况。60的情况。40的情况。2图5.我们的检测完整管道和训练Fast-RCNN之间的比较使用我们的方法提取的伪地面实况边界框表5. 检测和ILSVRC分类 top-1 误差（%）具有多个实例损失的阶段可以改进学习每个类别的最佳样本，而不是其他作品[36，6]。可以观察到，添加分割阶段以利用更好的区域可以优于两阶段级联。添加分割阶段对找到更准确的对象位置的初始猜测有影响。在PASCAL VOC 2007中，使用Alexnet架构的分割阶段，cas-caded网络在检测上提高了近2.5%，在分类上提高了2%。在 VOC 2007 检测测试集上，通过使用 Alexnet 和Edgebox训练类似于其他作品，如[6，13]，EdgeBox使用基于CNN的对象检测器表现4.4. 分类性能我们提出的网络设计具有双重目的：在弱监督方式下进行对象检测和分类。显然，我们的级联结构有助于在具有多个对象和最小标签监督的我们在PASCALVOC 2007和ILSVRC 2014上评估了将其性能与其他方法进行比较，这些方法使用深度学习中的新方法对这些数据集进行分类。表2列出了VOC 2007与所有方法的不同CNN架构的比较。由于我们级联的第一阶段类似于[36]，我们在表5中显示了ILSVRC'14（用于分类的大规模数据集）的分类结果4.5. 级联体系结构研究为了对所提出的级联的不同阶段的性能进行烧蚀研究，可以注意到，所有的结果都显示了所提出的级联中的每一个如何影响检测或分类的性能我们的多级级联CNN中的每一级都可以通过与相同上下文中基于CNN的方法进行比较来分析培训5. 结论我们的弱级联卷积网络（WCCN）的想法是关于级联CNN用于弱监督视觉学习任务（如对象检测，定位和分类）的方法。在这项工作中，我们提出了两个多级级联网络，每个级具有不同的我们的见解是使用深度神经网络的多任务学习有效性的范例。我们证明了我们的多任务学习方法，结合本地化，多实例学习和弱监督分割的对象区域实现了最先进的性能，在弱监督对象检测和分类。在PASCAL VOC 2007、2010、2012等各种数据集以及ILSVRC 2013、2014等大规模数据集上进行的对象检测和分类任务的广泛实验展示了所提出方法的全部能力。确认这项工作得到了DBOF博士奖学金，KU LeuvenCAMETRON项目的支持。作者要感谢Nvidia的GPU捐赠。引用[1] B. Alexe，T. Deselaers和V.法拉利什么是对象？计算机视觉与模式识别（CVPR），2010年IEEE会议，2010年。2地图方法检测top-1分类top-1Alexnet65.1742.6VGG1661.1231.2Alexnet-GAP [36]63.7544.9VGG16-GAP [36]57.2033.4WCCN 2stage Alexnet62.241.2WCCN 2级VGG 1655.630.41923[2] L. Bazzani，A.贝加莫湾Anguelov和L.托雷萨尼使用深度网络自学目标定位。InWACV，2016. 2[3] A. Bearman，O. Russakovsky，V. Ferrari和L.飞飞重点是什么：基于点超视的语义分割。ECCV，2016。四、五[4] H. Bilen，M.Pedersoli和T.Tuytelaars 基于后验正则化的弱InBMVC，2014. 二、六[5] H. Bilen，M.Pedersoli和T.Tuytelaars 基于凸聚类的弱CVPR，2015。二、六[6] H. Bilen和A.维达尔迪弱监督深度检测网络在CVPR，2016年。六七八[7] R. Cinbis，J.Verbeek和C.施密特弱监督目标定位与多重多实例学习。IEEE transactions on pattern analysis andmachine intelligence，2016。一、二、六、七[8] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。 Imagenet ：一个大规模的分层图像数据库。CVPR，2009。5[9] T.德塞拉湾Alexe和V法拉利在学习对象外观的同时定位对象。2010年欧洲计算机视觉会议。2[10] P. F. 费尔岑斯瓦尔布河B. Girshick，D.McAllester和D.拉玛南。用有区别地训练的基于部分的模型进行目标检测。 IEEE transactions on pattern analysis and machineintelligence，2010。2[11] A. Ghodrati，A. Diba，M. Pedersoli，T. Tuytelaars和L.范古尔Deepproposal：通过级联深度卷积层来搜索对象。在2015年IEEE国际计算机视觉会议上2[12] R.娘娘腔。快速R-CNN。IEEEInternational Conferenceon Computer Vision（ICCV），2015年。一、三、五、七[13] K. 他，X。Zhang，S.Ren和J.太阳用于视觉识别的深度卷积网络中的空间金字塔2014年，在ECCV。六、八[14] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构。在ACM MM，2014中。7[15] A. Joulin和F.巴赫.弱超监督分类器的凸松弛。InICML，2012. 2[16] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展，第1097-1105页，2012年。5[17] M. P. Kumar，B. Packer和D.科勒潜变量模型的自定进度学习。神经信息处理系统的进展，2010年。2[18] D. 李，J-B. Huang，Y.黄氏Y.Li，S.王和MH. 杨弱监督目标定位与渐进域自适应。2016年在IEEE计算机视觉和模式识别会议上发表二六七[19] W. Liu，L.安格洛夫，D。埃尔汉角Szegedy和S.里德Ssd：单发多盒探测器。在ECCV，2016年。1[20] M. H.阮湖，澳-地Torresani，F. de la Torre和C.罗瑟弱监督判别定位和分类：共同学习的过程。IEEEInternational Conference on Computer Vision ，2009。2[21] M.奥夸布湖博图岛Laptev和J.西维克使用卷积神经网络学习和传输中级图像表示。CVPR，2014。二、六[22] M.奥夸布湖博图岛Laptev和J.西维克对象本地化是免费的吗？-用卷积神经网络进行弱监督学习。CVPR，2015。二三五[23] M. Pandey和S. Lazebnik基于可变形部分模型的场景识别和弱监督目标定位。2011年国际计算机视觉会议，2011年。2[24] D. Pathak，P. Krahenbuhl，and T.达雷尔。用于弱监督分割的约束卷积神经网络CVPR，2015。4[25] S. Reed，H. Lee，D.安盖洛夫角Szegedy，D.尔汗，还有A.拉比诺维奇。使用自举在噪声标签上训练深度神经网络。InICML，2014. 2[26] S. Ren，K.赫利河Girshick和J.太阳Faster r-cnn：Towardsreal-time object detection with region proposal networks.神经信息处理系

下载后可阅读完整内容，剩余1页未读，立即下载