弱监督对象检测中的在线实例分类器改进

60 浏览量更新于2023-10-15 收藏 1.59MB PDF 举报

弱监督目标检测

深度网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2843具有在线实例分类器改进的唐鹏王翔王兴刚白文宇刘晓波华中科技大学启德学院{pengtang，xgwang，xbai，liuwy}@ hust.edu.cn摘要近年来，弱监督目标检测在目标识别中具有重要的意义。基于深度学习，弱监督检测器已经取得了许多有希望的结果。然而，与全监督检测相比，以弱监督方式训练基于深度网络的检测器更具挑战性在这里，我们将弱监督检测公式化为多实例学习（MIL）图1. 检测结果无/有分类器精化问题，其中实例分类器（对象检测器）作为隐藏节点放入网络中。我们提出了一种新的在线实例分类器改进算法，将MIL和实例分类器改进过程集成到单个深度网络中，并仅使用图像级监督来训练网络端到端，即，而没有对象位置信息。更确切地说，从弱监督推断的实例标签被传播到它们的空间重叠的实例以在线改进实例分类器。迭代实例分类器细化过程使用深度网络中的多个流来实现，其中每个流监督其后面的流。弱监督对象检测实验是在测试PASCAL VOC 2007和2012基准上进行的。我们得到2007年VOC的47% mAP显著优于之前的最新技术水平。1. 介绍随着卷积神经网络（CNN）[17，19]的发展，由于具有精确边界框级标记的大规模数据集的可用性[8，11，22]，在对象检测[12，13，23，25，26]方面取得了很大的改进然而，收集这样的精确注释可能是非常劳动密集和耗时的，而仅实现图像级注释（即，图像标签）要容易得多，因为这些注释通常可在因特网上获得（例如，图像搜索查询[21]）。本文针对弱监督目标检测问题，即，只有图像标签在*通讯作者。（左/右）。检测分数绘制在sam的底部。赞成提案A、B、C和D。在左边，排名第一的建议A没有正确地定位对象。在实例分类器细化之后，在右边，检测到正确的建议D，并且示出了实例分类器的更多区分性能训练以指示对象是否存在于图像中。大多数以前的方法遵循 WSOD 的多实例学习（MIL）管道[3，4，7，16，28，30，31]。他们将图像视为袋子和图像区域生成通过对象建议方法[29，35]作为实例，在MIL约束下训练实例分类器（对象检测器）[10]。同时，最近的努力倾向于通过使用CNN作为现成的特征提取器[3，7，28，30，31]或训练端到端MIL网络[4，16]来组合MIL和CNN在这里，我们也沿着WSOD的MIL线，并训练端到端网络。尽管WSOD已经取得了许多有希望的结果，但它们仍然远远不能与完全监督的结果相比[12，13，26]。弱监督目标检测只需要在图像类别级别进行监督。Bilen和Vedaldi [4]提出了一种用于WSOD的端到端深度网络，其中最终图像分类得分是建议得分的加权和，即每个建议对最终图像分类贡献一定的百分比。深度网络可以正确地对图像进行分类，即使只如图1（左），排名第一的提案A太小。同时，提案B、C和D具有相似的检测分数。这表明WSOD网络不是0.04B0.070.19B0.34CC0.02D0.71D0.11一0.21一28440.310.070.490.030.190.970.650.760.930.850.730.740.710.850.920.460.850.760.680.740.250.460.680.510.670.340.220.30图2. 检测结果来自分类器细化的不同阶段。每一行代表一个阶段。绿色/红色矩形表示检测到的框与地面实况具有高/低重叠，矩形右上角的数字表示IoU。通过多阶段细化，检测器可以逐渐覆盖整个对象而不是部分对象。足以正确定位对象的辨别力。这是基于端到端深度网络的WSOD的核心问题。针对这一问题，本文提出了两点改进措施：1）我们建议在网络中添加一些块，以通过显式分配二进制实例标签来学习更具鉴别力的实例分类器，而不是通过加权求和池来估计实例权重;2）我们建议使用空间关系在线改进实例分类器。我们的动机是，尽管一些检测器仅部分地捕获对象，但是与检测部分具有高空间重叠的建议可以覆盖整个对象，或者至少包含对象的更大部分。在[4]中，Bilen和Vedaldi提出了一种空间正则化器，通过强制最高得分区域及其相邻区域的特征相同，这显着提高了WSOD性能。然而，强迫在空间上重叠的提案具有相同的特征似乎过于严格。而不是采取严格的约束，我们认为空间重叠的建议的功能是在同一个流形。然后，这些重叠的建议可以共享类似的标签信息。如图1（右），我们除了A的标签信息可以传播到B和C与A有很大的重叠，然后B和C的标签信息可以传播到D正确定位对象。为了实现这一思想，我们在[4]的网络中设计了一些实例分类器。实例的标签可以通过它们在空间上重叠的实例来细化。我们将这种新的网络结构命名为带实例分类器的多实例检测网络（MIDN）在实践中，有两个重要问题。1)如何初始化实例标签，因为没有实例级的su-在这项任务中，2)如何用实例分类器有效地训练网络。分类器改进的一种自然方式是替代策略，即交替地重新标记实例和训练实例分类器，而这个过程非常耗时，特别是考虑到用大量的随机梯度下降（SGD）迭代来训练深度网络。为了克服这些困难，我们提出了一种新的在线实例分类器细化（OICR）算法来在线训练网络。我们的方法有多个不同阶段的输出流：第一个是MIDN训练一个基本的实例classi- fier和其他细化分类器。为了在线细化实例分类器，在SGD的前向过程之后，我们可以获得一组建议分数。根据这些分数，对于每个阶段，我们可以将得分最高的提案及其空间重叠的提案标记到图像标签。这些建议标签可以作为下一阶段训练实例分类器的监督虽然得分最高的提案可能只包含对象的一部分，但其相邻提案将覆盖对象的更大部分。因此，实例分类器可以被细化。在多次执行细化过程之后，检测器可以逐渐发现整个对象而不是部分对象，如图所示。二、但在训练的初期，所有的分类器几乎都是未训练的，这会导致对精细分类器的监督噪声很大，训练结果会偏离正确解很多。为了解决这个问题，我们通过在不同的训练迭代中为不同的建议分配不同的权重来进一步设计加权损失。使用这种策略，所有分类器细化过程可以集成到单个网络中并进行端到端的训练。它可以提高性能受益于分类器2845细化程序。同时，多阶段策略和在线精化算法在训练和测试中都具有很高的计算效率。此外，可以通过在不同的训练阶段之间共享表示来提高我们在PASCAL VOC数据集上进行了大量的实验，验证了该方法的有效性。我们的方法达到 47 。0%mAP和六十四2007年VOC的3% CorLoc超过了之前的最佳表现在很大程度上执行方法。综上所述，我们的主要工作贡献如下。• 我们提出了一个弱监督学习框架，结合MIDN与多阶段实例分类器通过仅监督来自其前一级的输出，实例分类器的区分能力可以迭代地增强。• 我们进一步设计了一种新的OICR算法，它将基本检测网络和多阶段实例级分类器集成到一个网络中。亲-网络是端到端可训练的。与交替训练策略相比，我们证明了我们的方法不仅可以减少训练时间，而且可以提高性能。• 我们的方法在具有挑战性的PASCAL VOC 2007和2012基准测试中取得了比以前最先进的方法更好的结果，监督式目标检测2. 相关工作MIL是一个经典的弱监督学习问题，在[10]中首次提出用于药物活性预测。在此之后，已经提出了许多解决方案MIL [1，31，33]。在MIL中，给定一组包，并且每个包与实例的集合相关联。MIL有两个限制：1）如果一个袋子是阳性的，则该袋子中至少有一个实例是阳性的; 2）如果一个包是负的，则包中的所有实例都是负的。将WSOD视为MIL问题是很自然的。然后问题变成了只给袋子标签就找到一个实例分类器。我们的方法也遵循MIL线，分类器细化在一定程度上受到mi-SVM [1]中分类器更新过程的启发不同之处在于，在mi-SVM中，它使用了一种替代策略来重新标记实例和重新训练分类器，而我们采用了一种在线精化算法; mi-SVM根据分类器预测的实例得分对实例进行重新标记，而根据空间关系选择实例。大多数现有的方法解决基于MIL的WSOD问题 [3，4，7，16，24，28，31]。例如，Wanget al.[31]将MIL限制放宽为可微损失功能，并通过SGD进行优化，以加快训练速度，提高训练效果。Cibis等[7]通过交替地重新标记实例和重新训练分类器来训练多重MIL检测器。最近，一些研究人员结合CNN和MIL来训练WSOD的端到端网络[4，16 ， 24] 。 Oquab 等人 [24] 训练 CNN 网络使用 max-pooing MIL策略来定位对象。但是他们的方法只能粗略地定位目标，而不管目标的大小和长宽比，我们的方法可以更准确地检测目标。Bilen和Vedaldi [4]提出了一种弱监督深度检测网络（WSDDN），该网络提出了一种新的加权MIL池化策略，并结合了提议的对象性和空间正则化器以获得更好的性能。基于WSDDN，Kantorovet al. [16]使用对比模型来考虑用于改进的上下文信息。我们也选择WSDDN作为我们的基本网络，但我们将其与多级分类器细化相结合，并提出了一种新的OICR算法来有效地训练我们的网络，这可以显着提高与WSDDN [4]中强制最高评分提案及其空间重叠提案的特征相同的空间调节器不同，我们的OICR假设空间重叠提案的特征在同一流形中，这更合理。第四节的实验表明，我们的策略可以获得更好的结果.建议标记过程也与半监督标签传播方法有关[2，34]。但在标签传播中，它是根据标签数据和未标签数据之间的相似性来标记数据，而我们使用空间重叠作为度量;并且没有可用的标签实例来进行传播，这与半监督方法有很大不同同时，我们网络中的共享表示策略类似于多任务学习[5]。与多任务学习不同，每个输出流都有自己相对独立的外部监督，在我们的方法中，后面的流的监督只取决于它们前面的流的输出。3. 方法我们的方法的整体架构如图所示3 .第三章。给定一个图像，我们首先通过选择性搜索生成大约2000个对象pro-printer [29]。图像和这些提议被馈送到一些卷积（conv）层，并具有空间金字塔池（SPP）层[14]，以产生每个提议的固定大小的conv特征图，然后它们被馈送到两个全连接（fc）层以生成提议特征向量的集合。这些特征被分支成不同的流，即，不同阶段：第一个是MIDN，用来训练一个基本的实例分类器，其他的是细化分类器。特别地，对分类器细化的监督由来自其前一阶段的输出决定，例如，监督第一个细化分类器2846多实例检测网络Fc层Softmax超类提案图像得分得分逐元素产品求和建议Fc层Softmax超过提案实例分类器改进，第一次建议Fc层Softmax超类评分监督o fcers建议特征向量实例分类器细化，第K次提案Fc层Softmax超类评分监督X.JConv层SPP层双绞线Conv特征图图3.使用OICR的MIDN体系结构建议/实例特征由图像的卷积特征图上的空间金字塔池化层和两个完全连接的层生成这些建议特征向量被分支为不同阶段的许多流：第一个用于基本的多实例检测网络，其他用于分类器细化。分类器细化的监督所有这些阶段共享相同的建议表示。取决于基本分类器的输出，第k个细化分类器的监督取决于{k-1}次细化分类器。在本节中，我们将介绍所选的基本MIDN，并详细解释了我们的OICR算法。3.1. 多实例检测网络训练精细分类器需要实现实例级的监督，但这种监督是不可用的。如我们之前所述，实例分类器的最高得分建议及其相邻建议可以被标记为其图像标签作为监督。因此，我们首先引入我们的MIDN来生成基本的实例分类器。有许多可能的选择[4，7，16，31]来实现这一点。本文选择Bilen和Vedaldi [4]提出的加权池策略来获得实例分类器，以提高其有效性和实现方便性。注意，我们的网络独立于特殊的MIL方法，因此任何可以端到端训练的方法都可以嵌入到我们的网络中。如图1的“多实例检测网络”块所示。 3、将建议特征分成两个流，产生两个矩阵xc，xd∈ RC×|R|其中，C表示图像类别的数量，并且|R|表示提案的数量。然后两个矩阵通过两个softmaxXC沿不同方向分层：[σ（xc）] 为伊季报和渴望一班。[σ（xd）]ij是归一化权重，其指示建议j对被分类为类别i的图像的贡献。因此，φc是通过加权求和池化实现的，并且落在（0，1）的范围内。给定图像标签Y=[y1，y2，...， y C]T∈ RC×1，其中y c= 1或0表示具有或不具有对象的图像。我们可以训练巴-sic实例分类器通过标准的多类交叉熵损失，如等式（1）所示。（1），则可以根据提案得分xR得到实例分类器。更多的细节可以在[4]中找到。ΣCL b= −{y clog φ c+（1 − y c）log（1 − φc）}。（一）c=13.2. 在线实例分类器精化在最后一节中，我们得到了基本的实例分类器。在这里，我们将阐述如何完善立场分类在线。改进分类器的一种自然方法是另一种策略，即固定分类器并标记建议，固定建议标签并训练分类器。但它有一些局限性：1）这是非常耗时的，因为它需要多次训练分类器; 2）在不同的细化步骤中分别训练不同的分类器可能会损害性能，因为它阻碍了从共享表示中受益的过程。因此，我们集成了基本的MIDN和不同的ijΣCxc[σ（xd）]k=1ekjXD=eij.生成提案分数分类器细化阶段到单个网络中并训练它是端到端的ijΣ|R|XDk=1eik通过逐元素乘积xR=σ（xc）<$σ（xd）。最后，我-第c类的年龄分数φc可以通过对所有年龄分数的求和来获得。难点在于如何获取实例标签以进行重新配置。当没有可用的标记实例时进行细化。为了解决这个问题，我们提出了一个在线标签，建议：φcΣ|R|Rr=1cr和细化策略。不同于基本实例两个流框架的解释如下：分类器，输出得分向量xRk建议j，如下 [σ（xc）]ij是提案j的概率，精细分类器是{C+1}维向量，即，. . . .. . . .. . . .. . . .. . . .. . . .. . . .…. . . .. . . .. . . .. . . . . . . . . . . . . . . . .=2847JCRCCRCCCJRCRCJRRCRCRRc1（C+1）j茨尔河xRkJ∈R（C+1）×1，k ∈ {1，2，…，K}，其中k表示算法1在线实例分类器精化第k次细化，K是总细化次数，第{C+1}维是背景（这里我们表示为将来自基本分类器的建议得分向量重新发送为输入：图像X及其建议;图像标签矢量Y=[y1，...，y C];精化倍数K。输出：损失权重wk;建议标签向量Yk=R rxR0∈RC×1）。 xRk，k >0通过传递[y k，.，yk]的T. 其中r∈{1，.， |R|}且k∈j j1r（C+1）r建议特征向量通过单个FC层和软最大类层，如图2的“实例分类器细化”块所示。3 .第三章。假设提案j的标签向量为Yk={1，…， K}。1：将X及其建议馈送到网络中以产生建议得分矩阵x Rk，k ∈{0，.， K − 1}。2：对于k=0到K−1，[yk，yk，.，ykT ∈R（C+1）×1. 在每次训练中，3：设置I=[I1，...，我|R|[T]-inf。1j2j（C+1）j在SGD的正演过程之后，我们可以得到一组4：设置所有y k+1= 0，c ∈ {1，...，C}和y k+1=1时。建议得分xR（k−1）。然后我们可以根据xR（k−1）得到细化时间k的监督。那里CR5：对于c=1到C，6：如果yc=1，则（C+1）r有许多可能的方法可以使用xR（k−1），例如，如果实例的得分超过阈值，则将其标记为阳性，否则标记为阴性，如mi-SVM [1]。但在我们的例子中，每个实例的得分都是在-7：通过等式j k选择得分最高的建议。（二）、8：对于r=1至|R|做9：计算提议r和j k之间的IoU I ′。10：如果I′> Ir，则每次训练迭代，对于不同的类，使用11：集合I=I′和wk+1= xRk。相同的阈值可能不合适，因此难以设置-Rr rCJK打开一个门槛。在这里，我们选择了一种不同的策略，受到高度空间重叠的实例应该具有相同标签的启发。假设图像具有类别标签c，我们首先选择第{k-1}个具有最高得分的建议jk-1时间如Eq。（2），并将其标记为C类，即，ykk−1=1cjcykk−1=0，c′/=c。由于一直存在不同的建议，c′ jc重叠，重叠程度高的提案应属于对于同一类，我们可以将建议jk-1及其相邻建议标记为第k次细化的类c，即，如果建议j与建议j k-1有很高重叠，我们将建议j标记为c类（y k= 1），否则我们将建议j标记为背景（y k=1）。在这里，如果建议j和jk-1之间的IoU大于由实验确定的阈值I t，则我们将建议j标记为c类。同时，如果图像中没有对象c，我们设置所有y k=0。使用这种监督，我们可以根据在Eq.中的损失函数。（三）、通过多次细化，我们的检测器可以逐渐检测到更大的物体部分。j k−1= arg max x R（k−1）。（二）12：如果我r> It，则13：设y k+1= 0，c′/= c，y k+1= 1。其中wk是损失重量，并且可以通过算法1的第11行获得。这种选择的解释如下。在训练开始时，wk很小，因此损失也很小。因此，网络的性能不会下降很多，虽然很好的积极的情况下，无法找到。同时，在训练过程中，网络可以很容易地获得高分的正实例，并且这些正实例总是高分的，即，WK很大。相反，对于困难包，很难得到正实例，因此，这些正实例总是非常嘈杂。尽管如此，改进的分类器不会偏离正确的解决方案很多，因为这些有噪声的阳性实例的分数相对较低，即，K是小的。为了使OICR算法更清楚，我们总结了算法1中获得监督的过程，其中Ir表示提案r和顶部之间的最大IoUCLk=−1|R|RΣ|R|CΣ+1r=1c =1CRklog x Rk。（三）评分建议在获得训练精细分类器的监督和损失之后，我们可以通过结合等式来获得我们的整体网络的损失。（1）和方程（4）如Eq。（五）、通过优化这个损失函数，我们可以将实际上，用于精化分类器的获得的监督是非常嘈杂的，特别是在训练的开始，这将导致不稳定的解决方案。为了解决这个问题，我们改变了方程中的损失。（3）一个加权版本，如在方程。（四）、基本网络和不同的分类器细化阶段合并为单个网络，并在不同阶段之间共享表示Σ|R|CΣ+1k k k RkΣKL= Lb+L k.（五）Lr=−|R| r=1c =1wrycrlogxcr，（4）Rk=1y284839373533312927250 1 23精炼次数59575553514947450 1 2 3精炼次数39383736353433320.3 0.4 0.5 0.60.7IoU阈值585756555453520.3 0.4 0.5 0.6 0.7IoU阈值图4.不同改进时间和不同培训策略的VOC 2007结果，其中“OICR”表示我们的损失最大平均接入点（%）CorLoc（%）未加权32.850.6加权37.957.3表1.2007年挥发性有机化合物不同损失的结果4. 实验4.1. 实验装置在本节中，我们将进行彻底的实验，以分析我们的OICR及其组件的弱监督对象检测。数据集和评估措施我们在具有挑战性的PASCAL VOC2007和2012数据集[11]上评估了我们的方法，这些数据集分别具有20个对象类的9，962和22，531张图像这两个数据集分为训练集、验证集和测试集。在这里，我们选择trainval集（2007年为5011张图像，2012年为11540由于我们专注于弱监督检测，因此在训练过程中只使用图像级标签对于测试，有两个评估指标：mAP和CorLoc。平均精度（AP）和平均AP（mAP）是在测试集上测试我们模型的评估指标，它遵循标准PASCAL VOC协议[11]。正确定位（CorLoc）是在测量定位准确度的训练集上测试我们的模型[9]。所有这两个度量都基于PASCAL标准，即，IoU> 0.5之间的地面真理和预测框。我们的方法建立在两个预先训练的ImageNet [8]网络上：VGG M [6]和VGG16 [27]，每个网络都有一些带有最大池化层和三个fc层的conv层我们将两个模型的最后一个最大池化层替换为SPP层，将最后一个fc层和softmax loss层替换为第3节中描述的层。为了从最后一个conv层增加特征图的大小，我们将倒数第二个最大池化层及其子conv层替换为扩张的conv层[32]。使用高斯分布初始化新添加的层，平均值为0，标准偏差为0。01. 偏差初始化为0。在训练期间，SGD的mini-batch大小设置为2，学习率设置为0。001对于图5. 不同IoU阈值的VOC 2007结果。前40K次迭代，然后减少到0。0001在随后的30K迭代中。动量和权重衰减设置为0。九比零。0005分别。正如我们在第3节中所述，选择性搜索（SS）[29]，每幅图像产生约2000个对于数据增强，我们使用五种图像尺度{480，576，688，864，1200}（将最短边调整为这些比例之一），并使用水平翻转将最长图像边限制为小于2000，以进行训练和测试。我们对实例分类器进行了三次改进，在第3.2节中K=3，因此总共有四个阶段。算法1的第12行中的IoU阈值I t被设置为0。五、在测试过程中，选择这三个精细分类器的平均输出。我们还遵循[18，20]，通过选择以下给出的最高得分建议来训练监督对象检测器：我们的方法作为伪地面真相，以进一步改善我们的结果。在这里，我们使用VGG16模型和相同的五个图像尺度（仅在训练中水平翻转）训练 Fast RCNN（FRCNN）[12]检测器SS还被选择用于生成建议以训练FRCNN。应用非最大值抑制（具有30%IoU阈值）来计算AP和CorLoc。我们的实验是基于Caffe[15]深度学习框架。我们所有的实验都在NVIDIA GTXTitanX GPU上运行。用于重新生成结果的代码可以在https：//github上获得。com/ppengtang/oicr。4.2. 消融实验我们首先进行一些消融实验来说明我们的训练策略的有效性，包括分类器细化，OICR，加权损失和IoU阈值It的影响。在不失一般性的情况下，我们只在VOC 2007上进行实验，并使用VGG M模型。4.2.1实例分类器细化如图中的蓝线。4，我们可以观察到，与基本网络相比，即使只是细化一次实例分类器也可以大大提高性能（mAP从29。5到35岁6和CorLoc从49。9到560），这证实了细化的必要性。如果我们多次细化分类器，结果可以进一步改善。但当你...OICR替代OICR替代OICROICR最大平均接入CorLoc（%）最大平均接入CorLoc（%）2849方法Aero自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视地图WSDDN-VGG F [4]42.956.032.017.610.261.850.229.03.836.218.531.145.854.510.215.436.345.250.143.834.5WSDDN-VGG M [4]43.650.432.226.09.858.550.430.97.936.118.231.741.452.68.814.037.846.953.447.934.9WSDDN-VGG16 [4]39.450.131.516.312.664.542.842.610.135.724.938.234.455.69.414.730.240.754.746.934.8WSDDN+context [16]57.152.031.57.611.555.053.134.11.733.149.242.047.356.615.312.824.848.944.447.836.3OICR-VGG M53.157.132.412.315.858.256.739.60.944.839.931.054.062.44.520.639.238.148.948.637.9OICR-VGG1658.062.431.119.413.065.162.228.424.844.730.625.337.865.515.724.141.746.964.362.641.2WSDDN-Ens。[4]美国46.458.335.525.914.066.753.039.28.941.826.638.644.759.010.817.340.749.656.950.839.3OM+MIL+FRCNN [20]54.547.441.320.817.751.963.546.121.857.122.134.450.561.816.229.940.715.955.340.239.5OICR-Ens。58.563.035.116.917.463.260.834.48.249.741.031.351.964.813.623.141.648.458.958.742.0OICR-Ens.+ FRCNN65.567.247.221.622.168.068.535.95.763.149.530.364.766.113.025.650.057.160.259.047.0表2. VOC 2007测试集上不同方法的平均精密度（%）。上半部分显示了使用单个模型的结果。下半部分显示了多个模型的组合结果。方法Aero自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视是说WSDDN-VGG F [4]68.567.556.734.332.869.975.045.717.168.130.540.667.282.928.843.771.962.062.858.254.2WSDDN-VGG M [4]65.163.459.745.938.569.477.050.730.168.834.037.361.082.925.142.979.259.468.264.156.1WSDDN-VGG16 [4]65.158.858.533.139.868.360.259.634.864.530.543.056.882.425.541.661.555.965.963.753.5WSDDN+context [16]83.368.654.723.418.373.674.154.18.665.147.159.567.083.535.339.967.049.763.565.255.1OICR-VGG M81.772.956.531.436.375.681.657.07.374.747.146.078.288.812.246.266.056.765.864.957.3OICR-VGG1681.780.448.749.532.881.785.440.140.679.535.733.760.588.821.857.976.359.975.381.460.6OM+MIL+FRCNN [20]78.267.161.838.136.161.878.855.228.568.818.549.264.173.521.447.464.622.360.952.352.4WSDDN-Ens。[4]美国68.968.765.242.540.672.675.253.729.768.133.545.665.986.127.544.976.062.466.366.858.0OICR-Ens。85.478.061.640.438.282.284.246.515.280.145.241.973.889.618.956.074.262.173.077.461.2OICR-Ens.+ FRCNN85.882.762.845.243.584.887.046.815.782.251.045.683.791.222.259.775.365.176.878.164.3表3.VOC 2007训练集上不同方法的CorLoc（%）上半部分显示了使用单个模型的结果下半部分显示了多个模型的组合结果。细化执行次数过多，性能趋于饱和（2次到3次的提高很小）。这可能是因为网络趋于收敛，所以第三次的监督与第二次相似。在本文的其余部分，我们只细化了3次分类器。请注意，在Fig.4，“0时间”类似于WSDDN[ 4 ]使用SS作为建议。我们的成绩比他们差一点。9mAP），由于不同的实现平台和细节。4.2.2OICR的影响图4比较了不同的细化时间和不同的分类器细化训练策略的结果正如我们所看到的，无论是我们的OICR算法还是替代策略，结果都可以通过细化来改进。更重要的是，与交替求精策略相比，我们的OICR可以持续显著地提高性能，这证实了共享代表的必要性。同时，我们的方法也可以减少训练时间很多，因为它只需要训练一个单一的模型，而不是训练K+1模型的K倍细化的替代策略。4.2.3加权损失我们还研究了我们的加权损失在方程的影响（四）、所以在这里，我们根据等式训练一个网络。（三）、从表1中可以看出，使用未加权损失时，细化的改进很小，性能也很差。方法最大平均接入点（%）CorLoc（%）WSDDN+context [16]34.956.1OICR-VGG MOICR-VGG1634.637.960.762.1OICR-Ens。OICR-Ens.+ FRCNN38.242.563.565.6表4. 2012年VOC不同方法的结果。详细的每类结果见补充材料的表1和表2曼斯甚至比另一种策略更糟糕使用加权损失可以实现更好的性能，这证实了我们在3.2节中的理论。4.2.4IoU阈值在之前的实验中，我们将算法1的第12行中的IoU阈值It设置为0。五、本文通过实验分析了I_t的影响。如图5所示，I t=0。5优于其他选择，并且当将I t从0改变时，结果对I t不是非常敏感。五比零。6，性能只下降了一点（mAP从37。9到378，CorLoc保持57。（3）第三章。这里我们将I t设为0。5在其他实验中4.3. 与其他方法相比我们在表2、表3和表4中报告了2007年和2012年VOC每类的结果。与其他方法相比，我们的方法使用单个模型实现了最先进的性能，甚至优于组合多个不同模型的结果[4，20]。特殊28500图6.自行车、公共汽车、猫、椅子、狗、摩托车、人、火车等的部分检测结果绿色矩形表示成功案例（IoU> 0.5），红色矩形表示失败案例（IoU 0.5）。通常，我们的方法比Bilen和Vedaldi [4]使用相同的CNN模型的方法实现了更好的性能。请注意，[4]不仅使用了我们在第3.1节中所述的加权池，而且还结合了EdgeBoxes [35]的对象性度量和空间正则化器，这比我们的基本MIDN复杂得多。我们相信，通过选择更好的基本检测网络（如[4]中的完整网络）和使用上下文信息[16]，可以提高我们的性能。由于完全实现他们的方法是微不足道的，这里我们只选择[4]中最简单的体系结构。即使在这种简化的情况下，我们的方法可以实现非常有希望的结果。我们还展示了WSDDN[4]，WSDDN+上下文[16]和我们的方法之间的一些可视化比较。我们的结果也可以通过组合多个模型来改进。如表所示，如果我们简单地将VGG M模型和VGG 16模型（OICR-Ens.在表格中），几乎没有改善。此外，如第4.1节所述，我们使用OICR-Ens产生的最高得分建议训练FRCNN检测器。作为基本事实（OICR-Ens.+表中的FRCNN）。正如我们所看到的，性能还可以进一步提高。虽然我们的方法在某些类上明显优于其他方法，如“bicyle”，“bus”，“motorbike”等，但对于“cat”，“dog”和“person”等类，性能较差。为了进行分析，我们可视化了OICR在VOC 2007 trainval上的一些成功和失败检测结果恩，与图六、我们可以观察到，我们的方法是鲁棒的大小和方面的对象，特别是刚性对象。这些刚性对象的主要故障总是由于过大的框，不仅包含对象，而且还包括其相邻的类似对象。对于“猫”、“狗”、“人”等非刚性物体，它们总是具有很大的变形，而它们最具代表性的部分（如头部）的变形较小，因此我们的检测器仍然倾向于找到这些部分。理想的解决方案仍然是需要的，因为仍然有改进的空间。5. 结论在本文中，我们提出了一种新的算法框架弱监督对象检测。与该领域的传统方法不同，该方法将基本的多实例检测网络和多阶段实例分类器集成到一个网络中。此外，我们提出了一个在线实例分类器细化算法来训练所提出的网络端到端。实验表明，我们的方法有实质性的和一致的改进。我们的学习算法是潜在的应用在许多其他弱监督视觉学习任务。在未来，我们将探索其他线索，如实例视觉相似性，以更好地执行实例分类器细化。致谢本工作得到了国家自然科学基金委员会的部分支持（No. 61503145号61572207号61573160）和CAST青年人才支持计划。2851引用[1] S. 安德鲁斯岛Tsochantaridis和T.霍夫曼支持向量机进行多实例学习。NIPS，第561-568页，2002年。三、五[2] S. Bai，X.Bai和Q.田监督平滑流形上的可扩展人员再识别在CVPR，2017年。3[3] H. Bilen，M.Pedersoli和T.Tuytelaars 基于凸聚类的弱在CVPR，第1081-1089页，2015年。第1、3条[4] H. Bilen和A.维达尔迪弱监督深度检测网络在CVPR，第2846-2854页，2016年。一二三四七八[5] R.卡鲁阿纳多任务学习。Machine Learning，28（1）：41-75，1997. 3[6] K. Chatfield，K. Simonyan、A. Vedaldi和A.齐瑟曼。魔鬼的回归细节：深入研究卷积网。InBMVC，2014. 6[7] R. G. Cinbis，J.Verbeek和C.施密特弱监督目标定位与多重多实例学习。TPAMI，39（1）：189-203，2017。一、三、四[8] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。 Imagenet ：一个大规模的分层图像数据库。CVPR，第248-255页，2009。1、6[9] T.德塞拉湾Alexe和V法拉利弱监督定位和通用知识学习。IJCV，100（3）：275-293，2012. 6[10] T. G. 迪特里希河H. Lathrop和T. 洛扎诺-佩雷兹。用平行轴矩形求解多实例问题。人工智能，89（1）：31-71，1997. 第1、3条[11] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K.威廉斯，J.Winn和A.齐瑟曼。pascal视觉对象类（voc）的挑战。IJCV，88（2）：303-338，2010. 1、6[12] R.娘娘腔。快速R-CNN。在ICCV，第1440-1448页，2015中。1、6[13] R.格希克，J。多纳休，T. Darrell和J.马利克基于区域的卷积网络用于精确的对象检测和分割。TPAMI，38（1）：142-158，2016年。1[14] K.他，X。Zhang，S. Ren和J. Sun.用于视觉识别的深度卷积网络中的空间金字塔池TPAMI，37（9）：1904-1916，2015。3[15] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构。在ACM MM，第675-678页，2014年。6[16] V. Kantorov，M. Oquab，M.周和我拉普捷夫Contextloc-net：用于弱监督定位的上下文感知深度网络模型。在ECCV，第350-365页，2016年。一二三四七八[17] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在NIPS，第1097-1105页，2012中。1[18] K. K

下载后可阅读完整内容，剩余1页未读，立即下载