C-MIL：连续多实例学习改进弱监督目标检测

21 浏览量更新于2023-10-18 收藏 914KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2199C-MIL：弱监督目标检测的连续多实例学习FangWan，WeiKe， Xiangyang JiYi，Xiaojiaoand QixiangYe†中国科学院大学，中国中国北京清华大学 §中国深圳鹏程实验室{wanfang13，liuchang615，kewei11}@ mails.ucas.ac.cn，xyji@tsinghua.edu.cn{jiaojb，qxye}@ ucas.ac.cn摘要弱监督对象检测（WSOD）是一个挑战性的任务时，提供了图像类别监督，但需要同时学习对象的位置和对象检测器。许多WSOD方法采用多实例学习（MIL），并且具有非凸损失函数，这些损失函数在训练期间容易陷入局部极小值（错误地定位对象部分），同时丢失完整的对象范围。本文将连续优化方法引入MIL，从而创建连续多示例学习（C-MIL），目的是以系统的方式缓解非凸性问题。我们将实例划分为空间相关和类相关的子集，并在子集内定义一系列平滑损失函数来近似原始损失函数。优化平滑损失函数可以防止训练过程过早地陷入局部最小值，并有助于发现指示完整对象范围的稳定语义极值区域（SSERs）。在PASCAL VOC 2007和2012数据集上，C-MIL改进了弱监督对象检测和弱监督对象定位的最新技术，具有较大的裕度1。1. 介绍弱监督目标检测（WSOD）是计算机视觉领域的一个研究热点. WSOD方法仅需要指示图像中存在或不存在对象类别的图像类别注释，通过省略劳动密集型边界框注释显著减少了人工参与[6，12，27*通讯作者。1CMIL代码可在github.com/Winfrand/C-MIL上获得。尽管在过去的五年中进行了广泛的研究，但WSOD仍然是一个悬而未决的问题，正如PAS上WSOD [34，37，38]和完全监督检测方法[17，30]之间的巨大性能差距（约CAL VOC检测基准[25]。结合深度神经网络，MIL一直是主要的WSOD方法[8，34]。然而，据观察，该模型倾向于激活对象部分而不是完整的对象范围，特别是在早期学习时期，图。第1（a）段。这种现象是由目标/损失函数的非凸性引起的。优化这些函数可能陷入局部最小值，即，选择最具鉴别力的区域（实例）进行图像分类，同时忽略整个对象范围[7，37]。研究人员已经通过使用空间正则化[8，14，37]，上下文信息[22，38]和[14，15，34，37，40]尽管他们的先进性，局部最小值问题仍然没有得到解决，从优化的角度来看。在本文中，我们将连续方法[2]引入多实例学习，从而创建连续多实例学习（C-MIL），其目的是以系统的方式缓解非凸性问题，该方法通过平滑损失函数并将其转化为多个更容易的子问题来解决复杂的优化问题。C-MIL将图像视为包，并将对象建议方法[24，32]生成的图像区域视为实例。在训练期间，与追求最具区分性的实例的传统MIL不同，C-MIL学习实例子集，其中实例在空间上相关，即，彼此重叠，并且与类相关，即，具有相似的对象类分数。具有适当延续参数的实例子集能够收集对象部分以微调网络，并激活指示完整对象范围的稳定语义极值区域（SSER），图。第1段（b）分段。2200时期2最终损失函数学习实例子集激活映射定位结果时期1损失函数学习实例激活图定位结果正例负例实例子集学习程序(a) MIL（b）C-MIL图1：基于MIL和基于C-MIL的WSOD方法的比较。由于损失函数的非凸性，MIL常常陷入局部极小，错误地定位目标部分。通过引入一系列平滑损失函数的连续优化，C-MIL解决了非凸性问题，并将目标完全定位。（彩色效果实例子集根据连续参数进行划分。该方法利用最小的参数将图像划分为包含所有实例的单个子集，而C-MIL的损失函数与图像分类的损失函数相等，且图像分类的损失函数是凸的。对于最大参数，每个实例被定义为一个子集，损失函数退化为MIL的损失函数。在训练过程中，continua- tion参数逐渐将子集从最大集（所有实例）减少到最小集（单个实例）。通过这种方式，我们构造了一系列更容易优化的函数，以近似原始损失函数，图。第1段（b）分段。通过端到端训练，发现每个图像中最具区分力的子集，并抑制缺乏区分信息的子集/实例。本文的贡献包括：(1) 提出了一种新的C-MIL方法，该方法使用一系列平滑损失函数来逼近原始损失函数，从而缓解了多示例学习中的非凸性问题。(2) 例如子集划分的参数策略，与深度神经网络相结合以激活完整对象范围。(3) 在常用的目标检测基准测试中，弱监督检测和定位的最新性能。2. 相关工作对于WSOD方法的许多分支，[7，11，12，28，40]，我们主要回顾基于MIL的方法。本文还对非凸优化问题的延拓优化和光滑化方法进行了综述。2.1. 弱监督方法作为WSOD方法的主线，MIL将每个训练图像视为一个“袋子”，在学习检测器时从每个袋子中迭代选择得分高的实例。它的工作方式类似于期望最大化算法同时估计实例和检测器。然而，这种算法经常被非凸损失函数引起的局部极小值所困扰，特别是当解空间很大时[7，37]。为了缓解非凸性问题，聚类被用作预处理步骤，以促进实例选择，考虑到一类实例通常形成单个紧凑聚类[7，11，28]。在MILinear [39]的优化过程中，提出了一种袋分裂策略以减少解空间。提出了具有训练集划分和交叉验证的多重MIL [18，19]，以实现多起点优化。MIL Networks. MIL已更新为MIL网络[8]，其中卷积滤波器作为检测器，激活特征图上的感兴趣区域。然而，MIL网络的损失函数仍然是非凸的，从而遭受局部极小。为了缓解这个问题，研究人员在MIL网络中引入了空间正则化[8，14，37]，上下文信息[22，38]和渐进优化[14，15，34，37，40]在[14]中，对象分割被用作正则化器，并在级联卷积网络的两个学习阶段中通过实例选择进行优化。在[37]中，提出了一种基于团的最小熵模型作为正则化器，以减轻学习实例期间的定位随机性。在[16]中，利用每个类的对象计数来解决一个检测到的包含多个in-in的盒子的失败情况。...2201姿态在[22，38]中，上下文模型被设计为学习实例，同时得到周围区域的支持并从中脱颖而出。现有方法通常使用高质量区域（实例）作为伪地面实况，以逐步完善分类器[14，15，34，37]。在[34]中，在线实例分类器细化算法与MIL网络集成。在[37]中，提出了一种递归学习算法，将图像分类与对象检测相结合，然后逐步优化分类器和检测器。使用空间正则化、上下文信息和渐进细化的现有策略在改进WSOD方面是有效的。然而，目前还缺乏一个原则性的、系统性的方法来缓解地方最低工资问题从优化的角度。2.2. 非凸优化延续方法。连续方法[3，31]通过平滑损失函数来解决复杂的优化问题，将其转化为更容易优化的多个子问题。通过调整连续参数，它包含了一系列的子问题，收敛到感兴趣的优化问题。这些方法已成功地解决优化问题，涉及非凸损失函数与多个局部极小值。在机器学习中，课程学习[5]受到这一原则的启发，定义了一个逐渐增加的序列正类）或不。yi= 1表示包含至少一个正实例的正包（图像），而yi=−1表示所有实例都是n个gative的负包。 LetBi，j和yi，j表示包Bi中的实例和实例标签，其中j ∈ {1，2，.， N}，N是实例的数量。w表示要学习的网络参数3.1. MIL再访根据上述定义，MIL方法[18，19，33]可以分为两个可选步骤：实例选择和检测器估计。在实例选择步骤中，计算每个实例的对象得分的实例选择器f（Bi，j，wf）用于从Bi挖掘肯定实例（对象）。Bi，j∈=argmaxjf（Bi，j，wf），（1）其中wf表示实例选择器的参数，jf表示最高得分的所选实例的索引。利用选定的样本训练出一个参数为wg的检测器gz（Bi j，wg），其中z∈Y. wf和wg分别表示实例选择器的参数，检测器在MIL网络[8，22，34]中，两个备选步骤被整合，并且f（Bi，j，wf）和gz（Bi，j，wg）在训练图像B上用损失函数联合优化，如下所示：Σ训练困难的训练任务（或训练分布），它们收敛到感兴趣的任务基于约束的优化-F（B，w）=Ff（Bi，wf） +Fg（Bi，Bi，j∈，wg），（2）我在一系列软化损失函数上的迭代已被证明收敛到更强的全局最小值[10]。平滑。平滑是优化中的一项重要技术[4]，并已应用于深度神经网络。在[41]和[13]中，提出了一种修改非平滑ReLU激活以改善训练的方法。在[20]中，其中，第一项，实例选择损失，定义为Ff（Bi，wf）=max（0，1−yimaxjf（Bi，j，wf）），（3）这是标准的铰链损耗。第二项，检测器估计损失，定义为引入“平滑器”，通过逐渐增加优化问题的难度来平滑损失函数。在[9]中，熵被添加到损失函数中以支持。Σ ΣFg（Bi，Bi，j，wg）=−zj δz，yi，jloggz（Bi，j，wg），(4)通过减少随机性来改进解决方案。在这项研究中，我们实现了连续优化，其中yi，j根据VOC度量[25]定义为：.通过在空间相关和类相关的实例yi，j=+ 1，ifIoU（Bi，j，Bi，j≠0）≥0. 5− 1，ifIoU（Bi，j，Bi，j）<0. 5.（五）子集，并以缓解局部最小问题和学习全对象范围为目标。3. 方法C-MIL将图像视为包，并将对象建议方法[24，32]生成的图像区域视为实例。目标是在只有袋子标签可用的情况下训练实例分类器（检测器）。在图2中，Bi∈ B表示第i 个袋子（图像），B 表示所有袋子（训练图像）。yi∈ Y其中Y={1，−1}表示袋Bi指示袋子包含阳性实例（即，，对象2202δa，b是克罗内克函数，定义为：如果a = b，则δa，b=1，否则为0。3.2. 凸性分析回想一下，一组凸函数的最大值是凸的。当yi=−1时，等式 3是凸的，但当yi=1时，它是非凸的。损失函数（Eq. 2)因此，MIL网络的第一项是非凸的（等式。3)是非凸的，并且当提供有许多实例的袋时，它可以具有许多局部最小值。一旦实例选择器挖掘出误报，检测器2203密耳例如选择袋实例了解到例如激活地图鸟C-MIL实例包实例子集选择学习实例子集激活（相等）学习实例激活图图2：MIL和C-MIL的实例选择策略比较。MIL倾向于选择最有区别的实例并激活对象部分。相比之下，C-MIL选择最具鉴别力的实例子集。在反向传播期间，子集中的实例被同等地激活，因此对象范围被激活。(Best颜色显示）会被他们误导，特别是在早期的训练阶段。通过以上分析，得出以下结论：也就是说，彼此重叠，并且与类相关，即，具有相似的对象类分数。这些子集是对袋（图像）Bi的最小充分覆盖，即，B i，J= Bi有两个问题尚待阐明：1）如何优化“J”非凸函数; 2）当实例选择器没有被很好地训练时，如何在早期训练阶段执行实例选择。3.3. 延续MIL本文提出了一种新的优化方法--连续多实例学习（C-MIL）方法，旨在解决上述两个问题。我们没有在损失函数中引入正则化器，而是直接从优化的角度关注它们，将包中的实例划分为子集，并操纵由等式定义的损失函数的非凸性或平滑性。3.第三章。传统延拓法 [2]、且对于π J，Bi，J∈Bi，J′=πJ. 包中的所有实例都是通过它们的对象得分f（Bi，j，w，f）进行排序，并且迭代地执行以下1)使用对象得分最高的实例构建实例子集，同时不属于任何其他实例子集。2)找到与最高得分实例Bi，j的重叠大于或等于λ的实例，然后将它们合并到子集中。当λ=0时，包Bi被划分为一个包含所有实例的子集.当λ=1时，袋子Bi被划分为多个子集，每个子集包含一个单一实例。实例选择的继续从λ=0到λ=1执行，损失函数定义为追踪一系列隐式定义的平滑损失函数，从起始点（w0，0）到解点（w0，1）的解，图1（b），其中w0是F（B，w，λ）的解，.ΣFf Bi，Bi，J（λ），wf=max（0，1−yimaxf（Bi，J（λ），wf）），J（λ）λ=0，w=λ=1时的解。因此，委员会认为，其中f.Bi，J（λ），wfΣ（7），实例子集Bi的得分，J（λ），我们定义一系列的λ，0 = λ0<λ1<. <λT= 1，且更新等式2到连续损失函数，如定义为.Σ1Σ∗w=arg minF（B，w，λ）WfBi，J（λ），wf=... Bi，J（λ）.f（Bi，j，wf），（8）JΣ=arg minFfwf，wg i.ΣBi，Bi，J（λ），wf+Fg.ΣBi，Bi，J（λ），wg，哪里|Bi，J（λ）| denotes the number of instances in subset（六）其中Bi，J（λ）表示实例子集，并且J（λ）的. Bi的index，J（λ），由参数λ决定。Bi，J（λ）和Bi，j ∈ Bi，J（λ）.在模型学习过程中，C-MIL平等地利用所有的信息，在子集Bi，J（λ）中的姿态来微调网络参数。由于实例在空间上重叠并分类，Ff Bi，Bi，J（λ），wf是连续损失函数，相关的，C-MIL可以收集对象/部分的对象范围ac-实例选择和Fg.ΣBi，Bi，J（λ），，wg延续提伐，菲格。二、当λ = 0时，每个袋Bi具有单个子-检测器估计的损失函数。继续实例选择。当学习实例选择器时，袋子被划分为实例子集，图。二、在每个子集中，对象提议是空间相关的，2204包含所有实例的集合。这等于改变了任期maxjf（Bi，j，wf）的等式 3到jf（Bi，j，wf），然后等式7变凸。当λ=1时，袋子Bi被划分为多个子集，每个子集包含单个输入，2205图3：连续实例选择和连续检测器估计模块在深度网络上实现，用于弱监督对象检测。C是对象类别的数量。在前馈过程中，C-MIL从子集中选择正实例，并将它们用作检测器估计的伪对象。在反向传播中，实例选择器和对象检测器使用SGD算法联合优化。因此，Eq.7恶化到原来的损失函数，方程。3.对于0<λ1，每个袋子Bi具有多个子集。根据等式8中，实例子集的得分损失函数方程。因此，7比Eq更平滑3，然后由等式定义的CMIL的损失函数。6的阈值λ/2从0增加到0.5。根据等式9，越来越多的实例被估计为阳性或阴性。基于这些情况，检测器gz（Bi，j，wg）使用损失函数逐渐估计，损失函数定义为比用Eq定义的MIL更平滑。2.换句话说，定义了一系列平滑损失函数，以减轻.ΣFgBi，Bi，J（λ），wgΣ Σ=−δz，yijloggz（Bi，j，wg）。方程的非凸性问题3、发现更好的，解[3，31]，图第1段（b）分段。连续检测器估计。在模型学习过程中，选取平均得分最高的子集Bi，J（λ）进行检测器估计。考虑到没有可用的边界框注释，实例选择器为zj3.4. 执行（十）不准确，并且所选子集可能包含对象部件或背景。我们进一步提出使用连续策略来估计可靠的实例和学习检测器。我们建议使用延续参数λ将实例划分为阳性和阴性。将学习的实例子集表示为Bi，J （λ），并且将Bi，J（λ）中的最高得分的实例表示为Bi，j。根据空间关系，袋子中的照片被.C-MIL是用端到端深度神经网络实现的，在FC层的顶部添加了连续实例选择和连续对象估计模块。3.在训练阶段，首先使用选择性搜索方法[32]为每个图像生成对应于区域建议的多个实例。CONV5顶部的ROI池化层和两个完全连接的层， ER用于例如特征提取。在前馈过程中，C-MIL从子集中选择正实例，并将它们用作检测器估计的伪对象yi，j=+1，ifIoU（Bi，j，Bi，j）≥1−λ/2，（9）−1，ifIoU（Bi，j，Bi，j<$）λ/2mation在反向传播中，实例选择器和对象检测器用SGD算法联合优化。其中IoU计算两个实例（边界框）的交集。当量9定义其IoU与Bi，j的比值大于阈值1−λ/2的都是假的。Bi，j≤λ/2时的 IoU我的意思是，我的意思是，我的意思是。例如，谁是爱你与Bi，[λ/2，1 −λ/2]被忽略。在学习过程中，随着连续参数λ从0变为1，阈值1-λ/2通过前向和反向传播过程，网络参数被更新，实例选择器和对象检测器被学习。检测过程包括实例特征提取和实例分类。3.学习的检测器计算所有实例的对象分数，并且使用非最大抑制（NMS）来去除重叠的实例。延续实例选择延续我实例子集实例子集选择图像cl离子阿西菲卡特分区损失图像标签输入图像（袋）连续检测器估计区域提案（例）Softmax目标检测损失伪对象标号延续实例标签估计Conv1~FC7，ROI池FC（C+1FC（C2206密耳C−MIL线性分段线性Sigmoid指数日志10.80.60.40.200 5 10 15 20训练时期100 70906080504070306020501040 00 5 10 15 20 0训练时期5 10 15 20训练时期图4：定义了五个函数来控制连续参数的变化。4. 实验使用平均精度（mAP）[25]和正确定位（CorLoc）指标[36]在PASCAL VOC 2007和PASCAL VOC 2012数据集上评估C-MIL，其中Cor-Loc是最高分数区域与地面实况对象区域的交互比（IoU）至少为0.5的图像百分比。在下文中，我们首先介绍了实验设置，然后分析了为连续参数定义的函数的效果。对C-MIL训练过程中出现的稳定语义极值区域（SSERs）进行了讨论。最后，我们报告了C-MIL在WSOD上的性能，并将其与最先进的方法进行了比较。4.1. 实验设置C-MIL是基于在ILSVRC 2012数据集[1]上预训练的VGGF和VGG 16 CNN模型[23]实现的。我们使用选择性搜索[32]为每个图像提取2000个对象提案作为实例，并删除那些宽度或高度小于20像素的对象。将输入图像相对于较大侧（高度或宽度）重新调整为5个尺度{480，576，688，864，1200}。训练图像的尺度是随机选择的图像被随机水平剪切。通过这种方式，每个测试图像被增强为总共10个图像[8，14，34]。在学习过程中，我们使用了SGD算法，动量为0.9，权重衰减为5e-4，批量大小为1。该模型迭代了20个时期，前10个时期的学习率为5e-3，后10个时期的学习率为5e-4。在测试期间，对来自10个增强图像的每个实例的输出分数进行平均。4.2. 延拓法在本节中，我们研究了如何控制连续参数λ，并评估了对实例选择和检测器估计的影响。所有实验均在VOC2007基准上进行。延拓参数λ。为了控制变化图5：训练期间图像分类和对象定位性能的演变。表1：控制连续参数λ变化的五个函数的比较。VGGF在VOC 2007数据集上的检测和定位性能（%）方法方法/连续函数地图CorLoc密耳[22]第二十二话36.055.0线性37.958.9分段线性37.657.4C-MIL（我们的）乙状38.358.4Exp37.156.4日志40.759.5表2：C-MIL的消融实验结果。VGGF在VOC 2007数据集上的检测性能（%）。方法例如选择器对象检测器地图MIL [22]--36.0J39.0C-MIL（我们的）J37.4JJ40.7在训练过程中，参数λ的速率，五个函数进行了评估，图。4，结果如表1所示。通过连续优化，检测和局部-性能分别提高了1.1%~ 4.7%和1.4%~ 4.5%。表1显示“Log”函数报告了最佳性能。使用“Log”函数，λ在早期训练时期快速增加，而在后期时期缓慢变化，图13。4.这与学习过程一致：在早期训练阶段，实例子集较大，需要向正实例方向缩小;在以后的时期，实例子集趋于稳定，需要关注检测器估计。连续优化。表2示出了连续实例选择和连续检测器估计的烧蚀实验结果与基线方法相比，引入延续实例选择将性能提高了3.0%（39.0% vs.36.0%）;引入对象估计的连续性进一步提高了1.4%的性能（37.4%对36.0%）。密耳C−MIL延续参数图像分类mAP科尔2207密耳C-MIL密耳C-MIL稳定语义极值区域第2期第4期第8期第14期第20期定位结果图6：稳定语义极值区域（Stable Semantic Extremal Regions，SSER）MIL激活了图像分类的辨别区域，但错过了完整的对象范围。C-MIL发现了指示完整对象范围的SSER。C-MIL的连续参数λ随着从epoch 0到epoch 20的训练过程从0增加到1。最后一列中的黄色框和绿色框分别表示地面实况和定位结果。(Best颜色显示）将两个模块组合在一起，总性能为4.7%（40.7%，36.0%），这清楚地表明连续优化设计的C-MIL的有效性。在图5中，我们可视化了训练过程中图像分类和对象定位的演变。MIL在早期训练阶段取得了比C-MIL更高的分类性能。在后期，C-MIL的分类性能赶上了MIL，而本地化性能一直高于MIL。其原因在于MIL主要是优化图像分类，而没有考虑目标定位。因此，它倾向于发现对图像分类有区别但错过对象位置的区域。相反，C-MIL通过学习实例子集优化了图像分类和对象定位，其中对象属性是空间相关和类相关的。4.3. 稳定语义极值区域为了理解连续优化，我们在图1中可视化了不同训练时期中的学习子集/实例。6.可以看出，实例子集（激活区域）随着λ从0到1的增加而逐渐减小。在早期的学习时代，大型子集被定义为收集尽可能多的对象/部分。在以后的学习时期，实例子集停止萎缩，并倾向于在对象边界周围形成稳定的激活区域。这些区域被称为稳定硒极值区（SSERs），通常是满的对象范围。SSERs的出现表明，在学习过程中，C-MIL在激活客体区域的同时持续抑制背景。该过程有点类似于提取最大稳定极值区域（MSER）的过程[26]。不同之处在于MSER是针对灰度稳定区域定义的，并且以无监督的方式提取，而SSER是针对语义稳定区域定义的，并且以弱监督的方式学习。4.4. 性能表3显示了C-MIL的性能以及与PASCAL VOC 2007数据集上最先进方法的比较。可以看出，VGGF和VGG 16模型的C-MIL分别达到40.7%和50.5%。对于VGGF，C-MIL 分别优于 WCCN [14] ， OICR [34] 和 MELM [37]3.4%（40.7%）vs. 37.3%）、2.8%（40.7% vs. 37.9%）和2.3%（40.7%）vs. 38.4%）。使用VGG 16，它分别比WeakRPN [35]、TS2 C [38]和MELM [37]的表现好6.2%(50.5%与 44.3%）、5.2%（50.5% vs. 45.3%）和3.2%(50.5% vs. 47.3%），这在具有挑战性的WSOD任务方面是很大的差距。我们进一步使用学习到的伪对象作为地面实况重新训练Fast-RCNN检测器，并实现了53.1%的mAP，如表3所示，其比现有技术方法的性能高出2.7%至 6.1%。具体来说，Detection稳定语义极值区域时期2第四第八第十四20世纪定位结果2208表3：VOC 2007测试集的检测性能（%）。 C-MIL与最先进技术的比较。网络方法Aero 自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视地图[第15话49.7 33.6 30.8 19.913.040.5 54.3 37.4 14.8 39.89.428.8 38.149.814.524.027.112.142.3 39.731.0LCL+Context [11]48.9 42.3 26.1 11.311.941.3 40.9 34.7 10.8 34.7 18.8 34.4 35.452.719.117.435.933.334.8 46.531.6WSDDN [8]42.9 56.0 32.0 17.610.261.8 50.2 29.03.836.2 18.5 31.1 45.854.510.215.436.345.250.1 43.834.5VGGF/[22]第二十二话57.1 52.0 31.57.611.555.0 53.1 34.11.733.1 49.242.047.356.615.312.824.848.944.4 47.836.3AlexNetWCCN [14]OICR [34]43.953.157.657.134.932.421.312.314.715.864.758.252.856.734.239.66.50.941.244.820.539.933.831.047.654.056.862.412.74.518.820.639.639.246.938.152.948.945.148.637.337.9MELM [37]56.4 54.7 30.9 21.117.352.8 60.0 36.13.947.8 35.5 28.9 30.961.05.822.838.839.642.1 54.838.4C-MIL（我们的）54.5 55.5 34.4 20.316.753.4 59.2 44.68.446.0 40.2 40.8 47.763.222.823.239.444.353.8 52.340.7WSDDN [8]39.4 50.1 31.5 16.312.664.5 42.8 42.6 10.1 35.7 24.9 38.2 34.455.69.414.730.240.754.7 46.934.8[第15话54.5 47.4 41.3 20.817.751.9 63.5 46.1 21.8 57.1 22.1 34.4 50.561.816.229.940.715.955.3 40.239.5OICR [34]58.0 62.4 31.1 19.413.065.1 62.2 28.4 24.8 44.7 30.6 25.3 37.865.515.724.141.746.964.3 62.641.2VGG16WCCN [14]249.5 60.6 38.6 29.216.270.8 56.9 42.5 10.9 44.1 29.9 42.2 47.964.113.823.545.954.160.8 54.542.8TS C [38]59.3 57.5 43.7 27.313.563.9 61.7 59.9 24.1 46.9 36.7 45.6 39.962.610.323.641.752.458.7 56.644.3WeakRPN [35]57.9 70.537.85.721.066.1 69.2 59.43.457.1 57.3 35.2 64.268.632.828.650.849.541.1 30.045.3MELM [37]55.6 66.9 34.2 29.116.468.8 68.1 43.0 25.0 65.6 45.3 53.2 49.668.62.025.452.556.862.1 57.147.3C-MIL（我们的）62.5 58.4 49.532.119.870.5 66.1 63.4 20.0 60.5 52.9 53.557.468.98.424.651.858.766.7 63.550.5OICR-Ens。[34个]65.5 67.2 47.2 21.622.168.0 68.5 35.95.763.1 49.5 30.3 64.766.113.025.650.057.160.2 59.047.0FRCNN2TS C [38]--------------------48.0重新训练WeakRPN-Ens。[35]第三十五届63.0 69.740.8 11.627.770.5 74.1 58.5 10.0 66.7 60.6 34.7 75.770.325.726.555.456.455.5 54.950.4C-MIL（我们的）61.8 60.9 56.228.918.968.2 69.6 71.4 18.5 64.3 57.2 66.965.965.713.822.954.161.968.2 66.153.1表4：使用VGG16对VOC 2012数据集的检测和定位性能（%）。C-MIL与最先进技术的比较。方法地图CorLocWCCN [14]37.9-自学成才[21]38.358.8OICR [34]37.962.12TS C [38]40.064.4WeakRPN [35]40.864.9MELM [37]42.4-C-MIL（我们的）46.767.4“cat” (+3.5%), “train” (+4.5%) signiﬁcantly表 4 显示了所提出的 C-MIL 和最先进的方法在PASCAL VOC 2012数据集上使用VGG 16的检测结果。对于检测，C-MIL分别优于WeakRPN [35]，TS2 C [38]和MELM [37] 5.9%（46.7% vs.40.8%）、6.7%（46.7%vs.40.0%）和4.3%（46.7% vs. 42.4%）。我们评估了C-MIL的目标定位性能，并将其与表4和表5中的最新方法进行了比较。所使用的正确定位（CorLoc）度量[36]是最高对象得分区域与地面实况的交互联合（IoU）至少为0.5的图像百分比。可以看出，C-MIL 的恢复优于 WeakRPN [35] 和 TS 2 C [38] 1.2%（65.0% vs. 63.8%）和4.0%（65.0% vs. 61.0%）VOC 2007 年，和 3.0% （ 67.4% 与 64.4% ）和 2.5%（67.4%）vs. 64.9%）。表5：2007年VOC本地化绩效（%）训练值集 C-MIL与最先进技术的比较。CNN方法地图WSDDN [8]53.5WCCN [14]56.7VGG16OICR [34]60.62TS C [38]61.0WeakRPN [35]63.8C-MIL（我们的）65.05. 结论我们提出了一种优雅而有效的方法，称为C-MIL，用于弱监督对象检测。C-MIL的目标是使用一系列平滑损失函数来缓解多示例学习的非凸性问题。通过引入参数策略（例如子集划分）并根据深度学习框架中的这些子集评估训练损失来定义这些函数。C-MIL显著提高了弱监督对象检测和弱监督对象定位的性能，与最先进的方法形成鲜明对比。潜在的现实是，结合深度特征学习的连续优化首先收集对象/对象部分以激活真实对象范围，然后发现用于对象定位的稳定语义极值区域（SSER）。这为弱监督对象检测问题提供了新的见解。致谢。作者非常感谢国家自然科学基金项目61836012 、 61771447 、 61671427 和北京市科委项目Z181100008918014的资助。2209引用[1] Krizhevsky Alex，Sutskever Ilya，and Hinton GeoffreyE.使用深度卷积神经网络进行Imagenet分类。在神经信息Adv.过程（NIPS），第1097-1105页，2012年。[2] 尤金湖Allgower和Kurt Georg。数值连续化方法1990年[3] Eugene L Allgower，Kurt Georg，and R Hettich.数值延拓方法。介绍一下。 Jahresbericht der DeutschenMathematiker Vereinigung，96（1）：26[4] Amir Beck和Marc Teboulle。平滑和一阶方法：统一的框架。SIAM Journal on Optimization，22（2）：557[5] Yoshua Bengio ， J e´ r ome Louradou r ， RonanCollobert，and Ja-son Weston.课程学习。In Proc. 26stInt.马赫会议学习.（ICML），第41-48页。ACM ，2009年。[6] Hakan Bilen、Marco Pedersoli和Tinne Tuytelaars。后验正则化弱监督目标检测。在英国。马赫目视Conf.（BMVC），第1997-2005页，2014年。[7] Hakan Bilen、Marco Pedersoli和Tinne Tuytelaars。基于凸聚类的弱监督目标检测正在进行IEEE国际确认补偿目视模式识别。（CVPR），第1081-1089页，2015年。[8] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络正在进行 IEEE 国际确认补偿目视模式识别。（CVPR），第2846-2854页，2016年。[9] PratikChaudhari ， AnnaChoromanska ， StefanoSoatto ， Yann LeCun ， Carlo Baldassi ， ChristianBorgs，Jennifer Chayes，Levent Sagun，and RiccardoZecchina.Entropy-sgd：倾斜的梯度下降到宽谷。在国际会议学习中。代表。，2017年。[10] 陈小军非光滑、非凸最小化的光滑方法MathematicalProgramming，134（1）：71[11] 王冲、黄凯琪、任伟强、张君阁、马来亚银行史蒂夫。通过潜在类别学习的大规模弱监督对象定位 IEEETrans. 图像处理。，24（4）：1371[12] 王冲，任伟强，黄凯琪，谭铁牛。基于潜在类别学习的弱监督对象定位。在proc 欧洲Conf. Comput. 目视（ECCV），第431-445页，2014。[13] Djork-Arne 'Clevert ， Thomas Unterthiner ， and SeppHochre- iter.通过指数线性单元（elus）进行快速准确的深度网络学习 arXiv 预印本 arXiv ： 1511.07289 ，2015。[14] Ali Diba 、 Vivek Sharma 、 Ali Pazandeh 、 HamedPirsiavash和Luc Van Gool。弱监督级联卷积网络。在proc IEEE 国际 Conf. Comput. 目视 Pat-tern Recognit.（CVPR），第5131-5139页，2017年。[15] 李东，黄家斌，李雅丽，王胜金，杨明轩。具有渐进域适应的弱监督对象定位。在proc IEEE国际确认补偿目视模式识别。（CVPR），第3512-3520页，2016年。[16] Mingfei Gao ，Ang Li，Ruichi Yu，Vlad I Morariu，and Larry S Davis. C-wsl：计数引导的弱监督局部化。2018年。[17] 罗斯·格希克。快速R-CNN 。在proc IEEE国际Conf.Comput.目视模式识别。（CVPR），第1440-1448页，2015年。[18] Cinbis Ramazan Gokberk，Verbeek Jakob，and SchmidCordelia. 用于弱监督对象定位的多重mil训练在procIEEE国际Conf. Comput. 目视模式识别。研讨会，第2409-2416页，2014年。[19] Cinbis Ramazan Gokberk，Verbeek Jakob，and SchmidCordelia. 基于多重多示例学习的弱监督目标定位IEEE传输模式分析马赫内特尔，39（1）：189[20] Caglar Gulcehre，Marcin Moczulski，Francesco Visin，and Yoonge Bengio.安抚网络。在国际会议学习中。代表。，2017年。[21] 杰泽群，魏云超，金小杰，冯佳世，刘伟。用于弱监督对象定位的深度自学学习正在进行IEEE国际确认补偿目视模式识别。（CVPR），第4294-4302页，2017年。[22] Vadim Kantor

下载后可阅读完整内容，剩余1页未读，立即下载