基于弱监督语义分割的视频活动区域帧间聚合方法

98 浏览量更新于2023-10-13 收藏 1.43MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6808基于弱监督语义分割的Web视频活动区域帧间聚合Jungbeom Lee1Eunji Kim1Sungmin Lee1Jangho Lee1SungrohYoon1，2，*1韩国首尔国立大学电气与计算机工程系2ASRI、INMC、ISRC和首尔国立大学工程研究所{jbeom.lee93，kce407，simonlee0810，ubuntu，sryoon}@snu.ac.kr摘要当一个深度神经网络只使用图像级标记的数据进行训练我们提出了一种方法，使用视频自动收获的网络，以确定一个更大的区域的目标对象，通过使用时间信息，这是不存在于静态图像。视频中的时间变化允许目标对象的不同区域被激活。我们在视频的每一帧中获得一个激活区域，然后使用基于光流的扭曲技术将连续帧中的区域聚集成单个所得到的定位图覆盖更多的目标对象，并且然后可以用作代理地面实况以训练分割网络。在相同的监督级别下，这种简单的方法优于ex-task方法，甚至优于依赖于额外注释的方法。基于VGG-16（一）单个（b）第（1）款多和ResNet 101主干，我们的方法在PASCAL VOC 2012测试图像上分别实现了65.0和67.4的mIoU，这代表了新的最先进水平。1. 介绍语义分割是计算机视觉中最重要的任务之一，并且在完全注释的像素级标签方面取得了巨大进展[52，3]。然而，语义图像分割的实际应用需要大量的各种各样的对象类和大量的标记数据的每个类，标记像素级的注释是费力的。这个问题可以通过弱监督方法来解决，这些方法使用更容易获得的注释，例如涂鸦，边界框或图像级标签。弱监督语义分割方法发展迅速。涂鸦监督[39]现在可以在相同的骨干网络上实现97%的手动监督语义分割性能，即使是最弱的图像级监督[24]也可以产生* 通信：Sungroh Yoon 。图1：（a）我们的方法发现激活区域，每个帧，并使用基于光流的扭曲技术（b）比较从单个帧（第1行）获得的和针对多个帧（第2行）聚合的所生成的代理地面实况掩码。后者覆盖了目标对象的更大区域，因为它包含来自多个帧的信息。90%的表现。然而，依赖于弱注释的分割技术的改进率正在迅速下降。例如，在图像级监督下，PASCALVOC 2012验证图像[7]在2016年和2018年之间实现了7.9%的改进。2017年[23，2]，2017年至2018年[46]之间为1.8%，但仅0.8%[24]。弱监督分割的大多数方法使用由分类器（例如，分类器）激活的定位图CAM [53]）作为代理地面实况来训练它们的分段网络。然而，因为这样的定位图是粗糙的并且因此仅激活目标对象的一部分，所以它们提供代理地面实况的差版本。一些研究人员光流翘曲聚合人自行车人自行车6809试图通过擦除目标对象的可辨别部分[44，15]或引入不同大小的感受野[46，24，25]来解决这个问题，但是这些发展遇到了限制，因为可以从图像级注释获得的信息有限当然，可以使用更强的监督方法，例如实例级显着性[16]，scrib-bles [40，41]或边界框[4]，但所需的额外监督使得扩展对象类或移动到新域变得更加困难。减少强监督所需的努力的一种方式是使用所谓的网络监督分割，其利用网络上的大量图像和视频数据，其可以与其他现有的弱注释数据组合使用。然而，从网络获得的数据可能是低质量的，或者可能不描绘与搜索项相对应的任何对象已经尝试通过使用从具有准确图像级注释的图像（例如，从图像中学习到的知识）的过滤方法来提高这样的数据的质量。PASCALVOC 2012数据集[7]），或使用现有的图像分割技术，如GrabCut [32]。尽管存在标签问题，但一些复杂的网络监督方法已显示出卓越的性能[35，12，14，21]。然而，Web图像的附加使用带来与现有弱注释数据相同的粗糙度水平另一方面，视频中的节奏变化允许分类器激活目标对象的不同区域，使得视频提供了获得比静态图像更好的像素级注释的可能性。我们提出了一种方法，收集在不同的帧中激活的区域，使用基于光流的翘曲技术。光流提供两个连续帧之间的像素级位移，使得可以推断帧的哪些部分对应。将第一帧中的激活区域翘曲到第二帧中确定了第二帧的哪些区域应该被激活。这些翘曲区域可以与第二帧的部分聚合，这些部分根据其自身的优点被激活。我们重复此步骤，以便在几个帧中激活的区域在单个帧中可用。图1（a）显示了这是如何在一个例子中工作的，图1（b）展示了激活区域面积的增加，以及这如何更清楚地对应于原始图像的真实情况。此外，视频中多个帧的可用性允许更有效的过滤以细化不准确的标签（参见第3.2节）。现有的网络监督分割方法依赖于现成的分割技术[12，35]，例如GrabCut [32]，能量函数的复杂优化[12，42]或启发式约束[35]，以生成一个新的分割算法。从网络获得的数据的代理地面实况我们的技术不需要这些。本文的主要贡献可以概括如下：• 我们提出了简单的数据过滤和增量变形技术，允许网络视频作为一个额外的数据源，在弱监督se-mantic图像分割。• 我们的经验表明，我们的处理网络视频数据的方法，提高了几种方法的弱监督分割的性能。• 我们的技术显着优于其他国家的最先进的方法在Pascal VOC 2012基准在弱监督和网络监督设置。2. 相关工作在过去的四年中，通过完全监督的语义分割，PASCAL VOC 2012基准测试的改进超过20%[27，48]。然而，由于在实际应用中很难获得所有类型图像和对象类别的像素级注释，因此语义分割很难得到广泛应用。弱监督语义分割方法已经提出来解决这个问题，他们已经取得了可喜的成绩（第2.1节）。已经引入了使用由网络爬虫获得的图像或视频的网络监督语义分割方法，作为缩小弱监督方法和全监督方法的性能之间的差距的一种方式（第2.2节）。2.1. 弱监督语义分割弱监督语义分割的目标是训练具有待识别对象的相对不精确的描绘的图像分割网络。弱监督可以采取涂鸦[41，40]，绑定框[4]或图像级标签的形式，这是现在将关注的方法大多数图像级标注的方法都是基于类别激活图（CAM）[53]。然而，众所周知，CAM仅识别目标对象的小的辨别部分[49，17，44]。因此，由CAM获得的定位图不够完整，不能用作训练分割网络的代理地面实况。已经提出了几种技术来将这些激活区域扩展到整个目标对象。擦除方法[22，44，15]通过移除那些区域来防止分类器仅关注对象的有区别的部分。其他方法通过不同大小的感受野来构建体现目标对象的多尺度上下文的CAM。MDC [46]计算CAM6810从具有不同感受野的特征，通过以不同速率扩张的几个卷积块来实现。Pyramid Grad-CAM [25]从几个密集连接的层中的每个层收集特征FickleNet [24]通过使用修改的dropout技术随机选择特征：这不仅防止分类器仅集中于区分部分，而且对于每个推断使用不同的接受域。区域生长方法尝试从作为种子的初始CAM开始扩展目标对象的区域Affini- tyNet [1]和CIAN [8]考虑了像素级的语义相似性，它识别像素之间的关系，并生长区域V中的视频，并且分类结果可以用于过滤掉不相关的帧或更新视频V的标签（第3.2节）。然后，使用增量扭曲方法（第3.3节）生成所选帧序列的代理地面实况最后，代理地面实况用于训练分割网络（第3.4节）。整个过程如算法1所示。算法一：总体手术输入：图像数据集I，网络视频数据集V1使用ISec. 第3.1节2V？←V Sec的数据过滤第3.2节3 生成代理真实数据：第二节第3.3节基于这些亲和力。[23]第23话：一个人在训练期间对初始定位图进行精细化4MI，MV←I和V上CAM的掩码5MV←按增量式加权合并MV秒3.3.1秒3.3.2其分割网络通过所产生的segmen-在训练时间期间，使用条件随机场（CRF）来细化站图。2.2. Web监督语义分割随着弱监督语义分割的发展，一些研究人员已经尝试使用从网络获得的附加图像或视频来改善弱监督方法的性能。WebS- i2 [21]收集两种类型的Web数据：在白色背景上示出目标类对象的图像和包含普通背景而没有任何感兴趣类对象的图像。然后，它训练的分割网络，通过一个迭代的细化过程中的真实的图像，其弱注释准确标记。Web-Crawl [12]通过检查缩略图从YouTube中选择视频，并通过基于时空图的优化对其进行分割。Bootstrap-Web [35]使用启发式约束（如对象的大小）找到预期易于分割的图像，并在两个网络之间交换知识;一个是通过过滤的易于分割的网络图像进行训练所有这些方法都在一定程度上提高了分割性能，但它们在很大程度上依赖于复杂的优化方法、启发式约束或现成的分割方法，如GrabCut [32]3. 该方法我们的目标是用弱注释的图像数据I和网络视频数据V训练一个分割网络。虽然I中的每个图像的图像级标签已经被手动注释，但是V用有噪声的视频级标签注释，因为它已经通过用每个对象类的名称作为搜索项进行搜索而从网络收集。我们的培训程序有以下步骤：在I上训练深度神经网络以识别对象的类别（第3.1节）。经过训练后，网络处理6 培训细分网络：SEC。第3.4节7L1←使用（I，MI）计算分割损失8LV←使用（V，MV）计算分割损失9通过LI+LV？更新分段3.1. 用精确的标签学习我们使用I训练深度卷积神经网络，它具有精确的图像级多类标签。为了获得类激活图（CAM）（第3.3节），我们通过删除所有全连接层并添加额外的卷积层，将VGG-16网络[36]修改为全卷积，以便最终输出特征的通道数量与感兴趣的类的数量相对应。然后，我们将全局平均池（GAP）和sigmoid函数应用于网络输出的特征，以便获得每个类别的得分我们使用这些结果来更新分类器的参数，通过一个S形交叉熵损失函数，广泛用于多标签分类的排序。3.2. 噪声数据集的数据过滤期望描绘某类对象的图像或视频可以通过使用该类的名称作为搜索项进行搜索而从web获得。该名称然后用于标记所获取的图像或视频。但是并非所有得到的图像或视频将实际上示出该类别的对象，并且它们中的许多将包含除了对应于搜索项的类别之外的类别的对象。例如，通过搜索“马”获得的视频可能显示一个人骑着马;但它只会被标记为“马”，这是搜索词。大多数网络监督分割方法使用从精确注释的图像数据获得的知识来消除不描绘与搜索词相对应的任何对象的网络图像或视频。例如，Bootstrap-Web [35]使用SEC [23]，它是由精确注释的数据训练的，从Web图像中获得像素级的类掩码它会丢弃图像太少或太6811输入图像合并CAM规格：289尺寸：305尺寸：321尺寸：337尺寸：353图2：通过翻转和重新缩放输入图像获得的CAM.重新缩放会更改考虑图像不同的区域倾向于被翻转的图像激活。在相应的掩模中分配给搜索项类的对象的许多像素。Web-Crawl [12]专门处理视频，如果视频少于5帧，其搜索项的分类得分达到阈值。这些方法基于图像或视频中仅存在单个类别的对象的假设来工作。但是自动收集的图像或视频可以预期包含许多类别的对象在PASCAL VOC 2012数据中，超过36%的训练图像用一个以上的类进行注释。因此，我们引入了一种增量式多类过滤和标签细化方法，该方法考虑了视频的几个连续帧。我们可以消除没有显示感兴趣对象的视频，并比在单个图像上执行这些过程更有效地纠正不准确的标签。当在视频的连续帧中发现相同类别的对象时，实际描绘该类别的对象的可能性增加。这意味着标签可以被分配给视频而不是图像，并且多类标记变得更加可行。在第3.1节中训练的分类器处理V中的视频，并且推断存在于每个帧中的对象类别，其被认为是具有大于阈值的分数的那些τ.然后将这些类别的标签的集合C附接到每个帧。我们将K个帧的序列添加到过滤后的视频集合V（，如果那些K个帧都显示来自类别C的相同集合的对象，并且那些类别中的一个对应于搜索项。我们排除不满足上述条件的帧。3.3. 生成代理地面实况我们现在有一组图像I，具有准确的图像级别标签，以及一组网络视频V#，具有比最初从搜索项获得的标签更准确的标签我们现在描述为V？中的帧创建代理地面实况，并使用它来训练分段网络。（一）帧掩模（b）第（1）款图3：（a）单步聚集的概念描述。激活区域Ml的掩模被扭曲为W（M1，P1→2），并与掩码M2聚合，生成M2. （b）生成的掩码的示例。红色圆圈表示仅由Ml掩蔽的区域，并且蓝色圆圈表示仅由M2掩蔽的区域。遮罩M2包含的目标物体比M1和M2多。3.3.1推理定位图我们使用CAM [53]来获得图像中每类对象的定位图。Zhang等人。 [49]经验地证明，并且在数学上证明，最后一个特征的第c个通道成为第c个类别的CAM，在第3.1节所述类型的完全卷积网络中。我们从水平缩放或翻转的图像中获得CAM。在对CAM应用逆变换之后，我们在所有地图上选择每个像素处的最大值。图2示出了在CAM上翻转和缩放的效果的一些示例。来自小图像的CAM提供粗略定位，并且来自较大图像的CAM识别对象的更多细节此外，不同的区域被翻转的图像激活。3.3.2局部化图众所周知，CAM仅识别目标对象的小的区分部分[49，17，44]。我们的方法通过合并来自视频的连续帧的信息来获得关于目标对象的较大区域的信息。从连续帧中获得指示目标对象的不同区域的掩模两个连续帧之间的光流的分析提供了翘曲，其对将一个帧中的像素与另一个帧中的像素相关的位移进行编码。通过将从一帧获得的掩模扭曲到下一帧，我们可以将第一帧的激活区域转移到第二帧，从而允许在单个图像中考虑两帧的激活区域的联合。帧帧掩模合并扭曲掩模光流掩模翻转不翻转合并6812i=1i=1i=12 21设X∈V是包含K个帧{xi}K的视频. 我们这些地图被用作代理地面计算掩码{Mc}K对于C中的每个类别c，通过阈值-真相，以微调网络。i i=1将{xi}K的定位图与阈值θf。我们获得每个之间的光流{Pi→i+1}K−14. 实验一对连续的帧。我们现在将考虑单个聚合步骤，其将从连续的聚合中获得的掩码M。4.1. 实验装置12图像数据集：我们在PAS-12上进行了实验帧x1和x2，对于单个类c。设W（I，f）为使图像I跟随流场扭曲的函数f，使用双线性插值。如果P1→2是x1和x2之间的流场，则我们可以使用该函数来弯曲McCAL VOC 2012图像分割基准[7]，其中包含20个前景对象类和一个背景类。使用相同的协议作为其他工作弱到x的空间。扭曲的掩模W（Mc，P1监督语义分割，我们训练了我们的网络211→2）前-按下与激活的重新激活相对应的x2x1的gions。然后可以获得一个聚合的掩模Mc使用具有图像级注释的增强的10，582个训练图像。我们确定了平均交并比1，449个验证图像和1，456个测试图像的2个c（mIoU）值作为来自x1的扭曲掩模和掩模M2的并集从x2得到。Mc=Mc∪W（Mc，P1→2）.（一）我们对C中剩余的带注释的对象类重复这个过程，并将结果称为M？2。这个过程在图3（a）中说明，图3（b）显示了一个unionedmaskmapM2包含来自以下的作用区域：都是帧x1和x2。然后，可以使用以下操作对M2进行包装流P2→3，与M3聚合，生成M3。通过重复这个过程，直到第K帧，我们可以得到MK，它包含所有行为的并集所有K帧的区域。来自所有然后，可以将视频中的视频用作代理地面实况来训练分割网络。3.4.分割网络许多弱监督分割方法建立在现有的弱监督分割网络上。例如，MDC [46]基于AE-PSL [44]的略微修改版本，GAIN [26]，TPL [22]和Boost-Web [35]基于SEC[23]。我们使用了Fick- leNet [24]，但我们也试验了另外两个流行的弱监督语义分割网络：[23]和DSRG[17]。所有这些分割网络都是使用由第3.3节中描述的方法生成的代理地面真值来训练的。通过显著性检测[13]识别V的背景，并且包括显著性值低于θb的所有像素。当每个分割网络被训练时，我们使用由每个分割方法的作者提供的I对于训练时间中的每次迭代，我们创建一个批处理;批处理中一半的元素来自I，另一半来自从V？我们从下式获得分段损失LI和LV来自I和V的数据表示I值。然后，我们通过LI+LV^ 更新分段网络。由于I和V可以具有不同的数据分布，因此我们执行域适配。根据[12]的方法：使用I和V来训练分割网络，以预测用于图像的分割掩码。图像.测试图像的结果从官方PASCAL VOC评估服务器获得。网络视频数据集：从Web-Crawl [12]数据集开始，我们过滤掉不相关的帧，并使用阈值τ = 0细化不准确的标签。9，并且将来自K= 5个帧的掩模聚合成单个掩模，产生15，000个最终样本用于训练分割网络。如果在3.2节中可以从每个视频中选择几组帧，则我们仅选择一组以避免样本的相似性我们使用PWC-Net [38]获得光流前景和背景阈值θf和θb分别设为0.2和0.3。0.12。分类网络：我们的分类器基于VGG-16网络[36]，使用Imagenet [5]数据集进行预训练。通过删除所有全连接层和最后一个池化层来修改VGG-16网络，并将最后一个块的卷积层替换为以2的速率膨胀的卷积。我们添加了两个卷积层，具有1024个通道，内核大小为3，具有2D dropout [37]。细分网络：如前所述，我们使用FickleNet [24]、SEC[23]和DSRG [17]进行了实验。我们遵循这些方法的作者推荐的设置，除了可选的域自适应过程，在此过程中，学习率从默认学习率降低到0.01重现性：PyTorch [29]用于训练分类器，提取CAM并获得光流[38]，并且我们在分割步骤中使用Caffe深度学习框架[20]。4.2. 实验结果4.2.1图像分割弱监督分割：表1显示了最近引入的弱监督语义分割方法与各种监督级别的比较。这些方法都使用基于VGG-16的分割模型[36]。我们的方法实现了63.9的 mIoU值6813表1：在VOC 2012验证集和测试集上使用基于VGG16的分割模型的弱监督分割方法的性能比较。方法val检验监督：图像级和附加注释表2：在VOC 2012验证和测试集上使用基于ResNet的分割模型的弱监督分割方法的性能比较。方法脊柱评价试验弱监督方法：MIL-segCVPR42.040.6MCOF [43]ResNet 10160.361.2[ 45 ]第四十五话49.851.2DCSP [2]ResNet 10160.861.9TransferNet52.151.2DSRG [17]ResNet 10161.463.2AISIECCV61.362.1AffinityNet [1]ResNet 3861.763.7监督：仅图像级注释SECECCVCBTS-cuesCVPRTPLICCVAE_PSLCVPRDCSPBMVCWebly监督方法：Boot-Web [35] ResNet 50 63.0 63.9我们的ResNet 10166.5 67.4表3：VOC 2012验证和测试图像上的网络监督分割方法的比较。 The ‘Samples’ column contains the totalnumber of samples used for training, including the VOC使用网络图像的方法：PASCAL VOC 2012 验证和测试图像分别为 65.0 和65.0，是DeepLab [3]的94.4%，使用完全注释的数据进行训练，在验证图像上实现了67.6的mIoU。我们的方法是3.1%的赌注-测试图像比最好的方法，只使用WebS-i2 CVPR[21] 20.3K 53.4 55.3用于监督的图像级注释。我们的方法也显着优于几种方法，其中有附加的，以及图像级注释。这些方法包括TransferNet [11]，它是在PASCAL VOC中不包括的60个类的像素级注释上训练的AISI [16]有一个显着实例检测器，它是在注释良好的实例级显着图上训练的，这是最难获得的注释形式之一。我们的方法也彻底优于基于ResNet主干的现有方法[10]，如表2所示。图4显示了Bootstrap-Web [35]、Fick-leNet [24]和我们的系统使用VGG-16和基于ResNet的分割模型生成的预测分割掩码的一些示例。一般来说，我们的代理地面实况覆盖了比其他方法产生的目标对象更大的区域，因此我们的方法产生的分割掩模往往更准确。Webly监督的分割：表3示出了mIoU值。我们在PASCAL VOC 2012数据集上实现了Bly监督分割方法和每种方法的训练样本总数。我们的方法显示出最好的性能，尽管是在相对较低的少量数据：10.5k PASCAL VOC图像和15kWeb视频帧，而Web-Crawl [12]和Boot-Web [35]分别使用971 k和87.3k样本进行训练4.2.2视频分割在表4中，我们评估了我们的系统在YouTube-Object数据集[31]上产生的分割结果，并与具有不同监督程度的最先进的视频分割方法进行了比较。我们使用了Jain等人注释的分割掩模。[18]用于评估的地面实况。我们还报告了DSRG [17]和FickleNet [24]的mIoU，它们仅在I上训练作为基线。我们的方法表现出更好的性能比现有的方法，甚至超过了使用更强的监督，如边界框的方法在图6中示出了用于YouTube-Object数据集的预测的分段掩码的几个示例。4.3. 消融研究聚合的帧数：图5（a）显示了PASCAL VOC 2012验证图像的mIoU评分，其中SeeNet [15]ResNet 10163.162.8CAN [8]ResNet 10164.164.7FickleNet [24]ResNet 10164.965.3[ 35 ]第87.3K58.860.2使用网络视频的方法：M-CNNECCV13.6K38.139.8[ 12 ]第971K58.158.7我们25.5K63.965.0MEFFCVPR-55.6[ 26 ]第二十六话55.356.8MCOFCVPR56.257.6AffinityNetCVPR58.460.5[ 17 ]第十八届中国国际汽车工业展览会59.060.4[ 46 ]第46话60.460.8SeeNetNIPS61.160.7[ 24 ]第61.261.9我们63.965.068146060输入图像地面实况基于VGG-16的模型Bootstrap-Web FickleNet我们的基于ResNet模型Bootstrap-Web FickleNet我们的图4：PASCAL VOC 2012验证图像的预测分割掩码示例。表4：在YouTube-Object数据集上具有各种监督的视频对象分割方法61.16#数据0K61.16162.03234562.8163.5463.5663.871K3K5K10K15K62.4963.1863.2463.3563.87CVPRDrayer等人ArXivZhang等TPAMISaleh等人 ICCV'17 [ 34 ] I53.3Web-CrawlCVPR61 6263Miou（一）63.786418.5K061 6263Miou（b）第（1）款63.8264SROWNTIP我们的I62.1U-无监督，B-边界框，I-图像标签图5：（a）使用不同K的mIoU分数的比较。K= 0表示在没有网络视频的情况下训练的结果。(b)使用不同数量的网络数据比较mIoU分数。不同数量的聚合帧K。使用单个帧（K= 1）仅导致在没有任何网络视频（K= 0）的情况下分数的增加连续帧的数量，在这些连续帧上聚合地图可以提高性能，这是我们所期望的，因为目标的较大区域由最终掩码表示但我们发现K= 5以上的聚集是不利的。这可以归因于帧到帧扭曲中涉及的光流的近似随着区域在更多帧中扭曲，预计错误会增加，从而破坏代理地面实况的准确性图7中示出了每个增量扭曲步骤处的聚合掩模的示例。方法辅助核算MiouTang等人CVPRU23.9Papazoglou等人ICCVU46.86815Web样本数量：图5（b）中示出了幅材样品的数量的影响。在没有任何网络视频的情况下，FickleNet [24]仅使用PASCAL VOC数据进行训练，mIoU为61.2。mIoU值单调增加至15，000个样品。更多的样品在性能上产生很小的变化。其他弱监督分割网络：除了FickleNet [24]之外，我们还用我们的方法对SEC [23]和DSRG [17]进行了实验。表5示出了仅具有图像数据I、具有附加视频数据集V以及还具有域自适应DA的这三个分割网络的性能。SEC [23]没有重新训练过程，因此我们在域之前添加了重新训练步骤6816图6：YouTube-Object数据集帧的预测蒙版分割区域的轮廓由绿色曲线表示输入掩码输入掩模输入掩码输入掩码图7：每个增量扭曲步骤处的聚合掩码的示例。表5：添加视频数据V和域自适应DA对三个弱监督分割模型的影响。[24]第23话我的世界一50.7 59.0 61.2mIoUI +V59.5162.1 63.2I+V+DA61.1 62.9 63.91包括重新训练过程适应，沿着DSRG的路线[17]。表5中的结果表明，我们的方法对三个弱监督语义分割网络有效。SEC [23]的结果提供了与基于SEC的Bootstrap-Web[35]进行更公平比较的可能性。对于PASCAL VOC验证图像，我们的方法实现了 61.1 的 mIoU 值，而Bootstrap-Web [35]实现了58.8。5. 结论我们已经提出了一种方法，使用自动从Web上获得的视频我们得到激活区域从视频的每一帧中提取，并将它们聚集在单个图像上，使得我们的代理地面实况覆盖目标对象的大区域。该方法不需要额外的监督，它可以在没有复杂的优化过程或现成的分割方法的情况下实现，并且它需要相对较少的样本，因为从许多帧中提取的许多信息可以被聚合到单个帧中。我们已经证明，我们的方法比其他国家的最先进的弱和网络监督的方法产生更好的结果。我们还证明了我们的方法可以有效地与几个弱监督语义分割网络。鸣谢：这项工作得到了韩国政府资助的韩国国家研究基金会（ NRF ）资助（ MSIT ） [2018 R1 A2B3001628]，通过HMC-SNU AI联盟基金在现代汽车公司的AIR实验室（AI研究实验室），韩国政府资助的信息 & 通信技术规划 & 评估研究所（ IITP ）资助（MSIT）（No.2019-0-01367），三星电子（DS和Foundry），以及2019年的Brain Korea 21 Plus项目。K=5K=3K=4K=2K=16817引用[1] 安智云和郭淑华。学习像素级语义亲和力与图像级监督弱监督语义分割。在IEEE计算机视觉和模式识别会议论文集，2018年。[2] Arslan Chaudhry，Puneet K Dokania，and Philip HS Torr.发现用于弱监督语义分割的类特定像素。2017年英国机器视觉会议。[3] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.使用深度卷积网络和全连接crf的语义图像分割arXiv预印本arXiv：1412.7062，2014。[4] 戴季峰、何开明、孙建。Boxsup：利用边界框来监督卷积网络进行语义分割。在Proceedings of the IEEEInternational Conference on Computer Vision，第1635[5] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在计算机视觉和模式识别，2009年。CVPR2009。IEEE会议，第248-255页。Ieee，2009年。[6] Benjamin Drayer和Thomas Brox用于对象级视频分割的对象检测、跟踪和运动分割 arXiv 预印本 arXiv ：1608.03066，2016。[7] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303[8] 范俊松，张兆祥，谭铁牛。Cian：用于弱监督语义分割的跨图像亲和网络arXiv预印本arXiv：1811.10842，2018。[9] 伟峰阁、司北央、益州羽。基于弱监督学习的多标记分类、目标检测和语义分割的多证据过滤与融合。InProceedings of the IEEE Conference计算机视觉和模式识别，第1277- 1286页，2018年。[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition，第770-778页[11] Seunhoon Hong ， Junhyuk Oh ， Honglak Lee ， andBohyung Han.用深度卷积神经网络学习语义分割的可转移知识。在IEEE计算机视觉和模式识别会议的论文集，第3204-3212页[12] Seunhoon Hong，Donghun Yeo，Suha Kwak，HonglakLee，and Bohyung Han.使用网络抓取视频的弱监督语义分割。在IEEE计算机视觉和模式识别会议论文集，第7322-7330页[13] Qibin Hou ， Ming-Ming Cheng ， Xiaowei Hu ， AliBorji，Zhuowen Tu，and Philip HS Torr.具有短连接的深度监督法律程序的IEEE计算机视觉和模式识别会议，第3203-3212页，2017年。[14] Hou Qibin ， Ming-Ming Cheng ， Jiangjiang Liu ， andPhilip HS Torr. Webseg：从Web搜索中学习语义分割。arXiv预印本arXiv：1803.09859，2018。[15] Hou Qibin，PengTao Jiang，Yunchao Wei，and Ming-Ming Cheng.自我擦除网络的整体对象的注意力。神经信息处理系统进展，第547-557页，2018年[16] 胡世民关联图像间显著实例以用于弱监督语义分割。2018年欧洲计算机视觉会议[17] 黄子龙、王兴刚、王佳思、刘文宇和王京东。基于深度种子区域生长的弱监督语义分割网络。在IEEE计算机视觉和模式识别会议论文集，第7014-7023页[18] Suyog Dutt Jain和Kristen Grauman。Supervoxel-视频中一致的前景传播。欧洲计算机视觉会议，第656-671页。Springer，2014.[19] 张元东李哲宇金昌洙通过前景和背景分布的交替凸优化的视频中的主要对象分割在Proceedings of the IEEEConference on Computer Vision and Pattern Recognition，第696-704页[20] 杨庆贾、埃文·谢尔哈默、杰夫·多纳休、谢尔盖·卡拉耶夫、乔纳森·朗、罗斯·吉希克、塞尔吉奥·瓜达拉马和特雷弗·达雷尔。Caffe：用于快速特征嵌入的卷积架构第22届ACM 国际多媒体会议论文集，第675-678 页。ACM，2014年。[21] Bin Jin，Maria V Ortiz Segovia，and Sabine Susstrunk.我们监督的语义分割。在IEEE计算机视觉和模式识别会议论文集，第3626-3635页[22] Dahun Kim，Donghyeon Cho，Donggeun Yoo，and InSo Kweon.弱监督目标定位的两阶段学习。在IEEE计算机视觉国际会议论文集，2017年。[23] Alexander Kolesnikov和Christoph H Lampert。种子、展开和约束：弱监督图像分割的三个原则。欧洲计算机视觉会议，第695-711页。施普林格，2016年。[24] Jungbeom Lee、Eunji Kim、Sungmin Lee、Jangho Lee和Sungroh Yoon。Ficklenet：Weakly and semi-supervisedse-mantic image segmentation using stochastic inference.在IEEE计算机视觉和模式识别会议论文集，第5267-5276页[25] Sungmin Lee ，Jangho Lee ，Jungbeom Lee ， Chul-KeePark，and Sungroh Yoon.使用金字塔梯度凸轮进行稳健的肿瘤定位。arXiv预印本arXiv：1805.11393，2018。[26] Kunpeng Li，Ziyan Wu，Kuan-Chuan Peng，Jan Ernst，and Yun Fu.告诉我去哪里看：引导注意推理网络。在IEEE计算机视觉和模式识别会议论文集，2018年。6818[27] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集，第3431-3440页[28] Anestis Papazoglou和Vittorio Ferrari。无约束视频中的快速对象在IEEE计算机视觉国际会议论文集，第1777-1784页[29] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动差分。2017年。[30] Pedro O Pinheiro和Ronan Collobert使用卷积网络从图像级到像素级标记。在IEEE计算机视觉和模式识别会议的论文集，第1713-1721页[31] Alessandro Prest 、 Christian Leistner 、 Javier Civera 、Cordelia Schmid和Vittorio Ferrari。从弱注释视频中学习对象类检测器。在IEEE计算机视觉和模式识别会议论文集（Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition ），第 3282-3289 页。IEEE，2012。[32] 卡斯滕·罗瑟弗拉基米尔·科尔莫戈洛夫安德鲁·布莱克。Grabcut：使用迭代图切割的交互式前景提取。在ACM图形交易（TOG），第23卷，第309-314页中。ACM，2004年。[33] Anirban Roy和Sinisa Todorovic结合自下而上、自上而下和平滑度线索进行弱监督图像分割。在IEEE计算机视觉和模式识别会议论文集，第3529- 3538页[34] Fatemeh Sadat Saleh，Mohammad Sadegh Aliakbarian，Mathieu Salzmann，Lars P

下载后可阅读完整内容，剩余1页未读，立即下载