没有合适的资源?快使用搜索试试~ 我知道了~
7322基于网络爬虫视频的弱监督语义分割Seunhoon Hong<$DonghunY eo< $Suha Kw ak Honglak Lee<$Boh yung Han<$†POSTECHPOGIST§UniversityofMichiganPohang,Korea Daegu,Korea Ann Arbor,MI,USA{maga33,hanulbog,bhhan}@ postech.ac.krskwak@dgist.ac.krhonglak@umich.edu摘要我们提出了一种新的算法,弱监督语义分割的基础上图像级的类标签在弱监督设置中,通常观察到训练模型过度关注有区别的部分而不是整个对象区域。我们的目标是克服这一限制,没有额外的人为干预,检索相关的视频从网络存储库的目标类标签,并从检索到的视频生成分割标签,以模拟强大的监督语义分割。在此过程中,我们利用图像分类与歧视性定位技术,以拒绝检索到的视频中的假警报,并确定检索到的视频中的相关时空卷。虽然整个过程不需要任何额外的监督,从视频中获得的分割注释是足够强大的学习模型的语义分割。所提出的算法大大优于现有的方法,基于相同的监督水平,甚至是竞争力的方法依赖于额外的注释。1. 介绍由于深度卷积神经网络(DCNN)[3,21,24,32,37,41],语义分割最近取得了DCNN的成功在很大程度上取决于大规模训练数据集的可用性,其中注释通常是手动给出的。然而,在语义分割中,注释是以逐像素掩码的形式,并且为大量图像收集这样的注释需要巨大的努力和成本。因此,准确和可靠的分段注释仅可用于少量的类。因此,用于语义分割的全监督DCNN仅限于这些类别,并且难以扩展到现实世界图像中出现的许多其他类别。弱监督的方法已经被提出来通过利用大量的弱注释的图像来减轻这个问题在用于语义分割的几种类型的弱监督中,图像级类别标签已经被广泛使用[17,26,28,29,30],因为它很容易从现有的图像数据库中获得[7,10]。从图像级标签生成逐像素标签的最流行方法是基于分割注释和模型参数的联合估计的自监督学习[6,20,29,30]。然而,由于没有办法测量估计的注释的质量,这些方法很容易收敛到次优的解决方案。为了弥补这一限制,除了图像级标签之外,还采用了其他类型的弱监督,边界框[6,26],涂鸦[20],先验元信息[28]和其他类别的分割地面实况[13]。然而,它们通常需要额外的人为干预来获得额外的监督[6,13,26]或采用可能无法很好地推广到其他类的特定领域知识[28]。这项工作的目的是克服内在的限制,在弱监督语义分割没有额外的人的监督。具体来说,我们建议从Web上检索视频,并使用它们作为额外的训练数据源,因为视频中的时间动态提供了丰富的信息,以区分对象和背景,并更准确地估计它们的形状更重要的是,我们的视频检索过程是通过使用一组类别标签作为搜索关键字并从网络存储库(例如,YouTube)。检索的结果是弱注释视频的集合,因为每个视频都被赋予其查询关键字作为视频级类别标签。然而,由于标签和帧之间的模糊关联,直接从弱标记视频中学习语义分割仍然是不该关联在时间上是模糊的,因为视频中只有帧的子集与其类别标签相关。此外,尽管存在表现出显著运动的多个区域,但是其中只有少数区域可能与类别标签相关,这导致空间模糊。这些模糊性在自动抓取的视频中无处不在,无需人工干预。本文的核心思想是利用弱注释的图像和视频来学习单个DCNN进行语义分割。图像与clean类相关联7323标签是手动给出的,因此它们可以用来减轻网络抓取视频中的歧义此外,由于视频中专门提供的运动提示,更容易为了利用这两个领域的互补优势,我们将图像中的区分对象定位技术[42]和视频分割[27]集成到基于DCNN的单个框架中,该框架从视频中生成可靠的分割注释,并使用生成的注释学习图像的语义分割我们的DCNN架构受[13]的启发,由两部分组成,每个部分都有自己的角色:用于图像分类和区别性局部化的编码器[42],以及用于图像分割的解码器。在我们的框架中,网络的两个部分分别使用不同的数据进行编码器首先从一组弱注释图像中学习它又被用来过滤掉不相关的帧,并识别弱注释视频中的区别性通过将所识别的区别性区域与颜色和运动线索结合在一起,通过完善的基于图的优化技术从视频中获得对象候选的时空片段。然后将视频分割结果用作分割注释来训练我们网络的解码器。本文的贡献有三个方面:• 提出了一种基于网络抓取视频的弱监督语义分割算法。我们的al-出租m利用视频模拟强监管在弱注释图像中丢失,并利用图像来消除视频检索和分割过程中的噪声• 我们的框架自动从Web存储库中收集与目标类相关的视频剪辑,因此不需要人为干预即可获得额外的监管• 我们在PASCAL VOC基准数据集上证明了所提出的框架的有效性,在弱监督下,它优于现有技术语义分割的一个重要保证金。本文的其余部分组织如下。我们在第2节中简要回顾了相关工作,并在第3节中描述了拟议框架的细节。第四节介绍数据收集过程。第5节展示了在基准数据集上的实验结果。2. 相关工作语义分割在过去几年中得到了迅速的改进,主要是由于基于DCNN的强大的端到端学习框架的出现[3,11,21,23、24、25、41]。基于全卷积架构[24],已经研究了各种方法,通过集成全连接CRF [3,21,23,41],深度去卷积网络[25],多尺度处理[3,11]等来提高分割精度因此,该任务主要在小规模数据集中进行研究[10,22]。已经提出了基于弱监督学习的方法来减少全监督方法中的注释工作[6,13,17,26,28,29,30]。在许多可能的选择中,图像级标签是需要最小注释成本的形式,因此已被广泛使用[17,28,29,30]。不幸的是,他们的结果远远落后于完全监督的方法,由于错过了监督分割。通过利用额外的注释(如点监督[2],涂鸦[20],边界框[6,26],其他类的掩码[13])来减少这种差距,但它们会导致增加注释成本,这在弱监督设置中应该避免我们建议检索和利用网络视频,而不是从人类注释者收集额外的线索,这提供了运动线索有用的分割,而不需要任何人的干预,在收集这样的数据。使用视频进行语义分割的想法是新的,除了[36]之外还没有得到适当的研究。我们的工作与[36]的不同之处在于:(i)利用图像和视频中的互补优势,而不是直接从嘈杂的视频中学习,(ii)从网络存储库中检索大量视频剪辑,而不是使用少量手动收集的视频。我们的实验结果表明,这些差异导致显着的性能改善。我们的工作与网络监督学习密切相关[4,5,8,18,19,31,39],其目的是从Web上的资源中检索训练示例。这个想法已经在各种任务中进行了研究,例如概念识别[4,5,8,39],对象定位[5,8,19,39]和细粒度分类[18]。这一研究领域的主要挑战已经采用了各种方法,例如curriculum学习[4,5],视觉关系挖掘[8],具有一小组干净标签的半监督学习[39]等。我们的工作使用从另一个领域学习的模型解决了这个问题-我们采用从一组弱注释图像学习的模型来消除网络抓取视频中的噪声。3. 我们的框架拟议框架的总体流程见图1。我们采用解耦的深度编码器-解码器架构[13]作为语义分割的模型,并对其注意力机制进行了修改7324图1. 提出了算法的总体框架。我们的算法首先从一组弱注释图像中学习分类和定位模型(第3.1节)。学习的模型用于消除噪声帧并在网络抓取视频中生成粗略的定位图,其中通过求解基于图的优化问题获得每像素分割掩码(第3.2节)。获得的分割作为注释来训练解码器(第3.3节)。然后通过将整个网络应用于图像来执行静态图像的语义分割(第3.4节)。在这种架构中,编码器fenc生成类别预测和粗略注意力图,该粗略注意力图为每个预测类别标识有区别的图像区域,解码器fdec我们训练编码器fenc在分类目标下识别视觉概念,Σ估计每个类的密集二进制分割掩码,对应的注意力地图。我们使用不同的数据集通过minθenc (x,y)∈Iec(y,fenc(x;θenc)),(1)程序如下:• 给定一组弱注释图像,我们在分类目标下训练编码器(第3.1节)。• 我们将编码器应用于在Web上抓取的视频,以过滤掉与其类标签无关的帧,并根据每个帧生成目标类的粗略注意力图。剩余帧。然后,通过解决将注意力图与视频的每个相关间隔中的颜色和运动线索相结合的优化问题来进行时空对象分割(第3.2节)。• 我们通过利用前一阶段获得的分割标签作为监督来训练解码器(第3.3节)。• 最后,通过应用整个深度编码器-解码器网络(第3.4节)对静态图像进行语义分割。我们还介绍了一个全自动的方法来检索相关的视频从网络存储库(第4节)。该方法使我们能够高效地构建大量的视频集合,这对提高分割性能至关重要下面的部分描述了我们框架中每个步骤的细节。3.1. 学习从图像参加让我成为弱注释图像的数据集I的一个元素表示为(x,y)∈I,其中x是图像,y∈{0,1}C是C个预定义类的标号向量其中θenc表示fenc的参数,并且ec是交叉的。分类的熵损失。对于fenc,我们使用预训练的VGG-16网络[34],除了它的全连接层,并在VGG-16的最后一个卷积层之后放置一个新的卷积层,以便更好地适应我们的任务。在它们的顶部,添加了两个额外的层,全局所有新添加的层都随机初始化。给定fenc的体系结构和学习的模型参数,识别与每个类相关的图像区域类别激活映射(CAM)[42]。 设F(x)∈R(w·h)×d是fenc给定x,W∈Rd×C 分 别为f∈ N_c的全连通层参数,其中w,h和d分别表示F(x)的宽度,高度和通道数.然后,对于类别c,与该类别相关的图像区域由CAM高亮显示如下:αc=F(x)·W·yc,(2)其中·是内积,yc∈{0,1}C表示类c的独热编码向量。输出αc∈Rw·h是指c类的注意力图,并突出显示局部图像与C类相关的区域。3.2. 从视频中生成分割我们的下一步是使用上一节中设V是一个弱7325我^ ^您的位置:^我我我我我我我我I jijiJIJ注释的视频,并且(V,y)∈ V是V中的元素,其中V={v1,.,vT}是由T个帧组成的视频,y∈{0,1}C是标签向量。如在图像的情况下,每个视频与标签向量y相关联,但是在这种情况下,由于使用了单个关键字,所以它检索每个视频。从Web上收集的V中的视频通常包含许多与相关标签无关的帧。因此,在本发明中,直接从这样的视频分割对象可能遭受由这些帧引入的噪声。为了解决这个问题,我们测量图1中的每个帧v的类相关性得分。通过y·fenc(v;θenc)学习编码器,并选择分数大于阈值的帧如果更多如果选择超过5个连续帧,则我们将它们视为单个相关视频。我们构造一组相关视频V,并仅对V中的视频执行对象分割。目标的时空分割是由基于图的优化问题。设t是帧t的第i个超像素。对于每个视频V∈ V,我们构造时空图G=(S,E),其中节点图2.视频帧上的注意力地图的定性示例。(Top:视频帧,中间:注意单刻度输入,Bot- tom:多尺度输入的注意。)虽然编码器是在图像上训练的,但它的注意力图可以有效地识别视频中有区别的对象部分。此外,多尺度注意力比单尺度注意力更好地捕捉物体的部分和形状。我们通过改变帧的大小来计算每帧的多个注意力图。在将它们恢复到原始帧大小后,我们通过max-pooling合并这些贴图,对应于一个超像素e,则边E=缩放以获得每帧的单个注意力图。图3.2{Es,Et}连接空间上相邻的超像素(st,st)∈ Es示出了这种注意力图的定性示例。一个测试我J不t+11我定义为对超像素的关注,并计算和时间相关的(si,sj)∈Et。我们的目标是然后被简化为估计每个SU的二进制标签Ltt t t通过将最大集中注意力值聚集在超像素图G中的每像素si,其中如果si属于前景(即,对象),否则lt=0。标签估计问题由以下能量最小化公式化:最小E(L)=Eu(L)+Ep(L),(3)L其中Eu和Ep分别是一元项和成对项,并且L表示视频中的所有超像素的标签。两个能量项的细节描述如下。一元项。 一元项Eu是线性组合考虑前景对象的各个方面的三个分量的,并且由下式给出:尽管上述注意术语提供了对于对象定位的强有力证据,它倾向于支持对象的局部判别部分,因为模型是在等式中的分类目标下训练的。(一).为了更好地将局部注意力分散到整个对象区域,我们还考虑了对象的外观和运动。外观项Ct由高斯混合模型(GMM)实现。具体来说,我们基于视频中超像素的RGB值来估计两个GSNR,一个用于前景,另一个用于背景。在GMM估计过程中,我们首先通过对超像素的关注值进行阈值化来将其分类为前景和背景。E(L)=−λlogAt(lt)−λMt(lt)使用,并从超像素中构建具有其uat我−λct我我我t我logCt(lt),(4)注意值作为样品重量。如果表现出更明显运动的超像素被标记为前景,则运动项Mt返回更高的值。我们利用来自[27]的内部-外部映射,其识别具有其中,At、Ct和Mt表示基于通过估计跟随运动的闭合曲线来区分运动,我我我边界。关于超像素S1的注意力、外观和运动,分别为。λa、λc和λm是要控制的权重参数三个方面的相对重要性。我们使用由Eq.(2)计算基于注意力的项At。注意图突出显示了视频对象类中有区别的部分,为视频对象分割提供了重要依据。更稳健地应对规模变化1成对项。我们采用标准的Potts模型[27,33],通过以下方式对推断的标签施加空间和时间平滑性:Ep(L)= φ[lt lt]φs(st,st)φc(st,st)+(5)(st,st)∈Esφ[lt/=lt+1]φt(st, st+1)φc(st, st+1)我们定义来自连续的两个超像素之间的时间边缘,帧,如果它们由至少一个光流连接[1]。ijiJIJ(st,st+1)∈EtI j7326vvvv其中φs和φc分别表示基于空间位置和颜色的相似性度量,并且φt是两个超像素之间通过光流连接的像素的百分比。优化. Eq 。(3)利用图割算法对算法进行了有效的优化。权重参数被设置为λa=2、λm=1和λc=2。3.3. 学习从视频中分割给定上一节中获得的一组生成的分割注释,我们通过以下方式学习解码器fdec进行分割:最小值decs(zc,fdec(αc;θdec)),(6)3.4. 图像的语义分割给定的编码器和解码器获得的方程。在(1)和(6)中,通过整个模型执行对静止图像的语义分割具体地,给定输入图像x,我们首先通过对编码器输出fenc(x;θenc)进行阈值化来识别与图像相关的类别标签的集合。然后,对于每个已识别的标签c,我们通过以下等式计算注意力图αc(2),并从解码器fdec(αc;θdec)的输出生成相应的前景概率图。然后,通过对所有识别的类别取fdec(αc;θdec)4. 从Web资源库中检索视频本节介绍视频集合θdecV VV∈V^v∈Vprocedure.假设我们有一组弱注释的图像I,它与预定义的语义相关联,其中θdec表示与解码器相关联的参数,zc是帧v的类别c的二进制分割掩码,并且e s是预测和生成的分割注释之间的交叉熵损失。请注意,zc是根据上一节中估计的分割标签L我们采用反卷积网络[12,13,25]作为解码器fdec的模型,它由多层反卷积和解池组成。它以帧v的多尺度注意力图αc为输入,在原始分辨率下产生c类二值分割掩模抽搐类。 每堂课我们都会收集YouTube使用类标签作为搜索关键字来构造一组弱注释视频V。然而,从YouTube上检索的视频通常非常嘈杂,因为视频通常缺乏边信息(例如,周围的文本),对于基于文本的搜索至关重要,而类标签通常是太一般而不能用作搜索关键字(例如,per- son)。虽然我们的算法能够使用第3.2节中描述的程序消除噪声帧和视频,但检查所有视频需要大量的处理时间和磁盘空间,应避免使用这些时间和空间。的框架。 由于我们的多尺度注意力αc已经构造大规模视频数据。捕获密集的空间配置的对象,如图3.2所示,我们的解码器不需要额外的密集注意机制中介绍的[13]。注意,解码器由所有类共享,因为没有类标签被卷入等式2中。(六)、由于以下原因,我们采用的解码器架构非常适合我们的问题首先,使用注意力作为输入使得等式中的优化(6)对不完整的分割注释是鲁棒的因为视频标签仅标识一个对象类,所以从视频生成的分割注释忽略对象,而不管标记的类。如果这些被忽略的对象被认为是背景,则解码器在训练期间将变得混乱,因为它们可能在其他视频中被标记为非背景通过使用注意力作为输入,解码器不关心这种被忽略的对象的分割,因此更可靠地训练。其次,我们的解码器学习类不可知的分割先验,因为它在训练期间由多个类共享[12]。由于静态对象(例如,椅子、桌子)没有通过运动与背景很好地分离,它们的分割注释有时对于训练来说是不合理的。从其他类别学习的分割先验对于提高此类类别的分割质量特别有用。我们提出了一个简单而有效的策略,有效地过滤掉嘈杂的例子,而不看整个视频。为此,我们利用缩略图和关键帧,它们分别是视频的全局和局部摘要。在这种策略中,我们首先下载缩略图而不是搜索结果的整个视频,并使用从I. 由于视频很可能包含信息帧,如果它的缩略图与相关标签相关,我们向下-如果视频的缩略图的分类分数高于预定义阈值,则加载视频。然后,对于每个下载的视频,我们提取关键帧2,并使用编码器计算它们的分类分数,以仅选择其中的信息。最后,我们在每个选定的关键帧周围提取两秒内的帧来构建视频,V. V中的视频可能仍然包含不相关的帧,这些帧由第3.2节中描述的过程处理。我们观察到通过上述方法收集的视频对于学习是足够干净和信息丰富的。2我们利用用于压缩视频的参考帧[38]作为计算效率的关键帧。这使得能够在不解压缩整个视频的情况下选择和提取信息视频间隔。73275. 实验5.1. 实现细节数据集。我们使用PASCAL VOC 2012数据集[10]作为弱注释图像集I,其中包含20个语义类别的10,582个训练图像。的当我们将视频的最大数量限制为300并且每个视频选择多达15个关键帧时,第4节中描述的视频检索过程收集原始视频集合V的4,606个视频和960,517个帧用于选择相关缩略图和关键帧的分类阈值被设置为0.8,它更倾向于精确而不是回忆。优化. 我们基于Caffe [15]库实现了所提出的算法。我们使用Adam 优化[16]来训练我们的网络,学习 率为0.001,默认超参数值在[16]中提出。小批量的大小设置为14。5.2. 语义分割本节介绍PASCAL VOC 2012基准测试的语义分割结果[10]。我们采用comp6评估协议,并根据地面实况和预测分割之间的平均交集(mIoU)来衡量性能。5.2.1内部分析我们首先比较我们的框架的变体,以验证框架中每个组件的影响。表1总结了内部分析的结果。单独培训的影响。我们将我们的方法与[36]进行了比较,后者也使用了弱注释的视频,但与我们不同的是,它直接从视频中学习整个模型。为了公平比较,我们使用来自YouTube对象数据集的同一组视频训练我们的模型[31],该数据集是从YouTube手动收集的10个PASCAL对象类。在相同的条件下,我们的方法大大优于[36],如表1所示。这一结果从经验上证明,我们的单独训练策略成功地利用了图像和视频域的互补优势,而[36]不能。视频采集的影响。将[31]中的一组视频替换为从第4节中收集的视频,可以将性能提高6% mIoU,尽管这些视频是自动收集的,没有人为干预。它表明:(i)我们的模型从大量数据中学习到更好的对象形状;(ii)我们的视频收集策略在从嘈杂的网络存储库中检索信息丰富的视频时是有效的。域适应的影响。I和V中的示例具有不同的特征:(i)它们具有不同的偏置和数据分布,以及(ii)I中的图像可以由多个类标记,而V中的每个视频由单个类注释(即,搜索关键字)。所以我们调整我们的模型表1.在PASCAL VOC 2012验证集上比较拟议框架的变体DA代表静态图像上的域适应。方法视频集DAMiouMCNN [36][三十一]Y38.1[三十一]N49.2我们YouTubeN55.2YouTubeY58.1从V训练到I的领域 为此,我们应用该模型来生成I中图像的分割注释,并使用生成的注释作为强监督来微调网络。通过域适应,模型学习多个类之间的上下文(例如,人骑自行车)和不同的数据分布,这导致性能提高了3%mIoU。5.2.2与其他方法的我们的框架的性能在表2和表3中与弱监督语义分割的现有技术定量地比较。我们根据训练中使用的注释类型对方法进行分类。表1第4行描述了我们的方法。请注意,MCNN [36]使用手动收集的视频[31],其中标签和视频之间的关联不像我们的案例中那样模糊。我们的方法大大优于现有的基于图像级标签的方法,将最先进的结果提高了7%以上的mIoU。我们的方法的性能甚至与基于额外监督的方法一样具有竞争力,这些方法依赖于额外的人类干预。特别是,我们的方法优于一些基于相对较强的监督的方法(例如,点监督[2]和其他类别的分割注释[13])。这些结果表明,从视频中获得的分割注释足够强,以模拟弱注释图像中的分割监督缺失。请注意,我们的方法需要与图像级标签相同程度的人类监督,因为在所提出的框架中,视频检索是完全自动进行的。图3说明了定性结果。与仅基于图像标签的方法相比,我们的方法倾向于对对象的位置和边界产生更准确的预测。5.3. 视频分割为了评估通过所提出的框架获得的视频分割结果的质量,我们将我们的方法与YouTube对象基准数据集上的最先进的视频分割算法进行了比较[31]。我们采用[14]中的分割地面实况进行评估,其为选定的视频间隔提供每10帧的二进制分割掩码。根据预-7328表2.PASCAL VOC 2012验证集的评价结果方法BKG Aero 自行车 鸟 船瓶式公共汽车车猫 牛椅桌 狗马mbk人植物羊沙发火车电视是说图像标签:EM-Adapt [26]67.2 29.2 17.6 28.6 22.2 29.6 47.0 44.0 44.2 14.6 35.1 24.9 41.0 34.8 41.632.1 24.8 37.4 24.0 38.1 31.6 33.8[第28话]68.5 25.5 18.0 25.4 20.2 36.3 46.8 47.1 48.0 15.8 37.9 21.0 44.5 34.5 46.240.7 30.4 36.3 22.2 38.8 36.9 35.3MIL+seg [30]79.6 50.2 21.6 40.9 34.9 40.5 45.9 51.5 60.6 12.6 51.2 11.6 56.8 52.9 44.842.7 31.2 55.4 21.5 38.8 36.9 42.0美国证券交易委员会82.4 62.9 26.4 61.6 27.6 38.1 66.6 62.7 75.2 22.1 53.5 28.3 65.8 57.8 62.352.5 32.5 62.6 32.1 45.4 45.3 50.7+额外注释:点监督[2]80.0 49.0 23.0 39.0 41.0 46.0 60.0 61.0 56.0 18.0 38.0 41.0 54.0 42.0 55.057.0 32.0 51.0 26.0 55.0 45.0 46.0Bounding box [26]---------------------58.5边界框[6]---------------------62.0[第20话]---------------------63.1迁移学习[13]85.3 68.5 26.4 69.8 36.7 49.1 68.4 55.8 77.36.275.2 14.3 69.8 71.5 61.131.9 25.5 74.6 33.8 49.6 43.7 52.1+视频(未注释):MCNN [36]77.5 47.9 17.2 39.4 28.0 25.6 52.7 47.0 57.8 10.4 38.0 24.3 49.9 40.8 48.242.0 21.6 35.2 19.6 52.5 24.7 38.1我们87.0 69.3 32.2 70.2 31.2 58.4 73.6 68.5 76.5 26.8 63.8 29.1 73.5 69.5 66.570.4 46.8 72.1 27.3 57.4 50.2 58.1表3.PASCAL VOC 2012测试集的评估结果方法BKG Aero 自行车 鸟 船瓶式公共汽车车猫 牛椅桌 狗马mbk人植物羊沙发火车电视是说图像标签:EM-Adapt [26]76.3 37.1 21.9 41.6 26.1 38.5 50.8 44.9 48.9 16.7 40.8 29.4 47.1 45.8 54.828.2 30.0 44.0 29.2 34.3 46.0 39.6[第28话]70.1 24.2 19.9 26.3 18.6 38.1 51.7 42.9 48.2 15.6 37.2 18.3 43.0 38.2 52.240.0 33.8 36.0 21.6 33.4 38.3 35.6MIL+seg [30]78.7 48.0 21.2 31.1 28.4 35.1 51.4 55.5 52.87.856.2 19.9 53.8 50.3 40.038.6 27.8 51.8 24.7 33.3 46.3 40.6美国证券交易委员会83.5 56.4 28.5 64.1 23.6 46.5 70.6 58.5 71.3 23.2 54.0 28.0 68.1 62.1 70.055.0 38.4 58.0 39.9 38.4 48.3 51.7+额外注释:点监督[2]80.0 49.0 23.0 39.0 41.0 46.0 60.0 61.0 56.0 18.0 38.0 41.0 54.0 42.0 55.057.0 32.0 51.0 26.0 55.0 45.0 46.0Bounding box [26]---------------------60.4边界框[6]---------------------64.6迁移学习[13]85.7 70.1 27.8 73.7 37.3 44.8 71.4 53.8 73.06.762.9 12.4 68.4 73.7 65.927.9 23.5 72.3 38.9 45.9 39.2 51.2+视频(未注释):MCNN [36]78.9 48.1 17.9 37.9 25.4 27.5 53.4 48.8 58.39.943.2 26.6 54.9 49.0 51.142.5 22.9 39.3 24.2 50.2 25.9 39.8我们87.2 63.9 32.8 72.4 26.7 64.0 72.1 70.5 77.8 23.9 63.6 32.1 77.2 75.3 76.271.5 45.0 68.8 35.5 46.2 49.3 58.7表4.视频分割性能在YouTube对象基准测试中的评估结果方法额外数据类平均值视频平均值[35]第三十五届[27日]--23.946.822.843.2[第四十届][9]第一章边界框边界框54.156.252.655.8我们图像标签58.657.1我们的工作是基于类别和视频的mIoU来衡量性能。总结结果见表4。我们的方法大大优于以前的方法,仅基于低级别的线索,如运动和外观,因为我们采用的注意力地图提供了强大的和语义上有意义的估计视频中的对象位置。有趣的是,我们的方法优于使用在边界框注释[9,40]上训练的对象检测器的方法,这些方法需要比图像级标签更强的监督。这可能是因为我们的方法产生的注意力地图提供了比对象检测器预测的粗边界框更细粒度的对象定位图4说明了所提出的方法的定性结果。我们的方法在视频中的各种挑战下生成准确的分割掩模,例如遮挡,背景杂波,其他类别的对象等更多全面的定性结果可在我们的项目网页3.6. 结论我们提出了一个新的框架,弱监督的语义分割的基础上,图像级的类标签。所提出的框架检索相关的视频自动从Web上,并产生相当准确的对象掩码的类从视频模拟监督语义分割。为了在视频中进行可靠的对象分割,我们的框架首先从弱注释图像中学习编码器来预测注意力图,并将注意力与视频中的运动线索结合起来,以更准确地捕捉对象的形状和范围。然后将获得的掩码用作分割注释以学习用于分割的解码器。我们的方法优于以前的方法,基于相同的监督水平,并作为竞争力的方法依赖于额外的监督。致 谢 本 工 作 得 到 了 IITP 资 助 ( 2014-0-00147 和 2016-0-00563)、NRF资助(NRF-2011- 0031648)、DGIST教师启动基金(2016080008)、NSF CA-REER IIS-1453651、ONR N00014-13-1-0762和Sloan Re-搜索Fellowship。3http://cvlab.postech.ac.kr/research/weaksup_视频/7329[17]第三十六话:我的世界图3. PASCAL VOC 2012验证图像的定性结果。SEC [17]是仅依赖于图像级类别标签的方法中的最先进技术,而MCNN [36]利用视频作为我们的训练数据的额外来源。与这些方法相比,我们的方法更准确地捕捉对象的边界和覆盖更大的对象区域。图4.该方法在YouTube对象数据集上的定性结果我们的方法成功地分割对象,尽管存在诸如遮挡(例如,汽车,火车),背景杂波(例如,鸟,汽车),多个实例(例如,牛、狗),以及不能通过运动与目标对象区分开的不相关对象(例如,骑自行车和摩托车的人)。7330引用[1] L.鲍角,澳-地Yang和H.晋大位移光流场的快速边缘保持块匹配。IEEE Transactions on Image Processing,23(12):4996[2] A. Bearman,O. Russakovsky,V. Ferrari和L. 飞飞重点是什么:基于点超视的语义分割。在ECCV,2016年。[3] L- C. Chen,G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。使用深度卷积网络和全连接CRF进行语义图像分割。2015年,国际会议。[4] X. Chen和A.古普塔。网络监督学习的卷积-理性网络在ICCV,2015年。[5] X. Chen,中国山核桃A. Shrivastava和A.古普塔。从网络数据中提取视觉知识。InICCV,2013.[6] J. Dai,K. He和J. Sun. BoxSup:利用边界框来监督用于语义分割的卷积网络在ICCV,2015年。[7]J. Deng,W.东河,巴西-地索赫尔湖J. Li,K. Li和L. 飞-飞Imagenet:一个大规模的分层图像数据库。在CVPR,2009年。[8] S. Divvala,A.Farhadi和C.Guestrin. 学习关于任何事情的一切:视觉概念学习。CVPR,2014。[9]B. Drayer和T.布洛克斯 目标检测、跟踪和监控用于对象级视频分割的特征分割 在ECCV,2016。[10] M.埃弗灵厄姆湖,澳-地凡古尔角,澳-地K.威廉斯,J.Winn和A.齐瑟曼。pascal视觉对象类(voc)的挑战。IJCV,88(2):303[11] G. Ghiasi和C.C. 福克斯拉普拉斯金字塔用于语义分割的改进和细化。在ECCV,2016年。[12] S. Hong,H.Noh和B.韩去耦合深度神经网络-半监督语义分割。2015年,在NIPS中。[13] S. Hong,J. Oh,H. Lee和B.韩 学习可迁移用深度卷积神经网络进行语义分割的知识。在CVPR,2016年。[14] S. D. Jain和K. 格劳曼超体素一致前向地面视频传播2014年,在ECCV[15] Y. Jia、E.Shelhamer,J.多纳休S.Karayev,J.隆河,西-地Gir- shick,S. Guadarrama和T.达雷尔。Caffe:用于快速特征嵌入的卷积架构。在MM中,第675- 678页ACM,2014年。[16] D. P. Kingma和J.BA. 亚当:一种随机的方法优化. InICRL,2015.[17] A. Kolesnikov和C. H.蓝伯特播种、扩展和约束:弱监督图像分割的三个原则。在ECCV,2016年。[18] 克劳斯,B. 萨普A. 霍华德H. 周先生,A. 托舍夫T. Duerig,J.Philbin和L.飞飞噪声数据对细粒度识别的不合理影响在ECCV,2016年。[19] K. Kumar Singh,F.Xiao和Y.我是Jae Lee跟踪和转移:观看视频以模拟强人类监督,用于弱监督对象检测。在CVPR,2016年。[20] D. 林 J.戴, J. Jia, K. 他, 和J. Sun。乱涂乱画-Super:Scribble-supervised convolutional networks forseman- tic segmentation.在CVPR,2016年。[21] G.林角,澳-地Shen,中国古猿A. van dan Hengel和我。里德用于语义分割的深度结构化模型的高效分段训练。在CVPR,2016年。[22] T.- Y. 林,M。迈尔,S。贝隆吉,J.Hays,P.Perona,D.Ra-manan,P. Doll a'r和C. L. 齐特尼克Microsoftcoco:上下文中的通用对象。在ECCV。2014年[23] Z. Liu,X. Li,P. Luo,C. C. Loy和X.唐语义的im-通过深度解析网络进行年龄分割。在ICCV,2015年。[24] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR,2015。[25] H. Noh,S. Hong和B.韩 学习反卷积网进行语义分割。在ICCV,2015年。[26] G.帕潘德里欧湖C. Chen,K. Murphy和A. L.尤尔。用于语 义 图 像 分 割 的 DCNN 的 弱 监 督 和 半 监 督 学 习 在ICCV,2015年。[27] A. Papazoglou和V.法拉利 快速对象分割无约束视频InICCV,2013.[28] D. Pathak,P. Kr aühenbuühl和T. 达雷尔。用于弱监督分割的约束卷积神经网络在ICCV,2015年。[29] D. Pathak,E.Shelhamer,J.Long和T.达雷尔。 充分卷积多类多实例学习。arXiv预印本arXiv:1412.7144,2014年。[30] P. O. Pinheiro和R.科洛伯特 从图像级到像素级-使用卷积网络进行水平标记。CVPR,2015。[31] A.普雷斯特角Leistner,J.奇韦拉角Schmid和V.很好。从弱注释视频中学习对象类检测器。CVPR,2012。[32] G.- J. Qi。 用于语义分析的细分在CVPR,2016年6月。[33] C. Rother,V. Kolmogorov,and A.布莱克“grabcut”:使用迭代图切割的交互式前景提取。SIGGRAPH,2004年。[34] K. Simonyan和A.齐瑟曼。非常深的卷积大规模图像识别的网络。2015年,国际会议[35] K. 唐河,巴西-地Sukthankar,J.Yagnik和L.飞飞弱标记视频中的区分性片段注释CVPR,2013。[36] P. Tokmakov,K. Alahari和C.施密特 学习seman-用弱注释视频进行tic分割。在ECCV,2016年。[37] R. 韦穆拉帕利岛Tuzel,M.Y. Liu,和R.切拉帕高斯-用于语义分割的条件随机场网络。在CVPR,2016年6月。[38] T. Wiegand,G.J. Sullivan,G.Bjontegaard和A.卢瑟拉h.264/avc 视 频 编 码 标 准 综 述 。 IEEE Tran
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功