没有合适的资源?快使用搜索试试~ 我知道了~
视频对象分割中的运动与外观融合方法:FusionSeg
1FusionSeg:学习结合运动和外观,实现视频Suyog Dutt Jain熊博( 音译)Kristen Grauman德克萨斯大学奥斯汀suyog@cs.utexas.edubxiong@cs.utexas.edu,http://vision.cs.utexas.edu/projects/fusionseg/grauman@cs.utexas.edu摘要我们提出了一个端到端的学习框架,用于分割视频中的通用对象。我们的方法学习结合外观和运动信息,为所有突出对象生成像素级分割掩模。我们将任务制定为结构化预测问题,并设计了一个双流全卷积神经网络,将运动和外观融合在一个统一的框架中。由于缺乏具有像素级分割的大规模视频数据集,我们展示了如何引导弱注释视频与现有的图像识别数据集一起进行训练。通过对三个具有挑战性的视频分割基准的实验,我们的方法大大提高了分割通用(看不见的)对象的最先进的结果。代码和预训练模型可在项目网站上获得。1. 介绍在视频对象分割中,任务是在所有帧中将前景对象从背景中分离出来。这需要计算用于前地对象的密集像素级掩模,而不管对象的类别-即,学习的对象特定模型必须不被假定。结果前景对象段是在空间和时间两者中描绘对象边界的时空这个基本问题有各种各样的应用,包括高级视觉任务,如活动和对象识别,以及图形领域,如后期制作视频编辑和旋转。近年来,视频对象分割受到了极大的关注,在全自动算法[15,56,13,23,30,58,24,35,10],传播算法[15,56,13,23,30,58,24,35,10],方法[40,47,11,50,19,53],以及交互式方法。ods [51,26,2,42]。我们感兴趣的是完全自动化的设置,系统直接两位作者对这项工作的贡献相当图1:我们显示了由我们的联合模型产生的彩色编码光流图像(第一行)和视频分割结果(第二行)。我们提出的端到端可训练模型同时利用了统一框架中通用对象外观和运动没有任何人类的参与。放弃手动注释可以扩大视频数据的处理,但它仍然是一个非常具有挑战性的问题。自动算法不仅需要为任何通用对象生成准确的时空边界,还需要处理遮挡、形状变化和相机运动等挑战。虽然外观单独驱动图像中的分割,但视频以对象运动的形式提供了丰富且互补的信息源。这是自然的期望,外观和运动都应该发挥关键作用,在视频中的对象分割。然而,现有的方法不足以以统一的方式将这些互补特别地,当今运动以两种主要方式用于视频分段。一方面,传播或交互技术强烈地依赖于源自视频中的帧上的人类绘制的轮廓的外观信息。这里,运动主要用于传播信息或在所得分割中实施时间一致性[50,19,53,37]。另一方面,全自动方法强烈依赖于运动,通过定位可能的移动对象来种子分割过程。一旦检测到移动对象,外观主要用于跨帧跟踪它[23,58,35,10]。如果对象是静态的或者当存在显著的相机运动时,则这样的方法可能失败。在任何一种范式中,结果都会受到影响,因为两个基本线索只被处理36643665以连续的或不连续的方式。我们提出了一个端到端的可训练模型,该模型在统一的框架中利用了通用(非特定类别)对象外观和运动的各自优势。具体来说,我们开发了一种新型的双流全卷积深度分割网络,其中各个流对来自视频帧及其相应光流的通用外观和运动线索进行编码。这些单独的线索在网络中融合,以产生每个视频帧的最终对象与背景像素级二进制分割。所提出的网络分割新视频中的静态和移动对象,而无需任何人工参与。声明运动应该有助于视频分割是没有争议的,实际上,我们肯定不是第一个将运动注入视频分割的人,如上所述。然而,到目前为止,总和并不比其部分大得多。我们认为这是因为来自运动的信号足够复杂,因此需要丰富的学习模型来利用它。例如,单个对象可以同时显示多个运动,背景和相机运动可以混合,并且即使是小幅度的运动也应该是信息性的。为了学习丰富的信号,需要足够的训练数据。然而,不存在具有像素级分割的大规模视频数据集。我们的第二个贡献是解决这个实际问题。我们提出了一种解决方案,杠杆年龄现成的图像分割注释,以弱注释的视频数据来训练我们的模型。我们的研究结果显示了在一个统一的框架中从两个信号中学习的回报:真正的协同作用,通常比我们单独从任何一个信号中获得的结果都要强大得多-即使它们被同样复杂的深度网络处理。我们显著推进了在多个具有挑战性的数据集上进行全自动视频对象分割的最新技术。在某些情况下,所提出的方法甚至优于需要对目标视频进行手动干预总括而言─玛丽我们的主要贡献是:• 第一端到端可训练框架,用于产生视频中的像素级前景对象分割。• 在多个数据集上的最新技术水平,改善了文献中的许多报告结果,并大大超过了光流的简单应用,• 一种训练深度像素级视频分割模型的方法,只访问弱标记视频和强标记图像,没有明确的假设这两种情况的分类2. 相关工作全自动或无监督的视频分割方法假设没有人工输入,视频. 它们可以分为两大类。首先,我们有超体素方法[15,56,13],其将视频过度分割成具有内聚外观和运动的时空斑点。他们的目标是生成对下游处理有用的中级视频区域,而我们的目标是生成精确地描绘对象边界的时空管。第二,我们有完全自动化的方法,可以生成数千个“类对象”的时空片段[54,12,57,34,55]。虽然在加速对象检测中是有用的,但是当需要单个假设时,自动选择最准确的一个并不简单确实产生单一假设的方法[23,30,58,35,10,49,45,17]强烈依赖于运动来识别对象,通过使用移动区域播种外观模型或使用光流直接推理这限制了它们分割视频中静态对象的能力。相比之下,我们的方法是全自动的,只产生一个假设,并且可以分割静态和移动对象。人工引导的方法半监督标签传播方法在帧的子集上接受人类输入,然后将其传播到其余帧[40,47,1,11,50,19、53、37、31、48]。类似地,交互式视频分割方法利用回路中的人来提供指导或校正错误,例如,[51、2、42、39]。由于人类精确定位感兴趣的对象,因此这些方法典型地更多地集中于从手动注释学习对象外观。运动主要用于传播信息或增强时间平滑性。在提出的方法中,运动和外观起着同样重要的作用,我们表明,它们的协同组合的结果在一个更好的分割质量。此外,我们的方法是全自动的,不需要人工参与来分割新视频。类别特定语义分割最先进的图像语义分割技术依赖于端到端可训练的完全卷积深度学习架构[33,59,28,5]。近年来,这些基于深度学习的图像分割方法取得了快速进展。不幸的是,视频分割并没有看到如此快速的进展。我们假设缺乏大规模的人类分割视频分割基准是一个关键的瓶颈。最近的视频基准,如Cityscapes[7]是有价值的,但1)它解决了特定类别的分割,2)迄今为止,与之竞争的方法独立处理每一帧,将其视为多个图像分割任务。相反,我们的目标是分割视频中的通用对象,无论它们是否出现在训练数据中。此外,我们利用弱标记视频进行训练的想法为训练融合空间和时间线索的深度分割模型开辟了一条道路。3666外观尺寸减小1/2 1/4 1/41/8 1/8 1/81/8Conv 3×3,2扩张:6按元素相乘RGB图像数据Conv7× 7.64步幅:2最大池3×3步幅:2Conv1× 1.643× 3.641× 1,256Conv1× 1,1283× 3,1281× 1,512Conv1× 1,2563× 3,2561× 1,1024扩张:2Conv1× 1,5123× 3,5121× 1,2048扩张:4Conv3×3,2扩张:12Conv 3×3,2扩张:18Conv 3×3,2总和Conv1×1,2ConvReLUReLU运动大小×3 ×4×23×31/2 1/4 1/41/8 1/8 1/81/8扩张:24Conv 3×3,2扩张:61×1,2Conv1×1,2ReLUMaxConv1× 1.64Conv1× 1,128Conv1× 1,2563× 3,256Conv1× 1,5123× 3,512Conv3×3,2扩张:12ConvReLU图2:我们模型的网络结构。除了第一个7× 7卷积层和我们的融合块之外,每个卷积层都是一个残差块[16],改编自ResNet-101。我们在每个盒子的顶部显示了分辨率的降低,在每个盒子的底部显示了堆叠的卷积层的数量结合视频中的运动和外观的深度学习已被证明在其他几个计算机视觉任务中是有用的,例如视频分类[32,22],动作识别[43,20],对象跟踪[43,20],[25,52,29]甚至光流计算[8]。虽然我们从这些作品中获得了灵感,但我们是第一个以全自动方式在视频中分割对象的深度框架。3. 方法我们的目标是分割视频中的通用对象,独立于它们所属的对象类别,并且没有任何手动干预。 我们把这个问题看作是一个密集的标签任务:给定视频帧序列[I1,I2,...,IN],我们想要为每个帧中的每个像素推断“对象”或“背景”,以输出二进制映射序列[S1,S2,.,SN]。我们提出了一种基于卷积神经网络的解决方案首先,我们只根据单个帧的外观来分割通用对象(第二节)。第3.1节)。然后,我们使用外观模型在训练视频中生成初始像素级注释,并引导强注释从运动中训练模型(第二节)。3.2)。最后,我们将两个流融合以执行视频分割(Sec. 3.3)。3.1. 外观流基于我们的其主要思想是对对象分类进行预训练,然后通过相对较少的像素标记前景掩模进行微调,重新调整网络以产生二进制对象分割。像素对象使用VGG架构[44]并将其完全连接的层转换为卷积层。由此产生的网络具有很强的对象性概念,尽管在训练过程中只看到20个地面真实掩模,但仍然可以识别3,000多个对象类别我们把这一基本思想,并升级其实施为我们的工作。特别是,我们适应图像分类-阳离子模型ResNet-101[16,6]通过用膨胀的卷积层替换最后两组卷积层来提高特征分辨率。这意味着只有8倍的回报。输出分辨率降低,而不是降低32倍在原始ResNet模型中的输出分辨率在或-为了提高模型然后,我们通过对所有输出求和来融合来自所有四个并行层的预测。损失是输出层中每个像素位置上的交叉熵项的总和,其中地面真实掩模仅由两个标签组成-对象前景或背景。 我们使用[6]的Caffe实现来训练模型。 该网络获取任意大小的视频帧,并生成相同大小的对象图。参见图2(顶部流)。3.2. 运动流我们完整的视频分割架构由一个双流网络组成,在这个双流网络中,用于appearance和motion的并行流分别处理RGB和光流2)的情况。与上面讨论的外观流的直接并行将需要训练运动流以将光学流图映射到视频帧前景图。然而,该解决方案的一个重要实际问题是训练数据的可用性。虽然地面实况前景图像分割至少是适度可用的,但视频对象分割掩码的数据集在深度学习方面是小规模的,并且主要支持评估。例如,Segtrack-v2[24],一个常用的视频分割基准数据集,只包含14个视频,1066个标记帧。DAVIS[36]仅包含50个序列,具有3455个标记帧。没有一个包含足够的标记帧来训练深度神经网络。像CamVid[4]或Cityscapes[7]这样的语义视频分割数据集是一些-更大的,但由于专注于街道场景和车辆而限制了对象多样性对于我们的任务来说,一个好的训练源应该有足够的帧,在各种各样的前景对象上有人类绘制的分割,并且减少光流图像数据Conv7× 7,64步幅:2最大池3×3步幅:23× 3.643× 3,1281× 1,10241× 1,2048总和Conv3× 3,2 1× 1,21× 1,2561× 1,512扩张:2扩张:4扩张:18×3×4×23×3Conv 3× 3,2扩张:243667显示了静态和移动对象的良好混合。没有这样大规模的数据集存在,创建一个是不平凡的。我们提出了一个解决方案,利用现成的图像分割注释与弱注释的视频数据一起训练我们的模型。简而言之,我们暂时将我们模型的两个流解耦,并允许应用流假设仅由边界框注释的大型视频数据集的帧中的可能前景区域由于外观本身并不需要产生完美的分割,我们设计了一系列的过滤阶段,以生成高质量的估计的真实前景。这些实例引导光流流的预训练,然后将两个流结合以从最少的人类标记的训练视频中学习最佳组合。更具体地说,给定一个视频数据集,每个对象都有边界框标记,1我们忽略类别标签,只将框映射到每个帧。然后,我们应用的外观流,迄今为止只训练从标记的图像beled由其前景掩模,计算一个二进制分割为每帧。接下来,我们在每个训练帧中消除框和分割的冲突。首先,我们通过将边界框外的所有像素设置为背景来细化二值分割。其次,对于每个边界框,我们检查包围所有前景像素的最小矩形是否与边界框重叠至少75%。否则,我们丢弃分割。第三,我们丢弃框中包含超过95%的像素被标记为前景的区域,这是基于良好分割很少是矩形的先验,因此可能真正的前景溢出框。最后,我们消除了对象和背景缺乏明显光流的部分,因此我们的运动模型可以从所需的线索中学习。具体来说,我们使用[27]计算帧如果2-范数在a)边界框内的平均值和b)其高度和宽度是原始尺寸两倍的框中的平均值超过30时,将帧和过滤后的分段添加到训练集。这些步骤的直观说明见图3回顾一下,从初步的外观模型引导,然后进行边界框修剪,边界框测试和光流测试,我们可以为数千个不同的移动对象生成精确的每像素前景蒙版-迄今为止还没有这样的数据集。请注意,通过使用这些过滤器消除训练样本,我们的目标是减少训练的标签噪声然而,在测试时,我们的系统将在标准基准上进行评估,其中每个帧都是手动注释的(见第2.2节)。4).有了这些数据,我们现在转向训练运动流。类似于我们强大的通用外观模型,1我们依赖ImageNet Video数据,其中包含3862个视频和30个不同的对象。参见第4.第一章图3:生成(伪)真实分割的过程。我们首先应用外观模型来获得初始分割(第二行,对象段为绿色),然后通过将边界框外的像素设置为背景(第三行)进行修剪然后,我们应用边界框测试(第四行,黄色边界框是地面真值,蓝色边界框是包围前景片段的最小边界框)和光流测试(第五行)来确定我们是将分割添加到运动流最好用彩色观看我们还希望训练一种强通用运动模型,其可以纯粹基于运动来分割前景对象。我们使用与应用程序模型完全相同的网络架构(见图1)。2)的情况。我们的运动模型只采用光流作为输入,并使用自动生成的像素级地面真值分割进行训练。特别是,我们将原始光流转换为3通道(RGB)颜色编码的光流图像[3]。 我们使用这种颜色编码的光流图像作为运动网络的输入。我们再次使用ImageNet分类[41]中的预训练权重初始化我们的网络。使用RGB流图像表示光流使我们能够利用强大的预训练初始化,并保持网络外观和运动臂的对称性。替代解决方案可能放弃处理系统光流,而是输入两个原始连续RGB帧。然而,这样做可能需要更多的训练实例来发现必要的线索。另一种选择是直接训练结合了运动和外观的联合模型我们的设计选择植根于避免训练模型时的偏见。由于(伪)地面实况来自初始外观网络,因此从一开始就联合训练容易使网络偏向于以牺牲运动为代价来利用外观。通过仅用光流来馈送运动模型,我们确保我们的运动流学会从运动中分割对象。36683.3. 融合模型我们管道中的最终处理将外观和运动流的输出连接起来,旨在利用一个大于其部分之和的整体。我们现在描述如何使用两个流来训练联合模型。如果1)外观或运动模型单独预测具有非常强置信度的对象分割,或者2)它们的组合一起预测具有高置信度的分割,则对象分割预测是可靠的。这激发了我们联合模型的结构。我们通过创建三个独立的并行分支来实现这个想法:1)我们将1×1卷积层和一个BMU应用于外观模型的输出2)我们将1×1卷积层和一个BMU应用于运动模型的输出3)我们复制结构并在它们的输出上应用逐元素乘法。逐元素乘法确保当且仅当外观模型和运动模型都具有强预测时,第三分支输出对象分割的置信预测最后,我们应用一个层,该层采用元素最大值来获得最终预测。见图二、如上所述,我们在早期阶段不融合这两个流,因为我们希望它们都具有强大的独立预测。我们的方法的另一个优点是,我们只在每个1×1卷积层中引入了6个额外的参数,总共有24个可训练参数。然后,我们可以用非常有限的注释视频数据训练融合模型,而不会过度拟合。在没有大量视频分割训练数据的情况下,排除了完整的端到端训练,我们的分离各个流和训练的策略在实践中效果非常好4. 结果数据集和指标:我们评估我们的方法在三个具有挑战 性 的 视 频 对 象 分 割 数 据 集 上 : DAVIS [36] 、YouTube-Objects [38,19,46]和Segtrack- v2 [24]。为了测量准确性,我们使用标准Jaccard得分,其计算预测和地面实况对象分割之间的交集重叠(IoU)。这三个数据集是:• DAVIS[36]:最新和最具挑战性的视频对象分割基准,由50个不同对象类别的高质量视频序列组成,具有3,455个密集注释的像素精确帧。这些视频在本质上是不受约束的,并且包含诸如遮挡、运动模糊和ap等可怕的变化。只有突出的移动对象才在地面实况中注释。• YouTube-Objects[38,19,46]:由来自10个对象类别的126个chal-challening web视频组成,超过20,000帧,通常用于评估视频对象分割。我们使用[46]中定义的子集和[19]中提供的基础事实进行评估。• SegTrack-v2[24]:视频对象分割最常见的基准之一,由14个视频组成,共有1,066帧,具有像素级注释。对于具有单独地面实况分割的多个对象的视频,我们将其视为单个前景进行评估。基线:我们比较了文献中报道的每个数据集的几种最先进的方法。在这里,我们根据它们是否可以以全自动方式(自动)或需要人工参与(半监督)来进行分割来将它们分组:• 自动方法:自动视频分割方法不需要任何人工参与来分割新视频。根据数据集,我们与 以 下 现 有 技 术 方 法 进 行 比 较 :[35][36][37][38][39] 所有使用某种形式的无监督运动或对象线索来识别前景对象,随后进行后处理以获得空间-时间对象分割。• 半监督方法:半监督方法将人类带入循环。他们有一些知识关于用于获得分割的感兴趣对象(例如,手动注释的第一帧)。 我们比较以下最先进的方法:[15][14][15][16][17][18][19][19] 这些方法需要不同数量的人工注释来操作,例如,HOP、BVS和FCP在第一帧中使用手动完整对象分割来播种该方法; HBT在第一帧中请求感兴趣对象周围的边界框; HVS、IVID需要人在算法失败时不断指导算法。请注意,我们的方法仅在训练期间需要人工注释的数据。在测试时,它以全自动的方式运行。因此,给定一个新的视频,我们需要与自动方法相同的努力,并且比半监督方法更少的努力。除了这些比较,我们还研究了我们方法的一些自然基线和变体:• 流量阈值(Flow-Th):为了检验运动在分割对象中的有效性,我们自适应地对每帧中的光流进行阈值处理,设置流量大小。具体来说,我们从流量大小的L2范数计算平均值和标准差,作为门槛。• 流量-显着性(流量-Sal):光流幅值可能有很大的变化,因此我们也尝试了一种变体3669DAVIS:密集注释的视频分割数据集(50个视频)方法流量计流量销售FST[35]关键[23]NLC[10]HVS[15]FCP[37]BVS[31]我们的-AOurs-MOurs-Joint人在回路中?没有没有没有没有没有是的是的是的没有没有没有Avg. IOU42.9530.2257.556.964.159.663.166.564.6960.1871.51表1:DAVIS数据集上的视频对象分割结果我们展示了所有50个视频的平均准确度我们的方法优于几种最先进的方法,包括在分割过程中实际需要人工注释的方法。表现最好的方法按分割期间是否需要人工参与进行分组,以粗体突出显示。指标:Jaccard评分,越高越好。请看Supp。对于每个视频结果。其通过将显著性检测方法[21]应用于流图像本身来归一化流。我们使用平均阈值来获得分割。• 外观型号(Ours-A):为了量化外观在分割对象中的作用,我们仅使用模型的外观流来获得分割。• 运动模型(Ours-M):为了量化运动的作用,我们只使用我们模型的运动流来获得分割。• 关节模型(我们的关节):我们完整的关节模型,学习结合运动和外观,以获得最终的对象分割。实施详情:为了训练外观流,我们依赖于PASCALVOC 2012分割数据集[9],并使用了总共10,582张训练图像,其中包含二进制对象与背景掩模(更多细节参 见 [18]) 。 作 为 弱 边 界 框 视 频 注 释 , 我 们 使 用ImageNet-Video数据集[41]。该数据集包含来自30个对象类别的3,862个训练视频,以及来自超过一百万帧的866,870个标记对象边界框。后细化使用我们的地面真实生成程序(见第3.2),我们剩下84,929帧,具有良好的像素分割2,然后用于训练我们的运动模型。为了训练联合模型,我们为每个数据集使用一个保留集。我们训练每个流总共20,000次迭代,使用没有后处理应用于从我们的网络获得的片段。训练数据质量:为了确定我们自动生成的用于训练运动流的训练数据的质量是否良好,我们首先将其与少量人类注释的地面实况进行比较。我们随机选择了100个通过边界框和光流测试的帧,并在Amazon MTurk上收集人工绘制的分割。我们首先向人群工作人员提供一个框架,为每个对象标记一个边界框,然后要求他们为边界框内的所有对象绘制详细的分割。每帧图像由三个群集工作者进行标记,最后通过多数判决2可在我们的项目网站上下载。对每个像素进行投票。结果表明,我们的策略收集伪地面真相是有效的。在100个标记的帧上,Jaccard与人类绘制的地面实况的重叠是77.8(在使用边界框修剪之前是70.2)。定量评价:我们现在依次为三个数据集中的每一个数据集提供我们的方法与几种最先进的方法和基线的定量比较。DAVIS数据集:表1显示了结果,其中一些性能最好的方法来自基准结果[36]。 我们的方法在这个数据集上优于所有现有的方法,并显着提高了最先进的水平。我们的方法明显优于简单的流量基线。这支持了我们的主张,即即使运动包含关于视频中前景对象的强信号,也不能简单地对光流进行阈值化并获得这些分割。需要一种数据驱动的方法来学习识别指示对象的运动模式,而不是背景或相机运动我们的方法本身的外观和运动变量运动变体的性能特别令人印象深刻,因为它没有关于对象外观的信息,纯粹依赖于流量信号。当结合在一起时,联合模型会产生显着的改进,与单个流相比,绝对增益高达11%。我们的方法也明显优于完全自动化的方法,它通常只依赖于运动来识别前景物体。这说明了运动和外观的统一组合的好处。最令人惊讶的是,我们的方法甚至比最先进的半监督技术都要好,后者需要对他们处理的每个视频进行大量的人工注释。将人类带入循环的主要动机是实现比全自动方法更高的准确性,但在这种情况下,我们提出的全自动方法比最好的人类在循环算法表现得更好。例如,BVS[31]方法是当前性能最好的半监督方法,需要手动分割视频的第一帧,其重叠分数为66.5%。我们的方法明显优于它,重叠分数为71.51%,但不使用人工参与。YouTube-Objects数据集:在表2中,我们看到类似的3670YouTube-Objects数据集(126视频)方法流量计流量销售FST[35][49]第四十九话HBT[14]HOP[19][42]第四十二话我们的-AOurs-MOurs-Joint人在回路中?没有没有没有没有是的是的是的没有没有没有飞机(6)18.2733.3270.969.373.686.278983.3859.3881.74鸟(6)31.6333.7470.67656.181.0481.660.8964.0663.84游艇(15)4.3522.5942.553.557.868.5974.272.6240.2172.38汽车(7)21.9348.6365.270.433.969.3670.974.5061.3274.92猫(16)19.932.3352.166.830.558.8967.767.9949.1668.43牛(20)16.5629.1144.54941.868.5679.169.6339.3868.07狗(27)17.825.4365.347.536.861.7870.369.1054.7969.48马(14)12.2324.1753.555.744.353.9667.862.7939.9660.44摩托车(10)12.9917.0644.239.548.960.8761.561.9242.9562.74火车(5)18.1624.2129.653.439.266.3378.262.8243.1362.20Avg. IOU17.3829.0553.8458.1146.2967.5674.0368.5749.4368.43表2:YouTube对象数据集上的视频对象分割结果。我们显示了数据集中10个类别中每个类别的平均性能。最后一行显示所有视频的平均值。我们的方法优于几种最先进的方法,包括在分割过程中实际需要人工注释的方法。表现最好的方法按分割期间是否需要人工参与进行分组,以粗体突出显示。指标:Jaccard评分,越高越好。Segtrack-v2数据集(14视频)方法流量计流量销售FST[35]关键[23]NLC[10]HBT[14]HVS[15]我们的-AOurs-MOurs-Joint人在回路中?没有没有没有没有没有是的是的没有没有没有Avg. IOU37.7727.0453.557.380*41.350.856.8853.0461.40表3:Segtrack-v2上的视频对象分割结果。我们展示了所有14个视频的平均准确度。我们的方法优于几种最先进的方法,包括在分割过程中实际需要人工注释的方法。表现最好的方法按分割期间是否需要人工参与进行分组,以粗体突出显示。NLC的结果平均超过12个视频,如他们的论文[10]中所报告的。指标:Jaccard评分,越高越好。请看Supp。对于每个视频结果。在YouTube-Objects数据集上获得了很好的结果。我们的方法再次优于流基线和所有自动方法的显着保证金。公开备查的NLC [10]的代码仅在9%的YouTube数据集(1725帧)上成功运行;在这些方面,它的jaccard得分是43.64%。我们提出的模型优于它的一个显着的利润率为25%。即使在人在回路方法中,我们也优于除IVID之外的所有方法[42]。然而,IVID[42]要求人类始终跟踪分割性能并纠正算法所犯的任何错误。对于每个视频,这可能需要长达几分钟的时间。我们的方法使用零人类参与,但仍然表现出竞争力。同样重要的是要注意,该数据集与用于训练我们的外观流的PASCAL分割基准共享类别相应地,我们观察到外观流本身导致了整体最佳性能. 此外,这个数据集混合了静态和移动对象,这解释了我们的运动模型单独的性能相对较弱。总的来说,关节模型与单独的外观类似,但是我们的消融研究(见表4)显示,我们的关节模型对于移动物体更强,其中我们根据运动量对测试帧进行简而言之,我们的联合模型优于我们的外观模型上移动的ob-bronchial,而我们的外观模型是足够的最静态的帧。虽然现有的方法往往会在一个极端或另一个,我们的方法处理两个很好。表4:YouTube-Objects数据集的消融研究:我们的外观和关节模型在运动最多(左)和最少(右)的帧上的性能。Segtrack-v2数据集:在表3中,我们的方法优于所有半监督和自动方法,除了Segtrack上的NLC [10]。虽然我们 的 方 法 在 DAVIS 数 据 集 上 的 性 能 显 着 优 于NLC[10],但NLC在该数据集上的性能非常强。我们相对较弱的性能可能是由于Segtrack-v2视频的质量和分辨率较低,使得我们基于网络的模型很难处理它们。尽管如此,我们的关节模型仍然比我们的外观和运动模型提供了显着的提升,表明它再次实现了运动和外观的协同作用。定性评价:图4示出了定性结果。上半部分显示了我们方法的不同组件之间的视觉比较,包括外观,运动和关节模型。我们还示出了被用作运动流的输入的光流这些图像有助于揭示学习运动信号的复杂性。在熊的例子中,流仅在熊的头部上最突出,但我们的运动流仍然能够完全分割熊。船、汽车和帆的例子表明,即使水流很嘈杂,方法前10%移动前10%静态我们的-A71.5861.79Ours-Joint72.3459.863671外观模型(Ours-A)运动模型(Ours-M)关节模型(Ours-Joint)光流图像我们的与我们的自动化与半监督[31]第三十五话:一个人[37]第37话Ours-Joint图4:定性结果:上半部分显示了我们的外观、运动和关节模型的示例,以及用作运动网络输入的流图像。底部的行显示了我们的方法与自动和半监督基线的视觉比较(最好在pdf上查看,并查看讨论文本)。我们的细分结果的视频可在项目网站上获得。背景上的流-我们的运动模型能够学习对象形状并成功地抑制背景。犀牛和火车的例子显示了外观模型失败的情况,但当与运动流结合时,关节模型产生准确的分割。图的下半部分。4显示了我们的方法与最先进的自动[35,10]和半监督[37,31]方法之间的视觉比较。自动方法对对象的出现有很弱的概念;因此,它们完全错过了对象的一部分[10]。或不能从背景中消除对象的歧义[35]。半监督方法[37,31]严重依赖于初始的人类分割帧来了解对象相反,我们的方法成功地学会了结合关于对象运动和外观的一般线索,即使在非常具有挑战性的视频中,也能在所有帧中更准确地分割。5. 结论我们提出了一种新的学习方法,视频中的通用对象,其1)实现了运动和外观之间更深的协同作用,以及2)解决了在训练用于视频分段的深度网络中的实际挑战。结果显示,与许多现有方法相比,在某些情况下,即使是那些需要人工干预的方法,也有了相当大的改进鸣谢:这项研究得到了ONR YIP N 00014 -12-1-0754的部分支持。3672引用[1] 诉Badrinarayanan,F.Galasso和R.西波拉视频序列中的标签传播CVPR,2010。2[2] X. Bai,J. Wang,D. Simons和G.萨皮罗视频快速剪切:鲁棒的视频对象剪切使用本地化分类器.SIGGRAPH,2009年。一、二[3] S. Baker、D. Scharstein,J.刘易斯,S。罗斯,M。J.Black和R. 塞利斯基光流数据库和评价方法International Journalof Computer Vision,92(1):14[4] G. J. Brostow,J. Fauqueur和R.西波拉视频中的语义对象类:高清晰度地面实况数据库。模式识别快报,2009年。3[5] L- C. Chen,G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。基于深度卷积网和全连接crf的语义图像分割。2015年,国际会议。2[6] L- C. Chen,G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab:使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。arXiv预印本arXiv:1606.00915,2016。3[7] M.科德茨,M。奥姆兰,S。拉莫斯,T.雷费尔德,M。恩茨韦勒R.贝南森,美国弗兰克,S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集在CVPR,2016年。二、三[8] A. 多索维茨基山口Fischer、E.Ilg,P.豪塞尔角哈齐尔巴斯Golkov,P. van der Smagt,D. Cremers和T.布洛克斯Flownet:使用卷积网络学习光流InICCV,December 2015. 3[9] M.埃弗灵厄姆湖,澳-地凡古尔角,澳-地K. I.威廉斯,J.Winn 和 A. 齐 瑟 曼 。 PASCAL Visual Object Classes(VOC)International Journal of Computer Vision,88(2):303-338,2010. 6[10] A. Faktor和M.伊拉尼基于非局部一致性投票的视频分割。InBMVC,2014. 一、二、五、六、七、八[11] A. Fathi,M. Balcan,X. Ren和J.瑞格 结合自训练和主动学习进行视频分割。在BMVC,2011年。一、二[12] K. Fragkiadaki,P. Arbelaez,P. Felsen和J.马利克学习分割视频中的移动对象。在CVPR,2015年6月。2[13] F. 加 拉 索 河 Cipolla 和 B. 席 勒 超 像 素 视 频 分 割 。InACCV,2012. 一、二[14] M. Godec,P. M. Roth和H.比肖夫基于Hough的非刚性物体跟踪。见ICCV,2011年。五、七[15] M. Grundmann,V.Kwatra,M.汉和我艾萨高效的基于层次图的视频分割。CVPR,2010。一、二、五、六、七[16] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR,2016年。3[17] D. Hoiem,M. Hebert和A.斯坦学习使用运动提示找到物体边界。ICCV,2007年。2[18] S. 杰 恩 湾 Xiong 和 K. 格 劳 曼 像 素 对 象 。 arXiv 预 印 本arXiv:1701.05349,2017。三、六[19] S. D. Jain和K.格劳曼视频中的超体素一致前地传播。2014年,在ECCV。一、二、五、七3673[20] S.吉,W. Xu,M. Yang和K. Yu.用于人类动作识别的3D 卷 积 神 经 网 络 。 IEEE Transactions on PatternAnalysis and Machine Intelligence,35(1):221 3[21] B.江湖,澳-地Zhang,H. Lu,C.杨和M.- H.杨基于吸收马尔可夫链的显著性检测。在ICCV,第1665-1672页,2013中。6[22] A. Karpathy,G.Toderici、S.Shetty,T.良河,巴西-地Sukthankar和L.飞飞用卷积神经网络进行大规模视频分类。CVPR,2014。3[23] Y. J. Lee、J. Kim和K.格劳曼视频对象分割的关键段。见ICCV,2011年。一、二、五、六、七[24] F. Li,T. Kim,A.胡马云D. Tsai和J. M.瑞格通过跟踪多个图形-背景段的视频分割。InICCV,2013. 一、三、五[25] H. Li,Y.Li和F.波里克利Deeptrack:通过卷积神经网络学习区分特征表示,用于视觉跟踪。InBMVC,2014. 3[26] Y. Li,J. Sun和H.- Y.沈 视频对象剪切和粘贴。ACM事务处理图表,24(3):595-600,2005. 1[27] C.刘某超出像素:探索运动分析的新表示和应用。博士论文,Citeseer,2009年。4[28] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR,Nov. 2015. 2[29] C. 妈,杰-B. Huang,X.杨和M.-H. 杨用于视觉跟踪的分层卷积特征。在ICCV,2015年。3[30] T. Ma和L.拉特克互斥约束下的视频对象分割最大权团。CVPR,2012。一、二[31] N. M aürki,F. 佩拉齐岛 Wang,和A. 索金-霍恩双向空间视频分割.在CVPR,2016年。二五六八[32] J.Y. -H. Ng,M。J. Hausknecht,S.Vijayanarasimhan,O.维尼亚尔斯河Monga和G.托德里奇除了简短的片段:用于视频分类的深度网络。CVPR,2015。3[33] H.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功