基于时空CNN的视频对象分割

74 浏览量更新于2023-10-19 收藏 1.76MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1379基于时空CNN的视频对象分割中国科学院计算机科学与技术学院，北京，中国。2JD Digits，Mountain View，CA，USA。3中国科学院大数据挖掘与知识管理重点实验室，北京4Intell重点实验室Info. 过程（IIP），Inst.的Computi。技术人员：中国中科院xukai16@mails.ucas.ac.cn，{longyin.wen，liefeng.bo}@ jd.com，{qmhuang，liguorong}@ucas.ac.cn摘要在本文中，我们提出了一个统一的，端到端的可训练时空CNN模型的VOS，它包括两个分支，即，时间相干分支和空间分割分支。具体而言，时间相干分支从未标记的视频数据中以对抗方式预训练，旨在捕获视频序列的动态外观和运动线索以指导对象分割。空间分割分支专注于基于学习的外观和运动线索准确地分割对象。为了获得准确的分割结果，我们设计了一个由粗到细的过程，顺序地将设计的注意力模块应用于多尺度特征图，并将它们连接起来以产生最终的预测。以这种方式，空间分割分支被强制逐渐集中于对象区域。这两个分支以端到端的方式对视频分割序列进行联合微调。在三个具有挑战性的数据集（即，DAVIS- 2016、DAVIS-2017和Youtube-Object），以表明我们的方法相对于最先进的技术实现了良好的性能。代码可在 https ： //github 上获得。www.longyin880815.com1. 介绍视频对象分割（VOS）是近年来的研究热点它的目的是从视频片段中提取前景对象。现有的VOS方法可以根据人的参与程度分为两种情况，即无监督和半监督。无监督VOS方法[49，44，17，32，29]不需要任何手动注释，而半监督VOS方法[49，44，*通讯作者。方法[47，6，9，18]依赖于第一帧中的对象的注释掩码。在本文中，我们感兴趣的是在半监督VOS任务中，这可以被视为整个视频中的标签传播问题。为了保持对象片段的时间关联，通常在大多数先前的方法[48，46，5，23，44，2，15]中使用光流来建模跨时间的像素一致性以实现平滑。然而，光流表示法需要大量的人力，并且估计是具有挑战性的并且通常是不准确的，并且因此它在视频分割中并不总是有帮助的。为此，Liet al.[33]设计一个端到端训练的深度递归网络，以同时分割和跟踪视频中的对象。Xu等[51]提出了一个序列到序列网络，以充分利用VOS的长期时空信息。与上述方法相比，我们为VOS设计了一种时空卷积神经网络（CNN）算法（简称STCNN），这是一种统一的端到端可训练CNN。STCNN由两个分支组成，即，时间相干分支和空间分割分支。两个分支中的特征能够在反向传播期间获得有用的梯度信息。具体来说，时间相干性分支专注于捕获动态外观和运动线索，以提供对象分割的指导，该对象分割是以对抗方式从未标记的视频数据中预先训练的[24]。空间分割分支是一个完全卷积的网络，专注于基于从时间相干性分支学习的外观和运动线索来分割对象。受[15]的启发，我们设计了一个从粗到精的过程，在多尺度特征图上顺序应用设计的注意力模块，并将它们连接起来以产生最终的准确预测。通过这种方式，空间分割分支被强制逐渐集中在对象区域上，这有利于训练和测试。这两个分支在视频分段序列上被联合微调（例如，DAVIS-2016中的训练集[39]）以端到端的方式-1380内尔。我们在三个不同的数据集上进行了几个实验，DAVIS-2016 [39]，DAVIS-2017 [40]和Youtube-Object[41，20]，以证明所提出的方法对最先进方法的有效性。具体来说，我们的STCNN方法产生0。在DAVIS-2016 [ 39 ]上进行半监督任务的mIOU为838，并以0.796在Youtube-Object上的mIoU中[41，20]。捐款. (1)提出了一种统一的、端到端可训练的时空CNN算法，该算法不依赖于光流，空间分割分支和时间相干分支。(2)时间相干性分支被设计为捕获跨时间的动态外观和运动线索(3)我们设计了一个由粗到细的过程，在多尺度特征图上顺序地应用设计的注意力模块，并将它们连接起来以产生最终的准确预测。(4)在DAVIS-2016、DAVIS-2017和Youtube-Object三个数据集上进行了大量的实验，以证明所提出的方法与现有技术相比具有2. 相关工作半监督视频对象分割。半监督VOS的目标是根据预先提供的前景区域分割视频对象在文献[1]中，提出了一种基于块的概率图模型用于半监督VOS，该模型使用时间树结构来连接相邻帧中的块以精确地推断视频中的像素标签。Jain等人[20]设计用于前景区域传播的高阶超体素标记相干势，其利用自下而上的超体素来引导对长程相干区域的估计Wen等人[48]将多部分跟踪和分割集成到统一的能量目标中以处理VOS，这通过RANSAC风格的方法有效Tsai等人[46]使用迭代方案在统一的框架中联合优化VOS和光流估计，以利用两个任务之间的相互引导信息来获得更好的性能。最近，基于深度神经网络的方法主导了VOS任务。Khoreva等人[26]描述了一种基于CNN的算法，该算法结合了离线和在线学习策略，其中前者根据对先前帧的估计产生细化的掩码，而后者旨在捕获特定对象实例的外观。Cheng等人[5]提出了一种端到端的可训练网络，用于同时预测视频中的逐像素对象分割和光流，该网络预先离线训练以学习通用概念，并在线微调以进行特定操作。cific对象。Caelles等人[3]设计基于全卷积神经网络的单次视频对象分割（OSVOS）方法，以传递通用语义信息来处理视频对象分割任务。之后，Voigtlaenderetal. [47]通过使用基于网络的置信度和空间配置选择的训练样本在线更新网络来在线更新策略的无约束性提高了精度，但牺牲了运行效率.为了解决第一帧中耗时的微调阶段，Chenget al. [6]提出了一种快速VOS方法，它由三个模块组成，即，基于部分的跟踪、感兴趣区域分割和基于相似性的聚集。该方法能够立即开始快速准确地分割整个视频中的特定对象。在[16]中，提出了一种递归神经网络方法来融合提供掩码的二进制分割网络和为每个帧中的每个对象实例提供边界框的定位网络的输出，这能够利用视频数据的长期时间结构Bao等人[2]提议用于VOS的时空马尔可夫随机场（MRF）模型，其使用CNN来编码像素之间的空间依赖性，并且使用光流来建立时间依赖性。提出了一种有效的嵌入CNN的算法，在MRF中进行近似推理，完成VOS任务。无监督视频分割。一些无监督的视频分割算法使用自底向上的策略，在没有任何先验信息的情况下对时空相干管进行分组。Xu等[50]在流框架内实现基于图的几何分割方法，其对视频流强制马尔可夫假设以近似完整的视频分割。Yu等人[53]提出了一种基于参数图分割的高效、鲁棒的视频分割算法，该算法识别并去除簇间边，生成节点簇，完成视频分割。其他几种无监督视频分割方法将自下而上的视频分割升级为对象级分割。Lee等[30]使用静态和动态线索来识别任何帧中的对象类区域，并发现具有持久外观和运动的假设对象组。然后，每个排名的假设被用来估计跨所有帧的像素级对象标记。Li等[31]同时跟踪多个整体图形-背景段以生成视频对象建议，其使用多输出正则化最小二乘公式来训练每个轨道的在线非局部外观模型。帕帕-佐格鲁等。[36]提出了一种快速的无监督VOS方法，该方法通过结合从光流中提取的两种运动边界来生成建议，从而简单地聚合视频中的像素。[49]一系列的简单的，1381i=1图1：STCNN算法的网络架构概述。虚线上方的部分是时间相干分支，虚线下方的部分是空间分割分支。红线表示我们模型中使用的注意力机制，六边形表示注意力模块。值得注意的是，每个卷积层后面是一个批处理归一化层[19]和一个ReLU层。发现对象的待分组实例，并且迭代地更新实例的表观模型以检测时间上相邻的帧中的较硬实例托克-马科夫等。[44]使用完全卷积网络来学习视频中的运动模式以处理VOS，其设计了编码器-解码器风格的架构，以首先学习光流场特征的粗略表示，然后迭代地对其进行细化以产生高分辨率的运动标签。3. 用于VOS的如上所述，我们为VOS设计了一个时空CNN。具体来说，给定一个视频序列X={X1 ， · · · ，Xi，· · · }，我们的目标是使用我们的STCNN模型来生成分割结果，即，S={S1，···，Si，···}，其中Si是对应于Xi的分割掩码。在时间t，STCNN取先前的δ帧，即，Xt-δ，···，Xt-1和当前帧Xt，以预测当前帧St1处的分割结果。作为如图1所示，STCNN由两个分支构成，即，时间相干分支和空间分段分支。时间相干性分支学习空间-时间鉴别特征来捕获视频序列的动态外观和运动线索，而不是使用光流。同时，空间分割分支是一个完全卷积的网络，用于从时间相干分支中分割具有时间约束的对象。在下面的部分中，我们将详细描述这两个分支。1对于时间索引t δ，我们将第一帧复制δ−t次以获得用于分割的δ3.1. 时间相干分支架构如图1所示，我们基于主干ResNet-101网络[14]构建时间相干分支，输入通道数为3δ。也就是说，我们将之前的δ帧连接起来，并将它们馈送到时间相干分支中进行预测。之后，我们使用三个反卷积层，核大小为3×3。为了在每个分辨率中保留时空信息，我们使用三个跳过连接来连接低层特征。使用内核大小为1×1的卷积层来压缩特征以提高效率。值得注意的是，每个卷积或去卷积层后面都有一个批次归一化层[19]和一个用于非线性的ReLU层。训练前。受[24]的启发，我们使用对抗方式通过从未标记的视频数据预测未来帧来训练时间相干性分支。具体地说，我们设置时间相干分支作为生成器G，并构造一个CRDD来识别从G生成的视频帧和真实视频帧。在这里，我们使用在ILSVRC CLS-ANN数据集[42]上预训练的Inception-v3网络[43]。我们将最后一个完全连接（FC）层替换为随机初始化的2类FC层作为CNOD。在时间t，我们使用生成器G来基于先前的δ帧Xt-δ，···，Xt-1产生当前帧的预测Xt，即，Xt=G（{Xt−i}δ ）的情况。然后，采用判别器D来将生成的帧Xt与真实帧Xt区分开。生成器G和D以对抗的方式迭代训练[11]。也就是说，对于生成器G的固定参数WG，我们的目标是优化CRDD以最小化概率1382i=1i，j，t不犯错误的概率，公式如下：minWD−log.Σ1−D（Xt）-logD（Xt）（一）其中Xt=G（{Xt−i}δ）是从G基于先前的δ帧，并且Xt是真实视频帧。同时，对于鉴别器D的固定参数WD，我们期望生成器G生成更像真实的视频帧的视频帧，即，minWG<$Xt−X<$t<$2−λadv·logD（X<$t）（2）其中，第一项是均方误差，惩罚了fake帧Xt和实帧之间的差异Xt，第二项是用于最大化D犯错误的概率的对抗项，并且λadv是用于平衡这两项的预定义参数。通过这种方式，对CXD和生成器G进行迭代优化，以使生成器G捕获视频序列中的区分性时空特征。图2：注意力模块的架构。St注意到当前阶段中的分段掩码。去3.2. 空间分割分支空间分割分支是基于ResNet-101网络[14]通过替换最后两个残差块中的卷积层（即， res4 和res5），其具有步幅1的扩张卷积层[4]，其旨在保持分割准确性的高分辨率然后，我们使用PPM模块[54]通过基于不同区域的上下文聚合来利用全局上下文信息，然后使用三个设计的注意力模块来细化预测。也就是说，我们在多尺度特征图上顺序地应用注意力模块，以帮助网络关注对象区域，而忽略背景区域。之后，我们连接多尺度特征图，然后是3×3卷积层以产生最终预测，见图1。值得注意的是，我们设计的注意力模块专注于对象区域的准确结果。如图2所示，我们首先使用逐元素加法来利用高级上下文，并连接时间一致性特征以集成时间约束。之后，我们使用来自先前粗尺度特征图的预测掩码来引导网络的注意力，即，使用元素方式在当前阶段中，使用乘法来掩蔽特征图。设St为当前阶段的预测掩码。我们以元素方式在特征图上进行多重扫描，并将其添加到用于预测的串联特征。通过这种方式，增强了对象区域周围的特征，这迫使网络逐渐集中于对象区域以获得准确的结果。具有softmax函数P（·）的逐像素二进制交叉熵用于多尺度特征映射以指导网络训练，参见图1，其定义为，Σ其中，i，j，t和i，j，t是坐标（i，j）处的地面实况掩码S和预测掩码S t的标签，i，j，t=1指示预测在坐标（i，j）处是前景，并且i，j，t= 0指示预测在坐标（i，j）处是背景。3.3. 网络实施和培训我们在Pytorch中实现了我们的STCNN算法[37]。所有的训练和测试代码，经训练的模型可在https://github.com/longyin880815/STCNN获得。在训练阶段，我们首先分别对时间相干分支和空间分割分支进行预训练，并迭代更新两个分支的模型。之后，我们在每个序列上微调两个模型以进行在线处理。预训练时间相干分支。我们在ILSVRC 2015 VID数据集[42]的训练和验证集上以对抗方式预训练时间相干性分支，该数据集总共由4417个视频剪辑组成，即，3，862个视频片段在训练集中，555个视频片段在验证集中。我们的生成器G中的骨干ResNet-101网络由ILSVRC CLS-SVM 数据集上的预训练模型初始化[42]，其他卷积和反卷积层由方法随机初始化[13]。虽然通过ILSVRC CLS-RNN数据集[42]上的预训练模型来初始化CNOD，但通过方法[13]初始化最后的2类FC层同时，我们随机水平翻转视频剪辑中的所有帧以增加训练数据，并将所有帧调整为大小（480，854）进行训练。批量大小设置为3，并使用Adam优化算法[27]来训练模型。我们将δ设为4，并使用学习率10−7和10−4来训练生成器G和判别器，L（St，S）=−logP（i，j，t= 1）tΣ-你好i，j，t=1=0logP（logi，j，t= 0）（三）natorD，分别。对抗权重λadv被设置为0的情况。001训练阶段i，j，t1383表1：DAVIS-2016验证集的性能。半监督VOS方法的性能显示在左部分，而无监督VOS方法的性能显示在右部分。符号↑表示分数越高表示性能越好，而↓表示分数越低表示性能越好在最后一行中，括号中的数字是相应方法的原始论文中报告的运行时间。度量半监督无监督我们CRN[15] OnAVOS[47] OSVOS[3] MSK[38] CTN[23] SegFlow[5] VPN [22] [第28话] LVO[45] FSEG[21] LMP[44]J平均值（↑）0.8380.8440.8610.7980.7970.7350.7610.7500.7620.7590.7070.700召回（↑）0.9610.9710.9610.9360.9310.8740.9060.9010.9110.8910.8350.850衰变（↓）0.0490.0560.0520.1490.0890.1560.1210.0930.0070.0000.0150.013F平均值（↑）0.8380.8570.8490.8060.7540.6930.7600.7240.7060.7210.6530.659召回（↑）0.9150.9520.8970.9260.8710.7960.8550.8420.8350.8340.7380.792衰变（↓）0.0640.0520.0580.1500.0900.1290.1040.1360.0790.0130.0180.025T（↓）0.191-0.1900.3760.1890.1980.1820.3000.3590.2550.2950.688时间（s/f） 3.90（0.73）（15.57）（9.24）（12.0）（1.3）（7.9）-----预训练空间分割分支。我们使用MSRA10K显著对象数据集[8]和PASCAL VOC 2012分割数据集[10]来预训练空间分割分支。MSRA 10K数据集包含10，000张图像，PASCAL VOC 2012数据集包含11，355张图像。同时，我们随机水平翻转图像，并旋转图像以增强训练数据。每个训练图像被调整大小为（300，300）。批大小为8且学习率为110- 3用于优化模型。此外，我们直接在多尺度预测中添加交叉熵损失（参见图1）来计算训练的总体损失。VOS的迭代离线培训。在预训练之后，我们在DAVIS-2016 [39]的VOS训练集上联合微调模型，其中包括30个视频片段。具体来说，我们迭代地训练时间相干分支和在优化时间相干分支时，我们冻结空间分割分支的权重，并使用学习率10−8和10−4来训练发电机G和PWM，分别亚当算法是用来优化时间相干性分支中的权重具有批量大小1。为了训练空间分割分支，类似地，我们固定时间相干性分支中的权重，并且仅使用学习率为10- 4的SGD算法更新空间分割分支中的权重。为了更好的训练，我们随机水平翻转，旋转和重新缩放以增加训练数据。对于这种迭代学习过程，网络中的每个分支都能够通过反向传播从另一个分支获得有用的信息。以这种方式，空间分割分支可以从时间相干性分支接收有用的时间信息，而时间相干性分支可以学习更有效的时空特征以用于准确分割。VOS在线培训。为了使网络适应VOS的特定对象，我们在每个视频剪辑的第一帧上微调网络。由于我们在第一帧中只有注释掩码，因此只有空间分割分支优化第一帧中的每个掩码被增强以生成多个训练样本以增加多样性。具体来说，我们使用照明改变、前景-背景分离、对象运动模拟、相机视图改变和前景-背景合并。值得注意的是，与[25]相比，我们不生成光流，因为我们的STCNN不需要视频分割的光流。SGD算法的学习率为10−4，批量大小为1，用于在线训练网络4. 实验我们在三个具有挑战性的数据集上，即DAVIS-2016[39]，DAVIS-2017 [40]和Youtube-Object上，针对最先进的VOS方法评估了所提出的算法[41，20]。所有的实验都是在一个工作站上进行的，该工作站具有3.6 GHz Intel i7-4790 CPU、16 GB RAM和NVIDIA Titan 1080ti GPU。定量结果见表1和表2。一些定性分割结果如图3所示，更多的视频分割结果可以在补充材料中找到。4.1. DAVIS 2016数据集DAVIS-2016数据集[39]包括50个序列，3，455个带有二进制像素级前景/背景掩模的注释帧。由于计算复杂性是视频处理中的主要瓶颈，数据集中的序列具有短的时间范围（约2-4秒），但包括通常在较长视频序列中发现的所有主要挑战，例如背景杂波、快速运动、边缘模糊、相机抖动和视野外。我们在480p分辨率集上测试了所提出的方法。1384SSP+R表2：Youtube-Objects数据集上的结果。平均交大于并被用来评估方法的性能。结果直接取自原始论文。符号↑表示分数越高表示性能越好。粗体表示最佳结果。方法BVS[34]JFS[35] [第20话] MRFCNN[2][25]OSVOS[3]MSK[38]OFL[46]CRN[15]DRL[12] OnAVOS[47]我们飞机0.8680.8900.863--0.8680.8450.899-0.852-0.869鸟0.8090.8160.810--0.8510.8370.842-0.868-0.879船0.6510.7420.686--0.7540.7740.740-0.799-0.786车0.6870.7090.694--0.7090.6400.809-0.672-0.859猫0.5590.6770.589--0.6760.6980.683-0.746-0.772牛0.6990.7910.686--0.7620.7670.798-0.746-0.781狗0.6850.7030.618--0.7790.7450.766-0.827-0.800马0.5890.6780.540--0.7140.6410.726-0.736-0.738摩托车0.6050.6150.609--0.5820.8920.481-0.737-0.680火车0.6520.7820.663--0.7460.7440.763-0.830-0.796平均值（↑）0.6800.7400.6760.7840.7620.7440.7170.7760.7660.7810.7740.7964.1.1评价对于综合评价，我们使用数据集提供的三个度量，区域相似性J、轮廓精度F和时间不稳定性T。具体地，区域相似性J测量错误标记的像素的数量，其被定义为估计的分割和地面真实掩模的交并（IoU）给定分割掩码S和地面实况掩码S，J的计算公式为J=SS。轮廓精度F计算基于轮廓的精度Pc和估计的分割S的轮廓点与地面真实掩模S的轮廓点之间的召回率Rc，定义为F=2PcRc。此外，时间不稳定性T意味着-C c确保振荡和轮廓的不准确性，计算结果如下[39]。4.1.2消融研究为了全面理解所提出的方法，我们进行了几次烧蚀实验。具体来说，我们构建了三个变体，并在DAVIS-2016的验证集上对其进行评估，以验证不同组件的有效性（即，the “Lucid dream” augmentation, the attentionmodule, and the temporal co- herence同时，我们还进行了实验，以分析表5中不同训练阶段的重要性。为了进行公平的比较，除了特定的声明之外，我们使用相同的参数设置。清醒梦增强。为了证明“清醒梦”增强的效果如表3所示，我们发现区域相似性J从0降低。838比0 832 这种下降（即，0的情况。006）证明了注意模块。为了验证注意力模块的有效性，我们构造了一个算法，在空间分割分支中移动注意力机制也就是说，我们删除图1中的红线，直接生成输出掩码。以这种方式，对象区域不被网络特定地集中模型的分割结果报告在表3的第三列中。我们比较表3中的第三和第四列，发现注意力模块提高了0。01区域相似度J，0.015轮廓精度F，这表明注意力模块对per-turbine是至关重要的主要原因是注意力模块逐渐应用于多尺度特征地图，迫使网络聚焦于对象区域以生成更准确的结果。时间相干分支。我们构建了一个基于空间分割分支的网络，没有注意力模块，并在第二栏中报告了其结果表3所比较表3中的第二列和第三列之间的结果，我们观察到时间相干分支对于视频分段的性能是关键的，即，它提高了0。01平均区域相似性J（0. 812对0。822），0。013平均轮廓精度F（0. 807对0。820）。最重要的是，时间相干分支显著地降低了时间不稳定性，即，相对减少13。4%时间不稳定性T（0. 231对0的情况。200）。实验结果表明，时间相干性分支能够有效地捕捉视频序列的动态外观和运动线索，有助于生成准确一致的分割结果。训练分析。如第3.3节所述，我们首先离线迭代更新预训练的时间相干性分支和空间分割分支。之后，我们对每个序列上的两个分支进行微调，以进行在线处理。我们在DAVIS- 2016的验证集上评估了具有不同训练阶段的STCNN方法，以分析它们对性能的影响，如表5所示。如表5所示，我们发现在没有在线训练阶段的情况下，STCNN的平均区域相似度J下降了0。096（即，0的情况。838对0。742），而没有离线训练阶段，J1385图3：STCNN在DAVIS-2016（前两行）和Youtube-Objects（最后一行）数据集上的定性分割结果像素级的输出由红色遮罩表示。结果表明，我们的方法是能够分割对象的几个挑战下，如闭塞，变形的形状，快速运动，和杂乱的背景。表3：所提出的方法中各种组分的有效性。所有模型均在DAVIS- 2016数据集上进行评估。符号↑表示分数高表示结果较好，符号↓表示分数低表示结果较好组件STCNN时间相干分支？注意模块？清醒梦？✓✓✓✓✓✓J平均值（↑）0.8120.8220.8320.838F平均值（↑）0.8070.8200.8350.838T（↓）0.2310.2000.1920.191STCNN下降0。052（即，0的情况。838对0。786）。总之，这两个训练阶段对我们的STCNN都非常重要，尤其是在线训练阶段。4.1.3与现有技术的比较我们将所提出的方法与7种最先进的半监督方法进行了比较，CRN [15]、OnAVOS [47]、OSVOS [3]、MSK[38]、CTN [23]、SegFlow [5]和VPN[22]和4种最先进的无监督方法，即表中的ARP[28]，LVO [45]，FSEG [21]和LMP [44]1.一、如表1所示，我们的算法优于前半监督算法（例如，OSVOS [3]和MSK [38]）和无监督算法（例如，[28][29]838平均区域相似性J，0. 838平均轮廓精度F，和0。1991年，除CRN [15]和OnAVOS [47]外，时间稳定性TOnAVOS算法[47]使用基于网络置信度和空间配置选择的训练样本在线更新网络，这需要大量消耗时间和计算资源。我们的算法是更有效，并且在训练和测试阶段都不需要光流。OnAVOS [47]中的在线更新机制是对我们方法的补充。我们相信这可以用于我们的STCNN，以进一步提高性能。此外，与CRN[15]依赖于光流在训练和测试中呈现时间相干性，我们的方法使用自监督策略来隐式地利用时间相干性，而不依赖于光流的昂贵的人类注释。时间相干分支能够捕获视频序列的动态外观和运动线索，以对抗的方式从几乎无限的未标记视频数据中进行预训练。4.1.4运行时性能我们在表1的最后一行中展示了STCNN的推理时间和DAVIS-2016验证集上的最新方法。由于在不同的平台上对不同的算法进行描述和评估（例如，不同的算法在不同类型的GPU上进行评估），很难公平地比较运行时间效率。我们报告运行速度以供参考。同时，我们还在表4中分析了STCNN在线训练阶段的迭代次数对分割精度和运行速度的影响。随着迭代次数的增加，平均区域相似度J增加到最大值0。838 继续训练不仅不能获得准确率的提高，反而会减慢推理速度.因此，我们在实验中将在线训练的迭代次数设置为400与最先进的方法，如OSVOS（9。24s/f），OnAVOS（15. 57s/f），我们的方法以更快的运行速度取得了令人印象深刻的结果1386表4：在在线训练阶段具有不同迭代次数的所提出的STCNN的性能和运行速度。#Iter100200300400500600Miou0.8300.8340.8360.8380.8380.838时间（s/f）1.112.042.973.904.835.76表5：STCNN不同训练阶段在DAVIS-2016上的性能度量线下培训在线培训所有J平均值（↑）0.7420.7860.838召回（↑）0.8540.9210.961衰变（↓）-0.0040.0750.049F平均值（↑）0.7430.790.838召回（↑）0.8060.8710.915衰变（↓）0.0180.0890.064表6：DAVIS-2017数据集的结果。符号↑表示分数越高表示性能越好粗体表示最佳结果。度量[46个][38个][五十二][七]《中国日报》[3]第一章[47个]我们J平均值（↑）43.251.252.554.656.661.658.7F平均值（↑）-57.357.161.863.969.164.64.2. DAVIS 2017数据集我们在DAVIS-2017验证集[40]上评估了我们的STCNN，该验证集由30个具有各种挑战性情况的视频序列组成，包括具有相似外观的多个对象，严重遮挡，大的外观变化，杂乱的背景等。平均区域相似性J和轮廓精度F用于评估表6中的性能。我们的STCNN 与大多数半监督方法相比表现良好，[38 ][39]7%的平均区域相似性J和64。6%轮廓精度F.结果表明，我们的STCNN是有效的分割对象在更复杂的场景具有相似的外观。4.3. Youtube对象数据集Youtube-Objects数据集[41，20]包含来自10个对象类别的网络视频。使用[20]提供的超过20，000帧的126个视频序列和地面真实掩模进行评估，其中单个对象或同一类别的一组对象与背景分离。Youtube-Objects中的视频混合了静态和移动对象，每个视频剪辑中的帧数从2到401不等。在所有视频帧中，估计结果与地面真实掩模之间的平均IoU被用来评估算法的性能。我们将所提出的STCNN方法与11种最先进的半监督算法进行比较，即BVS [34]，JFS [35]，SCF [20]，MRFCNN [2]，LT [25]，OSVOS[3]，[38][46 ][48][49][47]表2。如表2所示，我们观察到STCNN方法在0. 796个平均IoU，这超过了最先进的结果，即，MR- FCNN[2]（0. 784平均IoU），0。012万欧元。与基于光流的方法[46，38]相比，我们的STCNN方法在快速移动的物体上表现良好，例如汽车和猫。快速运动物体的光流估计不准确，影响分割精度.我们的STCNN依赖于时间相干性分支来捕获有区别的时空特征，这对于解决这种情况是有效的同时，该算法[20]使用长期超体素来捕获时间相干性。分割时只使用超像素，导致对象边界不准确。相比之下，我们的算法设计了一个由粗到细的过程，在多尺度特征图上顺序地应用注意力模块，强制网络关注对象区域以生成准确的结果，特别是对于非刚性对象，例如，猫和马定性结果显示在图3的最后三行中。5. 结论在这项工作中，我们提出了一个端到端的训练时空CNN的VOS，这是由两个分支，即，时间相干分支和空间分割分支。时间相干性分支以对抗方式进行预训练，并用于预测视频序列中的外观和运动线索，以在不使用光流的情况下引导对象分割。空间分割分支被设计为基于来自时间相干性分支的预测外观和运动线索来准确地分割对象实例。此外，为了获得准确的分割结果，在空间分割分支中的多尺度特征图上交互地应用由粗到细的过程以细化预测。这两个分支机构以端到端的方式进行联合培训在三个具有挑战性的数据集上进行了大量的实验，DAVIS-2016、DAVIS-2017和Youtube-Object证明，所提出的方法实现了与最先进技术相比的良好性能。致谢徐凯、李国荣、黄庆明国家自然科学基金资助项目： 61772494 、 61620106009 、 61836002 、U1636214、61472389 ，中国科学院前沿科学重点研究项目：QYZDJ-SSW-SYS 013、中国科学院青年创新促进会、中国科学院大学1387引用[1] VijayBadrinarayanan 、 IgnasBudvytis 和 RobertoCipolla。使用树结构图形模型的半监督视频分割。TPAMI，35（11）：2751-2764，2013. 2[2] Linchao Bao ， Baoyuan Wu ， and Wei Liu. CNN inMRF：通过基于CNN的高阶时空MRF中的推理进行视频对象分割。在CVPR，2018年。一、二、六、八[3] Sergi Caelles ， Kevis-Kokitsi Maninis ， Jordi Pont-Tuset，LauraLeal-Taixe'，DanielCremers和LucVanGool。单镜头视频对象分割。在CVPR中，第5320二五六七八[4] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L.尤尔。使用深度卷积网络和全连接crf的语义图像分割CoRR，abs/1412.7062，2014年。4[5] 程景春，蔡义轩，王胜金，杨明轩。Segflow：视频对象分割和光流的联合学习。在ICCV，第686-695页，2017年。一、二、五、七[6] Jingchun Cheng ， Yi-Hsuan Tsai ， Wei-Chih Hung ，Shengjin Wang，Ming-Hsuan Yang.通过跟踪部件快速准确的在线在CVPR，2018年。一、二[7] Jingchun Cheng ， Yi-Hsuan Tsai ， Wei-Chih Hung ，Shengjin Wang，Ming-Hsuan Yang.通过跟踪部件快速准确的在线视频对象分割在CVPR中，第7415-7424页8[8] 作者：Niloy J. Mitra，Xiaolei Huang，PhilipH. S. Torr和Shi-Min Hu.基于全局对比度的显著区域检测。TPAMI，37（3）：569-582，2015年。5[9] 海慈、淳于王、益州王。通过学习位置敏感嵌入的视频对象分割。在ECCV中，第524-539页，2018年。1[10] Mark Everingham，S. M. Ali Eslami，Luc J.放大图片作者：Christopher K. I. 约翰·威廉姆斯韦恩和安德鲁·齐瑟曼。pascal visual object classes挑战：回顾过去。IJCV，111（1）：98-136，2015. 5[11] Ian J. Goodfellow，Jean Pouget-Abadie，Mehdi Mirza，Bing Xu，David Warde-Farley，Sherjil Ozair，Aaron C.Courville和Yoshua Bengio。生成性对抗网。在NIPS，第2672-2680页，2014中。3[12] Junwei Han ， Le Yang ， Dingwen Zhang ， XiaojunChang，and Xiaodan Liang.增强切割--用于视频对象分割的智能体学习。在CVPR中，第9080-9089页，2018年。六、八[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 深入研究整流器：超越人类对imagenet分类的水平。在ICCV，第1026- 1034页，2015中。4[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。三、四[15] 胡平，王刚，孔翔飞，权健，谭亚鹏.用于视频对象分割的运动引导级联细化网络。在CVPR中，第1400-1409页，2018年。一、五、六、七、八[16] 胡元婷，黄家斌，亚历山大G.施温Maskrnn：实例级视频对象分割。在NIPS，第324-333页2[17] 胡元婷，黄家斌，亚历山大G.施温使用运动显著性引导的时空传播的无监督视频对象分割。在ECCV中，第813-830页，2018年。1[18] 胡元婷，黄家斌，亚历山大G.施温Videomatch：基于匹配的视频对象分割。在ECCV，第56-73页，2018年。1[19] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在ICML，第448-456页，2015中。3[20] Suyog Dutt Jain和Kristen Grauman。Supervoxel-视频中一致的前景传播。在ECCV中，第656-671页二五六八[21] Suyog Dutt Jain，Bo Xiong，and Kristen Grauman.融合-分段：学习结合运动和外观，实现视频中通用对象的全自动分割。在CVPR中，第2117-2126页，2017年。五、七[22] Varun Ja

下载后可阅读完整内容，剩余1页未读，立即下载