实时视频对象分割的半监督挑战及解决方案

86 浏览量更新于2023-10-25 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9384用于实时视频对象分割的陈曦1†，李作新2，叶远2，余刚2，沈建新1，齐东联11浙江大学电气工程学院，2美谷科技股份有限公司{xichen zju，J X Shen，qidl}@ zju.edu.cn，{lizuoxin，yuanye，yugang}@ megvii.com摘要在这项工作中，我们解决了半监督视频对象分割（VOS）的任务，并探讨如何有效地利用视频属性来应对半监督的挑战。我们提出了一种新的流水线称为状态感知跟踪器（SAT），它可以产生准确的分割结果与实时的速度。为了提高效率，SAT利用帧间一致性，并处理每个目标对象作为一个轨迹。为了在视频序列上获得更稳定和鲁棒的性能，SAT可以感知每个状态，并通过两个反馈环进行自适应一个循环帮助SAT生成更稳定的轨迹。另一个循环有助于构建更健壮和更全面的目标表示。SAT在DAVIS 2017-Val数据集上实现了72.3%JF均值和39 FPS的令人满意的结果，这表明效率和准确性之间存在良好的权衡1. 介绍半监督视频对象分割（VOS）要求在给定初始模板的情况下分割视频序列中的目标对象，是计算机视觉的一项基本任务在VOS任务中，提供初始掩码作为视觉引导。然而，在整个视频序列中，目标对象可以经历大的姿态、比例和外观变化。此外，它甚至可以满足异常状态，如遮挡，快速运动和截断。因此，以半监督的方式对视频序列进行鲁棒表示是一项具有挑战性的任务幸运的是，视频序列为VOS任务带来了额外的上下文信息。首先，视频的帧间一致性使得可以在帧之间有效地传递信息。此外，在VOS任务中，来自先前帧的信息可以被视为时间上下文，其可以为后续*通讯作者[2]这项工作是在Megvii Inc.实习期间完成的。807570t65605550450 5 10 15 20 25 30 35 40 45 50 55 60速度（FPS）图1. DAVIS 2017-Val数据集上的准确度与速度。一些以前的方法实现高精度与运行速度慢。其他人为了更快的速度牺牲了太多的准确性。我们的方法实现了一个体面的速度-精度权衡。预测因此，有效地利用视频带来的额外信息对于VOS任务非常重要。然而，以前的作品没有很好地利用视频的特点。[2，15，23，26，12]完全忽略了帧之间的关系，对每一帧单独处理，造成了巨大的信息浪费。其他方法[22，17，31，27，31]使用特征级联、相关或光流来将预测的掩模或特征从前一帧传播到当前帧，但它们具有明显的缺点。首先，以前的工作通常在完整的图像上传播信息，而目标对象通常占据很小的区域。在这种情况下，对完整图像的操作可能会导致冗余计算。此外，目标对象可以在整个视频中经历不同的状态，但是这些方法应用没有自适应的固定传播策略，这使得它们在长序列上不稳定。此外，它们只从第一帧或前一帧中寻找线索进行目标建模，这对于整体表示是不够的因此，大多数现有的方法不能解决VOS既令人满意的精度和快速。因此，一个更有效和鲁棒的管道半监督视频ob-Davis2017上的J F均值StM[16]预MVOS[1]四、FEELVOS[21日]阿甘英[8]我们我们 -FasOSVO迪耶内[S-S[15第十二章]]RGMP[26日]跑等[25]STCOSV[第28话]操作系统[2]FAV操作系统[3]OSNM[3第1页]暹罗面具[2]四、线下在线我们93850.96状态估计器需要对象分割本文将VOS转化为状态估计和目标建模的连续过程，其中分割是状态估计的一个特殊方面。具体来说，我们提出了一个简单而有效的管道称为状态感知跟踪器（SAT）。SAT算法利用帧间一致性，将每个目标对象作为一个小轨迹，不仅提高了流水线的为了构建更可靠的信息流，我们提出了一种估计反馈机制，使我们的模型能够知道当前的状态，并对不同的状态进行自适应。对于一个更全面的目标建模，SAT使用的时间上下文来动态地构建一个全局表示，在整个视频序列中提供强大的视觉指导。如图所示1、SAT在DAVIS 2017-Val数据集上实现了具有竞争力的准确性，并且比所有其他方法运行得更快。我们的管道的简化图示见图。二、推理过程可以概括为分割-估计-反馈。首先，SAT裁剪目标对象周围的搜索区域，并将每个目标作为tracklet。联合分割网络预测每个轨迹片段的掩码。其次，状态估计器评估分割结果并产生状态分数来表示当前状态。第三，基于状态估计结果，我们设计了两个反馈环。裁剪策略循环自适应地选择不同的方法来预测目标的边界框。然后，我们根据预测框裁剪下一帧的搜索区域。这种切换策略使跟踪过程随着时间的推移更加稳定。同时，全局建模循环利用状态估计结果动态更新全局特征.作为回报，全局特征可以帮助联合分割网络生成更好的分割结果。为了验证我们的方法的有效性，我们在DAVIS2016，DAVIS 2017和YouTube-VOS数据集上进行了广泛的实验和消融研究结果表明，SAT实现了良好的性能与体面的速度-精度权衡。我们的主要贡献可以概括如下：（1）重新分析了半监督视频对象分割的任务，开发了状态感知跟踪器，在DAVIS基准测试中达到了较高的准确率和较快的运行速度。(2)我们提出了一种状态估计反馈机制，使VOS过程随着时间的推移更加稳定和鲁棒（3）提出了一种新的目标对象全局表示的构造方法，以提供更鲁棒的制导。2. 相关作品视频对象分割任务的目的是在给定第一帧的初始掩码的情况下分割视频帧中的目标对象。近年来，各种各样的方法，种植策略帧轨迹片段全局建模联合分割网络图2.我们的视频对象分割管道的简化演示。已被提议应对这一挑战。基于在线学习的方法：为了将目标对象与背景和干扰物区分开，基于在线学习的OSVOS [2]在测试视频的第一帧OnAVOS [23]通过开发在线自适应方法扩展了OSVOS。OSVOS-S [15]引入了实例信息来增强OSVOS的性能。Lucid Tracker [9]研究了测试视频第一帧的数据增强方法，并带来了显著的改进。许多其他方法[25，14，32]将在线学习作为提高准确性的提升技巧。在线学习已被证明是一种有效的方式，使VOS模型更有针对性的目标对象。然而，它的计算量太大，难以用于实际应用。通常，在线模型通过更新模型权重来解决半监督学习的挑战，这需要大量的优化迭代。该方法不更新模型权重，而是通过动态特征融合来更新全局表示，从而更有效地解决了目标建模的挑战。基于离线学习的方法：离线方法利用初始帧的使用，并通过传播或匹配将目标信息传递给后续帧Mask-Track [17]将前一帧的预测掩码与当前帧的图像连接起来，以提供空间指导。FEELVOS [22]开发了逐像素相关性，以在连续帧上传递位置敏感嵌入。RGMP [26]使用连体编码器来捕获搜索图像和参考图像之间的局部相似性。AGAME [8]提出了一种概率生成模型来预测目标和背景特征分布。这些方法不需要计算昂贵的在线微调，但由于信息流效率低下，它们仍然不能达到快速此外，它们通常遭受次优精度，因为它们缺乏鲁棒的目标表示。我们的方法也是离线训练的，并从帧到帧传播视觉线索与以往不同的是，我们把每个对象作为一个轨迹，并应用自适应，从而使信息流更有效和稳定。此外，我们使用时间上下文来更新全局表示，这提供了更鲁棒的指导9386联合分割网络裁剪策略循环状态估计器反馈相似性编码器相关性回归负责人最小方框框0.96解码器状态分数显著性编码器更新全局特征全局建模循环切换图3.概述我们的视频对象分割流水线。SAT可以被灰色虚线分为三个部分：联合分割网络，状态估计和反馈。联合分割网络融合显着性编码器（橙色），相似性编码器（黄色）和全局特征（绿色）的特征，然后解码融合的特征以预测掩码。然后，状态估计器评估预测结果并计算状态分数以表示当前状态。最后，裁剪策略循环根据状态估计结果切换裁剪策略，以保持更稳定的轨迹。全局建模循环构造全局表示以增强分割网络的特征。视频序列。基于跟踪的方法：FAVOS [3]开发了一种基于部分的跟踪方法来跟踪目标对象的局部区域。SiamMask[24]通过在SiamRPN [11]上添加掩码分支来缩小对象跟踪和对象分割之间的差距，并且它比以前的作品运行得更快。这些基于跟踪的方法将跟踪和分割作为两个独立的部分。分割结果不参与跟踪过程，可以看作是跟踪器的后处理。与以往的工作不同，我们将目标跟踪和分割融合到一个真正统一的流水线中，在这个流水线中，跟踪和分割之间没有限制边界。在我们的框架内，这两项任务密切配合，相互促进。3. 方法3.1. 网络概述在这项工作中，我们提出了一种新的管道称为状态感知跟踪器（SAT），它得到了高效率，通过处理每个目标作为一个tracklet。此外，SAT得到意识到每个状态，并通过两个反馈回路发展自适应。如图3所示，我们用三个步骤来描述我们的推理过程：细分-估计-反馈。首先，联合分割网络融合了相似性编码器、显著性编码器和全局特征的特征，以产生掩模预测。其次，状态估计器评估分割结果，并使用状态得分来描述当前状态，并估计其是否正常。状态或异常状态。第三，我们构造了两个反馈回路，对不同的状态进行自适应。在裁剪策略循环中，如果是正常状态，我们使用预测掩码来生成最小边界框。其他方面，我们使用回归头来预测边界框并应用时间平滑。然后，基于预测框，我们裁剪下一帧的搜索区域。在全局建模循环中，我们使用状态估计结果、预测掩码和当前帧图像块来更新全局特征，并使用全局特征来增强联合分割网络以获得更好的分割结果。在接下来的部分中，我们将详细介绍每个阶段。3.2. 分割如图3所示，底部的分支表示显着性编码器，顶部的两个分支演示了相似性编码器。对于显着性编码器的输入，我们在目标周围裁剪一个相对较小的区域以过滤干扰项，并将其缩放到更大的分辨率以提供更多细节。以这种方式，显著性编码器可以为输入图像块的显著对象提取具有丰富细节的干净特征。在这项工作中，我们使用收缩的ResNet- 50 [6]作为显着性编码器。相似性编码器将当前帧的较大搜索区域和初始帧的目标区域作为输入。它使用特征相关性来编码当前图像和目标对象之间的外观相似性。这种相关性特征为显著性编码器区分目标对象和干扰项提供了适当的补充。在这项工作中，相似性编码器的实现遵循SiamFC++ [30]和Alexnet [10]主干。9387我1我Σ显着性编码器为目标对象提取类别不可知的特征同时，相似性编码器的相关特征提供了实例级的外观相似性，这有助于我们的网络区分目标对象和干扰项。此外，由全局建模循环更新的全局特征为目标对象提供了整体视图戴面具我们将置信度得分计算为Eq。其中Pi，j表示位置（i，j）处的掩码预测分数，并且M表示预测的二进制掩码。当（i，j）处的像素被预测为前景时，Mi，j等于1，否则它等于0.Σi，jPi，j·Mi，j这对于长序列上的视觉变化是鲁棒的。在联合分割网络，我们融合这三个特征Scf=Σi、jMi，j（一）通过逐元素加法来获得具有区分性和鲁棒性的强高级特征。在特征融合之后，我们通过双线性插值对高层特征进行上采样，并将其与显著性编码器的低层特征连续连接。我们将集中度分数定义为最大连接区域面积与预测的二进制掩码的总面积之比。如Eq。二、|R c|表示预测掩码的第i个连接区域的像素数。public int maximum（{|R c|、|Rc|、· · ·、|R c|）的文件考虑显著性编码器以高分辨率裁剪目标周围，Scc=1 2Nn|R c|（二）显着性编码器的低级别特征是干净的，充满细节，这有助于联合分割网络解码具有精细轮廓的高质量掩模。3.3. 估计在视频分割过程中，目标对象可能会经历各种状态，如完整、截断、遮挡，甚至可能会跑出搜索区域。在不同的状态下，我们应该采取不同的行动来裁剪下一帧的搜索区域，并应用不同的策略来更新全局表示。状态估计器对每个局部状态进行状态评分，并将所有状态分为两类：正常状态和异常状态。我们分析了目标物体的状态可以用掩模预测置信度和掩模浓度来描述如Tab.所示。1时，当目标在当前图像中呈现良好时，掩模预测置信度往往较高，并且预测的掩模通常在空间上集中。当目标被截断时，预测的掩模往往被分成几个部分，这导致低空间集中度。当目标被遮挡或跑出搜索区域时，模型通常以低置信度进行预测。置信度集中状态高正常截断-低异常阻塞低-异常消失低-异常表1.状态估计准则- 表示结果不影响状态估计，其可以是高或低在这种情况下。因此，我们提出了置信度分数Scf来表示掩模预测置信度，并且提出了浓度分数Scc来表示预掩模的几何浓度最后，我们计算状态得分Sstate，如等式：3 .第三章。如果S 状态>T，我们将当前状态估计为正常状态。否则，我们判断它为异常状态。在本工作中，我们设置T = 0。85、根据搜索结果S状态=Scf× Scc（3）3.4. 反馈基于估计结果，我们构造了两个反馈环.一个循环切换裁剪策略，使我们的跟踪器随着时间的推移更加稳定。另一个循环更新全局表示以增强分割过程。裁剪策略循环：对于每一帧，我们为目标对象生成一个边界框，并根据该框裁剪下一帧的搜索区域。为了保证轨迹段的稳定性和准确性，设计了两种盒子生成策略，并在不同的状态下切换策略。对于正常状态，我们选择二进制掩码的最大连通区域并计算其最小边界框以指示目标的位置。我们使用最大的连接区域，以避免小块假阳性预测的干扰。对于异常状态，我们在相似性编码器之后添加回归头来预测边界框，然后在位置、尺度和比率上应用时间平滑。在这项工作中，我们根据SiamFC++[30]构建了我们的回归头。考虑到掩模在物体呈现良好的情况下能更准确地表示物体的轮廓，掩模盒在正常状态下能更准确地预测物体的位置。此外，掩码框对应于较小的搜索区域，这使得它对干扰项更鲁棒。相比之下，回归盒是从一个更大的搜索区域中生成的，因此它可以在快速运行时检索对象。当对象被截断时，回归框可以为目标对象提供完整的预测. 此外，在时间平滑性的帮助下，9388提取器融合如果对象被遮挡甚至消失，回归框仍然可以指示合理的位置通过上述分析，在推理过程中，我们选择正常状态的屏蔽盒以产生更准确的位置，而我们选择异常状态的回归盒以获得更鲁棒的预测。图4展示了策略切换的一些示例。如果我们对所有帧都使用mask-box，当出现一些异常状态时，我们的模型将失去对目标的跟踪，否则如果我们继续使用回归框，当目标呈现良好或背景中有干扰物时，我们将得到不太准确的位置预测。因此，这两种策略之间的切换使我们的模型能够在不同的状态下进行自适应，使我们的跟踪过程更加准确和稳定。牵引器截断快速运动背景过滤图像的真实性。µ表示步长的超参数，我们将其设置为0.5。考虑到如果目标被遮挡、消失或分割不良，则提取的特征对于全局表示将是无用的甚至有害的。因此，我们使用状态估计器产生的状态分数Sstate对每帧的高级特征进行评分，从而消除异常情况或低质量掩模造成的不利影响Gt=（1−State·µ）·Gt−1+State·µ·Ft（4）通过这种方式，全局建模循环更新一个全局特征，该特征随时间推移对视觉变量具有鲁棒性作为回报，我们使用这个全局特征来增强联合分割网络的高级表示。这种反馈循环使我们的目标表示对于长视频序列更加全面和鲁棒。**得分图5.全局建模循环的更新过程。图4.在遮罩框（白色）和回归框（彩色）之间切换。第一列显示屏蔽框对干扰项更鲁棒当两个参与者扭在一起时（第二行），回归框失败，状态估计器选择掩蔽框。第二列显示当对象被截断或部分遮挡时，回归框提供完整的表示。第三列示出了回归框可以在快速运动的情况下检索目标对象青色虚线表示相似性编码器的搜索区域;红色虚线表示显著性编码器的输入区域全局建模循环：全局建模循环动态更新目标对象的全局特征，并使用此全局特征来增强分割过程。如图所示5.在预测目标轨迹T帧的二值掩码后，通过逐元素乘法对背景进行滤波。然后，我们将背景过滤后的图像馈送到特征提取器（收缩ResNet-50）以获得整洁的目标特征。考虑所有背景过滤的帧共享相同的实例级内容，尽管目标对象的外观可能在视频流中剧烈变化。我们逐步融合每个背景过滤帧的高级特征，以更新鲁棒的全局表示。如等式4，G表示全局表示，F表示高级fea。4. 实验4.1. 网络训练整个培训过程包括两个阶段。在第一阶段，我们在对象跟踪数据集上一起训练相似性编码器和回归头[13，4，5，7，21]。培训策略遵循SiamFC++ [30]。然后，我们用相似性编码器的权重和回归头冻结来训练整个管道。全局建模循环中显着性编码器和特征提取器的主干在ImageNet上进行了预训练[4]。对于训练数据，我们采用COCO [13]，DAVIS 2017 [20]训练集（60个视频）和YouTube-VOS [29]训练集（3471个视频）。我们在步幅4的预测二进制掩码上应用交叉熵损失，并且我们还在步幅8（权重为0.5）和步幅16（权重为0.3）的输出特征上添加辅助我们使用动量为0.9的SGD优化器，将批量大小设置为16，并在8个GPU上使用同步批量归一化来训练我们的网络。训练过程大约需要8个小时，20个epoch。对于每个时期，我们随机选择16万张图像。前两个时期是一个预热阶段，学习率从10−5线性增加到10−2。在过去的18个epoch中，我们应用余弦退火学习率。对于每次迭代，我们随机选择一个目标图像以及来自同一视频序列的一个搜索图像。显着性编码器将裁剪的搜索图像作为输入，而全局建模循环则选择裁剪的目标图像。我们使用地面真实掩模来过滤背景9389训练全局建模循环的提取器4.2. 消融研究在表2中，我们对DAVIS 2017确认数据集进行了广泛消融。我们逐步将模型从最幼稚的基线升级到完整版SAT或比例变化，而背景在整个视频中不断变化。因此，不同帧的前景特征是彼此互补的，而背景特征不是相加的。因此，背景过滤的显式过程是必要的。版本CF GM CSJF验证每个主成分的有效性然后，我们还探讨了我们的方法的上限。朴素分割基线：我们的工作从朴素分割基线开始。我们将每个目标作为一个轨迹处理，并将显着性编码器和解码器结合在一起，构建一个朴素的分割网络。对于每个视频帧，我们根据预测的二进制掩码生成最小-最大边界框，并为下一帧裁剪257×257的搜索区域。该版本表现较弱，JF均值仅为48.1%。当目标对象被截断、遮挡或跑出搜索区域时，由预测掩模生成的最小-最大边界框不能定位目标对象，这导致连续帧的目标丢失。Track-Seg Baseline：解决丢失的问题轨道我们结合了一个暹罗跟踪器（SiamFC++[30]）和朴素分割网络结合在一起我们使用暹罗跟踪器来预测目标位置，并使用朴素分割网络来产生二进制掩码。与朴素的基线相比，这个版本获得了很好的改进。然而，它仍然无法处理大的姿态/尺度变化，并且分割精度受到跟踪质量的严重限制。相关功能：为了获得更有区别的目标表示，我们引入了相似性编码器的相关特征，以增强朴素的目标表示。分段网络相关特征包含外观相似性，这带来了2.3%的改善。全局建模循环：在长序列上实现更强大的目标表示。我们设计了全局建模循环，这给系统带来了显著的改进的4.8%。掩码过滤器和状态分数权重的有效性在表2的第二部分中示出。实验结果表明，我们的想法，建设全球代表性是有效的。与仅使用第一帧或第一帧+前一帧相比，全局表示带来2. 6%和1。分别提高2%。我们注意到，状态得分权重对于更新全局表示也是必不可少的，这将结果提高了1。百分之二。全局建模循环的效果由遮罩过滤器保证，这带来了5.6%的改进。我们发现，没有掩码过滤器的版本和连接掩码过滤器与图像的版本都带来了不利的影响。我们分析了不同帧的前景对象共享相同的高层语义表示，而不管姿态如何表2.DAVIS 2017-Val上每个组件的消融研究数据集。CF表示相关特征。GM表示全局建模循环。CS表示裁剪策略循环。裁剪策略循环：为了保持更稳定的轨迹。构造裁剪策略循环，根据局部状态切换包围盒生成策略.这个反馈循环带来了3.6%的改进。更重要的是，切换机制削弱了对跟踪结果或分割结果的依赖性，这使得我们能够为每个分支使用小的主干。我们还分析了切换机制，通过计数的使用率的每一个战略。在DAVIS 2017-Val数据集上，共有30个序列和3923帧。状态估计器将2876（74%）帧判定为正常状态，1047（26%）帧判定为异常状态。这一统计结果符合我们的设计意图，即对大多数正常状态的帧使用屏蔽盒，对少数异常情况使用回归盒。上界分析：如表1所示。3.通过最大化两个循环的效果，我们探索了管道的上界。为了获得干净的全局表示，我们使用地面真值掩码来过滤每帧的背景，这带来了1.7%的改进。对于搜索区域裁剪的精确边界框，我们使用地面真值掩码来生成最小边界框，这带来了1.8%的改进。在理想情况下，两个环路的性能提高了5.2%因此，构造一个鲁棒的全局表示和保持一个稳定的轨迹是两个值得进一步研究的课题。天真赛格48.1轨道分段61.6（+13.5）轨道分段C63.9（+2.3）轨道分段CC68.7（+4.8）轨道分段（SAT）CCC72.3（+3.6）第一帧+前一帧CC71.1（-1.2）仅第一帧CC69.7（-2.6）无评分权重CC71.1（-1.2）无屏蔽过滤器CC66.7（-5.6）concat遮罩CC66.5（-5.8）轨道分段CC65.9（-6.4）9390屏蔽过滤器（GT）包装盒（GT）J F坐72.3坐C74.0（+1.7）坐C74.1（+1.8）坐CC77.5（+5.2）表3.为我们的销售渠道做准备Mask GT意味着使用地面真值掩码来过滤背景以用于全局制导。框GT意味着使用地面实况边界框来裁剪下一帧的搜索区域。4.3. 与最新技术我们在DAVIS 2017-Val [20]，DAVIS 2016-Val [18]和YouTube-VOS[29]数据集上评估了我们的方法。定量结果表明，我们的方法实现了有前途的性能的准确性和速度。DAVIS2017：对于多目标VOS任务，我们预测每个目标的概率图，然后将它们连接在一起，并应用softmax聚合来获得最终结果。我们将SAT与最先进的方法进行比较。对于评价指标，JF评价VOS结果的总体质量，J估计掩模IOU，F描述轮廓的质量。JD表示J随时间的性能衰减。FPS是针对每个在单个RTX 2080Ti GPU上实现正向传递如Tab.所示。4.一些新提出的方法，如FEELVOS[22]，AGAME [8]，旨在使速度和准确性之间的平衡，但 SAT 在两者之间得到更有希望的结果。SiamMask [24]和RANet [25]也以实时速度运行，但它们的分割精度明显比我们的差。总的来说，SAT在精度和效率方面都超过了大多数新提出的模型SAT得到最好的运行速度和轮廓质量，同时达到最高的JF的新提出的方法。此外，SAT具有最低的性能衰减JD，这意味着我们的方法是鲁棒的，随着时间的推移，我们将获得更多的优势，比其他长序列。在Tab的最下面一行。4、我们还开发了一个更快的版本，使用ResNet-18主干，运行速度为60 FPS，预测精度略低。YouTube-VOS：我们主要在YouTube-VOS基准测试上将我们的方法与一些快速离线学习方法进行比较。选项卡. 6显示我们的方法实现了竞争力性能和超越[29，26，24]为两个看到和看不见的类别。DAVIS2016：单对象分割是一项相对简单的任务。如Tab.所示。7、在线微调10倍，在耗费大量计算的同时，也为DAVIS2016带来了巨大的提升因此，我们主要比较我们的方法，一些新提出的离线模型。SAT的表现优于FEELVOS[22]，AGAME [8]，RGMP [26]和SiamMask [24].计算分析：跑步速度可以影响-受环境和硬件条件的限制。为了进行公平的比较，我们还对几个快速VOS模型的乘法累加运算进行了计数。如Tab.所示。5.我们的方法比其他方法花费的Gflops明显少。CNN的计算与输入分辨率和主干大小高度相关。SAT的每个组件都是专门为提高效率而设计的。相似性编码器有303×303的大输入，所以我们选择Alexnet作为主干。显著性编码器以257×257图像作为输入，我们使用收缩的ResNet-50主干，其中我们将通道扩展率设置为1。全局建模循环只关心高级特征，因此我们将过滤后的图像大小调整为129×129。相比之下，RANet [25]和AGAME [8]使用具有480×864输入大小的ResNet-101主干，这使得它们的计算成本很高。SiamMask [24] takes 255 × 255 images as input and uses aResNet-50 back- bone, and it replaces the stride-2convolutions of the last two stages to stride-1, which helpsto keep spatial infor- mation but brings more computation.此外，SiamMask遵循DeepMask[19]应用像素级掩码表示，这需要大量计算。方法OLJFJM↑JD↓FM↑FPSPReMVOS[14]C77.873.916.281.70.01OSVOS-s [15]C68.064.715.171.30.22OnAVOS[23]C67.964.527.971.20.08CINM[1]C67.564.524.670.50.01迪耶内[12]C69.167.3-71.02.4OSVOS[2]C60.356.726.163.90.22*STM[16]×81.879.2-84.36.25[22]第二十二话×71.569.117.574.02.2[8]×70.067.214.072.714.3RGMP[26]×66.764.818.968.67.7RANet[25]×65.763.218.668.230[28]第二十八话×61.758.7-64.60.25Favos[3]×58.254.614.461.80.56SiamMask[24]×56.454.319.358.535我们×72.368.613.676.039Ours-Fast×69.565.416.673.660表4.DAVIS 2017验证集的定量结果OL去音符在线微调。FPS表示每秒帧数。离线方法中最好的两个结果用红色和蓝色标记。* ：STM比其他作品需要更多的训练数据和更长的[24]第25届中国国际医疗器械博览会[8]GFLOPS∼12 ∼1316> 65> 65FPS6039 35 30 14.3表5.几种快速VOS模型的计算分析，Gflops计数器乘法累加运算。Ours-f表示具有Alexnet主干的快速版本SAT。9391图6.SAT在DAVIS基准上的定性结果方法OLGJSJuFsFuPreMVOS[14]C66.971.456.575.963.7OSVOS[2]C58.859.854.260.560.7OnAVOS[23]C55.260.146.162.751.4*STM[16]×79.479.784.272.880.9S2S[29]×57.666.748.2--RGMP [26]×53.859.545.2--SiamMask[24]×52.860.245.158.247.7我们×63.667.155.370.261.7表6.Youtube-VOS benckmark上的定量结果OL de-笔记在线微调。下标s表示可见类别，而u表示不可见类别。离线方法中最好的两个结果分别用红色和蓝色标记。* ：STM比其他作品需要更多的训练数据和更长的训练时间。4.4. 定性结果图6显示了我们的方法在DAVIS基准上的定性结果。SAT可以产生强大的和准确的分割结果，即使在复杂的场景。前三行显示SAT对于干扰物、运动模糊和遮挡是鲁棒的。最后一行显示SAT对于巨大的姿态变化是鲁棒的。5. 结论在本文中，我们提出了状态感知跟踪器（SAT），它实现了良好的性能与高效率的半监督视频对象分割的任务。SAT将每个目标对象作为一个tracklet，以更有效地执行VOS。通过估计-反馈机制，SAT可以感知当前状态并进行自我评估。表7.DAVIS 2016验证集的定量结果OL去音符在线微调。FPS表示每秒帧数。离线方法中最好的两个结果用红色和蓝色标记。* ：STM比其他作品需要更多的训练数据和更长的自适应以实现稳定和强大的性能。我们的方法在几个VOS基准测试中实现了具有竞争力的性能，并具有良好的速度-精度权衡。鸣谢：本文得到科技部国家重点&研发计划（项目名称：“社区风险防范网格功能拓展技术与装备”，项目编号：2018YFC 0809704）引用[1] Linchao Bao，Baoyuan Wu，and Wei Liu.mrf中的Cnn：通过基于cnn的高阶时空mrf中的推断的视频对象分割。在IEEE计算机视觉和模式识别会议集，第5977-5986页方法OLJ FJM↑FM↑FPSRANet+[25]C87.186.687.60.25PReMVOS[14]C86.884.988.60.01OSVOS[2]C80.279.880.60.22*STM[16]×89.388.789.96.25RGMP[26]×81.881.582.07.7[8]×-82.0-14.3[22]第二十二话×81.781.182.22.2Favos[3]×80.882.479.50.56SiamMask[24]×69.871.767.835我们×83.182.683.6399392[2] Sergi Caelles ， Kevis-Kokitsi Maninis ， Jordi Pont-Tuset，LauraLeal-Taixe'，DanielCremers和LucVanGool。单镜头视频对象分割。在IEEE计算机视觉和模式识别会议论文集，第221-230页[3] Jingchun Cheng ， Yi-Hsuan Tsai ， Wei-Chih Hung ，Shengjin Wang，Ming-Hsuan Yang.通过跟踪部件快速准确的在线视频对象分割在IEEE计算机视觉和模式识别会议论文集，第7415-7424页[4] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[5] Heng Fan ， Liting Lin ， Fan Yang ， Peng Chu ， GeDeng ， Si-jia Yu ， Hexin Bai ， Yong Xu ， ChunyuanLiao，and Haibin Ling. Lasot：大规模单目标跟踪的高质量基准。在IEEE计算机视觉和模式识别会议论文集，第5374- 5383页[6] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[7] Lianghua Huang， Xin Zhao， and Kaiqi Huang. Got-10k：用于野外通用对象跟踪的大型高多样性基准测试arXiv预印本arXiv：1810.11981，2018。[8] Joakim Johnander、Martin Danelljan、Emil Brissman、Fa- had Shahbaz Khan和Michael Felsberg。端到端视频对象分割的生成式外观模型。在IEEE计算机视觉和模式识别会议论文集，第8953-8962页[9] Anna Khoreva、Rodrigo Benenson、Eddy Ilg、ThomasBrox和Bernt Schiele。清晰的数据梦想对象跟踪。在2017年的DAVIS视频对象分割挑战[10] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，第1097-1105页，2012年[11] Boli，Junjie Yan，Wei Wu，Zheng Zhu，and Xiaolin Hu.基于暹罗区域投影网络的高性能视觉跟踪。InProceedings of the IEEE Conference计算机视觉和模式识别，第8971- 8980页，2018年。[12] 李晓晓和陈昌来。视频对象分割与联合重新识别和注意力感知掩模传播。在欧洲计算机视觉会议（ECCV）的会议记录中，第90-105页[13] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[14] Jonathon Luiten、Paul Voigtlaender和Bastian Leibe。Pre-mvos：用于视频对象分割的建议生成、细化和合并。在亚洲计算机视觉会议上，第565-580页。Springer，2018.[15] K-K Maninis，Sergi Caelles，Yuhua Chen，Jordi Pont-Tuset，LauraLeal-Taixe´，DanielCremers，andLucVanGool.没有时间信息的视频 IEEE Transactions on PatternAnalysis and Machine Intelligence，41（6）：1515[16] Seoung Wug Oh，Joon-Young Lee，Ning Xu，and SeonJoo Kim.使用时空记忆网络的视频对象分割。在IEEE计算机视觉国际会议集，第9226-9235页[17] Federico Perazzi，Anna Khoreva，Rodrigo Benenson，Bernt Schiele，and Alexander Sorkine-Hornung.从静态图像中学习视频对象分割。法律程序中IEEE计算机视觉和模式识别会议，第2663-2672页，2017年。[18] Federico Perazzi、Jordi Pont-Tuset、Brian McWilliams、Luc Van Gool 、 Markus Gross 和 Alexander Sorkine-Hornung。视频对象分割的基准数据集和评估方法。在IEEE计算机视觉和模式识别会议论文集，第724- 732页[19] PedroOPinheiro，RonanCollobert，andPiotrDol la'r. 学习分割候选对象。神经信息处理系统进展，第1990-1998页，2015年[20] Jordi Pont-Tuset ， Federico Perazzi ， Sergi Caelles ，PabloAr-bela'ez，AlexSorkine-Hornung，andLucVanGool. 2017年戴维斯视频对象分割挑战赛arXiv预印本arXiv：1704.00675，2017。[21] Esteban Real，Jonathon Shlens，Stefano Mazzocchi，XinPan，and Vincent Vanhoucke.YouTube绑定框：用于视频中对象检测的大型高精度人类注释数据集。在IEEE计算机视觉和模式识别会议论文集，第5296-5305页，2017年。[22] Paul Voigtlaender ， Yunning Chai ， Florian Schroff ，Har

下载后可阅读完整内容，剩余1页未读，立即下载