RVOS：一个端到端递归网络用于视频对象分割

5 浏览量更新于2023-10-18 收藏 5.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1RVOS：用于视频对象分割的端到端递归网络Carles Ventura1、Miriam Bellver2、Andreu Girbau3、AmaiaSalvador3、Ferran Marques3和Xavier Giro-i-Nieto31加泰罗尼亚上大学2巴塞罗那超级计算中心3Uni versitat Polite` cnica de Catalun yacventuraroy@uoc.edu，miriam. bsc.es，{andreu.girbau，amaia.salvador，ferran.marques，xavier.giro} @ upc.edu摘要多目标视频对象分割是一项复杂的任务，特别是对于零镜头的情况，即在初始帧没有给出对象掩模，模型必须沿着序列找到要分割的对象。在我们的工作中，我们提出了一个用于多对象视频对象分割（RVOS）的递归网络，它是完全端到端可训练的。我们的模型包含两个不同域上的递归：（i）空间域，允许发现帧内的不同对象实例，以及（ii）时间域，允许保持分割对象随时间的一致性我们训练RVOS进行零拍摄视频对象分割，并且是第一个报告DAVIS-2017和YouTube-VOS基准测试的定量结果此外，我们适应RVOS的单镜头视频对象分割，通过使用在以前的时间步骤中获得的掩模作为输入由递归模块处理。我们的模型达到了与YouTube-VOS基准测试中最先进的技术相当的结果，并且在DAVIS-2017基准测试中优于所有以前不使用在线学习的视频对象分割方法。此外，我们的模型实现了比以前的方法更快的推理运行时间，在P100 GPU上达到44 ms/帧。1. 介绍视频对象分割（VOS）的目的是在给定的视频序列中分离自从基准测试出现以来，这项任务在计算机视觉社区引起了很大的兴趣[21]，这些基准测试可以访问带注释的数据集和标准化指标。最近，解决多对象分割并提供更大数据集的新基准[22，33]已经可用，导致更具挑战性的任务。大多数处理VOS的作品都是独立处理框架的f0f0f0图1.我们提出的架构，其中RNN被认为是在空间和时间域。我们还展示了一些定性的结果，其中每个预测的实例掩码都以不同的颜色显示。dedly [3，4，17，30]，并且不考虑时间维度以获得连续帧之间的相干性。一些作品已经利用了使用最佳流估计[2，5，9，29]或通过视频序列传播预测掩码[20，34]的时间信息。与这些工作相反，一些方法提出在时空特征上训练模型，例如，[29]使用RNN对视频序列中对象的时空演变进行编码。然而，他们的管道依赖于一个光流流，这阻止了一个完全端到端的可训练模型。最近，[32]提出了一种基于RNN的编码器-解码器架构，类似于我们提出的流水线。主要区别在于它们只以端到端的方式处理单个对象因此，需要为每个对象单独的向前传递模型，5277f0.4f1，4f2，4f0.3 Ff0，2f0f1，3Ff1，2f1，11f2，3Ff2.2f2.12RNNf1RNNF2RNNRNNf1RNNF2RNNRNNf1RNNF2RNN5278出现在视频中。这些模型都没有统一考虑多目标分割.我们提出了一个架构（见图1），服务于几个视频对象分割方案（单对象与多对象和一次性与zero-shot）。我们的模型基于RSIS [26]，这是一种递归模型，用于在递归的每一步预测图像的每个对象实例的掩码。由于RNN在我们的视频对象分割模型中，我们在时间域中添加递归来预测序列中每一帧的实例。我们提出的方法在空间（单个帧的不同实例）和时间（不同帧）域中是递归的，这一事实对于空间递归，我们强制预测多个实例的顺序在时间步长上是相同的。因此，我们的模型是一个完全端到端的解决方案，因为我们获得了视频序列的多对象分割，而无需任何后处理。我们的架构解决了VOS零触发学习的挑战性任务（在DAVIS-20191的新挑战中也称为无监督VOS）。在这种情况下，没有给出初始掩码，模型应该沿着序列发现片段。我们为两个基准测试提供了零射击学习的定量结果：2017年12月22日，《明报》（2017年12月22日）。此外，我们可以很容易地调整我们的架构为一次性VOS（也称为半监督），通过馈送对象掩模从以前的时间步到递归网络的输入我们的控制-可以将这些情况总结如下：• 我们提出了第一个端到端的视频对象分割架构，解决多对象分割，不需要任何后处理。• 我们的模型可以很容易地适应一杆和零杆的情况下，我们提出了第一个定量重新，DAVIS-2017和Youtube-VOS基准测试的零拍摄视频对象分割结果[22，33]。• 我们优于以前的VOS方法，不使用在线学习。我们的模型实现了显着的性能，而不需要微调每个测试顺序，成为最快的方法。2. 相关工作近年来，用于对象分割任务的深度学习技术在研究界得到了关注[3，5，7在大1https://davischallenge.org/challenge2019/unsupervised.html措施，这是由于新的挑战和分割数据集的出现，从伯克利视频分割数据集（2011）[1]，SegTrack（2013）[15] ， Freiburg-Berkeley 运动分割数据集（ 2014 ）[19]，到更准确和密集的标记DAVIS（2016- 2017）[21 ， 22] ，到最新的分割数据集 YouTube-VOS（2018）[32]，它提供了迄今为止最大数量的注释视频。视频对象分割考虑到视频序列的时间维度，我们区分了旨在通过视频序列对对象分割的时间维度进行建模的算法，以及在每个帧独立预测对象分割的没有时间建模的算法。对于没有时间建模的分割，单次VOS已经通过在线学习处理，其中视频序列的第一个注释帧用于微调预训练的网络并分割其他帧中的对象[3]。一些方法已经在这个想法之上工作，通过使用非常高的置信度预测在线更新网络[30]，或者通过使用场景中不同对象的实例片段作为先验知识并将它们与分割输出混合[17]。其他人已经探索了视频的数据增强策略，方法是对图像和对象片段应用变换[12]，跟踪对象部分以获得感兴趣区域分割掩码[4]，或者采用元学习方法快速使网络适应第一帧中给出的对象掩码[34]。为了利用时间信息，一些作品[5，9，18，29]依赖于其他任务的预训练模型（例如，光流或运动分割）。后续作品[2]在使用基于从卷积神经网络获取的特征的马尔可夫随机场之后，使用光流进行时间一致性。获得时间相干性的替代方案是使用先前帧中的预测掩码作为下一帧的指导[7，11，20，34]。在相同的方向上，[10]通过使用时空特征向前传播信息。虽然这些作品不能端到端训练，但我们提出了一个依赖于时间信息的模型，并且可以为VOS进行端到端的完全训练。最后，[32]使用编码器-解码器递归神经网络结构，该结构使用卷积LSTM进行序列学习。我们的工作和[32]之间的一个区别是，我们的模型能够通过包括空间重现来处理单个前向传递中的多个对象，这允许被分割的对象考虑同一帧中先前分割的对象。在视频对象分割中，单次学习被理解为利用单个注释帧（通常是序列的第一帧）来估计序列中另一方面，零射击或不苏-5279监督学习被理解为构建不需要初始化来生成视频序列中的对象的分割掩码在文献中，有几个作品依赖于第一个掩码作为输入来通过序列传播它[3，7，10，20，29，30，34]。通常，单次方法比零次方法达到更好的性能，因为初始分割已经给出，因此不必从头开始估计初始分割掩码大多数这些模式依赖于在线学习，即。在给定初始帧及其对应掩码的情况下调整它们的权重典型的在线学习方法虽然需要更多的计算资源，但能达到更好的在我们的例子中，我们不依赖任何形式的在线学习或后处理来生成预测掩码。在零拍摄学习中，为了估计图像中对象的分割，一些作品已经利用了对象显着性[8，9，27]，利用对象建议技术[13]的输出或使用双流网络与光流[5]联合训练。在[28]中研究了利用视频中的运动模式，而[14]则阐述了3D扁平对象表示及其运动分割的推理。最后，在[16]中提出了基于实例嵌入的前景-背景分割。我们的模型能够处理零和一次性的情况下。在第4节中，我们展示了在Youtube-VOS [33]和DAVIS-2017[22] 数据集上测试的两种配置的结果对于单镜头VOS，我们的模型没有使用第一帧给出的遮罩进行微调。此外，在零拍摄的情况下，我们不使用任何预训练检测任务或依赖于对象的建议。这样，我们的模型可以为VOS进行端到端的完全训练，而不依赖于为其他任务训练的模型。端到端训练关于视频对象分割，我们区分两种类型的端到端训练。第一种类型的方法是基于帧的并且允许多目标的端到端训练[17，30]。第二组模型允许以端到端的方式在时间维度上进行训练，但一次处理单个对象[32]，需要对每个对象进行前向传递，并需要后处理步骤来合并预测实例。据我们所知，我们的模型是第一个允许在给定视频序列及其掩码的情况下进行完整的端到端训练，而不需要任何后期处理的模型。3. 模型我们提出了一个模型的基础上的编码器-解码器体系结构，以解决两个不同的任务的视频对象分割问题：一杆和零杆VOS。一方面，对于单镜头VOS，输入由视频序列的RGB图像帧的集合以及每个对象出现的帧处的对象的掩模组成第一次。另一方面，对于零激发VOS，输入仅由RGB图像帧的集合组成在这两种情况下，输出由视频中每个对象的一系列掩码组成，不同之处在于要分割的对象在零拍摄VOS任务中是未知的。3.1. 编码器我们使用[26]提出的架构，其中包括在ImageNet [25]上预训练的ResNet-101 [6这种架构通过预测掩码序列来进行实例分割，类似于[23，24]。编码器的输入xt是一个RGB图像，对应于视频序列中的帧tf t={f t，1，f t，2，...， f t，k}是不同分辨率的特征集合。编码器的架构被示为图2中的蓝色部分（左侧）。我们提出了两种不同的配置：（i）包括来自前一帧的实例的掩码作为输出特征的一个附加通道的架构（如图所示），以及（ii）来自[26]的原始架构，即没有广告信道。包含来自双帧的掩模是特别针对单次VOS任务设计的，其中给出第一帧掩模。3.2. 解码器图2描绘了用于单个帧和空间递归的单个步骤的解码器架构。解码器被设计为ConvLSTM的分层递归架构 [31]，其可以利用不同的分辨率，输入特征ft ={ft，1，ft，2，...，ft，k}，其中ft，k是在所述特征的级别k处提取的特征用于视频序列的帧t的编码器。解码器的输出是一组对象分割预测{S t，1，...，我... S t，N}，其中S t，i是对象i在帧t处的分段。颞叶的复发域被设计为使得在不同帧处针对相同对象预测的掩模在空间递归中具有相同的索引。由于这个原因，解码器给出的对象分割预测的数量沿着序列是恒定的（N这样，如果对象i在帧t处的序列中消失，则对象i的预期分割掩码（即，St，i）将在帧t和随后的帧处为空。我们不强制第一帧的空间递归中的任何特定顺序相反，我们找到了预测和地面真实掩模之间的最佳分配与匈牙利算法使用软交集，灰联盟得分作为成本函数。在图3中，描绘了仅具有空间复发与具有空间和时间复发之间的差异在帧 t 处对象 i 的第 k 个ConvLSTM层的输出ht，i，k取决于以下变量：(a) 从编码器从帧t获得的特征ft，(b) 前k-1个ConvLSTM层，（c）隐藏-5280t，k帧t向下2x转换64向下2x转换256512向下2x转换向下2x转换convconvconv12864128ConvLSTMConvLSTM最多2x最多2x64最多2x转换32预测掩码帧t1024下2xconv2048128128128ConvLSTM128最多2x128图2.我们提出了一种递归的视频对象分割架构，用于时间步长t的单帧。该图说明了解码器的单次转发，仅预测图像的第一个掩码。从先前的对象i-1开始，时空递归帧t帧t+1帧t+2帧t帧t+1帧t+2相同的帧T，即，ht，i−1，k，将被称为空间隐藏状态，（d）来自前一帧t-1处的相同对象i的隐藏状态表示，即， h t-1，i，k，其将被称为时间隐藏状态，以及（e）在前一帧t-1处的对象i的对象分割预测掩码S t-1，i：实例1实例2实例3ConvLSTMConvLSTMa）、实例1实例2实例3ConvLSTMConvLSTMConvLSTMConvLSTMConvLSTMConvLSTMConvLSTMb）、ConvLSTMConvLSTMConvLSTMConvLSTMConvLSTMh输入 =[B2（ht，i，k−1′t，k| St−1,i（1）图3.原始空间[26]（左）和提出的时空递归网络（右）之间的比较。h状态=[ht，i −1，k|ht −1，i，k]（2）ht，i，k= ConvLSTMk（h输入，h状态）（3）其中，B2是因子为2的双线性上采样算子，并且f'是经由卷积层将f t，k投影为具有较低维度的结果。对于k∈ {1，.，n b}，N是编码器中卷积块的数量ht，i，0是通过考虑国家是。因此，我们考虑三种不同的选择：（i）空间模型（不使用时间递归），（ii）时间模型（不使用空间递归），以及（iii）时空模型（使用空间和时间递归两者）。在单触发VOS中，由于在第一帧处的对象的掩码被给出，所以解码器在计算h输入时总是考虑来自前一帧的掩码S t-1，i（参见等式1）。①的人。另一方面，在零射击VOS中h输入′t，0| St−1,i ]S t-1，i不被使用，因为没有给出地面真值掩码。这些实验是在最近的两个并且对于第一对象，如下获得h状态h状态=[Z|ht −1，i，k]其中Z是零矩阵，表示该对象没有先前的空间隐藏状态。在第4节中，将进行消融研究，以分析解码器中空间和时间复发对VOS任务的重要性4. 实验针对VOS的两种不同任务进行了实验在这两种情况下，我们分析了空间和时间隐藏64ConvLSTMConvLSTMConvLSTMConvLSTMConvLSTM）的方式|F=[f5281VOS基准：YouTube-VOS [33]和DAVIS-2017 [22]。YouTube-VOS在训练集中包含3，471个视频训练集包括65个被视为可见类别的唯一对象类别。在验证集中，有91个唯一的对象类别，其中包括所有可见的类别和26个不可见的类别。另一方面，DAVIS-2017包括训练集中的60个视频、验证集中的30个视频和测试开发集中的 30个视频。在YouTube-VOS 验证集和DAVIS-2017测试开发集上进行评价。YouTube-VOS和DAVIS- 2017视频都包括多个对象，并且在时间上具有相似的持续时间（3-6秒）。5282YouTube-VOS单镜头J见J看不见F见F看不见RVOS-Mask-S54.737.357.442.4RVOS-Mask-T59.939.263.145.6RVOS-Mask-ST60.844.663.750.3RVOS-面罩-ST+63.144.567.150.4表1.食管癌时空复发的消融研究YouTube-VOS数据集中的一次性VOS解码器。使用训练集的80%-20%分区训练模型，并在验证集上进行评估。+ 这意味着模型已经使用推断的掩码进行了训练。使用VOS的常用评价指标评价实验：（i）区域相似性J，以及（ii）轮廓精度F。在YouTube-VOS中，这些度量中的每一个都被分成两个不同的度量，这取决于模型是否已经看到了这些类别（J看到和F看到），即这些类别包含在训练集中，或者模型从未看到过这些类别。（J看不见，F看不见）。4.1. 单镜头视频对象分割单镜头VOS包括从第一帧给定对象掩模的视频中分割对象由于给出了初始掩码，因此实验已经进行，包括前一帧的掩码作为来自我们的解码器的ConvLSTM中的一个广告输入通道YouTube-VOS 基准测试表1 显示了在不同配置的YouTube-VOS验证集中获得的结果：空间（RVOS-掩模-S）、时间（RVOS-掩模-T）和空间-时间（RVOS-掩模-ST）。本消融研究中的所有模型均使用80%-20%的训练集进行训练。我们可以看到，时空模型相对于空间和时间模型改善了可见和不可见类别的区域相似性J和轮廓准确性F图4示出了比较空间模型和时空模型的一些定性结果，其中我们可以看到RVOS-Mask-ST更好地保持了对象沿时间的分割此外，我们亦考虑微调使用从先前帧St-1，i推断的掩码而不是使用地面真实掩码St-1，i来对一些附加时期进行建模。通过这种方式，模型可以学习如何修复在推理中可能出现的一些错误在表1中，我们可以看到这个模型（RVOS-Mask-ST+）更健壮，并且优于仅使用地面真实掩码训练的模型。图5显示了一些定性结果，比较了使用地面真实掩码训练的模型和使用推断掩码训练的一旦声明时空模型是提供最佳性能的模型，我们就使用整个YouTube-VOS训练集来训练模型以进行比较图4.定性结果比较空间（行1，3）和时空（行2，4）模型。图5.定性结果比较了使用地面真实掩码（行1，3）的训练和使用推断掩码（行2，4）的训练。与其他最先进的技术（见表2）。我们提出的时空模型（RVOS-Mask-ST+）具有与S2 S w/o OL [33]相当的结果，区域相似性J的性能略差，但轮廓精度F的性能略好。我们的模型优于其他最先进的技术[3，20，30，34]。它是OSVOS [3]，它为看不见的猫提供了最好的性能。然而，请注意，没有在线学习的S2S [33]与我们提出的模型关于 OSVOS [3] ， OnAVOS [30] 和MaskTrack [20]的比较对于J看不见和F看不见是不公平的，因为OSVOS，OnAVOS和MaskTrack模型使用来自验证集的第一帧的注释进行微调，即。他们使用在线学习。因此，不可见的类别不应该被认为是这样，因为模型已经看到了它们。表3示出了取决于视频中的实例数目的区域相似度J和轮廓精度F的结果。我们可以看到，要分割的对象越少，任务就越容易，对于只有一个或两个对象被注释的序列，获得最佳结果图6显示了我们的时空模型对于来自YouTube-VOS验证集的不同序列它包括不同数量5283YouTube-VOS单镜头OLJ见J看不见F见F看不见OSVOS [3]✓59.854.260.560.7MaskTrack [20]✓59.945.059.547.9OnAVOS[30]✓60.146.662.751.4OSMN [34]✗60.040.660.144.0S2S w/o OL [33]✗66.748.265.550.3RVOS-面罩-ST+✗63.645.567.251.0表2.与YouTube-VOS验证集上一次性VOS的最新VOS技术进行比较。OL指的是在线学习.该表分为两部分，这取决于这些技术是否使用在线学习。实例数（YouTube-VOS）1 2 3 4 5J均值78.262.850.750.256.3F平均值75.567.656.162.366.4表3.分析了我们提出的模型RVOS-Mask-ST+依赖于一次性VOS中的实例数量。的实例。请注意，尽管序列中存在相同类别的不同实例（鱼、羊、人、豹或鸟），或者存在从序列中消失的一些实例DAVIS-2017基准我们的预训练模型RVOS-Youtube-VOS中的Mask-ST+已经在不同的基准：DAVIS-2017。如表4所示，当预训练模型直接应用于DAVIS- 2017时，RVOS-Mask-ST+（pre）优于其他不使用在线学习的最先进技术，即[ 34 ][35][36][37][38]此外，当模型进一步针对DAVIS-2017训练集进行微调时，RVOS-Mask-ST+（ft）优于OSVOS [3]等一些技术，这是利用在线学习的技术之一。请注意，在线学习需要在测试时对模型进行微调.图7显示了DAVIS-2017单次VOS获得的一些定性结果。如YouTube-VOS的一些定性结果所示，RVOS-Mask-ST+（ft）也能够处理从序列中消失的对象。4.2. 零镜头视频对象分割零拍摄VOS包括从视频中分割对象，而不具有关于哪些对象必须被分割的任何先验知识，即，不提供对象掩模。该任务比单次VOS更复杂，因为模型必须检测和分割视频中出现的对象。目前，据我们所知，还没有专门为零触发VOS设计的基准。虽然YouTube- VOS和DAVIS基准可以用于培训，DAVIS-2017单镜头OLJFOSVOS [3]✓47.054.8OnAVOS[30]✓49.955.7OSVOS-S [17]✓52.962.1CINM [2]✓64.570.5OSMN [34]✗37.744.9最受欢迎[4]✗42.944.2RVOS-Mask-ST+（前）✗46.450.6RVOS-Mask-ST+（ft）✗48.052.6表4.与DAVIS-2017测试开发集上一次性VOS的最新VOS技术进行比较。OL 指的是在线学习。模型 RVOS-Mask-ST+（pre）是在Youtube-VOS上训练的模型，模型RVOS-Mask-ST+（ft）是在对DAVIS-2017的模型进行微调之后。该表分为两部分，这取决于这些技术是否使用在线学习。在不使用在第一帧处给出的注释的情况下评估模型，这两个基准都具有并非视频中出现的所有对象都被注释的限制。具体地，在YouTube-VOS中，每个视频有多达5个对象实例注释。这在给定要分割的对象时是有意义的（如在单次VOS中所做的那样），但对于零次VOS来说可能是一个问题，因为模型可以正确分割数据集中尚未注释的对象。图8显示了两个示例，其中缺少一些对象注释。尽管前面提到了关于丢失对象注释的问题，但我们已经使用这些数据集中可用的对象注释训练了我们的模型以解决零拍摄VOS问题为了最小化分割未注释的对象和遗漏注释的对象的影响，我们允许我们的系统沿着序列分割多达10个对象实例，期望多达5个注释的对象是预测的对象。在训练期间，每个注释对象被唯一地分配给一个预测对象以计算损失。因此，尚未分配的预测对象然而，任何注释对象的坏预测都被认为是损失。类似地，在推理中，为了评估我们针对零触发视频对象分割的结果，使用为单触发VOS中的第一帧提供的掩模来选择哪些预测实例被选择用于评估。注意，仅在第一帧处执行分配，并且针对其余帧考虑的预测分割掩码是对应的。YouTube-VOS基准测试表5显示了结果在YouTube-VOS验证集上获得的零发射VOS问题。如针对一次性VOS问题所述，时空模型（ RVOS-ST ）也优于空间（ RVOS-S ）和时间（RVOS-T）模型。图9显示了零发射的一些定性结果5284图6.YouTube-VOS上具有多个实例的单镜头视频对象分割的定性结果YouTube-VOSzero-shotJ见J看不见F见F看不见RVOS-S40.819.943.923.2RVOS-T37.120.238.721.6RVOS-ST44.721.245.023.9图7.DAVIS-2017测试开发中一次性使用的定性结果图8.缺失的对象注释可能是零镜头视频对象分割的问题。YouTube中的VOS-VOS验证集。请注意，没有提供掩模，模型必须发现要分割的对象。我们可以看到，在许多情况下，我们的时空模型是时间一致的，尽管序列包含同一类别的不同实例DAVIS-2017 benchmark据我们所知，DAVIS-2017中没有该任务的已发表结果可供比较。仅在DAVIS-2016中考虑了零激发VOS表5.食管癌时空复发的消融研究Youtube-VOS数据集中的零拍摄VOS的解码器。我们的模型已经使用训练集的80%-20%分区进行了训练，并在验证集上进行了评估。已套用。然而，在DAVIS-2016中，仅存在单个对象注释用于序列，这可以被视为前景-背景视频分割问题，而不是多对象视频对象分割。我们在Youtube-VOS上针对零拍摄的预训练模型RVOS-ST，当直接应用于DAVIS-2017时，获得平均区域相似度J=21。7和平均轮廓精度F=27。3 .第三章。当对DAVIS-2017的预训练模型进行微调时，trainval集的性能稍好，J=23。0，F= 29。9 .第九条。尽管该模型是在Youtube-VOS这样的大型视频数据集上训练的，但仍有一些序列的对象实例从一开始就没有被分割。 DAVIS-2017中零激发 VOS 的低性能（J=23. 0）可以解释为由于在YouTube上的VOS为看不见的美食也5285图9. YouTube-VOS上零镜头视频对象分割的定性结果，具有多个实例。图10.DAVIS-2017上零镜头视频对象分割的定性结果，具有多个实例。21 .看不见的J2）的情况。因此，虽然模型能够正确分割YouTube-VOS训练集类别中包含的类别，例如，人或动物，当试图分割以前没有见过的对象时，模型失败。请注意，这是特别针对在线学习变得相关的这些情况，因为它允许通过利用在第一帧针对一次性VOS问题给出的对象掩码来微调模型。图10显示了DAVIS-2017测试开发集的一些定性结果，当没有提供对象掩码时，我们的RVOS-ST模型能够分割序列中出现的多4.3. 分析和培训细节分析我们的模型（RVOS）是所有方法中最快的，同时实现了与之前所见的最新技术水平相当的分割质量在表2和4中。 RVOS的推理时间在GPU P100下为每帧44 ms，在GPU K80下为每帧67 ms。不使用在线学习的方法（包括我们的方法）比使用在线学习的技术快两个数量级。OSMN的推理时间[34]（140 ms）和S2S [33]（160 ms）已从其各自的论文中获得。为了进行公平的比较，我们还在我们的机器（K80和P100）中使用它们的公共实现计算OSMN[34]的运行时（没有发现公开可用的代码[33]）。我们测量了OSMN的运行时间比[ 34 ]中报道的更好，但RVOS在所有情况下都更快（例如，P100上分别为65ms和44 ms）。据我们所知，我们的方法是第一个为帧中的所有对象共享编码器前向传递的方法，这解释了它的快速整体运行时间。原始RGB帧和注释的大小已调整为256×448，以便在图像分辨率方面与S2S [32]进行公平比较。在训练，由于内存限制，每个训练小批量由4个5帧连续的剪辑组成。然而，在推理中，隐藏状态沿着整个视频传播亚当优化器用于训练我们的网络，初始学习率设置为10- 6。我们的模型已经使用之前的地面真值掩码训练了20个epoch，使用之前的推断掩码训练了20个epoch，在单个GPU中使用12GB RAM，大约需要2天。5. 结论在这项工作中，我们提出了一个完全端到端的可训练模型，多个对象的视频对象分割（VOS）与递归模块的基础上的空间和时间域。该模型专为单次和零次VOS设计，并在YouTube-VOS和DAVIS-2017基准上进行了测试。实验结果表明，使用时空递归训练的模型改进了只考虑空间或时间域的模型。我们在两个基准测试中给出了零触发VOS的第一个结果，并且我们的表现也优于最先进的技术，这些技术不使用在线学习来进行单触发VOS。代码可在我们的项目网站2.确认该研究得到了西班牙经济和竞争力部以及欧洲区域发展基金（ TIN 2015 -66951-C2-2-R ， TIN 2015 -65316-P TEC 2016 -75976-R ）的支持， BSC-CNSSeveroOchoa SEV-2015-0493和LaCaixa-Severo Ochoa国际博士奖学金计划，2017年SGR 1414和加泰罗尼亚政府的工业博士学位2017-DI-064 2017-DI-028。2https://imatge-upc.github.io/rvos/5286引用[1] 巴勃罗·阿贝莱斯，迈克尔·梅尔，查利斯·福克斯，还有吉坦德拉·马利克.轮廓检测和分层图像分割。IEEETransactionsonPatternAnalysisandMachineIntelligence，33（5）：898-916，2011. 2[2] Linchao Bao ， Baoyuan Wu ， and Wei Liu. CNN inMRF：基于CNN的高阶时空MRF中的视频对象分割。在IEEE计算机视觉和模式识别会议（CVPR）的会议中，第5977-5986页，2018年。一、二、六[3] Sergi Caelles ， Kevis-Kokitsi Maninis ， Jordi Pont-Tuset，LauraLeal-Taixe'，DanielCremers和LucVanGool。单镜头视频对象分割。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第221-230页，2017年。一二三五六[4] Jingchun Cheng ， Yi-Hsuan Tsai ， Wei-Chih Hung ，Shengjin Wang，Ming-Hsuan Yang.通过跟踪部件快速准确的在线视频对象分割在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第7415-7424页一、二、六[5] 程景春，蔡义轩，王胜金，杨明轩。Segflow：视频对象分割和光流的联合学习。在IEEE国际计算机视觉会议（ICCV）的会议记录中，第686-695页，2017年。一、二、三[6] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition（CVPR），第770-778页，2016中。3[7] 胡元婷，黄家斌，亚历山大·施温。Maskrnn：实例级视频对象分割。在神经信息处理系统（NIPS）的进展中，第325-334页，2017年。二、三[8] Yuan-Ting Hu ， Jia-Bin Huang ， and Alexander GSchwing.使用运动显著性引导的时空传播的无监督视频对象分割。在欧洲计算机视觉会议（ECCV）的会议记录中，第786-802页，2018年。二、三[9] Suyog Dutt Jain，Bo Xiong，and Kristen Grauman.融合-分段：学习结合运动和外观，实现视频中通用对象的全自动分割。在 IEEE 计算机视觉和模式识别会议（CVPR）的Proceedings中，第2117-2126页一、二、三[10] Varun Jampani，Raghudeep Gadde，and Peter V Gehler.视频传播网络。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第451-461页，2017年。二、三[11] 张元东和金昌洙基于卷积三叉神经网络的在线视频对象分割。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第5849-5858页，2017年2[12] Anna Khoreva、Rodrigo Benenson、Eddy Ilg、ThomasBrox和Bernt Schiele。多目标跟踪的清晰数据梦。arXiv预印本arXiv：1703.09554，2017。2[13] Yeong Jun Koh和Chang-Su Kim。基于区域增强和缩小的视频主对象分割在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第7417-7425页二、三[14] Dong Lao和Ganesh Sundaramoorthi。将分层模型扩展到3D运动。在欧洲计算机视觉会议（ECCV）的会议记录中，第435-451页二、三[15] Fuxin Li ， Taeyoung Kim ， Ahmad Humayun ， DavidTsai，and James M Rehg.通过跟踪多个图形-背景段进行视频分割 IEEE International Conference on ComputerVision（ICCV），第2192-2199页，2013年。2[16] Siyang Li，Bryan Seybold，Alexey Vorobyov，AlirezaFathi，Qin Huang，and C-C Jay Kuo.实例嵌入转移到无监督视频对象分割。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第6526-6535页，2018年。3[17] K Maninis，S Caelles，Y Chen，J Pont-Tuset，L Leal-Taixe，D Cremers和L Van Gool。无时间信息的视频对象分割。 IEEE Transactions on Pattern Analysis andMachine Intelligence，2018。一、二、三、六[18] David Nilsson和Cristian Sminchisescu基于门控递归流传播的语义视频分割。在IEEE计算机视觉和模式识别会议（CVPR）的Proceedings中，第6819-6828页，2018年。2[19] Peter Ochs，Jitendra Malik，and Thomas Brox.通过长时间视频分析分割运动对象。 IEEE Transactions onPattern Analysis and Machine Intelligence，36（6 ）：1187-1200，2014. 2[20] Federico Perazzi，Anna Khoreva，Rodrigo Benenson，Bernt Schiele，and Alexander Sorkine-Hornung.从静态图像中学习视频对象分割。法律程序中IEEE计算机视觉和模式识别会议（CVPR），第2663-2672页，2017年。一二三五六[21] Federico Perazzi、Jordi Pont-Tuset、Brian McWilliams、Luc Van Gool 、 Markus Gross 和 Alexander Sorkine-Hornung。视频对象分割的基准数据集和评估方法。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第724-732页一、二[22] Jordi Pont-Tuset ， Federico Perazzi ， Sergi Caelles ，PabloAr-bela'ez ， AlexanderSorkine-Hornung ，andLucVanGool. 2017年戴维斯视频对象分割挑战赛。arXiv：1704.00675，2017。一、二、三、四[23] Mengye Ren和Richard S Zemel.端到端实例分段，具有重复关注。在 IEEE 计算机视觉和模式识别会议（CVPR）的会议中，第6656-6664页，2017年。3[24] Bernardino Romera-Paredes和Philip Hilaire Sean Torr。循环实例分割。在欧洲计算机视觉会议（ECCV）的会议中，第3123[25] OlgaRussakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein ， et al. 图像网大规模视觉识别挑战。International Journal of Computer Vis

下载后可阅读完整内容，剩余1页未读，立即下载