BubbleNets：视频对象分割中的引导帧优化方法

77 浏览量更新于2023-10-19 收藏 1.99MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1BubbleNets：通过深度排序学习视频对象分割中的引导帧选择布伦特杰森·格里芬密歇根大学{griffb，jjcorso}@ umich.edu摘要近年来，半监督视频对象分割在真实视频和具有挑战性的视频中取得了重大进展。当前的分割方法和基准数据集的范例是在第一帧中提供单个注释来然而，我们发现，当选择一个替代帧进行注释时，整个视频的分割性能变化很大本文解决的问题，学习，ING建议单一的最佳帧在整个视频的用户注释，这是，事实上，从来没有视频的第一帧。我们通过引入BubbleNets来实现这一点，BubbleNets是一种新型的深度排序网络，它使用基于性能的损失函数来学习选择帧，该函数能够从现有数据集中转换大量的训练样本。使用BubbleNets，我们能够在DAVIS基准上实现11%的相对分割率提高，而无需对分割的基本方法进行任何更改。1. 介绍视频对象分割（VOS）是将视频中的对象从背景中密集分离出来的技术，一直是视频理解领域的研究受到视频中密集注释用户分割的高成本的激励[5，38]，我们的社区正在开发许多新的VOS方法，这些方法定期在支持VOS研究的基准数据集上进行评估[22，31，33，37，45]。相比之下，监督VOS [12，21，29，44]，半监督VOS，给定单个用户注释帧的视频中的对象分割问题，已经看到了迅猛的发展，甚至在过去的一年中[2，4，7，8，9，16，17，25，28，30，35，46]。视频中对象的位置和外观在帧与帧之间会发生显著变化，并且根据我们自己的分析，我们发现使用不同的帧进行注释会显著改变性能，如图1所示。注释视频数据是一个艰巨的过程，图1.视频对象分割的当前范例是分割在视频的第一帧（黄色，左）中注释的对象然而，选择不同的帧进行注释会改变整个视频的性能[更好（绿色）或更差（红色）]。为了最好地利用注释者的时间，我们的深度排序框架建议了关键是我们通过提供最好的单个注释框架来提高半监督VOS方法然而，我们不知道任何工作，试图了解哪个帧注释的VOS。为此，本文解决了选择一个单一的视频帧的注释，这将导致更高的性能的问题。从未触及的视频开始，我们使用我们的深度气泡排序框架选择一个注释帧，该框架使用我们的自定义网络Bub-bleNets在帧对之间进行相对性能预测。BubbleNets迭代地比较和交换相邻的视频帧，直到具有最大预测性能的帧排名最高，此时，选择该帧为了训练Bub-bleNets，我们使用了一种创新的基于相对性能的损失，该损失在不增加帧标记要求的情况下，增加了训练示例的数量。最后，我们在多个VOS数据集上评估了BubbleNets注释框架选择，并在组合Jaccard中实现了高达11%的相对改进8914第1帧：基线第12帧：+69%第20帧：-53%8915测量和区域轮廓精度（J+F）优于给定第一帧注释的相同分割方法。我们的论文的第一个贡献是展示了VOS的替代注释框架选择策略的实用性。当前的范例是在视频的第一帧中注释对象，然后在剩余的帧中自动分割该对象我们提供了全面的分析，在四个数据集，并确定简单的帧选择策略，立即实施的所有VOS方法，并导致更好的性能比第一帧选择。据我们所知，这代表了不同注释帧选择策略的分割性能的第一次关键调查。本文的第二个贡献是深度冒泡排序框架和相应的实现，提高了VOS的性能。我们不知道一个单一的文件，调查选择的注释框架在VOS。我们基于网络的方法的必要创新是我们的损失公式，它允许在相对较少的初始示例上进行广泛的训练。我们提供了从现有数据集生成特定于应用程序的性能标签的详细信息，我们的深度排序公式适用于所有在单个帧上训练并具有可测量性能指标的视频过程。使用我们的自定义网络架构和受VOS帧选择分析启发的修改后的损失函数，我们在所有四个评估数据集上实现了最佳的基于帧选择的分割我们在https://github.com/griffbr/BubbleNets上提供了当前工作的源代码，并在https://youtu.be/0kNmm8SBnnU上提供了视频。2. 相关工作2.1. 视频对象分割有多种基准可用于评估 VOS 方法，包括：SegTrackv2 [22，37]; DAVIS 2016，2017年和2018年[5，31，33];和YouTube-VOS [45]。移动-远离DAVIS 2016的单对象假设，这些数据集越来越关注多个对象的分割，这增加了对用户提供的注释的需求，以指定每个感兴趣的对象，并导致使用注释框架开发更多的半监督VOS方法。除了一些例外[1，13，27，32]，大多数半监督VOS方法使用人工神经网络。随着YouTube-VOS的引入，可用于基于学习的VOS方法的训练数据量急剧增加然而，由于用户注释的高成本[5，38]，YouTube-VOS仅为每五帧提供注释操作时假设用户可以使用每一帧对于注释，我们从DAVIS 2017获得训练数据，并基于DAVIS 2017进行大部分分析，DAVIS 2017包含所有完全注释数据集的最多训练和验证示例，并且具有许多具有挑战性的视频类别（例如，遮挡、对象离开视图、外观改变和多个交互对象）。对于我们为VOS选择注释帧的BubbleNets实现，我们使用One-Shot Video Object Segmentation（OSVOS）[4]分割对象，这是VOS中最先进的技术，并影响了其他领先方法[25，42]。OSVOS使用在ImageNet[10]为了识别图像特征，在DAVIS 2016上重新训练以分割视频中的对象，然后使用用户提供的注释微调每个视频的网络。OSVOS的一个独特特性是它不需要节奏一致性，即，OSVOS分割帧的顺序相反，即使分割方法按顺序操作[2，16，18，23，28，30，46]，分割也可以从视频中稍后选择的注释帧向前和向后传播2.2. 主动学习主动学习（AL）是一个研究领域，通过让学习算法选择自己的训练数据，使学习算法在较少的训练下表现更好。AL在大部分数据未标记且手动标记昂贵的情况下特别有用[3]。选择最好的单个注释帧来训练OSVOS代表了AL中特别困难的问题，在没有初始标记实例的情况下开始学习，即，冷启动问题[26]。在AL中，我们对减少错误特别感兴趣。误差减少是一个直观的子领域，它直接优化了感兴趣的目标，并产生了比不确定性或基于假设的AL方法更少的标记实例的更准确的学习器[34]。然而，BubbleNets并没有遍历所有视频帧，然后正式预测与任何一个注释帧相关联的预期错误减少，而是通过一次只比较两个帧的相对性能来通过将我们的决策框架与冒泡排序相结合，我们在整个视频中重复这个选择过程，并将具有最佳相对性能的帧提升为我们选择的注释帧。在计算机视觉中，先前的AL工作包括降低与注释图像和在使用初始用户注释集之后选择额外训练帧相关联的可以使用决策理论方法来学习预测注释时间的成本模型[38，40]。其他工作集中在提高众包注释的有效性[39]。为了提高跟踪性能，主动结构化预测已被用于在使用初始用户注释集之后建议额外的训练帧[43]。在VOS内，其他工作-8916通过让用户检查分割，然后在性能较差的帧上添加注释，来提高分割精度[4]。DAVIS 2018挑战包括通过减少用户注释时间来最大限度地提高分割性能[5]。相比之下，我们没有估计注释成本或选择额外的注释框架。为了支持所有的半监督VOS方法，而不增加用户的工作量，我们选择了一个单一的帧来进行注释，以提高性能。3. BubbleNets为了进一步增加唯一训练样本的数量当预测两个帧之间的相对性能时，可以对更好地代表参考帧的帧给予适当的考虑。因此，类似于处理整个视频的架构，参考帧为整个视频提供一些上下文。我们发现，参考框架不仅提高了BNm×。n×到m×。n（k+2）.2k +2k +2我们设计了一个人工神经网络， Bub-bleNets（BN），学习建议视频帧的注释，提高视频对象分割（VOS）的性能。为了在我们的自定义网络上学习基于性能的帧选择，我们生成了自己的标记训练数据。标记的视频数据是昂贵的，所以我们设计我们的网络损失，从更少的初始帧标签学习，如第3.1节所讨论的。在第3.2节中，我们介绍了我们的深度气泡排序框架，该框架使用BN性能预测来选择单个帧进行注释。我们在第3.3节中提供了BN架构的详细信息。在第3.4节中，我们介绍了我们的BN实现VOS与完整的培训和配置细节。3.1. 预测相对性能假设我们给出一组m个训练视频，其中每个视频都有n个帧，其标签对应于某个性能度量，y∈R，我们在这里未指定，但在第3.4.1节中定义。我们的目标是学会从每个视频中选择性能最好的帧。完成该任务的一种方式是使用整个视频作为网络的输入（例如，使用LSTM或3D-ConvNet [6]）并输出具有最大预测性能的帧索引;然而，该方法仅具有m个标记的训练示例。解决这个问题的第二种方法是使用单个帧作为网络的输入，并输出每个帧的预测性能。使用该公式，可以从每个视频中选择具有最大预测性能的帧，并且m×n标记的训练样本。虽然这是对m个示例的显著改进，但第二个公式每帧仅提供一个训练示例，这对于像视频对象分割这样的复杂且高注释成本的过程来说，使得生成足够的数据来训练性能预测网络的任务变得不切实际。为此，BN不是直接估计每个训练帧的预测性能y，而是预测两个帧的性能的相对差异（即，对于来自同一视频的帧i和j，yi-yj）这种差异看起来微不足道，但它有效地将标签和训练示例的数量从m×n增加到m×。2.最后，我们将性能损失函数定义为：L（W）：=|（y i− y j）− f（x i，x j，Xref. ，W）|、（1）其中W是BN的可训练参数，yi是与第i个视频帧相关联的每帧标签，xi是与第i个视频帧相关联的图像和归一化帧索引，Xref. 是k个参考图像和帧索引的集合，并且f是预测的相对性能。为了以后使用，将n帧视频的第i帧的归一化帧索引表示为我I i= n.（二）包括I作为输入使得BN也能够考虑帧的时间接近度以预测性能。3.2. 深度冒泡排序假设我们训练BubbleNets来使用损失函数预测两帧的相对平均差（1）第3.1节。为了从视频中选择具有最大性能的帧，我们在深度气泡排序框架内使用BN我们的深度气泡排序框架首先比较前两个视频帧。如果BN预测前一帧具有更大的相对性能，则交换两个帧的顺序接下来，将前导帧与下一个相邻帧进行比较（并可能交换），此过程向前传递，直到到达视频的结尾（参见图2）。在排序结束时排名最高的帧被选择为预测的最佳性能帧。通常，冒泡排序是确定性的，只需要遍历一次列表就可以将最大的元素提升到顶部;相反，我们的深度冒泡排序框架是随机的。 BN使用k个随机视频参考帧作为每个预测的输入，并且使用不同的参考帧集合可以改变该预测;因此，相同两个帧的BN比较可以改变。而冒泡排序在许多应用中[20]，重新审视以前的比较2 28917ResNet502048帧iResNet50帧iResNet502048ResNet204850完全连接256FC128ResNet502048输入帧索引使用网络交换，如果…视频帧i视频帧j…视频参考帧视频帧j视频帧i2048FC32FC64F网络输入ResNet预处理性能预测层网络输出最佳可能排序1.00.500.0BubbleNets排序1 10 20 30 40初始视频帧索引图2. BubbleNets框架：深度排序使用预测的相对性能比较和交换相邻帧。是特别有效的BN的随机性质。因此，我们的深度气泡排序框架对n帧视频进行n次向前传递，这对于完整的帧排序是足够的，并且增加了性能最好的帧被提升到顶部的可能性。增加BN的一致性的一种方式是在多组视频参考帧上批处理每个网络预测。通过对整个批次的预测相对性能求和，我们减少了每个帧比较的可变性。然而，增加批量大小的两个后果是：1）增加了达到局部最小值的机会（即，某些帧对被不正确地排序但从不改变）和2）增加执行时间。在第4节中，我们进行了消融研究，以确定特定应用的最佳批量。虽然BN没有被明确训练来找到视频中性能最好的帧，但我们完整的深度冒泡排序框架能够完成这一任务，如图3所示。即使在性能最好的帧没有被提升到顶部的情况下，我们的深度排序框架的一个重要的次要影响是降级导致性能较差的帧图1中的帧20）;避免这样的帧对于视频对象分割中的注释帧选择是至关重要的。3.3. BubbleNets架构我们的BubbleNets架构如图2所示。输入具有两个比较图像、三个参考图像和所有五个帧的归一化索引（2）。增加参考帧的数量k，增加了用于预测相对帧性能的视频范围的感知，但也增加了网络复杂性;在实践中，我们发现k= 3是一个很好折衷。使用基本残差神经网络处理输入图像图 3. BubbleNets 预测摩托车视频排序。绿色条是BubbleNets选择的带注释的训练帧（ResNet 50，[15]）在ImageNet上进行了预训练，这已被证明是分割[9]和其他视频任务[47]的良好初始化。帧索引和ResNet特征被馈送到BN的性能预测层中，该层由四个完全连接的层组成，每层的神经元数量逐渐减少。所有性能预测层都包括归一化帧索引作为输入，并使用Leaky ReLU激活函数[24];后三个预测层在训练期间对所有输入都有20%的丢失[36]。在性能预测层之后，我们的BN架构以最后一个完全一致结束连接的神经元，其是输出相对性能预测f（x i，x j，Xref. ，W）∈ R.3.4. 视频对象分割的BubbleNets实现假设用户想要分割视频中的对象并且在单个帧中提供该对象的注释。由于注释视频数据是耗时的，我们使用Bub-bleNets和深度排序来自动为用户选择我们使用单次视频对象分割（OSVOS）[4]从视频的剩余部分中的注释帧中分割对象。3.4.1为培训生成绩效标签生成基于性能的标签以训练BN需要对任何给定视频帧可测量的性能的定量测量。对于我们的VOS性能测量-当然，我们选择区域相似性J和轮廓精度F组合。区域相似性（也称为联合上的交叉或Jaccard 指数[11]）提供了一个在直观的，规模不变的评价的数量misla-视频视频第2帧第1视频帧nJ+F8918M∪G相对于地面实况（groundtruth）标注来标记前景像素。给定前景掩模M和地面实况注释G，J =MG。轮廓精度通过测量M和G的闭合轮廓集之间的差异来评估分割的边界[31]; F是也与J相关[14，图5]。使用J和F，我们将损失函数（1）的帧性能标签定义为1Σn表1. 数据集大多数SegTrackv 2视频和所有YT-VOS视频的注释帧都不到40帧。数量DAVIS2017列车瓦尔。戴维斯‘16SegTrackv2YT-VOS(1st1，000人）对象144 6120241,000视频60 302014607注释帧四千二百零九一千九百九十九1,3761,06616,715对象注释10,238三千九百八十四1,3761,51526,742每个视频的yi：=n j=1 Jj+Fj，（3）其中yi是n帧视频的第i个标签，Jj+Fj是在使用帧i进行注释之后帧j上的性能简单地说，yi是视频范围内的平均性能这是由于选择第i帧进行注释而产生的。我们使用我们的性能标签（3）来生成BN训练数据。为了避免标注BN选择的帧和评估分割性能的标签成本，我们使用先前标注的VOS数据集。我们理想的数据集-0 50100150 200 250包含许多示例，并进行了充分注释，以提供BN用于注释选择的完整视频帧集。我们充分考虑了表1中列出的数据集[22，31，33，37，45]。YouTube-VOS包含最多注释的帧，但验证集仅在第一个视频帧上提供注释，而训练集仅在每五个帧上提供注释。SegTrackv2每个视频的注释帧最多，但这个指标被少数长视频扭曲，大多数SegTrackv2视频包含40帧或更少（见图4）。因此，我们使用DAVIS 2017训练集，它包含了完全注释数据集的大多数示例。使用 DAVIS 2017 训练集，我们在每帧上训练OSVOS 500次迭代，并找到结果性能标签（3）。对于具有多个注释对象的视频，为每帧上的每个对象生成性能标签。在双GPU（GTX 1080 Ti）机器上预处理数据集需要大约一周的时间，但有很多好处。首先，BN可以在不运行OSVOS的情况下进行训练，这大大减少了训练时间。第二，我们知道每个帧的真实性能，因此我们可以评估整体深度排序框架（例如，查看在图3中哪些帧被欠提升或过度提升）。最后，我们可以将性能与几种简单的帧选择策略进行比较，并了解数据集中每个视频的最佳和最差帧选择。3.4.2五个BubbleNets训练为了测试新概念的有效性并建立最佳实践，我们为VOS实现了五种BN配置。第一种配置（BN0）使用第3.3节中的标准BN架构。第二种和第三种配置类似于BN0，但使用No I输入帧索引（BNNIFI）或NoI输入帧索引（BN NIFI）。每视频图4. 每个视频可用的注释帧的PMF。参考框架（BNNRF）。第四种和第五种预测与BN0相似，但使用从L（1）修改的损失函数来预测单帧概率（BNLSP）或偏向中间帧选择（BNLF）。BNLSPLSP（W）：= |y i− f（x i，Xref. ，W）|、（四）其中yi是帧i的单个性能标签。或者，BNLFL F（W）：=|（y i− y j）−（d i− d j）− f（x i，x j，Xref. ，W）|、（五）其中di是帧i和中间帧之间的距离。使用来自（2）的归一化索引，我们发现di为：d i=λ|I i− IMF|，（6）其中，IMF= 0。5是归一化的中间帧索引，λ= 0。5确定（5）中的中间帧偏置的相对强调。（5）背后的道理很简单。除了预测帧i和j之间的性能差异之外，BNLF将学习考虑每个帧与视频中间如果没有预期的表现-由于这种差异，网络将简单地回到最靠近中间的帧上，这在第4节中被示出为有效的注释选择。为了帮助BNLF学习额外的基于帧的损失，我们移除与帧输入索DAVIS 2017列车YT-VOSSegTrackv2DAVIS 2016Val.DAVIS 2017Val.概率质量是说70.2 66.668.876.127.5中值71 67.567.53930范围2540–10421–2798–36系数变异0.22 0.310.321.030.298919引相关联的所有网络层丢失。所有五种配置均使用第 3.4.1 节中所述的标记DAVIS2017训练数据进行训练。到8920表2. BubbleNetsConfig.ID输入帧参考指数框架损失函数总训练迭代时间DAVIS2017Val. 是说J FBN0是的是的L（1）3,1255m 11s59.765.5BNNIFI没有是的L（1）2,5003分52秒58.765.0BNLF是的是的法国（5）8,12515分30秒57.863.8BNNRF是的没有L（1）3,1252分20秒55.462.3BNLSP是的是的LSP（4）1,8752m 32s55.162.3减少训练时间，所有DAVIS 2017训练帧都通过架构的ResNet部分进行预处理，在BN训练期间不会发生变化。我们使用1，024个随机选择的视频的批量大小;每个视频使用随机选择而没有替换的多达五个帧（例如，两个比较和三个参考）。我们添加一个L1权重正则化损失，系数为2×10−6，并使用亚当优化器[19]与1×10−3学习率训练迭代次数和训练表2总结了每种配置的时间。我们使用原始的气泡排序框架评估所有模型，尽管BNLSP每次排序比较需要两个前向网络，BNNRF是确定性的，没有随机参考帧。以学习为由于基于帧的丢失和帧性能差异，BNLF需要所有BN网络中最多的训练迭代。由于简化了损失，BNLSP在较少的迭代中训练，并且由于较少的输入图像，BNLSP和BNNRF都训练得更快。如表2所示，BN0模型优于BNLSP和BNNRF，证明了我们在第3.1节中使用相对帧性能和参考帧的声明。4. 实验结果4.1. 设置我们的主要实验和分析使用DAVIS 2017验证集。与第3.4.1节中的训练集一样，我们找到了每个可能的注释帧的分割性能，这使我们能够进行完整的分析，包括最佳和最差的可能帧选择和简单的帧选择策略。我们阻止-通过计算整个数据集上的所得分割的平均值J+F来挖掘每个帧选择策略的有效性;平均值是在每个视频对象的基础上计算的（例如，具有两个注释对象的视频将对平均值有两次贡献）。最佳和最差的帧选择，选择确定使用组合的J + F得分为每个视频对象。简单的帧选择策略是选择第一帧（当前的VOS标准）、中间帧（使用视频长度的最低划分找到的）、最后一帧（使用视频长度的最低划分找到的）和最后一帧（使用视频长度的最低划分找到的）。帧，以及来自每个对象的每个视频的随机帧最后，由于BN结果可能与使用随机参考帧作为输入不同，因此我们仅使用来自每个配置的第一次运行的结果（与随机帧选择相同）。8921表3. DAVIS 2017验证的消融研究。集合：研究用于冒泡排序比较和最终性能的BN输入批量大小。批大小性能（J+F）BN0BNNIFIBNL F平均视频排序时间1124.1 122.9 120.53.88秒3125.2 122.04.83秒5125.2 123.8 121.75.32秒10125.2 122.0 120.36.52秒20123.6 123.4 120.7九点三十四秒4.2. 消融研究我们进行消融研究，以确定BN预测的最佳批量大小。回想一下第3.2节，批次通过使用多组随机参考帧来减少变异性。如表3所示，批量大小为5导致所有BN配置的最佳性能，被选为所有剩余结果的标准设置。表3中的平均视频排序时间是针对BNLF的，其始终具有最高的排序时间。作为实际考虑，我们强调，表3中的帧选择时间与用户花费的时间相比可以忽略不计为一个框架添加注释[5]。4.3. DAVIS验证DAVIS 2016和2017验证集的完整注释帧选择结果见表4。为了正确看待这些结果，DAVIS 2016Val上两种主要VOS方法的当前J+F差异基准是2.1 [25，42]。对于第一帧选择，值得注意的是，两个数据集都打算在第一帧上进行注释，这保证了对象对于注释是可见的（在某些视频中，对象被遮挡或离开视图）。尽管有这一优势，但中间帧选择在两个数据集上的整体表现优于第一帧选择，并且在DAVIS 2017 Val上的3/5视频中表现优于第一帧选择。事实上，在两个数据集上，第一帧选择平均而言更接近最差的可能帧选择而不是最好的。最后一帧选择具有最差的性能，并且使用变异系数，具有最可变的相对性能。最后，性能最佳的注释帧绝不是任何DAVIS验证视频的第一个或最后一个帧。中间帧选择在所有简单策略中具有最佳性能。我们相信这一点的直觉很简单。因为中间帧具有距所有其它帧的最小累积时间距离，所以其平均上相对于标注的对象位置和姿态更能代表其它帧。因此，平均而言，中间帧是用于分割的性能最好的帧。所有BN配置都优于简单选择策略，并且BN0在所有BN配置中表现最好。当选择不同的帧时，BN0击败了DAVIS 2017Val的通过比较8922表4. 数据集注释帧选择结果。DAVIS 2017 Val.最好141.2143.214.9-194.90.26BN0125.2128.97.6-194.20.34BNNIFI123.8129.98.7-194.20.35BNLF121.7128.07.6-194.30.38中间119.2124.07.6-193.60.41随机116.5119.71.6-193.20.38第一113.3117.23.5-192.50.39最后104.7110.34.4-190.10.42最糟糕86.388.21.6-188.90.56DAVIS 2016 Val.表5.每个视频帧数有限的数据集上的结果。SegTrackv2BNLF134.7145.914.3-184.60.32中间134.5143.514.3-182.80.32BNNIFI134.3144.233.9-178.50.30BN0130.6127.350.0-183.20.30最后123.6130.414.3-178.40.36第一122.3122.545.8-181.70.31YT-VOS（第一个1，000人）表6. 基准方法的交叉评价：OSVOS和OnAVOS DAVIS '17Val。结果使用相同的帧选择。分割方法帧选择和DAVISJF均值第一中间BNLFBNNIFIBN0OSVOS56.659.660.861.962.6OnAVOS63.968.468.568.469.22015105000。2505075归一化帧索引（I）表7. 每视频帧数和相对性能：BN性能相对于DAVIS 2017确认中的第一帧。1图5. 视频中的帧选择位置：DAVIS '17 Val上所有BN注释帧选择的归一化指数（2）。通过比较BN0和BNNIFI，我们发现BN0最后，从图5中的帧选择位置可以清楚地看出，BNLF4.4. 有限框架数据集的结果SegTrackv 2和YouTube-VOS的注释帧选择结果见表5。如第3.4.1节所强调的，这些数据集中的视频可用于注释的帧数量有限，这限制了BN帧选择的有效性由于YouTube- VOS验证集只在第一帧上提供注释，因此我们对YouTube-VOS训练集的前1,000个对象进行评估，该训练集每隔五帧提供一次注释。这将BN可以比较、排序和选择的候选注释帧的数量减少到标准应用程序中相同视频可用的五分之一。虽然所有BN配置都优于在第一和最后帧选择中，BNLF是唯一始终优于所有其它选择策略的配置。我们假设，BNLF图6. BNLF-中间帧比较：相对于中间帧的两个最佳（左）和最差（右）BNLF选择。基于索引的选择使得该配置对于候选注释帧的减少更加4.5. 不同分割方法不同分割方法的交叉评价结果见表6。所有BN配置都选择提高OnAVOS性能的注释帧，尽管BN仅在OSVOS生成的标签上进行训练。尽管如此，第3.4.1节中的标记生成公式对于其他半监督VOS方法是通用的;因此，对于其他方法，总是可以生成新的BN训练标签。注意，表6中的第一帧结果由于数据集特定的配置（例如，[41]）、非确定性成分，以及我们分别从多对象视频中分割和评估对象，这更具挑战性。BNLFBNNIFI BN0注释分割性能（J+F）帧选择是说中值范围系数的变化频率注释分割性能（J+F）帧选择是说中值范围系数的变化BNLF115.5126.60.0-197.30.46中间115.0124.20.0-196.20.46BNNIFI111.8121.00.0-196.30.47BN0110.4121.50.0-194.10.49第一107.3114.00.0-196.30.49最后101.2108.10.0-195.40.56最好171.2176.3130.6-194.90.11BN0159.8168.572.6-194.50.18BNNIFI157.3165.772.6-194.50.18BNLF155.6170.572.6-193.80.21中间155.2169.577.1-193.80.21第一152.8153.4115.2-191.70.15随机147.5157.383.1-194.50.25最后147.5153.072.0-189.60.23最糟糕127.7141.368.3-188.90.31从视频DAVIS 2017Val.数量帧相对平均值（J+F）BN0BNNIFIBNL F10最长81–104+11.8%+10.9%+4.0%所有34–104+10.5%+ 百分之九点三+7.4%8923图7.DAVIS 2017验证集的定性比较来自不同注释帧选择策略的分割4.6. 实施的最终考虑因素选择中间框架进行标注是所有数据集上最好的执行简单选择策略，并且易于在实践中实现。然而，BNLF比中间帧选择更可靠，并且在所有数据集上都具有更好的分割性能。如图5所示，BNLF选择靠近每个视频中间的帧，但偏向平均而言比中间帧产生更好的性能的帧（参见表4和表5）。在DAVIS 2017 Val.上，BNLF偏离中间帧在70%的时间内导致更好的性能。我们认为，这种改进的潜在机制是，当中间帧表现出不太明显的ResNet特征或不太能代表视频参考时，电子帧。为了证明这种行为的有益和反作用示例，相对于DAVIS 2017 Val上的中间帧的两个最佳和最差BNLF选择在图6中以相对性能%示出。在DAVIS验证数据集上，BN0相对于简单选择策略具有最大的相对分割改进（参见图7中的示例比较）。然而，这种性能并没有转化为具有有限数量的可用注释框架的数据集。为了确定这是否是由于较少帧的域偏移，我们分析了DAVIS 2017 Val中的10个最长和最短视频。在表7中作为额外实验。关键的结果是，一旦大约四十个注释帧可用，BN0和BNNIFI这是令人鼓舞的，因为大多数现实世界的视频有许多更多的帧可用于注释，这有利于BN05. 结论我们强调，自动选择最佳性能的注释帧的视频对象分割是一个困难的问题。尽管如此，随着视频对象分割方法变得越来越基于学习和数据驱动，我们充分利用训练数据和用户的注释时间至关重要最新的DAVIS挑战已经将重点转移到提高有限注释反馈的性能上[5]。然而，我们在这项工作中证明，已经有简单的策略可用，提供了一个显着的性能改善，而不增加用户的努力，第一帧注释;同样，我们的BubbleNets框架使用学习的注释帧选择进一步提高了性能。为了继续在这一方向上取得进展并在实践中改进视频对象分割算法，数据集注释者在准备未来的挑战时应最后，虽然当前的BubbleNets实现是特定于视频对象分割的，但它具有更广泛的适用性。在未来的工作中，我们计划应用BubbleNets来提高其他基于视频的应用程序的性能。确认这项工作得到了DARPA MediFor计划的部分支持，合同编号为FA 8750 -16-C-0168。8924引用[1] S. Avinash Ramakanth和R.文卡特什先生Seamseg：使用补丁接缝的视频对象分割。IEEE计算机视觉与模式识别会议，2014年。2[2] L. 鲍湾，巴西-地Wu，和W.刘某MRF中的CNN：通过基于CNN的高阶时空MRF中的推理进行视频对象在IEEE计算机视觉和模式识别会议，2018。一、二[3] J. Bernard，M. Hutter，M. Zeppelzauer，D. Fellner和M. 赛德梅尔视觉交互式标记与主动学习的比较：一项实验研究。 IEEE Transactions on Visualization andComputer Graphics，24（1）：298-308，Jan 2018. 2[4] S. 凯尔斯，K.- K. Maninis，J. 蓬-图塞特湖Leal-Taixe'，D. Cremers和L.范古尔单镜头视频对象分割。在IEEE计算机视觉和模式识别会议（CVPR），2017。一、二、三、四[5] S. Caelles，A. Montes，K. Maninis，Y.陈湖，澳-地V.GoolF. Perazzi和J.图塞特桥2018年DAVIS视频对象分割挑战赛CoRR，abs/1803.00557，2018。一二三六八[6] J. Carreira和A.齐瑟曼。你好，动作识别？新模型和动力学数据集。2017年IEEE计算机视觉与模式识别会议（CVPR），2017年。3[7] Y. Chen，J. Pont-Tuset，A. Montes和L.范古尔Blazing-ingly快速视频对象分割与像素明智metric学习。在计算机视觉和模式识别（CVPR），2018年。1[8] J. 郑，Y.-H. 蔡文雄C. 洪，S。王和MH. 杨通过跟踪部分快速准确地在线视频对象分割在IEEE计算机视觉和模式识别会议（CVPR），2018年。1[9] J. Cheng，Y.- H. Tsai，S.王和M H.杨Segflow：用于视频对象分割和光流的联合学习。 IEEEInternationalConference on Computer Vision（ICCV），2017年。1、4[10] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。Imagenet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议中，2009年。2[11] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K.威廉斯，J.Winn和A. 齐瑟曼。 Pascal 视觉对象类（ VOC ）的挑战 .International Journal of Computer Vision，88（2）：303-338，2010。4[12] A. Faktor和M.伊拉尼基于非局部一致性投票的视频分割。英国机器视觉会议（BMVC），2014年。1[13] Q. 范， F.Zhong ， L. 等，中国山杨 D.Lischinski 、D.Cohen-Or和B.尘跳切：视频剪切的非连续掩模传输和插值。ACM事务处理图表，34（6）：195，2015. 2[14] B. A. Griffin和J. J·科索Tukey启发的视频对象分割。IEEEWinter Conference on Applications of ComputerVision（WACV），2019年。5[15] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议，2016。4[16] 詹帕尼河Gadde和P. V. Gehler视频传播网络。在IEEE计算机视觉和模式识别会议，2017年。一、二[17] W. D. Jang和C.S. Kim. 基于卷积三叉神经网络的在线视频对象 2017 年 IEEE 计算机视觉和模式识别会议（CVPR），第7474-7483页1[18] A.霍雷瓦河Benenson，E. Ilg，T. Brox和B.席勒清晰的数据梦想对象跟踪。2017年DAVIS视频对象分割挑战赛- CVPR工作室，2017年。2[19] D. P. Kingma和J. BA. Adam：随机最佳化的方法。在国际学习代表会议（ICLR），2014年。6[20] D.克努特计算机程序设计的艺术，第1卷-3. Addison-Wesley Longman出版公司股份有限公司、波士顿MA，USA，1998年。3[21] Y. J. Lee、J. Kim和K.格劳曼视频对象分割的关键段。IEEEInternationalConferenceonComputerVision（ICCV），2011年。1[22] F. Li，T. Kim，A.胡马云D. Tsai和J. M. 瑞格通过跟踪多个图形-背景片段进行视频分割。IEEE国际计算机视觉会议（ICCV）。一、二、五[23] X. Li，Y.齐，Z.Wang，K.Chen，Z.刘，J.Shi、P.罗C. C. Loy和X.唐具有重识别的视频对象分割。2017年DAVIS视频对象分割挑战赛- CVPR研讨会，2017年。2[24] A. L. Maas，A. Y. Hannun和A. Y. Ng.整流器非线性改进了神经网络声学模型。在ICML研讨会上，深度学习音频，语音和语言处理，2013年。4[25] K. Maninis、S.Caelles，Y.陈，J.蓬蒂塞湖里尔-塔克斯D. Cremers和L. V.Gool无时间信息的视频对象分割。IEEE Transactions on Pattern Analysis and MachineIntelligence，第1-1页，2018年。一、二、六[26] A. McCallu

下载后可阅读完整内容，剩余1页未读，立即下载