没有合适的资源?快使用搜索试试~ 我知道了~
简化视频对象分割方法及其性能在DAVIS 2017数据集上的比较
1∼视频对象分割张一卓2吴志荣1彭 厚文1林伟11微软亚洲研究院2卡内基梅隆大学摘要半监督视频对象分割的目的是在给定第一帧中的掩模的情况下从视频序列中分离出目标对象目前流行的大多数方法都使用来自其他领域(如光流和实例分割)中训练的附加模块的信息,因此它们不会与其他方法竞争。为了解决这个问题,我们提出了一个简单而强大的转换方法,其中不需要额外的模块,数据集和专用的架构设计。我们的方法采用标签传播方法,其中像素标签基于嵌入空间中的特征相似性向前传递与其他传播方法不同的是,我们的方法以一种整体的方式传播时间信息,考虑了对象的长期外观。此外,我们的方法需要很少的额外的计算开销,并以快速37fps的速度运行。我们的单一模型与香草ResNet50骨干达到了72分的总成绩。DAVIS2017验证集的3%和63。测试集上的1%。这种简单而高效的方法可以服务于作为促进未来研究的坚实基线。代码和模型可以在https://github.com/microsoft/transductive-vos.pytorch 上 找到。1. 介绍视频对象分割解决了从给定起始帧中的注释的视频序列中提取对象片段的问题。这种半监督设置是具有挑战性的,因为它需要系统推广到各种对象、变形和遮挡。然而,视频对象分割由于其在监控、自动驾驶汽车、机器人和视频编辑中的广泛实际应用而受到了广泛的关注。尽管公式简单,但视频对象分割与许多其他视觉问题密切相关,例如实例分割[19],对象重新识别[13],光流估计[15]和对象同等贡献。一卓在微软研究院实习时所做的工作FPS图1:半监督视频对象分割方法在DAVIS 2017验证集上的性能和速度比较。 我们的系统以最先进的方法执行,同时以在线速度(>30fps)运行。跟踪[5]。由于这些任务与视频对象分割具有类似的挑战,因此先前的努力[29,30]试图将针对这些任务训练的模块转移到视频对象分割流水线中。更具体地说,光流和跟踪通过估计附近帧中的位移来鼓励局部依赖性,而实例分割和对象重新识别通过学习对大的外观变化的不变性来强制执行全局依赖性。这些模块的集成允许视频对象分割中的显著实施局部和全局依赖性的想法一直是一般半监督学习[49,14](也称为转导推理)的中心主题。基本假设如下:1)附近的样品倾向于具有相同的标签,以及2)位于同一歧管上的样品应当具有相同的标签。局部和全局依赖性描述了一个足够平滑的亲和力分布,因此未标记数据上的标签传播给出了可靠的估计。实现这一思想的现有经典方法包括随机游走[37]、图割[6]和谱方法[4]。这启发我们探索一种统一的半监督视频对象分割方法,而不需要集成来自其他领域的模块。我们模拟6949区域轮廓质量(J F)6950通过空间先验和运动先验的局部依赖性。它是基于这样的假设,即空间上邻近的像素可能具有相同的标签,并且时间上远离的帧削弱了空间连续性。另一方面,我们通过视觉外观对全局依赖性进行建模,这是通过卷积神经网络在训练数据上学习的推理遵循正则化框架[49],其在构建的时空依赖图中传播标签。虽然在最近的文献中已经探索了用于视频对象分割的标签传播算法[41,9,22,36,34],但是它们学习和传播亲和力的方式是稀疏和局部的,即,学习相邻帧之间或第一帧与远处帧之间的像素亲和度。我们观察到,在这些方法没有利用的时间体积中存在许多光滑的未标记结构。这可能导致处理变形和闭塞时失败。相反,我们的标签传播方法尝试捕获从第一帧到当前帧之前的帧跨越视频序列的所有帧。为了限制计算开销,在最近的历史中密集地执行采样,而在更遥远的历史中稀疏地执行采样,从而产生一个模型,该模型考虑对象外观变化,同时减少时间冗余。在其实现中,我们的模型不依赖于任何其他任务模块,额外的数据集,也不依赖于ImageNet模型动物园[20]中预训练的ResNet-50模型之外的专用架构设计。在推断期间,每帧预测仅涉及通过基础网络的前馈传递因此,推理速度快,也不受对象数量的影响。在实验中,我们的模型以每秒37帧的帧率运行,总体得分为72。戴维斯2017年验证集上的3%,以及63。在Davis 2017测试集上为1%。我们的模型也达到了67的竞争力总分。8%在最近的Youtube-VOS验证集。我们的方法是有竞争力的,目前流行的方法,同时大大简单和快速。我们希望该模型可以作为未来工作的简单基线。2. 相关工作我们回顾了半监督环境下视频对象分割的相关工作对于非监督和交互式视频对象分割的概述,我们建议读者参考其他论文[11,12,2,39,27,28]。单帧模型。在过去的几年中,具有领先性能的方法一直基于在单个注释框架上微调模型并在单个测试框架上执行这些方法基本上是学习对象先验和空间连续性,而没有连续性。临时信息。卷积神经网络架构对于有效地对单个帧进行OSVOS [7]是这方面的先驱工作。Lucid [25]试图从一帧地面实况中专门为每个视频增加数据。 OnAVOS[42]挖掘测试序列中的置信区域以增强训练数据。OSVOS-S [31]的后期工作集成了来自实例分割模型的语义信息,以提高性能。PReMVOS [30],CNN-MRF[3]和DyeNet [29]也建立在单帧模型之上。单帧模型的有效性表明,优化特定于域的空间平滑项可以大大提高性能。然而,经由梯度下降的微调通常每个视频花费数十秒,这对于许多应用来说可能是不切实际的。基于模型的。基于传播方法将图像像素嵌入到特征空间中,并利用特征空间中的像素相似性来引导标签传播。在诸如VideoMatch [22,9]的方法中,仅第一帧中的像素用于计算像素相似性的参考。由于不涉及运行时的微调,基于传播的模型比上述单帧模型运行得快得多,但缺乏特定于域的微调导致性能差得多后来的作品[36,45,34,41]探索将前一帧添加到第一帧作为参考,这显著提高了性能并导致更大的时间平滑性。然而,这种局部和稀疏传播方案遭受漂移问题[16]。长期时空模型。 有两条工作线,试图优化一个密集的长距离时空体积。第一个[45,21]构建了一个递归神经网络,该网络使用来自原始帧的估计整个模型通过时间的反向传播来学习。然而,这样的模型对前一帧中的估计误差敏感。第二个方向是基于图形模型[17,38,26,48,8,32](即,马尔可夫随机场)定义在时空域。这些作品在深度学习之前很流行,并采用了由手工特征(如SIFT)定义的边缘势。这些模型在计算上是昂贵的,并且不再与基于学习的方法竞争与其他视力问题的关系。如上述方法所示,视频对象分割与各种计算机视觉问题密切相关,例如实例分割,对象重新识别以及光流估计和跟踪。许多最近的方法将用于这些其他任务的组件集成到视频对象分割流水线中。例如,OSVOS-S [31]包括一个实例6951i=l+1{}2Jn(a) 上一个诱导模型(b)我们的转导模型第一帧地面实况预测k-n标架预测k-1帧预测k个帧诱导模型月1 帧k-n帧k-1帧k帧图2:我们从转导推理的角度提出视频对象分割,其中构建密集的长期相似性依赖关系以发现时空体积中的结构。a)先前的归纳模型将知识从第一帧转移到其他帧。b)我们的转导模型考虑未标记的时空体积中的整体依赖性以用于联合推断。分割模块; PReMVOS [30]和DyeNet [29]结合对象重新识别模块; CNN-MRF [3],MaskTrack [34]和MaskRNN[21]依赖于光流估计。其他模块的集成在很大程度上依赖于从其他数据集的迁移学习。虽然观察到性能改善,但它通常涉及进一步的并发症。例如,当视频遇到实例分割模型中不存在的新对象类别时,实例分割变得不太有用。光流[15]遭受遮挡,这会误导标签传播。最相关的作品。 时空记忆网络(STM)[33]是一项重要的工作,与我们的工作最相似框架[49],然后以遵循我们想法的方式使其适应在线视频对象3.1. 一个转换推理框架让我们首先考虑一般的半监督分类问题。假设我们有一个数据集D={(x1,y1), (x2,y2),( x 1,y 1), x 1+1,...,x n},其中包含l个标记数据对和n-l个未标记数据点。任务是推断标签{y<$i}对于未标记的数据xl+1,...,x n基于所有的观察。推理在以前的工作中[49],将未标记数据的转换正则化框架,我们的是独立于STM开发的,而STM比我们早发表。利用密集的长期信息的洞察力是相似的。然而,所提出的方法中的trans-ductive框架,Q(y)=Σni、j我的世 界||√d日--||Σl+µi=1||、(1)||,(1)从经典的半监督学习的角度出发,为视频对象分割提供了理论基础。此外,在实现中,我们是更简单和更有效的,它不需要额外的数据集,并同时推断所有对象。3. 方法与之前在单个注释帧上微调模型或从其他相关任务中转移知识的许多工作相比,我们的方法专注于充分利用视频序列中的未标记结构这使我们能够构建一个简单的模型,既有强大的性能,又能快速推理。我们首先描述了一个通用的半监督分类其中,Wij编码数据点之间的相似性(xi,xj),且di表示degreedi=对于pi x el i,j w ij。第一项是平滑度约束,其强制执行相似性。两个点具有相同的标签。第二项是拟合约束,它惩罚偏离初始观测值的解。参数μ平衡了这两项。半监督分类相当于解决以下优化问题,y=a r gmin Q(y)。(二)[49]表明,上述能量最小化问题可以通过如下迭代算法求解。 设S=D−1/2WD−1/2 为归一化相似度ma。由wij 构 造 的。Iterativ elysolvev efory(k)until第一帧地面实况预测k-n标架预测预测k-1帧k个帧转导模型第一帧k-n标架k-1帧k个帧我26952DJ2ijijσ2收敛,如1y<$(k+1)=αSy<$(k)+(1−α)y(0),(3)其中α=μ/(μ+ 1),y(0)= [y1,y2,.,T是用受监督标签夹持的标签的初始观察值。α的典型值为0。九十九。这种传导模式的力量来自于它所构建的全球化模式在未标记数据中的密集结构上。3.2. 在线视频对象分割基于这个一般框架[49],我们构建了一个半监督视频对象分割的trans-ductive模型,该模型考虑了密集的长距离交互。这带来了三个挑战。首先,视频帧按顺序流动,因此模型必须以在线方式工作,其中一帧的推断不应依赖于未来的帧。其次,一个视频中的像素数量可以扩展到数千万。因此,在所有像素上的相似性矩阵将难以计算。第三,需要在视频序列中的像素之间学习有效的相似性度量W对于在线运行的算法,假设在当前帧t到达时已经确定了对所有先前帧的预测。因此,我们通过将推理过程扩展到时间来近似等式3…���−40…���−33……���−26…���−19…���−12…...图3:标签传播的采样策略我们在近代史上取样比较密集,而在遥远的历史上取样比较稀疏。相似性度量为了建立一个平滑的分类函数,相似性度量应该考虑全局高层语义和局部低层空间连续性。我们的相似性度量wij包括外观项和空间项,w=exp(f Tf)·exp(−||loc(i)− loc(j)||)、(6)y(t+1)=S1:t→t+1y(t).(四)S1:t→t+1表示仅在直到第t帧的像素和第t+ 1帧中的像素之间构造的相似性矩阵S由于在第一帧之外没有提供标签,因此对于帧t+ 1省略了先前项y(0)。对于时间t+1,上述传播过程等效地最小化时空体积中的一组平滑项,其中,fi,fi,j是pixel的特征嵌入,通过卷积神经网络。loc(i)是像素i的空间位置。空间项由局部参数σ控制。下一节将描述外观模型的学习。帧采样。在所有先前帧上计算相似性矩阵S在计算上是不可行的,因为长视频可以跨越数百帧或更多。受时间段网络[43]的启发,我们在观察视频中的时间冗余时对少量帧进行采样。电话+1拉吉吉2002年具体来说,如图3所示,我们总共对9个帧进行采样Q(y)=我wij||√dJ-√||、(五)从前面的40个帧中:目标帧之前的4个连续帧,用于对局部运动进行建模,以及从剩余的36个帧中稀疏采样的另外5个帧,其中i索引在目标时间t+ 1的像素,j索引在时间t之前并包括时间t的所有帧中的像素。3.3. 标签传播给定视频的起始帧上的注释,我们顺序地处理剩余的帧,基于Eqn将标签传播到每个帧。4.第一章视频对象分割的质量在很大程度上取决于相似性度量S,其核心组成部分是亲和矩阵W。1注意,存在所示方程2的封闭形式解。在[49]中。然而,这需要矩阵S的逆,当S是大矩阵时,这通常需要计算。长期互动的模式。我们发现这种抽样策略在效率和效果之间取得了很好的平衡。实验中对帧采样的选择作了详细的说明一个简单的动议。在时间域中更远的像素具有更弱的空间依赖性。为了整合这些知识,我们使用简单的运动先验,其中当时间参考被局部且密集地采样时使用较小的σ= 8,并且当参考帧远离时采用较大的σ=21我们发现这个简单的运动模型对于寻找长期依赖关系是有效的。当全球我���−4���−3���−2���−16953我××方法架构光学建议跟踪Re-IDDyeNet [29]CNN-MRF [3]PReMVOS [30]ResNet 101DeeplabDeeplab-V3+✓✓✓✓✗✓✓✗✓✓✗✓[第41话]Deeplab-V3+✗✗✗✗STM [33]2×ResNet-50✗✗✗✗TVOS(我们的)ResNet-50✗✗✗✗表1:主要VOS方法的简要概述,以及其他相关视觉任务的相关模块。3.4. 学习外观嵌入我们使用2D卷积神经网络以数据驱动的方式学习外观嵌入。嵌入旨在捕获由于运动、尺度和变形而引起的短期和长期嵌入是从训练数据中学习的,其中来自视频的每个帧都用分割的对象和对象标识进行注释。给定目标像素xi,我们将先前帧中的所有像素视为参考。将fi和fj表示为像素xi和参考像素xj的特征嵌入。则xi的预测标签yi由下式给出:exp(fT fj)无运动有运动图4:我们简单运动模型的效果。距离较远的帧对对象的位置具有较弱的空间先验,从而减少了漂移问题。在跟踪过程中,我们在原始图像分辨率为480p的情况下提取特征。每个视频帧的结果被顺序地在线预测。4. 结果在本节中,我们首先描述我们的实验设置和数据集。然后,我们展示了详细的消融如何转导的方法利用未标记的结构在时间序列,以显着改善i=JΣikexp(fTfk)·yj,(7)演出在各种数据集上进行结果,以与最先进的技术进行比较最后讨论其中参考索引j、k跨越当前帧之前的时间历史。我们展示了详细的消融采样的历史帧如何影响学习质量。我们通过对目标帧中所有像素的标准交叉熵损失来优化嵌入Σ时间稳定性以及与光流的关系。我们的方法在结果表中缩写为TVOS。4.1. 实验装置数据集。我们在Davis 2017 [35]和Youtube-VOS [46]数据集上评估了我们的方法。我们的模型在各自的训练集上进行训练,并在L=−logP(yi=yi|xi)。(八)我验证集对于Davis 2017,我们还在组合train-val集上训练我们的模型,并将结果提交到3.5.实现细节我们使用ResNet-50来训练嵌入模型。第三和第四残差块的卷积步长我们添加一个额外的11卷积层来投影特征最终嵌入256维。嵌入模型产生一个总步幅为8的特征。在训练过程中,我们从ImageNet模型动物园中获取预训练的权重,并在Davis 2017 [35]训练集和Youtube-VOS [46]训练集上微调模型240个epoch。我们应用随机翻转和随机裁剪大小256 256在输入图像上。我们使用SGD求解器初始学习率为0。02和余弦退火调度器。优化在4个TeslaP100 GPU上花费了16个小时,批量大小为16,每个包含来自视频序列的10个片段。测试设置在评估服务器上Davis 2017包含150个视频序列,它涉及多个具有剧烈变形、严重和长期遮挡以及非常快速运动的对象。高清晰度注释可用于训练序列中的所有帧。Youtube-VOS是迄今为止该任务最大的数据集,包含4453个训练序列和474个验证序列。它捕获了94个日常对象类别的全面集合。然而,视频的帧速率比Davis中的视频低得多(5 fps与24 fps相比)。评 估 指 标 。 我 们 使 用 标 准 的 评 估 指 标 meanintersection over union(mIoU),在对象之间取平均值,并在所有帧上求和。mIoU在完整对象(J测量)和仅在对象边界(F测量)上进行评估。全局度量(G测度)是J和F测度的平均值。Youtube-6954图5:使用密集的长距离依赖关系提高了跟踪性能。空间项平滑对象边界,而长达40帧的长期依赖性有助于重新检测对象。列车/跟踪1 3 9均匀稀疏稀疏+帧样本样本运动1帧55.860.463.463.864.064.33帧56.061.465.465.566.166.79帧60.763.468.668.669.069.9统一样本55.860.264.465.065.165.3稀疏取样59.962.966.267.268.568.6监督47.552.253.854.054.554.8[44]第四十四话42.447.351.351.352.152.2MOCO[18]43.548.753.053.253.854.0表2:时间依赖性范围和简单运动分量的消融研究。报告了Davis 2017验证集的平均J测量值。详情见正文VOS还包括对可见对象和不可见对象的单独测量,以测量泛化能力。在第4.4节中,我们讨论了时间稳定性。4.2. 消融研究密集的本地和全局依赖性。 虽然大多数先前的工作集中在优化单帧模型,本文的核心思想是建立密集的长期模型,在时空体积上的ELS。在表2中,我们总结了这些长期潜力的影响,这些潜力捕获了局部和全局依赖性。每一行都是一个使用不同参考帧采样策略训练的感知嵌入模型。每一列对应一个跟踪采样策略。我们研究了以下设置:一个参考帧前的目标帧,3在目标帧之前的连续帧、在目标帧之前的9个连续帧、在前40个帧中的9个帧的均匀采样、以及如图3所示的在前40个帧中的9个帧的稀疏采样。我们发现,跟踪在一个较长的时间通常会提高性能,和更密集的采样附近的目标帧是有帮助的。对于学习外观嵌入,使用9个连续帧进行训练会产生最佳结果,而较长的范围并不总是导致改进。这可能是由于覆盖几乎整个视频的非常长的范围减少了数据集中的变化,这导致训练的泛化能力较差。在图5中,我们展示了一些远程跟踪的定性示例使用9个连续帧比仅使用前一帧产生更添加空间项可平滑对象边界。40帧的长范围使模型能够在严重遮挡后重新检测对象。转让的代表。 在表2的最后几行中,我们还测试了在ImageNet上预训练但没有在DAVIS数据集上进一步训练的模型的跟踪性能。转移的ImageNet模型获得的平均J度量为54。8%,这实际上比使用额外的戴维斯数据训练的一些先前的方法[47,10此外,即使是图像上的无监督预训练模型也可以使用我们的直推推理算法获得与网络模块化[47]竞争的性能。研究了ImageNet上最近的两个无监督预训练模型[44,18]。由于没有特定领域的训练涉及的外观嵌入,转移表示的评估清楚地验证了有效的-1030375880103037588010303758801030375880Range409references9references1参考+空间+空间6955−方法FTJFJ F速度方法FTJFJ F速度OnAVOS[42]✓61.066.163.60.08OnAVOS[42]✓53.459.656.50.08DyeNet [29]✓67.371.069.10.43DyeNet [29]✓65.870.568.20.43CNN-MRF [3]✓67.274.270.70.03CNN-MRF [3]✓64.570.567.50.02PReMVOS [30]✓73.981.777.80.03PReMVOS [30]✓67.575.771.60.02调制[47]✗52.557.154.83.57RGMP [45]✗51.454.452.92.38Favos [10]✗54.661.858.20.83[第41话]✗51.257.554.41.96[22]第二十二话✗56.568.262.42.86tvOS✗58.867.463.137RGMP [45]✗64.868.866.73.57[第41话]✗65.972.369.11.96表4:Davis 2017测试开发的定量评估STM [33]✗69.274.071.66.25集FT表示执行在线训练的方法。STM [33]+预训练✗81.779.284.36.25表3:Davis 2017验证集的定量评价。FT表示执行在线训练的方法。总体方法看不见的密集的长期建模。简单的动议。作为一个弱的空间先验模型之间的依赖关系遥远的帧,我们的简单的运动模型减少了噪声的模型预测,并导致约1%的改善。图4显示了两个具体示例。更复杂的运动模型,例如线性运动模型[1],可能更有效。4.3. 定量结果在表1中,我们首先简要概述了当前的领先方法,包括使用第一帧微调的方法(CNN-MRF [3],DyeNet[29],PReMVOS [30])和不使用的方法(FEELVOS[41] , STM [33] 和 我 们 的 TVOS ) 。 对 于 DyeNet 和PReMVOS,它们的子模块是在专用数据集上学习的,例如Flying Chairs上的光流,MSCOCO 上的对象建议,以及PASCAL VOC上的由于戴维斯比大规模数据集小得多,因此仍然不清楚有多少收益可以归因于知识转移或方法本身。因此,上述方法不能与我们的方法直接比较FEELVOS,STM和我们的要简单得多,因为他们不依赖于额外的模块来解决这个问题。STM还需要在大规模图像数据集上进行大量的预训练。同样重要的是要注意,对于PreMVOS,DyeNet,CNN-MRF,它们不能以在线方式运行跟踪。它们使用来自未来帧的信息来稳定目标帧的预测。此外,他们使用整个测试开发集的第一帧进行训练,而不是使用给定视频的第一帧进行训练。基于简化的方法能够在线连续跟踪对象。DAVIS 2017. 我们在表3中总结了Davis 2017验证集的结果,在表4中总结了Davis 2017测试开发集的结果。在验证集上,在相同的量下,我们的方法表现略好于STM [33]表5:对Youtube-VOS验证集的定量评估。的训练数据,而超过其他传播为基础的方法,不需要微调,4%的平均J和3%的平均JF。与基于微调的方法相 比 , 我 们的 TVOS 也 比 DyeNet 和 CNN- MRF 高 出2%,同时显着更简单和更快。我们在组合的训练和验证集上训练我们的模型,以便在测试开发集上进行评估。我们发现Davis 2017测试开发集和验证集之间存在很大的分布差距。在测试开发中,属于同一类别的对象之间的重和长时间的遮挡更频繁,这有利于具有重新识别模块的方法。因此,在 测 试 开 发 集 上 , 我 们 比 DyeNet 和 CNN-MRF 低45%FEELVOS受到的负面影响更大,平均JF比我们低8%。STM [33]未提供对测试集的评价。Youtube-VOS 我们在表5中总结了youtube-VOS验证集的结果。我们的超越了除了STM [33]之外的所有先前的作品,STM依赖于对各种分割数据集(如显着性检测和实例分割)进行大量的预训练。在没有预训练的情况下,STM获得了68的可比结果。百分之一。我们还测试了在DAVIS train-val上训练的模型的泛化能力,并在Youtube-VOS val上进行了测试转换后的模型具有很强的泛化能力,综合得分为67。百分之四速度分析。在跟踪过程中,我们缓存了多达40帧的历史的外观嵌入推理tvOS74.7 72.337JFJF[45]第四十五话59.5-45.2-[42]第四十二话60.162.746.651.4[40]第四十话63.667.245.551.0OSVOS [7] 58.859.860.554.260.7S2S [46] 64.471.070.055.561.2PreMVOS [30] 66.971.475.956.563.7STM [33]+Pretrain 79.479.784.272.880.9TVOS 67.867.169.463.071.6TVOS(来自DAVIS)67.466.769.862.570.66956时间图6:PreMVOS和我们的方法在DAVIS验证集的示例视频序列上随时间推移的每帧IoUPreMVOS频繁切换对象身份,而我们的预测在时间上是平滑的。每条IoU曲线的颜色与其对应的对象段相匹配。叠加图像对FlowNet2Ours Ours+平滑度约束图7:与FlowNet2相比,我们的模型计算的光流示例。因此,每帧仅涉及目标帧通过基础网络的前馈传递以及目标嵌入与先前嵌入的附加点积。计算也是常数的任何数量的对象。这使得我们的算法非常快,在单个Titan Xp GPU上的运行时间为每秒37图1比较了当前算法在速度和性能之间的权衡我们的方法比现有方法快一个数量级,同时达到与最先进方法相当的结果。4.4. 讨论时间稳定性。时间稳定性通常是视频对象分割中的理想属性,因为尖锐的不一致性可能会破坏下游视频分析。然而,时间稳定性通常不被包括作为评估标准。在这里,我们给出了定性示例,显示了我们的模型和最先进的PreMVOS之间的时间稳定性差异[30]。在图6中,我们展示了视频序列中每帧评估的示例。虽然现有技术集成了各种时间平滑模块,例如opti,calflow,合并和跟踪,我们观察到基于检测的方法易于噪声。例如,对象突然丢失,或被标记为不同的标识。我们的方法,另一方面,使时间一致的预测。我们的模型学习光流吗?我们的方法学习了一种软机制,用于将目标帧中的像素与历史帧中的像素相关联。这类似于在像素之间计算硬对应的opti- cal流我们研究了我们的学习模型与光流的一致程度。我们对两个相邻的两帧进行处理,然后根据我们的模型计算光流,公式为:jsijdij,其中sij是归一化相似度y,并且dij是位移。在 i , j 之 间 。 图 7 显 示 了 流 程 的 可 视 化 示 例 。 与FlowNet2 [23]计算的光流相比,我们的流在将被分割的对象上是有意义的我们还在计算的光流上添加了空间平滑度约束,用于联合学习嵌入,如广泛用于光流估计[15,24]。我们观察到,该约束平滑了背景上的光流,但未能正则化跟踪模型。添加该术语始终会损害视频对象分割的性能。5. 结论我们提出了一种简单的方法来半监督视频对象分割。我们的主要见解是,更多的未标记的结构中的时空体积可以用于视频对象分割。我们的模型发现这样的结构通过转导推理。该方法是端到端学习的,不需要额外的模块,额外的数据集或专用的架构设计。我们的ResNet50型号以每秒37帧的惊人速度实现了极具竞争力的性能。我们希望我们的模型可以作为未来研究的坚实基础。30556575时间30556575我们IOUPReMVOSIOU6957引用[1] A. Andriyenko和K.辛德勒基于连续能量最小化的多目标跟踪。CVPR 2011,第1265-1272页。IEEE,2011年。7[2] X. Bai,J. Wang,D. Simons和G.萨皮罗 视频截图:使 用 局 部 化 分 类 器 的 鲁 棒 视 频 对 象 剪 切ACMTransactions on Graphics(ToG),第28卷,第70页。ACM,2009年。2[3] L. 鲍湾,巴西-地 Wu,和W. 刘某CNN在MRF:视频ob-在基于CNN的高阶空间-时间MRF中经由推理的对象分割。在IEEE计算机视觉和模式识别会议论文集,第5977- 5986页二三五七[4] M. Belkin和P.新木半监督学习在人身上的应用-ifolds。机器学习杂志,2002年。1[5] K. Bernardin和R. Stiefelhagen评估多目标跟踪性能:明确 的 MOT 指 标 。 Journal on Image and VideoProcessing,2008:1,2008. 1[6] A. Blum和S.乔拉从标签和unla学习使用图形分割来标记数据。 2001. 1[7] S. 凯尔斯,K.- K. Maninis,J. 蓬-图塞特湖Leal-Taixe',D. Cremers和L.范古尔单镜头视频对象分割。2017年IEEE计算机视觉和模式识别会议(CVPR),第5320-5329页。IEEE,2017年。二、七[8] S. 钱德拉角,澳-地 Couprie,和我。 Kokkinos深空-用于有效视频分割的时间随机场。在IEEE计算机视觉和模式识别会议论文集,第8915-8924页,2018年。2[9] Y. Chen,J. Pont-Tuset,A. Montes和L.范古尔Blazz-快速视频对象分割与像素度量学习。在IEEE计算机视觉和模式识别会议论文集,第1189-1198页,2018年。2[10] J. 郑,Y.-H. 蔡文雄C. 洪,S。王和MH.杨通过跟踪部件快速准确的在线视频对象分割。在IEEE计算机视觉和模式识别会议论文集,第7415- 7424页,2018年。六、七[11] A. Faktor和M.伊拉尼非局部视频分割一致表决。在BMVC,第2卷,第8页,2014中。2[12] Q. 范 , F.Zhong , L. 等 , 中 国 山 杨 D.Lischinski 、D.Cohen-Or和B.尘跳切:视频剪切的非连续掩模传输和插值。ACM事务处理图表,34(6):195-1,2015. 2[13] M. 法伦泽纳,L. 巴扎尼,A. 佩里娜,V.Murino,以及M. 克里斯塔尼通过局部特征的累积进行人员重新识别在2010年IEEE计算机协会计算机视觉和模式识别会议上,第2360-2367页。IEEE,2010。1[14] R. Fergus,Y.Weiss和A.托拉尔巴半监督学习-在巨大的图像集合。神经信息处理系统的进展,第522-530页,2009年。1[15] P. Fischer , A. 两 个 人 都 是 E.Ilg , P.Hausser ,C.Hazzirbassoul,Golkov,P. Van der Smagt,D. Cremers和T.布洛克斯Flownet:使用卷积网络学习光流arXiv预印本arXiv:1504.06852,2015年。一、三、八[16] H.格拉布纳角Leistner和H.比肖夫半监督用于鲁棒跟踪的在线增强欧洲计算机视觉会议,第234-247页Springer,2008. 2[17] M. Grundmann,V. Kwatra,M.汉和我艾萨高效的基于分层图的视频分割。2010年IEEE计算机协会计算机视觉和模式识别会议,第2141-2148页。IEEE,2010。2[18] K.他,H.范,Y。Wu,S. Xie和R.娘娘腔。摩门-tum contrast用于无监督视觉表示学习。arXiv预印本arXiv:1911.05722,2019。6[19] K. 他,G. Gkioxari,P. Doll a'r 和R. 娘娘腔。 面具r-cnn。在IEEE计算机视觉国际会议论文集,第2961-2969页1[20] K. 他,X。Zhang,S.Ren和J.太阳深度残差学习-用于图像识别。在Proceedings of the IEEE conference oncomputer vision and pattern recognition,pages 770-778,2016中。2[21] Y.-- T.胡,J. - B. Huang和A.施温 Maskrnn:实例层次视频对象分割。神经信息处理系统的进展,第325-334页,2017年。二、三[22] Y.-- T.胡,J. - B. Huang和A. G.施温视频匹配:基于匹配的视频对象分割。在欧洲计算机视觉会议(ECCV)的会议记录中,第54-70页,2018年。二、七[23] E. Ilg,N. Mayer,T. Saikia、M. Keuper,A. dosovitskiy和T.布洛克斯流动网络2.0:利用深度网络的光流估计的演 进 。 2017 年 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),第1647IEEE,2017年。8[24] J. Janai,F. Guéney,A. Ranjan,M. Black和A. 盖格河具有遮挡的多帧光流的无监督学习。在欧洲计算机视觉会议(ECCV)的会议记录中,第690-706页,2018年。8[25] A.霍雷瓦河Benenson,E. Ilg,T. Brox和B.席勒Lucid Data Dreaming for Video Object Segmentation ,2018。2[26] Y. J. Lee、J. Kim和K.格劳曼视频对象分割的关键段。2011年国际计算机视觉会议,第1995-2002页。IEEE,2011年。2[27] S. 李湾,澳-地Seybold,A.Vorobyov,A.Fathi,Q.Huang和C.-C.郭杰。实例嵌入转移到无监督视频对象分割。在IEEE计算机视觉和模式识别会议论文集,第6526-6535页2[28] S.李湾,澳-地Seybold,A. Vorobyov,X. Lei和C.- C.郭杰基于运动双边网络的无监督视频对象分割。在欧洲计算机视觉会议(ECCV)的会议记录中,第207-223页,2018年。2[29] X. Li和C.换洛伊。视频对象分割联合重新识别和注意力感知掩模传播。在欧洲计算机视觉会议(ECCV)的会议记录中,第90-105页一二三五七[30] J. Luiten山口Voigtlaender和B.Leibe 普雷姆沃斯:提议-用于视频对象分割的生成、细化和合并arXiv预印本arXiv:1807.09190,2018。一二三五七8[31] K.- K. Maninis、S. Caelles,Y. Chen,J. Pont-Tuset,L.Leal-Taix e′,D. Cremers和L. 范古尔。 没有时间信息的视频对象分割arXiv预印本arXiv:1709.06031,2017年。2[32] N. M aürki,F. 佩拉齐岛 Wang,和A. 索金-霍恩双侧空间视频分割。在IEEE计算机视觉和模式识别会6958议6959第743-751页,2016年。2[33] S. W.哦,杰Y.李,N. Xu和S. J. Kim 基于时空记忆网络的 视 频 对 象 分 割 arXiv 预 印 本 arXiv : 1904.00607 ,2019。三、五、七[34] F. 佩拉齐 A. 霍雷瓦 R. 本纳森, B. schiele和A.索金-霍恩从静态图像中学习视频对象分割。在IEEE计算机视觉和模式识别会议论文集,第2663- 2672页,2017年。二、三[35] J. Pont-Tuset,F.Perazzi,S.卡勒山口Arbela' ez,A.索金Hornung和L.范古尔2017年戴维斯视频对象分割挑战赛。arXiv:1704.00675,2017。5[36] J. Shin Yoon,F. 作者:J. Kim,S. 李,S。 Shin,以及I.所以奎恩。使用卷积神经网络进行视频对象分割的像素级匹配在IEEE计算机视觉国际会议论文集,第2167-2176页,2017年。2[37] M. Szummer和T.贾科拉部分标记分类马尔可夫随机游动神经信息处理系统的进展,第945-952页,2002年。1[38] D. 蔡,M。Flagg,A.Nakazawa和J.M. 瑞格运动使用多标记MRF优化的相干跟踪。国际计算机视觉杂志,100(2):190-202,2012。2[39] Y.-- H.蔡美儿H.杨,和M。J.布莱克。 视频片段a-通过对象流。在IEEE
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功