没有合适的资源?快使用搜索试试~ 我知道了~
基于匹配的视频对象分割算法的研究与应用
VideoMatch:基于匹配的视频对象分割胡元婷1,黄家斌2,Alexander G. 施温11伊利诺伊大学香槟分校2弗吉尼亚理工大学{ythu2,aschwing}@ illinois.edujbhuang@vt.edu抽象。视频对象分割是具有挑战性的,但在各种各样的视频分析应用中是重要的。最近的作品将视频对象分割作为使用深度网络的预测任务来制定,以实现吸引人的最先进的性能。由于作为预测任务的公式化,这些方法中的大多数需要在测试时间期间进行微调,使得深度网络记住给定视频中感兴趣对象的外观然而,微调是耗时和计算昂贵的,因此算法是远离实时。为了解决这个问题,我们开发了一种新的基于匹配的视频对象分割算法。与基于记忆的分类技术相比,所提出的方法学习将提取的特征与所提供的模板相匹配,而无需记忆对象的外观我们在具有挑战性的DAVIS-16,DAVIS-17,Youtube-Objects和JumpCut数据集上验证了所提出方法的有效性和鲁棒性。大量的结果表明,我们的方法实现了相当的性能,而无需微调,是更有利的计算时间。1介绍视频分割在从对象识别、视频编辑到视频压缩的各种应用中起着举足轻重的作用。尽管在许多情况下,对象的分层和跟踪对于人类来说似乎是微不足道的,但是由于遮挡、快速运动、运动模糊和随时间的显著外观变化,视频对象分割对于算法来说仍然具有挑战性开发用于视频对象分割的有效技术的研究努力继续增长,部分原因是最近发布的高质量数据集,例如,DAVIS数据集[40,42]。视频对象分割的两个主要设置是无监督和半监督设置[40,42]。这两种情况是类似的,因为在测试期间要被分割的对象的语义类事先是未知的。这两种情况的不同之处在于在测试时可用的监控信号。虽然在无监督设置中的测试期间没有监督信号可用,但是在半监督情况下假设第一帧的真实分割掩码是已知的考虑到视频编辑应用程序,在这里,我们集中在半监督设置,即,我们的目标是在视频的所有帧中描绘在视频的第一帧中指定的感兴趣对象。利用为第一帧提供的基础事实,现有的半监督视频对象分割技术遵循基于深度学习的方法。2Y.-- T. 胡,J. -B. Huang和A.G.Schwing[5,25,4,26,47,48,53,59]并在给定的基础在线测试期间第一帧的真实性[5,25,23,4,26,53]。在测试期间分类器的这种在线然而,测试期间的微调对于第一帧中给出的每个感兴趣对象是必要的,花费大量时间,并且由于用于微调的反向传播的存储器需求,需要非常新的GPU形式的专用硬件相比之下,在本文中,我们提出了一种新的端到端的可训练方法,用于快速半监督视频对象分割,不需要任何微调。我们的方法是基于这样的直觉,即任何帧中的前景和背景的特征都应该与第一帧中的前景和背景的特征相匹配。为了确保所提出的方法能够应对外观和几何形状的变化,我们使用深度网络来学习应该匹配的特征,并随着推理的进行而适应特征集。我们的方法产生有竞争力的结果,同时节省计算时间和内存相比,目前国家的最先进的方法。在最近发布的DAVIS-16数据集[40]上,我们的算法实现了81。03%的IoU(交集大于并集),同时与最先进的技术相比,运行时间减少了一个数量级,平均只需要0. 每帧32秒。2相关工作视频对象分割在过去已经被广泛地研究[49,31,36,44,30,46,47,48,49]。29、39、55、15、50、22、5、25]。在下文中,我们首先讨论相关文献,(1)集中于半监督视频对象分割,以及(2)讨论非监督视频对象分割。随后,我们检查我们的工作和跟踪和匹配文献的关系半监督视频对象分割:半监督视频对象分割假设第一帧的地面实况在测试期间可用。这类方法中的许多方法在测试期间进行微调,以实现更好的性能[5,25,23,4,26,53,19,8,32]。已经表明,对第一帧显著提高了准确性。然而,微调步骤在计算上要求很高,每个视频增加超过700秒的测试时间[5]。诸如光流[25,32,26,8]、语义分割[4,26]和重新识别模块[32]的附加线索可以被集成到框架中以进一步提高准确性。由于仍然需要微调,因此这些线索增加了计算需求。在半监督视频对象分割方法中,由Yoon等人提出的方法。[59]这与我们的方法最相关Yoon等人[59]还涉及通过像素匹配的视频对象分割他们的方法将从模板和输入图像中提取的特征重要的是,该方法仍需要微调。此外,完全连接的层将该方法限制为以特定的、预定义的空间分辨率处理帧与我们的工作同时,已经提出了几种最近的方法(都是独立开发的),通过基于部分的VideoMatch:基于匹配的视频对象分割31跟踪[9]、逐像素度量学习[7]或网络调制[56,38]。我们建议读者参阅这些著作以了解更完整的情况。无监督视频对象分割:在无监督视频对象分割设置中,地面实况和用户注释都不可用。因此,无监督设置需要算法来自动发现视频中的显著对象。不同的方法,如运动分析[39],轨迹聚类[37],已经提出了基于显著性的时空传播[12,20]来识别前景对象。最近,已经讨论了基于深度网络的方法[47,48,22]。对象跟踪:半监督视频对象分割和对象跟踪[58,28]与我们的方法相关,因为它们都通过整个视频跟踪对象。但是,这两个任务的输出格式不同视频对象分割的输出是一个像素级的分割模板,而对象跟踪的输出是一个像素级的分割模板。是一个边界框,用于描绘对象的位置和比例从跟踪文献中,Bertinetto等人的工作。[3]是在精神上类似于我们提出的方法,因为他们制定跟踪匹配。然而,由于输出的差异,Bertinetto等。[3]通过将整个补丁与给定模板进行卷积来计算相关性,而我们提出了一种用于像素分割的软匹配。匹配:图像匹配[33,18]在过去的几十年中得到了广泛的研究。随着深度学习的成功,研究重点从使用手工特征进行匹配[35]转移提取的fea-真实映射通常被计算以找到对应关系[45],以估计光流场[10]和几何变换[46]。由于匹配的目的是找到点对点对应,如果匹配算法直接应用于分割,则结果将是有噪声的为了处理噪声预测,我们提出了一种软匹配机制,该机制估计不同片段之间的相似性得分,如下所述。3基于匹配的视频对象分割在下文中,我们描述所提出的用于视频对象分割的算法的细节。我们首先正式定义问题设置,并在3.1节中提供我们方法的概述然后,我们在第3.2节中详细介绍了新提出的软匹配机制。随后,我们在第3.3节中展示了我们的模型如何在在线测试期间适应对象随时间的外观变化,而无需进行微调。最后,我们将在第3.4节中演示如何轻松地将我们的方法扩展到实例级3.1概述给定T个视频帧{I1,. . .,I T}和地面实况分割y*∈ {1,…N}W×H,半监督视频对象分割的任务是预测后续视频帧I2,. . . ,IT,表示为y2,. . . ,y T∈ {1,…N}W×H。由此,N是给定视频中的感兴趣对象的数量我们将框架的宽度和高度表示为W和H。我们首先讨论单实例情况(N=1),并在3.4节中解释如何将所提出的方法扩展到N>1重要的是,我们强调半监督4Y.-- T. 胡,J. -B. Huang和A.G.Schwing1不1图1:所提出的视频对象分割算法的概述。我们使用所提供的第一帧的地面实况掩模来获得前景和背景特征的集合(mF和mB)。在从当前帧提取特征张量Xt之后,我们使用所提出的软匹配层来产生FG和BG相似性。然后,我们将两个相似性得分连接起来,并通过softmax生成最终预测视频对象分割需要对象独立的公式,因为我们事先不知道要分割的对象的语义类。由于物体的类别和外观在测试时间之前是未知的,因此检测物体的网络通常是离线训练的。在测试期间,一种自然的方式是使用第一帧的给定的地面实况,即y*,作为训练数据来微调预训练的对象性网络[5,25,23,4,26,53]。微调鼓励网络记住感兴趣对象的外观在以前关于实例级seg-记忆是通过对预先训练的网络进行N次微调来实现的,即,以获得用于每个对象的一个微调网络。如前所述,尽管该微调步骤是提高性能的关键,但它引入了大量的处理时间开销,并且在测试期间消耗更多的内存,即使在视频中只有一个感兴趣的对象时也是如此。我们高效的视频对象分割的想法是开发一个足够通用的网络,这样就可以省略微调步骤为此,我们提出将从测试帧I1获得的特征与第一帧I1(模板)中的地面实况前景和背景的特征相匹配我们设计了一个端到端的可训练深度神经网络,不仅可以从视频帧中提取特征,还可以匹配两组特征。为了实现这一目标,如图1所示,我们使用了一个Siamese架构,该架构采用卷积神经网络来计算两个特征图。我们使用x1∈Rh×w×c和xt∈Rh×w×c表示从第一帧(模板)I1和测试帧It。特征张量x1和xt的大小为h×w×c,其中c是特征通道的数量,w、h是特征图的宽度和高度,与W×H大小的视频帧成比例。W和w之间的比率取决于卷积神经网络的下采样率。接下来,我们为前景和背景定义一组特征。我们分别通过mF和mB来指代这些集合。为了正式定义那些特征集合,令xi表示表示下采样图像中的像素位置i处的特征的c给定第一帧的groundtruth模板,我们收集VideoMatch:基于匹配的视频对象分割511不不不图2:所提出的软匹配层的图示。我们首先取两组特征,并计算所有特征对之间的成对相似性然后,我们通过计算前K个相似性得分的平均值来产生最终的匹配得分。通过以下步骤来确定该第一帧的前景特征mF和背景特征mBmF={xi:i∈g(y*)}和mB={xi:i∈/g(y*)}。1 1 1 1因此g(y*)是属于前景的像素集合,如由下采样到大小w×h的地面真实掩模y*所指示的。在已经从模板提取前景(mF)和背景(mB)特征之后,并且在已经使用相同的深度网从帧I t计算特征Xt∈Rh×w×c之后,我们匹配xi∈ {1,…wh}到经由软匹配层在两个集合mF和mB每个像素i的软匹配层的结果是其前匹配层。地面和背景匹配分数。随后,前景和背景匹配分数被上采样并经由softmax操作被归一化为预测前景概率yt我们在图1中可视化该过程,并随后更详细地描述所提出的软匹配层。3.2软匹配层在图2中给出了示出所提出的软匹配层的细节的示意图。所开发的软匹配层SML(xt,m)采用两组特征作为输入,即xt和m(m是指mF或mB),并计算匹配得分矩阵S t∈Rh×w,该匹配得分矩阵针对每个像素i∈ {1,.,hw}。条目Si表示像素位置i处的特征相对于m中的特征子集的相似性。更正式地说,我们开发的软匹配层首先计算成对相似性得分矩阵A∈[−1,1](hw)×|M|其中A的第i个第j个条目通过下式计算:A ij=f(xi,m j)。6Y.-- T. 胡,J. -B. Huang和A.G.Schwing不(a) FG预测值yt,init(b)FG预测yt−1(c)挤压预成型yt−1(d)输出预测yt图3:所提出的离群值去除过程的示例。我们首先从前一帧(b)中挤出预测,以获得挤出预测(c)。然后,我们通过找到(a)和(c)之间的交集来产生当前帧处的预测。由此,f是测量两个特征向量之间的相似性的评分函数i j ijxj·mjx和m。我们使用余弦相似度,即f(x,m)=t,但任何其他距离tt xjmj一旦被充分归一化,度量同样适用。给定相似性得分矩阵A,我们计算大小为h × w的匹配得分矩阵St,分别计算其第i个条目(i ∈ {1,…hw})通过Si=1A,tK ∑i jj∈Top( Ai, K)其中集合Top(Ai,K)包含在相似性得分矩阵A的第i行中具有前K个相似性得分的索引。在我们所有的实验中,K直观地,我们使用前K个匹配的平均相似度,因为我们假设像素与区域中的多个像素匹配,而不是仅一个像素,这将太嘈杂,或者与所有像素匹配,这通常太严格,因为前景或背景可能相当多样化。因此,我们期望特定像素与前景或背景区域中的一个匹配,而不是仅要求像素局部匹配或与所有区域匹配。再次,示出了软匹配层,SML(Xt,m)在图2中呈现。3.3离群值删除和在线更新离群值移除。为了获得帧t∈ {2,…T}我们经由上采样和经由后续加权softmax操作将前景和背景匹配得分矩阵转换成初始前景概率预测yt,init最后,我们通过将初始预测yt,init与yt−1进行比较以去除异常值来获得预测yt。更具体地说,我们首先挤出前一帧的预测yt-1,以找到与分割的距离小于阈值dc的像素。然后我们从y t,init中计算y t,方法是移除所有不与下一个预测y t − 1重叠的初始前景预测。请注意,帽子符号这个过程假设感兴趣的对象的变化是从上面定界的在图3中,我们可视化了当前前景预测yt,init、先前前景预测yt-1、拉伸预测yt-1和最终前景预测yt的一个示例。VideoMatch:基于匹配的视频对象分割7不在线更新。显然,我们期望感兴趣对象的外观在给定视频中随时间为了适应外观的变化,我们在测试过程中反复调整前景和背景模型。受[53]的启发,我们更新前景和背景特征集,即,mF和mB,通过在我们预测每个帧的分割之后附加特征我们找到广告-通过比较初始预测掩码y t,init(对于t∈ {2,…T}与前一帧的挤出预测yt−1具体地,我们通过以下公式在时间tmB←mB∪ {xi:i∈bt},其中索引集bt={i:i∈g(yt,init),i∈/g(y(t−1)}={i:i∈g(yt,init)\g(yt)}包含最初被预测为前景的像素组,即,在yt,init中,但注意,这相当于最初被预测为前景的像素集,即,,init,但不是最终预测的一部分。以图3为例,bt包含在图3(a)中为前景但在图3(b)中不为前景的像素的索引。直观地说,如果一个像素在时间t被预测为前景,但在时间t-1看起来不是前景或接近前景掩模,我们会发现当前预测中可能的离群值。除了调整背景模型之外,我们还更新前景模型经由mF←mF∪{xi:i∈g(yt),yi>c,i∈/bt},t t其中,g(y_t)是侵蚀电流分段预测y_t中的e个接地像素的集合,并且c是恒定阈值。直观地说,我们添加了像素的特征,这些像素不仅被预测为具有高置信度(大于c1)的前景,而且远离边界。此外,我们排除这些像素在bt,以避免前景和背景特征之间的冲突。由于我们的方法只是将额外的表示附加到前景和背景特征mF和mB,所采用的网络的参数保持固定,并且在线更新步骤是快速的。与[53]相比,每次在线更新都需要在测试图像上微调网络,我们的方法更有效。请注意,我们设计了一个仔细的过程来选择添加的特征,以避免mF和mB的大小难以控制地变大的情况,这将在计算匹配分数时减慢计算。很明显,我们可以跟踪Top-K集合中的特征出现频率在实践中,我们3.4实例级视频对象分割接下来,我们将解释如何将所提出的方法推广到实例级视频对象分割,其中在视频的第一帧中呈现一个或多个我们考虑的情况下,地面实况分割掩模8Y.-- T. 胡,J. -B. Huang和A.G.Schwing11t,kt,k包含单个或多个对象,即,y*∈ {1,…,N}H×W,其中N≥1。我们为每个对象构造前景和背景特征,即,我们找到对象k∈ {1,…,N},其中mF,k={xi:i∈g(δ(y*=k))} 和mB,k={xi:i∈/g(δ(y*=k))}。1 1 1 1其中,δ(·):{1,…,N}H×W→{0,1}H×W是指示函数,它提供一个二进制输出,指示y*中属于第k个然后,我们计算yt,k,帧t的前景概率图w.r. t。通过使用上述软匹配层考虑xt,mF,k和mB,k,第k在计算了k个概率图之后,我们将它们融合以获得最终的输出预测。预测yt通过找到具有最大值的对象的索引来计算。概率yi在所有k ∈ {1,…N}的所有像素i. 如果对于所有k,yi小于一阈值C2,像素i将被分类为背景。4实验结果在下文中,我们首先提供实现细节,然后使用各种度量在各种数据集上评估所提出的4.1实施细节、培训和评估为了获得特征x,我们发现ResNet-101 [17]作为具有扩张卷积[6]的主干,表现良好。更具体地说,我们使用网络中顶部卷积层的表示为xt。特征图具有比输入图像小8倍的在实验中,我们设置K=20,dc=100,cl= 0。95,c2= 0。4. 我们使用预训练的模型初始化参数Pascal VOC [11,16]用于语义图像分割。我们使用Adam优化器对整个网络进行了端到端的训练[27]。我们将初始学习率设置为10- 5,并随着时间的推移逐渐降低。权重衰减因子为0。0005.为了训练我们的匹配网络,我们使用任意两个随机选择的帧,视频序列作为训练对。重要的是,这两个帧不需要在时间上连续,这提供了丰富的训练数据。我们通过随机翻转,裁剪和缩放0.5到1.5之间的因子来增强训练数据。我们使用Tensorflow来实现该算法。在Nvidia Titan X上进行1000次迭代的培训大约需要4个小时在测试时,使用大小为480× 854大约需要0.17秒。训练:我们使用30个可用的视频序列训练了所提出的网络在DAVIS-16训练集[40]中进行1000次迭代,并在DAVIS-16验证集类似地,当在DAVIS-17验证集上进行测试时,我们使用DAVIS-17训练集[42]中的60个序列进行训练虽然该模型是在DAVIS上训练的,但我们发现它可以很好地推广到其他数据集。因此,我们使用在DAVIS-17训练集上训练的模型来评估JumpCut [13]和YouTube-Objects [43]数据集。VideoMatch:基于匹配的视频对象分割9评 估 : 我 们 在 DAVIS-16 [40] 验 证 、 DAVIS-17 [42] 验 证 、 JumpCut [13] 和YouTube-Objects [43]数据集上验证了我们方法的有效性。对于YouTube-Objects数据集,我们使用由[21]提供的具有地面实况分割掩码的子集,包含126个视频序列。所有数据集都提供像素级的地面实况分割。更具体地,在DAVIS-16、JumpCut和YouTube-Objects数据集中提供了二进制(前景-背景)地面实况,而存在可用于DAVIS- 17数据集的实例级分割地面实况在这四个数据集中,存在诸如遮挡、快速运动和外观变化等挑战因此,这四个数据集作为一个很好的测试床,以评估不同的视频对象分割技术。4.2评估指标Jaccard指数(mIoU):Jaccard指数是评价分割质量的常用指标。它被计算为预测掩码和地面实况掩码的交集与并集(IoU)。我们计算序列中所有帧的IoU的平均值,因此也将该度量称为mIoU。轮廓精度(F)[40]:为了测量预测掩模的质量,我们评估 - 通过计算预测分割的轮廓点与地面实况分割的轮廓点之间的二分匹配来确定轮廓精度。基于匹配结果,我们通过F-1分数计算轮廓精度。错误率[13]:按照[13]中的评估协议,我们计算JumpCut数据集的错误率 我们选择关键帧i ={0,16,…在每个序列中并且对于第i个关键帧,在给定第i个帧的真实分割掩码的情况下,我们计算第i + d个帧的预测分割中的误差。直觉上,我们测量方法相对于某一传递距离d的传递(或匹配)误差。误差等于假阳性和假阴性像素(错误标记的像素)的数量除以第i+d帧的预测分割中的我们在实验中使用d=16并计算误差的平均值以获得误差率。4.3定量结果我们仔细评估了所提出的方法,并将所提出的方法与各种视频对象分割方法进行了比较,[25],[26],[27],[28],[29[2019 - 04 - 13][2019 - 04 - 05][2019 - 04 - 05][2019 - 05][LTV [37]、HBT [14]、AFS [51]、SCF [21]、RB [2]和DA [60]。请注意,MSK、OS-VOS、SFL、OnAVOS、PLM、MaskRNN、Lucid在测试期间采用微调我们在四个数据集上呈现了定量结果:DAVIS-16 [40],YouTube- Objects[43],JumpCut [13]和DAVIS-17 [42]。 我们的方法优于国家的最先进的方法0。在mIoU中增加了4%,在Youtube-Objects和JumpCut数据集上的错误率分别增加了0.71在DAVIS-16和DAVIS-17数据集上,我们的方法在与现有技术相当,而不使用微调。定量结果总结见表1、2、3、4和图4。最好的方法用粗体突出显示详情如下所述。10Y.-- T. 胡,J. -B. Huang和A.G.SchwingBVSHVSSEAJMPOFLOSVOSOnAVOSVPNSFLMSKPLM清醒的我们-NU我们BVSHVSSEAJMPOFLOSVOSOnAVOSVPNSFLMSKPLM清醒的我们-NU我们表1:在DAVIS-16验证集上与无微调(VPN和CTN)或禁用微调步骤(用−表示)的深网方法的比较。OURS-NU:我们的方法没有在线更新和离群值去除。我们OURS-NUOSVOS−MSK−OnAVOS−SFL−VPNCTNMiou0.8100.7920.5250.6990.7360.6740.7020.735速度(s)0.320.170.120.153.550.30.6329.95110.90.80.70.60.90.80.70.60.50.510- 1100101102103每帧时间(s)(a) mIoUvs. 速度0.410- 1100101102103每帧时间(s)(b) F与速度图4:DAVIS-16验证集的性能比较。X轴表示以秒为单位的每帧平均运行时间(对数标度),并且y轴是(a)mIoU(Jaccard指数)和(b)F分数(轮廓准确度)。对DAVIS-16数据集的评价:在表1中,我们将我们的方法与不需要微调的深度净基线进行了比较,例如VPN [23]和CTN [24]。我们也比较OSVOS [5],MSK[25],OnAVOS [53]和SFL [8],禁用其微调步骤。我们使用上标'-'来表示具有禁用fine的调谐步骤在表1中,我们报告了平均IoU和每帧的平均运行时间对于在DAVIS-16数据集上测试的每种方法。我们的方法实现了最佳的mIoU,在高效运行的同时,性能比基线高出6%以上。我们的方法没有离群值去除(表1中表示为OURS-NU),运行速度快2倍,同时实现了有竞争力的性能。在图4中,我们将不需要微调的方法与可能需要或可能不需要微调的基线进行比较。我们在图4(a)中报告了mIoU与每帧平均计算时间的关系,在图4(b)中报告了轮廓精度与每帧运行时间的关系注意,每帧的平均运行时间还包括那些需要微调的方法的微调步骤由于在我们的方法中采用的网络注意,时间轴缩放是对数的。Miou轮廓精度(F)VideoMatch:基于匹配的视频对象分割11表2:使用Jaccard指数(mIoU)对Youtube-Object数据集[43,21]进行评估序列我们OnAVOS MSK OSVOSOFLJFSBVSSCFAFSFSTHBTLTV微调?-是的是的是的--------飞机0.8800.9020.8160.8820.8990.890.868 0.863 0.799 0.709 0.736 0.137鸟0.8730.8790.8290.8570.842 0.816 0.8090.810.784 0.706 0.561 0.122船0.8050.8160.7470.7750.740.742 0.651 0.686 0.601 0.425 0.578 0.108车0.7790.7380.6700.7960.809 0.709 0.687 0.694 0.644 0.652 0.339 0.237猫0.7880.7590.6960.7080.683 0.677 0.559 0.589 0.504 0.521 0.305 0.186牛0.7710.7870.7500.7780.798 0.791 0.699 0.686 0.657 0.445 0.418 0.163狗0.8030.8090.7520.8130.766 0.703 0.685 0.618 0.542 0.653 0.3680.18马0.6880.7420.6490.7280.726 0.678 0.5890.540.508 0.535 0.443 0.115摩托车0.7740.6630.4980.7350.737 0.615 0.605 0.609 0.583 0.442 0.489 0.106火车0.8110.8380.7770.7570.763 0.782 0.652 0.663 0.624 0.296 0.392 0.196平均0.7970.7930.7180.7830.7760.740.680.676 0.625 0.538 0.463 0.155表3:JumpCut数据集上的错误率[13]。传输距离d为16。猪9.229.8510.3 3.433.245.155.12Avg.24.03 二十四点三九二十三点四三9.625.297.078.87Avg.人类几12.2317.59.711610.0323.44.745.135.008.4910.309.146.74快速11.77bball猎豹18.48.47 八点八九31.516.6 七点六八3.98.164.167.18.0411.86.197.61公园11.86.546.91 5.395.3310.211.42舞蹈56.150.84318.726.514.717.31站8.8520.921.3 9.018.424.689.98hiphop67.551.133.714.221.913.610.49Avg.静态车12.72 14.48 17.201.765.93 五点零八分6.512.267.412.578.012.1811.061.86孔府滑冰选手40.238.740.840.817.929.6822.83.7721.46.2512.64.0513.57杯5.4512.99.31 2.152.46.045.38Supertramp12960.557.442.927.120.722.12锅2.435.032.98 2.951.792.665.55欺骗79.470.935.821.321.215.78.32玩具1.283.192.161.31.492.252.81Avg.57.60 42.50 29.25 17.50 16.64 12.9211.21Avg.2.736.764.88 2.172.063.283.90平均28.68 23.75 18.899.829.079.238.73在YouTube-Objects数据集上的评估:我们在表2中展示了YouTube-Objects数据集[43,21]的评估结果。我们的方法优于基线,尽管我们的网络没有微调,但其他基线,如OnAVOS和MSK和OSVOS。因此,我们的方法在计算时间和准确性方面都更有利。JumpCut数据集上的评价:我们在Jump上展示了评估结果-表3中的切割数据集[13]我们遵循[13]中的评估并计算不同方法的错误率转移距离d等于16。在该实验中,我们同样,我们的方法优于该数据集上的基线,平均错误率比最佳竞争基线SVC低0.34 [54]。对DAVIS-17数据集的评价:我们展示了使用DAVIS-17验证集进行实例级视频对象分割的实验。结果示于表4中。我们的方法表现相当不错的方法相比,没有微调,即,OSVOS−、OnAVOS−、MaskRNN−和OFL。我们进一步微调我们的方法(表示为OURS-FT),和性能之间的基础-RBDA海 JMP SVCPLM 我们RBDA海JMPSVCPLM我们微调?-----是的------是的-动物熊4.584.484.2142.113.455.14SNAPCUT动画11.96.386.784.553.355.866.15长颈鹿2211.217.47.49.6717.411.96鱼51.821.725.717.57.677.4212.21山羊13.113.38.22 4.144.9715.24.73马8.3945.137.86.84.847.948.2512Y.-- T. 胡,J. -B. Huang和A.G.Schwing表4:DAVIS-17验证集的评价我们 OFL OSVOS− OnAVOS− MaskRNN− OSVOS OnAVOS MaskRNN OnAVOS+ OURS-FT微调?- 是mIoU 0. 565 0. 5490.366 0.395 0.455 0.521 0.610速度(s)0.351300.13 3.78 0.6 5 13 9 30 2.620.8 0.850.80.750.750.70.70.650.650.60.6电话:021 - 88888888传真:021 - 88888888K(a) 钾素在钾肥中的作用0.5510- 1100101102每帧时间(s)(b) 微调效果图5:灵敏度分析和微调。(a)当计算软匹配层中的前K个相似性分数时K的影响。(b)与其他基线相比,我们的方法微调的效果。两个结果均使用DAVIS-16验证数据集显示。行,而计算时间要快得多注意,表4中的OnAVOS+ [52]是在顶部具有上采样层和模型集合的OnAVOS。4.4消融研究我们研究所提出的方法的重要组成部分随后,我们讨论了离群点去除和在线更新的效果,K的效果,前景和背景匹配的效果,微调的效果和所提出的方法的内存消耗K的影响:我们研究了K在所提出的软匹配层中的影响,在软匹配层中,我们计算前K个匹配的平均相似性得分我们在图5(a)中展示了具有不同K设置的DAVIS-16上的我们将K值在1到100之间变化。 当K等于1(“硬匹配”)时的性能为0。753.当当K大于120.当K大于20时,性能继续下降,并且计算所有匹配之间的平均相似性得分的性能为0。636. 直观地,如果点的特征类似于该区域中的合理数量的像素,则该点是与该区域的良好匹配,这激发了所提出的软匹配层。离群值删除和在线更新:在表5中,我们研究了离群值去除、在线背景特征更新和前景特征更新的效果。我们发现,我们的方法既没有离群值删除,也没有在线更新执行竞争力,achieve-ing 0。戴维斯16号792 去除离群值使性能提高0。013.OSVOSOnAVOSOnAVOSOURSMiouMiouVideoMatch:基于匹配的视频对象分割13表5:我们方法中三个模块的消融研究:(1)离群值去除,(2)在线背景更新,和(3)在线前景更新,在DAVIS-16验证集上进行评估。异常值去除BG更新FG更新Miou---0.792C--0.805CC-0.809CCC0.810如果我们加入在线后台功能更新,性能将提高0的情况。004,并且使前景特征也被更新进一步提高了性能,实现了0. 在DAVIS-16数据集上的mIoU为810。匹配前景和背景:如图1所示,我们将输入图像与模板中的前景区域和背景区域进行匹配因此我们有两个软匹配层用于计算前景相似性和背景相似性。我们发现同时拥有前景和背景模型对于良好的性能是很重要的。具体地说,只匹配前景的性能,即,仅具有一个软匹配层来计算前景相似性-,只有0。527在DAVIS-16上的mIoU中,同时计算前景和背景相似度,达到0。792.在线微调:我们想指出的是,我们的方法中的网络可以当观察第一帧的地面实况掩模时,在测试期间进行函数调谐我们在图5(b)中示出了DAVIS-16上的微调时间和性能之间的权衡具体地,我们示出了考虑微调步骤的每帧平均运行时间,并与0 SV 0 S、0 SV 0 S-BS(没有后处理步骤的0 SV 0 S)、0 nAV 0 S和0 nAV 0 S-NA(没有测试时间增加的0nAV 0 S)进行比较我们报告了无CRF的OnAVOS和OnAV 0 S-NA的结果作为后处理。注意,时间轴缩放再次是对数的。每条曲线的左下点表示没有微调的性能显然,如果禁止微调,我们的方法的性能优于其他基线在微调之后,我们的方法可以进一步改进,并且仍然有效地运行,每帧需要2.5秒,而其他基线需要超过10秒才能达到其峰值性能。请注意,我们4.5定性结果在图6中,我们示出了我们的方法在DAVIS-16(第1行)、Youtube- Objects(第2行)、JumpCut(第3行)和DAVIS-17数据集(第4行)上的视觉结果。我们观察到我们的方法可以准确地分割前景对象的挑战,如快速运动,杂乱的背景和外观变化。我们还观察到所提出的方法在DAVIS-17数据集上产生准确的实例级分割。我们在图7中显示了我们的方法的失败案例。我们的方法失败的可能原因包括微小的对象和不同实例的相似外观。14Y.-- T. 胡,J. -B. Huang和A.G.Schwing图6:我们的方法的视觉结果。测试视频来自DAVIS-16(第1行)、Youtube-Objects(第2行)、JumpCut(第3行)和DAVIS-17数据集(第4行)。图7:我们的方法的失败案例。对于每种情况下,我们显示的结果,我们的ap-proach在开始和结束的视频序列。5结论提出了一种基于软匹配层的视频对象分割算法该方法推广良好,不需要在线微调,同时保持良好的精度。我们的方法在Youtube-Objects和JumpCut数据集上达到了最先进的水平,并且在DAVIS-16和DAVIS-17上具有竞争力,而其计算时间比当前最先进的方法至少快一个数量级。致 谢 : 本 材 料 基 于 部 分 由 美 国 国 家 科 学 基 金 会 资 助的 工 作 。 1718221 、1755785、Samsung和3M。我们感谢NVIDIA提供用于本研究的GPU。VideoMatch:基于匹配的视频对象分割15引用1. Avinash Ramakanth,S.,Venkatesh Babu,R.:SeamSeg:使用补丁接缝的视频对象分割。见:Proc. CVPR(2014)2. Bai,X.,王杰,Simons,D.,Sapiro,G.:视频截图:使用局部化分类器的鲁棒视频对象剪切。02 The Dog(2009)3. 贝尔蒂内托湖Valmadre,J.,Henriques,J.F.,Vedaldi,A.,Torr,P.H.:用于对象跟踪的全卷积连体网络。In:Proc. CVPR(2017)4. Caelles,S.,陈玉,Pont-Tuset,J.,Van Gool,L.:语义引导的视频对象分割。arXiv预印本arXiv:1704.01926(2017)5. Caell e s,S.,Maninis ,K.K., Pont-T uset,J.,Leal-Taix e' ,L.,Cremers ,D.VanGool,L.:单镜头视频对象分割。In:Proc. CVPR(2017)6. Chen,L.C.,帕潘德里欧,G.,科基诺斯岛墨菲KYuille,A.L.:Deeplab:使用深度卷积网络、atrous卷积和全连接crf进行语义图像分割PAMI(2018)7. 陈玉,Pont-Tuset,J.,Montes,A.Van Gool,L.:快速视频对象分割与像素级度量学习。在:Proc. CVPR(2018)8. 郑杰,蔡永宏,王,S.,Yang,M.H.:SegFlow:视频对象分割和光流的联合学习。见:Proc. ICCV(2017)9. 郑杰,蔡永宏,Hung,W.C.,王,S.,Yang,M.H.:通过跟踪部件快速准确的在线视频对象分割。在:Proc. CVPR(2018)10. Dosovitskiy,A.,Fischer,P.,Ilg,E.,Hausser,P.,Hazirbas角戈尔科夫van derSmagt,P.,Cremers,D.Brox,T.:Flownet:使用卷积网络学习光流在:Proc. ICCV(2015)中11. Everingham,M. Eslami,S.A.凡古尔湖威廉姆斯,C.K.,Winn,J.,齐瑟曼,A.:pascal vi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功