端对象分割的网络架构及性能评估

144 浏览量更新于2023-10-18 收藏 2.39MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

8953一种用于端到端视频对象分割的Joakim Johnander1，3Martin Danelljan1，2Emil Dallesman1，4Fahad Shahbaz Khan1，5 Michael Felsberg11CVL，Linko？ pingUni versity，Sweden2CVL，ETHZu？rich，Switzerland3Zenuity，Sweden4Saab，Sweden5IIAI，UAE摘要视频对象分割中的一个基本挑战是找到目标和背景外观的有效表示。性能最好的方法是为此目的对卷积神经网络进行广泛的除了昂贵得令人望而却步之外，这种策略还不能真正进行端到端的训练，因为在线微调过程没有集成到网络的离线训练中。为了解决这些问题，我们提出了一个网络架构，学习一个强大的表示目标和背景的外观在一个单一的向前通过。introduced外观模块学习目标和背景特征分布的概率生成模型。给定一个新的图像，它预测后一类概率，提供一个高度区分的线索，这是在以后的网络模块处理。我们的外观模块的学习和预测阶段都是完全不同的，可以实现整个分割管道的真正端到端训练。综合实验证明了所提出的方法的有效性在三个视频对象分割基准。我们缩小了与基于DAVIS 17在线微调的方法的差距，同时在单个GPU上以15 FPS运行。此外，我们的方法在大规模YouTube-VOS数据集上的性能优于所有先前发表的方法1. 介绍视频对象分割（VOS）是对视频序列中的一个或多个目标对象进行跟踪和在这项工作中，我们考虑半监督设置，其中地面实况分割仅在第一帧中给出。任务是通用的，即，目标是任意的，并且不进行关于对象类的进一步假设。VOS问题从几个方面具有挑战性。目标可能经历显著的外观变化，并且可能受到快速运动或遮挡。此外，场景可能包含干扰物对象[31]第31话我的世界图1.比较我们提出的方法和重新-目前正在研究RGMP [31]。在RGMP中，输入特征与初始掩码和特征映射连接在一起。相比之下，我们明确地捕捉目标和背景的外观，包括干扰对象，生成建模。虽然RGMP严重的斗争，所提出的方法成功地识别和准确地分割所有注释的目标。与RGMP中一样，我们不会在第一帧中调用计算密集型微调这幅图最好用彩色观看。在视觉上或语义上与目标相似。为了解决上述挑战，标准策略是在给定初始图像掩模对的情况下，在第一帧中调用广泛的迭代优化[1，2，21，30]。然而，这种策略带来了巨大的计算成本，使得实时操作不可行。此外，这些方法不端到端地训练分割流水线，因为在线微调步骤被排除在离线学习阶段之外。针对这些问题，我们探讨了为VOS找到完全避免在线优化的前馈网络架构的问题最近的工作已经将视频对象分割作为前馈掩码细化过程[23，31，34]，其中先前的掩码预测适用于使用卷积神经网络来拟合当前帧中的目标。怎么-8954由于没有执行目标外观的明确建模，因此如果目标被遮挡或在视野之外，这个问题已经通过结合基于例如，来自第一帧的特征图的级联[31]，或者利用一组前景和背景特征向量[4，13]。然而，这些外观模型要么过于简单，实现了令人不满意的区分能力，要么由于不可微分组件的依赖而不能完全端到端地训练。在这项工作中，我们提出了一种新的神经网络架构的视频对象分割，集成了一个强大的外观模型的场景。与以前的方法相比，我们的网络内部学习前景和背景特征分布的生成概率模型为此，我们采用了高斯的类条件混合，这是通过一个单一的向前传递推断。我们的外观模型输出poster- rior类概率，从而提供了一个强大的线索containing有关图像内容的判别信息这完全消除了对在线微调的需要，因为目标特定的外观信息在单个前向传递中被捕获。我们在图中展示了我们的方法。1.一、所提出的生成外观模型作为一个模块无缝集成在我们的视频对象分割网络。我们的完整架构由骨干特征提取器、生成外观模块、掩码传播分支、融合组件以及最终上采样和预测模块组成。对于我们的生成外观模块，模型推断和预测阶段都是完全可区分的。这确保了整个分割流水线可以端到端地训练，而调用在线微调[1，2，12，21，23，30]或K-最近邻预测[4，13]的方法则不是这种情况。最后，我们的外观模块是轻量级的，可以实现高效的在线推理。我们在3个数据集上进行了广泛的实验，包括最近的大规模YouTubeVOS数据集[32]。我们最终得到66分。0%的YouTube-VOS，优于所有以前公布的方法。此外，我们的方法实现了67的最佳平均IoU。在所有因果视频对象分割方法中，Davis17上只有2%。我们在消融研究方面对我们的方法进行了全面分析。我们的分析清楚地强调了所提出的生成外观模块以及完整的端到端学习的重要性。2. 相关工作在这项工作中，我们解决的问题，视频对象分割的初始分割掩模提供，定义在第一帧中的目标近年来，人们对这一问题的兴趣激增，并提出了各种各样的方法Caelles等人[2]建议使用卷积神经网络预训练用于语义分割任务，并在第一帧中对其进行微调，以分割出前景和背景。这一方法在一些工程中得到了推广：在序列期间连续训练[30];添加实例级语义信息[21];通过光流合并运动信息[1，6，12];通过马尔可夫随机场执行时间传播[1];位置特定嵌入[8];诡辩数据增强[16];或这些的组合[20]。虽然这些方法在许多场景中获得了令人满意的结果，但它们有一个共同的关键缺点：它们通过对具有随机梯度下降的深度神经网络的扩展训练来学习初始帧中的目标外观。这导致在这些方法可以开始跟踪之前的显著时间延迟，以及使得实时处理不可行的平均计算时间。尽管精度降低，但几种方法避免了在第一帧中引入昂贵的微调过程。一些方法依赖于与细化耦合的光流[15，29]。Li等人提出了DyeNet [18]，其将光流与对象建议网络相结合，交错双向掩模传播和目标重新识别。DyeNet提供了出色的性能，但它不是因果关系，而是依赖于未来的视频帧来进行预测。Jampani等人[14]明确地试图避免opti- cal流，并提出了一种基于双边过滤器的方法。Cheng等人[5]使用视觉对象跟踪技术跟踪目标的不同部分，并使用卷积神经网络优化最终解决方案Xu等人。[32]相反，训练卷积LSTM [11]来跟踪和分割目标。与我们的工作更密切相关的是Perazzi et al.[23]将视频对象分割作为掩模细化问题。基于输入图像，用神经网络对从前一帧预测的掩模进行细化。该网络在时间上是循环的，具有特别深的循环连接，整个VGG 16[28]。在杨等人的工作。[34]中，将掩模简化为目标位置上的粗略空间先验，并且这与通道方向的注意机制一起提供了改进的性能。Wug等人。[31]扩展[23]并将初始帧特征图和掩码与当前特征图和先前掩码连接起来，并训练标准卷积神经网络以完全递归的方式进行匹配和分割。还提出了更明确的匹配机制，其中使用K-最近邻（KNN）将输入特征与具有已知类别成员关系的一组特征[4，13]进行匹配。虽然这些方法对目标外观进行建模，但KNN的非参数性质要求存储整个训练集。此外，找到K个最近邻的过程是不可预测的。与现有的工作相比，我们的方法在一个单一的differentiable forward pass中学习场景的紧凑外观模型。8955图2.所提出的方法的完整架构，说明模型初始化和帧处理。模型初始化：从初始帧中提取特征图，然后将其与掩模一起馈送到掩模传播模块。该对还用于初始化外观模型。帧处理：从当前帧中提取特征图，并将其馈送到外观和掩码传播模块，其输出被组合，生成粗掩码编码。然后，我们的上采样预测器然后基于该编码生成最终分割此外，掩码编码和外观模型参数通过递归连接反馈在训练过程中，我们使用两个交叉熵损失分别应用于粗分割和细分割。3. 方法这项工作的目的是开发一个网络架构的视频对象分割的能力，学习，ING准确的模型的目标和背景出现，通过一个单一的向前通过。也就是说，网络必须以一次性的方式学习来区分目标和背景像素，而不调用随机梯度下降。我们通过整合前景和背景出现的生成模型来该模型通过提供有区别的后验类概率直接辅助分割过程。学习和推理在计算上是高效的，并且是端到端可区分的，使得我们的生成组件能够无缝集成到神经网络中。3.2. 生成外观模块我们的外观模块的任务是在深特征空间中学习视频内容的生成模型。我们的生成模型以类变量为条件，指示目标或背景。给定一个新帧，应用模块返回每个图像位置的后验类概率。该输出形成用于前景/背景辨别的非常强的线索，因为所提出的模块以概率方式明确地对它们各自的模型学习：形式上，让从图像中提取的特征集表示为{xp}p。每个空间位置p处的特征xp是实数的D维向量。号码我们将这些观察到的特征向量建模为独立同分布。从底层分布中3.1. 概述我们的方法分为五个组成部分，ΣKp（xp）=k=1p（z p= k）p（xp|z p= k）。（一）解决视频对象分割任务，并联合进行端到端训练。该模型如图所示。二、给定输入图像，首先用骨干网络提取特征。然后将它们传递到外观传播模块和掩码传播模块。这两个模块的输出在融合模块中组合，融合模块包括两个卷积层并输出粗掩码编码。编码被交给生成粗略分割掩码的预测器。该预测用于更新外观模块，并进一步用作下一帧中的掩模传播层的输入，以提供粗略的由融合组件输出的掩码编码也通过上采样模块，其中粗编码与连续更浅的特征组合，以便产生最终的细化分割。每个类条件密度都是一个多变量高斯分布对于均值μk和协方差矩阵μk，p（xp|z p= k）= N（xp|µk，Σk）。（二）（1）中的离散随机变量zp将观测值xp分配给特定分量zp=k。对于这个变量，我们使用统一的先验p（zp=k）=1/K，其中K是分量的数目每个组件专门对前景或背景的特征向量进行如下面进一步详细描述的，我们使用四个高斯，其中分量k∈ {0，2}模型背景，k∈ {1，3}模型前景特征。在第一帧中，我们的生成混合模型在-从提取的特征和初始目标掩模中提取在随后的帧中，我们使用网络预测作为软类标签来更新模型。一般来说，要更新8956磷钾磷钾Kα磷钾ppKPp和1pKKKpKP P P帧i中的混合模型我们需要一组特征xi连同一组软分量分配变量我们的细分网络的最终预测，piαi=1−yp（Ii，θi−1，Φ）表αp，k∈[0，1]。这些变量可以被认为是软标签，用于描述向量p，0ip，1=y<$p（Ii，θi−1，Φ）。（五）xi到分量k。在第一帧i=0中，使用初始目标掩模，将特征向量严格分配给前景或背景α0∈ {0，1}。给定变量αi，我们计算模型参数更新为：这里，yp（Ii，θi−1，Φ）∈[0，1]是给定输入图像I i、神经网络参数Φ和当前混合模型参数估计值θi−1时，目标类别的概率。使用单个高斯分量的缺点是只有单峰分布才能准确地Σi= ΣpIxip，kpαi、（3a）代表。然而，背景外观通常是多模态的，特别是在存在与目标相似的背景对象的情况下，通常称为干扰。pαi 磷钾diag{（xi−µi）2+r}ptors. 为了获得满意的区别前-拉吉吉Kp p，kΣip磷钾K.（3b）地面和背景，因此至关重要的是捕捉这些干扰物的特征分布。因此，我们在我们的模型中添加高斯分量，为了提高效率，我们将协方差矩阵限制为对角矩阵，其中diag{v}是具有对应于输入向量v的条目的对角矩阵。为了避免奇异性，协方差用向量rk正则化，向量rk是一个训练向量。to the task任务of modeling建模hard硬examples例子.这些组件被明确地学习以抵消两个基本组件的错误。理想情况下，我们希望基本组件单独正确预测赋值变量，在我们的网络中的参数。在第一帧中，混合-即 p（zi=k|xi，µi，i）=αi，k = 0，1。附加pp k k p，k（2）中的真实模型参数直接从（3）获得即 µ0=µ0和0=0。在随后的帧中，这些在考虑不正确分类的背景（k=2）而不成立的情况下，在数据上训练组件，使用新信息（3）更新参数，学习率λ，前景（k = 3）。它们的对应-分配变量被计算为，i i−1iαi= max（0，αi-p（zi=0|xi，µi，i））µk=（1−λ）µk +λµk，p，2p，0pp0 0i i−1αi= max（0，αi-p（zi=1|xi，µi，i））。（六）k=（1 − λ）（四）p，3p，1pp11后验概率p（zi=k|xi，µi，i）的值，pp k k赋值变量：接下来，我们描述计算-分配变量αi的作用。注意：（3）重新-在期望最大化（EM）算法中为混合高斯函数合成M步。在EM中，变量zi被视为潜在变量，并且（3）由最大值导出只有基础组件。给定（6），我们最终使用（3）和（4）更新分量k = 2，3的参数。模块输出：给定在前一帧中计算的混合模型参数θi−1，我们的模型可以预测分量后验，最大化期望的完全数据对数似然。在这p（zi=k）p（xi|zi=k）如果在E步骤中计算赋值变量，p（zi=k|xi，θi−1）=θppp.（七）αi=p（zi=k|xi，θi−1），其中θi−1={µi−1，i−1}ppp（zi = k）p（xi |zi =k）p，kp pk kkkp p p是参数的先前估计。但在我们的情况下设置是不同的在第一帧中完全观察到离散分配变量zi此外，在随后的帧中，网络细化后验子p（zi=k|xi，θi−1），提供了一个更好的分配估计，注意，每个分量k属于前景或背景，并且输出（7）因此提供区分性掩码编码。在实践中，我们发现将对数概率l〇 g（p（zi=k）p（xi|zi=k））p p进入融合模块中的卷积层。通过抵消伙计们因此，我们在估计的赋值变量αi。常数因子，输出计算为，我们的模型由一个基本组件的背景k=0和前景k=1，分别。给定第一帧中的真实二进制目标掩码yp，其中对于前景y p= 1，否则y p= 0，我们设置：αα=K8957pkLn|Σi−1|+ （ xi−µi−1 ） T （ i−1 ） −1（xi−µi−1）i = −kpkkpK. PK2（八）分量后验（7）可以由下式重建：0p，0=1−yp和α0=y p. 也就是说，特征向量xii通过简单的软最大运算。输出（8）应被严格分配到前景和背景基地根据最初的面具。在随后的帧中，当地面实况不可用时，我们使用因此可以解释为成分分数，编码前台和后台分配。整个外观建模过程总结在算法1中。SαS8958ppp k k5对于k=0，1：从（5）磷钾6对于k=0，1：基于（3）计算µi，µiK K7，对于k=0，1：基于（8）计算sipk8，k=0，1：计算p（zi=k|xi，µi，i）=Softmax（si，si）pp0 0均p0p19对于k=2，3：根据（6）磷钾10对于k=2，3：基于（3）计算µi，µi11对于k=0，1，2，3：从（4）更新μi和μiK K12返回µi和iKKKKpkpk3.3. 对象分割体系结构作为我们的主干特征提取器，我们使用ResNet101算法一：外观模块的推理和更新。推断：基于外观模型参数µi、i和输入特征图xi，[10]用扩张卷积[3]来减少k kp的步幅最深层从32到16。它在ImageNet上进行了预训练，直到最后一个块layer4的所有层都被冻结。掩模传播模块基于[31]中提出的概念该模块基于在前一帧中预测的掩码分割构造的背景，前，地面，和两个剩余的组成部分。更新：外观模型参数基于粗分割y_i更新。1推论（xi，µi，i）：pk k在当前帧中预测的特征图，以及提取对于k=0，1，2，3：计算si从（8）从初始帧连同给定的地面实况面具整个模块由三个卷积层组成，其中中间层是一个膨胀金字塔[3]。掩模传播和外观模块的输出被级联并馈送到融合模块中，融合模块包括两个卷积层。该结果由上采样模块处理，从该上采样模块中预测的软分段得到了分段y_p。融合模块的输出还被馈送到预测器中，该预测器产生粗略分割y_p，该粗略分割y_p在下一个时间步中被掩模传播和外观模块（使用（5））利用通过将特征提取器和上采样路径从递归模块中分离出来，我们得到了不同时间步长的变量之间的较短路径我们经历了粗掩模是一个足够的代表性，以前的目标分割。作为一个特殊的情况是，在具有多个对象的序列期间，我们对每个对象运行一次我们的方法，并将得到的软分割与softmax-聚合结合[31]。然后，聚合的软分割替换循环连接中的粗分割y_p。融合模块的输出提供粗掩模-用于定位和分割目标的编码在语义分割和实例分割文献中已经有相当大的努力来细化最终分割。我们采用类似于[25]的上采样路径，其中粗略表示连续与连续较浅的特征组合。3.4. 网络训练我们以一种循环的方式训练所提出的神经网络端到端基于视频和单个地面实况分割，网络预测视频中每帧的分割掩码我们在三个数据集上进行训练：DAVIS2017 [26]：DAVIS2017训练集包括60个视频，其中包含一个或多个要跟踪的注释对象。每个视频的长度在25到100帧之间，每个视频都用地面实况分割进行标记。YouTube-VOS [32]：YouTube-VOS训练集由3471个视频组成，其中包含一个或多个目标对象。每个视频是20到180帧长，其中每五帧是标记。我们在训练过程中只使用标记帧。SynthVOS：为了覆盖广泛的类别，我们遵循[23，31]并利用来自显着对象分割数据集MSRA10k [7]的对象。它包含104图像3returnsi4Update（xi，yi，µi，i）：其中分割单个对象我们将1到5个这样的对象粘贴到VOC2012的图像上[9]。通过在图像上移动对象来获得合成视频。一个训练样本由n帧的视频片段和第一帧的给定地面实况组成。图像使用ImageNet [27]平均值和标准差进行归一化我们让我们的模型预测每帧中的分割掩码，并应用交叉熵损失。我们还将一个辅助损失放在粗分段y上。的损失在亚当的帮助下，可以分为两个阶段：初始培训：首先，我们使用所有三个数据集在半分辨率图像（240×432）上训练80个epoch。批量大小设置为4个视频片段，每个片段使用8帧.我们使用10 −4的学习率，指数学习率衰减为0。95个周期，重量衰减为10−5。微调：然后我们在DAVIS 2017和YouTube-VOS训练集上微调了100个epoch，使用完整的IM。年龄分辨率在这一步中，我们以相等的概率从两个数据集中采样序列。批量大小降低到2个片段，以容纳14帧的更长序列。我们使用10 - 5的学习率，指数学习率衰减为0。985每时期，和重量衰减10- 6。通过观察来自YouTube-VOS训练集的300个序列的保持集的性能，提前停止训练。4. 实验我们首先在Youtube-VOS基准上对所提出的方法进行消融研究[32]。然后，8959我们在三个视频对象分割数据集上与现有技术进行比较 [24 ， 26 ， 32] 。我们的方法称为 A-GAME ，在PyTorch中实现[22]，并在单个Nvidia V100 GPU上训练。我们的代码和训练过的网络可以在https：//github上找到。com/joakimjohnander/agame-vos.4.1. 消融研究我们在大规模YouTube-VOS数据集上对我们的方法进行了广泛的消融分析。我们使用官方验证集，包括474个标记有一个或多个对象的视频。地面实况掩模被保持，并且结果通过在线评估服务器获得。性能是衡量的平均Jac-卡片索引J [26]，即交并（IoU）和平均轮廓精度F.这两个措施分别计算可见和不可见的类，导致四个性能指标。总体性能（G）是所有四个测量的平均值。在我们的烧蚀实验中，我们分析了我们的方法的六个关键修改，如下所述。结果示于表1中。对于每个版本，我们使用完全相同的过程从头开始重新训练整个网络。外观模块：我们首先通过将其从网络中删除（表1中没有外观模块）来分析所提出的外观模块（见第3.2节）的影响。这导致整体性能大幅下降，从66。0%到50。0%。结果清楚地表明，引入的外观模块是我们的视频对象分割方法中的一个重要组成部分通过研究表1中的可见类和不可见类的性能，可以获得进一步的见解。请注意，删除外观模块会导致9。1%的下降，在培训过程中看到的类，和一个显着的20。6%的未被发现的类。因此，我们的生成外观模型组件对于泛化到训练期间不可见的任意对象至关重要。这是由我们的外观模块的目标特定和类不可知的性质来解释的。掩模传播模块：第二、我们研究掩模传播模块的重要性（见第3.3节）。避免传播预测版本G观察到J（%）J未检出（%）A-GAME66.066.961.2无外观模块50.057.840.6无面具道具模块64.065.559.5单峰外观64.465.858.8没有更新64.966.059.8外观SoftMax55.859.350.7无端到端58.862.553.1表1. YouTube-VOS上的消融研究。我们报告了在训练期间看到和看不到的类的整体性能G以及分割精度J。更多详情请参见正文。图像最终分割外观图3.来自YouTube-VOS的五个视频的外观模块的可视化。我们的方法的最终分割（中间）与外观模块的输出（右）一起显示。外观模块用前景表示准确地定位目标（红色），同时用二次混合成分强调潜在的干扰物（绿色）。在前一帧中（表1中没有掩模道具模块），结果是2。性能下降0%。虽然这种减少是显著的，但与外观模块的重要性相比，掩模传播模块的重要性较小高斯混合分量：如第二节所述，在第3.2节中，我们使用两个高斯混合分量分别对前景和背景进行建模。除了基础混合物组分之外，第二高斯-添加了正弦混合分量以捕获未被单峰分布精确建模我们通过从我们的模型中删除这些额外的混合物成分来研究它们的影响由此产生的版本（表1中的单峰外观）因此仅对每个类别采用单个基础混合物组分由此导致的性能下降1. 6%表明在干扰物存在的情况下，建模困难的例子的重要性图中还定性分析了多模态生成模型的影响。3.第三章。专用于硬负片图像区域的混合组件能够对目标附近的其他对象（行1和2）进行建模，并准确地捕获同类的其他对象（行3- 5）。请注意，外观模块的输出和最终分割都型号更新：我们使用（4）研究在每帧中更新生成模型的影响。无更新版本（表1）仅使用初始帧来计算混合模型参数（3），并且无更新（4）是每个帧的。8960方法O-FtG总体（%）观察到J（%）J未检出（%）S2S [33]C64.471.055.5OSVOS [2]C58.859.854.2OnAVOS[30]C55.260.146.6MSK [23]C53.159.945.0OSMN [34]×51.260.040.6S2S [33]×57.666.748.2RGMP [31]×53.859.545.2[31]第三十一话×50.554.141.7A-GAME×66.066.961.2A-GAME×66.167.860.8表2.在YouTubeVOS基准上进行最先进的比较。我们的方法获得了最好的整体性能（G），尽管没有执行任何在线微调（O-Ft）。此外，与现有方法相比，我们的方法为训练期间未看到的类别（J看不见）提供了很大的性能增益。标记为†的数据仅使用YouTube-VOS数据进行训练在训练和推理过程中形成。更新生成模型以捕获目标和背景外观的变化导致1。性能提高1%。外观模块输出：如前所述，我们的外观模块输出对数概率分数（8）。为了验证这一选择，我们还比较了输出后验概率（表1中的外观SoftMax），通过在计算评分（8）后添加SoftMax层获得外观和融合模块之间的后验概率。这导致了一个显着的退化，在每-（-10。2%）。这些结果与分割[19]和分类中的传统技术其中，网络中的激活直到最终输出层才端到端学习：最后，我们分析了端到端差异化和培训对我们方法的影响。具体来说，我们调查的重要性，端到端的微分在学习阶段的外观module.通过在网络训练期间不通过模型推理计算（3）进行反向传播来请注意，框架的其余部分保持不变。所得到的方法（表1中没有端到端）获得差的结果，总降解为7。2%，整体表现。这突出了允许真正的端到端学习的重要性。4.2. 最新技术水平比较我们在三个视频对象分割基准上将我们的方法与最先进的方法进行了比较：YouTube- VOS [32]，DAVIS2017 [26]和DAVIS 2016 [24]。YouTube-VOS：这个最近推出的大规模数据集包含474个序列，91个类别，其中26个未包含在YouTube-VOS训练集中。我们使用官方验证集，如第4.1节所示。据我们所知，我们将我们的方法与所有已发表的结果进行比较[32]。此外，我们评估RGMP方法，使用作者提供的代码。结果示于表2中。对于每种方法，我们指出，如果该方法采用在线微调（O-Ft），如果它是因果关系，表3. DAVIS 2017验证集的最新技术水平比较。对于每种方法，我们报告它是否采用在线微调（O-Ft），是因果关系，以及最终的性能J（%）。我们的方法获得了优越的结果相比，国家的最先进的方法没有在线微调。此外，我们的方法关闭的性能差距，现有的方法采用在线微调。方法O-Ft因果速度JF平均值（%）F（%）J（%）OnAVOS[30]CC13s85.584.986.1[21]第二十一话CC4.5s86.687.585.6MGCRN [12]CC0.73s85.185.784.4CINM [1]CC>30岁84.285.083.4伦敦经济学院[8]CC81.580.182.9OSVOS [2]CC9s80.280.679.8MSK [23]CC12s77.675.479.7SFL [6]CC7.9s75.476.074.8DyeNet [18]××0.42s--84.7Favos [5]×C1.80s81.079.582.4RGMP [31]×C0.13s81.882.081.5[第13话]×C0.32s--81.0MGCRN [12]×C0.36s76.576.676.4PML [4]×C0.28s81.279.375.5OSMN [34]×C0.14s73.572.974.0CTN [15]×C1.30s71.469.373.5VPN [14]×C0.63s67.965.570.2MSK [23]×C0.15s--69.9A-GAME×C0.07s82.182.282.0表4.DAVIS 2016验证集（DAVIS 2017的子集）的最新技术水平比较对于每种方法，我们报告它是否采用在线微调（O-Ft），是否是因果关系，计算时间（如果可用）和最终性能J（%）。我们的方法获得了竞争力的结果相比，因果关系的方法，没有在线微调。即分割输出是否取决于视频中的未来帧。这里我们让C和×表示是和否，re-cash。在先前的方法中，在第一帧中执行广泛的在线微调，OSVOS和On-AVOS实现58的最终分数。8%和55。百分之二。对于S2S方法，我们比较两个版本：一个有在线微调，一个没有在线微调，得到64。4%，57。6%，分别。我们的方法最终得分为66。0%，在不使用invok的情况下，任何在线微调。此外，我们的方法在看不见的类别上表现得特别好，该类别只考虑在训练期间看不到的对象。再次，这证明了我们的类不可知的外观模块的有效性DAVIS2017：数据集包括30个视频，其中一个或多个目标对象。结果显示在ta中-ble3.在现有的方法中，DyeNet是唯一的方法。方法O-Ft因果JF平均值（%）F（%）J（%）CINM [1]CC70.674.067.2[21]第二十一话CC68.071.364.7OnAVOS[30]CC65.469.161.6OSVOS [2]CC60.363.956.6DyeNet [18]××69.171.067.3RGMP [31]×C66.768.664.8[第13话]×C--56.5Favos [5]×C58.261.854.68961[31]第一届中国国际电影节[1]图4.我们的方法和3个国家的最先进的方法之间的定性比较。我们的方法是能够准确地分割所有的目标，表现出鲁棒性的闭塞和成功区分不同的对象。这在很大程度上要归功于我们架构中强大的外观模型。非因果的方法，因为它以双向方式处理整个因此，它不适用于实时或在线系统。RGMP方法，达到64分。8%，依赖于掩模传播和外观模型，该模型通过简单地连接来自第一帧的图像特征来构造VideoMatch（VM）存储前景和背景特征向量，然后将其与测试图像中的特征向量进行该方法获得的最终结果为56。百分之五所提出的方法，employing一个端到端的可微分生成概率外观模型，达到67分。百分之二。我们的方法优于所有因果关系的方法不调用在线微调，甚至是最好的非因果关系和在线微调为基础的技术。DAVIS 2016 ：为了完整性，我们还评估了我们在DAVIS 2016上的方法。它是DAVIS2017的一个子集，用单个对象标记20个视频。DAVIS 2016中的小尺寸和对象数量限制了多样性。因此，多年来它已高度饱和在表4中，我们显示了每种方法的最终结果，以及各自作者报告的计算时间我们的方法获得了82的竞争性能。0%，与最先进的技术相比。与我们的方法不同，DAVIS 2016上表现最好的方法，如OSVOS，OnAVOS和FAVOS ，不能很好地推广到更大，更多样化的YouTube-VOS和DAVIS 2017数据集。4.3. 定性评价我们定性地比较了我们的方法与三种最先进的方法（RGMP [31]，CINM [1]，FAVOS [5]）DAVIS2017的三个视频结果如图4所示。RGMP倾向于丢失对象的一部分，并在不同对象之间进行区分虽然CINM可以产生详细的分割掩码（行5），但它遭受几种故障模式（行2、4、6）。FAVOS与可区分的目标（第2行，第6行）斗争，未能捕获细节（第6行）或精确的边界（第4行）。所提出的方法成功地在所有情况下准确地分割两个目标，同时分别比FAVOS和CINM快一个或几个数量级。5. 结论我们建议通过以高效和可重构的方式学习目标的外观来解决VOS问题，避免现有的基于匹配或在线微调的方法的缺点将目标出现模型化为嵌入空间中的高斯混合模型，并证明了该模型的学习和推理都可以用封闭形式表示这允许将外观模型实现为在端到端上训练的神经网络中的组件。我们彻底分析了所提出的方法，并证明了其有效性的三个基准，导致国家的最先进的性能。鸣谢：这项工作得到了Wallenberg AI，AutonomousSystems and Software Pro（WASP）的部分支持。SFF（SymbiCloud）;和瑞典研究委员会（ELLIIT和赠款2018-04673）。8962引用[1] L.鲍湾，巴西-地 Wu，和W. 刘某 CNN在MRF：基于cnn高阶时空mrf的视频对象分割。在IEEE计算机视觉和模式识别会议论文集，第5977- 5986页一、二、七、八[2] S. 凯尔斯，K.- K. Maninis，J. 蓬-图塞特湖Leal-Taixe'，D. Cremers和L.范古尔单镜头视频对象分割。在CVPR2017。IEEE，2017年。一、二、七[3] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab：使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。IEEE transactionson pattern analysis and machine intelligence，40（4）：834-848，2018。5[4] Y. Chen，J. Pont-Tuset，A. Montes和L.范古尔Blaz-ingly快速视频对象分割与像素度量学习。在IEEE计算机视觉和模式识别会议论文集，第1189-1198页，2018年。二、七[5] J. 郑，Y.-H. 蔡文雄C. 洪，S。王和MH. 杨通过跟踪部分快速准确地在线视频对象分割在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。二七八[6] J. Cheng，Y.- H. Tsai，S.王和M H.杨Segflow：用于视频对象分割和光流的联合学习在计算机视觉（ICCV），2017年IEEE国际会议上，第686-695页。IEEE，2017年。二、七[7] M.程 Msra10k数据库，2015年。5[8] H. Ci、C. Wang和Y.王.通过学习位置敏感嵌入的视频对象分割。在欧洲计算机视觉会议（ECCV）的会议记录中，第501-516页，2018年。二、七[9] M. Everingham，S. A.埃斯拉米湖凡古尔角，澳-地K. 威廉姆斯J. Winn和A.齐瑟曼。pascal visual object classes挑战：回顾展。 International Journal of Computer Vision ， 111（1）：98-136，2015. 5[10] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 770-778，2016中。5[11] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，9（8）：1735-1780，1997。2[12] P. Hu，G. Wang，X. Kong，J. Kuen和Y.- P. Tan。用于视频对象分割的运动引导级联细化网络。在IEEE计算机视觉和模式识别集，第1400-1409页，2018年。二、七[13] Y.-- T.胡，J. - B. Huang和A. G.施温Videomatch：基于匹配的视频对象分割。在欧洲计算机视觉会议（ECCV）的会议记录中，第54-70页，2018年。二、七[14] 詹帕尼河Gadde和P. V. Gehler视频传播网络。在Proc.CVPR，第6卷，第7页，2017年。二、七[15] W.- D. Jang和C.- S. Kim.在线视频对象分割通过卷积三叉神经网络。在CVPR，第1卷，第7页，2017年。二、七[16] A.霍雷瓦河Benenson，E. Ilg，T. Brox和B.席勒清晰的数据梦想对象跟踪。在2017年DAVIS视频对象分割挑战赛- CVPR工作室，2017年。2[17] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。NIPS，2012年。7[18] X. Li和C.换洛伊。联合重识别和注意力感知掩模传播的视频对象分割。在欧洲计算机视觉会议（ECCV）上，2018年9月。二、七[19] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议论文集，第3431-3440页，2015年。7[20] J. Luiten山口Voigtlaender和B.Leibe Premvos：Proposal-generation ， refinement and merging forthe DavisChallenge on video object segmentation 2018，2018. 2[21] K. Maninis、S.Caelles，Y.陈，J.蓬蒂塞湖Leal-TaixeD. Cremers和L.范古尔无时间信息的视频对象分割。IEEE Transactions on Pattern Analysis and MachineIntelligence，2018。一、二、七[22] A. Paszke，S.格罗斯，S。钦塔拉湾Chanan、E.杨，Z.De Vito，Z. Lin，L.德迈松湖Antiga和A. Lerer pytorch中的自动微分。2017. 6[23] F. 佩拉齐 A. 霍雷瓦 R. 本纳森， B. schi

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

端对象分割的网络架构及性能评估

计算机网络性能分析与评价

深度学习在视频对象分割中的应用与展望.pdf

使用CNN实现图像分割

coco数据集实例分割训练

segment anything微调

图像分割热力图的作用

yolov8 训练自己的分割数据集

yolov8 python图像分割训练模型

yolov8 分割训练自己的数据集

基于PASCAL Parts dataset的语义分割模型的训练

matlab构建BP神经网络

bisenet训练自己数据集

swim transformer 抓取

yolov8训练自己的数据集 .PNG格式 分割

transformer在Pascalvoc的Map

coco数据集 transformer

deep snake训练coco数据集

python 实现卷积神经网络

如何将自己的数据集导入RNN

怎样配置deeplabv3+模型

最新资源

yolov8训练自己的数据集 .PNG格式分割