没有合适的资源?快使用搜索试试~ 我知道了~
1352逐片段视频对象分割Kwanyong Park1,<$ Sanghyun Woo1,<$ Seeking Wug Oh2 In So Kweon1Joon-YoungLee21 KAIST2 Adobe Research摘要最近,基于记忆的方法在半监督视频对象分割方面显示出很好的效果这些方法在频繁更新的前一个遮罩的记忆的帮助下逐帧预测对象遮罩与这种逐帧推断不同,我们通过将视频对象分割视为裁剪式掩模传播来研究另一种观点。在这种每剪辑推理方案中,我们用一个间隔更新内存,并同时处理一组连续的帧(即,剪辑)之间的内存更新。 该计划提供了两个潜在的好处:通过限幅级优化获得精度增益,以及通过多帧的并行计算获得效率增益。为此,我们提出了一种新的方法为每剪辑推理量身定做。具体来说,我们首先引入一个剪辑明智的操作,以完善的功能的基础上内剪辑相关性。此外,我们采用了一个渐进的匹配机制,有效的信息传递内的剪辑。通过两个模块的协同作用和新提出的基于每个剪辑的训练,我们的网络在Youtube-VOS 2018/2019 val(84.6%和84.6%)和DAVIS2016/2017 val(91.9%和86.1%)上实现了最先进的性能。毛皮-然而,我们的模型显示了一个伟大的速度-准确性权衡与不同的内存更新间隔,这导致了巨大的灵活性。1. 介绍半监督视频对象分割(VOS)的目标是在每一帧中分割出前景对象在第一帧中给定地面实况对象掩码的视频的第二帧。这一任务的最新突破之一是时空记忆网络(STM)[29]提出的基于记忆的方法。STM编码和存储过去的帧与相应的掩码作为记忆(即,存储器更新步骤)然后通过学习的时空存储器匹配来估计当前(查询)帧的掩码(即,掩模预测步骤)。它迭代了[2]这项工作是在Adobe Research实习期间完成的。图1.(顶部)每剪辑推断的说明性示例,其中存储器更新间隔L是5。我们使用红色图像边界标记内存帧(底部)准确度与FPS -我们将我们的模型在不同的L推理设置下与SOTA方法进行比较[9,29,35,50,52]。我们在Youtube-VOS 2019[47]验证集上报告了整体得分和FPS。为了公平比较,我们使用同一台机器计算所有报告方法的FPS。我们还报告了STCN变体,以与“我们的”相同的方式扩展。请注意,FPS轴为对数刻度。理论更新和掩模预测步骤逐帧进行。自短时记忆取得成功以来,基于记忆的方法一直是半监督视觉操作系统研究的主流。许多变体通过高级存储器读取过程[8,14,22,34,35]或高效存储器存储[20,46]来改进STM。STCN [9]对基于内存的方法进行了一次显著改进。它制定了直接的图像到图像的对应学习记忆匹配,并提出了记忆和查询帧的连体键编码器。STCN还表明,L2相似性比内积更鲁棒的记忆匹配。凭借先进的内存匹配,STCN展示了1353可能不需要在每个帧都进行ory更新。相反,它只在每五帧更新一次内存,从而在实现SOTA精度的同时实现了相当大的加速。受此启发,我们进一步深入研究了基于记忆的方法中的每剪辑推理如果我们以一个间隔周期性地进行存储器更新,我们可以将输入视频帧分组为一组连续帧(即,剪辑),并且逐剪辑而不是逐帧地执行掩码预测。我们称之为每剪辑推理(图。1)。这个新的推理方案提供了两个机会。首先,它使我们能够在进行预测之前访问附近的帧(即,非因果的),而逐帧预测不为网络提供对未来帧的访问(即,因果关系)。通过这种非因果系统,我们可以在剪辑中的帧之间交换信息,并可以对剪辑进行优化据我们所知,在基于内存的方法中,以前没有利用裁剪优化的工作。另一个机会是准确性和速度权衡之间的灵活性。增加存储器更新间隔可以提供接近线性的加速,因为存在用于存储器更新的较低计算,并且更重要的是,剪辑内的大多数计算可以被并行处理。基于这种动机,我们提出了一种新的半监督视频对象分割方法,PCVOS,这是定制的每剪辑推理方案。给定每个剪辑的推理场景,我们提出了对标准的基于内存的方法的以下更改。为了使用片段内相关性来优化特征,我们提出了执行片段操作的片段内细化模块具体来说,我们采用Transformer [39]来聚合时空邻域中的信息。由于来自存储器读出的特征是用于掩模预测的信息的关键来源,因此我们将细化放置在存储器读出之后该模块聚合并细化特征,从而产生一致且稳健的掩模预测。为了提高准确性和速度的权衡,我们提出了一个渐进的内存匹配机制。虽然增加存储器更新间隔提供了一个很大的机会,提高效率,我们观察到,存储器读出精度逐渐下降的时间间隔增加。我们的渐进式匹配模块提供了一个轻量级的解决方案,以增加内存,并提高内存读出精度时,内存更新间隔,瓦勒是长的。此外,我们还提供了一个新的培训计划。我们用多个剪辑形成每个训练样本,并用剪辑级监督训练我们的模型。与严格的每帧训练[28,29]相比,我们发现我们的每剪辑训练对我们的方法非常有效。通过我们新的视角和建议,我们的方法实现了最先进的性能(例如,84.6在Youtube-VOS 2018 val上,在DAVIS 2017 val上为86.1)。毛皮-此外,通过改变内存更新间隔,我们提供了多个变体模型,具有很高的准确性和效率权衡。例如,我们的高效模型Ours-L15实现了比STCN 1更好的准确性,同时运行速度快了近三倍,如图所示。1.一、更重要的是,通过在测试时自适应地调节存储器更新间隔,可以享受单个我们的贡献总结如下:1. 我们重新制定半监督视频对象分割从每剪辑推理的角度来看,提供了一种替代占主导地位的每帧推理。2. 我们提出了每剪辑VOS模型(PCVOS),是专为每剪辑推理。3. 我们的方法在多个基准测试中实现了最先进的性能,同时提供了高效的变体,实现了很好的精度-速度平衡。2. 相关工作半监督视频对象分割。早期的视频对象分割方法可以分为两类。在线学习方法[2,4,16,23,24,31,42,45]在测试时微调网络以引入目标特定信息。尽管结果令人鼓舞,但测试时的微调非常耗时,因此不适合许多实时应用。离线学习方法的目标是学习一个适用于任何视频的网络,而无需测试时间适应。在这个目标下,基于传播的方法[10,16,23,28,38,48,49]将半监督VOS公式化为时间标签传播问题。在[28,49]中,网络直接传播来自前一帧的对象掩码。一些方法[10,23,31,37,38,48]利用光流进行掩模传播。一般来说,这些方法易受遮挡和漂移的影响,导致传播过程中的误差积累。最近的作品[16,23]统一了重新识别机制,以克服时间不连续性。作为另一行,存在基于先前帧和当前帧之间的特征匹配的方法[6,15,41,50]。在[6,15]中,学习逐像素嵌入以将当前帧与具有地面实况注释的第一帧相匹配。当场景中包含许多相似的对象和较大的外观变化时,这些方法通常FEELVOS [41]建议将全局匹配和局部匹配分开,以实现对此类挑战的鲁棒性。在[50]中,背景匹配与注意机制一起被另外考虑。基于记忆的方法。基于记忆的方法是半监督方法的最新突破之一1在图1中,它们的原始模型表示为1354图2. 拟议框架概述。 该模型采用多个查询框架(即剪辑)作为输入,并一次预测一给定存储器,存储器匹配模块最初检索所有查询帧的相关信息,并且片段内细化模块基于片段特征内的像素之间的时空相关性来细化特征视频对象分割STM [29]第一次利用记忆网络来存储过去的帧预测,并利用非本地注意力机制从记忆中读取相关信息。提出了许多变体以在不同方面改进STM,例如高级存储器读取[8,14,22,34,35]和有效的存储器存储[20,46]。KMN [34]基于内存到查询匹配,使用2D高斯内核改进内存读取操作。RMNet [46]仅存储局部区域的内存,并进行局部到局部匹配以提高效率。LCM [14]学习对象级信息并利用位置先验来提高匹配精度。HMMN [35]提出了分层内存匹配,使多尺度内存读取。这些方法逐帧处理视频,同时在每帧更新内存。然而,该约定创建了基于存储器的方法可以实现的效率的上限。最近,STCN [9]将匹配问题重新表述为纯粹的基于图像的对应学习,并表明通过改进的记忆匹配,不需要在每一帧进行记忆更新。在这项工作中,我们进一步研究了具有周期性记忆更新的场景,即每剪辑推理。与独立处理剪辑中的每个帧的STCN不同,我们引入了一种剪辑式操作,该操作采用Transformer [39]来对 查 询 剪 辑 中 的 时 空 上 下 文 进 行 建 模 。 注 意 ,Transformer的用法与以前的VOS方法[11,26,51]不同,以前的VOS方法采用Transformer主要用于改进对内存匹配的查询(即,存储器读取过程)。3. 拟议框架给定一个视频序列,我们根据内存更新间隔将视频分成几个片段,并顺序处理每个片段具有预测的(或给定的)对象掩码的先前帧被认为是记忆,并用于预测当前剪辑的掩码(即,查询剪辑)。3.1. 概述我们的框架的概述如图所示。二、我们的模型包含五个模块:1)一个关键编码器,用于提取关键特征,用于建立内存和查询帧之间的时空对应关系; 2)值编码器,其中网络将先前的掩码信息嵌入到值特征中;3)存储器匹配模块,其最初从存储器检索值信息;4)片段内细化模块,其中Transformer通过利用片段内相关性来细化所检索的值特征; 5)解码器,其获取细化信息并预测掩码结果。此外,专门的模型为每剪辑推理,我们提出了一个新的训练方案和一个变体的记忆匹配模块,渐进式记忆匹配机制。我们将在下面详细介绍3.2. 键和值编码器键值编码器的总体架构设计遵循STCN [9]。如图所示2、先前的掩码信息(连同存储器帧)被编码为1355帧内帧内帧内∈帧内J我 JQQ帧内值特征vM通过值编码器。对于存储器和查询帧,关键编码器提取关键特征,kM和kQ,用于在存储器匹配模块中另外,我们还介绍了一个单独的分支上的关键编码器,以亲-为查询帧引入局部关键特征kQ注意编码器独立地处理每个图像(或图像和掩模)具体地,给定T个存储器帧和L个查询帧,两个编码器提取以下特征: 记忆值vM∈RTHW×Cv,记忆键kM∈RTHW×Ck,查询密钥kQ∈RLHW×Ck,查询局部keykQ∈RL HW×Ck′,其中HW是空间的图3.提出了渐进式记忆匹配机制。我们举例说明了一个例子,当一个剪辑被分为三个片段与2帧长度(即。S=3,F=2)。特征图的尺寸大小。3.3. 内存匹配模块如在最近的VOS方法[9,14,20,29,34,46]中,所述匹配模块首先以非局部方式计算所有查询和存储器像素之间的成对相似性给定查询密钥kQ和存储器密钥kM,仿射如下所示vattn =A(k)QQ帧内 ))n(vQ)+vQ(3)它们之间的基矩阵ARLHW×THWint n=nums(nums,nums,nums)其中,[1]和[2]表示单独的归一化,分别由键和值的线性投影层降低。 前馈网络(FFN)保持不变作为标准。片段内优化的最终输出A(kQ,kM)i、j=i j ,(1)exp(sim(k,kM))公式为:vQ=FFN(vAttn)+vattn.其中sim是相似性度量,并且Ai,j表示第i,j个位置处的亲和度分数。然后,每个查询点基于亲和度(即加权和)通过以下方式检索存储器值vMvQ= Read(kQ,kM,vM)= A(kQ,kM)vM。(二)值得注意的是,每个查询点的匹配过程是完全独立的。由于查询片段内的后一图像在时间维度上远离存储器,因此由于对象变形和运动而获得准确的对应关系更具挑战性。3.4. 帧内剪辑细化和解码器尽管记忆匹配模块从记忆中获取最相关的特征,但当存在新目标、遮挡或对象的大为了弥补这一点,我们建议利用跨多个查询帧的时空结构。为此,如图所示。2、介绍了视频帧内细化模块.我们采用基于transformer的atten- tion [39]来基于剪辑中像素之间的时空相关性来细化检索值。注意层首先计算查询之间的亲和度矩阵可以在局部时空窗口中构造跨几个连续帧的图像在这里,我们通过对注意层采用3D移位窗口机制[21]来对剪辑内细化施加局部约束这样,我们不仅可以在很大程度上减少对应的歧义,但也减少了计算成本。最后,解码器获取片段内细化的输出并预测查询帧的对象掩码。在STM [29]之后,我们逐渐对解码特征进行上采样,并通过跳过连接将其与骨干特征融合。为了处理多对象场景,我们使用软聚合操作[28,29]来合并预聚合操作每个对象的命令掩码。3.5. 渐进式记忆匹配机制虽然我们在很大程度上受益于片段中的时空背景,但随着时间间隔的增加,仍然难以找到长距离对应,从而限制了我们可以从每个片段推断中获得的效率增益。为了推动准确性和效率增益的折衷,我们提出了一种渐进式内存匹配机制,它是内存匹配模块的变体(第3.3)。我们的想法是暂时使用剪辑中的中间信息来增强记忆,局部密钥kQ然后,该值在剪辑内传播。长距离通信仍然是准确的通过逐元素求和,通过传播值增强检索值特征总结了这些过程率为了尽量减少副作用,处理应该足够有效。)、(k由于物体的运动是连续的,传播过程是连续的。1356Σ∈JJFFJF考虑到这些,我们将一个剪辑分成S个片段,帧间隔为F,并在每第F帧增加内存。通过这种设置,我们仍然可以完全并行地处理每个段的内存匹配。在处理完每个片段之后,我们在片段的最后一帧附加一对查询键和检索到的内存值,如图所示3 .第三章。这是非常有效的,因为这个过程绕过所有层(即,解码器和值编码器)来计算存储器特征,并且不引起任何额外的计算。处理完剪辑中的所有片段后,我们从主内存中丢弃临时内存。形式上,渐进式内存匹配过程总结如下:vQt=Read(kQt,kMt,vMt)=A(kQt,kMt)vMt,S.T.kMt=Concat[kMt−1,last(kQt−1)],地面实况调查RKH′W′,我们用骰子系数[27]实现裁剪层超视,如下所示:KLclip(m,m)= [1−Dice(mk,mk)](5)k=1其中,m=k表示第k个对象的预测掩模,K、H′、W′分别表示对象的总数、图像的高度和宽度。最终的损失函数是剪辑级监督和图像级监督的组合(即,交叉熵)为:Ltotal=Lclip+Limage。我们的经验表明,剪辑级监督允许模型更好地学习远程对应和剪辑内相关性相比,模型只依赖于图像级监督。vMt=Concat[v Mt−1,last(vQt-1)],(四)4. 实验kM1=kM,vM1=vM,其中vQt、kQt表示第t个查询段的检索值和键,并且kMt、vMt分别表示用于产生vQt的存储器键和值 最终值特征vQt是每个段的输出值的简单级联,vQ=Concat[vQ1,vQ2,., vQS]。3.6. 训练每剪辑VOS模型与以前的工作类似[9,28 - 30,34 ],我们采用两阶段训练:图像数据的预训练和视频数据的微调。我们的模型首先在通过对静态图像和相应的对象掩码应用随机变形模拟的合成视频样本上进行训练在预训练之后,我们在视频数据上训练模型,以学习长距离对应和片段内映射。在我们的每剪辑推理管道中,我们发现之前对视频数据的训练实践[28,29]在学习这两种功能时有两个主要限制:1)样本长度有限:它们采样很少的图像(例如,3帧),并要求模型一次处理每一帧,2)缺乏监督信号:仅采用图像级监督信号为了解决这个问题,我们提出了一个新的训练管道,为我们的模型量身定制。首先,为了打开一个学习两种能力的可能性,我们选择了多个框架(即。2N+1)。具体来说,我们用groundtruth标签和两个长度为N的片段对一个图像进行采样。如图2,模型顺序处理每个剪辑,而不是帧,使用先前预测的(或给定的)掩码作为记忆。其次,我们引入剪辑级监督,旨在捕捉细粒度的对象的时间变化具体地,将预测对象掩码m∈RKH′W′称为y,g,并且我们在广泛使用的多对象基准测试YoutubeVOS [47]和DAVIS 2017 [33]以及单对象数据集DAVIS 2016 [32]上实验了我们的模型。为了评估模型,我们遵循标准的评估指标,其中区域相似性度量预测和地面实况之间的平均交集(IoU),轮廓精度度量它们之间的平均边界相似性。我们还报告了YoutubeVOS上的可见和不可见类别,并平均两个数据集的总评分&我们使用官方的评估服务器或工具包来获得所有的分数。4.1. 实现细节为了公平比较,我们主要遵循STCN的原始细节[9]。建筑细节。我们分别用ResNet50 [13]和ResNet18我们使用res 4功能,它具有1/16的分辨率,相对于输入。两个ResBlocks [13]和一个CBAM [44]块融合了键编码器和值编码器的特征,以提取值特征。我们使用L2相似度[9]进行内存匹配,并将Ck和Cv设置为64和512。对于片段内细化模块,我们采用点积作为相似性度量,并使用2层宽度为256,时间窗口大小为2,空间窗口 大小 为7 的 Transformer。因 此 , 我 们 将 Ck′ 设为256。培训详情。我们利用静态图像分割数据集[7,17,36,43,53]进行预训练。在这一步中,我们通过在静止图像上应用随机增强来合成3帧然后我们对视频数据集YoutubeVOS [47]和DAVIS [33]进行微调。在视频训练期间,我们从视频序列中采样7帧(即,N=3(秒)3.6)。 剪辑中的最大时间间隔I.E. 夹间间隙从5逐渐增加到15,1357−回温至5 ℃。为了减少训练和推理之间的差距,我们将最大时间差距保持在剪辑内(即,夹内间隙)到5。自举交叉熵被用作图像级监督[8,9]。推理细节。我们使用480p分辨率的输入大小进行所有实验。内存匹配模块采用Top-k滤波[8],k=20。我们根据剪辑长度L,将每第L帧作为永久存储器.在渐进匹配机制中,我们以帧间隔5(即,F=5),当模型处理下一个剪辑时,这些会被删除。渐进式记忆匹配仅在推理过程中使用。我们尝试在培训过程中包括该模块,但我们观察到轻微的性能下降,而不是改善。我们推测,它阻碍了模型学习远程传播,由于提供近帧存储器作为一种捷径。4.2. 消融研究和分析在本节中,我们对YouTube-VOS 2019验证集进行了分析并进行了广泛的消融研究。主动消融。我们验证每个组件的有效性。表1总结了不同成形夹长度下的模块消融研究结果。首先,我们消融了片段内细化(ICR)模块,以研究帧之间通信的重要性。如恶化的结果所示,明确地利用时空相关性对于所有剪辑长度设置是至关重要的。我们还探索了每剪辑训练(PCT)。当我们用传统的训练方案[9]替换训练方案它表明,每个剪辑的训练允许模型在更宽的时间范围内学习鲁棒的匹配。 最后我们进一步消除了渐进匹配机制(PMM)。渐进式匹配机制有助于在较长剪辑设置上的性能(例如,L=15或25)比更短的设置。这意味着渐进式匹配机制在很大程度上简化了构建远程对应关系。注意,当L=5时,不使用PMM。如果没有所有提出的方法,该模型已退化为STCN [9]。我们的最终模型在基线上的性能改进(1.9- 4.9总得分)是显着的。Per-Clip培训计划的有效性。我们研究了拟议培训方案的三个因素的影响:1)训练方案的类型,2)所使用的帧的数量,3)剪辑级监督的存在。表2总结了结果。我们首先将训练的类型从剪辑方式改为帧方式。在训练期间,表2-(1)中的模型预测掩码方法PMMPCTICR成形夹长度(L)L=5L=10L =15L=25STCN [9]82.781.979.678.1✓82.782.381.781.1✓✓83.683.082.581.8我们✓✓✓84.684.183.683.0表1. 不同金属夹长度L下的模块消融研究。PMM、PCT和ICR分别表示渐进式匹配机制、每剪辑训练和剪辑内细化模块。对于实验,我们依次烧蚀每个组件。方案类型NFCS成形夹长度(L)L=5L=10L =15L=25Trad.帧383.182.682.381.8(一)帧7✓83.583.183.182.2(二)夹5✓83.983.883.482.7夹9✓83.883.383.382.7(三)夹783.783.382.582.0我们夹7✓84.684.183.683.0表2. 培训方案的消融研究。我们改变了训练方案的类型(逐帧[28,29]与逐帧),用于训练的总帧数(NF)以及采用逐帧监督(CS)。因此,细化模块的输入是单个图像。虽然性能略好于传统方案(Trad.),它远比我们低。这表明,裁剪式训练(其中模型明确地学习时空相关性)带来了性能改进,而不是因为简单地使用多帧或裁剪式监督。接下来,我们研究用于训练的帧总数(NF)的影响如表2-(2)所示,我们注意到所有变体都显示出比逐帧训练更好的性能,表2-Trad.&(1),并且用7帧获得最佳结果。此外,我们运行的实验没有剪辑级的监督.正如分数所示,我们确认它有助于学习长距离对应和片段内相关性。我们框架的优势。与以前的方法相比,我们的框架主要带来了两个优点。首先,如图所示。1,我们最准确的版本,Ours-L5(84.6%),在运行时间相似的情况下,大大优于之前最先进的方法STCN [9](82.7%)。第二,我们提供多种有效的选择。我们的高效变体Ours-L15(83.6%)仍然将STCN提高了0.9的总分,同时运行速度提高了约三倍(29.2vs 10 FPS)。这是可以实现的,因为我们的框架工作保持性能很好,即使有一个较长的剪辑长度。相反,如果没有所有提出的方法,1358J F JFJ F JF方法看不见的总体J F JF[28]第二十八话59.5-45.2-[40]第四十话63.667.245.551.0[5]第五话67.170.255.361.7[23]第二十三话71.475.956.563.7GC [18] 73.272.668.975.675.7STM [29] 79.479.784.272.880.9[20]第二十话78.883.174.182.6[22]第二十二话80.785.174.080.9GIEL [12] 80.680.785.075.081.9[50]第五十话81.185.875.383.4KMN [34] 81.481.485.675.383.3[46]第46话82.185.775.782.4LWL [3] 81.580.484.976.484.4SST [11] 81.781.2-76.0-CFBI+[52] 82.081.286.076.284.6LCM [14] 82.082.286.775.783.4[19]第十九话82.586.976.282.5[35]第35话82.187.076.884.6STCN [9] 83.081.986.577.985.7联合国[25]81.585.978.786.5我们的84.683.088.079.687.9方法&OSMN [49] 54.8 52.5 57.1[28] 2019 - 06 - 26 00:00:00大会[18] 71.4 69.3 73.5轨道-分段[5] 72.3 68.6 76.0[20] 100.0 100.0 100.0PReMVOS [23] 77.8 73.9 81.7LWL [3] 81.6 79.1 84.1STM [29] 81.8 79.2 84.3加拿大中央银行[50] 81.9 79.1 84.6苏苏[11] 82.5 79.9 85.1GIEL [12] 82.7 80.2 85.3[22] 2016年12月25日KMN [34] 82.8 80.0 85.6CFBI+[52] 82.9 80.1 85.7MiVOS [8] 83.3 80.6 85.9[46] 2016年10月31日LCM [14] 83.5 80.5 86.5联合[25] 83.5 80.8 86.2DMN-AOA [19] 84.0 81.0 87.0HMMN [35] 84.7 81.9 87.5STCN [9] 85.4 82.2我们的86.1 83.0 89.2表5.DAVIS 2017 [33]验证集的定量评价表3.对Youtube-VOS的定量评估[47]2018验证集。方法看不见的总体J F JFKMN [34] 80.0 80.4 84.5 73.8 81.4MiVOS [8] 80.3 79.3 83.7 75.3 82.8中国石油天然气集团公司[50] 81.0 80.6 85.1 75.283.0LWL [3] 81.0 79.6 83.8 76.4 84.2方法&OSMN [49] 73.5 74.0 72.9电话:+86-10 - 8888888PReMVOS [23] 86.8 84.9 88.6GC [18]86.887.685.7[46]第四十六话88.888.988.7STM [29]89.388.789.9CFBI [50]89.488.390.5KMN [34] 90.5 89.5 91.5SST [11]81.880.9-76.6-LCM [14]90.791.489.9[35]第35话81.786.177.385.0HMMN [35]90.889.692.0STCN [9]82.781.185.478.285.9STCN [9]91.690.892.5我们84.682.687.380.088.3我们91.990.893.0表4.对Youtube-VOS [47] 2019验证集的定量评估。(相当于STCN),性能随着剪辑长度的增加而急剧下降(见表1)。更重要的是,变量由测试时的设置决定,因此单个模型可以在多个选项中运行,用户可以根据情况自由选择选项。为了进行公平的比较,我们用我们的硬件重新计时了最先进的方法,并在图中报告了FPS。1.一、4.3. 与最先进方法的我们将我们的模型与YouTube-VOS [47],DAVIS2017 [33]和DAVIS 2016 [32]基准上的最在这里,我们报告我们的结果-表6.DAVIS 2016 [32]验证集的定量评价L5,除非另有说明。YouTube-VOS是多对象视频分割的大规模基准。它在验证集中有看不见的类别,这使得YouTube-VOS基准很好地用于测量算法的泛化性能我们使用2018年和2019年版本的474和507个验证视频来报告结果。如表3和表4所示,我们的模型在YouTube-VOS 2018和2019验证集上的总得分分别为1.5和1.9,显著优于最先进的方法[9,25]DAVIS是一个密集注释的视频对象分割1359JF图4.DAVIS 2017验证(第一个视频)和Youtube-VOS 2019验证集(第二个和第三个视频)的定性比较我们的研究结果表明,在具有挑战性的情况下,如遮挡,相似物体和外观变化,与STCN [9]相比,预测效果始终更好数据集。我们在两个版本上报告了我们的结果:DAVIS 2017和DAVIS 2016。(1)DAVIS 2017是DAVIS2016的多对象扩展,有 30个视频序列用于验证。(2)DAVIS 2016提供了对象级(单个对象)高质量标签。验证分割由20个视频组成。DAVIS 2017和DAVIS2016基准测试的实验结果分别见表5和表6我们的模型达到了86.1和91.9的平均得分,再次超过了DAVIS-2017和DAVIS-2016验证集上的所有竞争对手&定性比较。图4显示了我们的模型和STCN的定性示例[9]。在第一和第二视频中,STCN分别与相似对象的对象和背景混淆,导致累积误差。相反,我们的模型准确地区分对象的干扰,是强大的误差漂移。在第三个视频中,我们可以看到STCN未能捕获对象的边界,而我们的方法通过利用时空上下文产生所有这些定性的例子证实了该建议是有效的。5. 结论在本文中,我们提出了一种新的半监督视频对象分割框架,从每剪辑推理的角度。我们设计框架以享受每剪辑推理的两个好处:通过剪辑内通信实现更强性能,并通过调制存储器更新间隔在速度和精度之间实现更大灵活性。为此,引入了片段内细化和渐进记忆匹配模块。片段内细化模块聚合来自时空邻域的信息以细化特征。当内存更新间隔增加时,渐进式内存匹配模块提供了一种有效的解决方案。此外,为了更好地学习长期对应和片段内细化,我们提出了具有片段监督的每片段训练。大量的实验表明,我们的方法不仅在多个基准上设置了新的最先进的技术,而且还提供了多个有效的变体。鸣谢本研究得到韩国国家研究基金会(NRF-2020 M3 H8 A1115028,2021财年)的部分支持。1360引用[1] Jimmy Lei Ba,Jamie Ryan Kiros,Geoffrey E Hinton.层归一化。arXiv:1607.06450,2016。4[2] Linchao Bao,Baoyuan Wu,and Wei Liu.mrf中的Cnn:通过基于cnn的高阶时空mrf中的推断的视频对象分割。在CVPR中,第5977-5986页,2018年。2[3] GoutamBhat、FelixJéremoLa win、MartinDanelljan、An-dreas Robinson、Michael Felsberg、Luc Van Gool和RaduTimofte。学习视频对象分割的学习内容。在ECCV,第777-794页,2020年。7[4] Sergi Caelles , Kevis-Kokitsi Maninis , Jordi Pont-Tuset,LauraLeal-Taixe',DanielCremers和LucVanGool。单镜头视频对象分割。在CVPR,第221-230页,2017年。2[5] 陈曦、李作新、叶远、于刚、沈建新、齐东莲。用于实时视频对象分割的状态感知跟踪器。在CVPR,第9384-9393页,2020年。7[6] Yuhua Chen , Jordi Pont-Tuset , Alberto Montes , andLuc Van Gool.快速视频对象分割与像素级度量学习。在CVPR中,第1189-1198页,2018年。2[7] 何基成、钟智勋、戴宇荣及邓志强。Cascadepsp:通过全局和局部细化实现类不可知和非常高分辨率的分割。在CVPR中,第8890-8899页,2020年。5[8] 何祺郑、戴裕荣和邓志强。模块化交互式视频对象分割:交互屏蔽、传播和差异感知融合。在CVPR中,第5559-5568页,2021年。一、三、六、七[9] 何祺郑、戴裕荣和邓志强。重新思考具有改进的内存覆盖的 时空 网络 ,以 实现 高效的 视频 对象 分割 。在NeurIPS,2021年。一、三、四、五、六、七、八[10] 程景春,蔡义轩,王胜金,杨明轩。Segflow:视频对象分割和光流的联合学习。在ICCV,第686-695页,2017年。2[11] Brendan Duke 、 Abdalla Ahmed 、 Christian Wolf 、Parham Aarabi和Graham W Taylor。Sstvos:用于视频对象分割的稀疏时空变换器。在CVPR中,第5912-5921页,2021年。三、七[12] Wenbin Ge,Xiankai Lu,and Jianbing Shen.使用全局和实例嵌入学习的视频对象分割在CVPR中,第16836-16845页,2021年。7[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年。5[14] 李虎、张鹏、张邦、潘攀、徐英辉、容瑾。基于记忆的视频对象分割的位置和目标一致性学习。在CVPR中,第4144-4154页,2021年。一二三四七[15] Yuan-Ting Hu , Jia-Bin Huang , and Alexander GSchwing. Videomatch:基于匹配的视频对象分割。参见ECCV,第54-70页,2018年。2[16] 李晓晓和陈昌来。视频对象分割与联合重新识别和注意力感知掩模传播。在ECCV,第90-105页,2018年。2[17] Xiang Li,Tianhan Wei,Yau Pun Chen,Yu-Wing Tai,and Chi-Keung Tang. Fss-1000:一个1000类的数据集,用于少数镜头分割。在CVPR中,第2869-2878页,2020年。5[18] 余丽、沈卓然、影山。使用全局上下文模块的快速视频对象在ECCV,第735-750页,2020年。7[19] Shuxian Liang,Xu Shen,Jianqiang Huang,and Xian-Sheng Hua.基于动态记忆网络和自适应对象对齐的视频对象分割.在ICCV,第80657[20] Yongqing Liang,Xin Li,Navid Jafari,and Jim Chen.基于自适应特征库和不确定区域细化的视频对象分割。在NIPS,第33卷,2020年。一二三四七[21] Ze Liu , Jia Ning , Yue Cao , Yixuan Wei , ZhengZhang , Stephen Lin , and Han Hu. 视 频 摆 动Transformer。arXiv:2106.13230,2021。4[22] Xiankai Lu,Wenguan Wang,Martin Danelljan,TianfeiZhou,Jianbing Shen,and Luc Van Gool.视频对象分割与情节图记忆网络。参见ECCV,第661-679页,2020年。一、三、七[23] Jonathon Luiten、Paul Voigtlaender和Bastian Leibe。Pre-mvos:用于视频对象分割的建议生成、细化和合并。在ACCV,第565-580页,2018年。二、七[24] K-K Maninis,Sergi Caelles,Yuhua Chen,Jordi Pont-Tuset,LauraLeal-Taixe´,DanielCremers,andLucVanGool.没有时间信息的视频IEEE TPAMI,41(6):1515-1530,2018。2[25] Yunyao Mao , Ning Wang , Wengang Zhou , andHouqiang Li.视频对象分割的联合归纳和直推学习。在IEEE/CVF国际计算机视觉会议,第96707[26] 梅建彪,王萌萌,林艺能,袁毅,刘勇。Transvos:视频对象分割与变压器. arXiv:2106.00588,2021。3[27] Fausto Milletari Nassir Navab和Seyed-Ahmad Ahmadi。V-net:用于体积医学图像分割的全卷积神经网络。在3DV中,第565-571页5[28] Seoung Wug Oh、Joon-Young Lee、Kalyan Sunkavalli和Seon Joo Kim。参考引导掩模传播的快速视频对象分割在CVPR中,第7376二四五六七[29] Seoung Wug Oh,Joon-Young Lee,Ning Xu,and SeonJoo Kim.使用时空记忆网络的视频对象分割。在ICCV,第9226-9235页,2019年。一、二、三、四、五、六、七[30] Kwanyong Park , Sanghyun Woo , Dahun Kim ,Donghyeon Cho,and In So Kweon. 为不成对的视频到视频翻译保留语义和节奏一致性。在第27届ACM国际多媒体会议论文集,第1248-1257页,2019年。51361[31] Federico Perazzi,Anna Khoreva,Rodrigo Benenson,Bernt Schiele,and Alexander Sorkine-Hornung.从静态图像中学习视频对象分割。在CVPR中,第2663-2672页,2017年。2[32] Federi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功