视频对象分割中背景干扰的处理新策略及性能优越性研究

13 浏览量更新于2023-12-01 收藏 4.09MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2255获取更多论文视频对象分割中背景干扰的处理Suhwan Cho1Heansung Lee1Minhyeok Lee1Chaewon Park1Sungjun Jang1Minjung Kim1Sangyoun Lee1，21延世大学2韩国科学技术学院（KIST）抽象的。半监督视频对象分割（VOS）旨在密集跟踪视频中的某些指定对象。该任务的主要挑战之一是存在与目标物体相似的背景干扰物我们提出了三种新的策略来抑制这种干扰：1）时空多样化的模板构造方案，以获得目标对象的广义属性;2）可学习的距离评分函数，以通过利用两个连续帧之间的时间一致性来排除空间上遥远的干扰; 3）交换和附着增强，以通过提供包含纠缠对象的训练样本来迫使每个对象具有独特的特征在所有公共基准数据集上，我们的模型实现了与当代最先进方法相当的性能，即使是实时性能。定性结果也证明了我们的方法优于现有的方法。我们相信我们的方法将被广泛用于未来的 VOS 研究。代码和模型可在https://github.com/suhwan-cho/TBD上获得。关键词：视频对象分割，度量学习，时间一致性，视频数据增强1介绍视频对象分割（VOS）的目的是在像素级上跟踪整个给定视频中的某些指定对象。根据类型在关于目标对象所提供的引导中，VOS可以分为半监督VOS、无监督VOS、参考VOS和其它子类别。我们专注于半监督设置，其中密集注释的对象提供在视频的初始帧。半监督视觉操作系统具有广泛的应用前景，在自动驾驶、视频编辑、视频监控等视觉领域引起了广泛的在半监督VOS中，主要挑战之一是存在与目标对象具有相似外观的背景干扰物。由于视觉特性比较是检测和跟踪的基本技术指定的对象、视觉干扰会严重降低系统的可靠性。我们提出了三种新的策略来抑制负面影响arXiv：2207.06953v3 [cs.CV] 2022年8月+v：mala2255获取更多论文2S. Cho等人VOS中的背景干扰：1）时空多样化的模板构建方案，以准备各种对象属性用于可靠和稳定的预测; 2）可学习的距离评分函数，以考虑视频的时间一致性; 3）交换和附加数据增强，以提供显示严重遮挡的硬训练样本。由于VOS是一个需要细粒度信息的像素级分类任务，因此大多数基于特征匹配的方法（包括VideoMatch [12]和RANet [36]）都采用像素级细匹配。虽然这种方法是流行的，由于其优越的能力，以捕捉细节，它也有缺点，容易造成噪音。由于模板中的每个元素都有很小的感受野，因此很容易受到背景干扰。为了解决这个问题，我们提出了一种新的方法来构建一个粗略的匹配模板压缩的精细匹配模板考虑每个像素位置的概率。与精细匹配模板不同，粗略匹配模板中的每个元素覆盖基于过去预测动态定义的大的感受野。通过同时采用细匹配和粗匹配，由于改进的空间多样性，可以获得更稳定的预测。此外，为了构建利用视频中的多个时间属性的各种模板，我们操作多个模板，这些模板是基于它们自己的策略独立构建和更新的。所提出的时空多样化模板构造使模型能够捕获局部细节，同时获得前景和背景之间的清晰区分，以及学习利用各种时间特定属性的能力。虽然视觉信息是重要的，但是利用相邻帧之间的时间一致性对于鲁棒的VOS也是重要的。为了利用视频的时间一致性，FEELVOS [34]和CFBI [41]在将参考帧信息传输到查询帧时应用方形窗口。RMNet[38]根据查询帧的粗略预测分割掩码减少搜索区域。这些完全排除非候选者的硬窗口化方法对于捕获视频的局部性是有效的，但是由于窗口的大小是离散值，因此需要人为调整过程来设置超参数，这使得解决方案不那么优雅和不完整。为了克服这个问题，我们提出了一个可学习的距离评分函数，它将连续帧的两个像素之间的距离作为输入，并简单地输出从0到1的空间距离分数当将信息从参考帧像素传输到查询帧像素时，它为远距离像素输出低分数，反之亦然。我们还提出了一种新的数据增强技术的VOS，称为交换和附加增强。通过简单地在多个序列之间交换对象并将交换的对象附加到帧上，可以模拟具有严重遮挡的真实视频数据。由于这会创建包含多个纠缠对象的训练片段，因此模型可以学习强特征表示，以迫使每个对象具有独特的特征。此外，它通过显着增加VOS训练数据的量来推广模型，与其他视觉任务相比，VOS训练数据是稀缺的。+v：mala2255获取更多论文解决视频对象分割中的背景干扰3我们通过在三个公共VOS基准数据集上进行评估来验证我们方法的有效性，即，DAVIS 2016 [28]、DAVIS 2017 [29]和YouTube- VOS2018 [40]数据集。在所有数据集上，与当前最先进的方法相比，我们的方法在保持实时推理速度的同时实现了具有竞争力的性能。特别是，在有背景干扰的复杂场景中，我们的方法被证明比最先进的解决方案更有效。请注意，我们所有的实验都是在单个GeForce RTX 2080Ti GPU上实现的，这使得我们的方法比其他需要强大硬件资源的最先进方法更容易实现。我们相信我们提出的三种新策略将被广泛用于未来的VOS研究。我们的主要贡献可归纳如下：– 我们引入了一种时空多样的模板构建机制，为稳定和鲁棒的特征匹配准备不同的特征。– 我们提出了一个端到端的可学习的距离评分函数，以充分利用视频中两个连续帧之间的时间一致性。– 我们提出了交换和附加增强，通过确保训练数据的多样性和模拟遮挡样本来学习强大的VOS模型。– 我们提出的方法在DAVIS和YouTube-VOS数据集上实现了具有竞争力的性能，同时保持了实时性能。2相关工作特征相似性匹配。当代VOS方法基于嵌入特征的相似性来跟踪和分割指定对象。由于半监督VOS是一个像素级的分类任务，在大多数情况下，采用像素级的精匹配。PML [3]使用最近邻分类器学习逐像素嵌入。VideoMatch [12]使用软匹配层生成扩展这些工作，FEELVOS [34]和CFBI [41]利用全局匹配和局部匹配来获得长期和短期外观信息。RANet [36]通过根据其重要性排名和选择一致的特征图，最大限度地使用来自特征相似性匹配的相似性图。为了充分利用从所有先前帧中提取的信息，STM [27]通过将具有对象掩码的过去帧定义为外部存储器，并将当前帧定义为查询来采用存储器网络。查询和存储器在特征空间中密集匹配，覆盖所有时空像素位置。从STM扩展，KMN [31]提出了内存到查询的匹配，以通过应用2D高斯内核来传输所存储的信息时减少背景干扰。EGMN [25]利用情景记忆网络，其中帧被存储为节点，以便可以有效地捕获跨帧相关性。这些基于内存的方法实现了令人钦佩的性能，但面临着一个严重的问题：内存的大小随着时间的推移而增加，因此，它们对于长视频效率低下。为了解决这个问题，GC [19]存储并更新+v：mala2255获取更多论文4个S. Cho等人初始帧掩码降采样空间分集初始帧图像编码器BG全球匹配模板更新w/更新FG整体匹配模板��更新w/更新Previous Frame Mask��−��下采样编码器上一帧图像��压缩模板��−��BG本地匹配模板−��短期匹配模板��FG更新w/更新长期匹配模板��查询框架图像编码器嵌入式功能多样化匹配输出分数解码器查询框掩码Fig. 1. 我们提出的方法的架构。特征相似性匹配模板根据各自的目标独立构造和更新模板的空间多样性和时间多样性分别在水平和垂直方向上表示。几个组件，例如，为了更好地阐明整个体系结构，省略了跳过连接和掩模过去的框架。AFB-URR [21]引入了一种自适应特征库更新方案，以有效地丢弃过时的特征并基于预定义的策略吸收新特征利用时间一致性。由于视频在连续帧之间共享一些共同特性，因此存在利用视频的这种时间一致性的若干VOS方法。FEELVOS和CFBI应用固定大小的方形窗口进行局部特征相似性匹配。当将信息从先前相邻帧传输到查询帧时，每个查询帧像素只能参考以该像素的空间位置为中心的正方形窗口内的区域类似地，RMNet [38]也通过应用方形窗口来减少搜索区域。光流模型首先通过扭曲先前帧分割掩码来粗略地预测查询帧的分割掩码然后，基于粗略预测的查询帧分割掩码来生成并应用方形窗口。这些硬窗口化方法在利用视频的时间一致性方面是有效的，但是由于视频的大小，窗口是一个离散值，它需要人工调整过程，也不是端到端可学习的。3方法在我们的框架中，视频序列中的帧使用初始帧中给出的地面真值分割掩码基于嵌入特征之间的特征相似性来执行掩模预测制备各种BG FGSSBGC C FGBGL L FGBGOOFG时间分集+v：mala2255获取更多论文∈ −∈∈0101∈ −BGSN0BGBGFGFG1FG解决视频对象分割中的背景干扰5模板特征用于特征匹配，我们采用时空多样化的模板构造机制。然后，特征匹配的结果与从编码器提取的低级特征和下采样的先前相邻帧掩码一起被馈送到解码器。我们的框架概述如图1所示。3.1空间多样性按照以前的方法[6，12，34，36，41]，我们采用像素级精细匹配来捕获生成详细分割所必需的细粒度信息。给定I i是帧i处的输入图像，在通道L2归一化之后，该帧的嵌入特征被定义为X i[ 1，1] C×H×W。所提供或预测的分割掩码及其下采样版本分别表示为 Mi[0，1] 2×H×W× 0和 Mi[0，1]2×H×W。第一通道指示背景的概率，并且第二通道指示前景对象的概率。使用X i和m i，我们将像素级精细匹配模板F i∈[−1，1] C×H×W定义为i=Ximii=Ximi，（1）其中m表示Hadamard乘积，mi和mi表示第一个，第二信道分别为mi精细匹配在捕捉像素级固有的细节方面是有效的，但此后，容易受到具有与前景对象相似外观的背景干扰物的影响。为了获得对象及其背景的更一般的特征，即，为了获得空间分集，我们提出了粗匹配来补充精匹配。与细匹配模板的感受野小且局部不同，粗匹配模板的感受野是动态定义的，覆盖大范围。因此，粗匹配能够获得前景和背景之间的明确区分，因为离群特征不太可能负面影响特征相似性匹配得分。为了设计粗匹配模板，我们首先构建一个压缩模板Ci[ 1， 1]C×1×1，该模板表示Xi的归一化平均特征，该特征由每个空间位置中每个类别的概率通过使用预先计算的Fi，可以将其总结为C i = N。S. X i mi = N. S. FiC i= N。S. X i m i = N. S. 中国，（2）其中和分别表示通道求和和通道L2归一化。压缩模板用于根据基于某些目标预定义的相应策略来构建各种粗匹配模板，以利用各种时间特性。FF+v：mala2255获取更多论文∈ − ∈ −∈ −k=00k=00BGBGBGBGBGBGBGBGBG1FGFGFGFGFGFGFGFGFG6 S. Cho等人3.2推导时间分集尽管空间多样性对于丰富嵌入特征的语义信息是有效的，但是考虑到视频的性质，利用时间多样性也是重要的在构建精细匹配模板时，我们使用初始帧来利用准确的信息，并使用先前的相邻帧来利用最相关的信息，类似于FEELVOS [34]，CFBI [41]和BMVOS [6]。这些匹配模板分别被定义为全局匹配模板和局部匹配模板。与其元素包含其唯一位置信息的精细匹配模板相反，压缩模板中的特征不包含任何位置信息，因为其仅具有单个空间位置。因此，它能够基于特定目标集成历史帧的多个压缩模板。使用这个，我们建立时间多样化的粗匹配模板，以充分利用视频的各种时间特定的属性。我们将粗匹配模板定义如下：1）总体匹配模板，其沿着整个视频记忆一般特征; 2）短期匹配模板，其通过更加关注时间上接近的帧来构建; 3）长期匹配模板，其通过更加关注时间上远离的帧来构建。假设帧i是正在处理的当前帧，则总体匹配模板Oi[1，1]C×1×1、短期匹配模板Si[1，1]C×1×1和长期匹配模板Li[1，1]C×1×1定义如下。µO，BG = i−1 S。mk/ik=01S. mkµO，FG = i−1 S。mk/iS. mkO i = N。µ O，BG Oi−1+（1 − µ O，BG）C iO i= N。µO，FG Oi−1+（1−µO，FG）Ci（3）Si= N。µ S，BG Si−1+（1 − µ S，BG）C iSi= N。µS，FG Si−1+（1−µS，FG）Ci（4）L i= N。µ L，BG Li−1+（1 −µ L，BG）C iL i= N。µL，FG Li−1+（1−µL，FG）Ci（5）考虑到压缩模板是信道归一化向量，如果两个向量具有不同的方向，则对两个向量取平均将生成尺度低于1因此，粗匹配模板的尺度将随着时间的推移而不断减小，这将导致尺度消失的为了防止这种情况，我们在每个模板更新步骤之后应用通道重新归一化，以将粗匹配模板的尺度保持在1。短期匹配和长期匹配的惯性值，即，μS和μL，k=0+v：mala2255获取更多论文××××∈ −解决视频对象分割中的背景干扰7（一）上一帧图像掩码（b）第（1）款查询帧图像（一）（b）第（1）款图二. 当应用空间距离评分时，用于局部匹配的可视化信息传递流。每个参考帧像素的信息由指示两个像素在空间上有多接近的距离分数可学习的参数，并在网络训练阶段进行训练。为了按下要针对相应目标训练的值，我们将初始值设置为1和1，分别。在初始帧，所有µ值均设置为1+exp（1）1+exp（−1）0，因为没有前一帧。3.3多样化特征相似性匹配假设帧i是查询帧，则空间-时间多样化的模板，即，全局匹配模板F0、局部匹配模板Fi-1、总体匹配模板Oi-1、短期匹配模板Si-1和长期匹配模板Li-1与查询帧嵌入特征Xi进行比较。假定特征相似性匹配模板具有大小C M N，则沿着信道维度取矩阵内积Xi将输出大小为MNHW的相似性图。通过对每个模板和类进行查询最大化操作和整形，得到一个大小为H W的得分图。由于存在由前景和背景组成的五个不同的匹配模板，特征相似性匹配的输出得分被定义为 Zi[ 1 ，1]10×H×W。这些分数被馈送到解码器中作为输入，以提供可以指定目标对象的视觉导出信息。3.4空间距离评分如前所述，特征相似性匹配以非局部方式操作，这排除了视频的时间一致性的重要性。然而，视频序列中的相邻帧彼此强烈依赖，因此主要是局部的。为了利用VOS的这种局部性，FEELVOS [34]和CFBI [41]通过在将先前相邻帧信息传输到查询帧时对每个空间位置应用方形窗口来限制搜索区域类似地，RMNet [38]减少了通过使用预先训练的光流模型扭曲前一帧掩码生成的硬正方形这些硬窗口方法在捕获视频的时间一致性方面是有效的，但是由于窗口的大小是离散值，因此它需要人工调整过程，这使得解决方案不那么优雅和完整。为了自动获得时间一致性而无需任何人为调整过程，我们提出了一个端到端可学习的距离评分函数，+v：mala2255获取更多论文.交换连接8个S. Cho等人图三. 应用交换和附加数据增强方法之前和之后的示例视频序列。两个像素之间的空间距离作为其输入，并简单地输出从0到1的距离分数。当与前一帧执行局部匹配时，我们首先基于欧几里德距离计算距离矩阵，该距离矩阵包括每个前一相邻帧像素位置p和查询帧像素位置q的空间距离，如d=（px−qx）2+（py−qy）2，（6）其中px、py、qx和qy是p和q的x、y坐标。然后，通过将距离评分函数独立地应用于矩阵中的每个单个元素，可以获得空间距离评分D为D=f（d; w）=Sigmoid（w2 max（0， w1 d）），（7）其中f是距离评分函数，w表示F. 通过将空间距离分数乘以从局部匹配获得的特征相似性分数图2显示了应用空间距离评分时的信息传输流程。由于信息传递是通过两个像素之间的空间距离分数来调整的，因此可以有效地考虑相邻帧之间的时间一致性。3.5交换和连接增强由于在像素级别注释视频数据非常费力，与其他计算机视觉任务相比，VOS数据是为了增加VOS训练数据的数量，我们提出了一种交换和附加数据增强方法。在图3中，我们展示了应用交换-附加扩充时的一些示例序列。在网络训练阶段，单个批次的每个视频序列与不同批次的另一个视频序列交换其信息。来自多个帧的对象在不同序列之间联合交换并附加在相应的帧上。由于该过程不损害每个视频序列的时间一致性，因此生成的视频序列也是真实的，并且在连续帧之间具有时间连接性交换-附加扩增有两个主要优点。首先，随着训练数据量的急剧增加，模型可以更加通用。其次，由于对象可能被附着的对象严重遮挡，因此模型可以学习强特征表示以迫使每个对象具有独特的特征。+v：mala2255获取更多论文×解决视频对象分割中的背景干扰93.6实现细节编码器。我们采用DenseNet-121 [13]架构作为我们的编码器。为了初始化具有丰富特征表示的模型，我们使用ImageNet [17]预训练版本。由于从原始DenseNet- 121中提取的最高级别特征分辨率较低，因此我们跳过最后一个块以使用更高的特征分辨率。译码器解码器从编码器获取处理后的特征，并从特征匹配模块获取提示，生成最终的分割。为了更好地利用VOS的局部性，在预测帧i时，mi-1被馈送到解码器。由于Zi和mi−1的空间大小与所需的输出大小相比很小，因此从编码器提取的低级特征也通过跳过连接馈送到解码器的中间为了快速解码，像CRVOS [5]中一样，在每个跳过连接之后添加通道减少去卷积层[43为了获得丰富的特征表示，我们在每个去卷积层之后采用CBAM [373.7网络训练遵循大多数最先进的方法[10，21，27，31，38]，我们使用静态图像数据集COCO [23]模拟训练样本，以获得足够的训练数据。在使用静态图像对网络进行预训练后，DAVIS 2017 [29]训练集或YouTube-VOS 2018 [40]训练集将根据测试数据集用于主训练。从视频序列中，我们随机地来自10个连续帧的384384个补丁。如果第一帧不包含任何对象，则重复裁剪直到其包含至少一个对象。在此之后，单个指定对象被定义为前景对象，并且其他对象被认为是背景。与CFBI [41]类似，如果前景像素的数量不够，则该序列不用于网络训练，以防止模型偏向背景属性。我们使用交叉熵损失和Adam优化器[16]，学习率为1 e-4，没有学习率衰减。在网络训练过程中，骨干编码器被冻结，所有批量归一化层[14]都被禁用。以20%的概率应用交换和附加增强。4实验在本节中，我们首先在第4.1节中描述了本研究中使用的数据集和评价指标。我们提出的方法的每个组成部分在第4.2节中得到验证。与最新技术水平方法的定量和定性比较分别见第4.3节和第4.4节。我们的方法缩写为TBD。4.1实验装置数据集。半监督VOS的任务与两个流行的基准数据集相关联，即，[28][29]戴维斯+v：mala2255获取更多论文J10秒。Cho等人表1. 对申报组件进行消融研究。G、L、O和T分别表示使用全局、局部、总体和短期长期匹配模板DS、HW和Size表示空间距离评分、硬窗口和硬窗口的窗口大小（窗口的中心点和边之间的距离Aug表示使用交换和附加增强。这些模型在DAVIS 2017验证集上进行了测试版本GLO不DSHW大小 AugGMJMFM我✓✓✓✓✓✓✓✓✓✓✓-✓77.275.379.1II✓-✓72.770.275.2III✓-✓79.176.781.6IV✓-✓78.776.780.7VVI✓✓✓✓✓✓✓✓-✓1✓✓78.879.276.776.980.981.5VII✓✓✓✓✓2✓79.376.981.8VIII✓✓✓✓✓4✓79.977.482.5IX✓✓✓✓✓8✓78.576.380.7X✓✓✓✓✓-78.676.181.2Xi✓✓✓✓✓-✓80.077.682.32016年由训练集中的30个视频和验证集中的20个视频组成DAVIS 2017包含训练集中的60个视频，验证集中的30个视频每个视频都是24fps，所有帧都有注释。YouTube-VOS 2018是VOS最大的数据集，在训练集中包含所有视频都是30 fps，每五帧注释一次。评价指标。我们使用VOS的标准评估指标。使用区域准确度和轮廓准确度评估具有硬标签的预测分割掩模。区域准确度可以通过计算预测的分割掩码和地面实况分割掩码之间的交集中的像素数量，然后将其除以它们的并集的大小来获得。轮廓精度F可以使用相同的过程获得，但仅在对象边界上进行评估。总精度G是J和F测量值的平均值。4.2分析模板的时空多样性为了在感知全局趋势的同时捕获局部关键点，我们同时使用细匹配模板和粗匹配模板。此外，我们使用多个子模板来构建每个模板，以利用各种时间属性。在表1中，对不同模板施工方案的各种模型版本进行了比较。可以看出，与单独使用精细匹配和粗略匹配时相比，精细匹配和粗略匹配的联合使用显著地改善了性能使用不同的时间属性也定量验证是有效的。在+v：mala2255获取更多论文G解决视频对象分割中的背景干扰11查询帧图像地面实况精细粗略精细+粗略图四、不同空间模板构建方案的各种模型版本的定性比较。精细匹配和粗略匹配分别表示使用精细匹配和粗略匹配。图4，我们比较了具有不同空间分布的特征匹配模板的各种模型版本的结果可以看出，精细匹配对于捕获局部细节是有效的（第二序列），但是此后，由于它错过了全局趋势（第一序列）而容易受到视觉干扰相比之下通过同时使用细匹配和粗匹配方法，可以有效地利用它们各自的优点。空间距离得分。在或-为了捕获视频中连续帧之间的时间一致性而无需人工调整过程，我们通过学习距离评分函数来提出一种新的空间距离评分方法，该距离评分函数将两个像素之间的空间距离作为其输入并输出朴素距离分数。根据表1，我们的亲-�� 设定的空间距离评分方法比FEELVOS [34]和CFBI [41]中使用的硬窗口方法更有效，甚至不需要手动调整。我们也可以想象图五. 可视化输入和输出经过全面训练的距离评分功能。空间距离表示特征嵌入后两个像素之间的欧氏距离。一个经过全面训练的距离计分功能来确认它是否真的有效。如图5所示，当两个像素在空间上接近时，完全训练的距离评分函数输出高距离分数，反之亦然，这符合预期的行为。交换和附加增强。通过表1中的定量评估，我们提出的交换和连接增强也被证明是有效的。简单地交换和附加不同批次的对象可以带来1.4%的分数提高，因为它增加了训练数据的数量，并提供了包含一些严重遮挡的硬训练样本。�� +v：mala2255获取更多论文12 S. Cho等人表2. DAVIS数据集的定量评价。OL表示在线学习。（+S）表示在网络训练期间使用静态图像数据集。2016年价值2017年价值2017测试开发方法OL FPSGMJMFMGMJMFMGMJMFM[39]第39届中国国际音乐节0.2683.883.883.861.758.764.6---[34]第34话最后一句话2.2281.780.383.169.165.972.354.451.257.5[44]第四十四话----70.768.173.3---[22]第二十二话10.0---67.464.969.957.254.859.7RANet（+S）[36]30.385.585.585.465.763.268.255.353.457.2[45]第四十五话14.383.683.783.567.464.270.6---[27]第二十七话6.2586.584.888.171.669.274.0---DIPNet（+S）[1]0.9286.185.886.468.565.371.655.2--LWL（+S）[1]✓14.0---74.372.276.3---加拿大（+S）[41]5.5686.185.386.974.972.177.7---GC（+S）[19]25.086.687.685.771.469.373.5---KMN（+S）[31]8.3387.687.188.176.074.277.8---美国（+S）[21]4.00---74.673.076.1---[24]第二十四话-85.785.486.074.771.577.963.159.766.5[38]第38届中国国际音乐节11.981.580.682.375.072.877.2---LCM（+S）[10]8.47---75.273.177.2---美国（+S）[8]----78.475.481.4---加拿大（加拿大）[32]10.0 89.4 88.2 90.6 80.4 77.7 83.1---TBD（+S）50.1 86.887.586.280.077.682.3 69.4 66.6 72.2[22]第二十二话10.0---66.663.469.854.351.557.1RANet [36]30.3-73.2-------STM [27]6.25---43.038.147.9---FRTM [30]✓21.981.7--68.866.471.2---[46]第四十六话37.0---72.369.974.763.158.867.4[26]第二十六话✓4.00---78.6 76.0 81.2---BMVOS [6]45.982.282.981.472.770.774.762.760.764.7TBD50.1 84.3 85.2 83.4 75.273.277.2 66.0 63.1 68.94.3定量结果戴维斯我们在表2中对我们提出的方法与DAVIS 2016 [28]和DAVIS2017 [29]数据集上的最先进方法进行了定量比较。对于所有方法，推理速度都是在DAVIS 2016验证集上计算的，分辨率为480p。TBD在所有数据集上都显示出具有竞争力的性能，甚至保持了实时推理速度。与速度超过24 fps（DAVIS默认设置）的实时方法相比，它的性能明显优于所有现有方法Youtube-VOS。在表3中，我们的方法与YouTube-VOS 2018验证集上的最先进方法进行了比较。将军表示MAST [18]中提出的为了捕捉小物体，如果目标物体包含的像素小于1，000，则使用720 p分辨率;如果不是，则使用+v：mala2255获取更多论文解决视频对象分割中的背景干扰13表3. YouTube-VOS 2018验证集的定量评估。OL表示在线学习，（+S）表示在网络训练期间使用静态图像数据集。将军表示可见和不可见类别之间的泛化差距方法OLFPSGMJSJUFSFU将军[44]第四十四话12.051.758.341.660.746.315.6[27]第二十七话-79.479.772.884.280.95.10SAT（+S）[2]39.063.667.155.370.261.710.2LWL（+S）[1]✓-81.580.476.484.984.42.25[25]第25话-80.280.774.085.180.95.45加拿大（+S）[41]-81.481.175.385.883.44.10GC（+S）[19]-73.272.668.975.675.71.80KMN（+S）[31]-81.481.475.385.683.34.20美国（+S）[21]-79.678.874.183.182.62.60[24]第二十四话6.0073.072.769.175.274.91.95[38]第38届中国国际音乐节-81.582.175.785.782.44.85LCM（+S）[10]-82.082.275.786.783.44.90GIEL（+S）[9]-80.680.775.085.081.94.40[35]第35话-77.877.872.381.879.53.90美国（+S）[8]-81.781.276.0---[26]第26✓-83.181.578.785.986.51.10加拿大（加拿大）[32]-82.682.176.887.084.63.85[42]第四十二话41.080.280.174.084.582.24.20[42]第42话最后一句话9.3084.584.377.989.386.44.65STCN（+S）[4]-83.081.977.986.585.72.40TBD（+S）30.480.579.475.583.883.22.25Rvos [33]22.756.863.645.567.251.017.2A-GAME [15]-66.167.860.8---[22]第二十二话12.571.371.365.576.273.14.45CapsuleVOS [7]13.562.367.353.768.159.910.9STM [27]-68.2-----FRTM [30]✓-72.172.365.976.274.14.25[46]第四十六话37.067.867.163.069.471.60.95STM循环[20]43.069.971.761.475.870.47.85BMVOS [6]28.073.973.568.577.476.03.20TBD30.477.877.472.781.279.93.00480p分辨率。实验结果表明，TBD与其他竞争方法相当，同时显示出30.4 fps的快速推理速度。4.4定性结果在图6中，我们将我们的方法与最先进的STM [27]和HMMN [32]进行了定性比较。可以看出，与其他方法相比，TBD预测更稳定的输出，这要归功于其多样化的特征相似性匹配模板和空间距离评分。还可以观察到异常的时间一致性和对遮挡的鲁棒性。+v：mala2255获取更多论文14岁。Cho等人见图6。通过与其他最先进的方法进行比较，对TBD进行定性评价。5结论我们介绍了一种时空多样的模板构造方案的鲁棒性和稳定的VOS。此外，提出了一种具有可学习的距离评分函数的空间距离评分方法和一种新的交换和附加增强方法。在公共基准数据集上，我们的方法实现了与当前最先进的解决方案相当的性能，同时保持了实时推理速度。我们相信我们的方法将广泛用于未来的VOS研究和计算机视觉的各个领域。致谢。本研究得到&了科学和信息通信技术部资助的韩国国家研究基金会（NRF）的高级集成智能识别（AIID）研发计划（NRF-2018 M3E3 A1057289）和KIST机构计划（项目编号2 E31051 -21-203）的支持。TBDHMMNSTMHMMNTBDSTMTBDHMMNSTM+v：mala2255获取更多论文解决视频对象分割中的背景干扰15引用1. Bhat，G.，Lawin，F.J.，Danelljan，M.，Robinson，A.，Felsberg，M.，凡古尔湖，拉弗特，R.：学习视频对象分割的学习内容。欧洲计算机视觉会议。pp. 777-794.施普林格（2020）2. 陈旭，Li，Z.，Yuan，Y.，Yu，G.，沈，J.，Qi，D.：用于实时视频对象分割的状态感知跟踪器。IEEE/CVF计算机视觉和模式识别会议论文集。pp. 93843. 陈玉，Pont-Tuset，J.，Montes，A.，Van Gool，L.：极快的视频对象分割与像素度量学习。在：IEEE计算机视觉和模式识别会议论文集。pp. 11894. 郑汉钧，戴耀威，邓俊光：重新思考具有改进内存覆盖的时空网络，以实现高效的视频对象分割。神经信息处理系统进展34（2021）5. Cho，S.，Cho，M.，Chung，T.y.，李，H.，Lee，S.：Crvos：用于视频对象分割的线索细化网络。2020 IEEE International Conference on ImageProcessing（ICIP）pp. 2301-2305. IEEE（2020）6. Cho，S.，李，H.，Kim，M.，Jang，S.，Lee，S.：用于视频对象分割的像素级双射匹配arXiv预印本arXiv：2110.01644（2021）7. Duarte，K.，Rawat，Y.S.，Shah，M.：Capsulevos：使用胶囊路由的半监督视频对象分割。IEEE/CVF计算机视觉国际会议论文集。pp. 84808. Duke，B.，Ahmed，A.，沃尔夫角，Aarabi，P.，泰勒，G.W.：Sstvos：用于视频对象分割的稀疏空间时间变换器。IEEE/CVF计算机视觉和模式识别会议论文集。pp. 59129. Ge，W.，卢，X.，Shen，J.：使用全局和实例嵌入学习的视频对象分割。IEEE/CVF计算机视觉和模式识别会议论文集。pp. 1683610. 胡，L.，张，P.，张，B.，潘，P.，徐，Y.，Jin，R.：学习位置和基于记忆的视频对象分割的目标一致性。In：ProceedingsIEEE/CVF计算机视觉与模式识别会议pp. 414411. Hu，P.，刘杰，Wang，G.，Ablavsky，V.，Saenko，K.，Scaroff，S.：Dipnet：用于视频对象分割的动态身份传播网络。IEEE/CVF计算机视觉应用冬季会议pp. 1904-1913（2020）12. Hu，Y.T.，Huang，J.B.，Schwing，A.G.：视频匹配：基于匹配的视频对象分割.在：欧洲计算机视觉会议（ECCV）的会议记录。pp. 5413. Huang，G.，刘志，范德马滕湖，Weinberger，K.Q.：密集连接的卷积网络。在：IEEE计算机视觉和模式识别会议论文集pp. 470014. Ioffe，S.，Szegedy，C.：批量归一化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167（2015）15. Johnander，J.，Danelljan，M.，Euglemman，E.，Khan，F.S.，Felsberg，M.：一种用于端到端视频对象分割的生成式外观模型。IEEE计算机视觉与模式识别会议论文集。pp. 8953-8962（2019）+v：mala2255获取更多论文16S. Cho等人16. 金玛，D.P.，Ba，J.：Adam：一种随机优化方法ArXiv预印本arXiv：1412.6980（2014）17. 克里热夫斯基，A.，萨茨克弗岛，巴西-地Hinton，G. E.：Imagenet分类与深度对比演化神经网络Communications of the ACM60（6），8418. Lai，Z.，Lu，E.，Xie，W.：Mast：一个记忆增强的自我监督跟踪器。在：IEEE/CVF计算机视觉和模式识别会议论文集。pp. 647919. 李，Y.，沈志，Shan，Y.：基于全局控制的文本模块。欧洲计算机视觉会议pp. 735-750 施普林格（2020）20. 李，Y.，Xu，N.，彭，J.，你看，杰，Lin，W.：探讨了半封闭循环的循环机制监督视频对象分割。arXiv预印本arXiv：2010.12176（2020）21. 梁玉，Li，X.，Jafari，N.，Chen，Q.：基于自适应特征库和不确定区域细化的视频对象分割。arXiv预印本arXiv：2010.07958（2020）22. Lin，H.，Qi，X.，Jia，J.：Agss-vos：注意力引导的单镜头视频对象分割站。在：IEEE计算机视觉国际会议论文集。pp. 394923. Lin，T.Y.，Maire，M.，Belongie，S.，嗨，杰，P.，Ramanan，D.，多尔拉尔山口，Zitnick，C.L.：Microsoft Coco：上下文中的通用对象。在：欧洲计算机视觉会议。pp. 740-755. Springer（2014）24. Li

下载后可阅读完整内容，剩余1页未读，立即下载