视频对象分割中基于语义对齐的多级表示学习技术

134 浏览量更新于2023-10-25 收藏 1.96MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

4996基于语义对齐的多级表示学习视频对象分割Dongming Wu1，2张伟，Xingping Dong2张伟，Ling Shao3，Jianbing Shen4†1北京理工大学、2先启人工智能研究院3Terminus Group，中国，4SKL-IOTSC，澳门wudongming@bit.edu.cn，{xingping.dong，shenjiangbingcg}@ gmail.com，ling. ieee.org摘要参考视频对象分割（RVOS）是一个基于语言引导的视频基础任务，需要全面理解视频内容和语言查询的语义信息，以便进行对象预测。然而，现有的方法采用基于帧的空间粒度的多模态融合。视觉表示的局限性容易导致视觉语言的不匹配，从而产生不好的分割结果。为了解决这个问题，我们提出了一种新的多层次表示学习方法，该方法探索视频内容的固有结构，以提供一组有区别的视觉嵌入，从而实现更有效的视觉语言语义对齐。具体来说，我们根据视觉粒度嵌入不同的视觉线索，包括视频级的多帧长时信息、帧级的帧内空间语义和对象级的增强对象感知特征先验。通过强大的多层次视觉嵌入和精心设计的动态对齐，我们的模型可以生成一个鲁棒的表示精确的视频对象分割。在Refer-DAVIS17和Refer-YouTube-VOS上的大量实验表明，我们的模型在分割精度和推理速度方面都取得了优异的性能。1. 介绍参考视频对象分割（RVOS）的目的是在给定的自然语言表达的情况下，从视频中预测最相关的它具有广泛的应用，包括视频编辑，虚拟现实和人机交互[49]。不同于常规的无监督或半监督视频对象分割（VOS）[12，21，33，53，54]，其定位具有关键帧的显著性或注释的对象，RVOS需要跨模态理解。* 同等缴款。†通讯作者：沈建兵。工作是在吴东明在IIAI实习时完成的。图1. 不同层次模型之间的直观比较。简单的帧级建模难以识别（b）运动对象或（c）被遮挡的小对象。相比之下，我们的多层次建模提供了一种联合方式来利用跨模态对齐的长时间和空间显著线索，从而提供更准确的结果（a）（d）。在语言查询和视频内容之间切换。当人类在语言的引导下识别所指对象时，很自然地依赖于三个步骤：1）观察其外观（即，基于帧的），2）基于多个帧检查其移动（即，基于视频的），3）将更多的注意力转移到被遮挡的或小的对象（即，基于对象的）。大多数当前的方法[1，25，43]只是利用成功的引用图像理解方法进行跨模型理解。他们要么使用参考图像接地[24，31，58，60]来生成目标对象边界框作为建议，要么直接使用参考图像分割[6，10，18，22，27，56]。然而，这些解决方案建立在简单的框架级视觉表示上来执行框架-句子交互。与人类识别系统相比，这些帧级建模方法存在两个局限性：忽略长时间信息和缺乏对显著空间对象的关注。视觉表现的局限性导致了错误的-视频级建模（一）英文片名：A Lion IsWalking向右（b）第（1）款框架级建4997···J两个模态之间的对准，进一步产生不准确的分割结果。例如，如图1所示，给定输入视频及其对应的描述然而，由于视频中存在多个狮子，帧级建模不能通过仅采用如图1（b）所示的空间外观信息来识别正确的狮子。由于所指对象具有时间运动状态，因此需要结合多帧的长时间信息来识别动作。此外，还有一个表达，然而，帧级建模只关注每个帧的全局语义，而忽略了这些重要的、有代表性的视觉区域。这将导致所指对象的缺失，如图1（c）所示。为了缓解这一困难，还需要从每个帧中捕获显著的空间对象作为候选对象，以促进跨模态理解。在本文中，我们提出了一种新的多级学习框架，解决RVOS。该模型首先对视频内容进行细粒度分析，以实现多粒度视觉嵌入：在视频粒度上，我们提出了一种跨帧逐像素计算器来建模整个视频的长时间依赖关系，使得特征表示能够捕捉对象运动和动态场景信息。在帧粒度上，我们鼓励帧表示描述整个图像中的全局内容，通过学习聚集帧内信息，遵循自注意机制。在对象粒度上，我们利用从对象检测器生成的对象感知信息来增强前景和背景的可辨别性，这得益于解决遮挡和小对象的情况。一旦我们获得了多层次的视觉嵌入，我们提出了动态语义对齐（DSA），他们与语言特征进行交互。特别地，为了有效地捕获粒度特定的信息，我们首先根据不同的视觉线索单独地结合全局语言语义。生成的视觉条件的语言特征与相应的视觉嵌入相结合，为所指对象提供最后，我们整合了多层次的目标感知特征和边界信息，使用边界感知分割（BAS）来指导所有帧的掩模预测。总的来说，我们的贡献总结为三个方面：首先，我们提出了一个新的框架RVOS的基础上多级表示学习。它通过更结构化的视频表示排除了单帧级视觉建模的限制，从而促进了准确的视觉-语言语义对齐其次，本文提出了动态语义对齐（DSA）算法，该算法能够动态地学习语言语义，并将其与不同粒度的视觉表示进行匹配，从而更加简洁有效。第三，我们的方法在两个具有挑战性的基准上实现了令人信服的性能，包括Refer-DAVIS17 [25]和Refer-YouTube-VOS [43]。值得注意的是，我们获得了6.6%的显着改善，比最好的帧粒度的方法在参考DAVIS17。同时，它实现了53.2 FPS的高推理速度。2. 相关工作2.1. 参考视频对象分割参考视频对象分割（RVOS）的目标是定位视频中与自然语言表达描述相Khoreva等人[25]介绍了一种两阶段的方法，第一阶段在图像中生成边界框[58，60]，第二阶段从视频中分割参考对象[20，40]。Seo等人[43]将YouTube-VOS [54]扩展为一个新的大规模基准，名为Refer-YouTube-VOS。同时，他们通过统一跨模态注意模块[56]和时空记忆网络[38]提出了一个端到端的框架。最近，RefVOS [1]采用表达式的细粒度分类来克服过拟合。然而，它们的框架-句子交互机制缺乏长时间和细粒度的视觉表征，进一步导致了前面讨论过的跨模态错位。虽然大量关于演员和动作视频分割的工作[11，19，34，45，46，57]也研究了语言查询视频分割的问题，但它们的描述仅限于执行突出“动作”的“演员”的格式。新出现的RVOS在视觉和语言模式上都显示出改善的困难。因此，我们的方法可以被视为一个更普遍的工作，以处理现实生活中的情况。2.2. 多级表示学习多层表示学习是特征嵌入中的一个常见概念，包括自然语言处理[9，14，32]和计算机视觉[2，7，8，13，17，52，61]。语言处理通常与单词-短语-句子组合语义合作以丰富单词嵌入，而视觉任务则专注于利用空间或时间粒度来学习鲁棒且强大的视觉特征表示[29，30，47，48]。对于视频理解任务，最流行的粒度分析是建立在时间顺序上[16，17，28，49]。例如，Huet al. [17]关联不同的子网络以利用先前帧的固有时间连续性来进行快速视频语义分割。Lu等人[30]总结了全球化的框架、短期、长期和全球特征，4998∈∈×多层次视觉表示动态语义对齐边界感知分割视频级嵌入语义对齐^CNN帧级嵌入语义对齐C^对象级嵌入[0，语义对齐我的天啊C级联对象检测器曲名：ASheepRunningDownaHill图2. 说明我们的多级表征学习与语义对齐，其中包括三个主要组成部分，用于嵌入不同级别视觉特征的多级视觉表示（§3.1），用于匹配视觉-语言模态的动态语义对齐（§3.2），以及用于输出目标的像素级掩模的边界感知分割（§3.3）。每个视频用于鲁棒的无监督视频对象分割。然而，这些方法局限于视觉建模，不能处理关键的跨通道理解。最近，几种语言查询任务[23，36，50，59]解决了这些缺点，并通过全局-局部视频-语言对齐实现了有希望的对象或时刻定位，但它们不适合细粒度对象分割。本文提出了一种新的视角，探索多层次的视频信息和跨模态语义对齐精确掩模预测。3. 方法给定一个视频片段和一个自然语言查询，我们的方法的目标是自动生成一组参考对象掩码。我们在图中说明了整个管道。二、多级视觉表示首先在视频、帧和对象级别分别嵌入CNN编码的特征，这提供了三种增强的视觉表示（§3.1）。具体的视觉表现和线条-d（d c），并与§3.2中的语言特征保持相同的维度。然后将转换后的视频特征输入到我们的多级视觉表示模块中，以嵌入不同类型的视觉提示。多层次视觉表示由三个独立的嵌入模块组成：1）视频级嵌入，用于描述整个视频的全局和长时统计信息; 2）帧级嵌入，用于学习帧内长距离语义上下文;3）对象级嵌入，用于突出对象感知特征。视频级嵌入。受最近成功的视觉Transformer [3，51]的启发，我们利用自我注意的核心远距离建模能力来制定我们的视频级嵌入模块。它以统一的方式处理所有视频帧，并直接对像素级具体来说，我们将整个视频特征平坦化为2D像素序列P∈RThw×d。三个不同的全连接层WQ，WK，WV是用于将序列变换为Q视频、K视频、V视频：然后将guistic嵌入输入到我们的动态语义对齐中，以共同突出感兴趣的视觉特征（§3.2）。最后，边界感知分割综合了目标感知特征和边界信息进行引导所指对象预测（3.3节）。在下面，我们Q视频=WQK视频=WKV 视频=WVP∈RThw×d ，P∈RThw×d ，P∈ RThw×d.（一）我会仔细地介绍他们。3.1. 多层次视觉表示然后，我们计算一个相似度矩阵A视频与成对点积并用softmax标准化，⊤在学习多层次视觉表示之前，我们首先为给定的视频片段提取逐帧视频特征视频=Softmax（Q视频K视频√d）∈RThw×Thw 、（二）将T帧视频IRT×3×H×W馈送到ResNet- 50 [15]中以获得res 5特征FRT×c×h×w，其中c、h、w表示视频的通道、高度、权重数。其中，A视频测量视频中每个像素之间的相关性。这些视频序列向量根据相关性加权，并与原始P：三维张量。此外，A 11卷积用于将沟道尺寸从c减小到更小Pvideo=视频V视频 +P∈RThw×d、（3）4999矩阵乘积此外线性变换��∈ ℝ��×��∈ ℝ��×��∈ ℝ��×��∈ ℝ��×��^��∈��∈��∈ ℝ��×��∈不∈FFLFFF∈FF不t=1不帧不不Dec不--其中，P_v_id_eo是视频水平特征嵌入。它对多帧信息进行建模，代表对视频的整体理解。帧级嵌入。为了学习帧级特征嵌入，遵循自注意机制，我们为每个帧建立空间像素关系。不同于现有工作[43]处理每个像素，我们的方法独立地用于每个帧它将每个帧特征映射到 2D 张量 PtRhw×d（t=1，.，T），适用于线性trans-形成以生成Q帧、K帧、V帧和每帧。t t t使用可学习的注意力形成加权操作：Q帧K帧2016-05-2501：01：02tV帧+P，（4）tdtt（一）（b）第（1）款在那里，我很高兴，Rhw×d表示第t帧的特征嵌入。对象级嵌入。除了学习视频和图像的全局语义外，我们还进行对象级特征嵌入以捕获显著的空间信息。这可以被视为对象检测过程，其包括两个连续部分，用于对象感知特征提取的对象编码器和用于显著对象生成的分割解码器令enc表示对象编码器，其接受原始视频特征F作为输入，并且直接输出对象-l水平嵌入P_bj_c_t：Pobject=Fenc（F）.（五）之后，我们实现分割解码器dec来生成所有显著对象：×1×H×W，（6）Yobject=F（P∈object）∈RT图3. 语义对齐的两种解决方案：（a）用于全局和长时间对齐的视频级对齐，以及（b）用于空间对齐的帧级对齐。3.2. 动态语义对齐给定不同级别的视觉嵌入表示Pvideo ，PframeTDSA的目标是使两种模态能够相互作用以表征所指对象表征。为了动态地学习与每个视觉粒度最相关的全局语言语义，我们分别嵌入了S视频，S帧，S对象三种语言表示。以视频分支为例，对于具有N个单词的输入语言查询，我们遵循工作[56]将每个单词编码为特征向量。一个Transformer编码器[44]被训练来提取特定的语言特征，表示为Svideo∈RN×d，其中d是特征di-其中，Y对象是所有帧的单通道特征图，其使用S形函数激活，并由对象水平地面实况Y对象b_j_t监督：Lobject=Lmask（Yobject，Yobject）。（七）在对象级丢失对象的激励下，对象编码器可以突出对象敏感特征，作为对象级嵌入对象。的掩模损失L_mask是Dice损失L_dice[35]和焦点损失L_focal[26]的总和，即，L掩模=L切割+L焦点。尺寸同样的操作也适用于帧和对象分支得到S帧和S对象。DSA在交互水平上包括两种解决方案，即，视频级对齐和帧级对齐，如图所示3 .第三章。视频级语义对齐视频（以视频粒度使用）采用两种模态的时间信息进行对齐，而帧级对齐帧（以帧和对象粒度使用）负责空间对齐：M video=Fvideo（Pvideo，Svideo），对象编码器F_enc可以使用各种特征嵌入，丁模型，如全卷积网络（FCN），Mframe=F（Pframe，Sframe），（八）视频级编码器和帧级编码器如前所述，M object=Fframe（Pobject，Sobject），t t的问题。根据经验，我们选择视频级编码器，一个3×3卷积作为我们的对象编码器，根据其中M个视频，M个帧， M对象是跨模态的实验在4.4。分段解码器dec基于完全卷积网络构建，类似于§3.3中的金字塔分割头。综上所述，联合多粒度学习提供了增强的和信息化的视觉表示，这将有助于随后的视觉语言语义对齐。功能. 视频和帧都具有标准的语义对准架构如下所述。语义对齐。为了描述的方便，我们省略了视觉特征的粒度上标和框架下标，将它们重新整形为P<$R（T）hw×d。我们将位置嵌入，如[44，51]中所提出的，添加到vi中不5000∈∈×× ×∈××T×1×H×WFFF∈R，DF视觉和语言特征来保持坐标对齐，并采用线性层来转换它们：P′=Linear（P+ POSV）∈R（T）hw×d，S′=Linear（S+ POSL）∈RN×d，（9）其中POSV和POSL分别是视觉和语言位置。变换后的视觉和语言特征通过矩阵乘积和softmax归一化进一步计算：P′S′×Alang= Softmax（T）∈R（T）hwN.（十）这里注意力地图Alang表示每个单词和视觉表示的每个位置之间的相似性。其次，粒度特定的语言特征是总结-表示为S=AlangSR（T）hw×d，并添加到原始P中，以自动对齐两个特征：M=Linear（AlangS+P）∈R（T）hw×d，（11）其中M表示语义对齐之后激活的目标感知特征我们恢复他们的水平标和视频格式，即，M视频，M帧，M对象RThw×d。它们的大小被重塑为Tdhw，我们沿着信道维度连接它们，即，M =[M个视频，M个帧，M个对象]RT×3d×h×w，用于随后的掩模估计。3.3. 边界感知分割BAS旨在使用丰富的目标感知和边界感知信息来生成像素级掩模。它首先通过接受调制的目标感知特征M和原始视觉特征F作为输入来生成单通道边界图B[42]而α是一个超参数。总体目标是对象级损失的总和（等式2）。7）和实例级损失（等式7）。14）：L=L对象+L实例。（十五）3.4. 实现细节网络在我们的方法中采用的主干模型是ResNet-50[15]，它是在ImageNet [5]上预训练的。我们只使用最后一层的特征图进行视觉嵌入和语义对齐，而BAS接受骨干模型的特征金字塔进行类似FPN的粗到细分割。在BAS中，两个级别之间的映射块由3 - 3卷积、组归一化（8组）和双线性上采样层组成。B和E的最终单通道特征图使用sigmoid进行训练和推理。训练输入视频具有大小为432 240的T = 12帧。语言长度为N=20，特征维度设置为d = 384。对象注释（Eq.7）可以通过组合所有实例级la来获得贝尔斯我们计算边界注释（等式2）。[42]的工作超参数α为0.2。我们的模型在PyTorch上实现[39]，并在四个NVIDIA Tesla V100 GPU上训练，每张卡具有32GB内存。我们使用AdaW优化器对整个模型进行优化，主干使用1e−4的学习率，其余部分使用1e−5 批量大小设置为2。注意，我们预测，对于所有具有额外置信度估计头置信度的帧，置信度得分C =F 置信度（M）∈RT×1，如图所示。二、因此，我们建立了一个新的总体目标：L=Lobject+Linstance+βLconf（C，IoU（Y，Y）），（16）B=Fbdry.Σ男、女[2、3、 4、 5]∈R，（12）其中IoU指示IoU计算操作，并且Lconf是L2丢失。 β=0。1是一个超参数。Fconf包含一个全局平均池和三个完全池，其中 F[2 ， 3 ， 4 ， 5] 是来自不同骨干层（ Res2 ，Res3，Res4，Res5）的简化特征表示。边界头部bdry和分段头部seg具有通过插入不同尺度的原始特征来实现相同的金字塔架构，如[43]的金字塔解码器。来自两个头的输出被连接在一起以估计更精细的对象掩模E：卷积层，最后一层输出T分数。推理。在推理过程中，我们还利用最近的VOS方法STCN [4]来提高跨帧对象的一致性，并作为后处理策略来细化分割结果。STCN以双向方式传播最高置信度掩模以获得用于评估的最终分割掩模我们认为，E=Fcnn.B、F分段.ΣΣ男、女[2、3、 4、 5]T×1×H×W（十三）sigmoid激活值高于0.5作为二进制结果。其中CNN包括表面3 × 3卷积层。所采用的实例级丢失结合了掩码和边界监督：Linstance=Lmask（B，Yn）+αLbdry（E，Ynbdry），（14）其中Yn，Ynbdry表示B和E的基础真值。Lmask是§3.1中提到的mask损失。我的宝贝是50014. 实验4.1. 实验装置数据集。我们在两个流行的RVOS基准上进行了实验，参考DAVIS17 [25]和参考YouTube- VOS [43]。Refer-DAVIS17扩展了DAVIS17 [41]，用超过1，500个引用标记视频对象5002JFFXJJFJF方法预训练JFJFKhoreava等人 [25日]RefCOCO [37]37.341.339.3[第43话]RefCOCO [37]41.247.044.1RefVOS [1]RefCOCO [37]––45.1我们RefCOCO [37]45.151.248.2基线（基于帧）[56]参考-YouTube-VOS32.1937.2334.71基线+ RNN [56]参考-YouTube-VOS36.9443.4540.20[43]第43话参考-YouTube-VOS44.2949 4146.85[第43话]参考-YouTube-VOS47.2955.9651.63我们的（仅预训练）参考-YouTube-VOS50.0755.3952.73我们参考-YouTube-VOS53.8562.0257.94表1.用区域相似度J、边界精度F和平均值JF对参考DAVIS17值集进行了定量评价。方法prec@0.5prec@0.6prec@0.7prec@0.8prec@0.9JFJF基线（基于帧）[56]31.9827.6621.5414.564.3333.3436.5434.94基线+ RNN [56]40.2435.9030.3422.269.3534.7938.0836.44[第43话]51.1946.7740.1627.6814.1145.2749.1947.23我们54.1848.9942.2033.6218.9448.4350.9649.70表2.对Refer-YouTube-VOS值集进行了定量评价，区域相似度J，边界精度F，平均值JF。还报告了成功百分比（prec@X）环表达式。它包括90个视频，这些视频被进一步分成两个子集：训练集（60个视频），值集（30个视频）。Refer-YouTube-VOS是一个大规模的数据集，其中包括来自YouTube-VOS的3，975个视频[54]和27，899个相应的语言描述。与Refer-DAVIS17类似，该数据集包含两个子集：训练集和val集。虽然两者都提供了基于整个视频的全视频表达和基于第一帧的第一帧表达，但我们只使用它们的全视频表达进行训练和验证。评估指标。遵循标准评估协议[43]，我们采用区域相似性（ % ）、轮廓准确度（% ）和精密度 @（%）作为我们的评估-测量指标区域相似性计算预测和地面实况之间的平均IoU，而轮廓准确度测量预测边界和地面实况之间的相似性。精密度@X(prec@ X）表示区域相似度高于预定义阈值X的测试样本的百分比，其中X从范围[0. 5，0。9]。4.2. 定量结果我们比较我们的方法与几个以前的模型，在上述两个具有挑战性的基准。基线是在[43]中提出的基于帧的方法，其采用用于视觉语言理解的跨模态注意力模块[56]和用于掩模预测的特征金字塔解码器。基线+RNN [43]表示基线的变体，它利用GRU层来从多个输入帧中获取视觉特征，以估计掩码。URVOS [43]建立在帧级交互的基础上，网络重放先前的帧和掩码，以改进当前帧的掩码预测。RefVOS [1]是一种简单的基于框架的建模方法，它直接在视觉和语言特征之间进行元素乘法以获得跨模态表示。参考-DAVIS 17val set。在Refer-DAVIS17上训练之前，我们在大规模Refer-YouTube-VOS训练集上预训练我们的模型，并在Refer-DAVIS 17val集上测试其性能。如表1所示，在相同的“仅预训练”情况下，与最新的模型URVOS相比，我们的方法具有显着的性能改善（J：+5.8%，F：+6.0%）。经过微调，Refer-DAVIS17训练集上的预训练模型，我们的方法在很大程度上优于所有比较方法在所有指标中（与UR- VOS相比：+6.6%，+6.1%）。此外，我们还提供了在RefCOCO [ 37 ]上预训练的模型的结果，RefCOCO [37]是一种参考图像分割基准，其得分高于这些基于帧的方法，如 URVOS [43] 和RefVOS [1]。Refer-YouTube-VOSvalset. 我们进一步研究了在Refer-YouTube- VOSval上提出的方法的性能。我们直接测试在Refer-YouTube-VOS训练集上训练的模型。如表2所示，我们的模型在所有指标上都明显优于所有最先进的方法。与URVOS [43]相比，我们将区域相似性提高了+3.1%，轮廓精度提高了+1.8%。我们的方法在精度@X上获得了更高的分数（例如，prec@0.8：+5.0%，prec@0.9：+4.8%）。所有的结果都表明了我们的多层次表征学习与语义对齐的优越性。5003参考-DAVIS17FJ疑问：一个穿白色短裤和红色衬衫的人在网球场提问：左边一个女孩拿着两个手机询问：一辆蓝色的木制汽车疑问：一个穿着黑色短裤和蓝色衬衫的人正在网球场图4. 参考-DAVIS17val和参考-YouTube-VOSval集的定性结果。前四个序列表示参考视频对象分割结果。最后两个序列是相对于显著对象预测的对象级结果（等式2）。（六）。4.3. 定性结果图4显示了我们方法的一些典型视觉结果在第一序列（即，实验室外套），相机运动带来的大小变形的女孩。在第二序列中（即，soapbox），蓝色的木制车向前移动，由于可考虑的外观变化，其在边界估计中具有困难。第三和第四序列来自同一视频（即，6031809500），但由于局部遮挡和背景中视觉上相似的物体而更具挑战性。否则，我们的模型成功分割所有的对象。总的来说，受益于在视觉语言理解过程中考虑多级嵌入，我们的模型产生了值得注意的参考视频对象分割结果。除了参考视频对象分割结果外，我们还提供了图4中对象级嵌入的一些对象预测结果。可以看出，所有的对象预测与尖锐的边界，包括闭塞和小的，表明对象感知的特征映射可以指导显着对象的生成，并提供对象先验。4.4. 消融研究为了分析我们模型中每个组件的效果，我们对两个基准进行了烧蚀研究。表3和表4列出了结果。多层次分析。为了研究我们的多级表示，我们在表3中分别分析了视频、帧和对象嵌入。如图所示，通过丢弃视频嵌入，模型遇到性能下降（： -2.2% ，： -1.9%）。在丢弃另外两个模块后观察到类似的趋势，从而证明了多级表示的有效性。此外，我们测试了两种不同的对象编码器，即，FCN或帧级编码器。但是这两种编码器的得分都低于视频级编码器（即，完整模型）。图5示出了通过逐个添加帧、视频、对象嵌入的消融定性结果。简单的帧级建模不能准确识别运动和遮挡对象。使用视频级和对象级嵌入可以通过学习长时间信息和转移更多注意力来提高性能。语义对齐的重要性。DSA是实现跨模态理解的关键模块。参考-YouTube-VOS对象预测5004×JF→JF×ID1：树林ID2：抓鹿的手图像框嵌+视频嵌入+对象嵌入-对齐图5. 关于Refer-YouTube-VOS上消融研究的定性结果。在帧嵌入模型中，逐个加入视频和对象的嵌入。请注意，方法传播JFJFFPSURVOS–39.4345.8742.65-STM [38]ICCV 1947.2955.9651.45-–49.9656.5353.2553.2我们STM [38]ICCV 19CFBI+ [55]PAMI 2151.0252.3958.6559.3754.8455.885.595.01中国[4]53.8562.0257.9417.2表4. 在参考-DAVIS17数值集上对掩模传播进行烧蚀研究，区域相似性为J，边界精度为F，平均值为JF。推理速度（FPS）也被报告。表3.参考-YouTube-VOS值集上的消融研究，区域相似性J，边界精度F。从表3中，我们可以看到，从完整模型中删除语义对齐会在所有指标上带来相当大的性能图5清楚地表明，语义对齐在识别不同对象方面起着重要作用。帧数。我们还研究了表3中的不同视频帧数量对最终性能的影响。可以用更多的输入帧获得更好的性能（例如，1（八）。这一观察结果表明，长时间建模可以挖掘跨帧关系，以促进参考视频分割。由于计算和内存限制，我们在完整模型中将最大数量设置为12。掩模传播方法。接下来，我们在表4中试验了几种最先进的掩码传播方法，例如STM [38]，CFBI+ [55]，STCN [4]，其中STCN带来了更多的细化改进。此外，我们可以观察到，性能增益分别为3.9%和3.5%。值得注意的是，我们的无面罩模型与现有技术的U R V OS相比，传播仍然实现了更好的性能（J：+2.7%，F：+0.6%）。推理速度。最后，我们使用整个参考计算了NVIDIATesla V100 GPUDAVIS17val set. 测试输入图像的大小为432 240，表4显示了所有FPS结果。我们的多粒度模型以并行方式处理所有输入帧，这表明了53.2 FPS的速度优势。使用STCN [4]的完整模型的速度优于其他方法，具有显著的3个裕度，达到17.2 FPS。所有的结果表明，我们的模型是一个有效的框架，具有较高的推理速度。5. 结论在本文中，我们提出了一种新的多层次表示学习框架，以解决RVOS任务。我们首先观察到，大多数RVOS方法严重依赖于帧级建模，忽略了视频内容的结构信息，导致视觉语言匹配不佳。基于这种动机，我们提出了嵌入视频，帧和对象级的语义，以提供一个强大的和信息丰富的视觉表示。然后，为了区分所指对象，我们引入了动态语义对齐来自适应地融合两种模态。边界感知分割将生成的目标感知特征和边界信息相结合来预测最终结果。实验表明，我们的方法在Refer-DAVIS17和Refer-YouTube-VOS上的性能都大大优于以前的方面变体JF完整模型-48.4350.96多层次视觉表示无视频电平无帧电平无对象级46.2547.0946.9549.0449.5849.10对象编码器FCN47.2449.65帧编码器47.5650.04语义对齐不对齐36.2340.40146.1248.90数量的246.8049.24帧447.4749.83848.1150.415005引用[1] Miriam Bellver 、 Carles Ventura 、 Carina Silberer 、Ioannis Kazakos 、 Jordi Torres 和 Xavier Giro-i Nieto 。Refvos：仔细看看视频对象分割的引用表达式arXiv预印本arXiv：2010.00263，2020。一、二、六[2] Kaidi Cao，Maria Brbic，and Jure Leskovec.概念学习器，用于少量学习。在ICLR，2020年。2[3] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在ECCV，2020年。3[4] 何祺郑、戴裕荣和邓志强。重新思考具有改进的内存覆盖的时空网络，以实现高效的视频对象分割。在NeurIPS，2021年。五、八[5] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。5[6] Henghui Ding，Chang Liu，Suchen Wang，and XudongJiang.视觉语言转换器Transformer和查询生成，用于引用分段。ICCV，2021。1[7] Xingping Dong ， Jianbing Shen ， Dongming Wu ， KanGuo，Xiaogang Jin，and Dongh Porikli.用于快速视觉对象跟踪的具有一次性学习的四元组网络。IEEE TIP，2019年。2[8] Ruoyi Du ， Dongliang Chang ， Ayan Kumar Bhunia ，Jiyang Xie，Zhanyu Ma，Yi-Zhe Song，and Jun Guo.通过拼图块的渐进式多粒度训练实现细粒度视觉分类。在ECCV，2020年。2[9] 范非凡，冯岩松，赵东炎。多粒度注意力网络用于方面级情感分类。在EMNLP，2018年。2[10] Guang Feng，Zhiwei Hu，Lihe Zhang，and Huchuan Lu.基于共注意嵌入的编码器融合网络用于参考图像分割。在CVPR，2021年。1[11] Kirill Gavrilyuk ， Amir Ghodrati ， Zhenyang Li ， andCees GM Snoek.从句子中分割出演员和动作视频在CVPR，2018年。2[12] Wenbin Ge，Xiankai Lu，and Jianbing Shen.使用全局和实例嵌入学习的视频对象分割在CVPR，2021年。1[13] 郭建元，袁玉辉，黄朗，张超，姚金戈，韩凯.超越人体部分：双重部分对齐表示的人重新识别.在ICCV，2019年。2[14] Jie Hao，Xing Wang，Shuming Shi，Jinfeng Zhang，andZhaopeng Tu.神经机器翻译的多粒度自注意在EMNLP，2019年。2[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。三、五[16] Yuk Heo，Yeong Jun Koh，and Chang-Su Kim.使用全局和局部传输模块的交互式视频对象分割。在ECCV，2020年。2[17] Ping Hu，Fabian Caba，Oliver Wang，Zhe Lin，StanSclaroff，and Federico Perazzi.用于快速视频语义分割的时间分布式网络。在CVPR，2020年。25006[18] 胡荣航马库斯·罗尔巴赫和特雷弗·达雷尔。从自然语言表达中分割。在ECCV，2016年。1[19] Tianrui Hui ， Shaofei Huang ， Si Liu ， Zihan Ding ，Guanbin Li ， Wenguan Wang ， Jizhong Han ，and FeiWang.语言查询视频演员分割的协同时空建模。在CVPR，2021年。2[20] Suyog Dutt Jain ， Bo Xiong ， and Kristen Grauman.Fusion- seg：学习结合运动和外观，实现视频中通用对象的全自动分割。在CVPR，2017年。2[21] Ge-Peng Ji ， Keren Fu ， Zhe Wu ， Deng-Ping Fan ，Jianbing Shen，and Ling Shao.视频对象分割的全双工策略。ICCV，2021。1[22] 雅晶，孔涛，王伟，王良，李磊，谭铁牛.Locate thensegment：一个强大的参考图像分割管道在CVPR，2021年。1[23] 雅静、司晨阳、王俊波、王伟、王良、谭铁牛。用于基于文本的人物搜索的姿势引导多粒度注意在AAAI，2020年。3[24] Aishwarya Kamath ， Mannat Singh ， Yann LeCun ，Gabriel Synnaeve，Ishan Misra和Nicolas Carion。用于端到端多模态理解的调制检测ICCV，2021。1[25] Anna Khoreva，Anna Rohrbach，and Bernt Schiele.基于语言指称的视频对象分割。在ACCV，2018年。一、二、五、六[26] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。InICCV，2017.4[27] Chenxi Liu，Zhe Lin，Xiaohui Shen，Jimei Yang，XinLu，and Alan Yuille.用于参考图像分割的递归多模态交互。InICCV，2017. 1[28] Xiankai Lu ， Wenguan Wang ， Martin Danelljan ，Tianfei Zhou，Jianbing Shen，and Luc Van Gool.视频对象分割与情节图记忆网络。在ECCV，2020年。2[29] Xiankai Lu ， Wenguan Wang ， Jianbing Shen ， DavidCrandall，and Jiebo Luo.基于共同注意连体网络的零镜头视频对象分割IEEE TPAMI，2020。2[30] Xiankai Lu，Wenguan Wang，Jianbing Shen，Yu-WingTai，David J Crandall，and Steven CH Hoi.从未标记的视频中学习视频在CVPR，2020年。2[31] Gen Luo，Yiyi Zhou，Xiaoshuai Sun，Liujuan Cao，Chenglin Wu，Cheng Deng，and Rongrong Ji.多任务协作网络联合指称表达理解与切分。在CVPR，2020年。1[32] Lei Ma，Felix Juefei-Xu，Fuyuan Zhang，Jiyuan Sun，Min- hui Xue，Bo Li，Chunyang Chen，Ting Su，LiLi ， Yang Liu ， et al. Deepgauge ： Multi-granularitytesting criteria for deep lea

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

视频对象分割中基于语义对齐的多级表示学习技术

一种融合多级特征信息的图像语义分割方法

基于深度学习的图像语义分割技术研究综述.pdf

基于语义分割的深度学习

基于深度学习的语义分割

基于语义分割的slam算法

视频语义分割有什么好用的工具

跟视频语义分割有什么区别

标准语义分割和实例语义分割

基于深度学习的语义分割优点

图像实例分割和图像语义分割有什么区别

基于深度学习的语义分割方法

基于深度学习的图像语义分割算法研究

弱监督语义分割、无监督语义分割和全监督语义分割的关系和区别

基于像素的分割和语义分割

写一个基于语义分割的slam算法

基于深度学习的图像语义分割算法研究论

什么是基于语义的检索技术

基于语义学习的SQL注入攻击检测技术

基于ornbslam做语义分割

多阶段弱监督语义分割和端到端语义分割区别

最新资源