多模态特征建模的基于文本的视频分割方法及性能评估

197 浏览量更新于2023-10-25 收藏 16.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

117370基于多模态特征建模运动的基于文本的视频分割0赵王波1,2,3 王凯1 褚翔翔2 薛福照1 王新超1 尤阳1 *01 新加坡国立大学 2 美团 3 西北工业大学0wangbo.zhao96@gmail.com, kai.wang@comp.nus.edu.sg, chuxiangxiang@meituan.com0f.xue@u.nus.edu, xinchao@nus.edu.sg, youy@comp.nus.edu.sg0摘要0基于文本的视频分割旨在基于描述性句子在视频中分割目标对象。将光流图中的运动信息与外观和语言模态相结合是至关重要的，但之前的工作很大程度上忽略了这一点。在本文中，我们设计了一种方法来融合和对齐外观、运动和语言特征，以实现准确的分割。具体而言，我们提出了一种多模态视频变换器，可以融合和聚合帧之间的多模态和时间特征。此外，我们设计了一个语言引导的特征融合模块，在每个特征级别上逐步融合外观和运动特征，并在语言特征的指导下进行。最后，提出了一种多模态对齐损失，以减小不同模态特征之间的语义差距。在A2D Sentences和J-HMDBSentences上进行了大量实验证明了我们的方法相对于现有方法的性能和泛化能力。01.引言基于文本的视频分割旨在根据语言句子在视频序列中定位和分割所描述的对象。与传统任务不同，传统任务在视频或帧级别上进行预测，例如文本到视频检索[27, 40,52]，视频字幕[32, 62]，视频问题回答[22,51]和语言查询的视频定位[1,60]，这个任务需要相对更细粒度的多模态和时间理解以进行像素级分割。这个任务的挑战可以总结为：（1）如何在视觉和语言模态之间进行推理以定位目标对象，（2）如何利用时间信息增强分割。为了解决前一个问题，先前的工作采用简单的串联[18]，生成动态滤波器[16,48]和跨模态注意力模块[21,49]来实现两个模态之间的交互。当涉及到0*对应作者。我们的代码公开可用：https://github.com/wangbo-zhao/2022CVPR-MMMMTBVS。0GT0一个人跳进汽车0Flow我们的基线0汽车沿着道路行驶0猫跳过栏杆0图1.基线模型和我们的模型之间的比较。我们采用4.4中的“B”作为基线模型。与基线模型相比，我们的模型可以将光流图中的运动信息与外观和语言特征相结合，生成更好的分割掩码。0后一个问题，他们通常采用3D卷积神经网络（3DCNNs），例如I3D[8]，从视频剪辑中提取特征。然而，所有这些方法都忽略了探索基于文本的视频分割中帧之间的显式运动信息。在这个任务中，目标对象通常具有动作，并且相应的文本包含一些词来描述其运动，例如图1中的驾驶和跳跃。这意味着运动信息可能有助于模型找到目标对象。尽管一些帧之间的运动信息可以在3DCNNs中隐式学习，但它无法很好地与其他模态交互。在一些视频任务中尝试了引入运动信息[9, 15, 24, 30, 53, 61,63]，但如何将运动信息与外观和语言特征相结合在基于文本的视频分割中仍然具有挑战性。0引入显式运动信息的一种常见方法是从光流估计模型生成的光流图中提取特征。从图1的光流图中，我们可以发现具有运动的目标对象通常是独特的，可以很容易地被识别出来。这可能促进最终的性能。为了利用光流中的运动信息，Gavrilyuk等人[16]采用了两个具有不同参数的3DCNN来从中生成蒙版2. Related WorkText-Based Image Segmentation Text-based image seg-mentation aims to segment the object in an image given atext describing its properties e.g. appearance and location.Hu et al. [18] are the ﬁrst to propose this task, and theyadopt the fully convolutional network to fuse extracted vi-sual and linguistic features directly. Liu et al. [34] propose amulti-modal LSTM to force the word-visual interaction. Yeet al. [56] design a self-attention module to capture long-range relationships between two modalities. Luo et al. [37]propose a model to achieve joint learning of locating andsegmentation since these two tasks can reinforce each other.Jing et al. [25] decouple this task into locating the targetobject position and accurately generating the segmentationmask. Yang et al. [54] represents the expression as a lan-guage graph and performs explainable visual reasoning todistinguish the target object from others. Ding et al. [13] in-troduce the encoder-decoder attention mechanism in trans-former [46] and view the language expression as queries.Unlike these works for images, which only need to focuson fusing features from the static RGB image and the lan-guage expression, we conduct multi-modal fusion betweenthe RGB image, ﬂow map, and text. In addition, we alsoconsider the temporal information between adjacent frames.Text-Based Video Segmentation For promoting compre-hensive action understanding, Xu et al. [50] release adataset named Actor-Action Dataset (A2D) containing aﬁxed vocabulary of actor and action pairs and pixel-levelannotations. After that, Gavrilyuk et al. [16] further ex-tend this dataset and propose text-based video segmenta-tion. They generate dynamic ﬁlters from extracted text fea-tures and adopt them to convolve with vision features to ob-tain the ﬁnal pixel-wise segmentation. They also try to aver-age the masks from an optical ﬂow map and an RGB frameto improve the performance further. Wang et al. [49] pro-pose a cross-guided attention mechanism, where featuresfrom frames and the text can guide and promote each other.This design can reduce linguistic variation and incorporatequery-focused visual features. Mcintosh et al. [38] proposea capsule-based network to encode and merge visual andtextual features jointly. Wang et al. [48] introduce the idea117380RGB帧和光流图，然后从中计算加权平均蒙版。然而，这种简单的融合策略忽略了运动模态与外观和语言特征之间的交互，导致改进不令人满意且计算开销巨大。因此，设计一个能够有效地将光流的运动信息与RGB帧的外观特征和语言特征相结合的模型是必要的。受到上述观察的启发，我们提出了我们的多模态融合和对齐网络。首先，由于许多先前的工作[3,6,9,19]已经证明了transformer在推理和融合多模态和时间特征方面的优越性，我们构建了一个多模态视频transformer（MMVT）来模拟不同帧中外观、运动和语言特征之间的相互作用。我们的transformer在每个层中包含两个注意模块：跨模态注意和时间注意。前者旨在融合三种模态的特征，而后者用于在时间维度上聚合融合后的特征。通过堆叠多个层，多模态信息可以在不同帧之间流动和相互作用。由于MMVT中帧之间的多模态交互，我们不依赖于3DCNN来提取时间信息，从而大大减少了计算开销。然后，为了逐步融合多模态特征，我们提出了语言引导的特征融合（LGFF）模块，并将其插入到每个级别以解码特征。在每个模块中，有用的外观和运动特征将由语言特征选择，并借助来自更高级别的特征的帮助逐渐选择和融合。此外，由于外观、运动和语言特征都是独特的模态特征，它们是分别在不同数据集上预训练的骨干网络生成的，它们之间的语义差距可能很大[20]。为了缓解这个问题，我们设计了一种多模态对齐损失，明确地鼓励网络在嵌入空间中学习对齐三种模态的特征，进一步提高了我们模型的性能。在图1中，与没有运动信息的基线模型相比，我们的模型可以准确地定位目标对象，获得更完整的掩码，并将目标对象与其他对象区分开来。我们的主要贡献可以总结如下：0•据我们所知，我们是第一个将光流图中的运动信息与外观和语言特征相结合进行基于文本的视频分割的研究。0•我们提出了一种基于transformer的模型，用于融合多模态和时间特征，并设计了一个语言引导的特征融合模块，逐步融合0不同特征级别的多模态特征。0•注意到不同模态特征之间的语义差距，我们提出了一种多模态对齐损失，以明确地对齐来自三种不同模态的特征，进一步提高了我们方法的性能。0•我们进行了大量实验证明了所提方法的有效性。我们的方法在A2D Sentences和J-HMDBSentences数据集上在大多数指标上显著超过现有的最先进方法，并且计算开销更小。117390变形卷积[11]用于生成动态滤波器以解决几何变形。Ning等人[39]提出了一种极坐标位置编码机制，用于测量方向和范围的空间关系，类似于自然语言描述。Hui等人[21]采用3D和2D编码器分别识别查询的动作和准确分割目标对象。与[16]不同的是，我们的MMVT和LGFF中的运动信息可以与外观和语言特征很好地融合和交互。视觉语言学习任务随着自然语言处理（NLP）和计算机视觉（CV）任务的发展，越来越多的研究人员开始探索图像语言和视频语言任务[2, 28,44,47]。后者与我们的任务更相关，因为它需要在时间维度上探索信息。许多尝试[29, 31, 42,43]都是在预训练然后微调的方式下进行视频语言研究。它们首先采用一些代理任务以自监督的方式训练模型，包括完成、匹配和排序。然后，这些学习得很好的表示应该被转移到下游任务中，例如基于文本的视频检索[58]、动作步骤定位[65]、视频问答[44]。有关视觉语言学习任务的更多细节可以在调查报告[41]中找到。上述任务通常进行视频级或帧级预测，不需要细粒度的特征。相比之下，基于文本的视频分割需要在像素级上进行预测。因此，预训练的视频语言模型不能直接应用于我们的任务。视觉变换器Vaswani等人[46]首次提出了变换器，在许多自然语言处理（NLP）任务中显示出其优势。变换器的主要组成部分是自注意机制，可以对数据中的长程依赖关系进行建模。计算机视觉社区看到了这个优势，并尝试为图像分类[14, 36, 55, 57,59]、目标检测[7, 64]和视频理解[3,6]设计基于变换器的模型。变换器也已经被引入到一些多模态任务中。Hu等人[19]提出了一个统一的变换器模型，联合训练多个任务，包括不仅是仅视觉和仅语言任务，还有视觉与语言推理任务。Chen等人[9]采用多模态视频变换器来协同融合外观、运动和音频特征进行视频动作识别。Liu等人[35]采用两个变换器来提取外观和深度信息进行显著性检测。在本文中，我们提出了一个基于变换器的模块，其中包含跨模态注意力和时间注意力。前者将运动模态与外观和语言特征相结合，后者专注于聚合时间信息。03. 方法提出的方法的总体架构如图2所示。对于一个视频序列，我们有T帧，它们对应的光流图和描述目标对象及其动作的文本。首先，我们采用三个编码器分别提取外观、运动和语言特征。然后，将提取的三种高级特征进行拼接，并输入到我们的多模态视频变换器（MMVT）中，以融合跨模态特征并建立帧之间的时间关系。在解码器中，外观和运动特征将与语言特征逐渐融合在我们的语言引导特征融合模块（LGFF）中，并预测最终的分割掩码。训练过程中，添加多模态对齐损失以对齐不同模态的特征。在接下来的论文中，我们首先在第3.1节简单介绍特征提取编码器，然后分别详细介绍第3.2节、第3.3节和第3.4节中提出的MMT、LGFF和MMAL。3.1.编码器我们采用两个视觉主干网络来提取视频剪辑的多层外观特征A_i∈RT×CiA×Hi×Wi和运动特征M_i∈RT×CiM×Hi×Wi，其中i∈[1,4]表示主干网络的第i阶段。根据[5]，我们采用双向变换器模型BERT[12]作为语言编码器来提取语言特征。具体来说，我们首先对文本进行分词，并在分词序列的开头和结尾添加[CLS]和[SEP]标记。然后将标记序列输入BERT，并获得标记表示作为语言特征L∈RL×CL。我们采用一个1D卷积层对语言特征进行降维，将其通道维度减少到C，得到zL∈RL×C。对于高级外观特征A4和运动特征M4，我们首先分别将一个8维坐标特征PC4∈R8×H4×W4与它们进行拼接，类似于[49]，以编码空间位置信息。然后，分别采用两个ASPP模块[10]将它们的通道维度统一为C。最后，两个特征被展平和重塑，得到zA∈RT×H4W4×C。0分别为z A ∈ R T × H 4 W 4 × C和z M ∈ R T × H 4W 4 × C。3.2. 多模态视频Transformer正如第1节所讨论的，为了探索丰富的多模态交互并利用不同帧中的时间信息，我们提出了我们的多模态视频Transformer（MMVT）。从图2中可以看出，我们MMVT的每一层包含三个组件：跨模态注意力（CMA），时间注意力（TA）和MLP。多层感知机块（MLP）是Transformer中的一个常见组件，例如[14，46]，我们这里不讨论它。在我们的跨模态注意力模块中，我们的目标是促进单帧中不同模态之间的交互。基于此，我们首先将高级特征MMVTCMACMATAMLPCMAx NLGFFLGFFLGFFB+MFigure 2. Overview of the proposed model. MMVT: Multi-modal video transformer. CMA: Cross-modal attention. TA: Temporal attention.LGFF: Language-guided feature fusion. ”B+M” is the baseline model with motion information, details about which can be found in 4.4.Here, we do not show the multi-modal alignment loss for simpliﬁcation.z = Cat(zA, zM, zL).(1)z′′A = MSA(LN(z′A)) + z′A(3)z′′ = Cat(z′′A, z′M, z′L),(4)(a)(b)CCC conv(c)Figure 3. (a) Language-Guided Feature Fusion Module. ”up”:Upsample operation. PCi: Coordinate feature for ith level. ”C”:Concatenation operation. ⊙: Element-wise Multiplication. ⊕:Element-wise Addition. (b)(c) We visualize the feature map g1EM,g1EA and f 1.117400光流图0动作编码器0RGB图像外观编码器0动作特征0外观特征0语言特征0绿色汽车在中间跳舞的文本0从三种模态中提取特征，得到特征z ∈ R T × (2 HW + L ) ×C。这里，我们简化起见省略了H和W的上标。可以表示为：0在这里，我们省略了沿时间维度的广播操作。然后，我们通过层归一化（LN）[4]将其传递，并将z输入到多头自注意力（MSA）[46]中。请注意，这里添加了一个残差连接以提高鲁棒性。形式上，可以定义为：z ′ = MSA ( LN ( z )) + z.(2)0这个过程沿着时间维度进行，以便每一帧中的多模态特征能够很好地融合。在我们的时间注意力模块中，来自不同帧的融合多模态特征可以相互交互。首先，我们将z'划分为z' A∈ R T × HW × C，z' M ∈ R T × HW × C，z' L ∈ RT × L × C。这里，z'A可以被视为已经被其他模态特征增强的外观特征。为了减少计算复杂度，我们只为z'A建立时间关系。在输入MSA之前，我们首先将z'A展平为RT HW ×C，以便时间维度中的信息可以参与交互。然后可以表示为：0然后，将z' A重新整形回RT × HW ×C。通过上述过程，一帧中包含的信息可以流向其他帧。然后，我们将已经被其他帧增强的特征z' A与z' M和z'L连接起来，得到z'。最后，我们采用MLP增加非线性。可以表示为：0光流图像>0对话0对话0z ′′′ = MLP(z ′′) + z ′′，(5)。由于 z ′ A已经包含了其他模态的信息，多模态信息可以通过时间注意力模块中的 z ′ A的交互在帧之间进行交换和融合。需要注意的是，这些都是MMVT的一个层中的过程。通过堆叠它们进行多层处理，不同帧的多模态特征可以很好地融合和聚合。在这里，我们默认将层数设置为四。03.3.语言引导特征融合模块我们的语言引导特征融合模块（LGFF）旨在逐步融合来自不同特征的多模态特征。117410不同特征层次。如图3(a)所示，我们首先采用两个1 ×1卷积层来减少外观特征 f i A 和运动特征 f i M 的通道数到C。然后，每个特征将与前一个LGFF模块的特征 f i +1和8维坐标特征连接在一起，接着通过一个3 ×3卷积层进行融合。特征 f i +1包含更高级别和语义更强的信息，而坐标特征可以提供空间位置信息。然后，我们需要根据语言特征强调特征图中的重要区域。由于 L 中的 [CLS]标记已经聚合了整个句子的表示[12]，我们将其与两个融合特征相乘，分别得到增强的外观特征和运动特征。我们可以将这个过程表示为：0f i E A = f L ⊙ Conv 3 ([PC i, Up(f i +1), f i A])，(6)0f i E M = f L ⊙ Conv 3 ([PC i, Up(f i +1), f i M])，(7)0这里，⊙表示逐元素乘法。f L 表示语言特征 L 中的 [CLS]标记。通过这个过程，特征中与文本相关的区域将被选择和强调。由于外观通常包含比运动特征更多的信息，我们采用f i EA 通过一个1 ×1卷积层和一个sigmoid函数生成两个空间注意力图 att A 和attM，以进一步强调目标区域。需要注意的是，这里的两个卷积层不共享参数。采用残差连接以避免丢失一些有意义的信息。0g i E A = att A ⊙ f i E A + f i E A，(8)0g i E M = att M ⊙ f i E M + f i E M，(9)0其中 g i E A 和 g i E M是两个获得的特征。最后，它们被连接在一起，并通过两个3 × 3 卷积层和ReLU函数进行进一步融合，得到 fi。我们在网络中插入了三个LGFF模块作为解码器，因此 i∈ [1, 3]。需要注意的是，我们采用 z ′′′ A作为第一个LGFF模块中最高级别 f 4的特征，因为它已经通过其他模态和MMVT中不同帧的时间信息进行了增强。从图3(b)(c)中，我们可以发现，无论流场是否能够突出显示目标对象，g i E M都可以将目标对象与其他区域区分开，并与 g i E A很好地结合起来生成最终的输出特征 f 1。03.4.多模态对齐损失虽然我们的模型在上述两个模块中取得了良好的性能，但我们注意到由于它们是从在不同源数据上预训练的编码器中提取的，三种模态特征之间可能存在一些语义差距[20]。基于此，我们提出了我们的0一只黑狗和它的朋友在雪地上散步0外观特征0运动特征0语言特征0地面真实掩膜0图4。我们采用地面真实掩膜来区分外观特征 f A 和运动特征 f M中属于前景或背景的特征。0多模态对齐损失，以便明确对齐三种模态的特征。具体来说，我们认为来自外观特征的目标对象的特征是前景特征，其他特征是背景特征。对于运动特征，它也可以被归类为前景和背景特征。然后，特征对齐规则定义为：（1）语言特征应该接近外观特征和运动特征中的前景特征，同时远离背景特征。（2）来自同一类别的外观和运动特征应该彼此接近，同时远离其他类别的特征。由于多模态对齐损失是按帧定义的，我们在这里不需要考虑时间维度。首先，对于每一帧，我们通过上采样 f 2 E A ，f 3 E A 并将它们与 f 1 E A连接在一起来获得外观特征 F A 的整体表示。运动特征 F M也是以同样的方式获得的。在这里，我们还采用[L]作为文本的整体表示 F L 。我们使用三个MLP函数将 F A ， F M 和F L 转换为相同的嵌入空间，具有相同的通道数 c。现在，我们需要区分属于目标对象的特征与 F A 和 F M中的其他特征。这可以通过利用地面真值掩码来轻松实现。例如，在图4中，我们可以获得前景特征 F A fore和背景特征 F A back ，其中我们知道 F A fore ∪ F Aback = F A 。我们可以通过以下方式获得每个元素 f i A ∈F A 与 F L 之间的对齐分数 p AL ：0ˆ p i AL = σ(tan( π02 sim ( f i A , F L ))) , (10)0其中 sim 表示计算余弦相似度的函数。如果 f i A在嵌入空间中接近 F L ，它们的余弦相似度将接近 1，那么对齐分数 ˆ p i AL 将接近 1 ，否则 ˆ p i AL 将接近 0。基于此，我们可以将其标签 p i AL 定义为：如果 f i A ∈F A fore ，则 p i AL = 1 ，否则 p i AL = 0。现在，外观特征 F A 和 F L 之间的对齐损失 L AL可以定义为：117420L AL = -∑ p i AL log ˆ p i AL + (1 - p i AL ) log(1 - ˆ p iAL ) . (11) F M 和 F L 之间的对齐损失 L ML也可以用同样的方式定义。对于外观特征 f i A ∈ F A和运动特征 f i M ∈ F M，我们也可以将它们对齐在一起。对齐分数可以定义为：0ˆ p i,j AM = σ(tan( π02 sim ( f i A , f j M ))) . (12)0当 f i A 和 F j M 同时属于前景或背景时，其标签 p i,j AM= 1 ，否则 p i,j AM = 0 。对齐损失 L AM 可以定义为：0L AM = -∑ p i,j AM log ˆ p i,j AM +(1 - p i,j AM ) log(1 -ˆ p i,j AM ) . (13) 最后，我们将多模态对齐损失定义为：0L align = L AL + L ML + L AM . (14)04. 实验 4.1. 数据集和评估指标与之前的工作一样，我们在两个流行的基于文本的视频分割数据集上进行实验，包括A2D Sentences [16]和J-HMDBSentences[16]。这两个数据集是由Gavrilyuk等人通过为Actor-Action数据集（A2D）[50]和J-HMDB[23]中的每个目标对象提供一个指代语言来扩展的。A2DSentences包含3,782个视频，其中3,036个视频用于训练，746个视频用于测试。每个视频中有3到5帧进行像素级别的注释，用于训练和评估分割性能。此外，每个视频中有6,655个句子来描述演员及其动作。J-HMDBSentences包含来自21个动作类别的928个视频，每个视频都有相应的928个句子。其中的所有帧都进行了像素级别的注释。之前的方法通常在这个数据集上评估它们的泛化能力。交并比（IoU）是地面真值掩码与预测之间的交集区域与并集区域之比。与之前的工作一样，我们采用OverallIoU和MeanIoU来评估性能。前者将地面真值掩码和测试数据集上的预测作为一个整体，更偏向于较大的对象，而后者是所有测试样本的平均IoU。我们还采用P@X来衡量IoU大于阈值X的样本的百分比，其中X∈[0.5, 0.6, 0.7, 0.8,0.9]。还采用了0.5:0.95的平均精度（mAP）。4.2.实现细节根据[30]，我们采用ResNet-101和ResNet-34[17]作为外观和运动编码器，提取外观和运动特征。两个编码器中的四个阶段的步幅分别设置为2, 2, 2和1。0[ 45 ]被用于生成光流图。我们采用Adam [ 26]优化器，学习率为2 ×10−5，训练整个网络。批大小设置为8，每个批次包含三帧的视频剪辑。我们将最大训练步数设置为30,000，并在25,000和28,000时将学习率除以10。根据之前的工作设置，所有帧都被调整大小并填充为320 ×320。每个输入句子的最大长度为20。所有实验都在2个NVIDIA Tesla V100 GPU上进行。04.3. 与最先进方法的比较0A2D句子我们使用A2D句子的训练和测试集来训练和评估我们的模型。如表1所示，我们的方法在Precision@0.6、@0.7和@0.8上分别超过了最先进方法CSTM的0.8%、2.6%和4.2%。这意味着当度量更严格时，我们的模型可以以更大的优势超过先前的方法。值得注意的是，我们的方法在最具挑战性的度量Precision@0.9上达到了13.0%，这意味着我们的方法可以生成特别准确的分割掩码。mAP和OverallIoU也可以进一步提高2.0%和1.1%。我们还注意到，我们的模型在Precision@0.5上低于CSTM [ 21 ]0.9%，这是因为我们的模型倾向于生成更准确和自信的结果，而CSTM [ 21 ]的一些不准确的结果仍然可以被认为是True，因为Precision@0.5的阈值较低。此外，由于CSTM在原始大小的特征图上生成掩码，而我们的模型在1/4原始大小的特征图上进行预测，它们在小物体上可能表现更好。因此，我们的方法在IoU Mean上的性能略低于其性能，IoUMean将小物体视为同等重要。J-HMDB句子与之前的工作一样，我们采用J-HMDB句子来验证我们方法的泛化能力。根据[ 21 , 49]，我们使用在A2D句子上表现最好的模型直接在J-HMDB句子的测试集上进行评估，该测试集由[ 16]划分。如表2所示，我们的方法在所有指标上都优于先前的方法。很容易发现，我们的模型可以以较大的优势超过其他方法，特别是在度量严格的情况下，如Precision@0.6、@0.7和@0.8。这种现象与A2D句子中的情况类似，这意味着我们的模型在融合多模态信息的帮助下显示出更强大的性能。请注意，与其他方法一样，我们的方法在Precision@0.9上无法取得良好的结果（低于1%），因为所有方法都没有在J-HMDB句子上进行训练或微调。04.4. 剔除实验0与之前的工作一样，我们在A2D句子上进行剔除实验，以彻底分析和验证MeanHu et al. [18]ECCV201634.823.613.33.30.113.247.435.0Li et al. [33]CVPR201738.729.017.56.60.116.351.535.4Gavrilyuk et al. [16]CVPR201847.534.721.18.00.219.853.642.1Gavrilyuk et al. † [16]CVPR201850.037.623.19.40.421.555.142.6ACGA [49]ICCV201955.745.931.916.02.027.460.149.0VT-Capsule [38]CVPR202052.645.034.520.73.630.356.846.0CMDY [48]AAAI202060.752.540.523.54.533.362.353.1PRPE [39]IJCAI202063.457.948.332.28.338.866.152.9CSTM [21]CVPR202165.458.949.733.39.139.966.256.1Hu et al. [18]ECCV201663.335.08.50.20.017.854.652.8Li et al. [33]CVPR201757.833.510.30.60.017.352.949.1Gavrilyuk et al. [16]CVPR201869.946.017.31.40.023.354.154.2ACGA [49]ICCV201975.656.428.73.40.028.957.658.4VT-Capsule [38]CVPR202067.751.328.35.10.026.153.555.0CMDY [48]AAAI202074.258.731.64.70.030.155.457.6PRPE [39]IJCAI202069.157.231.96.00.129.4--CSTM [21]CVPR202178.363.937.87.60.033.559.860.4B55.150.744.231.79.535.361.948.2B+M56.851.945.032.310.036.363.549.5B+T59.254.146.132.29.837.264.451.3B+M+T62.056.848.734.310.539.264.853.6B+T+L62.057.449.636.211.640.165.554.0B+M+T+L63.158.551.237.112.641.166.854.8B+M+T+L+A64.559.752.337.513.041.967.355.8(a)(b)(c)(d)iou=0.78iou=0.20iou=0.07iou=0.85iou=0.25iou=0.07iou=0.89iou=0.48iou=0.05iou=0.79iou=0.14iou=0.04117430Table 1. 在A2D句子测试集上与最先进方法的比较。†表示采用了额外的光流输入。0方法场所精度 mAP IoU0我们的 † – 64.5 59.7 52.3 37.5 13.0 41.9 67.3 55.80表2. 在J-HMDB Sentences测试集上与最先进方法的比较。所有方法都采用在A2D Sentences上训练的最佳模型，直接在J-HMDBSentences上进行评估，无需微调。†表示采用了额外的光流输入。0方法场地精度 mAP IoU0P@0.5 P@0.6 P@0.7 P@0.8 P@0.9 0.5:0.95 总体平均0我们的 † – 79.9 71.4 49.0 12.6 0.1 38.6 61.9 61.30表3. 我们模型中每个组件的定量结果。Appearance: 使用外观特征；Motion: 使用运动特征；MMVT: 多模态视频Transformer；LGFF:语言引导特征融合模块；Align: 多模态对齐损失。0名称设置精度 mAP IoU0外观运动 MMVT LGFF Align P@0.5 P@0.6 P@0.7 P@0.8 P@0.9 0.5:0.95 总体平均0一个女人正在外面和她的猫玩耍0一辆后面有拖车的汽车停着0这辆车试图跳过其他车0左边穿粉色上衣的女人在弹球0图5. 定性结果比较。从左到右依次为(a)、(b)、(c)和(d)：真实标注、”B+M+T+L+A”、”B+M”和”B”。0验证了所提方法的有效性。0每个组件的有效性。我们首先在表3中验证了我们模型中的每个组件。Figure2中显示的“B+M”是基线模型，只采用连接和卷积层来融合多模态。此外，在“B+M”中，只融合外观特征。与之相比，我们可以发现从光流图中引入明确的运动信息可以有效地提高性能。为了验证帧间多模态交互的有效性，我们将“B+M”中的连接操作替换为我们提出的MMVT，并得到“B+M+T”。我们发现性能有了显著的提升，特别是在mAP和MeanIoU上，分别提高了2.9%和4.1%。这得益于MMVT在帧间融合多模态特征方面的强大能力。然后，我们将所有的0在”B+M+T”中，我们在解码器的每个级别上进行简单的连接操作，并使用我们提出的LGFF获得”B+M+T+L”。这表明我们的LGFF在所有指标上都有显著的改进，特别是在严格的指标Precision@0.7、@0.8和@0.9上，分别提高了2.5%、2.7%和2.1%。这意味着我们的LGFF可以逐渐融合不同级别的多模态特征，并逐步恢复特征图的分辨率，从而得到更准确的分割掩码。最后，我们将提出的多模态对齐损失添加到”B+M+T+L+A”中，结果表明明确地对齐多模态特征可以获得更好的性能。为了进一步验证我们提出的组件的泛化性，我们逐渐将我们的MMVT和LGFF添加到”B”中，得到”B+T”和”B+T+L”。结果表明，只有使用我们的MMVT和LGFF融合外观和语言特征也可以提高性能。B+M36.363.549.5+CMA36.864.150.6+CAT+TA38.664.853.2B+M+T39.264.853.6CAT37.663.551.6LGFF41.166.854.8B+M+T+L41.166.854.8+bce41.266.354.8+l2am41.267.155.2B+M+T+L+A41.967.355.8117440表4. 使用不同MMVT设置的比较。0名称设置 mAP IoU0CMA TA 0

下载后可阅读完整内容，剩余1页未读，立即下载