语言桥接的时空交互视频对象分割

81 浏览量更新于2023-10-25 收藏 1.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4964运动传递白衣衬衫运动聚合外观外观聚集行走转移内转轮→→→→基于语言桥接的时空交互参考视频对象分割丁子涵1、4、5天瑞辉2、3黄俊石4魏晓明4吉忠韩2、3刘思1、5*1北京航空航天大学2中国科学3中国科学4美团5北京航空航天大学摘要引用视频对象分割的目的是预测视频中自然语言引用的对象的前置标签。以前的方法要么依赖于3DConvNets，要么将额外的2D ConvNets作为编码器来提取混合的时空特征。然而，这些方法由于在解码阶段中发生的延迟和隐式的空间-时间交互而遭受空间未对准或假为了解决这些局限性，我们提出了一种基于语言桥接的双工传输（LBDT）模块，该模块利用语言作为中间桥梁来实现显式和自适应的空间传输。空间语言时态在编码阶段早期的时间交互。具体而言，跨模态注意在时间编码器、参照词和空间编码器之间执行，以聚合和传递语言相关的此外，我们还在解码阶段提出了双边通道激活（BCA）模块，用于进一步去噪并通过通道激活突出时空一致的特征。大量的实验表明，我们的方法在四个流行的基准测试中实现了新的最先进的性能，A2D句子的绝对AP增益为6.8%和6.9%，J-HMDB语句，同时消耗大约7倍的计算开销1。1. 介绍参考视频对象分割（RVOS）是计算机视觉和自然语言处理交叉领域的一个新兴课题，其目的是分割视频帧中自然语言表达所涉及的目标对象。不同于半自动视频对象分割（SVOS）[3，7，31，38]，其中目标对象分割是基于目标*通讯作者1https://github.com/dzh19990407/LBDT图1. 说明我们的主要想法。 (Top)对于时间语言的空间迁移，指称词（例如，“跳跃”）可以从时间特征聚集语言相关的运动信息，这可以帮助空间编码器识别正确的动作。（下）对于空间语言时间迁移，指涉词（例如，“brown”)can aggregate the language-relevant appearance informationfrom the spatial fea- tures, which helps the temporal encoderremove the disturbance of background motion (旋转轮）。由于第一帧中的手动注释掩码引用了对象，由于自由形式表达式的变化，RVOS对于识别目标更具挑战性RVOS为人机交互提供了一种更自然的方式，开辟了广泛的应用，包括基于语言的视频编辑[5]，语言引导的视频摘要[29]和视频问答[14，39]等。解决RVOS的关键是时空交互和跨模态对齐[12，41]。现有的方法主要集中在后者，并设计了几种机制（例如，跨模态注意力[30，37]，胶囊路由[25]和动态卷积[6，36]）来挖掘视觉和语言模态之间的语义对应关系。然而，所有这些方法在空间上都有局限性4965×由于依赖于 3DConvNet 的时间交互（例如， I3D[1]）。具体地，由于移动对象的姿态和位置在相邻帧中变化，因此经由3D算子（例如，3D卷积和3D池化）可能混淆目标帧中的原始外观信息，从而导致不准确的分割结果。为了缓解这种现象，CSTM [12]引入了附加的2D空间编码器（例如，ResNet [8]）来提取目标帧的未受干扰的外观信息，该外观信息在稍后的解码阶段与时间编码器的特征融合。然而，CSTM的空间编码器缺乏运动信息，因为它因此，它往往会对虚假对象产生高响应，并不可避免地引入噪声在本文中，我们认为，一个显式的相互作用之间的空间和时间的特征应该建立在编码阶段的早期，形成一个更充分和有效的信息交换过程之间的编码器。此外，朴素时空交互仍然倾向于引入噪声，由于冗余信息包含在语言无关的干扰。因此，我们相信语言表达可以被利用作为媒介来桥接空间和时间交互，其中只有语言相关的信息可以在编码器之间传输以进行有效的上下文聚合。为此，我们提出了一种新的桥接双工传输（LBDT）模块，有效的时空互动的编码阶段。如图1所示，来自时间编码器的运动然后，空间编码器可以通过反向跨模态注意从指称词中获得语言相关的运动线索，这有助于通过识别正确的动作来识别所指对象（图1顶部）。同样，来自空间编码器的外观信息也通过语言桥传输到时间编码器，这有助于时间编码器从复杂背景中区分语言相关的前景对象（图1底部）。此外，我们还消除了对3D ConvNet的依赖，并通过2DConvNet处理帧差来近似运动信息。通过这种方式，模型复杂度显著降低，因为与3D ConvNet相比，2DConvNet占用的计算开销减少了近30%（例如，3.6vs.107.9 GFLOPs）[2]。为了利用层次视觉特征的丰富多尺度上下文进行更精细的掩码预测，我们还提出了双边通道激活（BCA）模块，以在解码阶段调整不同的特征通道。具体地，我们首先分别在时间和空间解码器中上采样和添加多级特征，以获得去编码特征，在其上利用语言特征通过通道方式激活来过滤掉与语言无关的运动和外观信息。同时，进一步提取解码特征的全局上下文，以激活时空一致通道来突出所涉及对象的特征。简而言之，我们的贡献是三方面的：1）我们提出了一个桥接双工传输（LBDT）模块，在RVOS的编码阶段，我们使用指代词作为媒介来传输语言相关的运动和外观信息，以显式地进行两个独立的2D ConvNets之间的2)在解码阶段，我们提出了一个双边通道激活（BCA）模块，以获得语言去噪的时空一致性特征分割的参考对象。3)大量的实验表明，我们提出的方法优于以前的方法在四个流行的RVOS基准，与显着的AP增益6.8%的A2 D句子和6.9%的J-HMDB句子，同时消耗大约7倍的计算开销。2. 相关工作2.1. 参考图像分割参考图像分割（RIS）的目标是在静态图像中分割出自然语言表达式所指的相应对象。这一任务首先由Hu等人提出。[10]，其中由FCN [23]提取的视觉特征和由LSTM [9]提取的语言特征直接连接并融合以形成跨模态特征，基于该特征预测引用对象的分割掩码。最新的方法遵循这种一步范式，并设计复杂的跨模态交互方式，涉及细粒度依赖建模和结构分析[11，13，15，20，41]。此外，作为RIS和指称表达理解（即，预测所引用对象的边界框而不是掩模）是高度相关的，MCN [24]提出了一种多任务协作网络来实现两个任务的联合学习。在本文中，我们也遵循一阶段的范式，但更侧重于实现有效的和高效的时空互动下的中介语言。2.2. 参考视频对象分割参考视频对象分割（RVOS）是RIS的一种扩展，它需要运动和外观信息来分割动态视频中的正确对象。随着各种基准的可用性[6，16，34]，RVOS最近取得了显着的大多数现有方法主要将以目标帧为中心的视频剪辑馈送到3D ConvNet（例如，I3D [1]），然后通过3D卷积和池化获得目标帧的混合时空特征。与RIS4966n=1|−|∈s=1s=1--图2.概述我们提出的方法。我们将目标帧It及其帧差Id分别馈送到空间编码器（底部）和时间编码器（顶部）在LBDT模块中，我们堆叠多个LBDT层，以指称词为媒介进行时空交互在解码阶段，我们去噪的语言无关的运动和外观信息，并激活时空一致的通道解码的空间特征DS和时间特征DT分别在建议的BCA模块。最后，我们在BCA模块的输出上应用卷积和S形函数来获得预测P。方法，他们专注于设计不同的机制，以更好地挖掘视频和语言特征之间的语义对应关系[6，25，30，36，37，41]，而忽略了由3D运算符引起的空间错位问题。因此，CSTM [12]利用额外的2D空间编码器在解码阶段中利用时间特征来补充目标帧的未受干扰的空间信息，但是在编码阶段中仍然引入了没有运动线索的噪声。在本文中，我们建议建立一个明确的时空互动早期的编码阶段，语言被利用作为空间和时间编码器之间的桥梁，只传输语言相关的运动和外观信息，同时抑制其他无关的干扰。2.3. 时空互动最近，时空交互的改进在无监督视频对象分割领域得到了广泛的应用[4，19，21，33，40，42]。例如，Zhouet al.[42]提出了一种注意运动的过渡，以加强具有运动信息的空间-时间对象表示。Ren等人[33]提出了一个相互转换网络，通过关联运动和外观线索来发现主要对象。然而，这些方法只考虑了时空交互，而忽略了视觉语言对齐，而后者对于RVOS也是至关重要的。在本文中，我们利用语言作为一种媒介，桥梁时空互动的提取，3. 方法我们的模型的整体架构如图2所示。对于输入视频剪辑，我们将其用地面实况掩码注释的目标帧It和计算的帧差Id分别馈送到两个独立的ResNet-50 [8对于输入引用表达式，我们使用LSTM [9]从预训练的GloVe嵌入[32]中提取语言特征，表示为R=rnN，其中N是引用表达式的长度。为了在两个编码器之间显式地传输语言相关的在解码阶段，我们整合了多尺度上下文，并提出了一个BCA模块去噪的语言无关的信息和激活时空一致的功能，通过通道式激活。3.1. 视觉和语言特征提取给定一个视频片段，我们将目标帧It∈R3×H0×W0和帧差Id=ItIt−δR3×H0×W0分别馈送给空间编码器和时间编码器，其中δ是目标帧与前一帧之间的间隔，用于计算帧差我们没有使用I3 D [1]作为时间编码器，而是在2DResNet-50 [8]上构建空间和时间编码器。我们表示五个特征全面的多模态表示。阶段为{Ss}5，Ss∈RCs× Hs× Ws 5、，Ts∈帧差时间编码器（…conv1conv2conv3conv4conv5*12&42&4DecN$“a big dark dogon top is手套嵌入LSTM2LBDT1BCA&公司简介帧conv1conv2conv3conv4conv52&419Dec…）12&LBDT4空间编码器……………4967电子运动聚合语言桥运动传递时间特征空间映射特征布公司注意力地图#×TT→S介质语言特性阿普尔Y注意力图S×#→→∈→→∈∈矩阵乘积逐元素加法线性变换图3.说明了我们提出的LBDT模块中的时间→语言→空间信息传递过程。来自时间特征T1的语言相关运动信息被聚合到语言媒介RT→S中，空间特征S1中的每个像素可以根据语义相关性从语言媒介RT →S中选择跨模态运动信息。空间语言的时间信息传递过程也是类似的。RCs×Hs×Ws分别用于空间和时间编码器，其中H，W=H0，W0和C是高度，宽度，和我们的LBDT模块遵循Transformer [35]的实现实践，并将其修改为跨模态版本。s s2s2ss第s级中特征的通道号。对于指称表达式，我们将每个单词嵌入为一个300维向量[32]并使用LSTM [9]作为文本在每个LBDT层中，我们将增强的语言特征R′和前一层的输出作为输入提供给它：编码器提取词的特征R={rn}N∈RN×Cm 得双曲余切值.n=1N是引用前的最大长度S1+ 1，T1+ 1= LBDT（S1，T1，R′），l =1，.， L − 1。（三）Cm是信道号。3.2. 桥接双工传输我们的LBDT模块旨在以语言为桥梁，在时间和空间编码器之间显式地传输语言相关的运动和外观信息，其中我们堆叠LBDT模块的L层以进行这种双工传输方法（图3）。为了清楚地阐述LBDT模块中的传输过程，我们以编码器的第s级为例，省略上标s表示简单。我们改变空间特征S∈RC×H ×W和时间特征S ∈ RC特征T∈RC× H × W 通过线性变换得到Cm：由于双工转换过程以并行方式发生，因此我们以第l个LBDT层中的时间语言空间转换过程为例（图3）。对于运动聚合，我们首先添加2D正弦位置编码PT∈RCm× H × W 时间特征T1，然后将其整形为T1′ ∈ RHW × Cm。得到了注意力地图AR×TRN×HW通过计算相似度，每个单词和每个像素之间的距离：Tl′=Reshape（Tl+PT），（4）RQ=线性（R′），TK=线性（Tl′），T1=线性（T），S1=线性（S），（1）AR×T=Softmax（RQ（TK）T），Cm（五）其中S1∈RCm×H ×W和T1∈RCm×H ×W是哪里i N和 iRHW第一层LBDT层的视觉输入AR× T ={AR× T}i=1AR× T ∈是对于语言输入，我们首先通过自注意机制[35]增强词特征R R N×Cm，并将增强的词特征表示为R′RN×Cm，其格式如下：RQ/K/V=线性（R+PR），第i个单词的注意力地图。我们用AR×T来适应-从整形的时间特征T1′中有效地聚合语言相关的运动信息，然后将其添加到单词特征R′中，以获得具有多模态表示的语言媒介RT→S∈RN×Cm：01 - 02- 2016刘晓波（RQ（RK）TCmRV+R，√√4968∈（二）TV=线性（Tl′），RT→S=AR ×TTV+R′。（六）其中PRRN×Cm是正弦曲线位置编码[35]。对于运动传输，我们让空间特征自适应地从4969Σ˜T→S∈S=3S=3N×特征DS∈RCd×H2×W2和DT∈RCd×H2×W2，空间和时间解码器。鉴于DS和DT，我们还提出了双边通道激活（BCA）模块自适应过滤掉语言无关的信息，同时突出一致的时空特征，如图4所示。具体地说，由于DT和DS可能包含语言-无关的运动和外观信息，我们建议利用句子特征r=n=1∈RCras公司简介图4.BCA模块的图示我们用语言去噪器tr和sr滤除与语言无关的信息，用ft和fs突出时空一致的通道。去噪器过滤掉与语言无关的信息。我们首先对DS和DT进行平均池化，将它们压缩成s∈RCd和t∈RCd。然后，我们获得语言特定的空间去噪器sr∈RCd和时间去噪器tr∈RCd如下：s=σ（线性（[s;r]），t=σ（线性（[t;r]），（10）r˜r˜中RT→S。类似地，我们首先将位置编码PS添加到空间特征Sl，并将其整形为Sl′∈RHW×Cm。然后我们计算交叉注意力其中σ是sigmoid函数，[;]表示级联。同时，我们还将s和t连接在通道维度上，并应用线性变换来获得地图AiS×R ∈RN之间的第i个像素的空间fea-时空一致性特征f∈RCd：tures和介质RT→S，它测量语义这两个特征之间的关系：Sl′=Reshape（Sl+PS），（7）f=（线性（[t;s]）），（11）其中，ReLU（·）是ReLU[28]函数。我们将f变换为通道激活因子fs∈RCd和ft∈RCd，RKT→S =线性（RT→S），SQ=线性（Sl′），分别使用sigmoid函数σ：AS×R=Softmax（SQ（RK ）TS）。（八）ft= σ（Linear（f）），fs= σ（Linear（f））.（十二）接下来，语言特定的去噪器（即，不和s）和然后，我们使用交叉注意图AS×R将语言相关的运动信息转换为空间特征：R r时空一致激活器（即，f（t）和f（s）被组合以在融合解码的空间特征DS和时间特征DT之前处理它们：RVT→S =线性（RT→S），（九）DT′ =ft 特河 T型，DS′ =fs 斯考特s公司简介、（十三）Sl+1=MLP（AS×RRV ）+Sl，其中，k是具有广播操作的元素乘积，其中，MLP表示多层感知，并且S1+ 1是第1个LBDT层的输出空间特征我们将最后一个LBDT层的输出SL和TL作为LBDT模块的输出最后，我们将SL和TL的通道数增加到C，并将它们分别与原始空间和时间特征相加，以形成残余连接，从而更容易优化。3.3. 双侧通道激活为了获得强语义表示并同时保持帧的局部细节，我们对后三个帧中的低分辨率空间和时间特征进行了气最后，我们将改进的空间特征DS′和时间特征DT′连接起来，并利用33卷积算法得到融合特征FRECd× H2×W2。我们进一步在F上应用卷积和sigmoid函数来获得logit映射，并将其上采样到与预测P∈R1×H0×W0相同的空间大小。4. 实验4.1. 数据集和评价标准我们评估我们的方法在四个流行的性能将阶段{Ss}5和{Ts}5调整到与2元参考视频对象分割基准相同的大小：平均合并��电C布雷尔CCConv3x3CR平均合并��线性变换SigmoidCConcat元素乘积解码空间解码的时间4970SS=3SS=3{}∈{}∈第二阶段的特点是S2和T2。生成的功能是Sentences [6]，J-HMDB Sentences [6]，Refer-YouTube-表示为Sup5RCd× H2× W2 和 Tup5RCd ×H2 × W2，其中Cd是解码器中的通道数. 然后，我们将它们与S2和T2相加，得到解码后的[17]《明史》卷17，《明史》卷17，对于A2 D句子和J-HMDB句子，我们使用IoU和Precision@X（P@X）作为评估标准[12，30，36]。4971††联系我们×方法Pub.JFJF[34]第三十四话URVOS [34]ECCV20ECCV2041.3445.27-49.19-47.23CMPC-V [22]TPAMI2145.6449.3247.48我们的（LBDT-4）-48.18（+2.54）50.57（+1.25）49.38（+1.90）方法Pub.预训练JF第一视频完整视频Khoreva等人[16个]ACCV18[27]第二十七话39.3037.10URVOS [34]ECCV20[27]第二十七话44.10-URVOS [34]ECCV20[34]第三十四话51.63-我们的（LBDT-4）-[34]第三十四话54.08（+2.45）54.52（+17.42）方法Pub.P@0.5P@0.6重叠P@0.7P@0.8P@0.9AP0.5：0.95IOU总体平均Gavrilyuk等人[6]美国CVPR1847.534.721.18.00.219.853.642.1Gavrilyuk等人[6]ACGA [37]CVPR18ICCV1950.055.737.645.923.131.99.416.00.42.021.527.455.160.142.649.0[25]第二十五话CVPR2052.645.034.520.73.630.356.846.0CMDy [36]AAAI2060.752.540.523.54.533.362.353.1PRPE [30]IJCAI2063.457.948.332.28.338.866.152.9[第41话]TPAMI2148.743.135.823.15.2-61.843.2CSTM [12]CVPR2165.458.949.733.39.139.966.256.1CMPC-V [22]TPAMI2165.559.250.634.29.840.465.357.3我们的（LBDT-1）-71.1（+5.6）66.1（+6.9）57.8（+7.2）41.6（+7.4）12.0（+2.2）46.1（+5.7）70.1（+3.9）61.2（+3.9）我们的（LBDT-4）-73.0（+7.5）67.4（+8.2）59.0（+8.4）42.1（+7.9）13.2（+3.4）47.2（+6.8）70.4（+4.2）62.1（+4.8）表1.在A2D句子测试集上与最先进的方法进行比较我们的方法明显优于以前依赖于3D ConvNets进行时空交互的方法。““表示利用附加的光流输入。“LBDT-方法Pub.P@0.5P@0.6重叠P@0.7P@0.8P@0.9AP0.5：0.95IOU总体平均Gavrilyuk等人[6]美国CVPR1869.946.017.31.40.023.354.154.2Gavrilyuk等人[6]ACGA [37]CVPR18ICCV1971.275.651.856.426.428.73.03.40.00.026.728.955.557.657.058.4[25]第二十五话CVPR2067.751.328.35.10.026.153.555.0CMDy [36]AAAI2074.258.731.64.70.030.155.457.6PRPE [30]IJCAI2069.057.231.96.00.129.4--[第41话]TPAMI2176.462.538.99.00.1-62.858.1CSTM [12]CVPR2178.363.937.87.60.033.559.860.4CMPC-V [22]TPAMI2181.365.737.17.00.034.261.661.7我们的（LBDT-1）-86.4（+5.1）75.1（+9.4）50.7（+11.8）11.6（+2.6）0.140.3（+6.1）64.6（+1.8）65.2（+3.5）我们的（LBDT-4）-86.4（+5.1）74.4（+8.7）53.3（+14.4）13.2（+4.2）0.041.1（+6.9）64.5（+1.7）65.8（+4.1）表2.使用在A2 D句子上训练的最佳模型，与J-HMDB句子数据集上的最先进方法进行比较。我们的方法表现出显着的推广能力。表示在A2D句子上训练I3D主干的更多层。表3.与Refere-Youtube-VOS验证集上最先进的方法进行比较。指示去除第二阶段推断步骤的多个迭代。具体而言，总IoU是所有测试样本的总横截面积除以总结合面积的比值，平均IoU是所有测试样本的平均IoU。P@X测量其IoU高于预定义阈值X的测试样本的百分比，其中X 0。5，0。6，0。七比零。八比零。9 .第九条。我们还计算[0]区间上的平均精度（AP）。五十比零05：0。95]。对于Refer-YouTube-VOS和Refer-DAVIS17，我们使用region相似性（J）和机翼轮廓精度（F）[34]。4.2. 实现细节我们使用在ImageNet [18]数据集上预训练的ResNet-50 [8]作为我们的空间和时间编码器。对于语言-表4.与Refer-DAVIS 17验证集上最先进方法的比较。tic输入，我们采用LSTM [9]从GloVe词嵌入[32]中提取语言特征，这些词嵌入在Common Crawl上用840 B标记进行预训练。输入句子的最大长度为25。我们设置帧间隔δ= 6以计算帧差，除非另有说明。将输入帧的大小调整为320 320。亚当[17]被用作优化器。我们在NVIDIATeslaV100GPU上以端到端的方式训练整个网络，批量大小为8，学习率为1e-4，持续15个epoch，这是由交叉熵损失和骰子损失监督的。从第10个epoch开始，每2个epoch的学习率除以2 。至于 Refer-DAVIS 17 ，我们微调了在 Refer-Youtube-VOS上训练1个epoch的最佳模型，学习率为1e−5。4972→ → →→→ → → →JFO≪OLBDTS→ L→ T T→ L→ SBCALD STCP@0.5P@0.6重叠P@0.7P@0.8P@0.9AP0.5：0.95IOU总体平均60.554.947.835.011.038.861.654.5✓✓✓✓64.568.070.058.863.264.149.854.855.735.938.439.311.211.911.540.643.744.567.368.669.356.158.359.8✓✓✓✓✓✓✓✓✓✓70.370.271.165.364.766.156.756.557.840.439.941.612.212.312.045.345.046.169.569.970.160.459.961.2表5. 验证了我们提出的LBDT模块和BCA模块的有效性。 “S L T”和“T L S”表示spa- 方言时间转移与时间语言空间转移。 “LD” and “STC” denote4.3. 与最新方法的我们比较我们的方法与以前的国家的最先进的方法在前面提到的四个流行的基准如表1所示，我们的方法在A2D Sentences测试集[6]上的表现优于以前的作品。与CSTM [12]相比，我们的LBDT-1模型在AP，总体IoU和平均IoU上分别实现了5.7%，3.9%和3.9%的绝对改进，表明使用语言作为媒介在编码阶段进行显式时空交互优于使用3D ConvNets和解码阶段隐式交互的现有方法。通过叠加LBDT层，可以迭代地优化空间和时间特征，并且使用具有4层的LBDT-4模型获得最佳我们进一步在J-HMDB句子数据集上验证了我们的方法的泛化能力[6]。根据之前的工作[12，30，36]，我们使用在A2 D句子上训练的最佳模型直接评估J-HMDB句子中的所有样本，而无需微调。如表2所示，我们的方法比以前的最先进的方法实现了显着的性能增益，表明我们的方法可以获得更鲁棒的多模态表示，并将学习到的知识泛化到看不见的数据集。我们还在新提出的Refer-YouTube-VOS基准[34]上进行了实验，其中包含更丰富的对象类别和更密集的注释帧。如表3所示，我们的方法优于URVOS [34]和CMPC-V[22]在指标上分别提高了2.15%和1.90%，这表明我们的方法即使在复杂的场景中也能表现良好。&此外，在URVOS [34]之后，我们使用在Refer-YouTube-VOS上训练的最佳模型，并在Refer-DAVIS17数据集上对其进行微调[16]，我们也实现了最佳性能，如表4所示。4.4. 消融研究我们对A2D Sentences数据集进行消融研究，以评估我们模型的不同设计。所有的实验都是基于我们的LBDT-1模型。成分分析我们在表5中总结了我们申报部件的消融结果。第一行是基线方法，我们首先将语言特征与视觉特征融合，然后直接在空间和时间特征之间进行双向时空交互，交叉注意机制[35]没有语言的桥接，其计算复杂度为（（HW）2C）。如第2行和第3行所示，运动转移和外观转移都可以带来显著的改善，验证了语言桥接双工策略的有效性。此外，我们的LBDT模块的复杂度是（ HWNC ），这是更轻量级的 NHW。对于BCA模块，我们对两个关键组件进行了消融实验：语言去噪器和时空一致性激活器。结果表明，通过激活时空一致的通道（第5行），解码后的时空特征可以相互受益，减少与语言无关的运动和外观信息可以提高解码器（第6行）的特征融合效果。度量12间隔3 4 567AP45.045.245.145.645.046.145.2是说68.968.769.469.369.070.169.0整体60.060.560.160.860.061.260.8表6.用于计算帧差的间隔计算帧差的间隔。我们在表6中展示了用于计算帧差的间隔值δ的影响。我们发现，当间隔为6时达到最佳性能，这实现了对短动作和长动作建模的平衡。LBDT模块的插入阶段。我们评估了LBDT模块的不同插入位置，并将结果总结在表7中。将LBDT插入到我们的空间和时间编码器的第4和第5阶段可以带来显著的改进，但性能会随着我们4973× ×†×“a表7.插入LBDT模块的阶段。将其插入到较早的级（即，第二和第三阶段）。这表明语言桥接的时空交互更适合传递高层语义信息。“car车架CSTM LBDT GT图5.我们和CSTM[12]复杂的场景。帧表8.计算开销。RGB输入大小是帧的高度和宽度（通道被省略）。表示推理代码通过联系作者获得。帧差异“jumping”“rolling”“蓝色”“行走”4.5. 计算开销我们在表8中比较了我们的方法和以前的方法的计算开销。没有依赖性在3D ConvNet上，我们的模型比现有的方法有显著的优势，同时消耗大约 7 个GFLOPs和更小的输入大小。此外，我们评估了这些方法的FPS在一个单一的NVIDIA 1080Ti GPU。结果表明，该方法具有较高的效率，从而增加了RVOS实际应用的可能性。4.6. 定性分析图5显示了我们的方法和CSTM [12]在复杂场景中由于CSTM中的空间编码器缺乏运动信息，因此它倾向于在错误对象（第2列）上生成通过在编码阶段以语言为桥梁显式地进行时空交互，我们的方法可以获得所引用对象（第3我们在图6中的LBDT模块中进一步可视化了指称词的关注区域。以第1排为例，运动相关词5. 结论与讨论在本文中，我们重新考虑了RVOS的时空相互作用方式，并提出了一种新的时空相互作用模型-图6.指称词关注区域的可视化。复杂传输（LBDT）模块，以语言为媒介，在编码阶段显式地进行时空交互，传输语言相关信息。在解码阶段还引入了双边通道激活（BCA）模块，通过通道激活对时空一致性特征进行去噪和激活。实验表明，我们的方法优于传统方法的大利润率在四个流行的基准，更少的计算开销。限制. 本文的局限性在于，静态语言描述不一定总是与连续帧中位置和姿态不同的动态对象相匹配。在未来，我们希望通过探索不同视频帧中的掩模之间的时间相干性来解决上述失配问题，这是对本文重点的补充。致谢本研究得到国家自然科学基金（ 62122010 ，61876177）、中央高校基础研究基金和浙江省重点研发计划（2022C01082）的部分资助。2阶段3 45AP0.5：0.95IOU总体平均✓✓✓✓✓✓✓✓✓✓42.346.145.338.767.370.168.263.757.861.260.855.9方法输入大小GFLOPSFPSAPACGA [37]CSTM [12]16× 512× 5128× 320× 320630.83213.069.511.427.439.9我们的（LBDT-1）我们的（LBDT-2× 320× 3202× 320× 32032.5138.0319.212.546.147.24974引用[1] J oaoCarreira和Andr e wZisserman。Quovadis，动作识别？新模型和动力学数据集。在CVPR，2017年。二、三[2] Yunpeng Chen，Yannis Kalatidis，Jianshu Li，ShichengYan，and Jianshi Feng.用于视频识别的多光纤网络。在ECCV，2018。2[3] Brendan Duke 、 Abdalla Ahmed 、 Christian Wolf 、Parham Aarabi和Graham W Taylor。Sstvos：用于视频对象分割的稀疏时空变换器。在CVPR，2021年。1[4] 卡特琳娜·弗拉基亚达基，巴勃罗·阿贝莱斯，帕纳·费尔森，和吉坦德拉·马利克.学习分割视频中的移动对象CVPR，2015。3[5] 傅祖瑞，王欣，斯科特·T·格拉夫顿，米格尔·P·埃克斯坦，和威廉·杨·王。通过多模态多电平Transformer进行基于存储的视频编辑。 arXiv 预印本 arXiv ：2104.01122，2021。1[6] Kirill Gavrilyuk、Amir Ghodrati、Zhenyang Li和CeesG. M.斯诺克从句子中分割出演员和动作视频。在CVPR，2018年。一、二、三、五、六、七[7] Wenbin Ge，Xiankai Lu，and Jianbing Shen.使用全局和实例嵌入学习的视频对象分割在CVPR，2021年。1[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。二、三、六[9] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，1997年。二三四六[10] 胡荣航马库斯·罗尔巴赫和特雷弗·达雷尔。从自然语言表达中分割。在ECCV，2016年。2[11] Shaofei Huang ， Tianrui Hui ， Si Liu ， Guanbin Li ，Yunchao Wei，Jizhong Han，Luoqi Liu，and Bo Li.通过跨模态渐进式理解进行参考图像分割。在CVPR，2020年。2[12] Tianrui Hui ， Shaofei Huang ， Si Liu ， Zihan Ding ，Guanbin Li ， Wenguan Wang ， Jizhong Han ， and FeiWang.语言查询视频演员分割的协同时空建模。在CVPR，2021年。一二三五六七八[13] Tianrui Hui，Si Liu，Shaofei Huang，Guanbin Li，SansiYu，Faxi Zhang，and Jizhong Han.语言结构引导的上下文建模在参考图像分割中的应用。在ECCV，2020年。2[14] Yunseok Jang、Yale Song、Youngjae Yu、Youngjin Kim和 Gunhee Kim 。 Tgif-qa ： Toward spatio-temporalreasoning in visual question answering. 在 CVPR ， 2017年。1[15] 雅晶，孔涛，王伟，王良，李磊，谭铁牛.Locate thensegment：一个强大的参考图像分割管道在CVPR，2021年。2[16] Anna Khoreva，Anna Rohrbach，and Bernt Schiele.基于语言指称的视频对象分割。在ACCV，2018年。二五六七[17] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。64975[18] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。NeurIPS，2012. 6[19] 李浩峰、陈冠奇、李冠斌、余益州。用于视频显著对象检测的运动引导注意。在ICCV，2019年。3[20] Ruiyu Li，Kaican Li，Yi-Chun Kuo，Michelle Shu，Xiaojuan Qi，Xiaoyong Shen，and Jiaya Jia.参考图像分割通过循环细化网络。在CVPR，2018年。 2[21] Siyang Li，Bryan Seybold，Alexey Vorobyov，XuejingLei，and C-C Jay Kuo.基于运动双边网络的无监督视频对象分割。在ECCV，2018。3[22] SiLiu，Tianrui Hui，Shaofei Huang，Yunchao Wei，BoLi，and Guanbin Li.指称切分的跨模态渐进理解。IEEETPAMI，2021。六、七[23] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。CVPR，2015。2[24] Gen Luo，Yiyi Zhou，Xiaoshuai Sun，Liujuan Cao，Chenglin Wu，Cheng Deng，and Rongrong Ji.多任务协作网络联合指称表达理解与切分。在CVPR，2020年。2[25] Bruce McIntosh ， Kevin Duarte ， Yogesh S Rawat 和Mubarak Shah。用于基于文本的视频分割的视觉-文本胶囊路由在CVPR，2020年。一、三、六[26] Fausto Milletari Nassir Navab和Seyed-Ahmad Ahmadi。V-net：用于体积医学图像分割的全卷积神经网络。在3DV，2016年。6[27] Varun K Nagaraja，Vlad I Morariu，and Larry S Davis.在对象之间建立上下文关系，以便理解指称表达.在ECCV，2016年。6[28] Vinod Nair和Geoffrey E Hinton。校正线性单元改善受限玻尔兹曼机。ICML，2010年。5[29] 梅蒂妮·纳拉希姆汉，安娜·罗尔巴赫，特雷弗·达雷尔.别碰它语言引导的视频摘要。arXiv预印本arXiv：2107.00650，2021。1[30] 柯宁、邪灵犀、武飞、齐天。用于视频语言分割的极相对位置编码。在IJ-CAI，2020年。

下载后可阅读完整内容，剩余1页未读，立即下载