基于多模态变换的端到端参考视频对象分割

81 浏览量更新于2023-10-25 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4985基于多模态变换的端到端参考视频对象分割Adam Botach，Evgenii Zheltonozhskii，ChaimBaskin Technion{botach，evgeniizh}@chaimbaskin@cs.technion.ac.il摘要参考视频对象分割任务（RVOS）涉及给定视频的帧中的文本参考对象实例的分割。由于这种多模式任务的复杂性，它结合了文本推理，视频理解，实例分割和跟踪，现有的方法通常依赖于复杂的管道来解决它。在本文中，我们提出了一个模拟- 基于转换器的RVOS方法我们的框架，称为多模态跟踪Transformer（MTTR），models的RVOS任务作为一个序列预测问题。随着计算机视觉和自然语言处理领域的最新进展，MTTR基于这样一种认识，即视频和文本可以通过单个多模态Transformer模型有效而优雅地一起处理。MTTR是端到端可训练的，没有文本相关的感应偏差分量，并且不需要额外的掩码细化后处理步骤。因此，与现有方法相比，它大大简化了RVOS管道。对标准基准的评估表明，MTTR在多个指标上显著优于先前的技术。特别是，MTTR在A2 D-句子和JHMDB-句子数据集上分别显示出令人印象深刻的+5.7和+5.0 mAP增益，同时每秒处理76帧。此外，我们报告了Refer-YouTube-VOS公共验证集的强有力结果，这是一个更具挑战性的RVOS数据集，尚未引起重新搜索者的注意。复制我们实验的代码可在https://github.com/mttr2021/MTTR上获得。1. 介绍基于注意力的[41]深度神经网络在不同领域的各种任务上表现出令人印象深刻的性能，从计算机视觉[10，27]到自然语言处理[3，8]。这些进步使得这类网络，如Transformer [41]，成为解决多模态问题的特别有趣的候选者。依靠自我-图1. 给定文本查询和视频帧序列，所提出的模型在确定参考实例之前输出视频中所有对象实例的预测序列。在这里，具有相同颜色和形状的预测属于相同的序列，并且关注不同帧中的相同对象实例注意，不同帧的实例预测顺序保持不变。最好用彩色观看。注意机制，允许序列中的每个令牌全局聚合来自其他每个令牌的信息，Transformers擅长建模全局依赖关系，并已成为大多数NLP任务的基石[3，8，35，50]。变形金刚也开始在解决计算机视觉任务方面显示出希望，从识别[10]到对象检测[4]，甚至超过长期使用的CNN作为通用视觉骨干[27]。参考视频对象分割任务（RVOS）涉及在给定视频的帧与参考图像分割任务（RIS）[29，52]相比，其中对象主要通过其外观来参考，在RVOS中，对象可以上一篇：Ahand giving ayellow ball to时空特征提取+文本编码多模态Transformer第1帧第2帧第3帧转介？4986也可以通过他们正在执行的或他们参与的行动来引用。这使得RVOS比RIS更难，因为引用动作的文本表达式通常不能从单个静态帧中正确推导此外，与它们的基于图像的对应物不同，RVOS方法可能需要跨多个帧（跟踪）建立所涉及对象的数据关联，以便处理诸如遮挡或运动模糊的干扰。为了解决这些挑战并有效地将视频与文本对齐，现有的RVOS方法[14，25，32]通常依赖于复杂的管道。相比之下，在这里，我们提出了一个简单的，端到端的基于Transformer的RVOS方法。使用Transformers在文本特征提取[26，41]，视觉特征提取[10，27，28]和对象检测[4，45]方面的最新进展，我们开发了一个为了实现这一点，我们采用了一个单一的多模态Transformer和模型的任务作为一个序列预测问题。给定一个视频和一个文本查询，我们的模型生成视频中的所有对象的预测序列，然后确定文本所指的对象。此外，我们的方法是免费的文本相关的电感偏置模块，并利用一个简单的交叉熵损失对齐视频和文本。因此，它比以前的任务方法简单得多。所提出的管线示意性地描绘在图1中。1.一、首先，我们使用标准的基于transformer的文本编码器从文本查询中提取语言特征，并使用时空编码器从视频帧然后将这些特征传递到多模式Transformer中，该转换器输出几个对象预测序列[45]。接下来，为了确定哪个预测序列最符合引用对象，我们为每个序列计算为此，我们提出了一个时间段投票方案，使我们的模型在做出决定时专注于视频的更多相关部分。我们的主要贡献如下：• 我们提出了一个基于变换器的RVOS框架，称为多模态TrackingTr ansformer（MTTR），它将任务建模为并行序列预测问题，并在选择文本所指的对象之前输出视频中所有• 我们的序列选择策略是基于一个时间段投票方案，一种新颖的推理方案，使我们的模型专注于更相关的视频部分的文本。• 所提出的方法是端到端可训练的，没有文本相关的归纳偏差模块，并且不需要自适应掩码细化。因此，与现有方法相比，它大大• 我们彻底评估了我们的方法。在 A2 D- 句和JHMDB-句[12]中，MTTR表示-cantly在所有度量上优于所有现有方法我们还在Refer-YouTube-VOS [39]的公共验证集上显示了强有力的结果，这是一个具有挑战性的数据集，尚未在文献中得到关注2. 相关工作参考视频对象分割。RVOS任务由Gavrilyuk等人引入。[12]，其目标是实现视频内容中演员及其动作的像素级分割。为了有效地聚合和对齐来自视频和文本的视觉、时间和语言信息，最先进的RVOS方法通常依赖于复杂的流水线[25，30，32，42，43]。Gavrilyuk等人[12]提出了一种基于I3 D [5]的编码器-解码器架构，该架构从文本特征中生成动态过滤器，并将其与视觉特征进行卷积以获得掩码。在他们之后，Wang等人。[42]将空间上下文添加到具有可变形卷积的内核[7]。为了更有效地表示，VT胶囊[30]在胶囊[37]中编码每个模态，而ACGA [43]利用共同注意机制来增强多模态特征。为了改进文本中的位置关系表示，PRPE [32]探索了基于极坐标的位置编码机制。URVOS [39]通过在关键帧上执行基于语言的对象分割，然后在整个视频中传播其掩码来提高跟踪能力。AAMN [49]采用了自上而下的方法，在解析视觉和文本特征之间的关系之前，使用现成的对象检测器来定位视频中的对象CMPC-V[25]通过从视频和文本特征构建时间图，并应用图卷积[18]来检测引用的实体，实现了最先进的结果。变压器. Transformer [41]是作为序列到序列机器翻译的基于注意力的构建块引入的，从那时起，它已经成为大多数NLP任务的基石[3，8，35，50]。与以前的架构不同，Transformer完全依赖于注意力机制来绘制输入和输出之间的依赖关系最近，将变形金刚引入计算机视觉任务已经展示了惊人的性能。DETR [4]利用非自回归Transformer，简化了传统的对象检测流水线，同时实现了与基于CNN的检测器相当的性能[36]。给定一组固定的学习对象查询，DETR推理图像的全局上下文及其对象之间的关系，然后并行输出最终的检测预测集。VisTR [45]将DETR背后的思想扩展到视频实例分割。它将任务视为直接的端到端并行序列预测问题。通过在作为整体的序列级上监督视频实例VisTR能够直接为视频中的每个实例输出有序的掩码序列（即，自然跟踪）。4987i=1V不i=1图2.MTTR的详细概述首先，输入的文本和视频帧通过特征编码器，然后连接成多模式序列（每帧一个）。然后，多模态Transformer对特征关系进行编码，并将实例级特征解码为一组预测序列。接下来，生成对应的掩模和参考预测序列最后，预测的序列与用于监督（在训练中）的地面实况序列匹配，或者用于生成最终预测（在推断期间）。ViT [10]将Transformer引入到图像识别中，使用线性投影块作为Transformer编码器的标记。SwinTransformer [27]提出了一种基于分层Transformer的计算机视觉通用骨干，其表示在移位窗口内计算。该架构也被扩展到视频域[28]，我们将其适配为我们的时间编码器。另一个最近的相关工作是MDETR [16]，一个DETR-基于端到端的多模态检测器，检测以文本查询为条件的图像中的对象。与我们的方法不同，他们的方法旨在处理静态图像，其性能在很大程度上取决于包含对齐文本和框注释的注释良好的数据集，这些类型在RVOS任务中不可用。3. 方法3.1. 方法概述任务定义。RVOS的输入由一帧查询T ={t i}L，其中t i是文本中的第i个单词。然后，对于大小为T1 的感兴趣帧的子集，目标是分割V1中的每个帧中由T指代的对象。我们注意到，由于产生掩码注释需要大量的帧，因此Vl很少包含V中的所有帧。特征提取。我们首先使用深度时空编码器从序列中的每个帧中提取特征。同时，使用基于transformer的文本编码器从文本查询中提取语言特征。然后，将时空和语言特征线性投影到共享维度D。实例预测。在下一步骤中，每个感兴趣帧的特征被平坦化并分别与t个嵌入连接，产生一组T个多模态序列。这些序列被并行地馈送到变换器 [4 ， 41] 中。在Transformer的编码器层中序列V={vi}T其中vi∈RC×H0×W0，交换信息。然后，解码器层，其是实例序列分割参考预测实例序列匹配FB1、…n−1空间解码器G段F段转介的GTinst未引用GTinstseq 1未引用的GTinst seqNi-FEVI分段内核头G核参考预测头G参考合并PR训令插入1序插入4序提取视觉特征空间位置编码Transformer解码器Transformer解码器Transformer解码器T视频帧时空特征提取器FnB线性投影FB1、…nConcatTransformer编码器Transformer编码器Transformer编码器文本查询文本编码器线性重复投影xT框架1+文本框架2+文本框架T+文本fT视觉语言特征提取多模态Transformer}}}4988不FBF××Qt=1Mt=1Q{ } ∈Vi=1Segt=1Seg44NQt=1段V{}向每个输入帧提供Nq个对象查询，查询多模态序列以获得实体相关信息，并将其存储在对象查询中。不同帧的对应查询共享相同的可训练权重，并且被训练以关注视频中的相同实例（每个查询在其指定帧中）。我们参考这些查询（由图1A和1B中相同的唯一颜色和形状1和2）作为属于相同实例序列的查询。这种设计允许自然跟踪视频中的每个对象实例[45]。输出生成。对于每个输出实例序列，我们使用FPN类[22]空间解码器和动态生成的条件卷积核[40，44]生成相应的掩码序列最后，我们使用了一种新的文本参考评分函数，该函数基于文本关联，确定哪些对象查询序列与中描述的对象具有最强的关联，并返回其分割序列作为模型3.2. 时间编码器用于RVOS任务的合适的时间编码器应当能够提取视觉特性（例如，形状、大小、位置）和动作语义，短信了这些视觉和语言特征线性地投射到共享维度D。然后，每个帧的特征被平坦化并分别与文本嵌入连接，从而产生一组TI多模态序列，每个序列的形状为（H W+L）D。然后将多模态序列连同一组Nq个实例序列并行地馈送到如前所述的Transformer中我们的trans-former架构类似于DETR [4]中使用的架构因此，现在的问题归结为找到关注文本引用对象的实例序列3.4.实例分段过程我们的分割过程，如图2所示，由几个步骤组成。首先，给定最后一个Transformer编码器层输出的更新后的多模态序列E，我们提取并整形每个序列（即，第一个H×W到k ens）到集合FEVI中。然后，我们拿F1，n-1，我们的时间编码r的前n-1个块的输出，并分层地将它们与EVI使用类似于FPN的[22]空间解码器GSeg. 这个过程导致视频帧的语义丰富的高分辨率特征图，表示为FSeg。=. ftPakistanI，ft∈RDs×H0×W0（一）多孔编码器然而，由于I3D最初设计用于动作分类，因此将其输出原样用于需要精细细节的任务（例如，实例分割）并不理想，因为其输出的特征往往遭受由时间下采样引起的空间为了补偿这种副作用，过去的现有技术方法提出了不同的解决方案，从辅助掩模细化算法[19，25]到利用与时间编码器一起操作的附加骨干[14]。相比之下，我们的端到端方法不需要任何额外的掩模细化步骤，并且利用单个主干。最近，视频Swin Transformer [28]被提出作为SwinTransformer [27]到视频域的推广虽然最初的Swin在设计时考虑了密集的预测（如分割），但Video Swin主要在动作识别基准上进行测试据我们所知，我们是第一个利用它（稍微修改）进行视频分割的公司。与I3D相反，Video Swin只包含一个时间下采样层，并且可以轻松修改以输出每帧特征图（我们参考补充以了解更多细节）。因此，对于处理连续视频帧的完整序列以用于分割目的是更好的选择。3.3.多模态Transformer对于每个感兴趣的帧，时间编码器生成特征图ftVI∈RH×W×CV，并且te xt编码器输出用于该特征图的语言嵌入向量fT∈RL×DT对于每个实例序列，=qtTI，qtRD输出，我们使用两层感知器G 内核来生成相应的连续分割内核序列[40，44]。Gkernel（Q）={kt}TI，kt∈RDs（2）最后，一系列分割掩码通过将每个分割核与其对应的帧特征进行卷积，随后进行双线性上采样操作以将掩模的大小调整为地面实况分辨率，M={mt}TI ，mt=Upsample（kt<$ft）∈RH0×W0. （三）3.5.实例序列匹配在训练过程中，我们需要确定哪些预测的实例序列最适合所引用的对象。然而，如果视频序列包含额外的注释实例，我们发现监督它们的检测（作为负例）以及引用实例的检测有助于稳定训练过程。让我们用y来表示对以下情况可用的地面真值序列的集合：，则y=yi预测实例序列的集合。我们假设，预测序列（Nq）被选择为严格大于注释实例的数量（表示为Ni），并且地面实况序列集被填充以填充任何缺失的槽（slot）。然后，我们要找到一个匹配的视频.几个以前的作品[12，25，32]利用Kinetics-400[17]预训练的I3 D网络[5]作为他们的tem。F段4989NQL∈LL×≡∈LNQ∈CΣC∈L不不不不我我rTI我我J t=1J t=1i=1把我们的模型。另外，我们用pref（rt）表示，我i=1mi=ttΣΣ两人之间，[45]。因此，我们搜索置换σ∈SNq，其总成本为：σ=argminCMatc h.yσ（i），yi，（4）i=1其中λd，λfR是超参数。Dice和Focal都在每个时间步应用于相应的掩码，并通过训练批次中的实例数量进行归一化。我们参考补充资料，这些功能的定义其中C匹配是成对匹配成本。最佳的每-第二个损失项，表示为Ref是一个交叉熵监督序列参考预测的术语：突变σ_i可以用匈牙利文有效地计算出来算法[20]。每个地面实况序列的形式为TI1吨。中国（11）.<$LRe f（r<$，r）=−λr·logr<$，yi=（mi，ri）={mi}t=I1，{ri}t=I1t=1其中mt是地面实况掩码，而rt{0，1}2是一个其中λr∈R是超参数。在实践中，我们进一步i i通过以下方式对否定（“未引用”）类的术语进行独热引用向量，即，正类意味着Y i对应于文本引用的对象，并且该对象在对应的视频帧VT中可见。注意，如果y i是填充序列，则m i= m。为了使我们的模型能够在形式Eq.在等式（5）中，我们使用参考预测头，表示为 GRef，其由形状为D2 的单个线性层以及随后的softmax层组成。给定预测对象查询qRD，该头将q作为输入并输出参考预测rD。GRe f（q）.因此，我们模型的每个预测都是一对序列：yj=（mj，rj）=.{mt}TI，{rt}TI.（六）第10章不平衡的原因[4]此外，请注意，相同的λr和λd用作匹配成本（7）和损失函数中的权重。有趣的是，尽管Ref因此，并且为了简单起见，在我们的方法中没有额外的损失函数用于文本监督。3.7. 推理对于给定的视频和文本样本，让我们表示为R={ri}参考预测序列的集合out-我们定义成对匹配代价函数为我一个人的积极（“被引用”）类的概率预测精度在推理过程中，我们返回的是-CMatch（yi，yi）=1{mi λdCDic e（mj，mi）+λrCRe f（rj，ri），（7）哪里我对应于r_pred的站掩码序列M_pred，λd，λrR是超参数。Dice通过对Dice系数的否定求平均，使用地面实况掩码序列来监督预测的掩码序列具有最高阳性分数的预测参考序列我不是rpred=argmaxpre f（rt）。（十二）r∈Rt=1功能Ref使用相应的地面实况序列监督参考预测，如下所示1TIC（r，r）=−r·r。（八）我该序列选择方案，我们称之为因此，它允许我们的模型专注于RefJITJ It=1在视频的更多相关部分（其中提到的对象是可见的），并忽略不太相关的部分（3.6.损失函数让我们用y表示（稍微使用符号）根据最佳排列σb排列的预测实例序列的SNq. 然后，我们可以定义损失函数如下：L（y）=NQ联系我们LMas k（mi，mi）+LRe f（ri，ri）. （九）在VisTR [45]之后，第一项称为掩码，确保预测序列和地面实况序列之间的掩码对齐。因此，该术语被定义为Dice [31]和每像素Focal [23]损失函数的组合：σ∈SNq、（五）[31]在每个时间步长处的每对对应掩模我们参考补充文件，了解此成本的完整定义4990LMask（mi ，mi）=λd LDice（mi ，mi）+λf LFocal（mi ，mi），（10）可以描绘不相关的对象，或者其中所涉及的对象在做决定时，我们参考补充资料以进一步分析TSVS的效果。4. 实验为了评估我们的方法，我们进行了三个参考视频对象分割数据集的实验。前两个，A2 D-句子和JHMDB-句子[12]，是通过向原始A2 D [47]和JHMDB [15]数据集添加文本注释创建的。A2 D中的每个视频都有3-更多细节在补充。我们4991∈方法精密度IoUmAP表1.与A2D句子的最新方法的比较[12]。方法精密度IoUmAP表2.与JHMDB语句的最新方法的比较[12]。采用总体IoU，平均IoU和精度@K来评估我们在这些数据集上的方法。总体IoU计算所有测试样本上的总交集与总并集面积之间的比率。平均IoU是所有测试样本的平均IoUPrecision@K考虑IoU分数高于阈值K的测试样本的百分比，其中K[0]。5，0。6，0。七比零。八比零。9]。我们还计算了0.50：0.05：0.95的平均精度（mAP）[24]。我们要注意的是，我们发现了在以前的研究中mAP度量计算的不一致性。例如，对已发布代码的检查揭示了度量的错误计算，即精度@K度量在几个K值上的平均值为避免进一步混淆并确保公平比较，我们建议采用COCO API1进行mAP计算。作为参考，我们的代码中包含了利用API的完整评估实现我们进一步评估了Seo等人[39]引入的更具挑战性的Refere-YouTube-VOS数据集的MTTR，Seo等人为原始YouTube-VOS数据集提供了文本注释[48]。每个视频每隔五帧具有像素级实例分段注释。Refer-YouTube-VOS的原始版本包含两个子集。一个子集包含仅描述第一帧的第一帧表达式。另一个包含完整的视频表达，1https://github.com/cocodataset/cocoapi基于整个视频，因此，更有说服力。随着RVOS竞赛2的推出，现在只有更具挑战性的数据集子集是公开的。由于地面实况注释仅适用于训练样本，并且测试服务器目前无法访问，因此我们通过将预测上传到竞赛服务器3来报告验证样本的结果更多详情请参阅补充资料。初步评估-该数据集的评估度量是区域相似性（J）和轮廓准确性（F）的平均值[34]。4.1. 实现细节作为我们的时间编码器，我们使用在Kinetics-400[ 17 ]上预训练的最小（原始视频扫描由具有递减空间分辨率的四个块组成。我们发现第四块的输出对于小对象检测来说太小，因此我们仅利用前三个块。我们使用第三个块的输出作为多模式Transformer的输入，而较早块的输出被馈送到空间解码器中。我们还修改了编码器2https://youtube-vos.org/dataset/rvos/3https://competitions.codalab.org/competitions/29139百分之五十百分之六十百分之七十百分之八十百分之九十整体是说Hu等人[13个国家]34.823.613.33.30.147.435.013.2Gavrilyuk等人[12]（RGB）47.534.721.18.00.253.642.119.8RefVOS [1]57.8–––9.367.249.7–AAMN [49]68.162.952.329.62.961.755.239.6[51]第五十一话48.743.135.823.15.261.843.2–CSTM [14]65.458.949.733.39.166.256.139.9CMPC-V（I3D）65.559.250.634.29.865.357.340.4MTTR（w=8，我方）72.168.460.745.616.470.261.844.7百分之五十百分之六十百分之七十百分之八十百分之九十整体是说Hu等人[13个国家]63.335.08.50.20.054.652.817.8Gavrilyuk等人[12]（RGB）69.946.017.31.40.054.154.223.3AAMN [49]77.362.736.04.40.058.357.632.1[51]第五十一话76.462.538.99.00.162.858.1–CSTM [14]78.363.937.87.60.059.860.433.5CMPC-V（I3D）81.365.737.17.00.061.661.734.2MTTR（w=8，我方）91.081.557.014.40.167.467.936.64992方法URVOS [39]JF47.23J45.27F49.19CMPC-V（I3D）47.4845.6449.32Ding等人[9]+54.853.756.0MTTR（我方）55.3254.0056.64表3.在Refer-YouTube-VOS上的结果上半部分在原始验证集上进行评估，而下半部分在公共验证集上进行评估。+我们的模型所需要的地图。作为我们的文本编码器，我们使用Roberta-base [26]的Hugging Face [46]实现。对于A2 D-句子[12]，我们馈送w=8帧的模型窗口，其中注释的目标帧在中间。调整每个帧的大小，使得短边至少为320个像素，长边至多为576个像素。对于Refer-YouTube-VOS [39]，我们在训练期间使用w=12个连续注释帧的窗口，并在评估期间使用全长视频（最多36个注释帧）。调整每个帧的大小，使得短边至少为360个像素，长边至多为640个像素。我们不使用任何分割相关的预训练，例如，在COCO [24]上，这是已知的提高分割性能[45]。我们建议读者参阅补充资料以了解更多实施细节。4.2. 与最新方法的我们比较我们的方法与现有的方法A2D句子数据集。为了与现有作品[14，25]进行公平比较，我们的模型使用大小为8的窗口进行训练和评估。如Tab.所示。1，我们的方法在所有指标上都显着优于现有方法例如，我们的模型显示出超过当前技术水平的4.3 mAP增益，以及在最严格的度量P@0.9上6.6%的绝对改进，这证明了其生成高质量掩模的能力。我们还注意到，我们的顶级配置（w=10）实现了5.7 mAP的大幅增益，与当前最先进的技术水平相比，平均IoU和总体IoU的绝对改善为6.7%。令人印象深刻的是，这种配置能够在单个RTX 3090 GPU上每秒处理76帧根据以前的工作[12，25]，我们通过在没有微调的JHMDB- Sentences上对其进行评估来评估我们的模型的通用化能力我们从每个视频中统一采样三帧，并在这些帧上评估我们的最佳模型如Tab.所示2，我们的方法推广良好，优于所有现有的方法。请注意，所有方法（包括我们的方法）在P@0.9时产生较低的结果。这可以归因于JHMDB最后，我们在Tab中报告了Refer-YouTube-VOS [39]的公共验证集上的结果3 .第三章。如前所述该子集仅包含来自Refer-YouTube-VOS的原始发行版的更具挑战性的全视频演示与在完整版本的数据集上进行训练和评估的现有方法[25，39]相比，我们的模型在所有指标上都表现出卓越的性能，尽管在更少的数据上进行了训练，并专门在更具挑战性的子集上进行了评估。此外，与2021年RVOS竞赛中领先的方法相比，我们的方法显示出竞争力[9，21]。然而，我们注意到，这些方法使用集成，并在额外的分割和引用数据集上进行训练[24，29，48，52]。4.3. 消融研究我们对A2D句子进行消融研究，以评估我们的模型除非另有说明，我们使用窗口大小w=6。关于对象查询数量的消融研究可以在补充中找到。时间编码器。为了独立于时间编码器评估MTTR的性能，我们将其与CMPC-V的图像目标版本CMPC-I进行比较[ 25 ]。在CMPC-I之后，我们使用在PASCAL-VOC [11]上预训练的DeepLab-ResNet 101 [6]作为视觉特征提取器。我们仅使用目标帧（即，而没有用于时间上下文的附加帧如Tab.所示如图4a所示，我们的方法在所有指标上都显著超过CMPC-I，mAP增加6.1，平均IoU绝对改善8.7%。事实上，我们的模型的这种配置超越了所有现有的方法，无论时间背景。时间背景。在选项卡中。4b研究了时间上下文大小对MTTR性能的影响。更大的时间上下文使得能够更好地提取动作相关信息。为此，我们使用不同的窗口大小来训练和评估我们的模型。正如预期的那样，扩大时间上下文会带来很大的性能提升，当逐渐改变窗口大小时，mAP增益为4.3，绝对平均IoU提高了3.7%，1至10 μ然而，有趣的是，使用w=10获得了A2 D-句子的峰值性能，因为进一步加宽了w=12）导致性能下降。文本编码器。为了研究所选单词嵌入对我们模型性能的影响，我们使用两个额外的广泛使用的基于transformer的文本编码器来训练我们的模型，即BERT-base [ 8 ]和Distill-RoBERTa-base [ 38 ]，这是RoBERTa[ 26 ]的蒸馏版本。此外，我们还尝试了GloVe [33]和fastText [2]，这是两种更简单的单词嵌入方法。如Tab.所示。4c，我们的模型在依赖于不同的基于transformer的编码器时实现了相当的性能，这证明了它对这种变化的鲁棒性。然而，毫不奇怪，当依赖于更简单的方法时，性能稍差4993wmAP方法mAPL一个人滑板一个滑板正在使用的一个男孩在红色的帽子一辆蓝色轿车是在山脚下向左移动一个人绑在另一个人画面左边的斑马一只黑白相间的斑马在右边吃草一匹黑白相间的斑马在后面，在另一匹斑马的右边，向左看一个穿着白衬衫的人在海里冲浪一个穿着白衬衫的人在海里骑着一块白色的冲浪板图3.MTTR在Refer-YouTube-VOS [ 39 ]验证集上的性能的可视化示例最好用彩色观看IoU总体平均值w=168.9 60.3 41.8方法IoU总体平均值地图IoU总体平均值w=469.7 61.5 43.8w=669.5 61.844.0RoBERTA（基础）69.5 61.8 44.0BERT（基本）69.7 62.1 44.3(a) 非颞叶骨干。(b) 输入窗口大小影响。表4.A2 D-Sentences [12]数据集上的消融研究(c) 词嵌入效应。这可以通过以下事实来解释：虽然基于Transformer的编码器能够在其输出嵌入内动态地编码句子上下文，但更简单的方法忽略该上下文并且仅依赖于固定的预训练嵌入。监督未移交案件。为了研究监督每个样本中未引用实例的检测以及引用实例的检测的效果，我们在没有监督未引用实例的情况下训练模型的不同配置。有趣的是，在所有这些实验中，我们的模型立即收敛到文本丢失（Ref）的局部最小值在一些实验中，我们的模型在几个时期后设法逃脱这个局部最小值，然后实现与我们原始配置相当的性能然而，在其他实验中，这种现象显着阻碍其最终mAP得分。4.4. 定性分析如示于图3、MTTR可以成功地跟踪和分割所引用的对象，即使在具有挑战性的情况下，它们被类似的实例包围，被遮挡，或者在视频的大部分中完全在帧之外。5. 结论我们介绍了MTTR，一个简单的基于转换器的RVOS方法，它将任务建模为序列预测问题。我们的端到端的方法大大简化了现有的RVOS管道，同时处理文本和视频帧在一个单一的多模式转换器。在标准基准上对我们的方法进行的广泛评估表明，我们的方法在很大程度上优于现有的最先进的方法（例如，A2 D-句子上的5.7mAP改进）。我们希望我们的工作能够激励其他人看到Transformers在解决复杂多模式任务方面的潜力CMPC-I [25]MTTR（DeepLab-ResNet101）64.967.551.560.235.141.2w=8w=1070.272.061.864.044.746.1Distill-RoBERTA（基础）70.5GloVe 68.362.460.943.843.4MTTR（视频Swin-T，w=1）68.960.341.8w=1269.362.044.0fastText67.359.543.14994引用1. Miriam Bellver 、Carles Ventura 、Carina Silberer 、JordiTorres Ioannis Kazakos和Xavier Giró-i-Nieto。RefVOS：深入研究视频对象分割的引用表达式。arXiv预印本arXiv：2010.00263，2020。（引用于P。六、2. Piotr Bojanowski ， Edouard Grave ，Armand Joulin， andTomas米科洛夫用子词信息丰富词向量。Transactions of theAssociation for Computational Linguistics，5：135-146，06 2017.（引用于P。第七章）3. 汤姆·布朗，本杰明·曼，尼克·莱德，梅勒妮·萨-作者： Jared D.Kaplan 、 Prafulla Dhariwal 、 ArvindNeelakantan 、 Pranav Shyam 、 Girish Sastry 、 AmandaAskell、Sandhini Agarwal、Ariel Herbert-Voss、GretchenKrueger 、 Tom Henighan 、 Rewon Child 、 AdityaRamesh、Daniel Ziegler、Jeffrey Wu、Clemens Winter、Chris Hesse、Mark Chen、Eric Sigler、Ma- teusz Litwin、Scott Gray、Benjamin Chess、Jack Clark、Christo- pherBerner、Sam McCandlish、Alec Radford、Ilya Sutskever和Dario Amodei。语言模型是很少机会的学习者。InH.Larochelle，M.兰扎托河哈德塞尔M.F. Balcan和H.林，编辑，神经信息处理系统的进展，第33卷，第1877-1901页。Curran Associates，Inc. 2020.（引自pp。1和2）4. Nicolas Carion ， Francisco Massa ， Gabriel Synnaeve ，NicolasUsunier，Alexander Kirillov，and Sergey Zagoruyko.使用变压器进行端到端对象检测。在Andrea Vedaldi，HorstBischof，Thomas Brox和Jan-Michael Frahm的编辑中，欧洲计算机视觉会议（ECCV），第213- 219229. Springer，2020年8月。（引自pp。1、2、3、4和5）5. Joao Carreira和Andrew Zisserman。你怎么看，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年7月。（引自pp。2和4）6. Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy和Alan L.尤尔。DeepLab：使用深度卷积网络，atrous卷积和完全连接的CRF进行语义图像分割IEEE Transactions on Pattern Anal-ysis and MachineIntelligence，40（4）：834（引自p. 第七章）7. Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu ，and Yichen Wei. 可变形卷积网络。IEEEInternationalConferenceonComputerVision（ICCV），2017年10月。（引用于P。（二）8. Jacob Devlin、Ming-Wei Chang、Kenton Lee和Kristina图坦诺娃BERT：用于语言理解的深度双向变换器的预训练。在计算语言学协会北美分会会议：人类语言技术，第1卷（长论文和短论文），第4171计算语言学协会。（引自pp。（第1、2和7段）9. 丁紫涵，惠天瑞，黄少飞，刘思，罗宣，黄俊石，魏晓明。渐进式多模态交互网络参考视频对象分割。第三届大规模视频对象分割挑战赛，2021年6月。（引用于P。第七章）10. AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，DirkWeissenborn ， Xiaohua Zhai ， Thomas Unterthiner ，Mostafa Dehghani，Matthias Minderer，Georg Heigold，Sylvain Gelly，4995Jakob Uszkoreit和Neil Houlsby。一张图像值16x16个单词：用于大规模图像识别的变形金刚在2021年国际学习表征会议（引自pp。1、2和3）11. 放大图片作者： Mark Everingham ， Luc Van Gool ，Christopher K.I. 威廉姆斯John Winn和Andrew Zisserman。PASCAL视觉对象类（ VOC ）挑战。 International Journal of ComputerVision，88（2）：303-338，2010.（引用于P。第七章）12. Kirill Gavrilyuk，Amir Ghodrati，Zhenyang Li，and CeesG.M.斯诺克从句子中分割出演员和动作视频。在IEEE计算机视觉和模式识别会议上，2018年6月。（引自pp。（第2、4、5、6、7和8段）13. 胡荣航马库斯·罗尔巴赫和特雷弗·达雷尔。Segmen-从自然语言的表达。在Bastian Leibe，Jiri Matas，NicuSebe 和 Max Welling ，编辑，欧洲计算机视

下载后可阅读完整内容，剩余1页未读，立即下载