没有合适的资源?快使用搜索试试~ 我知道了~
28850用于视频实例分割的时间高效视觉变换器0Shusheng Yang 1, 3*,Xinggang Wang 1†,Yu Li 4�,Yuxin Fang 1,Jiemin Fang 2,1,Wenyu Liu 1,Xun Zhao 3,Ying Shan 301.华中科技大学电子信息与通信学院 2.华中科技大学人工智能研究所 3.腾讯应用研究中心(ARC)4.国际数字经济学院(IDEA)0摘要0最近,视觉变换器在图像级视觉识别任务上取得了巨大成功。为了有效和高效地对视频剪辑中的关键时间信息进行建模,我们提出了一种用于视频实例分割(VIS)的时间高效视觉变换器(TeViT)。与以前基于变换器的VIS方法不同,TeViT几乎不包含卷积,它包含一个变换器骨干和一个基于查询的视频实例分割头。在骨干阶段,我们提出了一个几乎无参数的信使位移机制,用于早期时间上下文融合。在头部阶段,我们提出了一个参数共享的时空查询交互机制,以建立视频实例和查询之间的一对一对应关系。因此,TeViT充分利用了帧级和实例级的时间上下文信息,并以可忽略的额外计算成本获得了强大的时间建模能力。在广泛采用的三个VIS基准测试中,即YouTube-VIS-2019、YouTube-VIS-2021和OVIS,TeViT获得了最先进的结果,并保持了高推理速度,例如在YouTube-VIS-2019上的46.6 AP和68.9FPS。代码可在https://github.com/hustvl/TeViT获得。01.引言0视频实例分割(VIS)[62]是一项具有代表性和挑战性的视频理解任务,要求同时在帧之间检测、分割和跟踪视频实例。与其他实例级视频识别任务类似,充分利用时间上下文信息对于构建高性能的VIS系统至关重要。基于自注意力[51]的视觉变换器(ViT)[13]展现了强大的长程上下文建模能力,并在图像级别视觉识别任务上取得了巨大成功。0*本工作是在腾讯应用研究中心(ARC)期间由Shusheng Yang和YuLi完成的。†通讯作者,电子邮件:xgwang@hust.edu.cn。0年龄分类[13, 15, 21, 31, 47, 50, 55],目标检测[7, 33, 44,68],语义分割[11, 43, 59],实例分割[12, 17,66]和视频识别[1, 4, 14, 32, 36, 65,67]。最近,如何设计用于实例级视频理解的ViTs,特别是VIS,成为一个新兴的问题。与检测变换器[7, 16, 33, 44,68],语义分割变换器[11, 43, 59]和实例分割变换器[12, 17,66]不同,这些变换器专注于2D上下文信息建模,VIS变换器还需要执行时间上下文建模。为此,VisTR[57]首次提出了一个变换器编码器,使用CNN骨干融合来自一系列帧的补丁特征,并利用基于查询的解码器预测视频实例,IFC[22]引入了内存令牌来存储帧级特征,并通过计算内存令牌之间的自注意力来执行跨帧特征交互,然后使用条件掩码头解码实例级结果。在本文中,我们关注基于ViT的VIS的时间信息建模效率。这是一个非常重要的问题,因为(1)计算所有视频补丁之间的自注意力具有极高的时间和空间复杂度[57],(2)用于时间建模的额外多头自注意力(MHSA)层具有额外的参数,并且对预训练敏感[22],(3)这些方法中的CNN或变换器骨干[22, 37, 57,64]仅支持单帧特征提取,并且无法在骨干阶段捕获时间信息。为了解决上述问题,我们提出了时间上下文高效的ViT(TeViT),以充分利用高效和有效的视频实例分割的时间上下文信息。TeViT包含一个变换器骨干和一系列基于查询的VIS头。在骨干阶段,我们使用信使令牌[15]通过自注意力提取帧内信息,并提出了一个信使位移机制来进行帧级上下文建模,其中信使令牌被分成几组,以执行不同的时间步长的时间位移。与以前的方法不同28860VIS方法中,信使移位transformer实现了早期时间特征融合。在头部阶段,我们通过重用多头自注意力(MHSA)[51]参数来将QueryInst[17]实例分割头转换为我们的VIS头,以实现实例级别的时间信息交互。实例级MHSA将输入帧中的单个视频实例的特征融合在一起,从而实现了将视频实例作为查询的概念。我们在三个大规模VIS数据集上进行了实验,即YouTube-VIS-2019 [62],YouTube-VIS-2021 [61]和OVIS[39]。取得了新的最先进(SoTA)性能,例如,TeViT在YouTube-VIS-2019上以68.9 FPS的速度获得了46.6AP。我们的主要贡献总结如下。0•TeViT是第一个可以在帧级别和实例级别高效捕获时间上下文信息的视频实例分割transformer。0•凭借自注意力的灵活性,所提出的时间建模模块,即信使令牌移位和时空查询交互,对于图像级预训练模型都是友好的,成本额外的计算开销和参数都很小。0•TeViT是一个几乎不使用卷积的框架,并获得了最先进的VIS结果。在TeViT中,“早期时间特征融合”和“将视频实例作为查询”的概念为如何构建有效的视频transformer提供了启示,用于实例级别的识别任务。02. 相关工作0视频实例分割。如何高效地进行时间建模始终是视频任务的关注焦点,例如视频对象分割(VOS)[5, 5,38],多目标跟踪和分割(MOTS)[52]和VIS[62]。虽然VOS和MOTS与VIS非常相关,但MOTS主要关注城市场景理解,而VOS旨在通过给定的掩码跟踪特定对象。以下是代表性的VIS作品回顾。Mask-Track R-CNN[62]将Faster R-CNN [41]和Mask R-CNN[19]扩展到具有跟踪分支和外部内存的VIS,该内存保存多个帧上的实例特征。MaskProp[3]基于混合任务级联网络[9],将实例区域特征传播到相邻帧以进行时间建模。STEm-Seg[2]将视频剪辑视为3D时空体积,并通过3D卷积主干网络捕获时间信息。CompFeat[18]在帧级和实例级上细化时间特征。CrossVIS [63]在[45,46]之上引入了交叉学习方案,以利用视频帧之间的上下文信息。SeqMask R-CNN[26]通过添加额外的序列关系在帧之间建立时间关系0序列传播头在Mask R-CNN上。Vis-RGNN [23]和VisSTG[53]通过图神经网络对VIS中的时间信息进行建模。VisTR[57]在DETR[7]之上提出了第一个完全端到端的VIS方法,变压器编码器层中的多头注意力机制融合了时间上下文。IFC[22]提出了帧间通信来交换帧级信息。在本文中,我们提出了一个时间上高效的框架,以在帧级别和实例级别对时间上下文进行建模。视觉transformer。Transformer[51]首次提出用于自然语言处理(NLP)中对长程序列数据进行建模。ViT[13]首次将transformer应用于图像领域。此后,各种高性能的视觉transformer [15, 21, 31, 47, 50, 54,55]已被提出作为图像理解的主干网络。除了作为主干网络外,transformer还激发了许多新颖的目标检测[7, 16, 33,44, 68],实例分割[12, 17, 66]和语义分割[11, 43,59]框架。最近,VisTR [57],IFC [22],QueryTrack[64]和TCIS[37]将transformer引入视频实例分割,并取得了出色的性能。在本文中,我们研究如何高效地对视频帧之间的时间上下文进行建模,并提出了TeViT。TeViT是一个几乎不使用卷积的transformer,而VisTR和IFC都使用ResNet[20]主干网络。时间上下文建模。时间上下文建模是视频理解的关键问题。许多工作[8, 40, 48, 49,60]通过3D卷积块对时间上下文进行建模。TSM[27]通过沿时间维度移动卷积特征图来提出了一种高效的时间移位模块。非局部网络[56]直接应用自注意力来捕捉长程时空依赖关系。最近,TimeSFormer [4],ViViT[1],VidTR [67]和MViT[14]扩展了ViT以捕捉视频分类的时空上下文。Video SwinTransformer[32]通过在空间和时间上进行移位窗口MHSA来将SwinTransformer [31]扩展到视频。TokShift[65]在ViT的CLASS令牌上提出了一种时间移位机制。与这些视频transformer不同,它们专注于视频分类,我们的目标是构建用于实例级视频理解的时间上高效transformer。03. 方法03.1. 整体架构0我们的VIS方法TeViT的整体架构如图1所示,包括基于transformer的骨干网络和基于查询驱动的头网络。给定一系列视频帧,transformer骨干网络进行特征提取并生成多尺度金字塔特征。查询驱动的头网络采用随机方式ACA3icbVDLSsNAFJ34rPUVdaebwSIQkmkqMuqULpRKtoHtKFMpN26GQSZiZCQE3/obF4q49Sfc+TdO2gjaemDgzDn3cu89bsioVJb1ZczNLywuLedW8qtr6xub5tZ2QwaRwKSOAxaIloskYZSTuqKkVYoCPJdRpru8DL1m/dESBrwOzUKieOjPqcexUhpqWvudnykBsKPr6q358nRz69SuU6ZsEqWmPAWJnpAy1LrmZ6cX4MgnXGpGzbVqicGAlFMSNJvhNJEiI8RH3S1pQjn0gnHt+QwAOt9KAXCP24gmP1d0eMfClHvqsr0x3ltJeK/3ntSHlnTkx5GCnC8WSQFzGoApgGAntUEKzYSBOEBdW7QjxAmGlY8vrEOzpk2dJ47honxRLN6VC+SKLIwf2wD4BDY4BWVQBTVQBxg8gCfwAl6NR+PZeDPeJ6VzRtazA/7A+PgGypuXoA= MHSA + FFNACA3icbVDLSsNAFJ34rPUVdaebwSIQkmkqMuqULpRKtoHtKFMpN26GQSZiZCQE3/obF4q49Sfc+TdO2gjaemDgzDn3cu89bsioVJb1ZczNLywuLedW8qtr6xub5tZ2QwaRwKSOAxaIloskYZSTuqKkVYoCPJdRpru8DL1m/dESBrwOzUKieOjPqcexUhpqWvudnykBsKPr6q358nRz69SuU6ZsEqWmPAWJnpAy1LrmZ6cX4MgnXGpGzbVqicGAlFMSNJvhNJEiI8RH3S1pQjn0gnHt+QwAOt9KAXCP24gmP1d0eMfClHvqsr0x3ltJeK/3ntSHlnTkx5GCnC8WSQFzGoApgGAntUEKzYSBOEBdW7QjxAmGlY8vrEOzpk2dJ47honxRLN6VC+SKLIwf2wD4BDY4BWVQBTVQBxg8gCfwAl6NR+PZeDPeJ6VzRtazA/7A+PgGypuXoA= MHSA + FFNACA3icbVDLSsNAFJ34rPUVdaebwSIQkmkqMuqULpRKtoHtKFMpN26GQSZiZCQE3/obF4q49Sfc+TdO2gjaemDgzDn3cu89bsioVJb1ZczNLywuLedW8qtr6xub5tZ2QwaRwKSOAxaIloskYZSTuqKkVYoCPJdRpru8DL1m/dESBrwOzUKieOjPqcexUhpqWvudnykBsKPr6q358nRz69SuU6ZsEqWmPAWJnpAy1LrmZ6cX4MgnXGpGzbVqicGAlFMSNJvhNJEiI8RH3S1pQjn0gnHt+QwAOt9KAXCP24gmP1d0eMfClHvqsr0x3ltJeK/3ntSHlnTkx5GCnC8WSQFzGoApgGAntUEKzYSBOEBdW7QjxAmGlY8vrEOzpk2dJ47honxRLN6VC+SKLIwf2wD4BDY4BWVQBTVQBxg8gCfwAl6NR+PZeDPeJ6VzRtazA/7A+PgGypuXoA= MHSA + FFNACA3icbVDLSsNAFJ34rPUVdaebwSIQkmkqMuqULpRKtoHtKFMpN26GQSZiZCQE3/obF4q49Sfc+TdO2gjaemDgzDn3cu89bsioVJb1ZczNLywuLedW8qtr6xub5tZ2QwaRwKSOAxaIloskYZSTuqKkVYoCPJdRpru8DL1m/dESBrwOzUKieOjPqcexUhpqWvudnykBsKPr6q358nRz69SuU6ZsEqWmPAWJnpAy1LrmZ6cX4MgnXGpGzbVqicGAlFMSNJvhNJEiI8RH3S1pQjn0gnHt+QwAOt9KAXCP24gmP1d0eMfClHvqsr0x3ltJeK/3ntSHlnTkx5GCnC8WSQFzGoApgGAntUEKzYSBOEBdW7QjxAmGlY8vrEOzpk2dJ47honxRLN6VC+SKLIwf2wD4BDY4BWVQBTVQBxg8gCfwAl6NR+PZeDPeJ6VzRtazA/7A+PgGypuXoA= MHSA + FFNACA3icbVDLSsNAFJ34rPUVdaebwSIQkmkqMuqULpRKtoHtKFMpN26GQSZiZCQE3/obF4q49Sfc+TdO2gjaemDgzDn3cu89bsioVJb1ZczNLywuLedW8qtr6xub5tZ2QwaRwKSOAxaIloskYZSTuqKkVYoCPJdRpru8DL1m/dESBrwOzUKieOjPqcexUhpqWvudnykBsKPr6q358nRz69SuU6ZsEqWmPAWJnpAy1LrmZ6cX4MgnXGpGzbVqicGAlFMSNJvhNJEiI8RH3S1pQjn0gnHt+QwAOt9KAXCP24gmP1d0eMfClHvqsr0x3ltJeK/3ntSHlnTkx5GCnC8WSQFzGoApgGAntUEKzYSBOEBdW7QjxAmGlY8vrEOzpk2dJ47honxRLN6VC+SKLIwf2wD4BDY4BWVQBTVQBxg8gCfwAl6NR+PZeDPeJ6VzRtazA/7A+PgGypuXoA= MHSA + FFNACA3icbVDLSsNAFJ34rPUVdaebwSIQkmkqMuqULpRKtoHtKFMpN26GQSZiZCQE3/obF4q49Sfc+TdO2gjaemDgzDn3cu89bsioVJb1ZczNLywuLedW8qtr6xub5tZ2QwaRwKSOAxaIloskYZSTuqKkVYoCPJdRpru8DL1m/dESBrwOzUKieOjPqcexUhpqWvudnykBsKPr6q358nRz69SuU6ZsEqWmPAWJnpAy1LrmZ6cX4MgnXGpGzbVqicGAlFMSNJvhNJEiI8RH3S1pQjn0gnHt+QwAOt9KAXCP24gmP1d0eMfClHvqsr0x3ltJeK/3ntSHlnTkx5GCnC8WSQFzGoApgGAntUEKzYSBOEBdW7QjxAmGlY8vrEOzpk2dJ47honxRLN6VC+SKLIwf2wD4BDY4BWVQBTVQBxg8gCfwAl6NR+PZeDPeJ6VzRtazA/7A+PgGypuXoA= MHSA + FFNAB9HicbVDLSgMxFL1TX7W+qi7dBIvgqsyIqMuqm26EivYB7VAyaYNTJjkimUod/hxoUibv0Yd/6NmbYLbT0QOJxzL/fkBDFn2rjut5NbWV1b38hvFra2d3b3ivsHDR0litA6iXikWgHWlDNJ64YZTluxolgEnDaD4W3mN0dUaRbJRzOqS9wX7KQEWys5HcENgMl0rvqw/WkWy5ZXcKtEy8OSnBHLVu8avTi0giqDSEY63bnhsbP8XKMLpNBJNI0xGeI+bVsqsaDaT6ehJ+jEKj0URso+adBU/b2RYqH1WAR2MgupF71M/M9rJya8lMm48RQSWaHwoQjE6GsAdRjihLDx5ZgopjNisgAK0yM7algS/AWv7xMGmdl76J8fn9eqtzM68jDERzDKXhwCRWoQg3qQOAJnuEV3pyR8+K8Ox+z0Zwz3zmEP3A+fwCrPZIL MHSAAB9HicbVDLSgMxFL1TX7W+qi7dBIvgqsyIqMuqm26EivYB7VAyaYNTJjkimUod/hxoUibv0Yd/6NmbYLbT0QOJxzL/fkBDFn2rjut5NbWV1b38hvFra2d3b3ivsHDR0litA6iXikWgHWlDNJ64YZTluxolgEnDaD4W3mN0dUaRbJRzOqS9wX7KQEWys5HcENgMl0rvqw/WkWy5ZXcKtEy8OSnBHLVu8avTi0giqDSEY63bnhsbP8XKMLpNBJNI0xGeI+bVsqsaDaT6ehJ+jEKj0URso+adBU/b2RYqH1WAR2MgupF71M/M9rJya8lMm48RQSWaHwoQjE6GsAdRjihLDx5ZgopjNisgAK0yM7algS/AWv7xMGmdl76J8fn9eqtzM68jDERzDKXhwCRWoQg3qQOAJnuEV3pyR8+K8Ox+z0Zwz3zmEP3A+fwCrPZIL MHSAAB9HicbVDLSgMxFL1TX7W+qi7dBIvgqsyIqMuqm26EivYB7VAyaYNTJjkimUod/hxoUibv0Yd/6NmbYLbT0QOJxzL/fkBDFn2rjut5NbWV1b38hvFra2d3b3ivsHDR0litA6iXikWgHWlDNJ64YZTluxolgEnDaD4W3mN0dUaRbJRzOqS9wX7KQEWys5HcENgMl0rvqw/WkWy5ZXcKtEy8OSnBHLVu8avTi0giqDSEY63bnhsbP8XKMLpNBJNI0xGeI+bVsqsaDaT6ehJ+jEKj0URso+adBU/b2RYqH1WAR2MgupF71M/M9rJya8lMm48RQSWaHwoQjE6GsAdRjihLDx5ZgopjNisgAK0yM7algS/AWv7xMGmdl76J8fn9eqtzM68jDERzDKXhwCRWoQg3qQOAJnuEV3pyR8+K8Ox+z0Zwz3zmEP3A+fwCrPZIL MHSAAB9HicbVDLSgMxFL1TX7W+qi7dBIvgqsyIqMuqm26EivYB7VAyaYNTJjkimUod/hxoUibv0Yd/6NmbYLbT0QOJxzL/fkBDFn2rjut5NbWV1b38hvFra2d3b3ivsHDR0litA6iXikWgHWlDNJ64YZTluxolgEnDaD4W3mN0dUaRbJRzOqS9wX7KQEWys5HcENgMl0rvqw/WkWy5ZXcKtEy8OSnBHLVu8avTi0giqDSEY63bnhsbP8XKMLpNBJNI0xGeI+bVsqsaDaT6ehJ+jEKj0URso+adBU/b2RYqH1WAR2MgupF71M/M9rJya8lMm48RQSWaHwoQjE6GsAdRjihLDx5ZgopjNisgAK0yM7algS/AWv7xMGmdl76J8fn9eqtzM68jDERzDKXhwCRWoQg3qQOAJnuEV3pyR8+K8Ox+z0Zwz3zmEP3A+fwCrPZIL MHSAAB83icbVBNS8NAEJ3Ur1q/qh69LBbBU0lE1GPRiyepaD+gCWz3bZLN5uwOxFK6N/w4kERr/4Zb/4bt20O2vpg4PHeDPzwkQKg67RWVtfWN4qbpa3tnd298v5B08SpZrzBYhnrdkgNl0LxBgqUvJ1oTqNQ8lY4upn6rSeujYjVI4THkR0oERfMIpW8u+62cOE+Cgibrlilt1ZyDLxMtJBXLUu+UvxezNOIKmaTGdDw3wSCjGgWTfFLyU8MTykZ0wDuWKmqXBNns5gk5sUqP9GNtSyGZqb8nMhoZM45C2xlRHJpFbyr+53VS7F8FmVBJilyx+aJ+KgnGZBoA6QnNGcqxJZRpYW8lbEg1ZWhjKtkQvMWXl0nzrOpdVM/vzyu16zyOIhzBMZyCB5dQg1uoQwMYJPAMr/DmpM6L8+58zFsLTj5zCH/gfP4A1Y2RkQ= NS⇥AB83icbVBNS8NAEJ3Ur1q/qh69LBbBU0lE1GPRS09SwX5AE8pmu2XbjZhdyKU0L/hxYMiXv0z3vw3btsctPXBwO9GWbmhYkUBl32ymsrW9sbhW3Szu7e/sH5cOjlolTzXiTxTLWnZAaLoXiTRQoeSfRnEah5O1wfDfz209cGxGrR5wkPIjoUImBYBSt5PsoIm7IfS+rT3vlilt15yCrxMtJBXI0euUvx+zNOIKmaTGdD03wSCjGgWTfFryU8MTysZ0yLuWKmpXBdn85ik5s0qfDGJtSyGZq78nMhoZM4lC2xlRHJlbyb+53VTHNwEmVBJilyxaJBKgnGZBYA6QvNGcqJZRpYW8lbEQ1ZWhjKtkQvOWXV0nroupdVS8fLiu12zyOIpzAKZyDB9dQgzo0oAkMEniGV3hzUufFeXc+Fq0FJ585hj9wPn8AxeKRhg= ⇥NH…………………………………………AB9XicbVDLSgMxFM3UV62vqks3wSK4KjNS1GXRjcuK9gHtWDJpg1NMkNyRylD/8ONC0Xc+i/u/Bsz7Sy09UDgcM693JMTxIbcN1vp7Cyura+UdwsbW3v7O6V9w9aJko0ZU0aiUh3AmKY4Io1gYNgnVgzIgPB2sH4OvPbj0wbHql7mMTMl2SoeMgpASs9CSBkZbp3YiHMO2XK27VnQEvEy8nFZSj0S9/9QYRTSRTQAUxpu5Mfgp0cCpYNSLzEsJnRMhqxrqSKSGT+dpZ7iE6sMcBhp+xTgmfp7IyXSmIkM7GSW0ix6mfif10gvPRTruIEmKLzQ2EiMEQ4qwAPuGYUxMQSQjW3WTEdEU0o2KJKtgRv8cvLpHVW9c6rtdtapX6V1FER+gYnSIPXaA6ukEN1EQUafSMXtGb8+S8O/Ox3y04OQ7h+gPnM8fGVKS6g= ShiftACnicbVDLSgMxFM34rPU16tJNtAiuyowUdVl0o7uK9gGdoWTSTBuaZIYkI5Rh1m78FTcuFHrF7jzb8y0I2jrgcDhnHPJvSeIGVXacb6shcWl5ZXV0lp5fWNza9ve2W2pKJGYNHEItkJkCKMCtLUVDPSiSVBPGCkHYwuc79T6SikbjT45j4HA0EDSlG2kg9+8DjSA8lT69FHiMZ9OCPdDukoc56dsWpOhPAeIWpAIKNHr2p9ePcMKJ0JghpbquE2s/RVJTzEhW9hJFYoRHaEC6hgrEifLTySkZPDJKH4aRNE9oOF/T6SIKzXmgUnmW6pZLxf/87qJDs/9lIo40UTg6UdhwqCOYN4L7FNJsGZjQxCW1OwK8RBJhLWpWxKcGdPnietk6p7Wq3d1Cr1i6KOEtgHh+AYuOAM1MEVaIAmwOABPIEX8Go9Ws/Wm/U+jS5Yxcwe+APr4xsd7Zsu Inverse ShiftACXicbVDLSsNAFJ3UV62vqEs3g0VwVRIRdVmsC5cV7AOaUCbTSTt0MhNmJoUQsnXjr7hxoYhb/8Cdf+O0DaKtBy4czrmXe+8JYkaVdpwvq7Syura+Ud6sbG3v7O7Z+wdtJRKJSQsLJmQ3QIowyklLU81IN5YERQEjnWDcmPqdCZGKCn6v05j4ERpyGlKMtJH6NvQipEcym5SjiKc+j9SA3BJ3nfrjo1Zwa4TNyCVEGBZt/+9AYCJxHhGjOkVM91Yu1nSGqKGckrXqJIjPAYDUnPULOVKD+bfZLDE6MYCikKa7hTP09kaFIqTQKTOf0SLXoTcX/vF6iwys/ozxONOF4vihMGNQCTmOBAyoJ1iw1BGFJza0Qj5BEWJvwKiYEd/HlZdI+q7kXtfO782r9uoijDI7AMTgFLrgEdXALmqAFMHgAT+AFvFqP1rP1Zr3PW0tWMXMI/sD6+AYpr5ql Dynamic ConvAC3icbVA9SwNBEN2LXzF+nVraLAbBKtxJUMugjXYJmA9IQtjbTJIlu3vH7p5wHOlt/Cs2ForY+gfs/DdukhM08cHA470ZuYFEWfaeN6Xk1tZXVvfyG8WtrZ3dvfc/YOGDmNFoU5DHqpWQDRwJqFumOHQihQEXBoBuPrqd+8B6VZKO9MEkFXkKFkA0aJsVLPe4IYkZKpLdSGyIpTHAH/2i1GFQy6blFr+TNgJeJn5EiylDtuZ+dfkhjAdJQTrRu+15kuilRhlEOk0In1hAROiZDaFsqiQDdTWe/TPCJVfp4ECpb0uCZ+nsiJULrRAS2c3qlXvSm4n9eOzaDy27KZBQbkHS+aBzbEI8DQb3mQJqeGIJoYrZWzEdEUWosfEVbAj+4svLpHFW8s9L5Vq5WLnK4sijI3SMTpGPLlAF3aAqiOKHtATekGvzqPz7Lw57/PWnJPNHKI/cD6+Afsbm6k= Instance QueryACHicbVDLSsNAFJ3UV62vqEsXDhbBVUmkqMuiG5cV+oImlMl00g6dzISZiVBClm78FTcuFHrJ7jzb5y0EbT1wIXDOfdy7z1BzKjSjvNlVZW19Y3ypuVre2d3T17/6CjRCIxaWPBhOwFSBFGOWlrqhnpxZKgKGCkG0xucr97T6Sigrf0NCZ+hEachQjbaSBfexFSI9lDaRxuMevBHaIkJ4dnArjo1Zwa4TNyCVEGB5sD+9IYCJxHhGjOkVN91Yu2nSGqKGckqXqJIjPAEjUjfUI4iovx09kgGT40yhKGQpriGM/X3RIoipaZRYDrzK9Wil4v/ef1Eh1d+SnmcaMLxfFGYMKgFzFOBQyoJ1mxqCMKSmlshHiOJsDbZVUwI7uLy6RzXnMvavW7erVxXcRBkfgBJwBF1yCBrgFTdAGDyAJ/ACXq1H69l6s97nrSWrmDkEf2B9fANWZpox Patch TokenAC3icjVHLSsNAFD3GV31H3ekmWARXJZWiLkU3boQKrRZsKZN0WkPzYmYiSCm4cydu/QG3+jfiH+hfeGeMoBbRCUnOnHvPmbn3emkYSOW6L2PW+MTk1HRhZnZufmFxyV5eOZVJnxe95MwEQ2PSR4GMa+rQIW8kQrOIi/kZ17/UMfPLrmQRLX1FXKWxHrxUE38Jkiqm2vNSOmLkQ0OZS8rjHhdN0akmfx8O2XRLrlnOKCjnoIh8VRP7GU10kMBHhgcMRThEAySnOU4SIlroUBcYJQYOIcQ8ySNqMsThmM2D59e7Q7z9mY9tpTGrVPp4T0ClI62CRNQnmCsD7NMfHMOGv2N+B8dR3u6K/l3tFxCpcEPuX7jPzvzpdi0IXe6aGgGpKDaOr83OXzHRF39z5UpUih5Q4jTsUF4R9o/zs2M0tSue8tM/NVkalbv/Tw3w5u+JQ24/HOco+B0u1TeKVOKsX9g3zUBaxjA1s0z13s4whV1Mn7Gg94xJPFrBvr1r7SLXGcs0qvi3r/h0s35pc Messenger TokenFigure 1. The overall illustration of our TeViT framework. TeViT contains a messenger shift transformer backbone and a series ofspatiotemporal query-driven instance heads. The messenger shift mechanism performs efficient frame-level temporal modeling by sim-ply shifting messenger tokens along the temporal axis. Spatiotemporal query interaction conducts two successive and parameter-sharedmulti-head self attention (MHSA) with feed forward network (FFN) upon video instance queries. The “Dynamic Conv” design followsQueryInst [17]. Best viewed in color.ACA3icbVDLSsNAFJ34rPUVdaebwSIQkmkqMuqULpRKtoHtKFMpN26GQSZiZCQE3/obF4q49Sfc+TdO2gjaemDgzDn3cu89bsioVJb1ZczNLywuLedW8qtr6xub5tZ2QwaRwKSOAxaIloskYZSTuqKkVYoCPJdRpru8DL1m/dESBrwOzUKieOjPqcexUhpqWvudnykBsKPr6q358nRz69SuU6ZsEqWmPAWJnpAy1LrmZ6cX4MgnXGpGzbVqicGAlFMSNJvhNJEiI8RH3S1pQjn0gnHt+QwAOt9KAXCP24gmP1d0eMfClHvqsr0x3ltJeK/3ntSHlnTkx5GCnC8WSQFzGoApgGAntUEKzYSBOEBdW7QjxAmGlY8vrEOzpk2dJ47honxRLN6VC+SKLIwf2wD4BDY4BWVQBTVQBxg8gCfwAl6NR+PZeDPeJ6VzRtazA/7A+PgGypuXoA= MHSA + FFNACA3icbVDLSsNAFJ34rPUVdaebwSIQkmkqMuqULpRKtoHtKFMpN26GQSZiZCQE3/obF4q49Sfc+TdO2gjaemDgzDn3cu89bsioVJb1ZczNLywuLedW8qtr6xub5tZ2QwaRwKSOAxaIloskYZSTuqKkVYoCPJdRpru8DL1m/dESBrwOzUKieOjPqcexUhpqWvudnykBsKPr6q358nRz69SuU6ZsEqWmPAWJnpAy1LrmZ6cX4MgnXGpGzbVqicGAlFMSNJvhNJEiI8RH3S1pQjn0gnHt+QwAOt9KAXCP24gmP1d0eMfClHvqsr0x3ltJeK/3ntSHlnTkx5GCnC8WSQFzGoApgGAntUEKzYSBOEBdW7QjxAmGlY8vrEOzpk2dJ47honxRLN6VC+SKLIwf2wD4BDY4BWVQBTVQBxg8gCfwAl6NR+PZeDPeJ6VzRtazA/7A+PgGypuXoA= MHSA + FFNACBnicbVDLSgMxFL1TX7W+Rl2KECyCqzJ
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功