自注意力模块的空间和时间相关性及其在视频表示学习中的应用

49 浏览量更新于2024-01-22 收藏 953KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12618SSAN：用于视频表示学习的郭旭东1郭勋2陆燕21清华大学2微软亚洲研究院gxd20@mails.tsinghua.edu.cn{xunguo，yanlu}@ microsoft.com摘要自注意已经成功地应用于视频表示学习，由于建模长范围的依赖关系的有效性。现有的方法仅仅是通过同时计算空间和时间维度上的两两依赖关系来建立依赖关系。然而，空间相关性和时间相关性代表了场景和时间推理的不同上下文信息。直观地说，首先学习空间上下文信息将有利于时间建模。在本文中，我们提出了一个可分离的自我注意（SSA）模块，该模型的空间和时间的相关性，使空间上下文可以有效地用于时间建模。通过在2D CNN中加入SSA模块，我们构建了一个用于视频表示学习的SSA网络（SSAN）。在视频动作识别任务上，我们的方法在 Something-Something和Kinetics-400数据集上的性能优于最先进的方法我们的模型往往优于具有较浅网络和较少模态的同行。我们进一步验证了我们的方法在视频检索的视觉语言任务中的语义学习能力，它展示了视频表示和文本嵌入的同质性。在MSR-VTT和Youcook 2数据集上，SSA学习的视频表示显著提高了最先进的性能。1. 介绍视频表示学习对于检测、分割和动作识别等任务至关重要尽管已经广泛探索了基于2D和3D CNN的方法来捕获这些任务的时空相关性，但学习强大和通用的视频表示仍然具有挑战性。一个可能的原因是，视频不仅包含单个帧内的丰富语义元素，而且还包含跨时间的时间推理，该时间推理将这些元素联系起来以揭示动作和事件的语义级信息。有效建模长这项工作是在提交人作为实习生在MSRA工作时完成的图1.可分离自我注意与时空自我注意的动力学比较。红点是查询区域，箭头指向与查询区域相关的区域（前10个关注权重）可分离的自我注意力学习更多与动作相关的区域（手和篮子）。像素之间的范围依赖性对于捕获这种上下文信息是必不可少的，而当前的CNN操作很难实现。基于RNN的方法[23]已用于此目的。然而，它们遭受高计算成本。更重要的是，RNN不能在位置之间建立直接的成对关系，而不考虑它们的距离。自我注意机制被认为是建立远程依赖的有效途径。在自然语言处理中，基于自我注意的Transformer [35]已成功用于从序列数据中捕获上下文信息，例如：，句子。最近的努力还将自我注意力引入到计算机视觉中，主要用于视觉任务，如分割和分类[40，47，37，14]。Wang等人的工作。[37]提出了一种通用的自我注意形式，即。非局部均值，用于视频动作识别，其同时从空间和时间为像素位置建立成对相关。然而，来自空间和时间的相关性代表不同的上下文信息。前者通常与场景和物体有关，后者通常与动作（短期活动）的时间推理有关，12619长期活动（long term activities）。人类的认知总是在行动之前注意到景物和物体。同时学习空间和时间维度的相关性可能会捕获不相关的信息，导致动作理解的模糊性。这个缺点对于具有复杂活动的视频为了有效地捕获视频中的相关性，解耦空间和时间维度是必要的。同时，在捕捉复杂活动片段时，还应考虑短期的时间依赖性。本文深入研究了视频中时空相关性之间的关系，提出了一种可分离的自注意（SSA）模型，该模型能够有效地捕获时空背景，并用于时间建模。在我们的设计中，空间自我注意力首先独立执行输入帧。然后将表达空间上下文信息的注意图沿时间维度聚合并发送到时间注意模块。通过这种方式，空间上下文信息将有助于更好地捕获短期和长期的时间序列，从而可以完全理解视频中的动作。我们验证了我们的方法上的视频动作识别任务的东西和动力学数据集。Something-Something（V1 &V2）包含具有高时间推理的细粒度视频动作类，例如、“在表面上移动某物而不使其掉落”。通过与最先进的3D [26，39]和2D [20，36，6，44]方法进行比较，我们的模型显示出优越的性能。此外，我们的方法可以优于具有较浅网络结构的同行，即。，ResNet- 50与ResNet-101，以及更少的模式，即，仅RGB与RGB和光流。由于我们的设计目标是尽可能地捕捉语义信息，我们进一步证明了SSA在视频语言任务中的有效性，即。视频检索，通过文本查询搜索候选视频片段。由于文本嵌入包含明确的语义信息，视频表示和文本嵌入的同质性可以更好地证明视频学习方法的有效性。2. 相关工作2.1. 视频学习网随着CNN [34，38，43，4]在图像任务中的成功，人们在视频任务上投入了大量精力。CNN网络也从图像扩展到视频。视频学习架构主要有两个分支：基于2D的方法[16，36，24]和基于3D的方法[2，32，39，25]。I3D [2]网络提出通过复制权重将ImageNet预训练模型从2D扩展到3D。S3D [39]提出将3D卷积分解为空间和时间卷积。TSN [36]提出了一种有效的2D基于视频的学习结构。TSM [20]提出通过简单地在帧之间SlowFast [7]使用具有不同时间分辨率的两个分支基于3D的方法受到参数开销和复杂性的影响，而基于2D的方法需要仔细的时间特征聚合。为了利用基于2D的视频帧方法的灵活性，我们采用2D CNN作为这项工作的基线。2.2. 动作识别动作识别，也称为视频分类[8，34，33]，近年来已被广泛探索。动作识别的准确性与视频表示学习高度相关早期的作品尝试使用基于2D的方法来视频。随后，对3D卷积网络进行了研究，并取得了良好的性能。然而，巨大的复杂性使得这些方法使用起来很昂贵。此外，基于3D的方法通常需要多个连续的帧作为输入，使得不能很好地处理具有复杂动作的视频。近年来，基于时间聚合的二维卷积网络取得了显著的进步，它具有灵活的结构和输入，以及比基于三维的方法低得多的计算和存储成本。为动作识别而学习的表征总是用作其他任务的初始化。2.3. 自我关注自注意机制已成功应用于机器翻译领域[35]。最近，已经有广泛的努力来研究其在计算机视觉任务中的应用，例如分类和分割[40，47，37，46，13，9，10，14]。也有人努力使用注意力而不是卷积来进行特征提取[1]。对于视频分类，非局部网络[37]提出使用基于自关注的非局部均值来捕获像素位置之间的全局依赖性。每个像素位置从空间和时间维度关注所有其他位置。像素之间的完整联系确实需要更广泛的关注领域。然而，这也引入了不相关的信息。我们的工作与非局部阻滞密切相关，试图探讨空间注意和时间注意的关系2.4. 视觉语言学习最近，联合视觉和语言训练[28]在视觉任务中越来越受欢迎。通过添加语言模型，如BERT [5]，可以有效地从视频中学习语义信息，用于多模态任务，如检索和字幕[31，45]。VideoBERT [30]提出使用视觉语言模型来学习高级特征，而无需任何明确的监督。Sun等人 [29]随后提出使用对比双向Transformer12620图2.可分离式自我注意力模块的设计空间注意力（SA）部分以黄色突出显示时间注意力（TA）部分以蓝色突出显示。(CBT)以执行用于视频表示的自监督学习。UniViLM[27]还通过在预训练过程中添加生成任务，提出了一种联合视频和语言预训练方案然而，这些方法只关注于Transformer编解码器的训练，而将视频网络作为特征提取器。因此，改进视频学习网络以有效地学习真实的语义信息仍然是重要的3. 可分离自注意网络在本节中，我们将详细描述我们提出的可分离自我注意力网络。3.1. 视觉中的自我注意设X∈RT×H ×W×C为T个框架的输入特征。H、W和C分别表示空间大小、时间大小和信道号。一个典型的3D自我-attention/3D NL block [37]使用三个1×1×1卷积将X映射到查询，键和值嵌入，表示为Xq，Xk和Xv。然后将这三个嵌入分别整形为THW×C、C×THW和THW×C的大小。之后，相似性矩阵M∈RTHW×THW，它从空间和时间维度为位置建立完整的成对关系，使用矩阵乘法计算为M=X q× X k。（一）然后用softmax函数对M进行归一化，并将其分布到每个位置，以生成注意力图Y，如下所示：Y=softmax（M）×Xv，（2）其中Y∈RTHW× C。矩阵M中的每个元素mij测量位置i和位置j在空间和时间维度上的相似性。然后，注意力Y被1×1×1卷积Wz变换，并加回到原始查询特征X，像剩余连接，生成输出特征Z：Z=W z（Y）+X。（三）3.2. 可分离自注意模块基于3D的自注意可以同时从空间和时间成功地建模然而，这种依赖关系是一阶相关性，主要捕获单个像素之间的相似性，而不是语义级相关性。例如，如果i和j是来自不同帧的位置，缺乏i和与i相同的帧中的其他位置之间的先前空间相关性，则i和j之间的计算的相关性可能不描述它们所属的场景和对象的真实时间关系。此外，等式1表明，现有的自注意设计，如非局部块[37]，更多地考虑位置相关性，但较少考虑通道相关性，其包含重要的分类信息。这可能导致场景和对象的信息丢失12621vv（S）v（C）在此基础上，我们精心设计了一个可分离的自我注意模块，它遵循两个原则。首先，空间和时间的关注顺序进行，使时间相关性可以充分考虑空间上下文。其次，空间注意力地图利用尽可能多的上下文信息。我们提出的SSA的主要结构如图2所示，以灰色突出显示。输入特征X首先被映射到空间查询、键和值嵌入，2D 1×1卷积，记为Xt、Xt和Xt，其中qkvt∈ [0，T]是时间索引。然后，使用嵌入来独立地生成T个空间注意图，然后连接在一起作为4D中间注意力图X^，其维度为T×H×W×C 。之后，使用3×1×1卷积将X^变换为时间嵌入X^q和X^v请注意，在我们的设计中，注意和时间注意具有相同的价值嵌入，但具有不同的形态，即：注意和时间注意具有相同的价值嵌入; e. ，Xt和X^v. 三然后使用时间嵌入来产生时间注意力。我们描述空间注意和时间注意的细节如下。空间注意力：对于空间注意力，我们考虑位置注意力和通道注意力。为此，我们设计了一个双分支结构，即。，po-图3. SSA在ResNet-50上的网络架构。SSA模被插入残差块内，即，，Res2和Res3，就在第一个1×1卷积之后。共有5个区块含SSA，2个来自Res2，3个来自Res3。输入帧的时间交互只发生在SSA模块中（蓝色箭头线）。这些特征在网络的末端融合在一起。被照顾。然后，X^的特征图被整形以生成X^q和X^k，用于计算相似性矩阵MT∈RT×T，MT=X^q×X^k（7）因此，最终输出注意力图Y被计算为：位置分支和通道分支，分别进行计算。在图2中，详细信息以黄色突出显示。这两个分支共享相同的嵌入Xt和Xt。Y=MT×X^v.（八）qk3.3.网络架构每个嵌入都被重新整形为HW×C和C×HW的大小。位置分支生成空间相似矩阵MS∈RN×N，其中N=H·W.这也是大多数现有2D自注意方法的设计[47 ] 第 47 段。通道分支生成通道相似性矩阵MC∈RC×C，以探索通道维度上的依赖关系。这两个分支的计算公式如下：最近关于视频学习的工作显示了基于2D CNN的框架的出色性能，如TSN [36]，TRN [44]和TSM [20]。与基于3D CNN的方法相比，基于2D的方法可以更好地分离空间和时间建模，从而在具有高动态的视频片段上实现卓越的性能。我们选择TSN框架作为我们的基线，不q（S）t q（C）×Xtk（S）×Xtk（C）（四）、（五）将视频剪辑分割成T个片段，每个片段仅选择一我们将SSA模块插入到不同的层，建立可分离的自我注意网络（SSAN）。图其中S和C分别表示位置分支和信道分支。然后，时间t的空间注意力图被计算为：3显示了ResNet-50主干上的SSAN示例。在该架构中，SSA模块被插入到残差块中，以在不同阶段捕获空间和时间上下文信息。特别地，我们插入SSA模块，X^t=（MS×Xt）+（MC×Xt）的。（六）在第一个1×1卷积后的Res2和Res3块中。请注意，只有在中间注意力图X^=Cat[X^0，X^1... X^T]可以为下一阶段产生，即，暂时的注意力时间注意力：使用空间注意力图作为输入来执行时间注意力。不同于3D自注意算法使用3个1×1×1卷积生成嵌入，我们使用一个3×1×1卷积来代替。这种设计允许在空间属性上进行时间融合，在时间维度上映射和建立短期相关性，以便短期活动也可以MS=XMC=X12622TSN结束因此，中间层的时态信息交换仅来自SSA模块，这更好地说明了SSA的时态建模能力。SSA是一个灵活的建筑模块，也可以很容易地添加到基于3D的建筑中。4. 实验为了证明我们的方法的有效性，我们进行了全面的实验标准vi-12623方法骨干模态帧Val Top-1Val Top-5测试顶部-1I3D [2]成立RGB6445.876.527.2NL I3D + GCN [2]ResNet-50RGB32+3246.176.845.0S3D [39]成立RGB6447.378.1-S3D-G [39]成立RGB6448.278.742.0[第36话]BNInceptionRGB819.5--[44]第四十四话BNInceptionRGB834.4-33.6bLVNet-TAM[6]bLResNet-50RGB16×248.478.8-bLVNet-TAM[6]bLResNet-101RGB16×249.679.848.9[第20话]ResNet-50RGB845.674.2[第20话]ResNet-50RGB1647.277.146.0[20]第二十话ResNet-50RGB2449.778.5-[20]第二十话ResNet-50RGB+流16+1652.681.950.7SSA（我们的）ResNet-50RGB849.579.5-SSA（我们的）ResNet-50RGB1651.781.3-SSAEn（Ours）ResNet-50RGB16+855.184.954.0表1.与Something-Something-V1验证和测试集的最新方法进行比较视频动作识别的任务，其中使用大规模的Something-Something 数据集和Kinetics基准。此外，为了验证SSAN学习的视频表示的效率，我们还进行了基于文本的视频检索的视觉语言任务，通过文本查询搜索相应的视频片段该任务显示了语言和视频表示之间的同质性，从而显示了视频表示所包含的语义级信息4.1. 数据集Something-Something：Something-Something数据集[12]是视频动作的大规模基准数据集识别，包含174个视频类别的人-对象交互，例如，“在表面上移动某物而时间推理对于推断该数据集中的动作至关重要有两个版本，分别包含108k和220k视频。Something-Something-V1中的视频分为86 K，11 K和11K作为训练，验证和测试集。Something-Something- V2是一个更新的版本，包含129 K，25 K和27 K的视频，用于培训，验证和测试。我们在验证集和测试集上进行实验。值得注意的是，测试集的标签并不公开。我们将推理结果提交给基准测试，并在排行榜上公布分数Kinetics-400：Kinetics-400 [2]是一个流行的动作识别基准，收集自Youtube，其中包含400个动作类别。本算法共有300K视频样本，分为240K、20K和40K分别作为训练集、验证集和测试集。 Kinetics-400中的视频相对较长且更复杂。每个视频都被修剪到大约10秒的剪辑。Kinet-ics与Something-Something相比，对时间关系不太敏感4.2. 实验设置视频动作识别：我们采用TSN [44]中的稀疏采样和数据增强来训练我们的模型。具体来说，我们首先将视频剪辑分成T个均匀的片段，然后从每个片段中选择一个随机帧作为输入。输入帧的大小调整为256×256，随机裁剪成224×224的大小。我们接受罪恶-除非另有说明，否则应使用角夹和224×224中央裁剪进行评估我们的模型使用ImageNet上预先训练的权重进行初始化。对于Something-Something数据集，我们训练我们的模型大约80个epoch。对于Kinetics-400数据集，模型训练了大约200个epoch。对于所有模型，初始学习率为0.01，当验证损失达到平台时衰减0.1。我们对第一个epoch采用线性预热策略[11]。批量设置为64。我们利用Nesterov动量优化器，权重衰减为0.0005，动量为0.9。0.5的丢弃率也用于减少过度拟合。基于文本的视频检索：该任务的目的是在给定输入文本查询的情况下检索最相关的视频剪辑。我们采用[22] 中的方法，该方法使用基于门控递归单元（GRU）的文本-视频联合嵌入网络来测量视频表示和文本嵌入之间的相似性。我们采用了[22]中的训练和推断策略，包括文本预处理，除了使用我们的SSA和ResNet-50提取视频表示，而不是原始的3D ResNeXt。12624方法骨干Val Top1方法帧Val Top-1测试顶部-13D NLResNet-5060.6TSN831.9-二维NLResNet-5060.3[44]第四十四话848.850.9表2.在Something-Something- V2验证集上与NL块进行比较。所有模型都使用基于TSN的框架和ResNet-50主干，并使用ImageNet上的预训练权重进行初始化。输入帧编号为8。在Kinetics数据集上预训练101个。我们还使用视频分类任务在Kinetics数据集上使用ResNet-50预训练我们的SSA。然后，我们使用SSA作为特征提取器，SSA（Ours）8 62.3-SSA（Ours）16 66.0-SSAEn（Ours）16+867.4 68.2表3.与最先进的基于2D CNN的方法在Something-Something-V2验证和测试集上的比较。†表示BNInception主干，而RST表示ResNet-101。获取用于检索的视频表示GRU网络可以在HowTo 100 M [22]数据集上进行预训练，该数据集是一个视频语言预训练数据集，包含100万个叙事教学网络视频，然后在MSR-VTT和Youcook 2数据集上进行微调。评估度量是我们在两个流行的视频语言数据集上报告了这个召回指标，即。、MSR-VTT和Youcook 2.4.3. 动作识别与非局部块的比较：非局部块[37]已被证明可显著提高性能在视频分类中。我们将我们的方法与NL块进行比较，以证明我们的可分离设计的有效性。在表2中，我们显示了3D NL（空间-时间）、2D NL（空间）和1D NL（时间）的结果。我们可以看到SSA相对于3D NL的明显性能改进这表明，将空间和时间分开-tension是一种更好地建模时态推理的正确方法。我们还展示了2D+1D NL的结果，这是一种直接的方法来分离自我注意模块沿空间和时间维度。具体而言，在2D NL之后立即执行我们将NL块插入到与SSA相同的这个有趣的结果表明，可分离的自我注意力确实需要精心设计。比较与最新技术水平：我们将我们的方法与以前的最先进的方法进行比较Something-Something 和 Kinetics 数据集。对于 Something-Something-V1和V2，我们报告了验证集和测试集的结果。SSA和其他现有技术方法对Something-Something-V1的结果总结在表1中。第一部分显示了I3 D和S3 D的结果，以及它们的增强变体NL I3 D + GCN和S3 D-G，它们能够实现完全的时间融合和注意力机制。与表4.与最先进的动力学方法的比较四百其中，采用Inception作为主干的方法，采用ResNet-50作为主干的方法输入帧少得多，我们的16帧模型比这些方法有很大的优势（分别为5.9%，4.3%，5.6%和3.2%）。第二部分给出了TSN和TRN的结果。TSN没有时间融合操作，因此性能要低得多。我们的方法是建立在TSN框架。从表中可以看出，使用8帧输入时，SSA显著提高（30.0%）TRN虽然在中继网络的末端进行了时间融合，但其性能仍然较低。这表明跨不同层对时间上下文建模这也是为什么我们选择将SSA模块插入到主干的层中，而不是将其作为头部添加到我们的仅RGB集成模型（SSAEn），它是8帧输入和16帧输入的集成bLVNet-TAM[6]16+1661.7-bLVNet-TAM网络[6]16+1661.9-[第20话]859.1-[第20话]1663.464.3[20]第二十话16+1666.066.6方法帧Val Top-1Val Top-5C3D†[15]-65.685.7I3D†[2]6471.189.3[39]第三十九话6472.290.6TSN†[36]870.689.2[第20话]874.191.2[第20话]1674.7-bLVNet-TAM[6]八加八71.089.8bLVNet-TAM[6]16+1672.090.6bLVNet-TAM[6]二十四+二十四73.591.2A2-网[3]874.691.5荷兰I3D [37]873.891.0荷兰I3D [37]12876.592.6SSA（我们的）875.892.4SSA（我们的）1676.492.71D NLResNet-5060.12D+1D NLResNet-5061.0SSAResNet-5062.3126252D+1D NLSASVETAVal Top1C61.0CC61.5CCC61.4CCCC62.3表5.个体在空间注意（SA）、时间注意（TA）和共享价值嵌入（SVE）上的消融研究。方法骨干Res2Res3Val Top1SSAResNet-50C61.2SSAResNet-50C61.8SSAResNet-50CC62.3表6. SSA插入的不同位置的消融研究。注意，我们将SSA插入到5个残差块中（2个来自Res2，3个来自Res3）。性能优于TSM 2流模型，输入帧更少（24vs. 32）。我们还在表3中将我们在Something-Something-V2上的方法与最先进的基于2D CNN的方法进行了比较。与Something-Something相比，V1中，Something-Something-V2中的视频对输入帧的数量更敏感。可以看出，16帧输入的SSA模型与32帧输入的TSM 2流模型的性能相当。与具有两个不同空间分辨率分支的bLVNet-TAM算法相比，该算法取得了更好的效果。在表1和表3中，SSA的表现都大大优于深层网络（ReNet-101）（分别为4.5%和5.5%），这表明SSA具有强大的视频学习能力。我们还在图4中显示了每个类的结果，以确定我们的方法在各个类中的效率。我们列出了TSM的结果，它使用时间移位来交换帧之间的信息，以更好地理解时间融合和时间注意之间的差异。表4总结了Kinetics-400的性能比较，包括两种最近的基于自我注意力的方法，即，A2-Nets [3]和NL块[37]。由于Kinetics-400数据集对网络深度不太敏感，因此我们主要在ResNet-50骨干上比较结果。从表中可以看出，当输入帧数相同时，我们的模型优于其他方法。在16帧输入下的结果与NL I3D在128帧输入下的结果相当，这表明SSA具有很强的时间建模能力。我们的集成模型（SSA En）比NL I3D高出1%，输入帧少得多（24 vs.128）。消融研究：虽然SSA已被证明是虽然对于视频表示学习是有效的，但我们仍然希望充分研究和理解这个想法。因此，我们进行消融实验，以展示每种设计如何影响整体性能。如图2所示，我们的设计由两个顺序部分组成，即：、空间注意（SA）和时间注意（TA）。SA具有两分支结构，即位置分支和通道分支。位置分支类似于二维NL块。因此，SA是一个增强版本通过增加通道分支实现二维NL块的分割。在TA中，我们在NL块中使用3×1×1卷积而不是1×1×1卷积。我们使用2D+1D NL作为基线，并逐一添加我们的修改，以证明它们对整体表现。除了SA和TA之外，我们还评估了共享值嵌入（SVE）的性能，该算法旨在通过去除1×1×1卷积来降低复杂度消融研究如表5所示。结果表明SA和TA都提高了性能。当它们一起使用时，会有显著的性能提升。表6显示了SSA插入的不同位置的结果。我们可以看到，将SSA插入到Res2和Res3中的任何一个都可以获得显著的改进。根据我们的实验，将SSA插入到后面的块（例如Res 4/Res 5）比Res 2/Res 3具有更低的性能（大约0.5%-0.7%）。这可能是由于空间分辨率的降低。4.4. 视频检索视频检索是一个标准的视频语言任务，通过文本查询找到候选视频。正常的过程是联合训练视频表示和文本嵌入的交叉编码器，以学习它们的相似性。文本嵌入包含显式语义信息。因此，视频表示包含的语义信息越多，准确性就越好。这也是我们在这个任务上验证我们的方法的主要原因。我们采用两个流行的大规模视频语言数据集，即。、MSR-VTT和Youcook 2.MSR-VTT包含音乐、体育和电影等20个领域的视频。对于每个视频，20个字幕句子由人类工作人员注释。总共有200K唯一的剪辑标题对。我们采用JSFusion [41]的测试策略，并使用1000K剪辑字幕对作为测试数据。Youcook2是一个烹饪视频数据集，包括来自89个食谱的14K视频剪辑。由于视频剪辑要长得多（平均5.26分钟），并且包含一些不相关的场景，而不是烹饪说明，Youcook2是一个具有挑战性的数据集。表7总结了MSR-VTT数据集的性能比较。为了证明视频特征对检索性能的影响，这些方法没有预训练。第一部分显示了以前的最先进的方法。从实验结果可以看出，从文本到视频的检索确实是一个具有挑战性的任务。证券交易委员会-12626图4.与TSM（蓝色）相比，SSA（橙色）在Something-Something-V2上改进的前15个类别有一些细粒度的类别包含具有挑战性的操作，例如我们的模型在一些差异很小的类别上也能更好地工作，比如方法R@1↑R@5↑随机0.10.5C+LSTM+SA [31]4.212.9VSE-LSTM [18]3.812.7Kaufman等人 [17个]4.716.6CT-SAN [42]4.416.6[41]第四十一话10.231.2GRU+ResNeXt-101 [22]12.135.0GRU+SSA24.449.3表7. 基于文本的视频检索结果MSR- VTT数据集。我们的方法和GRU+ResNeXt之间的唯一区别是视频表示。方法R@1↑R@5↑随机0.030.15[19]第十九话4.614.3GRU+ResNeXt-101 [22]4.213.7GRU+ResNeXt-101†[22]8.224.5GRU+SSA5.515.9GRU+SSA†10.928.4表8.Youcook2数据集上基于文本的视频检索结果†表示在HowTo100M数据集（约120万个视频）。第二部分显示了[22]的结果，我们的方法优于大幅度（12.3%）。表8总结了Youcook2数据集。结果表明，使用SSA学习的视频表示的预训练GRU可以显著提高（5.4%），大于3DResNeXt（4.0%）。这也表明SSA在不同的视频中是通用的。值得注意的是，[21]中的MIL-NCE也报告了两个数据集的检索结果。然而，MIL-NCE是在HowTo 100 M（大约 120 万个视频）上预训练的，而 SSA 是在Kinetics-400（大约24万个视频）上预训练的。我们的实验表明， SSA 在 MSR-VTT 上的性能优于 MIL-NCE14.5%，但在Youcook 2上优于MIL-NCE由于它们不是基于相同的基础，我们5. 结论我们提出了一种用于视频表示学习的可分离自注意网络（SSAN），它以可分离的方式学习空间和时间相关性具体而言，我们研究了空间注意和时间注意之间的关系通过在二维CNN骨干中加入SSA模块，构建了一个基于 TSN 框架的 SSA 网络。我们在大规模的Something-Something数据集和Kinetics-400数据集上进行了大量的实验来验证我们的方法。我们的SSAN在这两个数据集上都优于最先进的方法。此外，我们还验证了我们的方法学习的视频表示视频检索的视频语言任务。在MSR-VTT和Youcook 2数据集上，我们的方法显着提高了最先进的性能。12627引用[1] I.贝洛湾Zoph，A. Vaswani，J. Shlens，and Q. V. Le.注意力增强卷积网络。 2019 年国际计算机视觉会议（ICCV）。2[2] J. Carreira和A.塞瑟曼你说的是行动识别吗新模型和动力学数据集。计算机视觉与模式识别（CVPR），2017年。二，五，六[3] Y. Chen ， Y. kalantidis ， J. Li ， S. Yan 和 J. Feng. a2-nets ：双重注意力网络。在神经信息处理系统（NIPS），2018年。六、七[4] F. Chollet Xception：深度学习与可分离卷积。在计算机视觉和模式识别（CVPR），2017年。2[5] J. 德夫林， M.- W. Chang ， K. Lee 和 K. Toutanova 。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv：1810.04805，2019年。2[6] Q.范角，澳-地Chen，H. Kuehne，M. Pistoia和D.考克斯More is less：Learning efficient video representations bybig-little network and dependently temporal aggregation.在神经信息处理系统（NIPS），2019年。二，五，六[7] C.费希滕霍费尔，H。Fan，J. Malik，and K.他外用于视频识别的 Slowfast2019 年国际计算机视觉会议（ICCV）。2[8] C. Feichtenhofer，A. Pinz和R.王尔德用于视频动作识别的时空残差网络。在神经信息处理系统（NIPS），2016年。2[9] 傅杰，刘杰，H.田氏Y. Li，Y.鲍Z. Fang和H.陆双注意力网络在场景分割中的应用。在计算机视觉和模式识别（CVPR），2019年。2[10] R. Girdhar，J.卡雷拉角Doersch和A.塞瑟曼视频动作Transformer 网络。在计算机视觉和模式识别（CVPR），2019年。2[11] P. Goyal，P. Dollar，R. B. Girshick，P. Noordhuis，L.Wesolowski，A. Kyrola，A. Tulloch，Y. Jia和K.他外精确的，大的小批量 sgd ： 1 小时内训练 imagenet 。InCoRR，2017. 5[12] R. G o yal，S. E. Kahou，V. 我是伊斯基，J。 Materzyn'ska，S. Westphal，H. Kim，V. Haenel，I. Fruend，P.Yianilos，M. Mueller-Freitag，F.霍普角图劳岛Bax，和R.梅米-舍维奇。用于学习和评估视觉常识的某物某物视频数据库。在国际计算机视觉会议（ICCV），2017年。5[13] A.哈雷K。德尔帕尼斯和我。Kokkinos使用局部注意掩码的分段感知卷积网络2017年国际计算机视觉会议（ICCV）。2[14] H. Hu，J. Gu，Z. Zhang，J. Dai，and Y.伟.对象检测的关系网络。在计算机视觉和模式识别（CVPR），2018年。一、二[15] S.吉，W. Xu，M. Yang和K. Yu.用于人类动作识别的3D卷积神经网络。2010年国际机器学习会议（ICML）。6[16] A. Karpathy，G.Toderici，S.谢蒂，T。良河，巴西-地Sukthankar和F.李基于卷积神经网络的大规模视频分类在计算机视觉和模式识别（CVPR），2014年。2[17] D. Kaufman ， G. 列维， T. Hassner 和 L. 狼 TemporalTessellation ： A Uniform Approach for Video Analysis.2017年国际计算机视觉会议（ICCV）。8[18] R.基罗斯河Salakhutdinov和R.泽梅尔统一视觉语义嵌入与多模态神经语言模型。 arXiv 预印本 arXiv ：1411.2539，2014年。8[19] B.克莱因，G. Lev，G. Sadeh和L.狼使用Fisher向量将神经词嵌入与深度图像表示相关联。计算机视觉和模式识别（CVPR），2015年。8[20] J. Lin，C. Gan和S.韩Tsm：用于高效视频理解的时间偏移模块。2019年国际计算机视觉会议。二四五六[21] A. Miech，J.B. 阿莱拉克湖斯马伊拉岛Laptev，J.Sivic和A.塞瑟曼从未经策划的教学视频中进行端到端的视觉表征学习。在CVPR，2020年。8[22] A. Miech，D.朱可夫，J. B. Alayrac，M.塔帕斯维岛Laptev和J. Sivic。HowTo100M：通过观看亿级视频剪辑学习文本视频嵌入。2019年国际计算机视觉会议（ICCV）五六八[23] J. Y. Ng，M. Hausknecht，S.维贾亚纳拉西姆汉岛葡萄酒，R. Monga和G.托德里奇超越短片段：用于视频分类的深度网络。计算机视觉和模式识别（CVPR），2015年。1[24] A. Piergiovanni，A. Angelova和M. S.亮微型视频网络。arXiv：1910.06961，2019。2[25] Z. Qiu，T. Yao和T.美.用伪三维残差网络学习时空表示2017年国际计算机视觉会议（ICCV）。2[26] Z. Qiu，T.姚角，澳-地W. Ngo，X. Tian和T.美.学习具有局部和全局扩散的时空表示。在计算机视觉和模式识别（CVPR），2019年。2[27] K. Schindler和L.凡古尔动作片段：人类动作识别需要多少帧？计算机视觉和模式识别（CVPR），2008年。3[28] W. Su，X. Zhu，Y.曹湾，澳-地利湖，加-地Lu，F. Wei和J. Dai. Vl-bert：一般视觉语言表征的预训练。2020年，在ICLR。2[29] C.孙氏F.巴拉德尔角，澳-地Murphy和C.施密特学习视频表示使用对比双向变压器。arXiv：1906.05743，2019。2[30] C. Sun，A.迈尔斯角，澳-地Vondrick，K. Murphy和C.施密特Videobert：一个视频和语言表征学习的联合模型2019年国际计算机视觉会议。2[31] A. Torabi，N. Tandon和L.西加尔学习语言-用自然语言理解电影的视觉嵌入。 arXiv 预印本 arXiv ：1609.08124，2016。二、八[32] D. 特兰湖，澳-地布尔代夫河费格斯湖Torresani和M.帕卢里用三维卷积网络学习时空特征。2015年国际计算机视觉会议（ICCV）。2[33] D.特兰，H。王湖，加-地Torresani和M.菲兹使用通道分离卷积网络的视频分类在12628国际计算机视觉会议（I

下载后可阅读完整内容，剩余1页未读，立即下载