没有合适的资源?快使用搜索试试~ 我知道了~
自监督时空对比学习方法
139770具有自监督的上下文化时空对比学习0Liangzhe Yuan 1 Rui Qian 1, 2 � Yin Cui 1 Boqing Gong 10Florian Schroff 1 Ming-Hsuan Yang 1 Hartwig Adam 1 Ting Liu 101 Google研究 2康奈尔大学0摘要0现代自监督学习算法通常强制实例表示在视图之间保持持久性。虽然在学习整体图像和视频表示方面非常有效,但这样的目标对于学习视频中的时空细粒度特征来说并不是最优的,因为场景和实例在空间和时间上发展变化。在本文中,我们提出了具有上下文化时空对比学习(ConST-CL)的方法,通过自监督有效地学习时空细粒度的视频表示。我们首先设计了一个基于区域的预训练任务,该任务要求模型将一个视图中的实例表示转换为另一个视图,由上下文特征引导。此外,我们引入了一个简单的网络设计,成功地调和了整体和局部表示的同时学习过程。我们在多个下游任务上评估了我们学到的表示,并展示了ConST-CL在6个数据集上取得了竞争性的结果,包括Kinetics、UCF、HMDB、AVA-Kinetics、AVA和OTB。我们的代码和模型将在https://github.com/tensorflow/models/tree/master/official/projects/const_cl上提供。01. 引言0自监督学习(SSL)在自然语言处理[12,32]和计算机视觉[3, 4, 9,23]方面取得了革命性的进展,因为它可以从大量无标签数据中学习到强大的表示。在计算机视觉领域,SSL的成功关键突破来自实例区分预训练任务[16]和对比目标[39],首次使自监督预训练在下游视觉任务上超过了监督预训练[26]。对于视频,许多自监督对比学习方法[3, 4, 18,43]直接将已建立的基于图像的方法[9,26]扩展到时空领域。然而,它们大多数没有明确利用视频中多个实例和场景上下文的时间演变。0� 作为Google的学生研究员完成的工作。0最大化一致性0(a)0预测0(b)0图1. (a) 典型的对比学习算法从一个源s中绘制两个增强视图{x,x'}并训练编码器网络f(∙)构建表示h和h'。投影函数g(∙)被训练用于将表示投影到共享空间,并最大化两个视图之间的一致性。(b)具有上下文化时空对比学习使用二元投影函数g(∙,∙)将一个视图中的表示h转换到另一个视图,由另一个视图中的上下文特征F'c引导。对比目标鼓励转换后的表示z与其对应的h'一致。0自监督学习方法通常通过跨视图强制语义一致性来构建实例表示[9,26]。这个假设在图像领域尤为真实,因为两个视图通常是从同一张图像生成的。如图1a所示,目标是在特征空间中尽可能地使这两个视图的表示接近。在视频领域中,这些基于视图的对比方法[18,43]可能不太有效,因为一个实例的视觉外观在帧之间经常发生剧烈变化。例如,视频中的一个人可以在时间上具有不同的姿势和执行不同的活动,这表明实例的状态和语义可能在空间和时间上发生变化。在整个视频中强制保持时空一致性[18]将导致表示仅在帧之间编码最小共享信息,这可能对时空细粒度的下游任务产生负面影响。此外,现有的自监督方法通常139780专注于学习用于整体视觉理解任务[9,43]的表示,例如图像分类和视频动作识别。对于目标检测、动作定位和跟踪等密集预测任务,这些模型通过添加任务特定的头部来增强性能。另一方面,有几种方法被设计用于学习用于密集预测任务[22, 53, 60,61]的有区分性的局部特征,但它们在整体视觉理解方面的性能通常会受到影响[58]。鉴于此,我们对能够应用于整体和局部视频任务的表示感兴趣。我们提出了上下文化的时空对比学习(ConST-CL),如图1b所示,以避免全局对比目标强制执行的不良时空持久性。ConST-CL为各种视频下游任务(从时空动作定位和物体跟踪到动作识别)学习具有语义一致但有区分性的局部表示。具体而言,我们设计了一个投影函数g(∙,∙),不仅考虑实例特征,还考虑上下文特征,其中实例特征是从视频的源视图中提取的,上下文特征是从目标视图中采样的。该任务使模型在视频中具有上下文感知能力,因此是学习有区分性的局部表示的良好代理。为了解决学习整体和局部视频表示的能力不平衡问题,我们设计了一个简单的双分支模块,以促进网络在一个统一的自监督学习方案中学习高质量的视频表示。我们在各种下游任务上评估了学习到的表示。对于整体表示,我们在Kinetics400[30]、UCF101 [47]和HMDB51[31]数据集上进行视频动作识别评估。对于局部表示,我们在AVA-Kinetics [35]和AVA[24]数据集上进行时空动作定位实验,以及在OTB2015[56]数据集上进行单目标跟踪。我们的实验结果表明,通过使用ConST-CL进行预训练,学习到的表示在所有研究的数据集上都适应良好,超过了最近提出的使用有监督预训练或自监督预训练的方法[18, 21, 43,60]。本文的主要贡献包括:•一种基于区域的对比学习框架,用于细粒度的时空表示学习。0•一种上下文化的区域预测任务,有助于学习在本地区域上具有语义一致性的视频特征。0•一种简单的网络设计,有效地协调同时进行的整体和局部表示学习。0•在6个基准测试中具有竞争性能,包括时空动作定位、物体跟踪和视频动作识别。02. 相关工作0图像中的自监督学习。为了有效地从图像中学习表示,早期的自监督方法专注于由专家设计的先验任务。已经提出了各种各样的先验任务,包括上色[33],修复[40],去噪[51],自运动预测[2],上下文预测[14],方向预测[20],空间拼图[38]等。最近在图像自监督学习方面的进展主要来自于在实例鉴别任务[16]上最小化对比损失[39]。对比目标有效地强制要求来自不同视角的相同实例的表示相似,同时在潜在空间中排斥来自不同实例的表示。该类别中的代表性框架包括NPID [57],MoCo [10, 26],SimCLR [9]等。0视频中的自监督学习。在视频领域,自监督表示学习近年来取得了很大的发展。对比目标广泛用于学习用于整体识别任务的视频表示[18, 43, 44, 46,62]。已经利用了广泛的先验任务来学习视频中的良好表示。与图像领域相比,视频自然产生更丰富的自监督信号。在[44]中,目标是强制执行全局上下文一致性,并利用视频的长短视图来对齐表示。在[54]中,通过从视频数据集中学习共轭示例,将动作和上下文特征分别因式分解。运动信号也被用于学习良好的表示[25,48]。视频帧的时间顺序也被用于自监督表示学习。例如,在[34,36]中,通过打乱帧的顺序来强制执行帧的时间顺序,进行表示学习。类似地,正向和反向帧的顺序被用作表示学习的自监督信号[55]。此外,利用时间循环一致性来学习视频帧之间的时空对应关系[29,52]。另一方面,多模态信号,如音频/视觉和视觉/文本,已被用于以自监督方式学习表示,其性能优于基于单一模态的模型[4, 5, 37, 41]。0局部表示。尽管现有方法专注于学习图像或视频的整体表示,但最近的一些方法明确地建模了空间细粒度表示。在[8,53]中,已经开发了几种用于密集预测任务(如目标检测和图像分割)的对比学习模型。此外,通过生成带有伪标签的增强样本来学习用于目标检测的密集特征[13,61]。其他方法引入位置先验来组合像素以学习局部特征。例如,[28, 49,64]使用无监督的掩码,[42,59]使用像素坐标。在视频领域,许多方法通过利用固有的时间增强来确定对象的对应关系来学习细粒度特征。[22]随机从视频中采样两个图像构成自监督学习的对比对,并在视频任务上显示出改进的性能。[63]采用确定帧是否来自同一视频及其时间顺序的前提任务。[60]通过学习帧级相似性观察到对应关系的出现。[29]强制前后时间一致性以学习视频中的局部对应关系。大多数现有方法专注于学习局部表示,并不强调在整体任务上的性能。[58]明确提出了同时学习整体和局部表示的问题,但只关注图像领域。…………K/VK/VK/VQzi = g(hi) = MLP(hi),(1)Lr =�i− logexp(zi · z′j/τ)exp(zi · z′j/τ) + �k exp(zi · ˆzk/τ),s.t.j = argminjhi · h′j,(2)139790Q0K0V0预测0CNN0Transformer0源:0目标:0归一化0多头0自注意力0归一化0L ×0池化0池化0采样0图2. 上下文化时空对比学习。从一个视频中随机采样两个时空上相距较远的视图,并通过基础网络f(x)提取它们的密集表示特征图{F, F′}。通过时空ROIAlign从各自的密集特征图中汇集区域特征{h, h ′},并从密集特征图F'中采样一组上下文特征F'c。投影头g(h,F'c)被学习用于将表示h从一个视图转换到另一个视图,其指导是上下文特征F'c。我们使用Transformer[50]架构,将区域特征h作为查询,上下文特征F'c作为键和值。InfoNCE损失用于鼓励重建表示z与其对应的h'之间的相似性。0利用固有的时间增强来确定对象的对应关系[22, 29, 60,63]。[22]随机从视频中采样两个图像构成自监督学习的对比对,并在视频任务上显示出改进的性能。[63]采用确定帧是否来自同一视频及其时间顺序的前提任务。[60]通过学习帧级相似性观察到对应关系的出现。[29]强制前后时间一致性以学习视频中的局部对应关系。大多数现有方法专注于学习局部表示,并不强调在整体任务上的性能。[58]明确提出了同时学习整体和局部表示的问题,但只关注图像领域。0与这些相关工作不同,我们的方法通过使用一种新颖的基于区域的预测任务在自监督学习过程中利用视频上下文,并设计了同时从无标签视频中进行自监督学习的整体和局部表示。与大多数关注学习整体或局部表示的方法不同,我们强调在一个统一的训练方案下同时提高两者的质量。03. 方法0在本节中,我们介绍了提出的自监督学习框架,即上下文化时空对比学习(ConST-CL),用于学习视频中的时空细粒度表示。03.1. 基于区域的视频对比学习0给定一个视频,一个简单的对比学习算法随机采样两个视频剪辑{x, x′},并对每个视频剪辑进行随机数据增强。对应的视频级表示{z, z ′}∈RC0通过网络f(∙)提取来自{x, x ′}的密集特征图{F, F′},用于计算对比损失[39],其中负样本来自其他视频。我们将这个视频级全局对比损失表示为Lg。该训练目标要求来自同一视频的全局平均池化特征相似,而来自不同视频的特征则相互排斥。然而,对于密集预测任务来说,局部特征起着重要的作用,但没有对局部特征进行明确的监督。为了强制进行局部监督,一种方法是将[53]扩展到时空领域。给定来自{x, x ′}的密集特征图{F, F′}∈RT×H×W×C,其中T、W、H、C分别表示时间、高度、宽度和通道维度,对于每个特征体素h i ∈F,我们找到其在特征空间中最接近的对应特征h ′ j ∈ F′,形成一个正样本对。因此,视频中的密集对比损失可以表示为:0其中MLP指的是多层感知机,τ是温度参数,i,j和k是网格索引,{ˆz}是(a)(b)(c)zi = g(hi) = MLP(ROIAlign(F, ri)),(3)L = 1N�(Lg + ωLr) .(4)zi = g(hi, F ′c) = g(ROIAlign(F, ri), F ′c),(5)Lr =�i− logexp(zi · h′j/τ)exp(zi · h′j/τ) + �k exp(zi · ˆhk/τ),s.t.j = argminjhi · h′j,(6)139800图3.平衡全局和局部损失。我们分析了三个不同的端点来施加全局和局部训练损失。�表示池化操作。在实验中,我们发现通过在网络中分支res5块并分别在R 5 g和R 5 r上应用L g和Lr,两个损失相互受益,表示通过共同训练而蓬勃发展。0来自其他视频的表示。在这里,我们简单地将其他视频的所有密集特征都视为损失计算的负例。假设我们可以访问感兴趣区域的位置先验{ri},我们可以通过使用区域位置组织表示来得到基本的区域对比学习:0其中我们覆盖符号hi以成为池化的区域特征,i是区域索引。在本文中,我们将区域参数化为某一帧的边界框r = {t, x min, y min, x max, ymax}。区域表示hi是通过ROIAlign[45]从密集特征图F池化得到的。完整的学习目标是全局损失和局部损失的线性组合,由比例因子ω加权。在训练过程中对N个小批量进行平均:03.2. 上下文化时空对比学习(ConST-CL)0在第3.1节中描述的基本区域对比学习框架有一个限制:损失函数总是鼓励不同时间戳上的相同实例的表示相似,而视频中实例的外观可能会随着帧的变化而改变。例如,视频中的一个人可以以不同的姿势出现并进行不同的活动。简单地强制要求视频不同时间位置上的相同实例相似将不可避免地鼓励模型仅编码最小信息,这对于下游视频理解任务来说效果较差。为了解决这个问题,我们提出了一种新颖的自监督方法,即上下文化时空对比学习(ConST-CL)。简而言之,ConST-CL要求网络学习在给定源视图中的表示和目标视图周围的上下文特征的情况下“重构”目标视图中区域的表示。0要求网络学习在给定源视图中的表示和目标视图周围的上下文特征的情况下“重构”目标视图中区域的表示。0其中F ′c表示目标视图周围的上下文特征集,i,j和k是区域索引,{ˆh}是来自其他视频的表示。在这里,我们需要注意:(1)与式(3)相比,我们将表示解码函数g(∙)从一元函数扩展为二元函数g(∙,∙);(2)我们不强制两个剪辑之间的区域之间的双射映射,因此视图之间的区域数量不同不会引起问题。式(5-6)以一般方式描述了ConST-CL,考虑了所有帧的所有区域。这可能带来计算上的挑战,因此在实践中,我们改为从每个特征图的一个时间切片中进行采样来构建两组区域。接下来的消融研究将讨论时间采样策略。0图2显示了ConST-CL的示意图。给定源视图中的汇聚区域特征hi和目标视图中的一组上下文特征F'c,通过学习投影函数zi = g(hi,F'c),目标是最小化重构相关表示zi与其对应的目标视图中的本地表示h'j之间的表示距离。上下文特征F'c是从密集特征图F'中采样的特征体素的子集。在我们的情况下,我们沿着时间维度对密集视频表示F'进行了一些帧的子采样。我们将用于构建F'c的帧数定义为上下文长度,其对性能的影响在第4.4节中进行了研究。与仅对投影到共享特征空间的特征进行对比不同,ConST-CL要求{F,F'}中的每个特征向量都编码有关自身和上下文的更多信息,以便通过来自另一个视图的上下文特征g(∙,∙)可以有条件地重构实例编码。0我们使用transformer [50]架构实现g(∙,∙)。首先,我们将源视图中的每个实例特征向量hi线性投影到查询令牌,将目标视图中的上下文特征向量F'c投影到键-值令牌对。然后,使用多头交叉注意力通过查询令牌查找键-值对。最后,我们使用Eq.(6)上的InfoNCE损失函数对转换后的实例特征zi及其对应的h'j进行计算。1398103.3. 区域生成0随机框。在训练过程中即时生成随机框是最直接的方法。在我们的相关实验中,我们在每个帧上随机生成8个框。在第4.4节中,我们展示了我们的方法在这些随机框的训练下表现出有趣的性能。来自低级图像线索的框。我们还考虑了两种从低级图像线索生成框的方法。具体而言,我们使用SLIC[1]算法在每个帧上生成16个超像素。根据[28],我们还使用基于图的图像分割方法[19]在每个帧上生成16个图像分割。来自检测器的框。我们还使用现成的现代检测器生成弱监督学习的以物体为中心的边界框。我们使用基于CenterNet[66]的人体检测器仅生成人体边界框。作为替代,我们使用基于级联RCNN [17]的通用物体检测器。03.4. 平衡全局和局部损失0现有方法[60,65]已经表明,通过在整体表示上应用监督信号可以提取出有区分性的局部特征。直观地说,对整体和局部表示都添加约束是相互有益的,因为有区分性的局部特征将有助于整体识别,而表达力强的整体特征可以从局部特征中得出。然而,在实践中,我们发现直接在ResNet的平均池化层之前的密集特征图上添加提出的基于区域的局部损失,自监督训练不太稳定,并且对于平衡全局和局部损失的超参数敏感。为了解决这个问题,我们提出了一个简单的解决方案。由于我们使用ResNet3D-50作为基础模型,我们修改了ResNet架构并复制了res5块,形成了一个“Y”结构,如图3所示。然后,全局和局部损失分别附加在端点C5g和C5r上,并且它们在训练过程中共同约束C4中的潜在特征图。在微调用于下游任务的模型时,我们根据任务选择C5g或C5r分支。这种设计在预训练阶段只引入了适度的额外计算量,并且在微调和推理中没有额外的成本。我们将在第4.4节中展示,提出的“Y”结构在视频级和实例级下游任务上取得了更好的折衷效果。04. 实验0我们按照线性探测协议在Kinetics400[30]数据集上评估剪辑级视频表示模型,并在UCF101[47]和HMDB51[31]数据集上使用线性探测和微调进行评估。为了评估0为了学习时空细粒度表示,我们在AVA-Kinetics[35]和AVA v2.2[24]数据集上进行了实验,用于时空动作定位,以及在OTB2015 [56]数据集上进行了单目标跟踪。04.1. 实现细节0我们使用ResNet3D-50(R3D50)作为我们的骨干特征提取器,遵循[43]的方法。在使用这些特征计算自监督损失之前,所有特征都进行了ℓ2归一化。对于整体表示学习分支,我们使用一个3层的MLP,其中隐藏节点为2048,将一个2048维的特征向量投影到一个128维的特征向量中。对于局部表示学习分支,我们使用与[50]中描述的相同的基于注意力的架构。注意力单元堆叠成多个头和多个层,构建了用于实例预测任务的ConST-CL头部。在这项工作中,ConST-CL的头部由3层3头注意力单元组成,隐藏维度为128。我们使用ReLU激活函数,没有使用dropout。最后一层线性层用于将128维特征向量投影回2048维。我们在输入到变换器头部之前,对查询、键和值的令牌进行了时空位置编码,以保留位置信息。为了构建局部分支的对比对,除非另有说明,我们总是从两个视图中的中心帧中采样示例。自监督预训练在Kinetics400[30]数据集上进行。在评估过程中,所有用于自监督学习的头部都被丢弃。所有模型都是使用1024的小批量进行预训练的。在预训练过程中,我们使用带有0.9动量的SGD优化器。学习率在前5个epoch中线性增加到40.96,然后按半周期余弦学习率衰减[27]到0。权重衰减为10^-6。0应用于所有卷积核。我们将温度τ设置为0.1用于全局损失,设置为0.2用于局部损失。尺度因子ω设置为0.01以平衡全局损失和局部损失。对于表(1,2)中的结果,我们对骨干模型进行了预训练,进行了200k步,大约850个epoch,在Kinetics400数据集上使用随机生成的区域框。上下文长度设置为5。对于所有消融研究,我们使用了一个较短的预训练计划的骨干模型,训练了100k步。04.2. 下游任务0了解一个表示模型是否可以应用于整体和局部理解是非常有趣的,因为直观上,更好的局部表示可以促进整体识别任务,反之亦然。在这项工作中,我们将学习到的表示模型应用于(1)需要整体表示的视频动作识别任务,包括Kinetics400 [30]、UCF101 [47]和HMDB51[31]数据集;以及(2)时空动作定位任务。INet-sup [35]I3DK40035.922.927.519.1--K400-supR3D50K40026.719.8-22.271.251.46ρMoCo [18]Slow-onlyK400---20.3--ρBYOL [18]Slow-onlyK400---23.4--VFS-inflatedR3D50K40034.625.929.122.473.352.7CVRL [43]R3D50K40031.624.124.918.475.453.7139820预训练AVA-Kinetics AVA目标跟踪0方法 骨干 数据集 mAP (GT) mAP (Det) mAP (GT) mAP (Det) 精度 成功率0SimSiam [11] R50 INet - - - - 61.0 43.2 VINCE [22] R50 R2V2 - - - - 66.0 47.6 SeCo [63] R50 K400 - - - - 71.9 51.8 VFS [60]R50 K400 - - - - 73.9 52.50ConST-CL R3D50 K400 39.4 30.5 31.1 24.1 78.1 55.20表1.基于预训练表示的下游任务性能。我们评估了学习到的表示在AVAv2.2和AVA-Kinetics上的时空动作识别(使用真实和检测到的人物边界框)以及OTB2015上的单目标跟踪。ConST-CL在各项任务中均取得了最先进的结果,表明我们提出的框架能够一致地学习到更好的视频局部视觉表示。0定位和单目标跟踪任务需要在AVA-Kinetics [35]、AVAv2.2 [24]和OTB2015[56]数据集上进行局部表示。视频动作识别。我们通过在Kinetics400 [30]、UCF101 [47]和HMDB51[31]上固定所有主干权重来进行线性评估。输入是一个32帧的视频剪辑,时间步长为2,分辨率为224。我们训练线性分类器进行100个epoch。我们还使用预训练模型初始化网络,并在UCF101和HMDB51上对所有层进行微调,微调50个epoch。时空动作定位。我们将与R3D50主干相同的动作变换器头部附加到我们的网络中,按照[35]的设置进行简化。我们使用真实的人物边界框训练模型,并在评估过程中使用真实边界框或使用现成的人物检测器生成的边界框1作为区域提议。模型的训练批量大小为256,训练步骤为50k。输入具有32帧,分辨率为400,时间步长为2。单目标跟踪。我们还通过单目标跟踪任务评估我们学到的表示,这需要语义一致的时空特征来确定对象级对应关系。我们按照[22,60, 63]的做法,采用SiameseFC[6]作为跟踪器,并修改res4和res5块中的空间步长和扩张率。请注意,我们的主干是一个3D卷积网络,对于每个输入帧,我们还从每一侧采样其相邻的n帧,并使用2n +1帧作为输入。在res5块之后,我们沿着局部特征图F的时间维度切割中心帧,作为跟踪头的输入。这里我们使用n =2,因为网络中最大的时间卷积核为5。我们使用预训练的检查点初始化主干,并对所有实验微调跟踪器。01我们使用与[18, 35]相同的一组边界框进行公平比较。04.3.主要结果0在表1中,我们使用来自不同方法的预训练模型来研究密集视觉任务的模型性能。我们在AVA-Kinetics [35]和AVAv2.2 [24]上评估时空动作定位。根据[21,35]的方法,模型在验证集上使用真实边界框或检测到的边界框作为区域提议进行评估。在AVA-Kinetics上,当使用真实边界框时,ConST-CL的mAP为39.4%,当使用检测到的边界框时,mAP为30.5%,大幅超过有监督方法[35]。ConST-CL还比基线自监督方法CVRL[43]的模型具有超过24%的相对性能提升。此外,我们与专为密集视觉任务设计的VFS [60]进行比较。由于VFS使用2DResNet,我们按照常见做法将网络中的所有2D卷积核扩展为3D[7],并加载来自VFS的预训练权重进行公平比较。在表中,ConST-CL的mAP超过VFS扩展方法4.6%,显示了我们提出的方法在时空动作识别任务上的有效性。在AVAv2.2上,我们观察到类似的趋势,ConST-CL优于竞争方法,分别使用真实边界框和检测到的边界框实现31.1%和24.1%的mAP。0在OTB2015 [ 56]上,我们首先与仅针对密集任务设计的先前方法进行比较。表1显示,ConST-CL在精确度得分上比评估的方法大幅优越。具体而言,与VFS [ 60]相比,ConST-CL的精确度得分提高了78.1%(+∆4.2%),成功得分提高了55.2%(+∆2.7%)。为了排除架构差异(2D网络与3D网络),我们将2DResNet扩展为3D并加载VFS预训练的检查点,表示为表中的VFS-inflated。与VFS相比,VFS-inflated在性能上与其2D对应物表现类似,这表明了这种架构差异的影响。MethodK400UCFHMDBUCFHMDBVINCE [22]49.1----SeCo [63]61.9--88.355.6ConST-CL66.689.159.994.871.9MethodFramesParams (M)FLOPs (G)CVRL [43]16×244.691.2ρMOCO (ρ=2) [18]8×244.683.6ρMOCO (ρ=2) [18]16×244.6167.0ρBYOL (ρ=4) [18]16×444.6334.0ConST-CL16×271.7113.0MethodSamplingUCFHMDBAVA-KOTBCVRL-91.666.230.975.9ConST-CLRandom56.257.834.875.4ConST-CLCenter94.167.736.977.1ConST-CLNearest93.868.136.976.4MethodEndpointUCFHMDBAVA-KOTBCVRL-91.666.230.975.9ConST-CLC4p93.567.532.075.3ConST-CLC593.466.733.674.3ConST-CLC5g+C5r94.368.736.777.7139830线性微调0VFS-inflated [ 60 ] 33 . 1 - - 71 . 4 41 . 0 ρ MoCo ( ρ = 2 )[ 18 ] 67 . 4 - - 93 . 2 - ρ BYOL ( ρ = 4 ) [ 18 ] 71 . 5 - - 95 .5 73 . 6 CVRL [ 43 ] 66 . 1 89 . 2 57 . 3 92 . 2 66 . 70Table 2.下游视频动作识别。ConST-CL在微调实验中取得了竞争性的结果,表明它可以在视频中学习到强大的整体视觉表示。0Table 3.不同SSL方法在基于视频的网络上的模型大小和计算成本。参数和FLOPS计数包括SSL头。0对于OTB2015基准测试中的单目标跟踪,与CVRL相比,ConST-CL取得了明显的性能提升。在表2中,我们的方法在线性探测中与CVRL和ρ MOCO ( ρ=2)相当,并在UCF101和HMDB51上取得了94.8%和71.9%的竞争性微调结果。值得指出的是,我们的方法在对整体表示进行微调时改进了CVRL,即使我们没有使用除CVRL损失Lg之外的任何额外监督。这些结果与我们的直觉一致,即整体和局部表示建模可以相互受益。在我们的方法中,这两个损失同时对网络中的潜在特征图C4进行贡献和约束。这些结果还证明了所提出的模型设计在单一框架中一致地组织不同级别的表示的有效性。最后,在表3中,我们报告了不同视频自我监督学习方法中包括骨干和SSL头的模型大小和计算成本。与CVRL相比,ConST-CL的模型大小和计算成本适度增加,主要是由于分支的res5块和额外的transformer头。[18]中使用的Slow-only网络和训练策略与我们的不同,使得进行并行比较困难。因此,我们将结果留在表中供参考。04.4. 消融实验0时间采样策略。为了构建对比区域对,我们从源和目标中采样一帧。0Table 4. 对时间采样策略的消融实验。“中心”和“最近”时间采样策略对于ConST-CL的性能表现相当好,比“随机”采样更好。0表5.损失端点的消融研究。我们在不同的端点上应用基于区域的对比损失,并展示了C5g +C5r配置在全局和局部损失之间取得了最佳平衡,并具有最佳的下游任务性能。0在表4中,我们研究了三种不同的时间采样策略。对于“random”策略,我们随机采样源视图和目标视图的帧来构建对比对。对于“center”策略,我们简单地选择两个视图中密集特征图的中心帧进行ConST-CL。对于“nearest”策略,我们总是选择两个视图中时间上最接近的帧对。如果两个随机采样的片段在时间上重叠,那么我们从它们重叠的帧中抽样。否则,我们选择两个视频片段最接近的两端的帧。表4显示,“random”采样策略始终比其他方法差。这可以归因于随机采样引入了显著的噪声,并对模型性能产生负面影响。使用“center”或“nearest”采样策略没有明显的性能差异。为了简单起见,我们在实验中选择了“center”采样策略。损失端点。我们分析了如何将全局对比损失和局部对比损失结合起来用于视觉任务。在这个研究中,我们将提出的局部损失附加到网络的不同端点,并分析它如何与全局损失交互。如图3(a)所示,该模型的区域特征来自C5端点。对于图3(b)中的模型,我们首先对C4特征图进行2×2的平均池化,将其空间分辨率从14×14降低到7×7,然后应用区域级损失。对于图3(c)中的模型,我们复制了网络的res5块,然后分别在C5g分支和C5r分支上应用全局损失和区域损失。在图3(c)中的模型的推理阶段,我们分别使用C5g和C5r的特征图进行视频和实例级任务。在表5中,我们观察到在C4p或C5上简单添加提出的基于区域的对比损失,ConST-CL已经超越了基线方法CVRL。139840上下文损失 UCF HMDB AVA-Kinetics OTB0长度端点 Top-1 Top-1 mAP(GT) mAP(Det) 精确度 成功率 参数数量(百万) FLOPs数量(十亿)0- R5 91.6 66.2 30.9 23.4 75.9 53.6 44.6 45.6 0 2R5 91.8 66.0 35.3 27.5 75.4 56.6 77.7 55.5 1 2R5 93.4 66.7 36.7 28.077.7 55.0 71.7 55.6 3 2R5 93.7 67.4 36.9 28.1 77.5 54.5 71.7 56.1 5 2R5 93.4 67.5 37.6 28.1 79.0 55.4 71.7 56.50表6. 上下文长度和计算开销的消融研究。“-”表示不使用ConST-CL,模型仅使用Lg进行训练;“0”表示不提供上下文,模型简单地退化为基于区域的对比学习。从表中我们观察到更多的上下文有助于学习更好的时空表示。我们注意到参数增加主要来自于重复的res5块,而我们基于Transformer的头部对于基于区域的对比学习来说更加参数高效。0UCF AVA-K OTB0盒子类型 Top-1 mAP(GT) 精确度 成功率0随机 94.3 36.9 77.0 54.0 SLIC [1] 93.4 36.4 76.3 53.7 FH[19] 94.1 36.9 77.1 54.3 人体检测器 93.4 36.7 77.7 55.0物体检测器 93.7 37.2 77.8 54.10表7.盒子类型的消融研究。在自监督训练中应用不同类型的盒子时,我们发现无论区域位置质量如何,模型的学习效果都一样好。0通过在图3(c)中分支res5块,我们实现了两种损失的最佳平衡,并且整体和局部表示在下游任务上获得了更好的性能提升。上下文长度。我们通过改变从目标视图到输入到ConST-CLTransformer头部的特征图沿时间轴采样的数量来研究上下文化的效果。不同的上下文长度表示沿时间轴采样的特征图数量。注意,当上下文长度为零时,该方法简单地退化为第3.1节中描述的基于区域的对比学习。表6显示,随着上下文长度的增加,我们的模型学习到了更好的表示。这可以归因于更多的上下文特征提供了关于目标视图的更丰富信息,模型可以学习到更好的解码器函数g(∙,∙),从而产生更高质量的时空表示。在表6中,我们还列出了一次自监督训练的模型参数数量和FLOPs数量。将基于区域的基线模型(第二行)与基线模型CVRL(第一行)进行比较,我们注意到模型参数数量增加了74.2%,FLOPs数量增加了20.9%,其中开销主要来自于重复的res5块。当切换到上下文长度为1的提出的Transformer解码器时,模型参数数量减少到71.76M,而FLOPs数量增加了0.16B。这是因为我们使用了具有较少隐藏单元的多头自注意力。0单位,这更加节省参数。最后,当增加上下文长度时,我们注意到FLOP的增加仅很小。框类型。表7显示了不同位置先验如何影响表示学习。我们研究了使用不同方法生成的三种类型的框:随机生成的框,从低级图像线索中派生的框和检测器生成的框。总体而言,我们的方法在区域位置准确与否时表现一样好。我们推断每个区域可以被理解为场景中的一个实例裁剪,并且ConST-CL不要求裁剪是以对象为中心的。这个观察结果与之前在图像[9,26]和视频[43]上的自监督学习方法一致。实验证明了所提方法的鲁棒性。04.5. 限制0当前框架中缺少的一个要素是用于学习更细粒度表示的自监督信号。我们希望在未来通过引入密集的自监督来丰富我们的方法。此外,目前的全局-局部自监督信号的组织解决方案仅适用于卷积神经网络骨干。对于最近的视觉Transformer(ViT)[15],直接将我们提出的方法应用于其当前形式是非平凡的。05. 结论0在本文中,我们提出了一种新颖的自监督学习框架,可以在视频中学习多样化的时空细粒度表示。我们提出了一种简单的架构设计,将整体和局部表示学习融合在一个框架中。通过大量实验证明了所提方法的有效性。在未来,我们计划在更多的视频任务上进行实验,如视频分割和时间定位。致谢。我们感谢OlivierHenaff(DeepMind)提供的图像分割代码;AngLi(DeepMind)对AVA-Kinetics的帮助;XiaoZhang(U. Chicago)和JianingWei(Google)对目标跟踪的帮助。139850参考文献0[1] Radhakrishna Achanta, Appu Shaji, Kevin Smith, AurelienLucchi, Pascal Fua和Sabine S¨usstrunk.Slic超像素与最先进的超像素方法相比. TPAMI,2012年. 5, 80[2] Pulkit Agrawal, Joao Carreira和Jitendra Malik.学会通过移动来看. 在ICCV,2015年. 20[3] Hassan Akbari, Linagzhe Yuan, Rui Qian, Wei-HongChuang, Shih-Fu Chang, Yin Cui和Boqing Gong. Vatt:用于从原始视频、音频和文本进行多模态自监督学习的Transformer. 在NeurIPS,2021年. 10[4] Jean-Baptiste Alayrac, Adria Recasens, Rosalia Schneider,Relja Arandjelovic, Jason Ramapuram, Jeffrey De Fauw,Lucas Smaira, Sander Dieleman和Andrew Zisserman.自监督多模态通用网络. 在NeurIPS,2020年. 1, 20[5] Humam Alwassel, Dhruv Mahajan, Bruno Korbar, LorenzoTorresani, Bernard Ghanem和Du Tran.通过跨模态音频-视频聚类进行自监督学习.arXiv预印本arXiv:19
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功