自监督视频表征学习中的运动聚焦对比学习

27 浏览量更新于2023-10-13 收藏 1.01MB PDF 举报

对比学习

时间维度

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2105视频表征的运动聚焦对比学习*Rui Li†，Yiheng Zhang‡，Zhaofan Qiu‡，Ting Yao‡，Dong Liu†，and Tao Mei‡†中国科学技术大学，合肥，中国中国JDAI Research，北京，中国liruid@mail.ustc.edu.cn，{yihengzhang.chn，zhaofanqiu，tingyao.ustc}@ gmail.comdongeliu@ustc.edu.cn，tmei@live.com摘要运动作为视频中最明显的现象，涉及随时间的变化，对视频表征学习的发展具有独特和关键的意义。在本文中，我们提出了这样一个问题：运动尤其对于自监督视频表示学习有多重要。为此，我们组成了一个二重奏的利用运动的数据增强和特征学习的制度对比学习。具体来说，我们提出了一个运动为重点的对比学习（MCL）的方法，认为这样的二重奏为基础。一方面，MCL利用视频中的每个帧的光流来在时间上和空间上对小管进行采样（即，跨时间的关联帧补丁的序列另一方面，MCL进一步从空间、时间和时空角度将卷积层的梯度在R（2+1）D主链上进行的大量实验证明了我们的MCL的有效性。在UCF 101上，在MCL学习的表示上训练的线性分类器达到了81.91%的top-1准确率，比ImageNet监督的预训练高出6.78%。在Kinetics-400上，MCL在线性方案下达到66.62%的top-1准确度。1. 介绍视频和图像之间的关键区别是时间的维度，这在视频中导出特定形式的运动信息。最先进的作品- ten以不同的方式钻研运动，例如，长期/短期依赖性[29，43，21]，时间结构/顺序[19，20，47]和时间池化[42，49]，以增强视频理解。这些进步背后的潜在基础通常源于通过探索运动信息来改进表征学习。最近，自我监督表示学习正在获得显着的势头[2，4，14]，和*这项工作在JD AI Research进行。自我监督学习论文的数量几乎爆炸式增长。特别地，对比学习作为基于记忆的自监督学习方法被扩展到视频域[13，50]，并且进一步缩小了自监督和监督视频表示学习之间的差距。一个有效的问题，然后出现了自我监督视频表示学习的运动有多重要？为了回答这个问题，我们在对比学习的背景下，从两个不同的角度来研究这个问题：1）在实现数据扩充中利用运动信息，以及2）在特征学习的优化中考虑运动。在视频中，不同区域的运动固有地是各种各样的，并且运动的速度测量区域相对于参考帧的位置的变化率。一般来说，具有较大速度的区域具有更丰富的信息，并且对于对比学习可能更有利。因此，我们利用来自空间和时间维度两者的运动信息来仔细地对跨帧的补丁序列进行采样，即，tubelets，作为增强，并研究第一个问题如何影响自我监督的视频表示学习。为了研究第二个，我们鼓励通过将卷积层的梯度图与运动（光流）图对齐来在特征学习中明确地将运动信息接地。这样，特征学习执行关于运动信息的优化。为了加强探索视频序列中的运动信息的思想，自我监督的视频表示学习，我们提出了一种新的具体来说，我们利用无监督TV-L1算法[53]来提取视频中每个帧的密集视频被划分成一组固定长度的视频剪辑和时空运动图（ST运动）的每个视频剪辑中的所有帧的顺序运动图组成MCL然后执行运动聚焦的时空采样以选择小块作为数据增强。从技术上讲，MCL在2106空间-时间运动图来测量剪辑级运动，其指示每个剪辑的运动程度具有相对大的剪辑级运动的剪辑被选择作为用于时间增强的剪辑候选。接下来，MCL在每个剪辑候选者的时空运动图上采用时间池化来估计来自空间视点的运动此外，在特征学习中，MCL提取每个小块的时空运动图，并对这样的时空运动图执行空间/时间池化，以从小块的时间/空间视点（T/S运动）输出运动图。通过反向传播的卷积层的特征图的梯度分别以空间、时间和时空方式产生，以通过最小化其间的均方误差与S运动、T运动、ST运动对准。MCL将比对整合到对比学习框架中，作为InfoNCE损失之外的约束。这项工作的主要贡献是提出了利用运动信息来增强对比学习配方上的自监督视频表示学习。这导致了如何在运动方面有效地对时空增强进行采样以及如何将运动信息集成到特征学习的优化中的优雅观点，这些问题尚未完全理解。我们证明了我们的自监督方法MCL在两个视频基准测试上优于ImageNet监督预训练，并且两个下游视频任务的实验也验证了我们的MCL。2. 相关工作无监督视频表示学习旨在探索未标记视频的内在属性，以学习视频表示。这方面的研究沿着两个不同的方向进行：基于变换的方法[1，15，16]，和基于时间上下文的AP-[8] 11、12、19、47。基于变换的方法被优化以从变换的视频预测变换参数Jing等[15]引入一个借口任务来估计应用于视频的旋转角度3D ST-puzzle [16]提出了一种自我监督的任务，以对裁剪的时空片段的排列进行分类。中国水泥[1]通过估计变换后的视频的速度或步调来学习视频表示。基于时间上下文的方法专注于探索自然的时间关系作为监督。在[19，24，47]中，预测帧或视频剪辑的顺序驱动时空表示的学习。通过时空块的密集编码来学习[11，12]中的视频表示Dynamonet [8]直接将未来帧的重建作为前提任务。用动作学习。运动信息，作为代表-随着时间的变化，研究人员已经研究了很长一段时间。例如，在[22，38，54]中，光流被用于传播相邻帧表示。在[31]中，通过将两个2D CNN架构分别应用于RGB帧和光流以进行动作识别来设计著名的双流架构。本文还从知识蒸馏的角度探讨了双蒸汽体系结构的思想[5，33，45]。此外，Wanget al.[40]通过估计未标记视频中的运动来设计自我监督的对比学习由于其在自监督视觉表征学习方面的良好效果而受到广泛的关注。对比损失被设计为返回相似对的低值和不相似对的高值，这鼓励了低维流形上的不变特征。在早期的工作[44]中，对比学习被公式化为实例级分类，并且先前计算的特征被存储在存储库中以获取更多的负样本。 Momentum Contrast（MoCo）[14]构建了一个动态内存库，以使用移动平均编码器维护大量的负样本。[4，36]进一步研究了对比学习中数据增强和非线性的重要性。简而言之，本文的工作主要集中在通过运动信息的参与来改进视频表示学习的对比学习最密切相关的工作是用于视频表示学习的对比学习框架[13，26，41，42]。50]。SeCo [50]和步速预测[41]分别将对比损失与顺序预测和步速估计预文本任务相结合。CoCLR [13]利用来自光流的补充信息，并引入共同训练方案来改善时空表示。CVRL [26]研究了视频自监督学习的良好数据增强。我们的方法与这些作品的不同之处在于，我们从数据增强和表示学习的角度利用对比学习框架中的运动信息3. 动作聚焦对比学习运动聚焦对比学习（MCL）的基本思想是通过感知运动信息来促进自我监督的视频表示学习。MCL首先预先估计运动图以测量视频数据中的像素级运动。具有较大速度的区域通常包含更丰富的信息（例如，移动对象、动作、交互），因此在MCL中具有更高的优先级。具体来说，我们的框架集成的运动图到对比学习的角度，数据增强和功能优化。图1显示了我们的MCL概述。2107∈--∈∈t∫，∫，∫，∈不Sx图1.我们的运动聚焦对比学习（MCL）框架的概述。MCL通过两种新颖的设计促进了基本的对比学习框架：运动聚焦视频增强和运动聚焦特征学习。具体地，运动聚焦视频增强利用预先估计的运动图来产生具有丰富运动信息的3D小块作为骨干网络的输入。增强过程可以分为两个部分，即，时间采样以过滤掉相对静止的剪辑，以及空间裁剪以选择具有高移动速度的空间区域。对于以运动为中心的特征学习，设计了一种新的运动对齐损失，通过对齐每个位置中的梯度和运动图的幅度，来强制骨干网络更多地关注具有较高时间动态的位置。运动对齐损失被集成到对比学习框架中作为除了InfoNCE损失之外的约束。整个MCL框架以端到端的方式进行联合优化。3.1. 运动估计为了探索视频序列中的运动信息，MCL从估计每个区域中给定N帧的视频为了更清楚地描述运动图的利用，我们预定义三种不同类型的运动图，即，ST-motion、S-motion和T-motion，从不同角度测量运动速度ST-motionstacks themo-与的解决光流高×宽、我们第一提取用于生成3D体积的所有帧的分块图RN × H × W。S-motion和T-motion平均汇集了从每对连续帧中（u1，v1），（u2，v2），. . . ，（uN，vN）的TV-L1 [53]算法。正确流图ui，viRH× W是水平-第i帧和第（i+1）帧之间每个像素的纵向和垂直位移对于最后一帧，我们手动设置（uN ，vN ）=（uN−1，vN−1）。这些光流地图已被证明在捕捉时间上是有效的，分别通过时间维度和空间维度绘制mS=P（mST）RH×W，T STN（2）M= Ps（m）∈R，其中P（·）和P（·）是池化操作。请在视频分类方法[3、9、28、52]。然而，在我们测量运动幅度的情况下，通过光流的结果可能由于相机运动而遭受稳定性问题例如，当摄像机运动较大时，静止的物体或背景像素在光流中也表现出较高的运动速度。因此，我们将[6]中提出的运动边界计算为（ui，ui，vi，vi），即，光流的x和y导数，以消除相机运动的影响最后，我们通过将四个运动边界图中的振幅累加来定义运动图，如下所示注意运动估计过程不需要手动贴标。因此，这些运动图可以被视为用于视频数据的附加的无标签监督。3.2. 运动聚焦视频增强然后，MCL中的视频增强由所获取的运动图引导，并且更多地聚焦于具有大运动的区域。其基本原理是选择更好的观点进行对比学习，从而提高学习表征的泛化能力。具体而言，在对比学习中，单个实例被拆分为两个视图以学习嵌入，其中视图是相对的mi= .∫ui，2厄苏岛2+伊第一次世界大战2+x第一次世界大战2伊、（1）比其他情况下的视图更接近。因此，自监督学习将受益于视图之间的互信息（MI）如[36]中所述，其中miRH×W仅测量i- th帧并忽略移动方向。图2示出了输入视频以及光流、运动边界和运动图的可视化的情况。如图所示，运动图不受相机运动的影响，并且示出了对实际移动对象的高响应。为了提高对下游任务的泛化能力，“好”视图应该包含尽可能多的任务相关信息，同时丢弃输入中尽可能多的与[36]中要求下游任务的先验知识来选择视图的框架不同，MCL利用无标签运动图来寻求运动梯度查询查询编码器阈值时间采样关键密钥编码器空间裁剪视频数据库存储器运动聚焦视频增强MLP头MLP头运动聚焦特征学习运动地图×× × ×反向传播梯度到骨干图的骨干骨干InfoNCE丢失运动对齐丢失时间x+2108K编码的关键向量K=k+，k−1，k−2，.. . ，k−组成─K−=k−j其中d表示嵌入维数。L NCE = − log exp.qTk+/τΣ+ΣKexp.qTk−/τΣ，i=1我(a) 输入视频（b）光流（c）运动边界(d)运动图（e）有价值MI（f）滋扰MI图2.（a）输入视频序列、（b）光流、（c）运动边界、（d）运动图、（e）具有大运动的区域中的有价值的互信息和（f）相对静态区域中的干扰互信息红框和绿色框表示从相同的在这里，由于较高的效率，我们将其分成两个步骤，因为时间采样在第一步骤中仅选择少量的候选小块此外，时间采样和空间裁剪中的我们不比较不同视频之间的运动幅度，以避免过度拟合具有大运动的视频。基于通过时间采样和空间裁剪产生的剪辑，我们遵循[26，50]并且还采用颜色抖动、随机尺度、灰度、模糊和镜像。3.3. 运动聚焦特征学习除了视频增强，我们还采取的运动图作为一个额外的监督，以提高学习表示。首先，我们简要回顾了对比学习中的实例判别目标。给出编码的qu。eryq∈Rd和en的一个集合K对比学习的例子。的O。nepΣositiv ekeyk+∈Rd和Kneg ativ ekes运动量大的地区，这通常是必不可少的视频相关的任务。例如，图2（e）和图2（f）分别示出了在具有大运动的区域和相对静止的区域中生成的视图。具有大运动的视图更可能包含有价值的互信息，例如运动对象或动作，而相对静态区域中的视图仅包含背景像素中的信息，这些信息通常被认为是对比学习中的干扰信息。在这里，我们介绍一种简单的方法来确保框架-查询及其正键通常是从同一实例生成的两个视图，而负键来自其他实例。实例识别的目的是引导查询q与正关键字k+相似，同时与所有负关键字-保持不同。因此，InfoNCE [25]中基于softmax公式提出了对比损失的流行形式exp. qTk+/τ工作更侧重于运动信息，仅通过se-选择运动量较大的三维小块作为预处理。为了实现这一点，运动聚焦视频增强屏幕的输入视频卷的时间采样和空间裁剪两个步骤，同时保持在传统的增强方法的随机性。时间采样选择剪辑（即，短帧序列），视频中有大的运动。取等式中的T运动mT(2)作为帧级运动图，通过对以mT为单位的帧级运动求平均来测量每个剪辑的运动。我们将相同视频中所有候选剪辑的中值作为阈值，并且随机选择幅度高于阈值的一个剪辑。空间裁剪进一步定位采样剪辑中的裁剪空间区域。它首先计算剪辑内的S运动mS。然后，我们将运动图中的第90百分位数作为阈值。随机选择覆盖具有高于阈值的值的80%像素的一个边界框。一旦确定了区域，我们就裁剪剪辑中每个帧的相同区域，这与[26]中的时间一致的空间增强相同。请注意，该两步增强也可以通过直接寻找在ST运动中具有大移动的时空区域其中，相似性经由点积来测量，并且τ是温度超参数。在这里，我们遵循最近的变体MoCo [14]，其提出使用队列来跟踪来自过去小批次的阴性样本通过这种方式，来自多个小批量的所有排队样本充当负密钥，并且可以减小小批量的大小。方程中的NCE损失(3)在编码的小块级表示上执行，其同等地对待小块中的每个位置。如第3.2节中所讨论的，没有移动的因此，我们提出了一种新的运动对齐损失（MAL），以显式地对齐卷积层的特征/梯度图和低级运动图中的幅度作为额外的监督。这样的监管促使网络对视频中动作较大的位置进行重点关注。为了实现这一点，我们设计了以下运动对准损失的变体：(i) 对齐特征图：最简单的方法是将卷积特征的幅度与运动图对齐。具有大移动的区域预期在特征图中具有高响应。形式上，令h_c表示来自主干的最后一个卷积层的输出特征图的第c个损失函数被公式化为（三）2109T型运动S运动池化梯度图加权梯度图ST段运动第二条、第四条日第二条，第（五）项××2××Σ⟨ ⟩L LL×Σ2 22图3. 运动对齐丢失的图示，其将梯度图与ST运动、S运动和T运动对齐。L2所有通道的hc总和与ST段运动之间的距离：LMAL-v1=hc−mST2C其中<·>是特征/运动图的L2归一化(ii) 对齐加权特征图：受GradCAM [30]的启发，梯度的大小可以更好地测量每个位置的贡献。因此，我们计算查询与其正关键字之间的相似度4. 实验我们通过各种经验证据验证了我们的MCL的优点。评价方案包括：1）对动作识别进行线性分类，直接在冻结的预学习特征上进行训练，以及2）微调从预学习网络初始化的网络，用于动作识别和视频检索的下游任务。4.1. 数据集UCF101 [32]包含来自101个动作类别的约13K视频，这些视频被分为9.5K和3.7K视频用于训练和测试。HMDB51 [18]由来自51个动作类的7K视频组成，每个分割包括用于训练和测试的3.5K和1.5K视频Kinetics-400数据集[3]是一个大规模的动作识别基准，包含来自400个动作类别的约300K视频。300 K视频分为240 K、20 K和40 K-ing、验证和测试集。请注意，La-将卷积特征视为gc=qTk+。然后，C测试集的贝尔不是公开的，在这里，我们报告梯度图gc的平均值wc可以用作每个通道的权重LMAL-v2=ReLU（Σwchc）−mST2C其中添加ReLU操作以过滤掉具有负贡献的区域，如[30]中所示。(iii) 对齐加权渐变贴图：我们进一步考虑将梯度图与运动图对齐。这样，运动信息可以直接引导表示的更新。具体地，我们替换等式中的加权特征图。(5)使用加权梯度图：验证集上的性能。4.2. 实验设置实施详情。我们利用基于ResNet-50 [27，37]或S3 D[46]的R（2+1）D的主干加上MLP头作为视频编码器进行对比训练。请注意，MLP头仅适用于训练，并在下游任务中禁用。到主干的小块的输入具有16 224 224的大小，并且每个小块由具有时间步幅2的16个帧组成。MLP头将3D全局池化特征作为输入，并嵌入fea。01 -02 - 03刘晓波（Cwcgc）−m2002年2月。（六）通过两个完全连接的层（20482048）形成128d和2048 128）。我们将L2归一化应用于来自MLP头的输出向量，然后将其用作en。不同损失函数之间的比较将是在实验中讨论的，和加权梯度图的对齐被用作默认的运动对齐损失。为了强调从时间/空间方面的对准，我们另外最小化空间/时间合并的加权梯度图和T/S运动之间的距离，如图3所示。具体地，我们将时空加权梯度图定义为ReLU（cwcgc），并进一步通过时间/空间尺寸到产生空间/时间加权梯度图gS/gT。然后将三个梯度图与对应的运动图对齐LMAL =gS −mS2+ gT −mT2+gST −mST2。我们的MCL中的总体训练目标通过整合实例鉴别损失和运动对齐损失而被公式化为多任务损失，其被写为=NCE+MAL，我们根据经验平等对待每一笔损失，并简单地将两笔损失相加。查询或键的编码特征。在实现中，我们将mini-batch和内存的大小分别设置为64和131，072。对于视频编码器的动量更新，动量系数α被固定为 0.999 ，并且infoNCE损失中的温度τ如在[14]中实现的，采用混洗BN来避免数据泄漏。对于视频编码器的优化在[50]之后，网络在Kinetics-400上训练了400个epoch，在UCF101上训练了200个epoch，并在ImageNet上由MoCo进行网络初始化。线性协议。我们直接利用MCL预先学习的主干作为特征提取器，并在UCF 101和Kinetics-400数据集上检查冻结特征的质量具体来说，我们从每个视频中密集采样20个片段，并使用256的短边调整每个片段的大小。然后，重新调整大小的剪辑经由标准中心裁剪被裁剪为224 224，其被馈送到特征提取器中以输出剪辑级特征，并且视频级特征是剪辑级特征。对准ΣSt（七）2110L LLLLLLLL LLL表1. MCL中每个设计对不同骨干网络的性能贡献（所有模型都在UCF101上学习，并在线性协议下进行评估）。TASALtLsLSTResNet-50Inception V1R2dR（2+1）DI2dS3d√√√√√√76.5177.9874.3976.4776.4778.2674.2276.7977.3279.5475.0277.95√77.1679.6474.8978.01√√√√√√√√√√√-77.84--80.2680.8381.4781.91-75.64--78.6279.2879.4079.88所有剪辑级特征的平均值。最后，我们在训练集上训练线性SVM（UCF 101）或全连接层，然后是softmax（Kinetics-400），并在相应的验证集上评估性能采用前1分类准确度作为度量。下游任务评估。我们使用MCL预训练的骨干作为网络初始化的两个下游任务的动作识别和视频检索，以便检查传输能力的预学习结构。对于动作识别，我们使用MCL训练的骨干自监督初始化S3D或R（2+1）D网络，然后在UCF 101和HMDB 51上的标准监督设置中微调骨干和全连接对于视频检索，我们遵循常见的做法[47]，并使用测试集中视频的表示来查询训练集中的k-最近邻。我们直接在MCL预训练的骨干上进行capitalize，而无需进一步微调以提取视频表示。我们采用在k处的召回率（R@k）作为性能度量，当前k个最近邻包含至少一个来自查询视频类别的视频时，计算正确检索4.3. MCL的消融研究我们首先研究MCL中的每个设计如何影响整体性能。数据增强的基线从整个视频中随机采样空间或时空块。时间增强（TA）仅利用剪辑级运动来选择具有相对大的运动的视频剪辑，并且随机地定位那些剪辑中的空间块。相比之下，空间增强（SA）随机选择视频剪辑，但采用S运动来定位空间块。s、t和st表示三个在Eq. (7)并且从空间、时间和时空的观点利用运动对准损失，重新表2.不同运动对齐方式的比较（所有模型都在UCF101上学习，并在线性协议下进行评估方法Top-1 Acc.（%）MCL w/oLMALMCLw/LMAL-v1MCL w/L MAL-v279.6480.5780.9981.91在MCL中的各种骨干网络。结果一致地表明，利用运动来实现SA中的增强表现出相对于通过跨2D和3D网络主干的随机采样的增强的性能提升。有趣的是，TA导致3D网络骨干的改进，但导致2D网络骨干的轻微下降。我们推测，这可能是由TA选择的帧中的剧烈外观变化的结果在MCL中涉及TA和SA有助于进一步提高R（2+1）D和S3D的3D网络的准确性。比较也表明了地面运动信息在特征学习中的优势。如前所述，只有空间方式的对准，即，在R2 D/I2 D上，该算法的准确率从77.16%/74.89%提高到77.84%/75.64%此外，委员会认为，允许根据 t、 s和 st 的运动基础导致 R（2+1）D上的0.62%、1.19%和1.83%的范围内的性能增益，以及S3D上的0.61%、1.27%和1.39%的范围内的性能增益。正如预期的那样，执行st的性能优于使用s或t。通过融合这三种损失，以R（2+1）D和S3D为主干的MCL最终准确率分别达到81.91%和79.88%。4.4. 运动对准然后，我们研究了三种不同的方式的影响，定义在方程。(4)，方程式(5)和等式(6)用于MCL中的运动对准。表2显示了三种比对的性能比较。如结果所示，使用运动对齐有利于表示学习。这从经验上验证了MCL中运动信息的基础。在三种比对方式中，MCL w/MAL-v3受益于对梯度图的显式影响，并导致更大的性能增益。4.5. 线性协议接下来，我们在线性协议下评估MCL，以验证MCL学习的表示。表3详细信息-分别为。请注意，R2D和I2D都是2D骨干网络，这两个网络的输入从3D tubelet降级为单帧上的2D patch。因此，只有S运动的基础，即，S，在这种情况下是适用的。表1通过考虑不同因素总结了线性方案下不同的表示学习方法在UCF 101和Kinetics-400数据集上的性能比较。总的来说，我们的MCL导致了对UCF101上所有其他基线的性能提升。特别地，对由MCL预先学习的具有S3D和R（2+1）D的主干的表示进行分类分别实现了79.88%和81.91%。与自我监督方法2111×××表3.在线性协议下，在UCF 101和Kinetics-400上通过不同方法预先学习的视频表示的性能比较。* 表示基于Github上原始出版物发布的预训练模型的结果训练时间在一个Nvidia P40 GPU上估计参数和触发器的数量在具有原始出版物中使用的分辨率的输入图像/剪辑上计数方法网络预训练数据集#参数。FLOPs训练时间评估数据集Top1 Acc.（%）PRP [51]R（2+1）DUCF10114.4M21.5G-UCF10132.10*IIC [35]R3D-10UCF10114.4M19.9G-UCF10135.13*CCL [17]R3D-18+1动力学-40012.1M16.4G-UCF10152.10MemDPC [12]R-2D3D-34动力学-40032.4M25.5G-UCF10154.10TCLR [7]R3D-18UCF10133.0M32.9G-UCF10167.70CoCLR [13]S3dUCF1017.9M12.0G2.3天UCF10170.20ImageNet Infla.R（2+1）DImageNet27.3M20.4G-UCF10175.13监督ImageNet转轴-50ImageNet23.5M4.12G-UCF10173.24SeCo [50]转轴-50UCF10123.5M4.12G0.3天UCF10176.51SeCo [50]R（2+1）DUCF10127.3M20.4G1.4天UCF10177.98MCL（我们的）S3dUCF1017.9M18.4G2.1天UCF10179.88MCL（我们的）R（2+1）DUCF10127.3M20.4G1.5天UCF10181.91VTHCL [48]R3D-50动力学-40031.7M--动力学-40037.83SimCLR炎症[26日]R3D-50动力学-40031.7M45.8G-动力学-40046.80[第10话]转轴-50动力学-40023.5M4.12G17.6天动力学-40049.10ImageNet Infla. [26日]R3D-50动力学-40031.7M45.8G-动力学-40053.50SeCo [50]转轴-50动力学-40023.5M4.12G13.0天动力学-40061.91SeCo [50]R（2+1）D动力学-40027.3M20.4G76.0天动力学-40062.50CVRL [26]R3D-50动力学-40031.7M45.8G322.6天动力学-40066.10MCL（我们的）R（2+1）D动力学-40027.3M20.4G76.5天动力学-40066.62MCL与S3 D骨干网的协同运行，在相同骨干网的基础上，性能提高了9.68%。此外，基于相同的R（2+1）D骨架， MCL 领先于最佳竞争者 SeCo 的前 1 准确度3.93%。实验结果验证了MCL中用于自监督视频表示学习的杠杆运动的想法。与UCF 101上的观察结果类似，Kinetics-400数据集上的预训练MCL优于基线。具有R（2+1）D主干的MCL获得66.62%的top-1准确度，并且与具有相同主干的SeCo相比导致4.12%的性能增益。与需要MCL的4个训练时间和2个FLOP的CVRL相比，MCL还导致0.52%的准确度提升。4.6. 下游任务评价自监督学习中的另一种常见协议是将网络预训练作为网络初始化，并对下游任务的所有层进行微调。Ta-表4显示了通过不同模型预训练网络，然后对UCF101和HMDB51进行监督微调以进行动作识别的比较，这是文献中最广泛采用的评估。在UCF 101和Kinetics-400数据集上进行预训练的结果不断表明，我们的MCL表现出比所有基线更好的性能。用MCL对UCF 101预训练的网络进行微调，在UCF 101和HMDB51上分别达到90.58%和63.52%，比VCOP、CONOMIC和SeCo有明显提高。与SeCo相比，具有R（2+1）D骨架的MCL提高了准确性。表4. UCF101和HMDB51用于动作识别的下游任务的性能比较。方法网络预训练数据集 UCF101 HMDB51OPN [19]VGGUCF10159.6023.80VCOP [47]R（2+1）DUCF10172.4030.90CoCLR [13]S3dUCF10181.4052.10BE [39]R3D-34UCF10183.4053.70SeCo [50]转轴-50UCF10183.3950.19SeCo [50]R（2+1）DUCF10189.8256.40MCL（我们的）S3dUCF10190.5863.52MCL（我们的）R（2+1）DUCF10190.4061.303D-RotNet [15] R3D-18动力学-40062.9023.80[16]第十六话R3D-18动力学-40063.9033.70DPC [11]R-2D3D-34动力学-40075.7035.70MemDPC [12] R-2D3D-34动力学-40078.1041.20电子邮件：info@speednet.comS3d动力学-40081.1048.80CoCLR [13]S3d动力学-40087.9054.60BE [39]R3D-34动力学-40087.1056.20SeCo [50]转轴-50动力学-40088.2655.55CVRL [26]R3D-50动力学-40092.2066.70CBT [34]S3dK600+79.5044.60DynamoNet [8] STCNetYouTube8M-188.1059.90MCL（我们的）R（2+1）D动力学-40093.4169.08在UCF 101和HMDB 51数据集上从89.82%/56.40%到90.40%/61.30%。通过MCL在更大的Kinetics-400数据集上对网络进行预训练，进一步提高了UCF 101和2112HMDB 51的准确率，分别达到93.41%和69.08%，比CVRL的准确率提高了1.21%和2.38%值得注意的是，MCL 也优于在 YouTube-8 M 的子集上预训练的DynamoNet，具有2个大小的Kinetics-400，这令人印象深刻。2113表5.UCF101和HMDB51在视频检索下游任务中的性能比较方法网络预训练数据集UCF101 HMDB51R@1R@5 R @10 R @20R@1R@5 R @10 R @20OPN [19]VGGUCF10119.928.734.040.6----VCOP [47]R3D-18UCF10114.130.340.451.17.622.934.448.8VCP [23]R3D-18UCF10118.633.642.553.57.624.436.353.6MemDPC [12]R-2D3D-18UCF10120.240.452.464.77.725.740.657.7电子邮件：info@speednet.comS3D-G动力学-40013.028.137.549.5----PRP [51]R（2+1）DUCF10120.334.041.951.78.225.336.251.0BE [39]R3D-34UCF101----11.931.344.560.5CoCLR-RGB [13]S3dUCF10153.369.476.682.023.243.253.565.5[13]第十三话S3dUCF10155.970.876.982.526.145.857.969.7MCL（我们的）S3dUCF10167.080.886.390.826.752.567.079.3MCL（我们的）R（2+1）DUCF10168.682.287.292.029.055.568.980.4SeCo的S-motion GradCAM剪辑的第一帧用于MCL的图4.从左至右：来自视频剪辑的第一帧，S-运动，SeCo的Grad-CAM，MCL的Grad-CAM。表5总结了针对视频检索任务的UCF101和HMDB51的比较，该视频检索任务是在表示空间中检查最接近来自测试集的查询视频的k个训练视频的语义。如不同回忆深度的结果所示，MCL在两个数据集上产生比其他方法更高的分数。以S3D为主干，仅具有RGB输入的MCL仍然在UCF101和HMDB51上以RGB和光流模式的双流输入的在MCL中使用更强大的R（2+1）D主链进一步有助于1.6%和2.3%的Recall@1增加结果成功地证明了预训练结构的MCL不同的下游任务的可移植性4.7. 可视化自监督表示为了解释MCL学习的表示，我们通过GradCAM [30]生成显着图，以指示每个像素在呈现视频剪辑的区分中的重要性。图4可视化了视频剪辑的开始帧，剪辑的S运动，SeCo和我们的MCL使用R（2+1）D主干学习的表示上产生的显着性图。注意我们计算在视频剪辑上的3D显著性图，并且执行时间池化以在这里描绘该图。MCL受益于运动的杠杆作用，并且由MCL学习的表征上的显著图比SeCo更好地对齐S运动。更重要的是，高重要性的区域有效地提供用于描述视频剪辑的视觉证据，并且因此由MCL学习的表示潜在地更鲁棒。这再次证明了MCL中的运动用于自监督表示学习。5. 结论我们提出了一种运动聚焦对比学习（MCL）方法，该方法探索了用于改进自监督视频表示学习的运动信息。特别地，我们通过利用运动来实现数据扩充和增强对比学习框架中的特征学习来研究该问题。为了实现我们的想法，我们提取每一帧的运动图，并形成一个序列的运动图在视频剪辑的时空运动图的剪辑。该算法将时空运动图上的3D平均池化输出值作为片段级运动的度量，作为选择时间增强片段候选的指标。然后，我们对每个剪辑候选者的时空运动图执行时间池化，以估计每个空间位置沿时间的运动，并将跨帧时间上一致的空间块定位为小块。MCL采用这样的小块作为对比学习的数据增强，并且还从空间、时间和时空方面将卷积层的梯度与小块在UCF 101和Kinetics-400数据集上的大量实验验证了我们的MCL。更值得注意的是，自我监督的预训练MCL优于完全监督的ImageNet预训练。致谢。这项工作得到了中国自然科学基金62036005和62021001的部分支持，以及中央大学基础研究基金合同WK3490000005的部分支持。2114引用[1] Sagie Benaim 、 Ariel Ephrat 、 Oran Lang 、 InbarMosseri 、 William T Freeman 、 Michael Rubinstein 、Michal Irani和Tali Dekel。Speednet：学习视频中的速度。在CVPR，2020年。[2] 齐彩、王宇、潘英伟、姚婷和陶梅。联合对比学习，无限可能。在NeurIPS，2020年。[3] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在CVPR，2017年。[4] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML，2020。[5] Nieves Crasto，Philippe Weinzaepfel，Karteek Alahari，and Cordelia Schmid. Mars：用于动作识别的运动增强rgb流。在CVPR，2019年。[6] Navneet Dalal、Bill Triggs和Cordelia Schmid。使用流量和外观的定向直方图进行人体检测。在ECCV，2006年。[7] Ishan Dave 、 Rohit Gupta 、 Mamshad Nayeem Rizve 和Mubarak Shah。Tclr：用于视频表示的时间对比学习arXiv预印本arXiv：2101.07974，2021。[8] 阿里·迪巴，维韦克·夏尔马，吕克·范古尔，和雷纳·斯蒂费尔-哈根. Dynamonet：动态动作和运动网络。在ICCV，2019年。[9] ChristophFeichtenhofer、AxelPinz和AndrewZisserman 。卷积双流网络融合视频动作识别。在CVPR，2016年。[10] Daniel Gordon ， Kiana Ehsani ， Dieter Fox ， and AliFarhadi.观看世界：从未标记的视频中进行表示学习arXiv预印本arXiv：2003.07990，2020。[11] Tengda Han，Weidi Xie，and Andrew Zisserman.通过密集预测编码的视频在ICCV大型整体视频理解研讨会上，2019年。[12] Tengda Han，Weidi Xie，and Andrew Zisserman.用于视频表示学习的记忆增强密集预测编码。在ECCV，20

下载后可阅读完整内容，剩余1页未读，立即下载