视频自监督学习中的对比度和顺序表示

110 浏览量更新于2023-10-15 收藏 787KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7939--视频自监督学习中的对比度和顺序表示胡凯1，3，邵杰2，3，刘源3，比丘拉吉1，萨维德斯1，沈志强11卡内基梅隆大学、2复旦大学、3字节跳动凯虎，比丘，智千，andrew.cmu.edushaojie@fudan.edu.cn，liuyuanmerry@connect.hku.hk摘要本文研究了视频自监督表示的学习问题与仅需要关于对象或场景的外观信息的图像模态相比，视频需要进一步探索多个特征之间的关系。动力学：弹吉他动力学：骑骆驼动力学：理发帧/剪辑。然而，最近提出的基于对比的自监督框架没有明确地掌握这种关系，因为它们只是利用来自同一视频的两个增强剪辑，并比较它们的距离，而不参考它们的时间关系。为了解决这个问题，我们提出了一个对比度和顺序表示（CORP）的框架，用于学习自我监督的视频表示，可以自动捕获每个帧内的外观信息和跨不同帧的时间信息特别地，给定两个视频剪辑，我们的模型首先预测它们是否来自相同的输入视频，然后预测它们的时间顺序。开始某物-某物：把某物从右推到左什么什么：从左向右拉某物时间轴如果它们来自同一个视频，则会删除这些剪辑我们还提出了一种新的解耦注意力方法来学习对称相似性（对比度）和反对称模式（顺序）。这种设计既不涉及额外的参数，也不涉及计算，但与香草多头注意相比，可以加快学习过程并提高准确性。我们广泛验证了我们学习的视频功能的下游动作识别任务的动力学-400和Something-Something V2的表示能力我们的方法比以前的最先进的方法有很大的优势。1. 介绍近年来，自监督学习方法在许多问题上越来越受欢迎，包括自然语言处理中的掩蔽语言模型[7]，以及拼图求解[35]，旋转预测[15]，对比学习[20，5]等。对于视觉任务，以改善对全监督学习方法所需的大量手动注释数据的依赖性在视觉任务中的自我监督方法中，对比学习[20，5]在图像任务中显示出巨大的潜力;图1.这项工作的动机一些视频可以通过单个帧中的简单外观信息来识别，例如，一些动作视频具有相似的外观，并且需要复杂的时间级关系理解。例如，如果我们反向播放“从右向左推东西”动作的视频对于许多流行的图像下游任务，如检测[38]，分割[31]和关键点估计[21]，学习模型的能力往往甚至超过监督模型与静态图像相反，对于视频，标记的挑战更大，因为视频包括时间维度，使得它们的收集和注释更昂贵。因此，更需要强大且实用的自监督学习算法来分析视频。最近，[19]和[37]已经将对比学习方法应用于学习视频表示的任务在这些框架中，他们的目标主要是将来自同一视频的两个增强剪辑的表示在嵌入空间中拉得更近，而来自剪辑原始的表示在嵌入空间中更近。7940------来自不同视频的播放被推得更远。然而，我们认为，直接采用这些方法（或简单的扩展）不足以通过自监督学习从视频中学习足够详细的信息，因为视频分析任务比图像任务更复杂，如图所示。1.一、除了捕获每个帧内的静态外观信息（例如，弹吉他、骑骆驼），视频学习还需要理解多个帧/剪辑之间的关系（例如，区分推和拉动作）。[48，49，55]表明时间关系对于视频学习至关重要，而当前的对比解决方案并不明确涉及时间建模过程。它们仅利用来自相同视频的两个视频剪辑，并且迫使来自不同时间戳的表示相似。为了解决这一限制，我们提出了一个对比度和顺序RePresentation（CORP）框架，将时间建模到自监督学习任务。我们的想法在概念上很简单：给定两个视频剪辑，我们的模型首先学习它们是否来自相同的视频（对比度），然后如果来自相同的视频（顺序），则对哪个剪辑发生得更早进行分类。对比度模块提取的外观信息，如形状和边缘，而顺序模块模型的时间推理。具体来说，我们提出了我们的方法有两个不同的实现。第一个实现称为CORPm，如图2左侧所示（本文稍后将给出更多细节在这里，我们从两个视频中随机采样2K个增强视频剪辑（每个视频K个剪辑）以形成K（2K1）个有序对。对于每个双剪辑对，两个剪辑之间存在三种可能的关系：1）它们不是来自同一个视频;2）它们来自相同的视频，并且该对中的第一片段在时间上先于第二片段; 3）它们来自同一个视频，并且该对中的第二个片段是在时间上首先发生的片段。我们的模型经过训练，以最大限度地减少分类错误。第二个实现CORPf是CORP m的孪生子，采用SimCLR[5]设计（图2右侧）。给定一批B视频，我们对每个视频采样两个增强的视频剪辑（总共2B对于每个剪辑，基于SimCLR的方法旨在解决对比预测试，即：从剩余的（2B1）个剪辑中找到我们的模型进一步预测所发现的剪辑是否比使用附加目标的给定剪辑在时间上更早发生。一般来说，SimCLR框架优化了（2B-1）-路分类，而我们的模型将其转换为更具挑战性的（4B-2）-路分类任务。对于训练数据中不匹配对的不同部分（不是来自同一视频），两个模型学习不同的模式，从而在不同的场景下工作在CORPf（每视频几个剪辑）模型中，（2B1）分类的主要任务因此，CORPf模型更加注重外观模式（类似于SimCLR），其使其能够消除相同剪辑条目的歧义，对时间推理模式的强调较低另一方面，CORPm（more clips per video）模型更多地关注时间关系模式。对比度任务的正对和负对被相等地采样，并且因此可以从视频上的顺序任务学习更多的时间模式。我们的自监督模型在两个流行的基准数据集Kinetics400和Something-something V2上进行了验证我们通过遵循常规实践的线性评估[5，20]来评估所学习的视频表示，即，利用由所述冻结主干提取的特征来训练线性分类器。如图1所示，两个数据集在外观和时间关系方面是不同Kinet-ics 400数据集是外观信息至关重要的场景，而Something-something是时间线索更重要的另一个在Kinetics400上，我们的CORPm模型的性能比基于对比的方法CVRL [37]差，但是，我们的CORPf模型可以明显优于CVRL。在Something- something V2上，我们的CORPf模型达到了41.7%的top-1准确率，这比基于对比的方法提高了10%CORPm模型达到了48.8%的更高准确率，最大限度地减少了与监督学习（58.4%）的性能差距。我们广泛的消融研究验证了我们的方法的有效性，特别是我们的方法学习的外观和时间关系，他们都是至关重要的视频任务。2. 相关工作自监督视频表示学习。时间信息是视频自监督学习的自然监督信号[40]提出了一种编码器-解码器LSTM来重建输入帧或预测未来帧。受双流方法的启发，[43]提出沿着时空维度学习运动和外观统计。[47]、[9]和[50]使用另一个重要的线索，循环一致性，以充分利用视频通信。[3]和[44]研究了视频中移动对象的“快速性”，作为视频自监督学习的线索。[37]将图像对比学习方法SimCLR [5]应用于视频任务，并且[19]提出使用光流来共同训练对比学习框架。跨模态本身也被广泛研究用于视频自我监督，例如几何[14]，语言[41]，叙述[32]，音频[26，1]和多模态任务[2]。排序序列。我们的工作涉及对帧或视频剪辑进行排序的一系列研究[34，13，28，51，25]。[34]学习验证视频剪辑的序列是否处于正确的顺序。[13]学习从一组正确顺序的序列中预测奇数视频子序列。这两个借口任务相对容易，因为序列的大部分是正确的（信息非常充分）。他们7941MLPz。。。MLPzK。。MLP。zMLPzKRelz11z13Relz11z12Rel z2kz 2k−1Relz2kz12Prz11先于z13Prz13先于z11Pr不相同的视频Relz13z11MLPH11zMLP。H12z。。。。。MLPhB1zBMLPhB2zB3D CNN3D CNN3D CNN3D CNN--∼········Prz12先于z12PrzB1先于z12RelzB1 z12Pr不相同的视频Prz11先于z13Prz13先于z11Relz11z12Prz12先于z11Prz11先于z12。。。图2.左：CORPm模型概述。在此设置中，我们首先选择2个视频，并为每个视频采样K个增强剪辑然后，我们将2K剪辑馈送到具有非线性头部的骨干网络中。输出的2K个特征构成2K（K1）对（除了来自相同特征的对）。该模型学习最小化对关系类的错误预测的数量（3路分类）。右图：CORPf模型概述。在此设置中，我们首先选择B视频，并为每个视频采样2个增强剪辑同样地，我们得到2B特征。对于每个特征（视频剪辑），模型学习找到从样本视频中采样的其他特征，以及该剪辑是更早还是更晚。因此，它是一个4B − 2路分类：2个B-1剪辑，每个剪辑有两个选项。不需要强大的时间建模就可以解决[28]和[51]学会从所有可能的排列中分类出正确的序列。假设有N个视频片段，则可以有N个！命令算法复杂度为O（（N！）2）参数（消融研究表明，较大的N产生更好的表示）。这限制了要排序的视频剪辑在我们的模型中，对8个视频剪辑的序列如果我们使用他们的方法，分类模块需要109个参数，而骨干网络只包含107108个参数。 [25]通过使用N！命令这可能会在借口任务中带来不必要的偏见。自监督图像表示学习。一些早期的作品探索了许多自我监督学习的借口任务，例如补丁位置[8]，拼图[35]，自动编码[24]和旋转预测[15]。许多最近的研究集中在区分性对比学习[5，20，18，23，33，36]。大多数对比学习方法都是针对实例区分的，而对实例中不同部分之间的关系研究较少。外貌与关系学习。[45]提出了用于视频分类的两分支网络：用于空间建模的外观分支和用于时间建模的关系分支。[48]将注意力机制[42]引入非局部关系学习的视频任务。TSN [46]是用于视频分类的简单且有效的基线，但只能平均不同视频阶段的外观信息。[29]提出了时间移位模块（TSM）来捕获时间关系，并大大提高了TSN的性能[10]还发现SthSthV2数据集的时间顺序比K400数据集更重要。3. 方法在本节中，我们首先介绍用于自监督对比度的CORP方法的常见在视频上学习。然后，我们提出了两个设置CORPm和CORPf我们的CORP方法学习的外观和时间关系。在此之后，我们引入了一个解耦的注意力模块，可以建模成对关系，并提高表示能力。最后，我们比较了两种模型在不同的情况下，并提供了详细的讨论，为实际使用。3.1. 基本组件我们的C0RPm和C0RPf模型的概述（f表示在每个视频中采样具体地，在CORPf中，我们对许多视频（例如，512），但是每个视频中只有两个剪辑来计算损失，如CVRL [37]中所述。在C0RPm中，我们从每个视频中采样更多的剪辑来计算损失。它们都由几个主要模块/组件组成，包括数据处理、剪辑对设计、损失函数等。我们从通用模块开始，然后介绍与每个模块设计相关的独特组件。骨干在[48，49]之后，我们的骨干网络基于ResNet-50 Inflated 3D（I3 D）架构，并且调整了下采样策略，以便每个阶段视频表示是2048维特征向量（h11，h2K，如图1B所示）。2）的情况。非线性投影遵循先前相关工作的实践和设计，而不是将该表示直接用于自监督任务，我们还在骨干之后添加多层投影头以获得新的d 维特征向量（ z11，z2K，如图所示。2）的情况。隐藏层的数量是一个超参数（我们按照以前的做法选择3），隐藏层的维度是2048。夹11。。视频1。剪辑1K数据集夹子21 。。视频2。剪辑2K夹11视频1视频2夹子12。。数据集。。。。剪辑B1视频B剪辑B2Prz12先于zB2PrzB2先于z12RelzB2 z12......K功能使K2-K 对（4 B-2）3D CNN。H 11。。3D CNNh1K3D CNN。h21。。3D CNNH2KPr不相同的视频Prz2k先于z12Prz2k先于z127942-{}···- -i=1DPPP|¬PP|¬PΣ∈- -3.2. CORPm模型视频采样。对于一个视频，我们随机抽样一次K个视频剪辑（K是超参数，典型地24）。对于一批B个视频，x1，… ，xB，我们可以具有（B2B）/2个视频级对：x1，xj，i，来建模关系-7944- -··∈∈∈···∈∈4.1.实现细节在两个特征之间运送，这在现有文献中是常见的实践。两个投影U和V通常是不同的，使得可以对非对称图案进行建模。在我们的框架中，对比任务需要对称模式：如果x与y相似，则y也与x相似。订单任务需要非对称模式，更具体地，反对称模式。如果x早于y，则y晚于x。许多与运动相关的模式是反对称的，诸如左和右、推和拉。形式上，对称模式可以表示为fs（x，y）=fs（y，x），反对称模式可以表示为fa（x，y）=fa（y，x）。我们可以看到注意力包含对称模式和反对称模式：f（x，y）= ∠Ux，V y∠ =x（UV）y=xM+My+xM−My其中因为x上的操作与y上的操作相同。我们引入了一个参数G学习对称模式，并且参数P、Q学习反对称模式。相似监控信号将仅在G上具有梯度，而时间监控信号将仅在P、Q上具有梯度。等式8是针对单个头部的情况。多头注意力堆叠多个这样的头以获得向量并将其发送到MLP。为了用解耦注意力代替多头注意力，我们因此可以去除等式8中的求和运算以保留向量，因为MLP学习头部的线性组合虽然我们介绍了我们的模块与多头atten-为了简单起见，在前面的部分中，我们使用了解耦M=UV。很容易验证第一项是对称的，第二项是反对称的。虽然多头注意具有对称和反对称模式的表征能力，但它们是混合的黑箱。在多头注意力公式（等式1）中，我们无法知道r（，）的哪些神经元表示相似性，哪些神经元表示时间顺序。更可能的是，每个神经元包含关于相似性的部分信息和关于时间建模的在训练期间，相似性监督信号的梯度和时间监督信号的梯度可以彼此抵消。在部署期间，由于非对称性，多头注意力也不太可解释。我们用解耦注意力来解决这个问题。首先，我们给出一个关于矩阵分解的定理：定理任何矩阵M∈Rd×d可以写成：注意我们的模特。它加快了训练过程（图3）并提高了模型的可解释性。3.5. 讨论在以场景为中心的视频数据集Kinetics400 [4]上，很大一部分视频类别可以简单地通过静态外观来识别[56]。学习外观模式的能力比时间信息更重要，这是有益的，但不是必不可少的。在这种情况下，所提出的CORPf模型更有用。在以运动为中心的视频数据集Something-something [17]中，大多数动作不能直接从帧级特征的简单融合中学习在这种情况下，不同动作类别的外观信息是相似的，时间推理成为视频理解和分类的关键建议的CORPm模型在这种情况下表现更好尽管如此，一般的学习理念都是这样的nl和时间表示对于自监督的M=Σgigi+Σpjqj−qjpj，（7）i=1j=1其中n，l≤d，对任意gi，pj，qj∈Rd.定义G=[g1，，gn]TRn×d，P，QRl×d遵循相同的定义。我们使用xyRd表示x和yRd的元素级乘积，并使用sum（x）R表示x的元素级求和。利用矩阵分解定理，我们有：x我的视频表示学习任务。4. 实验我们首先在广泛使用的Kinetics上评估我们的模型400（K400）数据集[4]在线性评估，半监督学习和迁移学习设置中。接下来，我们在Something-SomethingV2（Sth-SthV 2）数据集上进行实验[17]。此数据集中的许多动作类别共享非常相似的背景和对象外观，并且需要强大的时间建模。最后，我们进行了全面的消融研究和案例分析，以显示时间n l= Σ（x g i）（y g i）+ Σ（x p j）（y q j）−（xq j）（y p j）i=1j=1我们模型的学习能力。=sum（Gx*Gy）+ sum（P x*Qy−Qx*P y）（八）我们的模型是用PyTorch从头开始训练的在自我监督的预训练阶段，我们使用LARS [54]与等式8表明，如果我们希望模型学习注意力投影U和V，则模型可以改为学习G、P和Q。参数G、P和Q是对称的动量为0.9，重量衰减为10−6，§类似于R3中的叉积运算。设x=（x1，x2，0），y=（y1，y2，0），叉积：x×y=（0，0，x1y2−x2y1）。7945优化器CORPm型号的最小批量为64，CORPf型号的最小批量为512。对于所有批次大小，学习率被计算为批次大小/256。我们使用前5%时期的线性预热学习率和剩余时期的半余弦学习率衰减调度[22]跨所有GPU的同步批量归一化用于主干和投影头。在K400数据集上，我们以2的时间步长（覆盖32个连续帧）采样16个帧作为剪辑，而在Sth-SthV 2数据集上，由于短的平均视频长度，时间步长为1在线性评估阶段，我们使用SGD与mo-mentum为0.9并且没有权重衰减作为我们的优化器。批量大小为1024，初始学习率为0.16，遵循[5]。半余弦学习率衰减调度被应用而没有预热。除了最后一个线性层之外的所有层（包括批量归一化中的运行统计量）都与预训练骨干（即，不可训练）。Z分数标准化用于标准化特征。模型网络（#params）Top-1访问LC0RPmR3D-50（31.7M）59.1%表1.Kinetics-400数据集的线性评价结果在 1024 批次大小的设置下，我们的 CORPf 模型在Kinetics400数据集上实现了66.6%的表2显示了使用CORPf模型对K400数据集进行的批量大小和训练时期的消融研究我们可以发现，如果我们增加批量大小或预训练时期的数量，性能可以得到改善然后将其送入最后的线性层。我们采样32帧具有与预训练和训练100个时期相同的时间步幅。数据增强与预训练中相同，不同之处在于去除了颜色抖动和高斯模糊前1次访问次数= 200次数= 500除非另有说明，否则报告的前1精度为通过线性评价获得。在半监督学习阶段，我们使用预训练骨干来初始化网络，并在数据的一个小子集上微调所有层我们从训练集中抽取1%和10%的除了初始学习率为0.2之外，设置与线性评估相似表2.使用CORPf模型对Kinetics-400数据集进行批量大小和预训练时期数量的消融研究。表3显示了K400数据集上的半监督学习结果。在1%标签设置下，CORPf和CVRL的结果非常接近，而在10%标签设置下，我们的方法优于CVRL。在推理阶段，我们从以下10个片段中均匀采样完整长度的视频，并使用3作物为每个剪辑。从所有30个视图的模型输出的softmax概率的平均值获得最终预测。4.2. 动力学400实验K400数据集包含400个视频类别中的约240k个训练视频和20k个验证视频*。如前所述，该数据集中的大部分视频可以通过单个帧识别[56]，在该数据集中，外观学习比时间建模更重要因此，对于该数据集上的自监督学习，CORPf模型在该数据集上是优选的，而CORPm模型预计具有较低的性能。默认情况下，CORPm模型使用K= 4，并且两个模型都预先训练了800个epochs。表1显示了我们的模型和其他现有技术方法在K400数据集上的线性评估结果。结果CVRL的结果是用1024的批量获得的，而我们的结果是用512的批量获得的。在同一*在[37]之后，我们使用原始大小数据集，而不是另一个常用的下采样版本[11]。†大的批量大小导致对比学习的更好性能型号1%标签10%标签CVRL百分之三十五点一58.1%CORPf34.8%58.6%表3.Kinetics-400上的半监督学习结果表4显示了我们在两个较小的视频数据集UCF101 [39]和HMDB51 [27]数据集上学习的表示的迁移学习能力我们在两个设置上进行测试：1）从冷冻骨架提取的特征的线性评估，2) 在所述新数据集上微调由所述预训练模型初始化的所有参数。型号线性评估微调UCF101 HMDB51UCF101HMDB51F表4.我们的方法和CVRL的迁移学习比较批量大小为1024的实验需要64个32 GB-V100 GPU。由于预算限制，我们只运行了一个批次大小为1024的实验，其他结果都是在批次大批量= 256百分之六十点九63.0%批量= 51264.1%百分之六十五点六VTHCL[52]R3D-50（31.7M）百分之三十七点八[16]第十六话R-50（23.5M）49.1%SeCo[53]R-50（23.5M）61.9%CVRL[37]R3D-50（31.7M）62.9%CVRL89.8%百分之五十八点三92.9%67.9%7946小为512的情况下获得的。7947×个4.3. 《Something-Something V2》Something-Something V2（Sth-SthV 2）数据集包含174个视频类别中的约168 k个训练视频和24 k个验证视频。该数据集中的许多动作类别共享非常相似的背景和对象外观，因此难以对不同的动作类别进行据我们所知，没有以前的相关工作报告在Sth-SthV 2（或V1）数据集上的自监督学习性能然而，我们认为有必要2D模型/特征不能表示在Sth-SthV 2数据集中很重要的时间模式。CVRL在Sth-SthV 2数据集上不起作用。然而，它的性能可以通过简单地引入订单任务来改善虽然CORPf这与我们的理论是一致的，CORPm方法更侧重于时间建模，这是非常需要Sth-SthV 2数据集。在Sth-SthV 2数据集上验证视频自监督模型特别是对于时间学习。为了理解这一点，我们在K400和Sth-SthV 2数据集上比较了CORPm模型、CORPf1 C2D：ResNet50 C2D模型的监督学习任务前1位访问订单42.4%剪辑数量Top-1Acc 2 45.4%在[48]中描述。不使用3D卷积层。(a) 在任务上进行消融（b）夹子2 I3D：ResNet50 I3D模型的监督学习，如[ 48 ]所述。动作识别的基线。3 ImageNet：使用ImageNet注意前1位混合访问48.0%脱钩48.8%#层Top-1访问148.4%2 48.8%预训练权重，并应用线性评估。4 SimCLR：在K400上，使用[ 37 ]报告的200个epoch、512个小批量的CVRL结果。在...（c）关系建模。（d）#个感知器层型号Supervised Kinetics Something V2 C2D√71.8%[48] 45.6%CORPm×56.1% 48.8%CORPf×63.4% 41.1%表5.6个模型在Kinetics和Something- Something V2数据集上的前1个精度没有引用的结果由我们训练。非监督结果从线性评估获得。如表5所示，在K400数据集上，C2D模型和I3D模型之间的性能差距非常小。然而，自监督方法和监督方法之间的性能差距甚至大于自监督方法和固定ImageNet权重之间的性能差距。这支持了我们的论点，即时间建模在K400数据集上不太重要。即使模型在K400上具有高性能，它是否能够学习良好的时空表示仍然是值得怀疑的例如，自监督2D模型可以最小化与C2D模型的性能差距，但是可能不学习时间表示。然而，C2 D模型和I3 D模型之间的性能差距在Sth-SthV2上要大得多，并且ImageNet特征几乎无法识别Sth-SthV 2中的动作，因为（e）预训练时期的消融。表6.Something-Something V2数据集上的消融研究接下来，我们展示了Sth-SthV 2数据集上的消融研究。对比和顺序学习的作用：我们的模型学习两个任务：1）对比学习以区分视频片段的来源，以及2）顺序学习以区分视频片段的顺序。我们使用CORPm模型来研究两个任务的角色，如表5a所示。CORPm模型通过3向分类进行学习。仅顺序任务（第一行）是仅学习来自同一视频的剪辑的顺序的双向分类。仅对比度任务（第一行）是仅学习两个视频剪辑是否来自相同视频的双向分类。我们可以发现仅顺序和仅对比度任务都比CORPm模型差，并且仅顺序任务优于仅对比度任务，因为时间模式在Sth-SthV 2数据集上更重要。仅对比度任务的性能与表？？选项卡：消融]5e，因为信息丢失比简单分类在一个视频中采样的剪辑的数量在表5b中，我们研究超参数K。在我们的默认设置中，我们选择K=4，即在一个视频中采样4个视频剪辑。注意，较小的K指示较小的计算。我们针对K= 4训练200个epoch，针对K=3训练267个epoch，针对K= 400训练400个epoch，以具有相同的计算成本。一对比百分之二十九点七347.0%CORPm百分之四十八点八4百分之四十八点八SthV2，我们使用此设置实现模型。10031.1%百分之三十八点八46.3%200百分之三十三点九41.7%百分之四十八点八i3D√73.3%[48]百分之五十八点四ImageNetSimCLR×个53.5%[37]62.9%[37]13.3%百分之三十三点九7948解耦注意力混合注意力解耦注意力混合注意力4.0交叉熵损失总准确度（%）100配对准确度（%）803.5963.0642.592482.0881.5 321.00.5十六八十四0.0020 40 60 80 100时代20 40 60 80100时代80电话：020 - 406080100时代图3. CORPm模型在Something-V2数据集上的训练曲线。左图：交叉熵损失（越低越好）。中间数字：总精度（越高越好）。右图：配对精度（越高越好）。K越大，性能越好，因为类别SimCLR CORPfCORPm的数量就是使用混合注意力（多头注意力）。我们提出解耦注意力，解耦对称和反对称模式的混合注意。图3显示了预训练期间的性能。总准确度是完全正确的视频对（“完全”意味着视频对中的所有剪辑对被正确分类）与所有视频对的比率表5c示出了两种注意力的线性在训练前和下游任务中，解耦注意都优于原始混合注意。感知器中的层数：CORP m模型使用给定配对关系的小感知器来学习3路分类（等式2）。表5d示出了更深的感知器仍然有帮助，即使非线性投影头是深的。预训练时期的数量：表5e示出了针对基于SimCLR的CORP f和CORP m模型训练100和200个时期的结果。性能比较在不同数量的预训练时期中是一致的。分类结果分析：我们分析了基于SimCLR的CORP f和CORP m模型的分类精度。我们展示了1）所有三个模型都具有良好/相似性能的一些类别和2）CORPf和CORPm模型具有非常不同的性能的一些类别。如表7所示，SimCLR可以使用我们的模型在上述5个类别中实现类似的从类别名称来看，这些类别不需要很强的时态推理。单个帧可以帮助识别“握住某物”或“将某物插入某物”。几个帧特征的线性融合足以“将某物撕成2片”，因为它不太可能反转动作并将2片重建成某物。我们的方法可以有有限的优势比SimCLR超过第一拿东西29.9 26.9 30.5将某物和某物移近把某物和某物移走向上移动34.2 51.1 58.9向下移动23.5 67.2 67.2表7.三种模型的分类精度。“sth”是“something”的缩写。三个模型在上述5个类别上具有相似的性能，但在接下来的4个类别上具有非常不同的性能四类。然而，接下来的4个类别在没有时间学习的情况下不能被正确地分类，因为沿着时间维度的如果我们在时间维度上颠倒一个“向上移动某物”的视频，结果是“向下移动某物”。 SimCLR模型的精度几乎是我们模型的一半。这表明我们的模型具有很强的时间学习能力，以及对视频自监督学习的Sth-SthV 2数据集进行评估的必要性。最近的工作[12]显示了Sth-SthV 2数据集的微调结果。四种流行的对比框架（SimCLR，BYOL [18]等）的 R30-50 模型的微调结果范围为 52.8% 至 55.8% 。CORPm模型在Sth-SthV 2验证中实现了61%的微调精度5. 结论我们引入了一个对比度和顺序框架，用于空间和时间维度上的自监督视频表示学习。两个实现CORPf和CORPm提出了不同的情况下，其有效性进行了验证Kinetics 400和Something-something V2数据集。我们的CORP模型始终以显著的优势超过现有的竞争对手。解耦注意力混合注意力时间正负对的时间复杂度为O（K2）。注意力分散vs. 混合注意：给定两用照相机77.061.284.388.887.493.1视频剪辑，我们需要建模他们的关系，因为他们显示某物59.662.865.1特征向量如第3节所述，一个简单的想法把某物插入某物58.965.470.87949引用[1] Humam Alwassel 、 Dhruv Mahajan 、 Bruno Korbar 、Lorenzo Torresani、Bernard Ghanem和Du Tran。跨模态音视频聚类的自监督学习神经信息处理系统的进展，33，2020。[2] Yuki M Asano，Mandela Patrick，Christian Rupprecht，and Andrea Vedaldi.通过多模式自我监督从头开始标记未标记的视频。神经信息处理系统的进展，2020。[3] Sagie Benaim 、 Ariel Ephrat 、 Oran Lang 、 InbarMosseri 、 William T Freeman 、 Michael Rubinstein 、Michal Irani和Tali Dekel。 Speednet：学习视频中的速度。在IEEE/CVF计算机视觉和模式识别会议论文集，第9922-9931页[4] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年7月。[5] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offreyHinton.视觉表征对比学习的一个简单框架。国际机器学习会议。PMLR，2020年。[6] 邓健康，贾国，薛念南，Stefanos Zafeiriou。弧面：用于深层面识别的附加角裕度损失。在IEEE/CVF计算机视觉和模式识别集，第4690[7] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。[8] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的非监督视觉表示学习在Proceedings of theIEEE international conference on computer vision，pages1422[9] Debidatta Dwibedi，Yusuf Aytar，Jonathan Tompson，Pierre Sermanet，and Andrew Zisserman.时间周期一致性学习。在IEEE/CVF计算机视觉和模式识别集，2019年。[10] Debidatta Dwibedi ， Pierre Sermanet ， and JonathanTompson.使用卷积门控回流单元的视频中的时间推理。在IEEE计算机视觉和模式识别研讨会会议集，第1111-1116页[11] 范浩琪、杨浩李鹏说，博阿雄，婉燕作者声明：by J. Pyslowfast。https：//github.com/facebookresearch/SlowFast/blob/master/slowfast/datasets/DA

下载后可阅读完整内容，剩余1页未读，立即下载