没有合适的资源?快使用搜索试试~ 我知道了~
13801基于序列对比学习陈明浩1魏方云2 <$李冲2邓才11浙江大学计算机学院CAD CG国家重点实验室2微软亚洲研究院minghaochen01@gmail.com{fawe,chol}@dengcai@cad.zju.edu.cn microsoft.com摘要先前关于动作表示学习的工作主要集中在设计各种架构以提取短视频片段的相比之下,许多查询Top-3检索结果诸如视频对准的实际应用强烈需要学习长视频的密集表示。在本文中,我们引入了一种新的对比动作表示学习(CARL)框架,以自监督的方式学习逐帧动作表示,特别是对于长视频。具体地说,我们介绍了一个简单的,但(a) FineGym数据集上的细粒度帧检索。…有效的视频编码器,考虑空间-时间连续性,手触摸瓶液体开始离开浇注完成把瓶子放回去表文本来提取逐帧表示。受自监督学习最新进展的启发,我们提出了一种新的序列对比损失(SCL)应用于通过一系列时空数据增强获得的两个相关视图。SCL通过最小化两个增强视图的序列相似性和时间戳距离的先验高斯分布之间的KL发散来优化嵌入空间FineGym , PennAction 和 Pouring 数 据 集 上 的 实 验 表明,我们的方法在下游细粒度动作分类方面比以前的最先进方法有很大的优势。令人惊讶的是,虽然没有对配对视频进行训练,但我们的方法在视频对齐和细粒度帧检索任务上也表现出出色的性能。代码和模型可在https://github.com/minghchen/CARL_code上找到。1. 介绍在过去的几年里,用于视频理解的深度学习[1,9,17,33,39,41,44,47]在视频分类任务上取得了巨大成功[9,19,40]。像I3D [9]和SlowFast [17]这样的网络总是拍摄短视频剪辑* 陈明浩在MSRA实习期间完成†通讯作者。(b) Pouring数据集上的相位边界检测。………………(c) PennAction数据集上的时间视频对齐。图1.我们的逐帧表示学习在各种数据集上的多种应用:(a)FineGym上的细粒度帧检索[37]。(b)Pouring上的相位边界检测[36]。(c)PennAction上的时间视频对齐[49]。如图所示,通过我们的方法(CARL)获得的表示对外观,视点和背景是不变的。(e.g.、32帧或64帧)作为输入,并提取全局表示来预测动作类别。相反,许多实际应用,例如,手语翻译[4,5,13],机器人模仿学习[29,36],行动对齐[6,21,23]和相位分类[16,27,37,49]需要能够对具有数百帧的长视频进行建模的算法,1)。13802以前的方法[27,35,37]已经努力通过监督学习来学习逐帧表示,其中子动作或相位边界被注释。然而,在大规模数据集上手动标记每个帧和精确的动作边界是耗时的,甚至是不切实际的[21],这阻碍了在现实场景中使用完全监督学习训练的为了减少标记数据的依赖性,TCC [16],LAV [23]和GTA [21]等方法通过使用周期一致性损失[16]或软动态时间规整[21,23]来探索弱监督学习。所有这些方法都依赖于视频级注释,并且在描述相同动作的成对视频上进行训练。此设置阻碍它们应用于没有标签可用的更通用的视频数据集。这项工作的目标是学习帧式表示与时空上下文信息的长视频在一个自我监督的方式。受对比表征学习的最新进展[8,11,12,20]的启发,我们提出了一个名为对比动作表征学习(CARL)的新框架来实现我们的目标。我们认为在训练过程中没有标签可用,并且训练集和测试集中的视频都有很长的持续时间(数百帧)。此外,我们不依赖于相同动作的视频对进行训练。因此,以更少的成本扩大我们的训练集是可行的。为数百帧的长视频建模是一项挑战。直接使用为短视频剪辑分类设计的现成主干是不平凡的,因为我们的任务是提取长视频的逐帧表示在我们的工作中,我们提出了一个简单而有效的视频编码器,它由一个2D网络和一个Transformer [42]编码器组成,前者用于对每帧的空间信息进行编码,后者用于对节奏交互进行建模。然后将逐帧特征用于表示学习。最近,Simplified [11]使用实例判别[46]作为借口任务,并引入了一种名为NT-Xent的对比损失,它最大限度地提高了相同数据的两个增强视图之间的一致性。在它们的实现中,除了正参考之外的所有实例都被认为是负的。与图像数据不同,视频提供了更丰富的实例(每个帧被视为一个实例),并且相邻帧具有高语义相似性。直接将这些框架视为负面可能会损害学习。为了避免这个问题,我们提出了一种新的序列对比度损失(SCL),通过最小化两个增强视频视图的序列相似性和先验高斯分布之间的KL发散来优化嵌入空间。本文的主要贡献概括如下:• 我们提出了一个新的框架,称为对比动作表征学习(CARL)学习框架,以自我监督的方式为长视频提供具有时空上下文信息的明智动作表示。我们的方法不依赖于任何数据注释,也没有对数据集的假设。• 我们引入了一个基于transformer的网络来有效地编码长视频和一个新的序列对比损失(SCL)表示学习。同时,设计了一系列时空数据增强算法,以增加训练数据的多样性。• 我们的框架在跨不同数据集的多个任务上的性能大大优于最先进的方法。例如,在FineGym [37]数据集上的线性评估协议下,我们的框架实现了41.75%的准确率,比现有的最佳方法GTA [21]高出+13.94%。在Penn-Action [49]数据集上,我们的方 法 实 现 了 91.67% 的 细 粒 度 分 类 , 99.1% 的Kendall2. 相关作品常规动作识别。已经构建了各种具有挑战性的视频数据集[9,25,32,38,40],以深入推理不同的场景和情况。这些数据集为短视频或剪辑片段提供高级概念或详细物理方面的为了解决视频识别,已经提出了大量的架构[1,3,9,17,33,39,41,43,44]。大多数网络基于3D卷积层,并与图像识别中的技术相结合[9,17,41],例如,残差连接[24]和ImageNet预训练[14]。一些工作[33,44]发现3D ConvNets的接收域不足,成为计算预算的瓶颈。最近,Transformers [42]在计算机视觉领域取得了巨大的成功,例如,[15 ][16][17][18][19]也有一些作品将Transformers扩展到视频识别,例如TimeTransformer [3]和ViViT [1]。由于Transformer的强大能力和全局感受野,这些方法已成为最先进的新技术。结合2D主干和Transformer,VTN [33]可以有效地处理长视频序列。然而,这些体系结构都是为视频分类而设计的,并为视频预测一个全局类。细粒度动作识别。也有一些数据集[27,35,37,49]研究细粒度的动作识别。它们将一个动作分解为一些动作单元、子动作或阶段。结果,每个视频包含多个简单阶段,例如,将黄瓜洗净,去皮,放置黄瓜,拿刀,在准备黄瓜时切片[35]。然而,这些精细级标签的收集成本更高,13803时间随机裁剪空间Aug长视频序列随机抽样随机抽样…共同帧…投影FVE序列对比损失我我我我{|联系我们 |≤联系我们视图1视图1………视图2数据预处理视图2表示学习图2.我们的框架概述(CARL)。通过一系列的时空数据增强,从训练视频中构造出两个增强视图。帧级视频编码器(FVE)和投影头的优化,通过最小化建议的序列对比度损失(SCL)之间的两个视图。这些数据集的大小有限。GTA [21]认为这些手动注释的边界是主观的。因此,精细级表示的自监督学习是一个很有前途的方向。视频中的自我监督学习。以前的视频自监督学习方法构建了借口任务,包括推断未来[22],区分混洗帧[31]和预测速度[2]。也有一些基于训练的方法,其中一对视 频 使 用 周 期 一 致 性 损 失 [16]或 软 动 态 时 间 扭 曲(DTW)[10,21,23]进行训练。最近,对比学习基于实例判别的方法[11,12,20,45]在2D图像任务上显示出优越的性能一些作品[18,26,34,36,48]也将这种对比损失用于视频表示学习。他们将视频中的不同帧[26,36,48]或其他视频中的不同剪辑[18,34]视为负样本。与这些方法不同的是,我们的目标是细粒度的时间理解的视频,我们对待一个长序列的帧作为输入数据。与我们最相关的工作是[28],它利用3D人类关键点在长运动视频中进行自我监督的acton发现。3. 方法在本节中,我们将介绍一个名为对比动作表征学习(CARL)的新框架,以自监督的方式学习逐帧动作表征特别是,我们的框架被设计为通过考虑时空上下文来对长视频序列建模。我们首先在第3.1节中概述了拟议的框架。然后我们在3.2节中介绍视图构造和数据扩充的细节。接下来,我们在第3.3节中描述我们的帧级视频编码器。最后,在第3.4节中介绍了所提出的序列对比损耗(SCL)及其设计原理。3.1. 概述图2显示了我们框架的概述我们首先通过以下方式为输入视频构建两个增强视图:一系列的时空数据增强这个步骤称为数据预处理。然后我们将两个增强视图馈送到我们的帧级视频编码器(FVE)中以提取密集表示。在Simplified [11]之后,FVE被附加了一个小的投影网络,这是一个用于获得潜在嵌入的两层MLP。由于时间上相邻的帧是高度相关的,我们假设两个增强视图之间的相似性分布基于这 一 假 设 , 我 们 提 出 了 一 种 新 的 序 列 对 比 损 失(SCL)来优化嵌入空间中的逐帧表示。3.2. 景观建设我们首先介绍我们的方法的视图构造步骤,如图2中的“数据预处理”部分所示数据增强对于避免自监督学习中的琐碎解决方案至关重要[11,12]。与以往只需要空间增强的方法不同,本文引入了一系列的时空数据增强方法,进一步增加了视频的多样性具体地,对于具有S帧的训练视频V,我们的目标是通过一系列时空数据增强来构建两个独立的具有T帧的增强视频。 对于时间数据增强,我们首先对V执行时间随机裁剪,以生成两个长度为[T,αT]帧的随机裁剪剪辑,其中α是控制最大裁剪大小的超参数。 在这个过程中,我们保证两个剪辑之间至少有β %的重叠帧。 然后对每个视频序列随机采样T帧,得到V1=v11iT,V2=v21iT,其中v1和v2表示来自V 1和V2 的 第 i 个 帧,重新编码。 我们默认设置T =240。 对于小于T帧的视频,在裁剪之前填充空帧。最后,我们应用几个时间上一致的空间数据增强,包括随机调整大小和裁剪,hor-izmartflip,随机颜色失真,和随机高斯模糊,V 1和V 2独立。13804转型Transformer编码器我×∈× ××∈ ≤ ≤我我1我不- --���× 128逐帧表示时间戳距离的先验高斯分布的时间轴���× 256视频12样品架���× 256位置编码112FVE +投影���× 2048���× 224 ×224×3输入视频11余弦相似度(101,102)2图3.提出的帧级视频编码器(FVE)的架构。输入是具有T帧的长视频,输出是逐帧表示。ResNet-50是在ImageNet上预先训练的。我们冻结ResNet-50的前四个剩余块,只微调最后一个块。3.3. 帧级视频编码器由于巨大的计算成本,直接应用视频分类主干[9,17,41TCC [16]提出了一种视频编码器,它结合了2DResNet和3D卷积来生成逐帧特征。然而,堆叠太多的3D卷积层会导致无法负担的计算成本。因此,这种设计可能具有有限的接收域来捕获时间上下文。最近,变形金刚[42]在计算机视觉方面取得了很大进展[7,15]。Transformers利用注意力机制解决序列到序列的任务,同时轻松处理长距离依赖关系在我们的网络实现中,我们采用了Transformer编码器作为替代模型的时间上下文。图3显示了我们的帧级视频编码器(FVE)。为了寻求表示性能和推理速度之间的折衷,我们首先使用2D网络,例如,ResNet- 50[24],沿着时间维度提取大小为T的RGB视频序列的空间特征2242243 .第三章。然后,由两个完全连接的层组成的转换块,使用批量归一化和ReLU将空间特征投影到大小为T256的中间嵌入。 按照惯例, 我们在中间嵌入的顶部添加正弦-余弦位置编码[42]以编码顺序信息。接下来,将编码的嵌入馈送到3层Transformer编码器中以对时间上下文进行建模。最后,采用线性层来获得最终的逐帧表示HRT ×128。我们使用hi(1我T)来表示第i帧的表示。图4.所提出的序列对比损失的图示。我们以v1V1的损失计算为例. 我们首先计算时间戳距离的先验高斯分布(s1s2,,s1s2)。然后计算Z1和Z2我们在嵌入空间中最小化两个分布的2D ResNet-50网络在Ima-geNet上进行预训练[14]。考虑到有限的计算预算,我们冻结了前四个残差块,因为它们已经通过预训练学习了有利的低级视觉表示。这种简单的设计确保了我们的网络可以在超过500帧的视频上进行训练和测试。VTN [33]采用类似的基于混合变换器的网络来执行视频分类。他们使用[CLS]令牌来生成全局特征,而我们的网络被设计为通过考虑时空上下文来提取逐帧表示此外,我们的网络探索建模更长的视频序列。3.4. 序列对比损失Simplified [11]通过最大化同一实例的增强视图之间的一致性引入了名为NT- Xent的对比损失。与图像的自监督学习不同,视频提供了丰富的序列信息,这是一个重要的监督信号。对于典型的实例判别,除了肯定引用之外的所有实例都被认为是否定的。然而,参考帧周围的直接将这些框架视为负面可能会损害学习。学习原则应该仔细设计,以避免这个问题。为了优化逐帧表示,我们提出了一种新的序列对比损失(SCL),它最大限度地减少了两个增强视图的嵌入相似性和先验高斯分布之间的KL发散,如图4所示。ResNet-50L1序列对比丢失线性13805·我我我我我我{|联系我们{|≤联系我们我我{|联系我们Σ不L LL我L我我我σ2π2σ2我exp(sim(z1,z2)/τ)我2K{|联系我们|联系我们{|联系我们ΣL=100L。具体来说,在Simplified之后,我们使用一个小的投影网络g(),这是一个两层MLP,将由所提出的FVE 编码的逐帧表示H 投影到潜在嵌入Z=g(H)。设Z1=Z11我不Z2=z21我不注意V1和V2的潜在嵌入,其中z1和z2分别表示第i帧在V1和V2中的潜在嵌入。令S1=S11iT表示V1的时间篡改向量,其中S1是V1中第i帧的对应原始视频时间戳(参见图4). 用同样的方法,我们可以定义S2=s21iT.给定V1中的第i个参考帧及其对应的潜在嵌入z1,由于时间上相邻的帧比那些远距离的帧更高度相关我们假设z1和z2之间的嵌入相似度=z21iT应该遵循s 1和S 2之间的时间戳距离的先验高斯分布=S21我T.这个假设促使我们使用KL-发散来优化嵌入空间。具体地,令sim(u,v)=uTv/uv表示余弦相似度,并且G(x)=1exp(−x )表示高斯-函数,其中σ2是方差。我们将V1中第i个参考帧的损失公式化如下:T12总共有1140个培训视频和966个测试视频。每个动作集有40-134个视频用于训练,42-116个视频用于测试。我们从LAV获得每帧标签[23]。视频帧从18到663。FineGym数据集。FineGym是最近的大规模细粒度动作识别数据集,其需要表示学习方法来区分同一视频中的不同子动作。我们根据动作边界对原始YouTube视频进行分块,以便每个修剪后的视频数据仅描述单个动作类型(自由体操、平衡木、高低杠或跳马-女子)。最终,我们获得了3182个用于训练的视频和1442个用于测试的视频。视频帧从140到5153不等。FineGym 根 据 类 别 编 号 提 供 两 个 数 据 分 割 , 即FineGym99和FineGym288,分别有99个子动作类和288个子动作类。浇注数据集。在这个数据集中,视频记录了手从一个物体到另一个物体倒水的过程。相位标签(5个相位类别)从TCC [16]获得。在TCC [16]之后,我们使用70个视频进行培训,14个视频进行测试。视频帧从186到797。评估指标。对于每个数据集,我们首先在训练集上优化我们的网络,不使用任何标签,然后使用以下四个指标来评估L1=−wj=1logexp(sim(zi,zj)/τ)k=1i kG(s1−s2)、(1)逐帧表示:• 阶段分类(或细粒度动作分类)w=ij、(二)fication)[16]是平均每帧分类ijTG(s1−s2)测试集的准确度。 在测试之前,我们先把网修好-其中wij是归一化高斯权重,τ是温度参数。 然后,可以跨所有帧计算V1的总损失:111(3)我不是i=1同样,我们可以计算V2的损失. 我们将序列对比损失定义为SCL= 1 + 2。值得注意的是,我们的损失不依赖于V1和V2之间的帧到帧的对应性,这支持时空数据增强的多样性。4. 实验4.1. 数据集和指标我 们 使 用 三 个 视频 数 据 集 , 即 PennAction[49],FineGym[37]和Pouring[36]来评估我们方法的性能。我们将我们的方法与所有三个数据集上的最先进方法进行比较。除非另有说明,否则所有消融研究均在PennAction数据集上进行。PennAction数据集。这个数据集中的视频显示人类正在做不同种类的运动或锻炼。遵循TCC [16],我们使用PennAction数据集的13个动作。在通过使用训练集的每帧标签(相位类或子动作类别)来• 阶段进展[16]测量预测阶段进展的表征能力。我们修复网络并训练线性回归器来预测所有帧的相位进展值(查询帧和相位边界之间的时间戳距离然后将其计算为平均R平方度量。• 通过在第一个视频中采样两个帧并在第二个视频中检索相应的最近帧,并检查它们的顺序是否被打乱,在每对测试视频上计算肯德尔它测量两个序列在时间上的对齐程度。不需要更多的训练或微调。• 平均精度@K[23]计算为检索到的K帧中有多少帧具有与查询帧相同的相位标签。它衡量细粒度帧检索的准确性。K=5,10,15的情况下进行评估。不需要更多的训练或微调。在[16,23,36]之后,在Pouring上评估了阶段分类、阶段进展和KendallIJ不k=113806方法培训战略注释分类进展τ[第16话]每动作弱81.350.6640.701LAV [23]84.250.6610.805[第16话]74.390.5910.641LAV [23]GTA [21]联合弱78.68-0.6250.7890.6840.748SaL [31]68.150.3900.474TCN [36]我们联合没有一68.0993.070.3830.9180.5420.985表1.与PennAction上最先进的方法进行比较,使用各种评估指标:阶段分类(Classification),阶段进展(Progress)和Kendall顶行结果来自每个动作模型,即,针对不同的动作训练单独的模型中间行和底部行中的结果是通过为所有动作训练单个模型获得的。数据集。对于PennAction,所有四个指标都在每个行动类别中进行评估,最终结果在13个行动类别中进行平 均 。 在 [21] 之 后 , 我 们 使 用 细 粒 度 动 作 分 类 在FineGym数据集上评估我们的方法。4.2. 实现细节表2.PennAction上的细粒度帧检索结果在我们的网络中,我们采用ResNet-50 [24],BYOL [20]作为逐帧空间编码器。除非另有说明,否则我 们 使 用 具 有 256 个 隐 藏 大 小 和 8 个 头 部 的 3 层Transformer编码器[42]来建模时间上下文。我们使用Adam优化器训练模型,学习率为10−4,权重衰减为10−5。我们使用余弦衰减时间表衰减学习速率,无需重新启动[30]。在我们的损失中,我们设置σ2=10和τ=0。1默认。遵循Simplified [11],随机图像裁剪,水平翻转,随机颜色失真和随机高斯模糊被用作空间增强。对于第3.2节中描述的时间数据扩充,我们设置超参数α=1。β=20%。视频批量大小设置为4(8个视图),我们的模型在4个Nvidia V100GPU 上 训 练 了 300 个 epoch 。 在 训 练 期 间 , 我 们 对Pouring和FineGym采样T=240帧,对PennAction采样T=80帧。在测试过程中,我们一次将整个视频输入模型,没有任何时间下采样。我们对逐帧表示进行L2归一化进行评估。4.3. 主要结果PennAction数据集上的结果。在表1中,我们的方法与PennAction上的最先进方法进行了比较。TCC [16]和LAV [23]为每个动作训练一个单独的模型相比之下,我们只为所有13个动作类训练一个模型(表中的“Joint”)。值得注意的是,我们的方法不仅优于使用联合训练的方法,而且也大大优于采用每个动作训练策略的方法表3.与FineGym上最先进的方法进行比较,在细粒度动作分类的评估下。不同评价指标下的利润率。在表2中,我们报告了在平均精度@K指标下的结果,该指标衡量细粒度帧检索的性能。令人惊讶的是,尽管我们的模型没有在配对数据上进行训练,但它可以成功地从其他视频中找到具有相似语义的帧。对于所有AP@K,我们的方法比以前的方法至少好11%。FineGym数据集上的结果。表3总结了FineGym99和FineGym288上的细粒度动作分类的实验结果。我们的方法优于其他自监督[2,31,36]和弱[10,16,21]方法。我们的方法的性能在FineGym99上超过了之前最先进的方法GTA [21]+13.94%,在Fin-eGym 288 上超过了+11.07% 。弱监督方法,即,TCC [16]、D3TW[10]和GTA [21],假设存在一个最优来自训练集的两个视频之间的对齐。 怎么-以往任何时候,对于FineGym数据集,即使在两个视频描述方法AP@5AP@10AP@15TCN [36]77.8477.5177.28[第16话]76.7476.2775.88LAV [23]79.1378.9878.90我们92.2892.1091.82方法FineGym99FineGym288[10]第10话15.2814.07电子邮件:info@speednet.com16.8615.57TCN [36]20.0217.11SaL [31]21.4519.58[第16话]25.1820.82我们41.7535.2313807方法分类进展τ层数分类进展τ表4.与最先进的浇注方法进行比较。架构分类进展τ仅ResNet-5068.630.2960.440ResNet-50+C3D83.960.7050.778ResNet-50+Transformer93.070.9180.985表5.不同结构的消融研究。相同的动作,子动作的集合和顺序可以不同。因此,通过这些方法发现的比对可能是不正确的,这阻碍了学习。这一巨大的改进验证了该框架的有效性。浇注数据集上的结果。如表4所示,我们的方法在相对较小的数据集Pouring上也实现了最佳性能。这些结果进一步证明了我们的方法具有很强的泛化能力。可视化结果。 我们在A节中展示了细粒度帧检索和视频对齐的可视化。4.4. 消融研究在本节中,我们执行多个实验来分析我们框架的不同组件。除非另有说明,否则实验在Pen-nAction数据集上进行网络架构。在表5中,我们研究了网络体系结构.‘ResNet-50+Transformer’ denotes our default“ResNet-50only”意味着我们删除了网络中的Transformer编码器,只使用2D ResNet-50和线性变换层来提取每帧的表示 。 ‘ResNet-50+C3D’ represents that two 3D convolu-tional layers [表6. Transformer编码器中使用不同层数的效果研究。可学习块分类进展τ没有一90.630.9070.994区块593.070.9180.985区块4+区块592.980.9190.989表7.对ResNet-50的可学习块进行消融研究。方法分类进展τTCN†86.310.8980.832TCC†86.350.8990.980我们93.070.9180.985表8.将我们的网络应用于TCN和TCC。†表示我们重新实现该方法,并用我们的网络替换网络。“Con- trastive baseline”uses the corresponding frame at the other view as the positive训练ResNet的不同块。在我们的实现中,ResNet-50在ImageNet上进行了预训练。在表7中,我们研究了微调ResNet的不同块的效果50. 标 准 ResNet 包 含 5 个 区 块 , 即 Block 1-Block 5 。“Block5”表示我们冻结ResNet的前四个残差块,只让最后一个残差块可学习,这是我们的默认设置。类似地,表7示出了编码与小块集相关的空间信息是重要的(“无”对"块5“),并且训练更多的块不会导致改进(”块5“对”块5“)。将我们的网络应用于其他方法。我们研究了第3.3节中介绍的帧级视频编码器(FVE)是否可以提高TCC [16]和TCN [36]的性能。我们用我们的网络取代了基于C3D的网络[23]《易经》中的《易经》这些模型都是用所提出的序列对比损失训练的。我们的默认网络优于其他两个网络,这归因于Transformers的远程依赖建模能力Transformer编码器的层数。表6显示了在变压器中使用不同层数的研究。我们发现相位分类随着层数的增加而增加。但是,当有太多层时,“阶段进展”会略微下降我们默认使用3层。表8显示了结果。我们发现,所提出的网络可以显着提高他们的方法的性能(与表3中的结果相比)。此外,我们的方法仍然保持了很大的性能增益,这归因于所提出的序列对比损失。序列对比损失的超参数我们研究超参数,即,温度参数τ和高斯方差σ2在我们的序列对比损失中(参见等式2)。先验高斯分布的方差σ2控制相邻帧如何在语义上相似。TCN [36]89.530.8040.852[第16话]91.530.8370.864LAV [23]92.840.8050.856192.150.9090.985292.610.9130.990393.070.9180.985492.810.9100.990我们93.730.9350.99213808超参数分类进展ττ=0.1,σ2=192.950.9030.963τ=0.1,σ2=2592.030.9220.993τ=1.0,σ2=1091.570.8890.993τ=0.3,σ2=1092.130.9030.992τ=0.1,σ2=1093.070.9180.985表9.序列对比损失中高斯方差σ2和温度τα采样β(%)FineGym99036.721.5随机2041.75139.031.5甚至2038.44038.152041.751.5随机5039.148037.9410035.53表10.时间数据增强超参数的烧蚀研究。研究了最大作物尺寸α、重叠比β和随机抽样策略的影响。实验在FineGym99数据集上进行。与参考系相似,假设。 如表9所示,太小的方差(σ2=1)或太大的方差(σ2=25)都会降低性能。我们默认使用σ2=10。此外,我们观察到一个适当的温度(τ = 0. 1)促进了从硬否定中学习,这与Simplified[11]中的结论一致。不同时态数据增强方法的研究。我们研究了3.2节中描述的不同时间数据增强,包括最大裁剪大小α,视图之间的重叠率β,以及不同的采样策略,即随机采样和均匀采样。表10示出了结果。从表中我们可以看到,当我们以固定长度(α=1)裁剪视频时,per-bands急剧下降当我们对裁剪的剪辑执行均匀采样时,性能也会降低。如第3.4节所述,我们的序列对比度损失不依赖于两个增强视图之间的帧到帧的对应关系。实验上,构建两个具有β=100%重叠帧百分比的视图会降低性能,因为增强数据的种类减少。此外,我们还观察到当两个视图独立构造时(β=0%)性能下降。原因在于,在该设置中,训练可能使时间上远离的帧的表示更接近,这阻碍了优化。表11.不同数据协议下训练帧数量的消融研究。对FineGym99细粒 度动 作分 类任务 进行 了研 究. ‘Supervised’ means alllayers are trained with supervised不同数据协议下的训练帧数和线性估计 如3.2节所述,我们的网络将带有T帧的增强视图作为输入。我们研究了不同帧数T对FineGym99的影响。表11显示了结果。我们观察到,将长序列作为输入对于逐帧表示学习至关重要。然而,太大的帧数目降低性能。因此,我们将T=240设为默认值。我们还在不同的数据协议下进行线性评估具体来说,我们使用10%,50%和100%的标记数据来训练线性分类器。与监督模型(所有层都是可学习的)相比,我们的方法在标记数据有限(10%数据协议)时具有更好的性能。5. 结论在本文中,我们提出了一种名为对比动作表示学习(CARL)的新框架,以自监督的方式学习帧式动作表示,特别是对于长视频。为了对具有数百帧的长视频进行建模,我们引入了一种简单而高效的网络,称为帧级视频编码器(FVE),它在训练期间考虑时空上下文。此外,我们提出了一种新的序列对比损失(SCL)逐帧表示学习。SCL通过最小化两个增强视图的序列相似性与先验高斯分布之间的KL发散来优化嵌入空间。在各种数据集和任务上的实验表明了该方法的有效性和通用性。致谢这项工作得到了国家重点研究发展计划(批准号:2018AAA0101400)、国家自然科学基金(批准号:62036009、61936006)、陕西省创新能力支持计划(计划号:2018AAA0101400)和陕西省创新能力支持 计 划 ( 计 划 号 : 2018AAA0101400 ) 的 支 持 。2021TD-05)。标签数据%→培训框架10es:501008027.1032.7834.0216030.2836.4638.0624033.5339.8941.7548031.4637.9239.45监督24.5148.7560.3713809引用[1] Anurag Arnab , Mostafa Dehghani , Georg Heigold ,Chen Sun,Mario Lucic,and Cordelia Schmid. Vivit:一个视频可视化Transformer。Arxiv,2021年。一、二[2] Sagie Benaim , Ariel Ephrat , Oran Lang , InbarMosseri , William T. Freeman , Michael Rubinstein ,Michal Irani,and Tali Dekel. Speednet:学习视频中的速度。在CVPR,2020年。三、六[3] Gedas Bertasius,Heng Wang,and Lorenzo Torresani.时空注意力是你理解视频所需要的全部Arxiv,2021年。2[4] Necati Cihan Camgoz,Simon Hadfield,Oscar Koller,Her- mann Ney和Richard Bowden。神经手语翻译。在CVPR,2018年。1[5] Necati Cihan Camgoz,Oscar Koller,Simon Hadfield和Richard Bowden。手语转换器:联合端到端手语识别和翻译。在CVPR,2020年。1[6] Cao Kaidi,Jingwei Ji,Zhangjie Cao,C. Chang和JuanCarlos Niebles。通过时间对齐的少镜头视频分类。在CVPR,2020年。1[7] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。ArXiv,2020年。二、四[8] Mathilde Caron , Ishan Misra , Julien Mairal , PriyaGoyal,Piotr Bojanowski,and Armand Joulin.无监督学习视觉特征对比聚类分配。ArXiv,2020年。2[9] J oaoCarreira和Andr e wZisserman。Quovadis,动作识别?新模型和动力学数据集。在CVPR,2017年。一、二、四[10] C. Chang,De-An Huang,Yanan Sui,Li Fei-Fei,andJuan Carlos Niebles. D3tw:用于弱监督动作对齐和分割的判别可微动态时间规整。在CVPR,2019年。三、六[11] 陈婷、西蒙·科恩布里斯、穆罕默德·诺鲁齐和葛offrey E.辛顿视觉表征对比学习的一个简单框架。 在ICML,2020。 二三四六八[12] 陈新蕾,范浩琪,Ross B. Girshick和Kaiming He。改进了动量对比学习的基线。ArXiv,2020年。二、三[13] Yutong Chen,Fangyun Wei,Xiao Sun,Zhirong Wu,and Stephen Lin. 手语翻译的简单多模态迁移学习基线。arXiv预印本arXiv:2203.04287,2022。1[14] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Fei-Fei Li. Imagenet:一个大规模的分层图像数据库。CVPR,2009。二、四[15] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图像值16x16个单词:用于大规模图像识别的变形金刚。ICLR,2021年。二、四[16] Debidatta Dwibedi,Yusuf Aytar,Jonathan Tompson,Pierre Sermanet,and Andrew Zisserman.时间周期一致性学习。在CVPR,2019年。一、二、三、四、五、六、七[17] Christoph Feichtenhofer , Haoqi Fan , Jitendra Malik ,and Kaiming He.用于视频识别的慢速网络。在ICCV,2019年。一、二、四[18] Christoph Feichtenhofer,Haoqi Fan,Bo Xiong,Ross B.吉尔希克,和何开明.无监督时空表征学习的大规模研究在CVPR,2021年。3[19] Raghav Goyal,Samira Ebrahimi Kahou,Vincent Michal-ski , Joanna Materzynska , Susanne Westphal , HeunaKim,ValentinHaenel,IngoFründ ,PeterN. Yianil os,MoritzMueller-Freitag , FlorianHoppe , ChristianThurau,Ingo Bax,and Roland Memisevic.学习和评估视觉常识的InICCV,2017. 1[20] Jean-Bastien Grill , Florian Strub , Florent
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 0
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功