没有合适的资源?快使用搜索试试~ 我知道了~
自监督视频表示学习及其在动作识别和视频检索中的应用
8096检索ASCNet:具有表观速度一致性的邓煌1,3* 吴文豪2 *胡伟文1刘旭1何栋梁2吴 志华2吴祥淼1谭 明奎1,4†丁二瑞21华南理工大学2百度公司3琶洲实验室4大数据与智能机器人教育部重点实验室{sehuangdeng,sehuwww,seqdmy}@ mail.scut.edu.cn,{xmwu,mingkuitan}@scut.edu.cn,wuwenhao17@mails.ucas.edu.cn,{hedongliang01,wuzhihua02,dingerruis}@ baidu.com摘要我们研究了自监督视频表示学习,这是一个具有挑战性的任务,由于1)缺乏标签的显式监督; 2)非结构化和噪声视觉信息。现有的方法主要使用对比损失与(a)(b)(c)视频剪辑作为实例,并通过彼此区分实例来学习视觉表示,但是它们需要通过依赖于大批量大小、存储库、额外模态或定制挖掘策略来仔细处理负对,这不可避免地包括噪声数据。在本文中,我们观察到之间的一致性1×速度2倍速度2倍速度正样本是学习鲁棒视频表示的关键。具体来说,我们提出了两个任务,学习外观和速度的一致性,分别。外观一致性任务旨在最大化具有不同回放速度的相同视频的两个剪辑之间的相似性。速度一致性任务旨在最大化具有相同回放速度但不同外观信息的两个剪辑之间的相似性。我们表明,联合优化这两个任务一致地提高了下游任务的性能,例如,动作识别和视频检索。值得注意的是,对于UCF-101数据集上的动作识别,我们实现了90.8%的准确率,而无需使用任何额外的模态或负对进行无监督预训练,这优于ImageNet监督预训练模型。代码和模型将可用。1. 介绍到2022年,全球近79%的移动数据流量将是视频。随着智能手机*共同第一作者。这项工作是邓煌在百度VIS做研究实习生时完成的。†通讯作者。图1:表观速度一致性的图示。视频片段(a)和(b)来自同一个视频,外观与不同的播放速度一致。另一方面,通过使用相同的帧间隔,我们可以从不同的视频中采样剪辑(c),但是具有与剪辑(b)相同的回放速度。我们训练模型将剪辑映射到外观并在保持一致性的同时加速嵌入空间。基于外观的检索策略减少了这两个目标之间的冲突。录制视频从未如此简单。视频分析已成为最活跃的研究课题之一[36,35,37]。然而,高质量视频数据的生成需要大量的人类注释工作(例如,对视频数据的注释)。,Kinetics-400 [20],Youtube-8 M [1]),这是昂贵的,耗时的,并且难以扩大规模。相比之下,数以百万计的未标记的视频在互联网上是免费可用的,例如:,YouTube.因此,从未标记的视频中学习有意义的表示对于视频分析至关重要。自我监督学习使得人们可以免费利用数据附带的各种标签。 而不是收集手动标签,适当的学习对象-拉拉8097设置对象以从未标记数据本身获得监督。这些目标,也被称为文本前任务,大致分为三类:1)预测特定变换(例如,、旋转角度[19]、回放速度[2]和顺序[39]);2)生成密集预测,例如:未来帧预测[13];以及3) 实例歧视,例如,CVRL [27]和Pace [34]。在这些方法中,回放速度预测任务引起了更多的关注,因为1)我们可以很容易地用从视频输入自动生成的速度标签来训练模型,以及2)模型将专注于移动对象以感知回放速度[34]。因此,鼓励模型学习代表性的运动特征。虽然已经取得了有希望的结果,但现有的方法受到两个限制。首先,一些方法依赖于预先计算的运动信息(例如,运动信息)。,光流[15,33]),这在计算上是繁重的,特别是当数据集按比例放大时。第二,虽然负样本在实例判别任务中发挥了重要作用此外,同类负样本可能对下游任务中使用的表示有害[4]在这项工作中,我们探索的外观和速度的视频剪辑从相同的和不同的实例之间的一致性,并消除了在某些情况下是有害的底片的需要为此,我们提出了两个新的借口任务,即,外观一致性感知(ACP)和速度一致性感知(SCP)。具体而言,对于ACP任务,我们从具有独立数据增强的同一视频中采样两个剪辑,并使两个剪辑的表示在特征空间中足够接近。 模型不能通过学习低级信息来完成这项任务,即颜色和旋转。相反,模型倾向于学习外观特征,例如背景场景和对象的纹理,因为这些特征在视频中是一致的。对于SCP任务,我们以相同的回放速度从两个不同的视频中采样两个剪辑。这两个剪辑的表示在特征空间中被拉得更近。由于外观因实例而异,因此速度可能是关键完成这项任务的线索。此外,为了丰富的阳性样本和整合的ACP和SCP任务,我们提出了一个基于外观的视频检索策略,这是基于观察的外观功能在ACP任务中实现了体面的准确性(45%的前1)在视频检索任务。因此,我们为SCP任务收集具有相同速度和相似外观的视频,并使其与ACP任务更兼容该策略进一步提高了下游任务的性能,计算成本可以忽略不计。概括起来,我们的贡献如下:• 我们提出了无监督视频表示学习的ACP和SCP任务。从这个意义上说,消极的样本不再影响学习到的表示的质量,使得训练更加鲁棒。• 我们提出了基于外观的特征检索策略,以选择更有效的速度一致性感知的正样本。这样,我们就可以弥合两个借口任务之间的差距。• 我们在UCF-101 [28]和HMDB 51 [22]数据集上验证了我们的方法在两个下游任务(即动作识别和检索)上学习有意义的视频表示的有效性。在所有情况下,我们展示了比其他自监督方法更先进的性能,而我们的方法更容易在实践中应用,因为我们不必维护阴性样本的收集。2. 相关工作自监督图像表示学习。自监督视觉表示最近在图像上取得了巨大的进展。常见的工作流程是在具有未标记图像的一个或多个借口任务上训练编码器最终的分类准确度限定了学习的表示有多好。借口任务包括图像旋转[11]、拼图[26]和着色[41]。自监督学习的最新进展主要是基于实例判别,其保持锚图像和其增强视图的表示之间的相对一致性。对比学习的性能依赖于一组丰富的负样本[6,8,17]。SimCLR [6]使用大批量并在minibatch中挑选底片。MoCo [17]维护了一个大型字典,涵盖了负面特征作为记忆库。然而,同类否定是不可避免的,并且对对比学习的性能有害[4]。最近,除了对比学习之外,BYOL [12]和SimSiam [7]通过仅最大化两个增强的正样本之间的相似性而不崩溃来学习有意义的表示。自监督视频表示学习。近年来,视频分析已成为一个热门话题.与静态图像不同,视频通过利用时空信息为学习有意义的表示现有的方法通过各种精心设计的借口任务来学习表示。 一些预文本任务是从基于图像的表示学习扩展而来的,例如、旋转预测[19]、拼图[21]。其他方法更加关注时间信息,包括对视频帧或剪辑进行排序[23]。BE [32]通过将静态帧与整个剪辑混合并将其移除来消除视频背景的影响。最近,已经通过回放速度预测进行了几次尝试。SpeedNet [2]预测视频片段是否是8098ACP任务拉拉SCP任务拉视频编码器视频编码器检索2×视频a视频编码器视频编码器视频编码器视频编码器Galler2×视频b视频编码器视频编码器具有不同速度的剪辑的特征来自不同视频的剪辑的特征·×× ×i=1··LLy图2:拟议框架说明。给定具有不同回放速度的一组视频剪辑(即,,1和2),我们使用视频编码器f(iθ)将剪辑映射到外观和速度嵌入空间中。对于ACP任务,我们将同一视频中的外观特征拉得更近。对于SCP任务,我们首先检索具有相似内容的相同速度视频所有视频编码器共享参数。加速与否,而Pace [34]预测视频剪辑的确切速度。RSPNet [5]不是预测绝对回放速度,而是预测相对速度,以避免依赖于不精确的速度标签。但是,有些动作太小,即使在不同的播放速度下也不能产生差异。相反,我们只关注速度相似性。3. 方法问题定义。 我们让V={vi}N是一组一致性感知(SCP)任务,用于学习速度特征,即,预测具有相同回放速度的不同视频的一致速度特征。形式上,对于ACP任务,与训练模型以预测两个剪辑Ci和Cj是否从同一视频采样不同,我们提出最小化嵌 入 空间 中 剪辑Ci和Cj的表示之间的距离。 我们的直觉是,从同一视频采样的剪辑自然地共享相似的外观内容。我们还随机化了回放速度,这样si可以等于s j,也可以不等于sj。在这个世界上,模特们训练视频,并且我们利用播放从Vi中采样剪辑C1反向速度S自监督视频表示学习旨在学习编码器f(iθ)以在不同的视频增强下将剪辑映射到一致的特征xi。这项任务是非常困难的,因为不足的标签和复杂的时空信息。首先,很难从未标记的视频中为模型构建适当的监督来学习外观和运动信息。第二,从视频捕获运动信息是低效的,例如,从视频捕获运动信息是低效的。通过计算帧序列中的光流。因此,学习的表示可能无法满足下游任务的要求,例如动作识别和视频检索。3.1. ASCNet的总体方案在本文中,我们观察到,视频播放速度不仅是一个很好的时间数据增强,不改变空间外观的来源,但也提供了有效的监督视频表示学习。因此,我们提出了一个外观一致性感知(ACP)任务学习外观特征,即。,预测同一视频在不同时空增强下一致的外观特征,并以S鼓励学习外观一致性。对于SCP任务,我们强制执行模型来编码回放速度信息,并缩短从具有si=sk的不同视频采样的剪辑ci和ck的表示之间的距离。以此方式鼓励来了解他们的共同点,也就是播放速度。我们使用两个单独的投影头ga和gm来将表示从f映射到任务对应的特征ai,aj,mi,mk,其中ai,aj是ACP任务的特征,mi,mk是SCP任务的特征。我们的表观速度一致性网络(ASCNet)的总体目标函数被公式化如下:L(V)=γLm(V)+(1−γ)La(V),(1)其中a和m分别表示ACP和SCP任务γ是控制每个任务重要性的超参数预训练的编码器f(;θ)及其输出特征X将用于下游任务中。3.2. 外观一致性感知该任务旨在最小化来自同一视频的两个增强剪辑之间的表示距离。给定8099t=1t=1··i=1V← ←←一我J 2有效地从存储体M我K 2我22V{}L L−LL−对于视频,我们以不同的回放速度si 、si对两个剪辑ci、ci进行采样。我们将剪辑馈送到视频编码器f中,随后是投影头ga,以获得SCP任务。因此,为了减少冲突,我们提出了一个基于外观的特征检索策略如下。给定锚视频V1,我们收集候选集合对应的特征ai、aj。 在常见实践视频(图库)C={v1,v2,...,v t}Tfrom V \v i. 我们在图[12,7]中,我们将ai传递给附加预测器ha,以从每个视频中对剪辑进行采样,从而获得锚特征预测a′i。 我们还采用了动量目标ai和候选特征{ai,a2,… at}T通过使用编 码 器 , 其 参 数 ξ 是 对 应 参 数 θ 的 指 数 移 动 平 均(EMA)。我们通过如下使用l2损失来最小化特征距离:a′i=ha(ga(f(ci;θ);θa);θa′)与ACP任务相同的过程。简单的点积函数d(,)用于测量锚点和候选之间的相似性。然后,我们通过它们的相似性得分对视频进行排序,并从最相似的候选人中选择vk。在实践中,我们使用内存库[17]来减少aj=ga(f(cj;ξ);ξa)L=a′−a2。(二)计算成本。视频对vi、vk可以在SCP任务中使用,具有强空间增强的益处同时不破坏外观一致性。由于不同的数据增强和回放速度不要改变剪辑的内容,我们期待出现ASCNet的算法1训练方法。ance的特征是a′i和aj总是相似。3.3. 速度一致性感知时间信息对于下游任务至关重要,例如动作识别。最近,视频回放速度预测已被用作感知时间信息的成功借口任务[2,34]。然而,速度的直接预测对于学习有效表示可能是次优的,因为一些运动的变化在不同回放速度下可能不明显。因此,我们提出了一致的速度知觉任务。此任务旨在最小化具有相同回放速度的两个剪辑之间的距离,而外观可以不同。具体来说,我们从两个视频中采样两个剪辑ci,ck要求:视频集合=v iN,编码器f具有参数θ或ξ,投影头ga和gm具有参数θ a、ξ a、θ m和ξ m,预测器h a和h m具有参数θa′和θm′,h超参数γ。1:随机初始化参数θ、θa、θm、θa′、θm′。第二章: 初始化参数ξθ,ξaθa,ξmθ m。3:虽然不收敛第四章:随机抽取一个视频。第五章:从v中采样两个剪辑ci、cj。第六章:提取特征xi=f(ci ,θ),xi=f(ci ,ξ)。第七章://通过ACP任务第八章:得到ai=ga(xi,θa),aj=ga(xj,ξa).第九章:得到a′i=ha(ai,θa′)。十:计算La=a′−aj (二)、其中si=sk。 然后,这两个i2剪辑的处理类似于ACP任务,除了我们使用投影头和预测器独立11://执行基于外观的特征检索图12:利用V \ v中的g a(·,θ a)构造C={at}N−1。gmhm//获取Ct=1ingl2 预测与其目标特征之间的损失m′i=hm(gm(f(ci;θ);θm);θm′)mk=gm(f(ck;ξ);ξm)(三)13:选择对应于特征a的视频v具有与j的最高点积相似性。14:从v 采样一个剪辑ck。15:提取特征Xk=f(ck,ξ)。16://通过SCP任务L=m′− m2。然而,对于两个不同的视频,θ的优化可能是困难的,并且模型需要更多的时间来收敛。因此,我们提出了一个基于外观的特征检索框架,以收集相似的视频特征空间。3.3.1基于外观的特征检索实例采样策略会影响SCP和ACP任务的性能SCP任务中使用的剪辑可以从相同实例或不同实例中采样。但是,当使用前者时,SCP任务可能会退回到ACP任务。由于一些运动具有其相应的速度,即,跑步和慢跑,后者可能会导致机场核心计划和18:获得m′i=hm(xi,θm′)。19: 计算等式中的m= m′mk2。(三)、20:计算=γm+(1γ)a。21:更新参数θ、θa、θm、θa′、θm′ 通过SGD。22:计算指数移动平均ξ、ξ a、ξ m。二十三: end while4. 实验4.1. 数据集我们考虑四个视频数据集,包括Mini-Kinetics-200∈ A与ACP任务中的人员进行比较。 最后,我们定义如下-17: 获得mi=gm(xi,θ m),mk=gm(xk,ξ m)。8100[38] 、 Kinetics-400 [20] 、 UCF-101 [28] 和 HMDB-51[22]。对于自我监督的预训练,我们使用8101×个×个LL通过丢弃所有标签对Kinetics-400数据集进行训练分割。Kinetics-400数据集包含400个人类动作类别,并提供240 k训练视频剪辑和20 k验证视频剪辑。Mini-Kinetics-200数据集由200个类别组成,具有最多的训练示例,并且是Kinetics-400数据集的子集。由于完整的Kinetics-400相当大,我们使用Mini-Kinetics- 200来降低消融实验中的训练成本。通过两个下游任务评估学习的网络骨干:动作识别和最近邻检索。对于下游任务,使用UCF-101 [28]和HMDB-51 [22]来证明我们方法的有效性。UCF-101 [28]包含跨越101个人类动作的13 k视频。HMDB-51 [22]包含大约7 k个视频,属于51个动作类别。UCF-101 [28]和HMDB-51 [22]都有三个预定义的训练和测试部分。遵循先前的工作[39,2,34],我们使用1的训练/测试分割进行下游任务评估。这两个数据集都表现出挑战,包括动作的类内方差,杂乱的背景和复杂的相机运动。在这些数据集上执行动作识别和检索需要学习丰富的时空表示。4.2. 实现细节骨干网。 为了详细研究我们的方法的有效性和泛化能力,我们选择了三种不同的骨干网络作为视频编码器,它们在最近的视频自监督学习方法中得到了广泛的应用,即。、3D ResNet [16]、R(2+1)D [31]和S3D-G [38]。3D ResNet [16]是一个自然的ResNet架构[18]的常规扩展,用于通过将2D卷积内核扩展到3D对应物来直接处理3D体积视频数据。提出R(2+1)D [31]将完整的3D卷积分解为2D空间卷积,然后是1D时间卷积。此外,根据以前的工作[2,34],我们使用最先进的骨干S3 D-G [38]来进一步利用所提出的方法的潜力。自我监督预训练阶段。根据先前的工作[34,2,5],除非另有说明,否则我们对每个剪辑的112 112空间大小的16个连续帧进行采样。使用具有重新调整大小的随机裁剪、随机颜色抖动、随机高斯模糊以及随机灰度和日晒来增强视频剪辑。我们利用LARS作为优化器,动量为0.9,权重衰减为1 e-6,用于无丢弃操作的训练。我们将基本学习率设置为0.3,与批量大小b线性缩放;即,学习速率被设置为0.3b/128。预训练默认情况下,该过程执行200个时期。本文中剪辑的可能回放速度s设置为{1×,2×,4×,8×},即、连续采样帧或将采样间隔设置为{2,4,8}帧。我们只使用原始的未经滤波的RGB视频帧作为输入,并且在训练期间不利用光流或其它辅助信号。此外,我们将所有投影头实例化为具有256个输出维度的全连接层。我们对所有特征应用L2归一化。在预训练之后,我们放下投影头,并将这些功能用于下游任务。当联合优化a和m时,我们经验性地将参数γ设置为0.5以用于损耗平衡。监督微调阶段。关于动作识别任务,在微调阶段期间,学习率在使用余弦退火的训练过程中衰减0.01倍卷积层的权重从学习的表示模型中保留,而新附加的全连接层的权重被随机初始化。整个网络然后用交叉熵损失来训练。评价在推理过程中,遵循通用评估协议,我们从UCF-101和HMDB-51测试集中的每个视频中均匀地抽取10个剪辑。对于每个剪辑,我们只简单地应用中心裁剪而不是十裁剪。最后,我们将所有剪辑的softmax概率平均作为最终预测。4.3. 消融研究如表1所示,我们通过在Mini-Kinetics-200上进行自监督学习,提供了关于我们方法的不同方面的有效性的消融研究。在具有端到端微调的UCF-101上评估表示。分析如下进行。ASC的有效性。在本文中,我们提出了两个任务来学习有效的视频表示,即,Apperance一致性感知(ACP)和速度一致性感知(SCP)。为了验证我们方法的有效性,我们使用3D ResNet对这些模型进行了预训练18.如表1a所示,与从头开始的训练相比,仅使用ACP任务的预训练可以显著提高UCF-101数据集上的动作识别性能(64.76%vs. 42.40%),而一致的速度感知进一步将性能从64.76%提高到70.71%,表明这两个任务的协同工作的有效性在以下消融实验中,除非另有说明,否则我们应用3D ResNet-18(3D R18)作为骨架。SCP任务的消融。在这里,我们通过使用不同的速度感知任务来实例化我们方法的一些变体[2]。SP表示每个单独剪辑的速度预测。表1b显示,与直接预测每个剪辑的回放速度相比,速度一致性感知任务提高了性能(70.71%对 68.93%)。然后,我们研究了SCP任务的实例抽样策略。SCP任务中使用的视频剪辑可以从相同实例或不同实例中采样。类似的例子表示使用外观-8102×个×}关于我们----× × ×联系我们联系我们预训练设置精度无预培训42.40%仅ACP64.76%仅SCP43.40%ASCNet70.71%方法配置精度ACP + SPACP +SCP ACP+ SCP-68.93%相同实例69.20%不同实例69.55%ACP + SCP类似事件70.71%{S1,S2}精度{×1,×2}70.71%{×1,×1}{×1,×4}{×4,×8}64.52%70.50%72.16%(a) ASCNet的有效性研究。W/O预训练表示从头开始训练(随机初始化)变体。骨干:3D R18。(b) 比较SCP任务的不同配置。SP表示每个视频剪辑的速度预测任务[2]。骨干:3D R18。(c) 不同回放速度设置。骨干:3D R18。批量精度102472.20%51272.16%25672.13%骨干Params随机我们3D ResNet-1833.6M42.40%72.16%R(2+1)D14.4M56.00%百分之七十五点九五(d) 研究预训练中使用的不同批量(200 epochs)。骨干:3D R18。(e) 用于预训练的数据转换的消融。骨干:3D R18。(f) 使用不同视频编码器在UCF-101上评估ASC。我们采样16帧112 112空间大小的预训练和微调。表1:消融研究。所有模型都在Mini-Kinetics-200上进行了200个epoch的预训练,除了通过微调整个网络对UCF-101动作识别进行的w/o预训练设置和评估报告前1精度的特征检索策略。这些结果表明,基于外观的特征检索策略可以在不破坏外观一致性的情况下,使速度一致性感知任务受益。不同的播放速度。 We表示Al-m1中的si,sj为S1,S2.如表1c所示,我们比较了我们的方法的不同回放速度集S1、S2的性能特别地,当速度设置为1时,1、我们的ASC失去了速度知觉,退化到更加注重学习外观信息。如预期的,性能从1、2的70.71%下降到64.52%,这与表1a中仅ACP的64.76%相似。然后,当回放速度S1被设置为1时,我们观察到S2= 2、4的变化对性能的影响很小。有趣的是,对于4,8,更大的采样间隔鼓励模型探索更长的运动信息,提高了学习的表示(70.71%对72.16%)。因此,我们在下面的实验中采用它。批量的影响。不同批量的消融研究如表1d所示。当批量大小变化时,我们对所有研究的批量大小使用相同的线性缩放规则。我们的方法在不使用负对的情况下,在宽范围的批量大小上工作得相当好。我们的实验结果表明,批量大小为256已经实现了高性能。在256 - 1024的批量范围内,性能保持稳定,差异处于随机变化水平。增强。在预训练期间逐个应用以下数据增强的准确度如 表1e所示 。只 有颜色 抖动 ,我们 的ASC 产生62.43%的准确性。我们随机模糊画面-采用高斯分布,将准确率提高2.1%。随机灰度是将帧转换为具有概率p(本文中默认为0.2)的灰度配以随机灰度后,ASC的准确率由64.55%提高到67.22%。最后,我们通过反转阈值以上的所有像素值来曝光RGB/灰度视频帧总的来说,通过叠加这些增强,我们已经将学习的表示模型从62.42%稳步因此,在我们的实验中使用所有这些数据转换。不同的脊椎。由于它是一个通用的框架,ASC可以广泛应用于现有的视频骨干网的性能一致的增益。在表1f中,我们比较了我们的框架的各种实例,并表明我们的方法简单而有效。我们观察到一个consis-帐篷之间的改善20%和30%的UCF-101与我们的ASCNet上的三个视频解码器,即。、3D ResNet- 18 [16]、R(2+1)D [31]和S3D-G [38]。4.4. 动作识别任务的评价不同的评估方案。我们调查了现有的自监督视频表示学习方法,并对评估协议进行了以下观察:(1)不同的工作可以使用不同的作物策略进行评估,例如中心作物[2,34,5],三作物[27]和十作物[13,14,15]。(2)即使具有相同的骨架,许多方法也可以使用不同的分辨率(即,、1122、1282、2242、2562)或帧(即:,16,32,64)。 供读者在表3中,我们给出了我们的方法在现有工作中使用的不同评估方案下的结果增强精度彩色抖动62.43%+ 高斯模糊64.55%+ 随机灰度67.22%+太阳能72.16%8103方法日期数据集(持续时间)骨干帧Res.单模UCFHMDB[25]第二十五话2016铀转化设施(1天)CaffeNet-224✓50.218.1OPN [23]2017铀转化设施(1天)CaffeNet-224✓56.322.1CMC [30]2019铀转化设施(1天)CaffeNet-224✓59.126.7MAS [33]2019铀转化设施(1天)C3d16112✗58.832.6VCP [24]2020铀转化设施(1天)C3d16112✓68.532.5ClipOrder [39]2019铀转化设施(1天)R(2+1)D16112✓72.430.9PRP [40]2020铀转化设施(1天)R(2+1)D16112✓72.135.0PSP [9]2020铀转化设施(1天)R(2+1)D16112✓74.836.8MAS [33]2019K400(28天)C3d16112✗61.233.43D-RotNet [19]2018K400(28天)3D R1816112✓62.933.7[21]第二十一话2019K400(28天)3D R1848224✓65.833.7DPC [13]2019K400(28天)3D R1864128✓68.234.5CBT [29]2019K600+(273d)S3D-G-112✓79.544.6电子邮件:info@speednet.com2020K400(28天)S3D-G64224✓81.148.8Pace [34]2020K400(28天)S3D-G64224✓87.152.6CoCLR-RGB [15]2020K400(28天)S3D-G32128✗87.954.6RSPNet [5]2021K400(28天)S3D-G64224✓89.959.6我们K400(28天)3D R1816112✓80.552.3我们K400(28天)S3D-G64224✓90.860.5全方位监督[16]K400(28天)3D R1816112✓84.456.4全面监督[38]ImageNetS3D-G64224✓86.657.7全面监督[38]K400(28天)S3D-G64224✓96.875.9表2:与UCF-101和HMDB-51数据集上最先进的自监督学习方法的比较。数据集括号显示总视频持续时间(d表示天,y表示年)。Single-Mod表示单一RGB模态。K400表示动力学-400。Arch.Res.#帧裁剪类型Top-1224 64中耕90.77%与最新技术水平的比较。在表2中, 我们会进行一次彻底的对比S3D-G3D R18224 64三熟制90.88%128 32十熟制87.31%112 16中耕80.52%112 16三熟80.73%128 16三熟80.99%艺 术 自 我 监 督 学 习 方 法 , 并 报 告 UCF-101 [28] 和HMDB-51 [22]的前1名准确性。我们展示了所有方法的预训练设置,例如、预训练数据集、主干、输入帧数、分辨率以及是否仅使用RGB模态。在这里,我们主要列出了使用RGB作为公平比较输入的模型表3:不同评估方案的性能的模型在Kinetics-400上预训练了200个epochs。时间100 200 300 400前1名(%)76.34 80.52 81.3181.50表4:不同预训练时期的性能使用具有ASC预训练的预训练时期的影响 我们用100到400个不同的预训练时期进行实验,并在UCF-101上报告了前1名的准确率。表4示出了训练时期的数量对性能的影响。虽然ASC受益于更长的训练,但它已经在200个时期之后实现了强大的性能,即。、80.52%。我们还注意到,性能在300个epoch之后开始饱和。8104伊森由于先前的工作使用不同的骨干进行实验,我们提供了用两种常见架构训练的ASCNet的结果,即,3D ResNet-18 [16],S3D-G [38].我们的ASCNet在UCF-101和HMDB-51数据集上都取得了最先进的结果具体来说,当使用3D ResNet-18主干进行预训练时,我们的方法通过以下方式优于3D-RotNet [19],ST-Puzzle [21]和DPC [13]大幅度(80.5%vs.62.9%、65.8%和68.2%,重新分别为52.3%和33.7%、33.7%和34.5%)。当使用S3D-G作为主干时,我们的ASC- Net比SpeedNet [2],Pace [34] 和 RSPNet [5] 实 现 了 更 好 的 准 确 性(90.8%vs.81.1%,87.1%和89.9%,re-RSPNet[5 ])在 相 同 设 置 下 , 在 UCF-101 上 分 别 为 60.5% 和48.8%、52.6%和59.9%。值得注意的是,在不需要任何预训练注释的情况下,我们的ASCNet比ImageNet[10]监督的预训练模型更好。8105方法体系结构 Top-k表5:如通过前k个检索准确度(%)测量的,与用于UCF-101数据集上的最近邻检索任务的现有技术方法的比较。这些结果表明,所提出的借口任务,帮助我们学习更多的歧视性的功能。视频检索的定性结果 我们进一步提供了一些检索结果作为定性研究。在图3中,顶部是来自UCF-101测试集的查询视频,并且底部示出了来自UCF-101训练集的前3个最近邻居。我们成功地检索具有相似外观和运动的高度相关的视频。这个结果意味着我们的方法能够学习视频的有意义的外观和运动特征。图3:视频检索任务的定性示例。两个数据集(90.8%与86.6%,60.5%与57.7%)。4.5. 视频检索任务的评价与最新技术水平的比较。为了进一步验证ASCNet的有效性,我们评估了我们的表示与最近邻视频检索。具体来说,遵循先前的作品[34,2],我们为每个视频统一采样10个剪辑。对于所有剪辑,从视频编码器提取特征,视频编码器仅用自监督学习进行预训练,并且不允许进一步微调。然后,我们对10个剪辑进行平均池化,以获得视频级特征向量。我们使用测试集中的每个片段来查询训练集中的k个最近的片段。在UCF-101数据集上进行了实验,并在UCF-101数据集的分裂1上对我们的方法进行了评估,并应用前k个精度(k= 1,5,10,20,50)作为评估指标。如表5所示,使用相同的3D ResNet-18主干,我们的ASCNet在所有指标上的表现都超过了最先进的方法等效值(UCF-101的前1名准确率为10.7% - 45.9%)。5. 结论这项工作提出了一个名为ASCNet的无监督视频我们训练模型将这些剪辑映射到外观和速度嵌入空间,同时保持一致性。我们还提出了一种基于外观的检索策略,以减少外观和速度一致性感知任务之间的冲突。大量的实验表明,ASCNet学习的特征在动作识别和视频检索任务上表现得更好。今后,我们计划将更多模式纳入我们的框架。致谢。本工作得到了国家自然科学基金(NSFC)62072190、科技部基金项目(2020 AAA 0106901)、广东省创新创业团队引进计划(2017 ZT 07 X183)、CCF-百度开放基金(CCF-BAIDU OF 2020022)的部分资助。查询检索结果k=1K=5K=10K=20k=50美国[23]19.928.734.040.651.6Buchler等人 [3]CaffeNet25.736.242.249.259.5ClipOrder [39] 3D R1814.130.340.051.166.5SpeedNet [2] S3D-G13.028.137.549.565.0VCP [24]3D R1818.633.642.553.568.1R(2+1)D19.933.742.050.564.4Pace [34]3D R1823.838.146.456.669.8C3d31.949.759.268.980.2RSPNet [5]C3D36.056.766.576.387.73D R1841.159.468.477.888.7我们的3D R1858.976.382.287.593.48106引用[1] Sami Abu-El-Haija,Nisarg Kothari,Joonseok Lee,PaulNatsev , George Toderici , Balakrishnan Varadarajan ,and Sudheendra Vijayanarasimhan. Youtube-8 m:一个大规模视频分类基准。arXiv预印本arXiv:1609.08675,2016。一个[2] Sagie Benaim , Ariel Ephrat , Oran Lang , InbarMosseri , William T. Freeman , Michael Rubinstein ,Michal Irani,and Tali Dekel. Speednet:学习视频中的速度。在CVPR,第9919-9928页,2020年。二、四、五、六、七、八[3] UtaBuüchler,BiagioBrattoli,andB joürnOmme r. 通过深度强化学习改进时空自我监督参见ECCV,第797-814页,2018年。八个[4] 放大图片创作者:David J.Schwab和Ari S.莫科斯在对比实例辨别中,所有否定词是否都是平等的arXiv预印本arXiv:2010.06682,2020。二个[5] Peihao Chen , Deng Huang , Dongliang He , XiangLong,Runhao Zeng,Shilei Wen,Mingkui Tan,andChuang Gan. RSPNet:用于无监督视频表示学习的相对速度感知。在AAAI,第1045-1053页,2021中。三五六七八[6] 陈婷、西蒙·科恩布里斯、穆罕默德·诺鲁齐和葛offrey E.辛顿视觉表征对比学习的一个简单框架。在ICML,第1597-1607页,2020年。二个[7] Xinlei Chen,Kaiming He.探索简单的连体表征学习。arXiv预印本arXiv:2011.10566,2020。二、四[8] Yaofo Chen,Yong Guo,Qi Chen,Minli Li,YaoweiWang,Wei Zeng,and Mingkui Tan.使用神经架构比较器的对比神经在IEEE计算机视觉和模式识别会议上,2021年。二个[9] Hyeon Cho , Taehoon Kim , Hyung Jin Chang , andWon-jun Hwang.使用可变回放速度预测的自监督时空表示学习。arXiv预印本arXiv:2003.02692,2020。七个[10] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。在CVPR,第248-255页中。Ieee,2009年。七个[11] Spyros Gidaris,Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。在ICLR,2018年。二个[12] Jean-BastienGrill , FlorianStrub , FlorentAltche´ ,CorentinTallec,PierreH.Richemond,ElenaBuchatskaya , CarlDoersch , BernardoA'vilaPires ,ZhaohanGuo , Moham-madGheshlaghiAzar, BilalPiot ,KorayKavukcuoglu , Re'miMunos , andMichalValko.Bootstrap Your Own Latent:一种新的自我监督学习方法在NeurIPS,2020年。二、四[13] Tengda Han,Weidi Xie,and Andrew Zisserman.通过密集预测编码的视频在ICCVW,第1483-1492页,2019年。二六七[14] Tengda Han,Weidi Xie,and Andrew Zisserman.用于视频表示学习的记忆增强密集预测编码。在ECCV,第312-329页,2020中。六个[15] Ten
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功