没有合适的资源?快使用搜索试试~ 我知道了~
6548基于视频播放速率感知的自监督时空表示学习Yuan Yao1人,Chang Liu1人,Dezhao Luo2人,Yu Zhou2人,Qixiang Ye1人1中国科学院大学,中国2中国科学院信息工程研究所,北京,中国{yaoyuan17,liuchang615}@ mails.ucas.ac.cn,{luodezhao,zhouyu}@iie.ac.cnqxye@ucas.ac.cn摘要种族?在自监督时空表征学习中,时间分辨率和长短期特征-123科学尚未充分探索,这限制了代表性跳远8 x学习模型的能力。 本文提出1917一种新的自我监督方法,称为视频播放-back速率感知(PRP),学习时空表示,以一种简单而有效的方式表达怨恨PRP根源于运动细节4 x扩张抽样策略,产生自我监督表示模型的视频回放速率信号7911学习PRP是用特征编码器实现的,分类模块和重构解码器, 到在协作中实现时空语义保持迭代判别生成方式。区别性感知模型遵循特征编码器,以通过对快进速率进行分类来优先感知低时间分辨率和长期表示。生成感知模型作为特征解码器,通过引入运动注意机制,专注于理解高时间分辨率和PRP被应用于典型的视频目标任务,包括动作识别和视频检索。实验表明,PRP优于国家的最先进的自我监 督 模 型 具 有 显 着 的 利 润 率 。 代 码 可 在github.com/yuanyao366/PRP上获得。1. 介绍深度网络,即,卷积神经网络(CNN)[22]在计算机视觉领域取得了前所未有的成功这在很大程度上可以归因于学习到的丰富表示,包括低级细节和高级语义[35]。实现富有*同等贡献†通讯作者图1.在有限的可见帧的情况下,具有不同回放速率(时间分辨率)的视频剪辑意味着不同的语义。具有正常回放速率的视频剪辑(第一行)可能被误解为“比赛”。在更高的回放速率下(第二行),我们可以看到它实际上是“跳远”,其中短期运动细节可以在慢下来的视频中感知(第三行)。感知具有不同回放速率的视频在学习长短期时空表示中是至关重要的。表示,网络通常使用大规模图像/视频数据集(例如,,ImageNet [16]和Kinetics [18])在准确的注释监督下[19]。然而,大规模数据注释是费力的、昂贵的,或者可能是不切实际的,特别是对于诸如视频的复杂数据和诸如动作分析和视频检索的概念[10,18]。考虑到Web上大规模未标记数据的可用性,自我监督表示学习利用未标记数据中的内在对应性来预训练所需的表示,站模型,已引起越来越多的关注。自监督表示学习定义了一个无注释的代理任务,它利用来自数据本身的易于开发的监督信号来训练网络6549模型,然后促进下游目标任务的实施。从帧内容感知的角度来看,早期的自监督方法专注于预测图像的空间变换[10]。然而,在不考虑时间关系的情况下,所学习的特征仅仅是基于逐帧的,这对于视频分析任务是不合适的,因为时间维度定义了视频序列和图像集之间的本质差异最近的作品[36]通过回归运动和外观统计来学习时空表示。然而,在没有感知时间分辨率特性的能力的情况下,这样的机制不能学习精确视频理解所需的长期-短期1.一、在本文中,我们提出了一种新的自监督的方法,称为视频回放速率感知(PRP),旨在学习表示多个时间分辨率在一个简单而有效的方式。PRP由在灵长类动物视觉系统中观察到的运动感知机制激发[25,26],即不同的视觉细胞对不同的时间变化有不同的反应。M细胞对快速和短期变化敏感,而P细胞则专注于较慢和较长期的变化。这种机制已经被SlowFast网络[7]用于视频识别,而我们将其更新为自我监督的方式来感知多个时间分辨率。为了感知视频数据中的时间分辨率特性,设计了一种膨胀采样策略来产生具有各种回放速率的视频。 原始视频模拟相对于帧采样视频的高回放速率,并且不同回放速率的视频之间的内容相似性被用作表示学习的监督信号。利用判别模型,PRP可以被训练为对不同回放速率的视频进行分类。 通过生成模型,PRP被驱动从高回放速率视频重建低回放速率视频。区别性感知模型遵循特征编码器,通过对快进速率进行分类,专注于生成感知模型作为特征解码器,通过引入运动注意机制,专注于共同创造的辨别-生成知觉进一步聚集了长短期表征能力,图。二、这项工作的贡献包括:• 提出了一种新的视频回放速率感知(PRP)方法,用于在自监督的方式• PRP是用区分和生成感知模型实现的,它们合作地保留了表示模型中的时空语义。此外,我们引入了一个运动注意机制,它驱动表示集中在有意义的前景区域。• 我们将PRP应用于三种3D CNN和两个目标任务,包括动作识别和视频检索,并改进了最先进的技术,具有重要的意义。铁路超高边距。2. 相关工作自监督学习利用来自未标记数据的信息来训练模型。现有的方法通常定义了一个无注释的代理任务,该任务要求网络预测隐藏在未注释视频中的信息。学习的模型可以在微调后应用于目标任务(eitehr监督或无监督)。传统的自监督方法包括识别代理任务,例如对转换的图像[12,20,6]或视频内容[43]进行分类,以及生成代理任务,包括图像修复[29]和视频重建[34,43]。2.1. 代理任务从更广泛的角度来看,代理任务可以构建在多个感官数据之上,例如自我运动[5],声音[4]和跨模态数据[17,30,11]。虽然在本文中,我们主要审查代理任务的视觉信号的基础上。空间表征学习应用于图像的空间变换可以产生用于表示学习的监督信号[23]。作为一种代表性方法,基于旋转的自监督方法[12,9]通过旋转图像并使用旋转角度作为监督来学习基于完成的方法[20,6,13]通过预 测 损 坏 的 拼 图 来 学 习 图 像 表 示 。 虽 然 上 下 文impainting [2]训练CNN模型来预测根据其周围环境条件的保留图像区域的内容,但图像块匹配方法[38,42]训练表示模型来捕获空间不变性。时空表征学习。大量具有丰富时空信息的视频片段提供了多种监控信号。在[37]中,视频帧的时间连续性可以用作超分辨率信号。在[27,24]中,预测帧或视频剪辑的顺序驱动学习时空表示。在[10]中,提出了一种奇一网络来从一组其他相关的剪辑中识别不相关或奇的剪辑。为了找到奇怪的剪辑,模型必须学习时空特征,可以区分相似的剪辑。在[3]中,无监督运动分割6550图2.回放速率感知(PRP)由扩张采样和感知建模组成。感知建模实现的特征编码器,判别模块,和重建解码器(生成模块)。使用扩张采样生成自监督信号。用于获得片段,这些片段作为伪地面实况来训练CNN进行分割。早期的方法通常基于2D CNN学习特征,并且简单地基于逐帧处理,这不适合时空特征占主导地位的视频分析任务。最近,3D表示通过回归运动和表观统计学来学习[36]。然后将视频剪辑的顺序用作时间表示学习的监督信号[39]。3D CNN模型通过完成时空立方体谜题来训练[19]。尽管在该领域取得了实质性的进展,但遗憾的是,现有方法忽略了多个时间分辨率,这对于基于视频的任务是必不可少的。如果没有这些时间分辨率特性,学习模型的表示能力仍然有限。2.2. 目标任务对于视频相关任务,使用具有视频类别标记的大规模视频数据库训练3D CNN模型[8,32]。然而,在视频分类任务上训练的表示模型缺乏普遍适用性。将这些模型微调到其他目标任务,例如动作识别和视频检索,可能会产生次优的结果。为了克服这些问题,我们提出了自监督PRP方法,并旨在提高模型的通用性,通过结合长期和短期的时间表示,3. 播放速率感知快进和慢放是浏览视频时常用的两种模式。为了快速理解视频内容,例如,看电影时,我们可以使用快进模式。捕捉奇迹中的细节-完整的剪辑,我们通常需要动作重播与放慢播放速率。人类感知视频内容的方式证明了一个重要的事实,即时间分辨率和长短期特性对于更好地理解视频至关重要。基于这一观察,我们提出了用于表示学习的视频回放速率感知(PRP),它由两个组件组成:扩展采样和感知建模。扩展采样将视频剪辑增强到不同的时间分辨率(快进),而感知建模学习丰富的时空表示以将视频分类到回放速率和/或从低时间分辨率视频重建到高时间分辨率视频(慢下来),图10。二、3.1. 扩张采样给定一个原始视频V(1),我们以相同的时间间隔从每s帧中均匀地采样一个视频帧,这被表示为s×扩张采样。此过程生成视频V(s),具有s×快进播放速率。考虑到空间相似性和时间环境,在视频帧之间的正确性,我们从V(s)中采样连续的l帧作为学习样本X(s),其可以被馈送到3D CNN。对于图中所示的示例。2(左),s=2且l=2。具有不同扩张采样间隔的视频V(s)具有一致的内容但具有不同的回放速率。这样的回放速率,连同其对应的视频内容,提供自我监督信号的表示模型学习。3.2. 感知建模特征编码器。为了提取空间和时间特征,我们选择C3D [32],R3D和R(2+1)D [33]作为特征编码器。C3D是2D的自然延伸1 扩张采样2 感知建模D 辨别知觉自我监督E 特征编码器重构解码器Y(1)X(2)G 生成知觉V(1)五(2)V(1)特征6551该过程可以被称为基于归一化概率pc的判别式选择,其中,视频剪辑属于c类,pc=exp(ac),其中cCc=1 实验(ac)是全连接层的第c个输出基于通过优化交叉熵损失来更新归一化概率,即网络模型的参数θ,ΣCarg minLd=−θs clog p c.(一)C为了优化方程。1,驱动特征编码器以感知相邻帧之间运动强度和场景动力学的细微差异,这对于精确的时空表示是必不可少的生成感知。在区分性感知的基础上,我们进一步提出了一种生成式感知模式来提高PRP重建-使用特征解码器网络执行转换过程其具有四个3D去卷积块,图1B。3 .第三章。对于每个解码器块,我们堆叠一个步幅为2×2×2的解卷积层,然后是一个C3D块。为了生成具有重建速率r(是输入视频的r倍)的视频,第四次去卷积需要r×2×2的步幅。地面实况 为了预测插值帧,我们设置当s=2k1时,(k1=0,1,2,···)图3.上:编码器-解码器结构。向下:C3D、R3D和R(2+1)D块。CNN用于时空表示学习,因为它可以对视频的时间信息进行建模。它堆叠了五个C3D块,其中包括一个经典的3D卷积,内核大小为t×k×k,然后是一个批处理规范化层和一个ReLU层。如图3、我们采取以C3D主干为例,构建特征编码器,并展示各块的维度变换。R3D是指具有剩余连接的3D CNN。如图3,R3D块由两个3D卷积,然后是批量归一化和ReLU层组成。输入端和输出端连接到剩余单元,重建速率为r=2k2,k2∈0,1,2.可以从视频V(2k1−k2)中采样输入剪辑X(2k1)的地面真实值(具有2k2×减速生成)。如图2(右),通过将2倍膨胀的采样视频剪辑作为输入并将原始视频作为输出(自监督)来实现2倍减速的生成式投影信号)。如果k2> k1,我们可以使用线性插值从原始视频生成地面实况剪辑。注意事项为了重建视频片段,MSE [14]损失通常用于构建生成网络。值得注意的是,我们的PRP不是为了生成高质量的视频而设计的,而是为了学习长期和短期的视频表现。为了实现这一目的,我们提出了一个运动注意力正则化的MSE(m-MSE)损失,它驱动网络集中在重建和插值帧区域的显着运动。表示用于减速的第t个地面实况帧第t个运动注意图和第t个预测的视频帧作为G t =(gt),M t =(mt),且最后一个ReLU层。在R(2+1)D中,整体结构与T类似,ij ijtp R3D。3D卷积被分解为空间卷积。Y=(yij),m-MSE损失可以定义为2D卷积和时间1D卷积,1Σarg minL =mt(yt-gt)2,(2)附加了常规的批处理标准化和ReLU层区别性感知。如图3,fea-θgN t,i,jijij ij ij由编码器提取的输入视频剪辑的图片被馈送分类模型来预测回放速率。地面实况标签表示为sc,其中1≤c≤C,C是输入的不同采样间隔的数量。其中N是预测的视频剪辑中的像素的数量(ij)表示视频帧上的空间位置如图4中,根据原始视频帧X(1)计算运动注意力图M(de-4)。输入16x112x112x3C3D模块3D合并3D去卷积16x56x56x642x7x7x5128x28x28x1284x14x14x2564x14x14x2568x28x28x1282x7x7x51216x56x56x642x7x7x51232x112x112x3F CDP损失GP损失二维转换ReLUBNBNReLU一维转换ReLUBN二维转换+ReLu1D-ConvBN+ReLUBNC3D模块R3D模块R(2+1)D区BN3D转换ReLUBN3D转换3D转换ReLU6552运动注意力差异-3D合并激活3D上采样ΛRM图4.基于帧差、3D-Pooling、激活和3D-Upsampling操作的运动注意力计算记作R),它是输入X(s)的s×慢放视频剪辑,并通过四个步骤,包括差分、3D池化、激活和3D上采样。的差异在第一步骤中,使用来自原始视频剪辑的相邻帧Rt和Rt+1来计算第t帧差异图Dt为Dt=D(Rt,Rt+1)=|R t−Rt+1|二、考虑到帧差图可能受到偶然噪声以及丢失的静态前景的影响,对差图进行3D-Pooling操作P,作为时空滤波器,以使其与前景更一致并且在时空域中更稳定。然后,使用递增激活函数A来将差映射到[λ1,λ2],0≤λ1≤1且1≤λ2。最后,应用3D上采样操作U以获得与地面大小相同的运动注意力地图真相视频帧。运动注意力图生成的整个过程被公式化为M=M(R)= U(A(P(D(R)。(三)判别生成Perception.到进一步学习更丰富的时空表示,判别和生成感知模型融合,图。2,通过优化以下目标函数,如arg minλ dLd+ λ gLg.(四)θ融合以合作的方式执行,因为分类模型善于识别用于回放速率区分的长期表示,而生成模型可以捕获用于内容重构的短期精细细节通过端到端的学习,图。2、多个时间分辨率的时空特性可以在模型内编码。3.3. 讨论所提出的编码器-解码器框架提供了一种新的特征学习策略,VAExEz~E(x)GG(z)语义抽样DPRP(我们的)XEGG(z)语义保持GANzGD真/假语义附着图5.变分自动编码器(VAE)、生成对抗网络(GAN)和所提出的编码器-解码器模型的比较。‘E’, ‘D’, and ‘G’ denote‘Encoder’, ‘Discrimina- tor’ and ‘Generator’,变分自动编码器(VAE)[21]也不是生成广告网络(GAN)[41],图5。具体来说,我们的框架是由判别和生成模型驱动,以实现语义保留,这意味着编码的时间语义可以尽可能多地转移到相比之下,VAE的目标是语义采样,由潜变量(z)控制,服从正态分布。VAE中的编码器应该学习最能代表输入分布的特征,而生成器则使用指定的特征来生成以潜在变量为条件的数据。像GAN一样,我们的方法涉及生成模型和判别模型。本质上的区别在于,GAN以对抗的方式利用模型,而我们的模型则以合作的方式工作。GAN使用生成模型来产生难以用区分模型分类的图像。我们的方法学习一般语义,即,多分辨率空间-时间表示。6553max(D)−min(D)14. 实验我们首先阐述PRP的实验设置,然后评估不同的采样间隔和重建率与消融研究的目标任务(动作识别)。然后,我们分析PRP如何驱动模型聚焦于前景区域和感知长期-短期时空特征。最后,我们通过将自监督模型应用于目标任务(包括视频动作识别和视频检索)来评估PRP的性能,并将其与最先进的方法进行比较。4.1. 实验环境数 据 集 。 两 个 动 作 识 别 数 据 集 UCF 101 [31] 和HMDB 51 [15]用于证明PRP的有效性。UCF101是从网站上收集的,包括Prelinger archive,YouTube和Googlevideos,包含101个动作类别,9.5k视频用于培训和3.5k视频用于测试。HMDB51是从各种来源提取的,从数字化电影到YouTube。它由51个动作类别组成,有3.4k的训练视频和1.4k的测试视频。这两个数据集都表现出包括动作的类内方差、复杂的相机运动和杂乱的背景的挑战。要在这些数据集上执行动作识别和检索,需要学习丰富的时空表示。网 络 架 构 。 在 视 频 编 码 器 中 , C3D , R3D , R(2+1)D被用作网络骨干,其中3D卷积层的内核大小被设置为3×3×3。在视频生成中,四个去卷积层被堆叠并跟随,被C3D块所降低为了生成比输入视频慢r倍的视频,我们将第4个去卷积层设置为步长r×2×2,其中重建速率r通过消融研究确定。运动激活。 为了计算运动注意力图,等式(1)中的激活函数A是:3被实现为A(D)=λ2-λ1(D-min(D))+λ,其中D是帧差映射。λ1根据经验设定为0.8λ22.0 。 我 们 使 用 3D-AveragePooling , 内 核 大 小 为15×28×28,步幅大小为16×7×7。3D上采样操作设置为三线性模式。参数按照[32,33]中的设置,我们设置输入视频的长度X(s)l=16,并通过消融研究确定扩张的采样间隔s∈S在训练过程中,我们从训练集中随机分割 800 个 视 频 作 为 验 证 集 。 视 频 帧 被 调 整 为128×171,并随机裁剪为112×112作为数据增强。我们根据经验将损失平衡的参数λd、λg设置为:0.1和1.初始学习率为0.01,动量为0.9,权重衰减为0.0005,预训练过程进行300个epoch。具有最低验证损失的学习表示模型用于目标任务。样品间隔随机acc.(%)DP acc.(%){1,2}5088.3[2019 - 04 -21]3380.1{1,2,4,8}2569.7{1,2,4,8,16}2060.1表1.不同采样间隔下区分感知模型的分类精度。方法样品间隔Rec. 率UCF101(%)随机--62.0{1,2}-68.3DP[2019 - 04 -21]{1,2,4,8}--68.769.9{1,2,4,8,16}-67.9{1,2,4,8}1(不含MA)67.1GP{1,2,4,8}{1,2,4,8}1 (w/MA)2 (w/MA)68.168.2{1,2,4,8}4(w/MA)68.4DG-P{1,2,4,8}2(含MA)70.9表2.不同模型感知方法对应不同模型参数的消融研究。这些数 字 是 指 UCF 101 上 的 动 作 识 别 精 度 。 “Sam.Rate” and“Rec.Rate”“DP”, “GP”, and “DG-P” respectively denote dis-criminative “4.2. 消融研究在本节中,我们对UCF 101的第一次分裂进行了实验,以分析PRP在不同扩张采样间隔,不同重建速率,有/无运动注意下的效果。扩大采样间隔。如表1所示,区别性感知准确度始终高于随机准确度,这表明区别性感知模型可以学习有效的时空表示。具体而言,随着采样间隔s的增加,辨别感知准确性逐渐降低。从88.3%增加到60.1%,而目标任务的准确性随着采样间隔{1,2,4,8}从{1,2}的68.3%增加到69.9%,表2。结果表明,在一定程度上,较大的采样间隔会迫使模型感知到使用更长的运动信息,这提高了学习模型的表示能力然而,当涉及到{1,2,4,8,16}时,视频内容跳得太多而不能被很好地感知,这使得模型难以学习区分性表示。因此,该行动承认-点火精度停止增加。因此,我们在以下实验中设置采样间隔s∈ {1,2,4,8}。重建速率如表2所示,随着重构速率r的增加,性能增加6554当应用运动注意损失时,从68.1%到68.4%,这可以解释大的重建率r可以迫使网络聚焦于运动细节,这有助于视频理解。考虑到r=2的性能与r=4的性能相当,我们将r=2设置为默认值,以降低网络的计算成本。区分性和生成性感知。 如表2所示,区别性感知将动作识别准确度从62.0%提高到69.9%,而生成性感知将准确度从62.0%提高到68.4%。判别-生成模型进一步提高了识别率,达到70.9%,验证了判别-生成模型的有效性。帧DP GP(w/oMA)GP(w/MA) DG-P(w/MA)这两个部门的合作注意事项运动注意机制可以驱动表征关注有意义的前景区域。如表2所示,运动张力的应用将准确度从67.1%提高到68.1%,图6.激活图的可视化。注意力图是通过总结conv5层中的卷积特征通道生成的[40]。“DP”, “GP”, and “DG-P” respectivelydenote dis- criminative “考虑到具有挑战性的行动,识别任务4.3. 可视化自监督表示我们试图通过可视化特征激活图来理解PRP学习了什么,这表明时空表示关注的地方。在图6中,我们可视化并比较了不同感知模型在视频帧上的激活图。可以看出,区别感知模型(DP)学习对包含主要运动信息的不完整前景区域敏感的特征,而生成感知(GP)模型学习对运动发生的位置敏感但对更多上下文区域不同的特征。随着运动注意偏好增强运动区域,生成感知模型产生具有更多运动区域激活的激活图。通过融合这两个模型,学习到的特征集中在完整的前景区域,这意味着表示模型结合了长期和短期的运动信息。4.4. 评估自监督表示行动识别。为了验证我们的发现,我们对动作识别进行了实验,这是一个代表性的目标任务,以验证自我监督表示的有效性[39]。对于动作识别,我们使用PRP在UCF 101的第一次分裂上预训练的模型初始化骨干,并在UCF 101和HMDB 51上进行微调,表3。数据预处理和实验设置与PRP训练期间相同。我们将主干提取的特征馈送到全连接层,并获得类别预测。对于训练,微调过程在150个epoch之后停止为了测试,我们遵循[33]的协议,每个视频采样10个片段。然后对采样剪辑上的预测进行平均以获得最终预测结果。我们平均分类方法UCF 101(%)和HMDB 51(%)Jigsaw[28]51.522.5OPN[24]56.322.1Büchler[1]58.625.0马斯[36]58.832.63D ST拼图[19]65.031.3ImageNet预先训练67.128.5C3D(随机)61.824.7C3D(VCOP[39])65.628.4C3D(PRP)69.134.5R3D(随机)54.523.4R3D(VCOP[39])64.929.5R3D(PRP)66.529.7R(2+1)D(随机)55.822.0R(2+1)D(VCOP[39])72.430.9R(2+1)D(PRP)72.135.0表3.在UCF 101和HMDB 51上进行时空表示学习的自监督方法的性能比较。准确度超过3个分割,以进行公平比较。使 用 C3D 主 干 , 我 们 的 PRP 方 法 获 得 69.1% 和34.5%,分别比UCF 101和HMDB 51上的随机初始化好7.3%和9.8%,表3。与最先进的VCOP方法[39]相比,我们的PRP方法还获得了更好的3.5%和6.1%的在R(2+1)骨架下,PRP达到16.3%(72.1% vs. 55.8%)和13.0%(35.0%)vs. 22.0%)的改进。我们的PRP方法也优于VCOP,具有显著的利润率。与以往的方法相比,PRP能够学习更丰富的时空表示的视频。6555查询VCOPPRP(我们的)乐队进行曲乐队进行曲跳远自由体操乐队进行曲乐队进行曲玩Dol卧推卧推卧推卧推击剑自由泳卧推板球射击拳击打孔袋克里克保龄球板球射击板球射击板球射击克里克保龄球图7.视频检索结果的比较。红色字体表示正确的检索结果。可以看出,与目前最先进的VCOP方法相比,PRP获得了更准确、更合理的视频检索结果。(Best颜色显示)方法top1top5Top10top20top50方法top1top5Top10top20top50Jigsaw[28]19.728.533.540.049.4C3D(随机)7.420.531.944.566.3OPN[24]19.928.734.040.651.6C3D(VCOP[39])7.422.634.448.570.1Büchler[1]25.736.242.249.259.5C3D(PRP)10.527.240.456.275.9C3D(随机)16.727.533.741.453.0R3D(随机)6.718.328.343.167.9C3D(VCOP[39])12.529.039.050.666.9R3D(VCOP[39])7.622.934.448.868.9C3D(PRP)23.238.146.055.768.4R3D(PRP)8.225.838.553.375.9R3D(随机)9.918.926.035.551.9R(2+1)D(随机)4.514.823.438.963.0R3D(VCOP[39])14.130.340.451.166.5R(2+1)D(VCOP[39])5.719.530.745.867.0R3D(PRP)22.838.546.755.269.1R(2+1)D(PRP)8.225.336.251.073.0R(2+1)D(随机)10.620.727.437.453.1R(2+1)D(VCOP[39])10.725.935.447.363.9表5.HMDB51上的视频检索性能R(2+1)D(PRP)20.334.041.951.764.2表4.UCF 101上的视频检索性能视频检索。为了进一步验证其有效性,PRP测试的目标任务最近邻视频检索。由于视频检索任务是通过骨干网络提取的特征进行的,无需进行微调,因此很大程度上依赖于自监督模型的代表能力。根据[39]中的方案,对UCF 101的第一次分裂进行实验。在检索过程中,使用PRP预训练的骨干来提取视频卷积特征测试集中的每个视频用于基于其时空特征从训练集中查询k个当检索结果中的类别与测试视频中的类别相同时,我们将其视为正确检索。在表4和表5中,我们显示了top-1、top-5、top-10、top-20和top-50检索准确度,这表明PRP在所有评估指标上的表现都优于最先进的方法等效值(UCF 101上的top 1准确度为8.7 - 10.7%)。在图7中,定性结果进一步显示PRP5. 结论在本文中,我们提出了一种新的视频回放速率感知(PRP)的方法,自监督时空表示学习。通过一个简单的扩张采样策略,我们将视频增强到不同的时间分辨率,然后使用判别和生成模型来学习视频的长短期特征将自监督模型应用于视频动作识别和视频检索任务。大量的实验表明,用PRP训练的自监督模型的性能优于最先进的自监督模型,具有显著的边际。我们的工作为自监督时空表征学习提供了一个新的框架和确认这项工作得到了国家自然科学基金(NSFC)基金61836012、61671427和61771447以及国家重点研发计划(2017YFB1002400)的部分支持。6556引用[1] Uta Buchler、Biagio Brattoli和Bjorn Ommer。通过深度强化学习改善时空自我监督在ECCV,第770-786页,2018年。七、八[2] PathakDeepak , Kr aéhenb uéhlPhilipp , DonahueJef f ,DarrellTrevor和A.埃弗罗斯·阿列克谢上下文编码器:通过图像修复进行特征学习。在IEEE CVPR,第2536-2544页,2016年。2[3] PathakDeepak , B.GirshickRoss , Dolla'rPiotr ,DarrellTrevor和Hariharan Bharath。通过观察物体的运动来学习特征。在IEEE CVPR,第6024-6033页,2017年。2[4] P. Kingma Diederik和Welling Max。自动编码变分贝叶斯。见ICLR,2014年。2[5] 贾亚拉曼·迪尼希和格劳曼·克里斯汀从未标记的视频中学习与自我运动相关的图像表示。 Int.J. Com.目视,125(1-3):136-161,2017. 2[6] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在IEEE ICCV,第1422-1430页,2015年。2[7] Christoph Feichtenhofer , Haoqi Fan , Jitendra Malik ,and Kaiming He.用于视频识别的慢速网络。在IEEEICCV,第6202-6211页,2019年。2[8] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。卷积双流网络融合视频动作识别。在IEEECVPR,第1933-1941页,2016年。3[9] 风泽宇,常旭,大成涛。通过旋转特征解耦的自监督表示学习。在IEEE CVPR,第10364-10374页,2019年。2[10] Basura Fernando,Hakan Bilen,Efstratios Gavves,andStephen Gould.自监督视频表示学习与奇一网络。在IEEE CVPR,第3636一、二[11] MChuang Gan,Hang Zhao,Peihao Chen,David Cox,and Antonio Torralba.具有立体声的自监督移动车辆跟踪。在IEEE ICCV,第7053-7062页,2019年。2[12] Spyros Gidaris,Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。arXiv预印本arXiv:1803.07728,2018。2[13] Priya Goyal 、 Dhruv Mahajan 、 Abhinav Gupta 和 IshanMisra。缩放和基准自我监督的视觉表示学习。在IEEEICCV,第63912[14] Mahmudul Hasan , Jongghyun Choi , Jan Neumann ,Amit K Roy-Chowdhury,and Larry S Davis.学习视频序列中的时间在IEEE CVPR,第733-742页,2016年。4[15] H Jhuang,H Garrote,E Poggio,T Serre和T Hmdb。用于人体运动识别的大型视频数据库在IEEE ICCV,第4卷,第6页,2011中。6[16] 邓佳,董伟,苏彻理查德,李丽嘉,李凯,李飞飞。Imagenet:一个大规模的分层图像数据库。在IEEECVPR,第248-255页,2009中。1[17] S. J. Ren Jimmy , Hu Yongtao , Tai Yu-Wing , WangChuan,Xu Li,Sun Wenxiu,and Yan Qiong.听着,学着点-用于说话人识别的多模态LSTM。在AAAI,第3581-3587页,2016年。2[18] Will Kay , Joao Carreira , Karen Simonyan , BrianZhang,Chloe Hillier,Sudheendra Vijayanarasimhan,Fabio Viola,Tim Green,Trevor Back,Paul Natsev,etal. 人 体 运 动 视 频 数 据 集 。 arXiv 预 印 本 arXiv :1705.06950,2017。1[19] Dahun Kim,Donghyeon Cho,and In So Kweon.用时空立方体谜题进行自我监督视频表示学习在AAAI,第33卷,第8545一、三、七[20] Dahun Kim,Donghyeon Cho,Donggeun Yoo,and InSo Kweon. 通过完成损坏的拼图游戏来学习图像表示在WACV,第793IEEE,2018年。2[21] Diederik P. Kingma和Max Welling。自动编码变分贝叶斯。见ICLR,2014年。5[22] Alex Krizhevsky、Ilya Sutskever和Geoffrey E.辛顿使用深度卷积神经网络的图像网分类。在NeurIPS,第1106-1114页,2012中。1[23] 古斯塔夫·拉尔森迈克尔·梅尔格雷戈里·沙赫纳洛维奇。着色作为视觉理解的代理任务。在IEEE CVPR中,第6874-6883页,2017年。2[24] 李欣颖,黄嘉斌,Maneesh Singh,杨铭轩。通过排序序列的无监督表示学习。在IEEE ICCV,第667-676页,2017年。二七八[25] 玛格丽特·利文斯通和大卫·胡贝尔。形式、颜色、运动和深度的分离:解剖学、生理学和知觉。Science,240(4853):740-749,1988. 2[26] 玛格丽特·利文斯通和大卫·胡贝尔。灵长类视觉系统中形状和运动处理的神经Neuron,13(1):1-10,1994. 2[27] Ishan Misra , C Lawrence Zitnick , and Martial Hebert.Shuf- fle 和学习:使 用时序验证的无监 督学习。见ECCV,第527-544页。施普林格,2016年。2[28] Mehdi Noroozi和Paolo Favaro。通过解决拼图游戏进行视觉表示的无监督学习。见《欧洲法院判例汇编》,第69-84页。施普林格,2016年。七、八[29] Deepak Pathak 、 Philipp Krahenbuhl 、 Jeff Donahue 、Trevor Darrell和Alexei A Efros。上下文编码器:通过图像修复进行特征学习。在IEEE CVPR,第2536-2544页,2016年。2[30] Arandjelovic Relja和Zisserman Andrew。看,听,学。在IEEE ICCV,第609-617页,2017年。2[31] Khurram Soomro、Amir Roshan Zamir和Mubarak Shah。Ucf101:来自野外视频的101个人类动作类的数据集arXiv预印本arXiv:1212.0402,2012。6[32] Du Tran 、 Lubomir Bourdev 、 Rob Fergus 、 LorenzoTorresani和Manohar Paluri。用3d卷积网络学习时空特征。在IEEE CVPR,第4489- 4497页,2015年。三、六[33] Du Tran,Heng Wang,Lorenzo Torresani,Jamie Ray,Yann LeCun,and Manohar Paluri.动作识别的时空卷积的详细研究在IEEE CVPR中,第6450-6459页,2018年。三六七6557[34] Carl Vondrick Hamed Pirsiavash和Antonio Torralba生成具有场景动态的视频。在NeurIPS,第613-621页,2016中。2[35] 方婉,魏鹏旭,韩振君,焦俊,叶七娘.弱监督目标检测的最小熵潜在模型。IEEE传输模式分析马赫内特尔,41(10):2395-2409,2019. 1[36] Jiangliu Wang ,Jianbo Jiao ,Linchao Bao , ShengfengHe,Yunhui Liu,and Wei Liu.通过预测运动和外观统计的视频自监督时空表示学习。在IEEE CVPR,第4006-4015页,2019年。二、三、七[37] 王小龙和古普塔·阿比纳夫。使用视频的视觉表示的在IEEE CVPR,第2794-2802页2[38] 王小龙,何开明,古普塔·阿比纳夫。自监督视觉表征学习的传递不变性在IEEE CVPR,第1338-1347页,2017年。2[39] 徐德静、肖军、周昭、简绍、谢帝、庄悦庭。通过视频剪辑顺序预测的自监督时空
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功