没有合适的资源?快使用搜索试试~ 我知道了~
9244基于对比视频表示学习的长短视点特征分解Nadine Behrmann1Mohsen Fayyaz2,†Juergen Gall2MehdiNoroozi11博世人工智能中心2波恩大学{nadine.behrmann,mehdi.noroozi} @ de.bosch.com,{fayyaz,gall} @ iai.uni-bonn.de摘要自监督视频表示方法通常关注视频中的时间属性的表示然而,固定与非固定属性的作用较少探讨:在整个视频中保持相似的固定特征使得能够预测视频级动作类。表示随时间变化的属性的非平稳特征对于涉及更细粒度的时间理解的下游任务( 我们认为,一个单一的表示,以捕捉这两种类型的功能是次优的,并建议分解的表示空间为固定和非固定的功能,通过对比学习从长和短的意见,即。长视频序列和它们的较短子序列。固定特征在短视图和长视图之间共享,而非固定特征聚合短视图以匹配对应的长视图。为了实证验证我们的方法,我们证明,我们的固定功能的工作特别好的动作识别下游任务,而我们的非固定功能的动作分割上表现更好。此外,我们分析了学习的表示,并发现,静态特征捕获更多的时间稳定,静态属性,而非静态特征包含更多的时间变化的。1. 介绍学习丰富的视频表示是一般视频理解的关键挑战。一个理想的表示提取有用的信息,有利于许多下游任务,如动作识别,检索和动作分割。在监督设置中学习这样的表示本质上偏向于静态特征[24]。但是,为了解决更复杂的问题--†在博世人工智能中心实习期间完成的工作。图1.视频属性可分为两部分:在长视图和短视图之间共享的静止特征(以黄色显示),以及聚合短视图以匹配相应长视图的非静止特征(以绿色显示)。流任务,需要视频的时间属性,如时间动作分割,我们需要一个更多样化的功能集。作为补救措施,我们训练我们的网络来表示静态和非静态特征。为了直观地了解情况,让– 但在另一个中是非静止的:示出了制备鸡尾酒的不同步骤,例如握住瓶子、倾倒左瓶和倾倒右瓶。在这里,视频的station-ary属性使我们能够预测整体动作类,即.调鸡尾酒另一方面,非平稳属性使得能够实现更细粒度的时间区分,例如:预测视频中何时出现不同的步骤。理想情况下,这两种类型的属性都应该由视频模型表示。在监督环境中学习表示,通常涉及在大规模标记数据 集 上 进 行 预 训 练 , 例 如 具 有 视 频 级 注 释 的Kinetics[17],抑制强静态偏差[24]。因此,它们主要捕获静止特征,但在很大程度上忽略非静止特征,因为静止特征足以用于动作识别。自我监督学习提供了一个有前途的方向9245解决这个缺点。由于监督信号来自数据的底层结构,因此它有可能提取更多的描述性特征。先前的几种自监督方法旨在通过设计时间借口任务来捕获视频中的时间特征,例如预测时间变换[15]或视频速度[2]。这些方法不被明确地鼓励捕获静止和非静止特征。相比之下,我们显式地将表示空间分解为固定和非固定特征,使我们能够解决更多样化的下游任务,包括动作识别和时间动作分割。根据自监督学习的最新趋势,我们提出的方法适合于对比学习框架。引导我们区分静止和非静止特征的监督信号从给定视频的长视图和短视图中出现。将对比学习简单地应用于长视图和短视图会产生一组类似地表示长视图和短视图的特征我们认为,这一假设是唯一有效的一个子集的功能,我们称之为固定的。另一个子集,我们称之为非平稳特征,包括一组从短视图到长视图聚合的特征,即。将几个短视图的属性组合起来,我们就得到了长视图的属性,见图1。因此,在长视图和短视图之间强加朴素相似性容易忽略非平稳特征,这对于不同的下游任务是至关重要的。因此,我们将最终特征分成两个不相交的子集,其稍后用于两个单独的对比损失。对于一个给定的长视图的固定功能,我们提供了一个积极的一对,通过一个相应的短视图的固定功能。而所有对应的短视图的非静止特征的聚集形式形成长视图的非静止特征的正对。我们根据经验验证了上述论点,并在不使用任何标签的情况下在Kinetics数据集[17]上训练我们的方法。我们在几个下游任务和数据集上评估模型,并分析学习到的表示;我们在此强调主要结果。我们观察到station-ary特征对于动作分类更有益,特别是在具有高静态偏差的数据集上[24],如UCF 101 [33]。另一方面,非平稳特征在涉及更多时间方面的下游任务上实现了更高的性能,例如早餐数据集上的时间动作分割[19]。我们表明,我们的非平稳特征在这个数据集上的表现大大优于据我们所知,我们是第一个对视频表示学习进行这种评估的人。我们提出的方法优于一个强大的对比学习基线使用数据增强的显着利润率在所有三个数据集,并达到国家的HMDB51的最新检索结果[20]。此外,我们分析了学习的表示,并发现静态特征捕获的属性,保持类似的时间,并可以在几个帧中检测到,而非静态特征包含更多的时间变化的属性,这是发现时,观察更多的帧。2. 相关工作视频的前置文本任务。虽然图像级借口任务可以扩展到视频[16,18],但视频中的时间结构例如,可以从帧[27]或视频剪辑[42]的顺序导出监督信号时间上下文可以用来创建完形填空程序[25]。其他任务基于帧速率,例如速度预测[2]、步速预测[40]、回放速率感知[43]或预测时间变换[15]。对比学习。最初在[6]中提出,实例识别已成为许多现代对比方法的基本原理。对比损失,这是第一次提出[32],后来推广为信息损失[37],涉及积极和消极的特征对。它的目标是最大化正对的相似性– 其是通过生成相同数据的不同视图而获得的-并且最小化负对的相似性。可以从不同的通道[35],计数[28],排列[26]或通过增强来获得视图。用于构建视图的增强,例如[4]中探索的那些,对学习表征有实质性影响。例如,大量的裁剪会导致遮挡不变的表示[31]。为了防止通过低级图像统计(例如边缘、拐角等),需要一组具有挑战性的底片这可通过存储器组[13]来实现,其使得能够存储大量的负样本或硬负挖掘。例如,[9]和后续工作[10]从特征图中的不同时空位置获得硬底片,而[1]基于过去和未来的剪辑构建底片。最近,[5]和[8]已经证明否定词可以完全省略。在[11]中研究了硬阳性的作用。我们的方法可以类似地解释:通过将长视图与短视图或聚合视图配对,任务的困难在于正对,这需要模型在固定和非固定特征方面进行连接。3. 方法我们的长短视图特征D合成(LSFD)方法的关键思想在于将视频表示分解成固定和非固定特征,并且构建数据的短视图和长9246S(1)(N)SSSSLSS图2.我们从长视图和短视图中提取特征,并将其分解为静止和非静止特征,分别以橙色和绿色显示固定特征随时间保持相似,并且由长视图和短视图共享,并且作为正对(由红色箭头指示)。另一方面,非平稳特征捕获时间变化;我们聚集短视图的非平稳特征以获得长视图的正。参见图2。短视图提供局部属性,因为它们跨越有限的时间感受野,而全局时间属性通过长视图的较大时间感受野更好地感知。因此,在短视图和长视图之间施加相似性的简单解决方案不一定是最佳的。我们建议通过将表示空间分解为两个部分来建立长视图和短视图之间的连接:一个截面表示在短视图和长视图之间共享的固定特征。另一部分表示属性将它们馈送到共享的主干:fθ(xl)=ξl=(ψl,φl),f θ(x(i))= ξ(i)=(ψ(i),φ(i)),其中i ∈{1,. . . ,N}。这允许我们在长视图和短固定特征表示随时间保持相同的属性,而非固定特征随时间聚合总的来说,它们满足以下两个性质:将短视图聚合到相应的长视图ψl'ψ(i)对于i ∈ {1,. . . ,N},(1)视图,我们称之为非平稳特征。 因此,在本发明中,允许网络建立适当的连接。在短视图和长视图之间,而不被强迫类似地表示它们。我们通过在特征空间的每个部分上单独的对比损失来施加固定和非固定特征的概念。 在下文中, 我们更详细地讨论我们的方法的不同组件和设计选择。3.1. 固定和非固定特征对于给定的视频帧序列,我们获得长由所有帧组成的视图xl,以及N个非重叠子序列,x(1),. . .,x(N),其用作短视图。φ′g(φ,. . . ,φ)。(二)这里,聚合函数g可以是获取短视图的非静止特征并将它们映射到长视图的非静止特征的任何函数。选择一个合适的聚合函数是不平凡的,值得广泛的调查。候选函数的范围从简单的函数,如求和,到更复杂和可学习的函数,例如线性变换、MLP或递归网络。我们在第4.1节中提供了消融。为了加强方程中的相似性。(1)和(2)在训练过程中,我们构建了以下正对,用于两个单独的对比损失。 第一pair(ψ(j),ψ)针对在长的s ssl这使我们能够为静态和静态构建正对。非固定特征,见图2。以及根据Eq.(一). 第二对(g(φ(1),. . .,φ(N)),φ(N)对应于等式(2),其中-s sl更准确地说,我们训练了一个参数函数f θ,它获取一系列视频帧并将它们映射到一个表示空间:f θ(x)=ξ=(ψ,φ),其中ψ,φ分别表示x的平稳和非平稳特征。我们通过以下方式计算长视图和短视图的特征聚合短视图的非静止特征以匹配长视图的非静止特征。对于通过上述过程获得的任何给定的特征对(z1,z2),我们按照对比学习[4]中的最新趋势9247S·可学习变换h,这里是MLP,以及用于缩放余弦相似度的温度参数τ,由下式实例识别丢失。最后,我们通过在长视图上应用InfoNCE来添加实例识别损失。1simh(z1,z2)=h(z1)Th(z2).(三)完整的功能。为此,我们经由标准视频增强获得长视频序列的第二视图。3.2. 培养目标τh(z1)h(z2)这相当于标准的对比学习。我们的训练目标包括三个独立的信息损失应用于固定,非固定,和完整的L实例=−logexp(simhi(ξl,ξ(l))Σexp(sim(ξ,ξ¯))。(七)特点:L=L固定+L非固定+L实例,⑷4. 实验ξ¯l∈N∪{ξl}hiL l我 们 将 在 下 面 讨 论 。 我 们 使 用 三 种 不 同 的 MLPheashs、hn和hi来计算三种单独的损耗。我们使用一组由随机视频组成的底片:N={fθ ( x¯l )=ξn eg=( ψn eg , φn eg ) |x'l是随 机视频}。为了避免通过低级视频统计的快捷方式,我们应用相同的标准视频增强集,包括随机调整大小的裁剪、水平翻转和颜色增强,以独立地长视图和短视图。固定损失。在长视图和所有短视图之间共享随时间保持不变的属性,例如非移动对象或背景;因此应该类似地表示。因此,短视图的静止特征应当捕获与长视图的静止特征相同的属性我们通过应用以下损失函数来鼓励这样的属性:我们现在评估我们的LSFD方法在不同的下游任务。先前的方法基于它们在动作识别任务上的表现来评估学习的表示;最常见的是,模型在 UCF 101和HMDB 51上进行微调。尽管微调具有实用价值,但它是一种不受控制的评估[14],并且易于过拟合。此外,由于这些数据集中的静态偏差,动作分类提供了对学习表示的相当不完整的评估[24]。稀疏的全局帧采样策略[41]适用于动作识别;即使在仅使用单个帧的极端情况下,UCF 101的精度仍然很高。这表明时间信息对于这些任务不太重要。为了更好地理解我们的表示,我们通过添加另一个迁移学习任务来扩展当前的评估协议:动作分割与动作识别不同,动作识别中每个视频给出单个动作标签,动作分割使用精细的经验(sim (ψ(j),ψ))粒度时态注释。作为场景和背景hssl(五)L稳态=−logΣexp(sim(ψ(j),ψ¯))。通常在整个视频中保持相同,更好的时间ψ¯l∈Nψ∪{ψl}hssl为了在时间上将视频分割成发生的不同动作,此外,我们的这里,ψ(j )是随机选择的短视图的平稳特征,并且Nψ={ψneg|(ψn ∈g,φn ∈g)∈N}。非平稳损失。作为固定特征的补充,非固定特征表示变化的视频内容:移动的物体和人、运动、场景中的变化等。长视图的非静止特征应当捕获在所有子序列中发生的时间变化。我们通过应用以下损失来鼓励这样的属性:预训练模型在此评估中被冻结,并用作特征提取器为了通过下游任务来扩展评估,我们分析了学习到的表示的属性。在这里,我们的目标是更好地了解哪些类型的属性表示的固定和非固定的功能,并调查如何以及为什么它们是不同的。对于自监督学习,我们使用Kinetics-400[17]并丢弃标签。我们使用3D-Resnet 18主干[12]在所有实验中,除非另有说明,并将特征图汇集成单个512维特征向量。我们将这个特征向量分解成两个相等的块L非平稳=−logexp(simhn(φg,φl))Σexp(simhn(φg,φ¯l))(六)(大小为256)的固定和非固定特征。我们使用三个单独的MLP头hs、hn和hi,它们是重新定义的。其中φφ¯l∈Nφ∪{φl}=g(φ(1),. . . ,φ(N))是聚合的ver-在自我监督训练之后移动,并且不会转移到下游任务。我们用一个记忆库来存储六十五536个阴性。我们通过采样构造长视图gs s9248sion 的 的 短 视图 非平稳 特征和Nφ={φn ∈g|(ψn ∈g,φn ∈g)∈N}。N个L帧,我们将其划分成L帧的N个非重叠子序列(短视图)。设L=89249VIE [44]LA-IDT [36][15]第十五话L实例LSFD(我们的)3D-R183D-R183D-R183D-R183D-R18七十七。2537L损失AggNL实例和2+L非平稳和所有线性2所有MLP2所有GRU2所有Sum3所有Sum4top1精度UCF101HMDB51七十二7463七十七。 151375. 七点四十九675.5510七十七。八点五十二178岁0523表2.通过对UCF101和HMDB51进行微调,针对我们不同的损耗项和几种设计选择进行烧蚀。聚合函数(Agg)和子序列的数量N。我们看到聚合函数的复杂性和学习表示的司生产的各类七十二344. 8七十二844. 079岁。3四十九8七十二7四十六岁。3表1.通过对UCF101和HMDB51拆分1进行微调与先前方法进行比较。第一个块显示了具有不同架构(Arch)和预训练数据集的方法,而最后两个块包含与我们的方法具有相同架构和预训练数据集的方法†表示在UCF 101上预训练的方法,而‡表示在Kinetics-600上预训练的方法。其余方法在Kinetics-400上进行预训练。所有实验,除非另有说明,并提供具有不同N值的实验。更多详情请参见Sup.Mat。我们最重要的基线是一个对比学习基线,仅使用Eq中的实例进行训练。(七)、这对应于传统的对比学习,其中数据增强[13]应用于视频,而没有明确关注时间变化。这里,我们使用L=16帧。4.1. 动作识别用于评估自监督表示的最广泛使用的框架利用自监督预训练的权重来初始化网络,然后在较小的注释数据集上对其进行微调。我们考虑标准基准UCF101和HMDB51,并将我们的方法与表1中的先前自监督视频表示方法进行比较。Sup.Mat中提供了用于微调的超参数由于我们的方法仅基于RGB视频输入,因此我们排除了多模态方法,例如[30,29]。第一自监督方法top1精度UCFHMDBShuffle Learn† [27] CaffeNet 50.2 18.1OPN† [22]VCOP† [42]VGGR3d五十九8六十四923岁829岁5+L平稳和2274岁474岁8四十八751岁6BFP [1]2D3D-R1866岁。4四十五3DPC [9]2D3D-R3475. 7三十五7MemDPC [10]2D3D-R3478岁141岁2CBT‡ [34]S3d79岁。544.6电子邮件:info@speednet.comS3D-G81. 1四十八83DRot‡ [16]3D-R1862. 9三十三岁。7方法对于HMDB51上的较大N值略微受影响[18]第十八话3D-R18六十五8三十三岁。79250LLLLLL表1中的块包括具有较浅网络(如CaffeNet)和显著较深架构(如Resnet34和S3D)的方法,因此不能直接与我们的方法进行比较。第二和第三块包括使用相同网络架构的方法。这里,LSFD是用N = 2和Sum聚合训练的。使用3D-Resnet 18主干,我们的方法改进了我们的对比基线(实例)在两个数据集上都有一个公平的保证金。虽然我们在HMDB51上优于具有类似架构的先前方法,但我们的方法在UCF101上不如[15]的方法我们将UCF101上较小的相对增益归因于其固有的静态偏置[24,41],这在HMDB51上不太明显此外,请注意,由于自监督学习与HMDB51等较小的数据集更相关,因此与中等大小的数据集UCF101相比,结果更重要为了更好的比较,我们另外提供了具有C3D骨架的结果在这里,我们优于所有以前的方法。也就是说,我们在UCF101和HMDB51上的表现分别优于[15]10%和12%每个损失项有多大的影响?我们的LSFD方法包括三个独立的InfoNCE损失。我们通过逐步将它们添加到实例来研究它们中的每一个对结果表示的影响;结果在Ta的第一个块中提供。 表2. 添加固定或非固定的性能提高UCF101和HMDB51,这表明,固定和非固定的功能是有用的,ful的动作识别。注意,与固定相比,在HMDB51上添加非固定的相对增益更高。两个损失项相加得到最高性能-曼斯,正如所料。9251基线全稳态非稳态--0.40.30.20.10.0UCF1010.0 0.2 0.4 0.6 0.81.0召回0.250.200.150.100.05HMDB510.0 0.2 0.4 0.6 0.8 1.0召回HMDB51与UCF101的比较。注意,对于k > 1,该评估出于这个原因,我们还在图3中呈现了精确度-召回率曲线(有关详细信息,请参见Sup.Mat.)。我们的固定功能与全功能性能相当;非平稳特征稍差。 这在UCF101上更加明显,其中静态偏置更高[24]。静态和非静态特征都比我们在两个数据集上的对比基线有所改善。图3. UCF 101和HMDB 51的精密度-召回率曲线。平稳特征在动作识别上优于非平稳特征;都超过了我们的对比基线。聚合的影响是什么?用于聚合等式(1)中的非平稳特征的函数(2)在我们提出的方法中起着关键的作用。我们考虑的最简单的非参数函数对非平稳特征进行求和。我们还测试了参数和越来越复杂的聚合函数:线性 映 射 、 MLP 和 GRU ( 对 于 细 节 , 我 们 参 考Sup.Mat.)。 结果在表2的第二块中提供。总的来说,我们发现,最简单的聚合形式的总和产生最高的性能。 使用非参数聚合函数会在主干上施加更多负载,使其承担繁重的工作,而参数聚合函数则会放松任务,通过改变每个φi的影响来实现潜在的捷径。我们为剩余的实验保留Sum聚合。我们应该使用多少个子序列?我 们 消除了不同数量的子序列N对表2的第三块中的表示的影响。我们观察到从头开始训练N=3和N=4是次优的;对于较大的N,任务变得越来越困难(细节在补充材料中提供)。因此,我们遵循课程学习策略,其使用用Nl个子序列训练的预训练模型来初始化N个子序列的训练。虽然增加N改善了UCF101上的表示,但我们观察到HMDB51上的下降4.2. 视频检索接下来,我们评估我们的视频检索方法我们遵循[42]的协议:我们使用预训练的网络在数据集中的所有视频的最后一层提取卷积特征对于每个测试视频,我们从训练视频中检索前k个对于表3中的R@k结果,如果k个最近邻包含相同类别的至少一个视频,则我们计数正确的检索。虽然我们在HMDB51上改进了以前的方法,但我们在UCF101上的检索结果不如CoCLR [11]。请注意,CoCLR使用了一个更深层次的架构。这与我们从微调评估中观察到的结果一致,其中相对改善更高4.3. 时间动作分割我们通过时间动作分割下游任务评估我们的方法的通用表示学习能力。给定未修剪的视频,时间动作分割的目标是同时在时间上分割每个动作并对每个获得的片段进行分类。最近的最先进的动作分割方法,例如[7,23],在视频帧的预提取特征之上训练时间动作分割模型。通常,视频帧使用深度3D CNN来表示,例如在Kinetics数据集上预训练的I3D [3]或手工制作的IDT特征[38]。在这个实验中,我们使用早餐数据集。该数据集由包含细粒度动作的未修剪视频组成,这些动作主要通过视频中的时间变化来区分,因为场景、演员和对象在整个视频中保持相似。使用Breakfast数据集可以更好地评估我们的方法表示时间变化的能力。为此,我们使用我们的冻结预训练模型作为特征提取器,并在[7]之后然后,我们在顶部添加一个动作分割模型,即MS-TCN [7],并以完全监督的方式训练动作我们使用MS-TCN的官方公开代码进行培训和评估;更多培训详情请参见Sup. Mat。由于分割模型依赖于预提取的特征,因此该评估比微调我们学习的表示如何适合于涉及更好的时间理解的该下游任务更可靠地揭示。本节中的所有模型均基于仅在RGB输入上操作的3D-Resnet 18评估指标。对于分割模型的评估,我们报告了逐帧准确度(Acc)、分段编辑距离以及重叠阈值10%、25%和50%时的分段F1评分,如[21]所述(详情请参见Sup.Mat.)。虽然逐帧准确度提供了基本评级,但它对过分割错误和短动作类相当不敏感;较长的动作类比短的动作类具有更高的影响。分段编辑距离测量模型预测动作类的排序的程度,并且不受动作类的持续时间的节段性F1评分是指-精度9252L方法架构R@1UCF101R@5 R@10R@20R@1HMDB51R@5 R@10R@20VCOP [42]R3d十四岁1三十3四十451岁17 .第一次会议。6二十二岁9三十四4四十八8VCP [25]R3d十八岁6三十三岁。6四十二5五十三57 .第一次会议。6二十四岁4三十六3五十三6MemDPC [10]2D3D-Resnet1820块2四十452岁4六十四77 .第一次会议。7二十五7四十6五十七7电子邮件:info@speednet.comS3D-G十三岁028岁1三十七5四十九5----PRP [43]R3d二十二岁8三十八岁。5四十六岁。755. 28. 2二十五8三十八岁。5五十三3温度变送器[15]3D-Resnet18二十六岁1四十八5五十九169岁。6---CoCLR [11]S3D-G五十三369岁。4七十六。682岁023岁2四十三2五十三5六十五5LFSD(我们的)3D-Resnet1844. 9六十四0七十三。281. 4二十六岁7五十四766岁。4七十六。0表3. 在UCF101和HMDB51上通过最近邻视频检索与其他方法进行比较。图4.来自Breakfast数据集的两个视频的LSFD的定性结果,示出了用于动作分割的固定(S)、非固定(N)和完整(F)特征的质量。非静止特征提供比静止特征更高质量的表示,验证它们捕获细粒度时间变化的能力。方法随机初始化。动力学LSFD ,FLSFD ,L实例ACC三十二6四十五1五十七9六十岁。1五十八9六十岁。6编辑41岁2五十四550块3五十六3五十四7六十岁。0F1@{ 10,25,50}39岁332. 四点二十一。8四十七144.6四十六岁。1四十652岁041岁739岁941岁7三十五7四十二831岁031岁4三十二628岁8三十五3表4.早餐数据集分割1上的动作分割我们报告几个基线和我们的LSFD方法的结果我们进一步将完整的(F)特征分为平稳(S)和非平稳(N)特征。(N)以研究其效果。所有特征提取模型的主干是3D-ResNet18。确保分段模型的一般质量,因为它会惩罚过度分段,并且对操作类的持续时间不敏感。结果在表4中,我们提供了我们的无监督LSFD方法的结果以及几个基线,包括随机初始化,用Kinetics监督预训练的模型,以及我们的对比基线(实例)。有趣的是,我们观察到,通过无监督预训练获得的所有特征,即。9253表的第二个块,改进超过使用Kinetics监督训练的模型。这验证了我们的论点,即无监督学习可以提供更丰富的表示,能够更好地转移到不同的,看不见的任务。此外,我们的方法提高了对比基线以及监督基线的显着利润率,表明我们的长和短的意见,使更好的时间理解。虽然准确性的差异是明显的,但在分段编辑距离和F1分数中甚至更加突出,这更好地衡量了分段的整体质量。为了研究特征分解,我们仅使用预训练模型的静态或非静态特征作为分割模型的输入。表4中的定量结果表明,我们的非平稳特征在所有指标上都优于平稳特征,为时间分割模型提供了更高质量的表示。如在图4中的原始帧中可以看到的,跨视频的静态信息对于大多数时间片段保持相似。因此,在时间上将这样的视频分割成细粒度动作是一个具有挑战性的问题,需要在时间变化表示方面的高质量特征。此外,我们在图4中提供了一些定性结果,其中我们观察到与固定特征相比,非固定特征的质量更高。9254LLLLL0.30.20.10.30.20.10.60.40.20.20.10.0一二四八十六三 十 二 个#帧(一)0.00.3 0.61.0余弦相似度(b)第(1)款0.00.7 0.8 0.91.0余弦相似度(c)第(1)款0.00.2 0.4 0.6 0.8S与N(d)其他事项图5. 特征分解分析。(a)基于分类所需的帧数的HMDB51的不同子集的检索准确度。我们观察到,在检索需要更多帧(长视图)的视频时,非静止特征(N)优于静止特征(S)。对于需要较少帧(短视图)的视频,情况正好相反。随时间的余弦相似性(b)具有L实例和(c)不具有L实例。我们计算S和N特征随时间的相似性,并在HMDB51上显示计算的相似性的直方图(b)当用L个实例训练时,S个特征以高值为中心; N个特征分布得更均匀。(c)当在没有L实例的情况下训练时,S和N特征都随时间稳定。(d)S和N特征之间的相似性,当训练有和没有L实例。我们观察到,去除L实例导致退化的解决方案,其中S和N特征相似。4.4. 特征分解分析上述实验通过评估固定和非固定特征在专用下游任务上的性能来验证我们关于特征分解的假设。在下文中,我们进行更具体的分析,以更好地了解我们的分解特征。关于实验细节,我们参考Sup.Mat.我们是否捕获了短期和长期属性?图5(a)示出了可以用不同数量的帧分类的视频中的静止和非静止特征的检索准确度在每一种情况下,我们排除那些被正确分类的帧数较少的视频,即可以用单个帧分类的视频被排除在可以用两个帧分类的视频集合之外,等等。而静态特征在可以用更少帧(短视图)分类的视频上实现更强的检索准确性,即。更少的时间上下文,非静止特征对于需要更多帧(长视图)和更长时间上下文的视频更有益固定特征是否随时间推移更稳定?我们将给定的视频分割成16帧的剪辑,计算所有剪辑的固定和非固定特征以及特征随时间的相似性。我们在图5(b)中示出了HMDB51上计算的相似性的直方图。固定特征以高值为中心,而非固定特征分布得更均匀。这表明静止特征随时间保持更稳定,而非静止特征变化。实例的影响是什么?图5(c)显示了与图5(b)相同的直方图,用于在没有实例的情况下训练的网络。我们观察到,与图5(b)相反,固定和非固定特征表现相似随着时间的推移稳定。此外,我们在图5(d)中比较了具有和不具有实例的长视图的固定和非固定特征之间的相似性的直方图。当在没有实例的情况下训练时,静态和非静态特征彼此非常相似,这表明将静态特征复制为非静态特征的退化解决方案实例避免这一点的一个原因可能是它推动网络利用特征空间的全部容量,防止在整个特征空间中出现冗余信息。5. 结论在本文中,我们介绍了一种新的方法,通过对比学习从长和短的意见,视频表示分解成固定和非固定的功能。我们在多个下游任务和数据集上广泛地评估了所学习的表示,并研究了各种设计选择以及固定和非固定特征的作用。总的来说,我们发现特征类型与下游任务的性质之间存在有趣的相关性:静态特征在具有静态偏差的任务和数据集上表现更好,例如UCF101上的动作识别,而非静态特征更有利于动作分割,这需要更好的时间理解。我们证明了在HMDB51数据集上 用 于 动 作 识 别 的 性 能 的 实 质 性 增 益 , 并 且 在Breakfast数据集上用于动作分割的性能优于监督基线。此外,我们分析了我们的特征分解,发现平稳特征随着时间的推移更加稳定,而非平稳特征则有所不同。JG得到了Deutsche Forschungsgemeinschaft(DFG,德国研究基金会)GA 1927/4-2(FOR 2535预期人类行为)和ERC启动资助ARCA(677650)的支持。检索访问频率频率频率9255引用[1] Nadine Behrmann,Juergen Gall,and Mehdi Noroozi.通过双向特征预测的非监督视频表示学习。在WACV,2021年。二、五[2] Sagie Benaim , Ariel Ephrat , Oran Lang , InbarMosseri , William T. Freeman , Michael Rubinstein ,Michal Irani,and Tali Dekel. Speednet:学习视频中的速度。在CVPR,2020年。二、五、七[3] J oaoCarreira和Andr e wZisserman。Quovadis,动作识别?新模型和动力学数据集。在CVPR,2017年。六个[4] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML,2020。二、三[5] Xinlei Chen,Kaiming He.探索简单的连体表示学习。arXiv,abs/2011.10566,2020。二个[6] Alexey Dosovitskiy , Philipp Fischer , Jost TobiasSpringenberg,Martin Riedmiller,and Thomas Brox.使用示例 卷积 神经 网络 进行 区分性 无监 督特 征学 习。InTPAMI,2016. 二个[7] Yazan Abu Farha和Juergen Gall。MS-TCN:用于动作分割的多级时间卷积网络。在CVPR,2019年。六个[8] Jean-BastienGrill , FlorianStrub , FlorentAltche´ ,CorentinTallec,Pierre Richemond,Elena Buchatskaya,Carl Doersch , Bernardo Avila Pires , Zhaohan Guo ,MohammadGhesh-laghiAzar , BilalPiot , KorayKavukcuoglu , Re´miMunos , and Michal Valko.Bootstrapyour own latent: 一 种 新 的 自 我 监 督 学 习 方 法 。 在NeurIPS,2020年。二个[9] Tengda Han,Weidi Xie,and Andrew Zisserman.通过密集预测编码的视频在ICCV研讨会,2019年。二、五[10] Tengda Han,Weidi Xie,and Andrew Zisserman.用于视频表示学习的记忆增强密集预测编码。在ECCV,2020年。二、五、七[11] Tengda Han,Weidi Xie,and Andrew Zisserman.用于视频表示学习的自监督协同训练。在NeurIPS,2020年。二五六七[12] 原贤章片冈广胜佐藤丰时空3D CNN可以追溯2D CNN和ImageNet的历史吗?在CVPR,2018年。4[13] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比。在CVPR,2020年。二、五[14] 何 凯 明 , 罗 斯 · 格 希 克 和 皮 奥 特· 多 勒 。 重 新 思 考imagenet预训练。在ICCV,2019年。四个[15] Simon Jenni,Givi Meishvili,and Paolo Favaro.通过识别时间变换的视频在ECCV,2020年。二、五、七[16] 景龙龙和田英丽。通过视频旋转预测的自监督时空特征学习。arXiv,abs/1811.11387,2018。二、五[17] Will Kay 、 Joao Carreira 、 Karen Simonyan 、 BrianZhang、Chloe Hillier、Sudheendra Vijayanarasimhan 、Fabio Viola、Tim Green、Trevor Back、Paul Natsev、Mustafa Suleyman和Andrew Zisserman。人体动作视频数据集。arXiv,abs/1705.06950,2017。一、二、四[18] Dahun Kim,Donghyeon Cho,and In So Kweon.用时空立方体谜题进行自我监督视频表示学习在AAAI,2019年。二、五[19] 作者:Hilde Kuehne,Ali B. Arslan和Thomas Serre。行动的语言:恢复目标导向的人类活动的语法和语义。CVPR,2014。二个[20] Hilde Kuehne , Hueihan Jhuang , Est´ıbaliz Garrote ,Tomaso Poggio,and Thomas Serre. HMDB:一个用于人体运动识别的大型视频数据库。见ICCV,2011年。二个[21] 主演:Michael D.Flynn,Rene 'Vidal,Austin Reiter,and Gregory D.海格用于动作分割和检测的时间卷积网络在CVPR,2017年。六个[22] 李欣颖,黄嘉斌,Maneesh Singh,杨铭轩。通过排序序列的无监督表示学习。InICCV,2017. 五个[23] Shi-Jie Li , Yazan AbuFarha , Yun Liu , Ming-MingCheng,and Juergen Gall. MS-TCN++:用于动作分割的多级时间卷积网络。TPAMI,2020年。6[24] Yingwei Li,Yi Li,and Nuno Vasconcelos.回响:无表征偏差的行为识别.在ECCV,2018。一二四五六[25] Dezhao Luo,Chang Liu,Yu Zhou,Dongbao Yang,Can Ma,Qixiang Ye,and Weiping Wang.用于自监督时空学习的视频完形填空程序。在AAAI,2020年。二、七[26] Ishan Misra和Laurens van der Maaten。预文本不变表示的自监督学习在CVPR,2020年。2[27] 伊尚米斯拉角劳伦斯·齐特尼克和马夏尔·赫伯特Shuf-fle和学习:使用时序验证的无监督学习。在ECCV,2016年。二、五[28] Mehdi Noroozi,Hamed Pirsiavash和Paolo Favaro。通过学习数数来学习表象. InICCV,2017. 2[29] 曼 德 拉 帕 特 里 克 , Yuki M. 作 者 : Asano , PolinaKuznetsova , Ruth Fong , Jo aoF. Henriques , Geof freyZweig,andAndreaVedaldi.来自广义数据转换的多模态自监督arXiv,abs/2003.04298,2020。五个[30] A. J. Piergiovanni、Anelia Angelova和Michael S.亮无监督视频表示学习的演变损失。在CVPR,2020年。五个[31] Senthil Purushwalkam和Abhinav Gupta。揭秘对比自我监督学习:不
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功