没有合适的资源?快使用搜索试试~ 我知道了~
138210从未修剪的视频中学习:具有层次一致性的自我监督视频表示学习0Zhiwu Qing 1 Shiwei Zhang 2 � Ziyuan Huang 3 Yi Xu 4 Xiang Wang 10Mingqian Tang 2 Changxin Gao 1 � Rong Jin 2 Nong Sang 101华中科技大学人工智能与自动化学院图像处理与智能控制重点实验室 2阿里巴巴集团3新加坡国立大学ARC 4大连理工大学0{qzw, wxiang, cgao, nsang}@hust.edu.cn0{zhangjin.zsw, mingqian.tmq, jinrong.jr}@alibaba-inc.com0ziyuan.huang@u.nus.edu yxu@dlut.edu.cn0摘要0自然视频为自我监督学习提供了丰富的视觉内容。然而,大多数现有的学习时空表示的方法依赖于手动修剪的视频,导致视觉模式的多样性有限,性能提升有限。在这项工作中,我们旨在通过利用未修剪的视频中更丰富的信息来学习表示。为此,我们提出在视频中学习一致性的层次结构,即视觉一致性和主题一致性,分别对应于通过较短时间间隔分离时倾向于在视觉上相似的剪辑对和通过较长时间间隔分离时倾向于共享相似主题的剪辑对。具体而言,我们提出了一个层次一致性学习框架HiCo(Hierarchical Consistencylearning),其中通过对比学习鼓励视觉一致的剪辑对具有相同的表示,而通过一个主题分类器将主题一致的剪辑对进行耦合,以区分它们是否相关。此外,我们还对所提出的层次一致性学习引入了逐渐采样算法,并证明了其在理论上的优越性。实验证明,HiCo不仅可以在未修剪的视频上生成更强大的表示,而且在应用于修剪的视频时也可以提高表示质量。这与标准对比学习不同,后者无法从未修剪的视频中学习到适当的表示。01. 引言0自我监督学习在计算机视觉中至关重要,并且已经展现出利用未标记的数据学习强大的时空表示的巨大潜力。0� 通讯作者。项目主页:https://hico-cvpr2022.github.io/。0图1(a)是一段未修剪的视频示例,展示了相隔较短时间的剪辑具有相似的视觉元素,而相隔较长时间的剪辑,尽管它们的视觉内容不同,但具有相同的主题,比如相同的相扑比赛。图1(b,c)分别展示了在HMDB51 [27]和UCF101[49]上对传统对比学习(CL),即SimCLR[7]和HiCo进行的线性评估,其中分别在Kinetics-400[5]的原始(修剪的)版本和未修剪版本上进行了预训练。0目前无监督视频表示学习的最新方法通常基于对比学习框架[13, 44,45],该框架鼓励来自同一视频的剪辑的表示相近,而来自不同视频的剪辑的表示彼此之间尽可能远离[7,21]。在大多数方法中,它们是在手动修剪的视频上进行训练,例如Kinetics-400[5]。然而,收集如此大规模的修剪视频数据集是费时费力的。138220修剪过程可能会在数据中引入某种人为偏见。相比之下,自然视频具有更丰富和多样化的视觉内容,并且更容易获取。因此,本研究旨在利用自然未修剪的视频进行视频表示学习。直接从未修剪的视频中学习泛化和强大的表示并不是一个简单的问题,因为实证结果在图1(b,c)和[13](表4和表6)中都表明,直接在未修剪的视频上应用对比学习会产生比在修剪的视频上更差的表示。一个可能的原因是标准视频对比学习框架中遵循的时间持久性假设[13]在修剪的视频上得到验证,但对于未修剪的视频来说已经不再足够。理想情况下,时间持久性假设可以为视频中的所有剪辑学习一个不变的表示。这对于修剪的视频可能是合理的,甚至对于未修剪的视频中时间距离较短的剪辑也可能是合理的,因为它们具有一定程度的视觉相似性或视觉一致性。然而,对于在未修剪的视频中时间上相距较远的剪辑来说,这可能过于严格了,因为它们只是通过相同的主题相关联,即它们在主题上是一致的。事实上,我们发现在未修剪的视频中存在两种一致性之间的层次关系。具体而言,视觉上一致的剪辑对应于主题上一致的剪辑,而主题上一致的剪辑不一定是视觉上一致的。图1(a)中展示了这种层次一致性的示例。在本文中,我们提出了一个从未修剪的视频中学习强大表示的新框架。通过利用未修剪的视频中存在的层次一致性,即视觉一致性和主题一致性,我们的框架HiCo(HierarchicalConsistencylearning)可以利用自然视频中更丰富的语义模式。我们设计了两个层次任务,分别用于学习这两种一致性。对于视觉一致性学习,我们在最大时间距离较小的剪辑上应用标准对比学习,并鼓励具有时间不变性的表示。对于主题一致性学习,我们提出了一个主题预测任务,而不是严格的不变映射,表示只需要将不同主题分组。考虑到一致性的层次性质,我们还在主题一致性学习中包括了视觉上一致的剪辑对,而在视觉一致性学习中排除了主题一致的剪辑对。由于层次任务的复杂性,我们进一步引入了逐渐采样的方法,逐渐增加正样本对的训练难度,以帮助优化和提高泛化性能,我们在理论上和实验上都展示了它的优越性。在多个下游任务上进行的大量实验证明,使用HiCo可以从未修剪的视频中学习到强大且泛化的视频表示。0与标准对比学习相比,在HMDB51 [27]和UCF101[49]上,下游动作识别任务的性能分别提高了12.8%和12.5%。我们还展示了HiCo从修剪的视频中学习更好的表示的能力。02. 相关工作0长视频理解。现有的长视频理解尝试主要基于监督学习。镜头或事件边界检测方法[2, 17, 47, 48, 50,53]旨在检测未修剪视频中的镜头转换或事件边界。其中,前者是由手动编辑引起的,后者是语义一致的。对于时间动作定位,现有的工作[15, 32, 33, 46,66]试图通过对未修剪视频中的时间关系建模来区分动作实例和无关的复杂背景。尽管视频中的复杂时间结构给这些任务带来了挑战,但有许多视频分类方法[31, 36, 41, 52, 54,62, 67,70]聚合长时间范围的时间上下文以增强预测并取得了显著的性能。不幸的是,这些优秀的监督方法无法转移到自监督学习。在这项工作中,我们尝试利用未修剪视频中固有的时间结构进行自监督视频表示学习。自监督图像表示学习。为了避免繁重的注释过程,已经提出了广泛的自监督方法来利用无标签数据。早期的方法主要设计了不同的预训练任务,包括颜色恢复[72],图像上下文重建[42]和解决拼图难题[11,38]等。最近,基于实例区分的对比学习在这个领域显示出了巨大的潜力[7, 8, 21, 22, 39, 56,63]。对比学习的主要思想是训练一个具有转换不变性的网络。自监督视频表示学习。现有的自监督视频表示学习方法可以分为三组:设计不同的预训练任务,应用对比学习和将两者结合起来。基于预训练任务的方法利用自然存在于视频中的内在结构来监督网络,例如速度感知[3, 61,69],顺序预测[14, 30, 37, 65,74],时间变换区分[26],运动估计[24, 60]和未来预测[9,18, 35, 51, 59]。对比学习相关工作[10, 13, 40, 44,45]主要是从图像范例扩展而来,探索适用于视频的各种时空变换。值得注意的是,现有的最先进方法几乎都是基于对比学习框架的。此外,还有一些方法将对比学习和时间预训练任务结合到一个多任务学习框架中[1, 25, 29,55],从而为对比学习提供了时间探索能力,并进一步改进了视频表示。̸̸̸138230图2.HiCo的整体框架。HiCo包含三个部分,包括视觉一致性学习(VCL),主题一致性学习(TCL)和渐进采样(GS)。VCL基于标准对比学习,为视觉一致的配对映射共享的视觉嵌入。TCL学习主题预测器,用于区分任意两个剪辑之间的主题一致性。GS的目的是通过控制每个视频中训练剪辑的难度来增强VCL和TCL。0尽管先前的方法在自监督视频表示学习方面取得了显著进展,但它们大多依赖于事先手动修剪的策划视频,并忽略了原始未修剪视频中嵌入的丰富视觉模式。相比之下,据我们所知,HiCo是首个专注于未修剪视频的自监督学习尝试,并同时享有短范围和长范围的时间上下文。03. 分层一致性学习0未修剪视频和修剪视频之间的主要区别在于视频长度。对于修剪视频,任意两个随机片段很可能在视觉上相似,因为两个片段之间的时间距离始终很小。然而,对于未修剪视频,随机采样的片段对可能具有较长的时间距离,使它们只是在主题上相关,视觉上相似性较低。另一方面,时间距离较短的片段对仍然可以被视为从修剪视频中采样的两个片段,它们具有较高的视觉相似性。因此,我们将片段对之间的关系划分为层次结构:(i)对于时间距离较短、视觉相似性较高的片段对,我们将它们的关系定义为视觉一致性;(ii)对于时间距离较长、可能只在主题上相关但视觉上不相似的片段对,我们将它们的关系定义为主题一致性。相应地,我们提出了两个分层任务来从这些层次一致性中学习,分别是视觉一致性学习(第3.1节)和主题一致性学习(第3.2节)。考虑到分层任务的复杂性,我们进一步提出了一种新的渐进采样策略来改进视觉一致性学习和主题一致性学习,并提供了其有效性的理论分析。0综合考虑,我们在图2中呈现了我们的整体框架 HiCo。03.1. 视觉一致性学习0我们使用对比学习方法 SimCLR [7]来学习视觉一致性。在应用对比学习于视频时,它学习将同一视频中的不同片段(即正样本对)映射到更接近的位置,并将来自不同视频的片段(即负样本对)推开。具体而言,在一个大小为 N的小批量视频中,它从每个视频中采样两个片段 v i 和 v j,从而生成 2N个具有独立数据增强的视图。通过主干和投影层提取每个视图的潜在向量 z 后,对于对比学习的损失可以表示为:0L CL = 1 /(2N)0N0n = 1 [ ℓ (2n - 1, 2n) + ℓ (2n, 2n - 1)] , (1)0其中 ℓ ( i, j ) 表示两个配对样本之间的损失。给定表示 z i 和z j 之间的余弦相似度 s i,j ,其中 { z i , z j } = g ( f ( v i , v j)) ,其中 f 是视频主干,g 是对比投影头,ℓ ( i, j )可以计算如下:0ℓ ( i, j ) = -log(exp(s i,j / τ) / ∑_{n=1}^{2N} 1 [ n �= i ] exp(s i,n / τ)) , (2)0其中 τ 表示温度,1 [ n � = i ] 在 n � = i时等于1,否则等于0。由于随机采样可能导致未修剪视频中的 v i 和 v j具有较低的视觉相似性,我们进一步限制了片段对学习视觉一致性的最大时间距离。形式上,v i 和 v j 之间的时间距离δ ( v i , v j ) 可以计算和限制如下:0δ ( v i , v j ) = | c i - c j | < δ max , (3)ℓ(i, j) = −logexp(si,j/τ)3Nn=1 1[n̸=i,k]exp(si,n/τ).(4)U = t1i ⊕ t1i , t1i ⊕ t1j, · · · t1i ⊕ tNj , t1i ⊕ tNk ,...............tNk ⊕ t1i , tNk ⊕ t1j, · · · tNk ⊕ tNj , tNk ⊕ tNk ,,(5)LTP = 1γ1�Gi,j=1F(Mi,j) + 1γ2�Gi,j=0F(1 − Mi,j),(7)δmax(α) =ααmax∆,(8)138240其中 c i 和 c j 是 v i 和 v j 中心帧的时间步长,δ max表示视觉一致性学习中两个采样片段之间的最大距离。为了保证 v i 和 v j 之间的视觉一致性,δ max应该远小于视频持续时间 l ,即 0 ≤ δ max � l 。03.2. 主题一致性学习0一般来说,未修剪视频中的远距离片段可能在视觉上不相似,但却具有相同的主题,如图1(a)所示。尽管采访和体育场景与比赛的视觉相似性很小,但它们都属于相同的 SumoWrestling主题。因此,为了充分利用未修剪视频中的视觉多样性,我们提出了从这种主题一致性中学习的方法,而这在以前的方法中被忽视了。形式上,为了学习主题一致性,我们还从整个视频中随机采样另一个片段 v k ,它不一定在视觉上与 v i和 v j一致,但在主题上与它们一致。然而,由于潜在的显著视觉变化,让这些主题一致的配对学习一个不变的映射是不合理的。因此,我们通过以下方式放宽了这个严格的约束:(a)只将 v k 引入作为 VCL中其他视频的负样本;(b)设计一个可学习的预测器来区分输入的配对是否在主题上一致,即它们是否属于同一个视频。有了负样本池中的 v k ,视觉一致性对 ℓ ( i, j )的损失现在可以计算如下:0对于主题预测,我们首先通过编码器f(∙)和主题投影头h(∙)获得采样剪辑{vi,vj,vk}的主题表示{ti,tj,tk},即{ti,tj,tk}=h(f({vi,vj,vk}))。给定每个小批量中的N个视频,每个视频中有3N个剪辑,所有视频的主题表示被组合成成对的特征集U:0其中上标1...N表示视频索引,⊕表示连接,U∈R3N×3N×2CT,其中CT是主题表示的维度。最后,这些成对剪辑的主题一致性M由主题预测器估计:0M = ϕ ( U ) ∈ R 3N � 3N . (6)0其中主题预测器ϕ(∙)由多层感知机(MLP)实现。主题一致性M的监督标签定义为G∈R3N�3N,它指示成对特征是否共享相同的主题0(即它们是否来自同一视频)。在训练过程中,我们应用焦点损失[34]F,因为具有主题一致性的对和不一致的对的数量严重不平衡。主题预测损失的计算如下:0其中γ1和γ2分别是正样本和负样本的数量。与视觉一致性学习相比,其中鼓励相同视频的表示是相同的,主题一致性学习对表示的约束较不严格。最后,我们的HiCo的整体训练目标是对比损失和主题预测损失的总和,表示为L = LCL +LTP。03.3.渐进采样0课程学习[4]表明,当训练样本不是随机提供而是按照有意义的顺序组织时,模型的学习效果会更好,从简单的例子到困难的例子。它在各种任务中取得了巨大的成功。回想一下,未修剪的视频通常包含复杂的时间上下文,随机采样剪辑在早期训练阶段不可避免地会生成不相似的对,这可以被认为是困难的例子。因此,我们将课程学习的精神引入到我们的HiCo中,并提出了一种简单而有效的策略来控制训练阶段正样本对的难度,称为渐进采样。具体而言,δmax不再是一个常数,而是由当前训练时期α驱动的函数:0其中α和αmax分别指当前训练时期和总训练时期。∆是δmax(α)的上界,因为α/αmax满足条件:α/αmax∈[0,1],这里αmax和∆都是常数。这种渐进采样可以用于采样视觉一致的剪辑和主题一致的剪辑。δmax(α)从0线性增长到∆,这意味着我们从相同的剪辑(具有不同的数据增强)训练网络,并逐渐增加正样本的难度。这有助于提高视频表示的泛化能力,我们将在理论上和实验上展示其优越性。实际上,自监督学习中的渐进采样也可以应用于修剪和未修剪的视频。理论分析。我们通过利用提出的渐进采样策略提供了一个理论上的理解0对于视觉一致性学习,即使我们限制剪辑v i 和v j之间的最大时间距离,训练对仍然被认为是更困难的,因为它们之间有较大的时间距离。138250泛化分析,在学习理论的文献中很常见[58]。为了分析简单起见,我们从策略中抽象出关键点,这些关键点更适合数学分析。为此,我们将训练数据分为两组,一组具有小方差(用� D s 表示),另一组具有大方差(用� D l表示)。我们将它们的总体分布分别表示为D s 和D l。请注意,这个分区仅用于证明,实际上并不需要。在早期的训练时期,根据公式8,采样的剪辑被认为是具有小方差的示例,因为采样窗口大小较小。而在后期的训练时期,由于采样窗口大小更大,采样的剪辑可能是具有大方差或小方差的示例。设L(w)是旨在优化的深度学习任务的损失函数,其中w是模型参数。给定算法的输出�w,过度风险(ER)是学习理论中泛化的标准度量[58],其公式为L(�w)−L(w�),其中w�=argminwL(w)。主要目标是获得一个与全局最优解w�尽可能接近的解�w。以下非正式定理(其正式版本请参阅附录)提供了两个过度风险界(ERB),在一些温和的假设下理论上展示了为什么基于渐进采样(GS)的采样具有比基于随机采样(RS)更好的泛化效果。由于篇幅限制,我们在附录中包含了所有其他细节、正式定理和证明。0定理1(非正式)。在一些温和的假设下,GS策略可以比RS策略产生更好的泛化效果。具体而言,我们有以下期望中的过度风险界(ERB):(1)对于RS的输出� w rs ,0L(� w rs)−L(w�) ≤ O(L(w0)−L(w�));0以及GS的输出� w gs ,0L(� w gs)−L(w�) ≤ O � log(n)/n + p^2ˆ∆^2�,0其中w0是初始解,这里ˆ∆是D s 和D l之间差异的度量,n是� D s 的样本大小,p ∈ [0, 1]是� D l在所有训练样本中的比例。0结果(1)表明,RS由于D l的大方差而没有在目标上获得显著的降低。另一方面,结果(2)表明,当n很大且p很小时,GS可以显著减少目标,显示它比RS具有更好的泛化效果。请注意,通过适当选择� D s和� D l,n可以很大且p足够小,而理论上常数L(w0)−L(w�)在一般情况下可能非常大。0当窗口大小较小时,采样的剪辑通常是相似的。04. 实验0预训练数据集。Kinetics-400[5](K400)包含240k个修剪过的视频,每个视频大约持续10秒。由于这些短视频是从长视频中修剪而来的,我们重新收集了它们的原始版本作为我们的未修剪视频数据集,我们称之为未修剪的Kinetics-400(UK400)。由于许多原始视频现在不可用,我们的UK400数据集只包含157k个未修剪的视频用于预训练。HACS[73]是一个用于时序动作定位的大规模数据集,包含37.6k个用于训练的长视频。预训练设置。我们选择SimCLR [7,44]作为基本的对比学习框架,并采用三个常用的编码器f(∙),包括S3D-G [64],R(2+1)D-10 [57]和R3D-18[20]。有关预训练的更多训练细节,请参阅附录。评估。我们在三个不同的下游任务上评估HiCo学习到的表示,包括动作识别、视频检索和时序动作定位。其中,动作识别和视频检索分别在两个数据集上进行:UCF101 [49]和HMDB51[27]。对于时序动作定位,我们使用ActivityNet[12]作为评估数据集。有关更多微调设置,请参阅附录。注意。在本节中,除非另有说明,“FT/LFT”指的是完全微调/线性微调。“VCL”、“TCL”和“GS”分别表示视觉一致性学习、主题一致性学习和渐进采样。符号“�”和“�”分别表示“是”和“否”。04.1.消融研究0提出的VCL、TCL和GS的重要性。表1消除了HiCo的不同组成部分。从结果中我们可以发现:首先,VCL可以改善两个数据集上的标准对比学习,这证明了视觉上一致的短程剪辑可以增强表示质量;其次,单独的TCL相对较弱,但它们互补。在UK400上预训练时,结合VCL和TCL可以分别获得7.2%和10.6%的提升,如表1(a)所示;第三,GS可以显著改善VCL、TCL及其组合,特别是在UK400预训练的HMDB51上提高了5.6%(41.9% vs.47.5%)。与HACS预训练的结果观察到类似的趋势。这些结果证明了HiCo的每个组成部分的有效性。对δ max (α)的上界δ max(α)的参数敏感性分析,即∆。表2(a)给出了不同∆的结果。结果显示当∆=1.0s时获得最佳性能。注意,当∆设置为0s时,性能分别下降了6.1%和5.1%在HMDB51和UCF101上,因为所有训练样本都是没有时间变化的相同对,这降低了泛化能力。相反,较大的∆可能引入具有较大视觉差异的不相似对,这可能增加优化难度,从而损害学到的表示。主题对之间距离的影响。增加主题对之间的距离可以引入更多的时间多样性,不同设置下的结果如表2(b)所示。我们观察到性能随着距离的增加而增加,例如,将距离从0增加到+∞可以在两个数据集上带来约3.8%的增益。结果表明HiCo可以有效地利用长程主题对的丰富视觉模式。普适性。表3探讨了HiCo在不同骨干网络和数据集上的普适性。我们可以观察到,在所有设置下,HiCo都可以显著提升基线的性能,无论是FT还是LFT。注意,基线在UK400上预训练的性能为0.051.9/41.480.4/65.60.554.9/46.179.5/69.41.054.1/47.579.6/70.72.051.7/44.977.5/69.54.052.2/43.579.6/68.8HACSS3D-G✗42.9/29.575.6/54.9✓51.8/41.677.6/67.6R(2+1)D-10✗47.7/35.781.3/61.7✓53.1/43.781.9/71.3R3D-18✗43.5/32.872.8/57.8✓49.5/43.376.1/65.2UK400S3D-G✗45.1/34.774.7/58.2✓54.1/47.579.6/70.7R(2+1)D-10✗47.4/32.080.7/57.4✓50.9/39.982.1/67.7R3D-18✗44.4 /40.076.5/65.5✓47.7/46.377.8/70.7K400S3D-G✗46.2/35.576.0/60.0✓53.0/44.979.0/68.2V.C.PairsT.C.PairsHMDB51(FT/LFT)UCF101(FT/LFT)(a)LCLNone47.9/37.877.4/65.2(b)LTPNone45.5/19.776.9/27.3(c)LCLLCL46.9/36.076.1/62.6(d)LTPLTP49.3/24.777.5/38.9(e)LCL+LTPLTP50.5/41.977.7/68.8(f)LCL+GSNone51.2/41.878.5/67.2(g)LTP+GSNone47.6/21.377.0/29.1(h)LCL+LTP+GSNone52.3/43.577.9/65.7(i)LCL+LTPLTP+GS50.1/41.978.9/69.7(j)CL+TP+GSTP+GS54.1/47.579.6/70.7138260PT. VCL TCL GS HMDB51 (FT/LFT)UCF101 (FT/LFT)0HACS0� � � 42.9/29.5 75.6/54.9 � � � 42.7/33.876.6/57.9 � � � 42.6/31.5 74.9/55.9 � �43.9/35.6 75.2/64.80UK4000� � � 45.1/34.7 74.7/58.2 � � � 47.9/37.877.4/65.2 � � � 46.1/34.8 77.2/60.9 � 50.5/41.9 77.7/68.80(a)0PT. VCL TCL GS HMDB51 (FT/LFT)UCF101 (FT/LFT)0HACS0� � � 43.8/31.0 75.3/57.4 � � � 48.7/376.2/63.0 � � � 45.2/32.0 75.3/58.7 � 51.8/41.6 77.6/67.60UK4000� � � 46.1/33.9 76.8/59.3 � � � 51.2/4178.5/67.2 � � � 49.9/36.1 76.7/62.4 � � 54.1/47.5 79.6/70.70(b)0U HMDB51 (FT/LFT)UCF101 (FT/LFT)0统一 52.4/45.7 79.3/69.0双向 54.1/47.5 79.6/70.70(c)0v k HMDB51 (FT/LFT)UCF101 (FT/LFT)0� 48.8/40.5 77.0/68.0 �50.5/41.9 77.7/68.80(d)0表1.使用S3D-G的HiCo消融研究。 (a, b) 评估具有和不具有GS的VCL和TCL。'PT.'表示'预训练数据集'。(c)U中的双向(Bi.)和单向(Uni.)连接。(d) v k 是否在VCL的负样本池中。0∆(s) HMDB51 (FT/LFT)UCF101 (FT/LFT)0(a)0距离(s) HMDB51 (FT/LFT)UCF101 (FT/LFT)00 51.5/43.6 78.7/66.8 1053.3/45.6 80.1/69.4 5055.1/45.1 78.5/69.7 10053.1/45.8 80.2/70.3 +∞54.1/47.5 79.6/70.70(b)0表2.参数敏感性分析。所有实验都在UK400上使用S3D-G进行。(a)δ max (α)的上界δ max (α),即∆。(b) 主题对的时间距离。0准确率(%)0准确率(%)0(a) HMDB51 (b) UCF1010-TCL -TCL0图3.从HiCo中去除TCL。我们在K400和UK400上预训练S3D-G,并可视化线性评估。0较大的∆可能引入具有较大视觉差异的不相似对,这可能增加优化难度,从而损害学到的表示。主题对之间距离的影响。增加主题对之间的距离可以引入更多的时间多样性,不同设置下的结果如表2(b)所示。我们观察到性能随着距离的增加而增加,例如,将距离从0增加到+∞可以在两个数据集上带来约3.8%的增益。结果表明HiCo可以有效地利用长程主题对的丰富视觉模式。普适性。表3探讨了HiCo在不同骨干网络和数据集上的普适性。我们可以观察到,在所有设置下,HiCo都可以显著提升基线的性能,无论是FT还是LFT。注意,基线在UK400上预训练的性能为0预训练 骨干网络 HiCo HMDB51 ( FT /LFT) UCF101 ( FT/LFT)0表3. HiCo在不同数据集和骨干网络上的结果。0表4.损失函数的消融研究。'V.C.Pairs'和'T.C.Pairs'分别是视觉一致的对和主题一致的对。0UK400上的性能低于K400,而HiCo在UK400预训练上可以提高约2.5%。为了进一步了解背后的原因,在图3中去除了TCL。我们可以观察到,在K400上预训练的表示仍然比UK400更强,类似于标准对比学习。然而,当集成TCL时,UK400上的预训练性能在HMDB51上超过K400约2.6%,充分证明了TCL可以帮助利用未修剪视频中的多样化时间上下文CVRL [44]R3D50Kinetics-40016 × 224232 × 2242✓89.858.3CCL [28]R3D18Kinetics-4008 × 11228 × 1122✓52.127.8MLRep [43]R3D18Kinetics-40016 × 112216 × 1122✓63.233.4FAME [10]R(2+1)D10Kinetics-40016 × 112216 × 1122✓72.242.2CoCLR [19]S3D23Kinetics-40032 × 128232 × 1282✓74.546.1HiCo(Ours)R3D18HACS8 × 112216 × 1122✓72.845.2HiCo(Ours)S3D-G23Kinetics-40016 × 112216 × 1122✓75.752.3HiCo(Ours)R3D18UKinetics-4008 × 112216 × 1122✓77.652.1HiCo(Ours)R(2+1)D10Kinetics-40016 × 112216 × 1122✓76.749.1HiCo(Ours)R(2+1)D10UKinetics-40016 × 112216 × 1122✓78.150.1HiCo(Ours)S3D-G23UKinetics-40016 × 112216 × 1122✓77.957.6VCLR [29]R2D50Kinetics-4003 × 2242N/A × 2242✗85.654.1ρSimCLR [13]R3D50Kinetics-4008 × 22428 × 2242✗88.9-CVRL [44]R3D50Kinetics-40016 × 224232 × 2242✗92.266.7ρBYOL [13]R3D50Kinetics-40016 × 224216 × 2242✗95.573.6VCLR [29]R3D18HACSN/A × 2242N/A × 2242✗67.249.3RSPNet [6]R3D18Kinetics-40016 × 112216 × 1122✗81.144.6MLRep [43]R3D18Kinetics-40016 × 112216 × 1122✗79.147.6ASCNet [23]R3D18Kinetics-40016 × 112216 × 1122✗80.552.3VideoMoCo [40]R(2+1)D10Kinetics-40032 × 112232 × 1122✗78.749.2SRTC [71]R(2+1)D10Kinetics-40016 × 112216 × 1122✗82.051.2FAME [10]R(2+1)D10Kinetics-40016 × 112216 × 1122✗84.853.5SpeedNet [3]S3D-G23Kinetics-40064 × 224264 × 2242✗81.148.8RSPNet [6]S3D-G23Kinetics-400642242642242✗89.959.64.2. Evaluation on action recognition task138270方法 骨干网络 深度 预训练 PT Res. FT Res. 冻结 UCF101 HMDB510HiCo(我们的)R3D 18 HACS 8 × 112 2 16 × 112 2 � 77.0 56.2 HiCo(我们的)S3D-G 23 Kinetics-400 16 × 1122 16 × 112 2 � 83.2 56.3 HiCo(我们的)R3D 18 UKinetics-400 8 × 112 2 16 × 112 2 � 87.2 63.7HiCo(我们的)R(2+1)D 10 Kinetics-400 16 × 112 2 16 × 112 2 � 85.3 57.9 HiCo(我们的)R(2+1)D 10UKinetics-400 16 × 112 2 16 × 112 2 � 86.5 55.6 HiCo(我们的)S3D-G 23 UKinetics-400 16 × 112 2 16 × 112 2 �83.6 60.4 HiCo(我们的)S3D-G 23 UKinetics-400 16 × 112 2 32 × 224 2 � 91.0 66.50表5.在动作识别任务上与其他最先进方法的比较。其中“Freeze”表示冻结骨干网络的参数。“UKinetics-400”是未修剪的Kinetics-400数据集。“PT Res.”和“FT Res.”分别是预训练和微调的时空分辨率。“灰色字体”表示与HiCo不同的骨干网络。0对动作识别任务的评估0设置U。单向设置显示出较弱的性能,因为双向设置可以提供更多的专家先验知识;即主题一致性与特征顺序无关。(ii)表1(d)探讨了将vk合并到负池中以实现视觉一致对(即vi和vj)的必要性。尽管vk可能与vi和vj在视觉上不相似,但它仍然可以为VCL提供额外的监督信号并改善泛化能力。0表5比较了HiCo与其他最先进的方法。我们详细列出了公平比较的相关设置,包括网络架构和训练分辨率。从表中,我们得出以下结论。首先,在线性评估方面,HiCo在类似的设置下明显优于现有方法。HiCo在UCF101和HMDB51上分别比CoCLR[19]高出3.4%和11.5%,即使它们在预训练中使用了更多的帧和光流。由于CVRL[44]中使用了更深的网络和更大的分辨率,HiCo实现了138280方法 骨干网络 深度 分辨率 预训练 UCF101 HMDB51 R@1 R@5 R@10 R@20 R@1 R@5 R@10 R@200VCLR [29] R2D 50 224 K400 70.6 80.1 86.3 90.7 35.2 58.4 68.8 79.80RSPNet [6] R3D 18 112 K400 41.1 59.4 68.4 77.8 - - - - MLRep [43] R3D 18 112 K400 41.5 60.0 71.2 80.1 20.7 40.855.2 68.3 FAME [10] R(2+1)D 10 112 K400 62.3 75.1 80.9 86.9 - - - - SpeedNet [3] S3D-G 23 224 K400 13.0 28.137.5 49.5 - - - -0HiCo(我们的)R3D 18 112 UK400 71.8 83.8 88.5 92.8 35.8 59.7 71.1 81.2 HiCo(我们的)R(2+1)D 10 112UK400 69.1 84.4 89.0 93.6 35.2 58.8 70.3 82.3 HiCo(我们的)S3D-G 23 112 UK400 62.5 76.4 82.9 89.4 35.5 60.372.2 82.10表6.在UCF101和HMDB51上的最近邻检索比较。'灰色字体'表示与HiCo不同的骨干网络。0方法 编码器 PT 数据 AUC AR@1000VINCE [16] R2D-50 K400 64.6% 73.2% SeCo [68]R2D-50 K400 65.2% 73.4% VCLR [29] R2D-50 K40065.5% 73.8%0CL S3D-G UK400 63.0% 72.4% HiCo S3D-G UK40067.1% 75.4%0表7. 在ActivityNet [12]上的动作定位。'PT数据'指的是预训练数据集。0在完全微调时,性能略低,但当不冻结主干网络进行预训练时,HiCo在相似设置下的性能优于先前的方法。例如,使用相同的输入分辨率(16×112^2)和主干(R(2+1)D),HiCo在UCF101和HMDB51上分别比FAME[10]高出1.7%和2.1%。注意,ρ BYOL[13]获得了出色的性能。原因可能是它采用了不同的自监督学习方法(BYOL)、更深的网络和更高的分辨率。当采用相同的SimCLR时,HiCo可以使用更低的分辨率和更小的主干实现与ρ SimCLR[13]相当的性能。与在HACS上使用R3D-18训练的VCLR[29]相比,HiCo在两个数据集上都取得了显著的改进,分别达到了9.8%和6.9%的差距。这表明HiCo是一个更适合从未修剪视频中学习的框架。04.3. 视频检索任务评估0我们使用UK400预训练网络提取的特征计算视频检索的归一化余弦相似度。表6比较了HiCo与其他方法在不同top-k准确率下的表现。在UCF101上,HiCo在R@1下使用轻量级R3D-18网络比最先进的方法(即VCLR[29])提高了1.2%,这意味着HiCo学习到的特征更具泛化性。04.4. 动作定位任务评估0我们使用主流的TAL方法,即BMN [32],在ActivityNet[12]上评估UK400预训练特征。如表7所示,轻量级编码器的HiCo在性能上明显优于VCLR [29],提高了1.6%。0在AUC方面,与标准对比学习相比,HiCo提高了4.1%的AUC。主要原因是HiCo可以通过主题一致性学习为片段保留更多高层次的信息,从而帮助BMN区分动作和背景。结果成功地证明了HiCo预训练表示在不
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功