没有合适的资源?快使用搜索试试~ 我知道了~
192800通过动态表示学习改进视频模型的转移0Yi Li NunoVasconcelos加利福尼亚大学圣地亚哥分校电气与计算机工程系0摘要0时间建模是视频理解的一个重要组成部分。尽管基于深度卷积的架构在解决大规模视频识别数据集方面取得了成功,但最近的研究指出,它们在建模短程关系方面存在偏见,往往无法捕捉视频中的长期时间结构,导致在新数据集上的转移和泛化能力较差。本文研究了动态表示学习(DRL)问题。我们提出了动态分数,它是描述视频动态建模的一种度量,描述了视频网络学习到的纯空间学生无法捕捉到的额外信息量。然后,DRL被形式化为视频和空间模型之间的对抗学习问题,其目标是最大化学习到的时空分类器的动态分数。我们评估了学习到的视频表示在涉及多样化的迁移学习问题上的质量,包括多样化和少样本动作分类。实验结果表明,通过DRL学习的模型在动态建模方面优于基线模型,展示了更高的转移能力和泛化能力,适用于新领域和任务。01. 引言0在图像识别方面深度学习的成功之后[ 38 , 48 , 71 , 75],卷积神经网络在视频分类问题上也越来越受欢迎,例如动作识别[ 13 , 25 , 55 , 70 , 79 , 84 , 88],在这方面它们优于其他分类架构,如循环网络[ 20 , 41 ,89]。然而,当前的动作识别性能明显低于图像识别水平。这在一定程度上是由于学习良好的视频表示的困难。部分困难源于当前的数据收集方法,即使用从网络(如YouTube)收集的动作数据集[ 10 , 35 , 45 , 46 , 59]。虽然这些数据集具有比受控数据集更大的规模和动作类别的多样性,但是它们的表演者和场景比受控数据集更多。0tings [ 6 , 66 , 86],它们也被称为表现出各种类型的偏见,这些偏见阻碍了训练视频模型对未见领域的泛化[ 17 , 53 , 54 , 67]。其中最普遍的偏见之一是由于动作标签与视频帧的空间外观之间的虚假相关性而产生的空间偏见,以背景物体、场景或人体姿势的形式存在[ 53]。例如,视频中存在一匹马就足以推断出“骑马”动作,如果这是数据集中唯一涉及马的动作类别。空间偏见创建了一种快捷方式,允许分类器在不对时间视频组件进行建模的情况下推断出动作标签,这被称为视频动力学,在流行的动作识别基准测试中导致过于乐观的性能[ 54 ]。0数据集偏见的一个恶劣后果之一是它偏好某些表示而不是其他表示[ 53]。在这种情况下,大多数视频数据集的空间偏见可能是卷积架构在动作识别领域中占主导地位的原因,这些架构倾向于局部而不是长程依赖性。这种网络对数据集偏见的“进化适应”现象在目标识别文献中已有记录,导致了对局部纹理优于全局物体形状的网络的普遍性[ 3 , 8 , 31]。我们假设,在视频建模中,同样的现象证明了基于3D卷积网络的优越性,这些网络实现了基于很少帧的局部时空视频表示,基本上忽略了长程视频动力学。我们声称,这阻碍了这些网络对未见领域的泛化。例如,一个马的表示对于需要区分“骑马”和“追逐马”或将视频分类为奥林匹克马术赛事类别的新领域的转移是不足够的。然而,在主要的动作识别设置中,这个问题很难诊断,因为训练和测试数据来自同一个领域。如果“骑马”是唯一与马相关的类别,那么检测到马就足以在测试数据上获得高性能。要诊断这个问题,需要将动作识别器部署到原生测试集之外,通常用于少样本学习[ 27 , 64 , 72 , 74 ],领域适应192810视频0教师0空间学生0最小0视频0教师0空间学生0最大0动态评分表示学习0动态0表示0学习0动态0剪辑0静态帧0图1。我们提出了动态表示学习(DRL),一种增强视频动态建模的对抗学习策略。DRL交替进行两个步骤:动态评分步骤定量评估视频模型捕捉到的时间动态,定义为其预测与空间学生的预测之间的期望差异;表示学习步骤更新视频网络的参数,以优化动态得分。0在这些设置中,目标域视频可能不包含与训练集相同类型的偏差,因此动作识别系统的传输或泛化能力可能较差。尽管在动作识别中承认了数据集和模型的偏差,并努力克服卷积操作的局部性[31,85],但很少有人致力于定量研究当前模型的空间偏差,或者减少这种偏差如何改善泛化性能。0在这项工作中,我们通过引入一种基于显式测量和最小化空间偏差的动态表示学习(DRL)的新方法来解决这个问题。如图1所示,DRL基于视频网络和空间学生之间的对抗优化。即一个独立处理视频帧的2D网络。视频网络和空间学生交替优化。在图中左侧的动态评分步骤中,学生被优化以模仿视频网络的预测。两个网络的预测之间的期望差异反映了视频表示的动态程度。这个期望差异被称为视频网络的动态得分,用于衡量其在分类中依赖动态而不是空间线索的程度。得分越低,视频模型越类似于空间分类器,其空间偏差越大。虽然可以通过知识蒸馏的方式来自然地测量动态得分,但我们还提出了一种基于预处理视频剪辑来去除时间信息的无优化方法,这种方法在计算上更高效。在图1右侧的表示学习步骤中,视频模型被训练以最大化其相对于学习的空间学生的动态得分。为此,提出了两种方法。第一种是基于对抗增强,使用空间学生来导出扰动,当添加到视频中时,会模糊空间线索。第二种方法将DRL作为视频网络和空间学生之间的极小极大博弈,直接优化前者的动态得分。这两种方法共享同样的关键思想——0对于利用空间快捷方式进行动作识别的视频模型进行惩罚。我们假设,当在给定架构的相同数据集上进行预训练时,具有更大动态得分的模型应该能够更好地传输和推广到未见过的视频领域。为了评估这个假设,我们进行了一系列关于学习视频表示的鲁棒性和传递能力的实验评估。这包括:a)将视频网络适应到一组具有不同动作词汇的数据集上,使用学习特征的线性分类或微调;b)直接使用学习表示进行少样本动作分类;c)在没有空间上下文的情况下对一组视频动作应用分类器。实验结果表明,DRL显著改善了这三个任务。例如,使用3DResNet架构[37]和TSM网络[55],Jester数据集[58]上的5-shot手势识别提高了5%,最高可达8%。本文的贡献有三个方面:首先,我们提出了动态得分,这是视频神经网络时间建模能力的定量衡量。其次,我们提出了动态表示学习(DRL),这是一种旨在优化视频模型动态得分的预训练策略。最后,我们提出了一套全面的实验来衡量学习视频表示的可传递性和泛化性,从而从经验上验证了动态建模在视频迁移学习中的重要性,并证明了DRL相对于基线预训练方法的优势。02. 相关工作0fϕSfϕ321xfϕ xfϕ(˜x)fϕ111˜x213˜xfϕs = 1Tgϕs(xi)(1)γ(fϕ; pD) =minfϕs∈FS Ex∼pDL(fϕs(x), fϕ(x)).(2)192820循环模块,如长短期记忆(LSTM)[41],用于建模视频动态[20,89]。注意力机制也被研究用于克服卷积神经网络对短程相关性优于长期依赖性的倾向。这包括使用自注意力对卷积特征进行池化[16, 85],或者在更近期的工作中[1, 5,23],用Transformer块替换所有卷积层[21,83]。数据集偏差。众所周知,计算机视觉数据集存在偏差,即它们的图像组成不准确地反映了真实世界的数据分布[47, 76, 77,82]。在视频动作识别的背景下,Sigurdsson等人[69]确定了从互联网中检索到的人类活动视频与我们日常活动之间的领域差距。Li等人[53]表明,许多从互联网检索到的数据集存在表征偏差,偏好捕捉动作标签和上下文线索(如对象或场景)之间的虚假相关性[46, 49,73]。已经收集了新的数据集来克服这个限制:Charades[69]和VLOG [28]使用了日常活动的视频,而Diving48[53]和FineGym[68]则考虑了丰富的细粒度动作类别的体育领域。模型偏差。在各种机器学习任务中发现了各种形式的算法偏差。例如,研究发现,数据集中的性别和种族偏差可以被机器学习模型利用并有时被放大[7, 9, 39,91]。在图像识别和目标检测中,背景对象或场景的上下文偏差已被证明会鼓励学习在新的测试环境中具有较差泛化性能的模型[4, 18,65]。卷积神经网络的局部连接也可能导致对短程特征(如颜色、纹理)与长程依赖性(如物体形状)的偏好[31,85]。以前探索的减轻模型偏差的策略包括对训练样本进行重新采样[14, 54],对抗训练[22, 56,90],构建对抗输入数据[17,31],或在学习过程中使用正则化损失[2,11]。知识蒸馏。知识蒸馏最初由Hinton等人[40]引入,是一种将信息从教师模型传递给(通常较弱的)学生模型的方法。最初被引入作为模型压缩的解决方案,这种技术后来被应用于其他问题,包括对抗防御[62]和跨模态转移[36]。03. 动态得分0在本节中,我们介绍动态得分,这是衡量表示捕捉视频动态性能的一种方法。03.1. 定义0视频表示是一个从视频空间X到特征空间Z的映射ϕ: X →Z。一个K路0fϕ0x0fϕ(x)0fϕS(x)0(a)通过知识蒸馏进行测量。训练一个空间分类模型fϕs来预测fϕ的输出。动态得分定义为标准模型输出fϕ(x)和空间模型输出fϕs(x)之间的不一致性。0冻结0洗牌0共享权重0(b) 通过输入调制进行测量。将标准模型输出 f ϕ ( x )与去除时间信息的调制输入 ˜ x 进行比较,可以通过冻结视频片段 x的一个帧或对其帧进行洗牌来去除时间信息。0图2. 测量视频分类器 f ϕ 的动态分数 γ ( f ϕ , p D ) 。详见第 3.2节。0视频分类器是由特征表示 ϕ 和线性分类器 h : Z → S K组成的映射 f ϕ = h ◦ ϕ ,其中 S K 是 K维概率单纯形。对于一个处理维度为 D 的 T帧视频片段的通用视频分类器,X = R T × D。如果视频分类器独立地将空间表示 ϕ s应用于视频帧,则称其为纯空间分类器,即0T0对于某个图像分类器 g ϕ s ,令 F S为所有这样的分类器的集合,L : S K × S K → [0 , ∞ )是模型预测的相似度得分。模型 f ϕ 相对于视频片段分布 pD 的动态分数定义如下0当 f ϕ 是纯空间的时候( f ϕ ∈ F S),该值为零,并且随着表示捕捉视频动态的能力增强而增加,即视频的时间特征。虽然上述定义支持概率分布之间的任何相似度得分,但我们使用库尔巴克-莱布勒(KL)L(˜y, ˆy) =ˆyi log ˆyi˜yi.(3)γa(fϕ; pD) = Ex∼pDL(fϕ(˜x), fϕ(x)).(4)ψψηψ αkd(fϕ (x; ψ), fϕ(x; θ))θ ← θ − η∇θ�βLcls(fϕ(˜x; θ), y)+ (1 − β)Lcls(fϕ(x; θ), y)�.(7)end192830差异0K0在这种情况下,γ ( f ϕ ; p D ) 可以直观地解释为 ϕ捕获的动态信息量。动态分数的定义也可以通过应用适当的相似度度量 L 轻松推广到分类问题之外。03.2. 测量动态分数0实际测量 γ ( f ϕ ; p D ) 需要找到与 f ϕ最小不一致的空间模型 f ϕ s ,其由 L ( ∙ )衡量。由于搜索整个空间 F S是不切实际的,我们考虑几种策略来高效地找到近似最优的f ϕ s 。知识蒸馏。如果搜索空间 F S限制为特定架构的深度神经网络,则方程 2简化为从视频教师模型 f ϕ 到空间学生分类器 f ϕ s的知识蒸馏[40]。如图 2a所示,学生模型被训练为预测视频网络 f ϕ ( x ) 的输出;γ (f ϕ ; p D ) 是测试集上的蒸馏损失。我们使用方程 1 的标准2D 卷积神经网络作为函数 g的空间模型。输入调制。知识蒸馏需要从头开始训练一个与f ϕ 不同的学生网络 f ϕ s。或者,我们考虑一种无需训练的过程,其中空间模型 f ϕs 是由网络 f ϕ自身导出的,通过对其输入视频片段进行预处理以去除时间信息。如图 2b所示,这可以通过“冻结”视频片段,即在时间维度上采样一个帧并重复它,或者通过以随机顺序重新排列帧来实现。用 ˜ x 表示冻结或重新洗牌的片段,动态分数近似为03.3. 数据集偏差关系0虽然动态得分是视频表示的一种度量,但它与视频动作数据集的空间偏差的先前度量密切相关,这导致纯空间分类器的意外高动作识别性能[43,53]。通过将方程2中的视频模型输出fϕ(x)替换为真实标签y,该公式成为数据集偏差的度量,0γ(p D) = min f ϕs ∈F S E x, y � p D L(f ϕ s(x),y), (5)0量化数据集D对纯空间识别模型提出的困难。类似于动态得分,较高的得分γ(pD)表示需要更多的时间模型来正确分类D的视频,因为即使0算法1:通过对抗增强的DRL迭代。0输入:小批量 B � D,视频模型 f ϕ w/ 参数θ,空间模型 f ϕ s w/ 参数 ψ;学习率η,扰动强度 ϵ,蒸馏权重 α,对抗输入权重 β0对于(x, y) ∈B,0通过知识蒸馏优化空间模型0+ (1 − α ) L cls ( f ϕ s ( x ; ψ ) , y ) � ; (6)生成对抗扰动 ˜ x,例如使用方程8进行FGSM[33]攻击。优化视频模型在干净和增强数据上的分类损失0输出:更新的模型参数 (θ, ψ)0最佳空间分类器在数据集上表现不佳。重要的是,这意味着动态得分γ(f ϕ; pD)也反映了数据的静态偏差。如果D的视频主要包含空间线索(即D具有较大的静态偏差),模型预测fϕ(x)可以很容易地由纯空间模型f ϕ s拟合,导致较低的γ(fϕ; pD)。事实上,预测动作类别y的oracle分类器f�的动态得分等于数据集偏差,即γ(f�, p D) = γ(p D)。04. 动态表示学习0在本节中,我们讨论了两种动态表示学习(DRL)的方法。通过数据增强的DRL应用对输入数据进行对抗扰动,增加了纯空间建模的难度。通过直接优化的DRL解决了涉及视频和空间网络参数的极小极大问题。04.1. 通过增强的DRL0受到对抗训练提高模型鲁棒性的成功启发[33, 50, 57,78],这种DRL方法基于对空间模型f ϕs的对抗训练样本的生成。这减少了空间建模的有效性,迫使视频网络fϕ对视频动态进行建模。对抗扰动可以通过任何方法生成ψ ← ψ − η∇ψ�αLkd(fϕs(x; ψ), fϕ(x; θ))+ (1 − α)Lcls(fϕs(x; ψ), y)�;(10)Update video model to maximize dynamic scoreθ ← θ − η∇θ�Lcls(fϕ(x; θ), y)− λ · Lkd(fϕs(x; ψ), fϕ(x; θ))�.(11)end˜x = x + ϵ sgn ∇zLkd(fϕs(z), fϕ(x))|z=x ,(8)minfEx,y∼pD βLcls(fϕ(˜x), y) + (1 − β)Lcls(fϕ(x), y) ,θ ← θ − η∇θ�Lcls(fϕ(x; θ), y)λkd(fϕ(˜x; ψ), fϕ(x; θ))=θ�.minfϕ∈F Ex,y∼pDL(fϕ(x), y) − λ · γ(fϕ; pD)= minmaxS Ex,ypDcls(fϕ(x), y)192840算法2:通过极小极大优化的DRL迭代。0输入:小批量 B � D,视频模型 f ϕ w/ 参数θ,空间模型 f ϕ s w/ 参数 ψ;学习率η,蒸馏权重 α,动态损失权重 λ0对于(x, y) ∈B,0更新空间模型通过知识蒸馏0输出:更新的模型参数 (θ, ψ)0对抗攻击文献中的一些技术,如FGSM [ 33 ] 或 PGD [ 57],扰动对纯空间模型 f ϕ s是对抗性的,以削弱任何动作识别的空间线索。例如,对于FGSM,使用以下公式生成扰动:0其中 ϵ 控制对抗扰动的大小,梯度只通过 f ϕ s进行反向传播。与对抗训练一样,然后使用原始数据和扰动数据的分类损失的组合来训练视频模型0(9) 其中 β 是一个超参数。为了最大化训练效率,视频模型 f ϕ 和空间模型 f ϕ s 联合训练,使用算法 1 .在每一步中,首先训练 f ϕ s 来模仿 f ϕ的预测,采用蒸馏方法。通常情况下,这包括类别标签预测和KL损失的组合,由因子 α 加权。然后针对 f ϕ s 和 f ϕ 生成对抗性样本 ˜ x ,最后更新 f ϕ。整个过程可以看作是一种防御机制,迫使 f ϕ学习动态表示。04.2. 通过直接优化进行DRL0这种方法在训练过程中直接最大化视频网络的动态分数。这相当于视频模型(教师)和空间模型之间的最小-最大博弈0算法 3: 通过最小-最大近似进行快速DRL迭代0输入: 小批量 B � D , 视频模型 f ϕ , 学习率 η, 动态损失权重 λ0对于 ( x , y ) ∈ Bdo0创建一个冻结或重排的副本 ˜ x of x ;更新视频模型以最大化动态分数0(12) 结束0输出: 更新的模型参数 θ0(学生)0− λ ∙ L kd ( f ϕ s ( x ) , f ϕ ( x )) � . (13) 如算法 2中所述,我们采用类似于对抗网络的训练过程,交替更新 fϕ 和 f ϕ s 的参数。对 f ϕ s 的最大化优化使空间模型 fϕ s 尽可能地模仿视频模型 f ϕ 的预测。对 f ϕ的最小化则迫使后者产生与前者尽可能不同的预测,同时最小化分类错误,使 f ϕ 学习视频动态。这个对抗目标与ReBias 算法 [ 2 ]的形式类似。这两种方法主要在空间和时间模型之间的相似性标准上有所不同:[ 2 ]优化了去偏模型和有偏模型学习的特征空间之间的Hilbert-Schmidt独立性准则(HSIC),而DRL使用了蒸馏损失,即KL散度,它们之间的输出概率之间的差异。我们相信这使得所提出的动态分数能够明确地捕捉到空间和动态模型在分类动作类别时的一致性。与第 3.2节中的分数计算类似,静态模型的蒸馏可以被一个无需训练的方法所替代,其中 f ϕ s是通过预处理输入视频以去除时间信息从 f ϕ自身派生出来的。在这种情况下,使用算法 3 。05. 实验0在本节中,我们对现有的视频识别网络进行动态评分,并评估DRL如何提高其建模视频动态的能力。192850训练模式数据集#类别#示例0预训练Kinetics [46] 400 300k miniKinetics [88] 200 85k0微调UCF-101 [73] 101 13k HMDB [49] 51 5k Diving-48[53] 48 18k0少样本识别† Sth-Sth V2 [34] 174 220k Jester [58] 27 148k0领域泛化Mimetics [87] 50 7000表1.预训练和评估数据集。†每个少样本学习episode中随机选择5个类别。少样本训练集包含5个(1-shot)或25个(5-shot)示例。这里报告完整数据集的类别和样本总数。05.1. 实验设置0数据集。我们采用在Kinetics-400[46]数据集上预训练视频识别模型的做法。为了减少训练时间,在初步的动态评分实验(第5.2节)中,模型在Kinetics的200类子集miniKinetics[88]上进行评分。如表1所示,我们在六个不同动作领域的数据集上评估DRL对模型迁移的影响(第5.3节)。UCF-101 [73],HMDB [49],Diving-48[53]用于通过微调评估迁移,而Something-Something v2 [34]和Jester[58]用于评估少样本分类。由于这两个数据集的规模较大,不进行标准分类测试,这减少了模型预训练的需求。我们还在Mimetics[87]测试集上评估经过训练的分类器的领域泛化能力,而无需进行任何微调,该测试集与Kinetics共享动作词汇,但空间偏差较弱。模型。DRL在具有不同类型卷积模块的视频动作识别网络上进行评估:3DResNet [37]使用3D卷积核,而TSM[55]基于2D卷积。采样帧率是自适应选择的,以确保输入剪辑的长度保持为1秒,以便动态分数在模型之间可比较。详细的训练过程包含在补充材料中。5.2.动态评分0表2总结了在miniKinetics[88]上学习的网络的动态分数。基准是通过标准交叉熵最小化训练的模型。动态分数通过方程2的蒸馏分数或方程4的近似分数进行测量,基于从输入剪辑中去除时间信息(冻结和洗牌)。DRL采用对抗性增强(算法1),直接优化(算法2)或基于剪辑冻结或洗牌的近似(算法3)实现。从表中可以得出几个结论。首先,所有DRL方法都能有效改善基准的动态分数γ。直接优化的DRL的增益更大,经常0方法动态分数γ(fϕ, pD)蒸馏冻结洗牌0基准0.33 1.06 0.740DRL(Adv. augment)FGSM,ϵ = 80.45 1.25 0.88 PGD,ϵ =80.45 1.26 0.890DRL(Min-max opt.)0蒸馏,λ = 0.50.61 1.79 1.290冻结,λ = 0.50.62 2.21 1.70 洗牌,λ =0.50.54 1.26 1.230表2. 在miniKinetics-200上训练的3DResNet-18模型的动态分数,通过蒸馏或冻结/洗牌剪辑进行测量。“基准”表示标准交叉熵训练;DRL变体在第4节中讨论。最佳结果以粗体显示,亚军以下划线显示。0将基准分数翻倍。其次,对于min-max游戏,算法2的优化并不容易。我们发现使用冻结剪辑的近似DRL更容易训练,并且如表中所示,可以得到最佳的动态分数。相同的情况并不适用于使用帧洗牌的近似DRL,其性能是三种直接优化技术中最差的。我们认为这是因为帧洗牌会产生人为高的时间频率,而视频网络无法建模。在所有后续实验中,我们使用带有冻结剪辑的直接优化的近似DRL。第三,关于动态分数的测量方法,虽然不同的方法会产生不同的γ值,但不同学习方法的相对顺序保持不变。虽然知识蒸馏提供了最小(因此最准确)的动态分数估计,但它需要从头开始训练一个新的图像卷积网络。由于通过冻结或洗牌输入剪辑进行测量只需要对测试集进行一次前向传递,因此评估效率更高。05.3. 转移学习0多样本识别。表3比较了从Kinetics到UCF-101[73]、HMDB [49]和Diving-48[53]数据集的转移学习性能,使用预训练表示进行线性评估或完全网络微调。我们将使用冻结剪辑(算法3)进行近似优化训练的DRL模型与基线的基于交叉熵的Kinetics预训练进行比较。微调准确率还与从头开始初始化的网络(3DResNet)或ImageNet权重(TSM)进行比较。我们观察到以下情况:首先,从Kinetics进行转移学习明显优于从头开始训练或使用ImageNet初始化。这是小目标数据集大小的已知结果,并确认了Kinetics预训练对文献中许多动作识别数据集的重要性。其次,DRL在提高所有模型的动态得分方面非常有效,经常将基线的得分翻倍甚至翻三倍。第三,DRL在线性设置和微调中都达到了最佳性能192860方法 架构 输入 预训练准确率 K400 γ(fϕ, pD) 线性准确率 微调准确率 UCF HMDB Diving UCF HMDB Diving0– – – – – 59.08 24.12 47.82 基线 56.40 0.81 83.27 52.29 9.95 87.34 61.24 61.22 DRL 53.32 1.34 84.30 55.2311.32 87.36 63.59 63.150– – – – – 46.55 20.00 33.96 基线 62.04 0.68 87.23 59.54 16.29 89.21 64.58 67.92 DRL 59.92 1.63 88.24 61.8316.55 90.88 64.64 68.830– – 62.75 36.14 9.29 82.55 51.90 71.07 基线 64.55 0.47 73.83 46.73 12.49 92.23 64.64 72.74 DRL 62.20 1.4677.13 50.78 13.40 91.25 65.49 73.960– – 66.98 37.58 10.96 87.02 55.36 74.97 基线 71.19 0.45 82.13 54.64 17.01 95.14 69.41 77.56 DRL 68.75 0.9684.91 58.04 22.34 95.03 72.29 79.040表3. Kinetics模型在UCF-101、HMDB-51和Diving-48上的线性分类和微调性能。通过改进动态得分γ(fϕ,pD),DRL产生可转移的视频表示,无论是线性判别还是微调。0方法 架构 输入 Sth-Sth v2 Jester 1-shot 5-shot 1-shot 5-shot0基线3D ResNet-18 112x112x16 30.34 40.72 27.42 39.12 DRL31.24 43.46 31.79 44.600基线3D ResNet-50 112x112x16 31.79 44.40 27.90 43.01 DRL33.85 46.75 33.24 47.580基线TSM ResNet-18 224x224x8 30.96 41.67 28.21 39.07 DRL31.90 44.00 32.44 47.000基线TSM ResNet-50 224x224x8 31.32 42.29 27.38 38.71 DRL32.28 45.02 31.85 47.040表4. 在Something-SomethingV2和Jester上进行跨领域少样本评估的视频表示。在所有实验中,基于Kinetics的预训练;5-way准确率报告。0对于几乎所有模型和目标数据集的组合,微调的收益都小于线性分类。这是预期的,因为网络微调可以纠正预训练模型的一些偏差。这对于UCF-101尤其如此,它与Kinetics训练集具有非常相似的偏差,因为两者都来自相同的数据源(YouTube),并且包含类似的动作类别。这导致在转移设置下准确率很高,并且从DRL获得的改进较小。DRL在HMDB和Diving上的收益是一致的,因为视频来源和动作词汇与Kinetics有足够的差异。总体而言,DRL平均提高了2.39%的线性分类准确率和1.03%的微调准确率。0我们还观察到,动态得分的增加并没有在Kinetics数据集上转化为准确率的提升,DRL模型在基线预训练上的表现低于2-3%。这是预期的,因为训练集和测试集具有相同的空间偏差,因此训练以利用所有偏差的模型可以获得更高的准确率。然而,在分布转移下评估时,这些空间模型往往比使用DRL目标训练的模型转移效果更差。0方法 基线 学习混合[19] RUBi[11] ReBias[2] DRL0准确率@1 18.9 11.4 13.4 22.4 26.40表5. 在Mimetics的10个类上评估在Kinetics预训练的3DResNet-18模型的领域泛化准确率。0少样本识别。为了评估表示的可迁移性,我们考虑了跨领域少样本分类任务。也就是说,预训练在Kinetics(基础)类上的网络被用于另一个数据集(新颖类)中,以提取特征并输入到少样本动作识别器中。目标数据集是Something-Something V2 [34]和Jester[58]。这种设置比大多数以前的少样本视频分类工作(例如[12,92])更具挑战性,因为基础和新颖类别是从不同的数据集中采样的,这会导致域偏移,降低少样本学习的性能[15]。少样本分类使用Chen等人的基线方法[15]实现,该方法在每个episode中使用支持数据优化线性分类器,并在查询视频上进行评估。测试了1-shot和5-shot的情况,并报告了5-way准确率。表4显示DRL在所有模型和目标数据集的组合中都优于基线。它还在两个目标数据集上为大多数网络实现了较大的增益,特别是在5-shot学习上。例如,使用TSMResNet-18架构,我们观察到在Jester数据集上5-shot动作识别的改进为8%。在这种设置下,三个DRL模型的准确率超过47%,而单个基线模型的准确率超过40%。对于Sth-Sth,增益较小,但对于大多数模型来说在2-3%之间。这些结果支持结论,即尽管Kinetics的规模很大,但在该数据集上训练的模型在不推广到其他识别数据集的空间线索上有些过拟合。减少这种空间偏差,如DRL所做的,增加了模型的鲁棒性和迁移性能。192870标签 打牌0基线制作珠宝(0.177)0打牌(0.423)DRL0冲浪0举重(0.571)0冲浪(0.243)0基线0DRL0标签0放风筝0接住或扔飞盘(0.312)0放风筝(0.291)0吃蛋糕0吸烟(0.196)0吃冰淇淋(0.166)0鼓掌0握手(0.688)0梳头0剑术练习(0.809)0梳头(0.943)0图3.Kinetics、HMDB和Mimetics视频的定性结果。DRL在非上下文动作上表现更好。0领域泛化。我们最后在Mimetics[87]测试集上评估在Kinetics上训练的视频动作分类器,不进行微调,该测试集包含与50个Kinetics类对应的模仿动作的视频。这导致了一个测试域,与训练数据具有相似的动作动力学,但没有共同出现的对象和场景,减少了空间偏差模型的优势。我们遵循[2]的设置,该设置使用Mimetics的10个类进行评估。如表5所示,使用DRL训练的3DResNet-18模型在领域泛化准确率上优于交叉熵预训练基线和先前的去偏方法。定性示例。在图3中,对模型预测的更详细观察显示,基线模型往往在发生在陌生环境中的动作上失败(例如户外的“梳头”或室内的“冲浪”)。DRL能够通过减少对上下文线索(场景、物体等)的依赖并引导网络专注于动作本身的时间动态来纠正这些预测。05.4. 消融研究0动态损失。图4显示了动态损失权重λ对学习模型的迁移准确性的影响,通过线性探测进行测量。我们比较了三种DRL训练方法,分别使用直接的最小-最大优化(Dis-till,算法2)或通过从输入剪辑中删除时间信息的最小-最大近似(Freeze和Shuffle,算法3)。如图所示,直接的最小-最大优化在优化过程中面临困难的优化空间,在DRL权重λ>0.5时无法收敛,并且无法改善较小λ值下的表示质量。对于小λ值,Shuffling近似方法在改善学习表示的线性分类方面是有效的,但随着正则化权重的增加,趋势逆转,最终导致λ ≥0.5时的结果较差。这可能是因为帧重排引入了高时间频率的伪影,卷积网络无法对其进行建模。相反,通过冻结输入剪辑的最小-最大近似始终受益于更大的DRL权重λ,在HMDB上的线性分类准确率提高了5%,在UCF上提高了3%。0图4. 3DResNet-18模型的线性评估准确率与损失权重λ的关系。所有模型都在miniKinetics上进行了预训练;λ = 0表示标准的交叉熵训练。0γ(fϕ, pD) K400 (in-dist.) UCF HMDB Diving0基准 0.289 55.78 84.35 55.75 10.30 DRL 0.421 54.76 84.30 57.06 12.340表6.使用ResNet-18骨干和5个光流帧的双流网络的动态分数和线性评估准确率,在基准和DRL预训练下。0在HMDB上,DRL的动态分数提高了5.5%,在UCF上提高了3%,在Diving上提高了1.5%。这些结果证实了表2中的发现,即DRL与冻结剪辑一起也能够使训练模型的动态分数得到最大的改善。输入模态。虽然主要结果已经证明DRL减少了空间偏差并改善了基于原始RGB输入的视频CNN的可迁移性,但我们进一步尝试了利用其他模态明确捕捉运动信息的网络。表6比较了基于不同预训练策略的基准双流网络[70]的动态分数和迁移性能。可以观察到,基于RGB的模型中存在着与空间偏差相同的问题。这表明,虽然可以将光流流集成到网络中以增强运动捕捉能力,但它们不能明确地消除外观流中的空间偏差。DRL改善了网络的动态分数以及在HMDB和Diving上的迁移准确性,同时在UCF上实现了与基准相当的性能。06. 讨论和结论0在这项工作中,我们引入了动态分数,这是一种衡量视频卷积网络中时间动态建模的新方法。我们讨论了评估动态分数的各种方法,包括通过知识蒸馏到2D空间卷积网络或通过预处理输入剪辑来删除时间信息。我们还提出了动态表示学习(DRL)来改善网络的动态分数,使用对抗扰动或最小-最大优化。经过训练的视频分类器及其学习到的表示在一系列下游任务(线性分类、微调、少样本识别、领域泛化)上进行了实证评估,结果表明增强的时间表示学习具有明显的优势。致谢。本工作部分资助来自NSF奖励IIS-1924937、IIS-2041009、亚马逊的赠款以及高通的赠款。我们感谢Nautlius平台上的一些实验。[3] Pedro Ballester and Ricardo Araujo. On the performance ofgooglenet and alexnet applied to sketches. In Proceedings ofthe AAAI Conference on Artificial Intelligence, volume 30,2016. 1[5] Gedas Bertasius, Heng Wang, and Lorenzo Torresani.Isspace-time attention all you need for video understanding?arXiv preprint arXiv:2102.05095, 2021. 3[6] Moshe Blank, Lena Gorelick, Eli Shechtman, Michal Irani,and Ronen Basri.Actions as space-time shapes.InTenth IEEE International Conference on Computer Vision(ICCV’05) Volume 1, volume 2, pages 1395–1402. IEEE,2005. 1[8] Wieland Brendel and Matthias Bethge. Approximating cnnswith bag-of-local-features models works surprisingly well onimagenet. arXiv preprint arXiv:1904.00760, 2019. 1tations, 2019. 7[16] Yunpeng Chen, Yannis Kalantidis, Jianshu Li, ShuichengYan, and Jiashi Feng. A2-nets: Double attention networks.arXiv preprint arXiv:1810.11579, 2018. 3[17] Jinwoo Choi, Chen Gao, Joseph CE Messou, and Jia-BinHuang.Why can’t i dance in the mall?learning tomitigate scene bias in action recognition.arXiv preprintarXiv:1912.05534, 2019. 1, 3192880参考文献0[1] Anurag Arnab, Mostafa Dehghani, Georg Heigold, ChenSun, Mario Luˇci´c, and Cordelia Schmid. Vivit: A video visiontra
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功