没有合适的资源?快使用搜索试试~ 我知道了~
112用于视频域自适应的跨模态对比特征学习金东铉1,蔡怡萱2,庄冰冰2,向宇2斯坦·斯科拉罗夫1,凯特·萨彦科1,3,曼莫汉·钱德拉克21波士顿大学、2NEC Labs America、3MIT-IBM Watson AI Lab{donhk,sclaroff,saenko}@ bu.edu,{ytsai,bzhuang,xiangyu,manu}@ nec-labs.com摘要从视频中学习可转移和域自适应的特征现有的视频域自适应方法主要依赖于从RGB图像空间导出的对抗性特征对齐。然而,视频数据通常与多模态信息相关联,例如,RGB和光流,并且因此设计在跨域自适应设置下考虑跨模态输入的更好方法仍然是一个挑战为此,我们提出了一个统一的框架,视频域自适应,同时正则化跨模态和跨域的特征表示。具体来说,我们对待每一个模态在一个域作为一个视图,并利用对比学习技术与适当设计的采样策略。因此,我们的目标规范化的特征空间,原来缺乏跨模态的连接或跨域的对齐较少。我们在领域自适应动作识别基准数据集上进行了实验,UCF、HMDB和EPIC-Kitchens,并展示了我们的组件对最先进算法的有效性1. 介绍最近,领域自适应由于其在训练期间的效率而不需要收集目标领域中的地面真实标签而获得了很多关注。现有的方法在基于图像的任务中取得了重大进展,例如分类[33,14,54,42],语义分类[33,14,54,tic分割[16,53,56,31,38]和对象检测[8、43、24、17]。虽然有几项工作试图将这种成功扩展到基于视频的任务,如通过对齐外观的动作识别(例如,RGB)特征通过对抗性学习[6,9,37],由于视频数据的复杂性更高,视频自适应任务面临挑战此外,与图像数据不同,用于动作识别的视频中的域转移通常涉及更复杂的环境,这增加了适应的难度。为图1.我们提出了一个跨模态的对比学习框架工作的视频域适应。我们的框架包括两个对比学习目标:(1)跨模态对比学习,以对齐来自相同视频的跨模态表示,以及(2)跨域对比学习,以对齐每个模态中的源域和目标域之间的表示。例如,而且,在相同的背景下可以发生不同的动作. 因此,纯粹依赖于对齐RGB特征可能偏向于背景并影响性能。除了外观提示之外,在视频数据的(自)监督学习方法中还考虑了其他模态,例如运动,音频和文本[46,2,26,39]。 在 在这项工作中,我们集中在作为跨域动作识别任务中的两种最常见模态的外观和运动,其中运动模态(即,光流)被示出为更加域不变(例如,背景变化)比RGB [36]。因此,运动可以更好地捕获背景无关的信息,而RGB可以在不同的相机设置下识别语义上有意义的信息相机视角如图1所示,对于跨两个域的两种模态,自适应成为如何探索跨模态和跨域特征之间的关系的任务,以充分利用视频域的多模态属性1361813619↔适应也就是说,给定源视频Vs或目标视频Vt,它们可以与出现特征Fa或运动特征Fm相关联,这导致特征空间的四种组合,即,Fa,Fa,Fm,Fm传统学习目标提高了准确性,而将这两种策略结合在一个统一的框架中获得了最佳效果。此外,我们的方法相对于最先进的域自适应技术(例如,s t s t因此,随之而来的任务是设计一个有效的适应机制来处理这四个特征空间。由于每种模态都具有其特性和益处(例如,流更具有域不变性,并且RGB可以捕获语义线索),使得能够跨两种模态进行特征学习是非常令人感兴趣的我们的主要贡献源于观察到,在例如,[6,10]不能直接应用于交叉模态设置. 例如,直接将源域中的RGB特征Fa与流特征对齐是不合理的对抗性特征对齐[6,36],自学习方案[10]和伪标签自训练。本工作的主要贡献总结如下。• 我们提出了一个新的多模态框架的视频域适应,利用在四个不同的特征空间跨模态和域的属性。• 我们利用对比学习技术与精心设计的抽样策略,并证明了跨域动作识别的自适应应用Fs 或Ft在任何一个领域。为了解决这个问题,受自我监督多视图学习[50]的最新进展的启发,实现了强大的特征表示,我们建议将每个模态视为视图,同时在我们的多模态学习框架中引入跨域视频数据为此,我们利用对比学习目标在视频域自适应设置下在这四个特征空间(见图1)之间相互执行特征正则化。我们注意到,之前的工作[36]也采用了多模态框架,但它专注于典型的对抗性对齐和自我监督目标,以预测RGB/流模态是否来自同一视频剪辑,而没有探索像我们的工作一样联合正则化跨模态和跨域特征。更具体地,我们的框架被允许在域内跨模态对比特征(例如,在Fa和Fm之间)或使用一种模态跨域(例如,通过利用外观和流动模态来进行点火• 我们展示了跨模态和跨域对比目标的有效性,通过广泛的分析,在UCF-HMDB和EPIC-Kittlefield适应基准上实现了2. 相关工作在本节中,我们将讨论现有的用于动作识别的全监督和域自适应方法,以及用于视频表示的无监督学习方法监督动作识别。动作识别是理解视频表现的重要任务之一。随着深度学习的最新进展,早期的作品在RGB视频帧上采用2D [22]或3D [19]卷积网络,取得了重大进展。为了改进单模态框架,S s在Fa和Fa之间)。两种损失函数是光流通常被用作时间线索以极大地S t1)交叉模态损失,其将每个模态视为视频中的一个视图,同时对比来自相同域的其他视频中的视图; 2)跨域损失,其一次考虑一个模态并且基于跨两个域的视频的(伪)类别标签来对比特征。所提出的基于对比学习的特征正则化策略有几个好处:1)它是一个统一的框架,允许不同模态和域中的特征之间的相互作用,同时仍然享受每种模态的益处; 2)其使得能够实现在损失项中选择多个正样本和负样本的采样策略,与存储器库相耦合以记录视频剪辑中的大变化; 3)我们的跨域损失可以被认为是具有类标签意识的伪标签自训练的软版本,其比典型的自适应方法表现得更鲁棒。我们在视频动作识别基准数据集上进行实验,包括UCF [47] HMDB [27]设置和EPIC-Kitchens [11,36]数据集。我们表明,无论是我们的跨模态或跨域CON-提高动作识别的准确性[46]。在这种多模态流水线之后,提出了几种方法来进一步结合长期时间上下文[58,12]和结构[52,66,57],或扩展到3D卷积网络[4,51]。此外,最近的方法显示了采用1D/2D可分离卷积网络的好处[52,63],而其他方法[12,20]专注于改进用于动作识别的3D卷积架构,以提高计算效率。尽管这些方法在完全监督的方式下表现良好,但我们的重点是在无监督域自适应设置下开发一个有效的动作识别用于动作识别的域适应。由于在各种条件下记录视频的便利性,对于开发用于跨域动作识别的方法的需求日益增加以前的方法专注于跨域迁移学习的设置[49,65,64]或解决视频中的视点方差问题[25,29,41,45]。然而,用于动作识别的无监督域自适应(UDA)在2009年之前受到的关注较少。13620联系我们联系我们图2.我们的跨模态对比学习框架的概述我们对RGB和Flow使用双流网络每个流获取视频剪辑并输出每个域和模态的特征向量(Fa,Fa,Fm,Fm)。对于跨模态对比学习,我们s t s t添加投影头(h)以学习其中来自同一视频的流和RGB特征匹配的嵌入(例如,h(Fa),h(Fm)).sisi对于跨域对比学习,我们在没有投影头的情况下匹配同一类的跨域特征(例如Fa,Fa)insitj同样的模式。对于未标记的目标域,我们使用高置信度伪标签Yt来找到源域中的正样本和光流被用于彼此对准以用于自学习[2,26,39,15,1,35,40]。在学习过程之后,这些方法通常用作下游任务的预训练步骤在本文中,我们研究了跨域和跨模态动作识别的UDA设置,其中涉及标记的源数据集和未标记的目标视频。3. 该方法在本节中,我们首先介绍最近早期的尝试使用手工制作的特征[3,67]在源域和目标域之间对齐分布,而最近的基于深度学习的方法[18,37,9,6,10,36]利用UDA对图像分类的洞察力并将其扩展到视频案例。例如,方法[6,37]利用对抗性特征对齐[14,54]并提出了具有注意力模块的时间版本。此外,通过考虑视频属性(诸如视频中的剪辑顺序[10]、顺序域预测[5]和模态对应预测[36])来采用自监督学习策略与[36]类似,我们的方法也考虑了多模态特性,但侧重于不同的问题体系。具体来说,我们提出了一个对比学习框架,可以更好地利用多模态,同时跨模态和跨域的特征空间,这是以前未研究的。自监督 学习 为 视频表示。所提出的用于视频域自适应的方法。然后,我们描述了跨模态和跨域特征正则化的各个模块,然后使用对比学习在统一的框架中3.1. 算法概述给定包含具有其动作标签集Ys的视频siVs的源数据集,我们的目标是学习能够在未标记的目标视频集tiVt上表现得相当好的动作识别模型。由于我们的目标是研究一种有效的方法来构建一个域自适应模型,利用多模态信息的好处RGB和流),我们利用一个双流网络[36],将RGB和流图像作为输入。因此,双流网络将输出RGB模态特征Fa和流动模态特征Fm,其形成跨模态和域的四个不同特征空间,即Fa,Fa,Fm,Fms t s t从未标记的视频中学习对于视频表示是有益的,因为视频标记是昂贵的。例如,通过利用视频中的时间结构开发了许多方法[13,60],例如,时间顺序验证[34]和排序序列[28]。通过利用跨帧的时间连接,随时间的补丁跟踪[59]或未来帧的预测[48]也有助于视频中的特征学习此外,为了将在我们的对比学习框架中,我们通过两种对比损失函数共同考虑这四个空间的关系,以正则化特征,如图1所示。首先,我们将每个模态视为视图,从同一域(源或目标)提取RGB/流特征,并基于特征是否来自同一视频来 跨模态特征一个视频的Fa和Fm应该彼此更接近S s多模态信息转化为学习,RGB帧,音频,在一个嵌入空间中比其他提取不同表1.注释摘要符号含义{Vs,Vt}Fa{源,目标}视频剪辑SFmSFa不Fm不h(·)Yt源外观特征源运动特征目标外观特征目标运动特征共享投影头目标伪标签13621·{}∈·--联系我们莫S不SISJSISJSIsi+SIsi+k=lSIsj−k我不是TJ我不是TJ图3.跨模态对比学习概述。我们从相同的视频片段中提取RGB特征和流特征作为正特征,但从不同的视频片段中推送跨模态特征视频剪辑。第二,对于跨域的特征,例如, Fa和Fa,但是在相同的模态内,我们基于视频是否可能共享相同的动作标签来对比为此,我们计算伪标签Yton tar get videos and form positiveiv e/neg ativ e samplesto图4.基于伪标签,我们拉共享相同标签的源和目标特征,但推跨域特征。这样的采样策略对于我们的对比学习目标是特别有益的,所述对比学习目标知道嵌入空间中的视频剪辑内的变化。样品之间的相似性。 对比学习的另一个重要方面是特征相似性。以源域为例,我们有来自RGB和流的特征,即,Fa和Fm。由于每种模式都保持进行对比学习。图2展示了我们的总体框架和表2总结了符号。3.2. 跨模态正则化受无监督多视图特征学习方法[50]的启发,我们将每个模态视为一个视图,并在同一视频中形成正训练样本,以及来自不同视频的负样本。然而,不同的是,我们不能直接应用负配对所有的视频,就像我们的问题,两个视频由于域间隙,同一视图下的不同域可能仍然有很大的不同因此,将源视频和目标视频混合是不合适的,相反,我们在每个域中分别形成对比目标。抽样策略。研究表明,采样策略在基于图像的对比学习中至关重要[21]。直接对比这两种特征可能会对特征表示产生负面影响,降低识别准确率。为此,给定来自两个视频的源特征Fsi和Fsjsi,sjVs,我们应用附加投影头h()以类似于SimCLR [7]的方式,然后我们可以将具有温度参数τ的样本之间的相似性函数s()定义为:s(Fk,Fl)k,l∈{a,m}= exp(h(Fk)(一)其中a、m表示外观(RGB)或运动(流动)模态。损失函数。基于如图3中所描绘的前述采样策略和相似性测量,源域的损失函数被写为:在我们的案例中,考虑来自一个域的视频,我们选择SΣs(Fk,Fl)k=l来自相同视频但具有dif-L的−logsi∈Vs,mo=Σs(Fk,Fl)+s(Fk,Fl )行动标签在图3中示出了针对源域的交叉模态采样,并且针对目标域使用类似的策略。此外,由于一个视频剪辑包含许多帧,因此每次我们都需要按照[10,36]中的设置随机采样视频剪辑内的连续帧的窗口。为了说明视频剪辑内的大的帧内变化,我们不假设RGB和流模态需要具有相同的帧窗口例如,给定视频剪辑,RGB帧可以从时间窗t→t+15,而流帧可以不同,例如,t+5t+20。根据经验我们发现其中,Fsi+是来自相同视频剪辑F s i的具有不同视图(模态)的正样本,而Fsj-是来自Fsi的具有不同视频的另一视图的负样本,无论它们的动作标签如何。这里,我们省略符号k、la、m以具有简洁的呈现。另一方面,对于目标域中的视频,我们构造类似于(2)的具有相同投影头h(·)的另一个损失Lt,其中目标视频{ti,ti}∈Vt的特征之间的相似性度量t被定义为:t(Fk,Fl)k,l∈{a,m}= exp(h(Fk)(当RGB和流帧来自不同的视频时,对负模式进行采样,而不管si∈VsL(13622三)13623·我不是si+logti∈Vt一我不是si+我不是si−我不是si+∈si+s t st在这里,要考虑单个域的特性,我们发现关键是形成每个域的跨模态损耗对于RGB模态的测量的最小值被定义为:Σst(Fa,Fa)Ldo=−Fa,Fa)+Fa,Fa),从而它们不再彼此互补。因此,通过将这两个损失函数组合在源域和目标域(即, Ls和Lt )、特点其中tiVt是具有更自信的伪标签Yt的视频的集合。Fa是源的假定样本ˆ陌陌videossi∈Vs,具有与Yt相同的类标签,而Fa−在同一视频内但来自不同模态的距离更近在嵌入空间中,其也作为特征正则化未标记的目标视频。SI是具有不同类别标签的阴性样本同样地,当模态为流动时,损失函数为:Σst(Fm,Fm)M(六)除了介绍Ldo=−(F m,F m)+(F m,F m).在前面的部分中,我们发现在跨域的特征之间存在缺失的连接为了进一步利用ti∈Vttisi+tisi−四个特征空间(Fa,Fa,Fm,Fm)之间的相互作用我们还注意到,不使用投影的选择标题h(·)是合理的,因为我们的对象i在(5)和(6)中是-我们建议对跨域样本使用另一个对比学习目标通过伪标签的采样策略。以一个模态RGB为例,我们考虑Fa和Fa在类似的对比学习设置中的跨域特征,如本质上试图使具有相同动作标签的特征彼此更接近,这与执行动作识别的最终目标一致。连接到伪标签自我训练。 使用在目标样本上设置伪标签以自训练模型在第3.2节中描述。在这里,形成正样本的直观方法是找到跨域具有相同标签的视频。然而,由于我们不知道目标域中的动作标签,因此我们首先应用我们的双流动作识别模型并获得目标域视频的预测得分然后,如果分数大于某个阈值T(例如,T=0。8、在我们的生活中,我们此目标样本的伪标签和其他源样本来自正样本的具有相同动作标签的视频(否则它们是负样本)。RGB模态的过程在图4中示出,而类似的方式用于流动模态。样品之间的相似性。为了在我们的对比目标中测量样本相似度,我们采用BROST来计算跨域特征之间的相似度:st(Fk,Fk)k∈{a,m}=exp(Fk是域适应中的一种常用方法[69,68,32]。在所提出的跨域对比学习中,我们还采用伪标签来形成正样本。然而,这两种方法在重塑特征空间的方式方面是不同的。给定目标视频Vt,可以产生伪标签Yt,并使用它来训练具有标准交叉熵损失的动作识别网络因此,这样的超视觉是迫使特征Ft映射到动作标签Yt的 空 间 中 的 强 信号,其对诸如伪标签的噪声标签敏感。相反,使用con-具有伪标签的传统学习在精神上类似于软最近邻损失[44,61],其鼓励软特征对齐,而不是强制执行硬最终分类,因此对潜在的错误伪标签更鲁棒。类似的观察结果也在tis itisi最近的研究表明,其中模态k可以是我们工作中的外观或运动。注意,对于跨域特征正则化,为了对齐特征,我们不使用如第3.2节或图3(如下所述)的附加投影头h()损失函数。与采样策略(图4)和相似性相关1我们根据经验发现,对于每个域使用两个单独的投影头产生与共享相同投影头的投影头类似的性能,因此我们使用共享投影头作为稍后分析该嵌入空间的方式损失[23]比图像分类中的交叉熵损失更鲁棒。在我们的例子中,我们利用这样的属性,并表明跨域对比学习可以通过在视频域自适应中使用伪标签来实现,并且比伪标签自训练更鲁棒更多的实证比较将在实验中进行。3.4.对比学习框架在前面的章节中,我们已经介绍了如何合并跨模态和跨域对比损失函数以正则化从跨源域和目标域的RGB/流分支提取的特征。接下来,我们介绍整个目标。这两个损失函数仍然可以共享相同的投影头H1。 投影头有助于(五)以防止对该正则化的过度拟合。没有它,RGB和流特征将被对齐为相同,ti∈Vt3.3.跨域正则化logti∈Vt13624L LL↔↔↔si+×SI↔SISISt总体目标。总的来说,我们在3.2节和3.3节中包含了损失函数,而没有使用任何监督,并且表2. UCF HMDB的性能比较。设置双流UCF→ HMDB HMDB→ UCF标准监督交叉熵损失Lsrc 源视频仅源代码[6] 80.6 88.8TA3 N [6] 81.4 90.5带有操作标签Ys的Vs。为了获得双流网络的最终输出,我们对RGB和流分支的各个分类器的输出进行平均(见图2)。L_all=L_src(V_s,Y_s)+监督指标[6] 93.1 97.0TCoN [37]87.289.1[10] 80.3 88.8南非[10] 82.291.2监督目标[10] 95.0 96.8(七)λ(Lmo(Vs)+Lmo(Vt)+Ldo(Vs,Vt,Y(t)),其中λ是平衡项的权重。 在这里,我们请客a m(5)和(6)中的损失函数作为一项:do=do+do,因为它们具有相同的形式,但使用不同的模态。由于所有损耗项具有类似的形式,因此不需要对它们中的每一个进行大量调谐,因此我们对跨模态和跨域损耗使用相同的λ(即,λ=1。25篇)。利用内存库。为了计算跨模态和跨域损失函数,我们需要计算从视频集Vs和Vt求和的所有特征表示。然而,不可能在每次训练迭代中获得所有特征。因此,我们将特征存储在[62]之后的存储体中,即,用于域和模态的单独存储器组,总共具有四个组合Ma、Mm、Ma和Mm。给定a中的功能框架,以适用于不同类型的动作识别设置:用于人类活动识别的UCF HMDB,以及用于以自我为中心的视频中的细粒度动作识别的EPIC-Kitchen。UCF HMDB。Chen等人[6]发布了UCF HMDB数据集,用于研究视频域自适应。这个数据集有3209个视频,有12个动作类。所有视频都来自原始的UCF [47]和HMDB [27]数据集,它们分别从UCF/HMDB的101/51个类中抽取重叠的12个类。有两个感兴趣的设置,UCF→ HMDB和HMDB→ UCF。s s t t我们展示了我们的方法在这两种设置下的性能分批(即,Fa、Fm、Fa和Fm),我们从sss it jt j用于正和负特征的存储体(例如,根据作者提供的官方分裂[6]。EPIC-Kitchens。 此数据集包含细粒度操作asi+或Fasi− 在(5)中,由Ma代替和并购si−). 然后,课程与视频记录在不同的厨房从存储体特征用每次迭代结束时的批处理。我们使用动量更新δ=0。5个[62]:Ma= δM a+(1 − δ)F a。(八)其他内存条Mm、Ma和Mm也已启动-自我中心观我们遵循[36]中用于域适应任务的训练/测试分割。三个最大的厨房有8个动作类别,即D1、D2和D3,我们使用它们的所有对作为源/目标域。注意与UCF HMDB相比,EPIC-Kitchens更s t t以同样的方式约会使用动量更新也鼓励训练动态的平滑性[62]。在我们的例子中,在训练过程中,我们随机采样视频剪辑中的连续帧。因此,通过使用记忆库,我们的模型还可以鼓励在特征学习中每个剪辑内的时间平滑性。4. 实验结果在本节中,我们展示了针对动作识别的许多域自适应基准场景的性能比较,随后是全面的消融研究,以验证我们的跨域和跨模态特征正则化的有效性。更多结果和分析请参见4.1. 数据集和实验设置我们使用三个标准基准数据集进行视频域适配,UCF [47],HMDB [27]和EPIC-Kitchens [11]。然后,我们表明,我们的方法是一个一般的因为它具有更细粒度的类(例如,我们报告了在[36]之后的最后9个时期平均的测试集上的前1个准确度。实施详情。我们的整个框架是在PyTorch中使用2个TITANXP GPU实现的。我们使用由RGB流和流组成的I3D双流网络[4],其中网络在[10]之后的Kinetics上进行预训练。在训练过程中,我们使用与[10,36]相同的设置从视频剪辑中随机抽取16个连续帧然后,每个RGB和流流采用这16个帧,其大小为224 224。每个流后面都有一个全连接层来计算各个输出logit。然后将每个流的logit平均以预测最终的班级分数。为了优化整个网络,我们使用学习率为0.01的SGD优化器。我们设定温度τ=0。1且δ=0。5对于以下所有实验[62]。用于UCFHMDB,我们按照[10]的设置来设置批量大小,总训练次数,学习率等。对于EPIC-Kitchild,我们在官方代码F仅源代码√82.890.7MM-SADA [36]√84.291.1我们的(交叉模态)√84.792.5我们的(跨域)√83.691.1我们的(决赛)84.792.8监督目标√98.895.013625→→→↔表3. EPIC-Kitchens的性能比较表4.EPIC-厨房的消融研究。设置模态 域 平均增益仅源代码45.5MM-SADA [36]√47.9 +2.4我们的√48.7 +3.2MM-SADA [36]√49.4 +3.9伪标记√49.0 +3.5我们的√50.1 +4.6[36]第一届世界 杯足球赛我们的√ √51.0 +5.5但是将批处理大小设置为32,以适应2个GPU的内存并训练模型进行6K迭代。每3K次迭代,学习率降低10倍。4.2. UCF HMDB上的结果我们在表2中示出了UCF HMDB和HMDB UCF的实验结果,与现有技术的方法- TA3 N [6]、TCoN [37]、SAVA [10]和MM-SADA [36]进行了比较。与最先进方法的比较。在表2的每组中,除了每种方法的结果之外,我们还示出了仅在源域中的视频上训练的我们还在相同的设置中在UCF-HMDB上实现[36]与仅通过对抗性特征对齐和自学习方案利用单一模态的TA3N,TCoN和SAVA不同,我们的方法在域自适应框架中利用RGB和流模态,从而实现了最先进的性能。我们还注意到,由于使用了流流,我们的仅源模型的性能略好于其他仅源基线。尽管通过利用流模态减少了域间隙,但我们的方法仍然获得了与仅源模型相当的性能增益,并且比采用相同双流模型的MM-SADA[36]表现得更好。例如,在UCF HMDB上,TA3N和SAVA的增益分别为0.8%和1.9%,而我们的增益与SAVA相同,远高于TA3N消融研究。在表2的第四组中,我们展示了模型变体,以验证在我们的对比学习框架中单个组件的有用性,即,跨模态和跨域特征正则化。从结果来看,这两个模块一致地改进了仅源基线的性能。通过结合两者,它提供了最高的精度。在这里,有趣的是,我们发现跨域模块比跨模态模块的帮助要小。 一个原因是在UCF HMDB上,这些两个域已经共享高相似性,这降低了使用跨域损失的影响。但这还示出了结合所提出的两个模块的重要性,其中即使当域间隙较小时,交叉模态损耗仍然可以提供有效的正则化在下一节中,我们将展示一个不同的场景,其中两个模块都很重要。4.3. 关于EPIC-Kitchen我们介绍了EPIC-Kitchens领域适应性基准的结果[36],包括与最先进方法的比较、消融研究和更多分析。与最先进方法的比较。 在表3中,我们提出了几种域自适应方法,包括通过对抗学习的分布对齐[33],最大分类器差异[42]和自适应批量归一化[30],以及最近提出的使用自学习目标的方法[36]。我们注意到,这些结果是使用与我们相同的双流特征提取器从[36为了公平比较,我们使用其官方实现和与我们相同的计算资源再现了MM-SADA [36]结果显示了我们的对比学习框架的优势更详细的分析如下。消融研究。在表4中,我们用考虑类似方面的其他方法消融了我们的跨模态和跨域损失函数的两个分量。为了公平的比较,我们使用相同的双流主干、实现和计算资源来生成所有结果。仅考虑模态或域,我们的方法始终优于MM-SADA [36],其中它使用自学习模块来预测RGB/流模态是否来自相同的视频剪辑和典型的对抗性学习方案来对齐跨域特征。结合这两个因素,我们的方法改善了此外,值得一提的是,我们的跨域损失性能比伪标签自训练好1. 1%,这验证了第3.3节中关于设置只有源D2→ D142.5D3→ D144.3D1→ D242.0D3→ D256.3D1→ D341.2D2→ D346.5是说45.5增益AdaBN [30]44.647.847.054.740.348.847.2+1.7MMD [33]43.148.346.655.239.248.546.8+1.3中文(简体)42.147.946.552.743.551.047.3+1.8MM-SADA [36]47.448.650.856.942.553.349.9+4.4我们的(模态)44.350.249.556.643.048.848.7+3.2我们的(域)47.452.852.456.141.749.950.1+4.6我们的(最终)49.551.550.356.346.352.051.0+5.5监督目标62.862.871.771.774.074.069.513626S·→·→不·S蓝色:源RGB绿色:源流蓝色:目标RGB绿色:目标流量红色:源RGB黑色:目标RGB红色:源流黑色:目标流量每种颜色代表一个类别(a)(b)(c)(d)(e)图5.在UCF HMDB上的投影头h()之后,跨模态和跨域特征的t-SNE可视化,即h(Fa),h(Fm),h(Fa),h(Fm).在(a)(b)中,我们显示了单个域的可视化,其中每个域包含多模态s t t功能.在(c)(d)中,我们可视化每种模态的特征,并且每个图使用来自两个域的特征。(e)包括来自两个域和两种模态的所有特征,其中每种颜色表示一个动作类。最近邻HMDB视频UCF视频表5.采样策略的消融研究。设置采样 是说 采样增益49.4MM-SADA [36]我们49.9 +0.549.951.0 +1.1图6.使用RGB功能的跨域检索给定目标特征Fa,我们检索源域中的最近邻居Fa我们的模型正确地对齐了视角(第一行)和背景(第二行)差异下的同类视频利用伪标签的区别。抽样策略。在表5中,我们呈现了交叉模态损失中的采样策略的消融(参见第3.2节),其中我们不假设RGB和流模态具有相同的帧窗口,其处理视频剪辑内的大的内部变化当在MM-SADA [36]中应用该策略时,作为数据增强的方式,性能增益小于我们的(即,0.5%对1.1%)。这验证了我们的采样策略与建议的对比学习目标,丰富的域自适应设置下的特征正则化。4.4. 更多结果和分析我们提出了更多的分析,包括使用t-SNE [55]的特征可视化,以及跨域检索的示例结果,以了解我们的模型预测。t-SNE可视化。在本文中,我们使用投影头h()将RGB/流特征投影到我们框架中的跨模态损失的嵌入空间。因此,了解特征在该嵌入空间中的行为是非常有趣为此,我们在两种模态上对来自两个域的特征进行采样,并在图5中的UCF HMDB上执行t-SNE可视化。在这里,虽然我们的跨模态损耗是在每个域中计算的因此,我们提供了特征空间的不同组合来可视化四个特征空间的样子,即,h(Fa),h(Fm),h(Fa),h(Fm).首先,在图5(a)(b)中,观察到在每个域中,来自不同模态的特征被对齐在一起(例如,源RGB/图5(a)中的流),因为这正是⑵中的交叉模态目标优化的。更有趣的是,如果我们在图5(c)(d)中一次考虑每种模态,例如,源RGB和目标RGB,它们的特征也对齐得很好,即使我们没有明确的目标通过h()在嵌入空间中对齐它们。这显示了我们的框架的优点,使特征正则化和跨四个特征空间的相互作用此外,我们呈现了每个类的分布的可视化,包括图5(e)中的两个模态的所有源和目标特征这说明来自相同类别的特征被很好地对齐。跨域检索。在图6中,我们展示了使用RGB特征的跨域视频检索。基于HMDB中的目标特征,我们给出了UCF中的最近邻特征。我们表明,我们的方法可以正确地检索同类的视频,无论是具有相同的上下文背景,但从不同的视角或在一个类似的运动,但具有不同的背景。5. 结论我们调查的视频域适应任务,我们的跨模态对比学习框架。为此,我们利用多模态,RGB和流量信息,并利用它们的关系。为了处理跨模态和域的特征空间,我们提出了两个目标来正则化这些特征空间,即跨模态和跨域对比损失,它们可以学习更好的特征表示,用于域自适应动作识别。此外,我们的框架是模块化的,所以它可以适用于其他领域的自适应多模态应用程序,这将被认为是未来的工作。s s t t13627引用[1] Humam Alwassel 、 Dhruv Mahajan 、 Bruno Korbar 、Lorenzo Torresani、Bernard Ghanem和Du Tran。跨模态音视频聚类的自监督学习。在NeurIPS,2020年。3[2] Relja Arandjelovic和Andrew Zisserman。看,听,学。InICCV,2017. 第1、3条[3] Liangliang Cao,Zicheng Liu,and Thomas S Huang.跨数据集动作检测。CVPR,2010。3[4] J. Carreira和A.齐瑟曼。你好,动作识别?新模型和动力学数据集。在CVPR,2017年。二、六[5] M.H.陈湾,澳-地Li,Y.鲍,加-地AlRegib和Z.吉良联合自监督时域自适应的动作分割在CVPR,2020年。3[6] Min-Hung Chen , Zsolt Kira , Ghassan AlRegib ,Jaekwon Yoo,Ruxin Chen,and Jian Zheng.用于大规模视频域适应的时间注意对准。在ICCV,2019年。一二三六七[7] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐和杰夫·弗雷·辛顿.视觉表征对比学习的一个简单框架。在ICML,2020。4[8] Yuhua Chen , Wen Li , Christos Sakaridis , DengxinDai,and Luc Van Gool.领域自适应更快的r-cnn的对象检测在野外。在CVPR,2018年。1[9] Jinwoo Choi,Gaurav Sharma,Manmohan Chandraker,and Jia-Bin Huang.无人机动作识别的无监督和半监督域自适应。在WACV,2020年。第1、3条[10] Jinwoo Choi,Gaurav Sharma,Samuel Schulter,and Jia-Bin Huang.洗牌并参加:视频域自适应。在ECCV,2020年。二三四六七[11] DimaDamen 、 HazelDoughty 、 GiovanniMariaFarinella 、 Sanja Fidler 、 Antonino Furnari 、 EvangelosKazakos 、 Davide Moltisanti 、 Jonathan Munro 、 TobyPerrett和Will Price。扩展以自我为中心的愿景:epic-kitchens数据集。在ECCV,2018。二、六[12] C. Feichtenhofer,H. Fan,J. Malik,and K.他外用于视频识别的慢速网络。在ICCV,2019年。2[13] Basura Fernando,Hakan Bilen,Efstratios Gavves,andStephen Gould. 使 用 奇 一 网 络 的 自 监 督 视 频 表 示 在CVPR,2017年。3[14] Yaroslav Ganin , Evgeniya Ustinova , Hana Ajakan ,PascalGermain , HugoLarochelle , FrancoisLa violette ,MarioMarc- hand,and Victor Lempitsky.神经网络的领域对抗训练。InJMLR,2016. 第1、3条[15] Tengda Han,Weidi Xie,and Andrew Zisserman.用于视频表示学习的自监督协同训练。在NeurIPS,2020年。3[16] Judy Hoffman , Eric Tzeng , Taesung Park , Jun-YanZhu,Phillip Isola,Kate Saenko,Alexei A.埃弗罗斯和特雷弗·达雷尔。苏铁:周期一致的对抗域适应。在ICML,2018。1[17] 许正春、蔡义宣、林燕宇、杨铭宣。每个像素都很重要:域自适应对象检测器的中心感知特征在ECCV,2020年。 1[18] Arshad Jamal、Vinay P Namboodiri、Dipti Deodhare和KS Venkatesh。动作空间中的深度域适应。在BMVC,2018年。3[19] S.吉,W. Xu,M. Yang和K. Yu.用于人类动作识别的3D卷积神经网络。IEEE Transactions on Pattern Analysisand Machine Intelligence,35(1):2212[20] Boyuan Jiang , MengMeng Wang , Weihao Gan , WeiWu,and Junjie Yan.Stm:用于动作识别的时空和运动编码。在ICCV,2019年。2[21] Yannis Kalantidis,Mert Bulent Sariyildiz,Noe Pion,Philippe Weinzaepfel,and Diane Larlus.用于对比学习的硬负混合。在NeurIPS,2020年。4[22] Andrej Karpathy , George Toderici , Sanketh Shetty ,Thomas Leung,Rahul Sukthankar,and Li Fei-Fei.使用卷积神经网络进行大规模视频分类。CVPR,2014。2[23] Prannay Khosla , Piotr Teterwak , Chen Wang , AaronSarna,Yonglong Tian,Phillip Isola,Aaron Maschinot,Ce Liu,and Dilip Krishnan.监督对比学习。在NeurIPS,2020年。5[24] Taekyung Kim、Minki Jeong、Seunhyeon Kim、SeokeonChoi和Changick Kim。多样化和匹配:一种用于目标检测的领域自适应表示学习范例。在CVPR,2019年。1[25] Y.孔,智-地Ding,J. Li,and Y. Fu.深入学习的视图不变特征,用于跨视图动作识别。IEEE Transactions onImage Processing,26(6):3028-3037,2017。2[26] Bruno Korbar
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功