没有合适的资源?快使用搜索试试~ 我知道了~
6321用于大规模视频域自适应的时间注意对齐Min-Hung Chen1 *Zsolt Kira1Ghassan AlRegib1Jaekwon Yoo2Ruxin Chen2Jian Zheng3 *1佐治亚理工学院2索尼互动娱乐有限责任公司3宾厄姆顿大学摘要虽然近年来已经提出了各种基于图像的域自适应(DA)技术,但视频中的域偏移仍然没有得到很好的探索。大多数以前的作品只评估小规模数据集的饱和性能。因此,我们首先提出两个具有更大域差异的大规模视频DA数据集:UCF-HMDB完整和动力学游戏。其次,我们研究了视频的不同DA集成方法,并表明即使没有复杂的DA方法,同时对齐和学习时间动态也可以实现有效的对齐。最后,我们提出了时间注意对抗适应网络(TA 3 N),它明确地注意到使用域差异的时间动态,以实现更有效的域对齐,在四个视频DA数据集上实现了最先进的性能(例如,在“HMDB →UCF”上,“仅源”的准确度从73.9%提高到81.8%,在“Ki- netics → Gameplay”上提高了10.3%)。代码和数据在http://github.com/cmhungsteve/TA3N上发布。1. 介绍近年来[4]广泛研究了域自适应(DA)[29]以解决域转移问题[32,30],这意味着在源标记数据集上训练的模型不能很好地推广到目标数据集和任务。DA根据目标域中注释的可用性进行分类在本文中,我们专注于更难的无监督DA问题,这需要训练模型,可以推广到目标样本,而无需访问任何目标标签。虽然许多无监督DA方法能够在学习区分性深度特征的同时减少源域和目标域之间的分布间隙[22,24,9,10,21,20,34],但大多数方法仅针对图像而非视频开发。此外,与基于图像的DA工作不同,不存在组织良好的数据集来评估和基准测试视频DA算法的性能。最常见的数据集是UCF-Olympic和UCF-HMDBsmall[39,*作为SIE实习生完成部分源靶时间时间空间空间域移位空间对准时间对准图1:视频DA的建议TA 3 N概述.除了帧图像之间的空间差异之外,视频还遭受时间排序帧集合之间的时间差异,所述时间排序帧集合包含对整体区域偏移具有不同贡献的多个局部节奏动态,如绿色虚线箭头的粗细所指示的。因此,我们建议专注于对齐具有较高域差异的时间动态,使用学习的注意力机制来有效地对齐视频的时间嵌入特征空间。在这里,我们用篮球作为例子。46,15],只有少数重叠的类别之间的源和目标域。这引入了有限的域差异,使得即使没有任何DA方法,深度CNN架构也可以实现近乎完美的性能(详见第5.2节和表2)。因此,我们提出了两个更大规模的数据集来研究视频DA:1)UCF-HMDB 完 整:我们收集了UCF101 [38]和HMDB 51 [18]之间的12个重叠类别,约为UCF-Olympic和UCF-HMDB small的三倍,并且包含更大的域差异(详见第5.2节以及表3和表4)。2) 动力学游戏:我们收集从几个目前6322流行的视频游戏与30个重叠的类别与动力学-600 [17,2]。该数据集比UCF-HMDB完整数据集更复杂,因为虚拟数据和真实数据的分布之间存在显著的域偏移。视频可能会受到空间和时间方向上的域差异的影响,从而需要沿两个方向对齐嵌入的特征空间,如图1所示。然而,大多数DA方法没有明确地解决在时间方向上的域移位问题。因此,我们首先研究了用于视频分类的不同DA集成方法,并表明:1)对齐编码时间动态的特征2)为了有效地时空对准域,对准哪些特征比使用什么DA方法为了支持我们的主张,我们提出了时间对抗适应网络(TA2N),它同时对齐和学习时间动态,优于其他方法,这些方法天真地将更复杂的基于图像的DA方法应用于视频。视频中的时间动态可以表示为对应于不同运动特性的多个局部时间特征的组合。并不是所有的局部时间特征都对整体区域移动有同样的贡献我们希望更多地关注对整体域偏移具有高贡献的那些,例如图1中所示的由较粗的绿色箭头连接的局部时间特征。因此,我们提出了时间注意对抗 适应 网络(TA3N)通过考虑域分布差异来明确地关注时间动态。以这种方式,将集中于对整体域移位贡献更多的时间动态,从而导致更有效的TA3 N在所有四个研究的视频DA数据集上实现了最先进的性能。总之,我们的贡献有三方面:1. 视频DA数据集收集:我们收集了两个大规模的视频 DA 数 据 集 , UCF-HMDBfull 和 Kinetics-Gameplay,以调查跨视频的域差异问题,这是一个未被探索的研究问题。据我们所知,它们是迄今为止视频DA问题的最大数据集。2. 视频DA的特征对齐探索:我们研究了视频的不同DA集成方法,并提供了一种通过对齐时间关系特征来有效地对齐视频的域时空的策略。我们提出了这个简单但有效的方法,TA2N,以证明确定什么是对齐的DA方法使用的重要性3. 时间注意对抗适应网络(TA3N):我们提出了TA3N,它同时对齐域,将时间动态编码为视频表示,并且关注具有域分布差异的表示。TA3 N在小型和大型跨域视频数据集上都实现了最先进的性能。2. 相关作品视频分类随着深度卷积神经网络(CNN)的兴起,最近的视频分类工作主要旨在通过利用CNN的空间信息和设计各种架构来利用时间动力学来学习紧凑的时空表示[16]。除了分离空间和时间学习之外,一些作品还提出了不同的架构来编码时空表示,并考虑性能和计算成本之间的权衡[41,3,31,42]。另一个工作分支利用光流来补偿原始RGB帧中时间信息的缺乏[37,7,44,3,26]。此外,一些作品通过利用递归神经网络(RNN)[5],注意力[25,27]和关系模块[51]来提取视频任务的帧之间的时间依赖性。请注意,我们专注于关注时间动态以有效地对齐域,并且我们考虑其他模态,例如。光流,以补充我们的方法。域适配。大多数最近的DA方法都是基于深度学习架构,旨在解决考虑到没有任何DA方法的深度CNN特征优于使用手工特征的传统DA方法的事实,解决了域移位问题[6]。大多数DA方法遵循两个分支(源和目标)架构,旨在找到一个共同的特征空间之间的源和目标域。因此,模型通过分类和主损失的组合进行了优化[4]。所使用的主要方法之一是基于离散的DA,其度量旨在测量源和目标特征分布之间的距离,包括最大平均差异(MMD)[22,23,48,47,24]和CORAL函数[40]的变化。通过减小分布的距离,基于差异的DA方法减小了域间的差距另一种常见的方法,基于对抗的DA,通过将域鉴别器集成到架构中,采用了与GAN类似的概念[11]。通过对抗性对象,鉴别器被优化以分类不同的领域,而特征提取器在相反的方向上被优化。ADDA [43]使用反向标签GAN损失将优化分为两部分:一个用于整流器,另一个用于发电机。相反,在一些工作中使用梯度反转层(GRL)来反转梯度,以便同时优化判别器和发生器。此外,基于归一化的DA[21,20]适应批处理或非-6323我yTD[14]第14话,两个人的相遇,我们的模型,其中xj是第j个帧级特征表示,用于归一化的表示源和目标的速率统计。此外,基于集成的DA[8,33,34,19]通过合并多个目标分支来构建目标分支集成。最近,TADA [45]采用注意机制来适应可转移区域。我们将这些概念扩展到时空域,旨在关注时间动态对齐的重要部分。视频域适配。与基于图像的DA不同,基于视频的DA仍然是一个未开发的领域。只有少数作品专注于小规模视频DA,只有少数重叠类别[39,46,15]。 [39]第三十九话通过减少背景的影响来提高概括性。[46]使用浅层神经网络将源和目标特征映射到公共特征空间。AMLS [15]在使用PCA获得的格拉斯曼流形上调整预提取的C3D [41]特征。然而,在上述工作中使用的数据集太小,没有足够的域移位来评估检察官的表现因此,我们提出了两个更大的跨域数据集UCF-HMDBfull和Kinetics- Gameplay,并提供了不同基线方法的基准测试。最近,TSRNet [50]使用MMD传输动作定位的知识相反,我们的TA3N同时关注,对齐,并将时间动态编码成视频特征.3. 技术途径我们首先介绍我们的基线模型,该模型使用时间池机制(第3.1节)简单地扩展了视频的基于图像的DA然后,我们研究了更好的方法,将时间动态视频DA(第3.2节),并描述了我们最终提出的方法与域注意力机制(第3.3节)。3.1. 基线模型鉴于最近使用CNN [16]的大规模视频分类的成功,我们在这样的架构上构建了我们的基线,如图2的下半部分所示。第i个视频的再现。该模型可分为两部分:1)空间模块Gsf(. ;θsf),它由多层感知器(MLP)组成,旨在将将通用的特征向量转化为任务驱动的特征向量,其中本文的任务是视频分类;2)时间模Gtf(. ;θtf)聚集帧级特征向量以形成单个视频级特征向量。对于每一个视频。在我们的基线架构中,我们沿着时间方向进行均值池化以生成视频级特征向量,并将其称为TemPooling。最后,另一个全连接层Gy(. ;θy)将视频级特征转换为最终预测,其用于计算类预测损失Ly。与基于图像的DA问题类似,由于域转移,基线方法不 能 推 广 到 来 自 不 同 域 的 数 据 。 因 此 , 我 们 将TemPooling与无监督DA方法集成,该方法灵感来自最流行的基于对抗的方法之一,DANN [9,10]。主要思想是添加额外的域分类器Gd(. ;θd),以区分数据是来自源域还是来自目标域。在将梯度反向传播到主模型之前,在Gd和主模型之间插入梯度反转层(GRL)以反转梯度,如图2所示。在对抗训练期间,通过最大化域区分损失Ld来学习参数θsf,并且通过用域标签d最小化Ld来学习参数θd。因此,特征生成器Gf将被优化以逐渐对齐两个域之间的特征分布。在本文中,我们注意到Adverse鉴别器Gd作为梯度反转层(GRL)和域分类器的组合,并以两种方式将GRLd插入到TemPooling中:1)GRLd:表明直接应 用 基 于 图 像 的 DA 方 法 可 以 有 益 于 视 频 DA;2 )GRLtd:指示如何进行DA时间动态编码的特征对视频DA有益。预测损失Ly、空间域损失Lsd和时域损失Ltd可以表示如下(忽略所有参数符号通过纸张以节省空间):Li=Ly(Gy(Gtf(Gsf(Xi),yi)(1)Li=1XL(G(G(xj))、(d) (2)标准差KDj=1SDSF我我i=Ld(Gtd(Gtf(Gsf(Xi),di)(3)图2:带有ad的其中K是从每个视频采样的帧的数量。L是交叉熵损失函数。总损失可表示如下:versarial鉴别器G_(?)LY是类前-dictionloss,Lsd和Ltd是域损失。看到L=1公司简介Li−1NXST (λsLi+λtLi)(4)详细的建筑在补充材料。NSyi=1NSTsd tdi=1我们首先馈送输入视频Xi={x1,x2,., xK}其中,NS等于源数据的数量,NS=T等于所有数据的数量。λs和λt是f的交换我我我从ResNet [12]中提取,在ImageNet上预先训练成空间和时间域损失的权重。域捕食��� ������ℒ帧特征��� ������ℒ������…视频ConvNet类捕食ℒ原GRL时态池化KL6324φiTF路P路我我=3.2. 时间动力学与DA直接将基于图像的DA方法集成到我们的基线架构中的一个主要缺点是,在模型中学习的特征表示主要来自空间特征。虽然我们隐式编码的时间信息的时间池机制,帧之间的关系仍然缺失。所以我们源靶我想回答两个问题:1)视频DA问题是否受益于将时间动态编码到fea中,帧级特征局部时间特征局部时间特征帧级特征tures?2)除了修改特征编码方法外,如何在将时间动态编码为特征的同时进一步集成DA?为了回答第一个问题,考虑到人类可以通过推理跨时间的观察来识别动作,我们提出了TemRelation架构,通过用Temporal Relation模块替换时间池机制,该模块是从[36,51]修改的,如图4所示。n帧时间关系由以下函数定义图3:TA3N中的域注意机制较粗的箭头对应于较大的注意力权重。3.3. 视频的时间注意对齐TA2N的最终视频表示虽然跨域对齐时间特征有益于视频DA,但并非所有特征对对齐都同样重要为了有效地对齐整体时间动态,我们想要XRn(Vi) =Mg(n)((Vn)m)(5)将更多的注意力集中在对齐具有较大域差异的局部时间特征上因此,我们将最终的视频表示表示为局部TEM的组合其中(Vn)m= {va,vb,. }m是第m组帧级具有不同注意力权重的poral特征,如图所示我我我从n个时间排序的采样帧的表示a和b是帧索引。我们将按时间排序的特征向量与函数gφ(n)融合,g φ(n)是一个具有参数φ(n)的MLP。为了在多个时间尺度上捕获时间关系,我们将所有的n帧关系特征汇总到最终的视频表示中。以这种方式,时间动态被显式地编码到特征中。我们然后将Gd插入到TemRelation中,就像我们对TemPooling所做的那样虽然对齐时间动态编码的特征有益于视频DA,但是特征编码和DA仍然是两个独立的过程,导致次优的DA性能。 因此,我们回答第二个问题,在图3中,并旨在关注感兴趣的特征,域区分,使得DA机制可以专注于对齐这些特征。主要的问题是:如何将域差异纳入注意力?为了解决这个问题,我们提出了时间注意对抗适应网络(TA3N),如图4所示,通过引入域注意机制,其使用熵准则来为每个n帧关系特征生成域注意值,如下所示:wn= 1−H(d<$n)(7)其中dn是第i个视频的Gn的输出。H(p)=时间对抗适应网络(Temporal Adversarial)(TA2N),whiche explanatoryegratesGd在Tempo-kpk·log(pk)是度量uncer的熵函数污点当H(dn)减少时,wn增加,即ral模块,用于在learn-ii时跨域调整模型时间动力学。具体地说,我们将每个n-框架关系与对应的关系矩阵进行集成。ˆn 因为不同的n帧关系表示不同的时间特征,其对应于动作的不同关系域损失Lrd可以表示如下:可以很好地区分域我们还添加了一个残差-双向连接,更稳定的优化。因此,从由局部时间模块G(n)学习的目标局部时间特征生成的最终视频特征表示hi可以表示为:XKKhi=(wn+ 1)·G(n)(Gsf(Xi)) (8)I1rdK−1Xn=2Ld(Gn(Rn(Gsf(Xi),di)(6)itfn=2实验结果表明,我们的集成策略可以有效地对齐域的视频时空,并优于那些从sophisticated DA方法扩展,虽然TA2 N是从一个简单的DA方法(DANN)(见表3至5中的细节)。最后,我们将最小熵正则化添加到优化分类器自适应。然而,我们只想最小化跨域相似的视频的熵。因此,我们关注具有低域差异的视频,使得我们可以更专注于最小化这些视频的熵。 注意熵ℎ���ℎ���最终视频特征最终视频特征对准时间……………………GL6325路ySDTD路AEℒ������时态关系模块13域注意力块��� ������ℒ���������24��� ���ℒ���������中文(简体)���1 34(三)域名关注ℒ������...帧级特征向量2 451 3 四2 4 五(三)23中文(简体)���类预测ℒ���图4:提出的时间注意对抗适应网络(TA3 N)的整体架构。在时间关系模块中,时间排序帧用于生成K-1个关系特征表示R= {R2,.,其中Rn对应于n帧关系(该图中的数字是时间索引的示例)。在参与来自关系鉴别器Gn的域预测之后,关系特征被加和到最终的视频表示。由域entropyH(d_i)和类entropyH(y_i)计算的注意力进入损失L_a_e旨在增强跨域更相似的那些视频的确定性。详细的体系结构见补充材料。损失Lae可表示如下:我=(1+H(di))·H(yi)(9)其中di和yi是Gtd和Gy 的输出,关于iv el y。为了稳定性,我们还采用了剩余连接。通过组合等式(1)至(3)、(6)和(9),并通过等式(8)用hi替换Gsf和Gtf,TA3 N的总损耗可以表示如下:数据集来评估视频DA问题的建议方法,如表1所示。有关数据集的更多详细信息,请参阅补充材料。4.1. UCF-HMDB完整我们扩展了UCF-HMDBsmall [39],它只选择5个视觉上高度相似的类别,通过收集UCF 101 [38]和HMDB51 [18]之间所有相关和重叠的类别,得到12个类别。我们跟着-L=1NS公司简介i=1Li+1NSTNXST我AEi=1(十)将训练集和验证集分开的官方分割方法 此数据集UCF-HMDB完整版包括更多超过3000个视频剪辑,大约是-一个NSTNXSTi=1(λsLi+λr+λtLi)UCF-HMDB小型和UCF-Olympic。4.2. 动态游戏其中λs、λr和λt是每个域损耗的加权的权衡γ是注意熵损失的权重所有权重都是通过网格搜索选择的。我们提出的TA3 N和TADA [45]都利用熵函数进行注意,但视角不同。TADA旨在关注图像DA的前景对象,而TA3 N旨在找到时间动态的重要和有区别的部分以对准视频DA。4. 数据集视频DA的基准数据集非常少,只有小规模的数据集得到了广泛使用[39,46,15]。因此,我们专门创建了两个跨域除了现实世界的视频,我们也对DA的虚拟世界视频感兴趣。虽然存在超过十个真实世界的视频数据集,但用于视频分类的虚拟世界数据集数量有限。这主要是因为使用游戏引擎渲染逼真的人类动作需要耗时的游戏图形专业知识。因此,我们通过从当前流行的视频游戏底特律:成为人类和Fortnite中收集游戏视频来创建游戏数据集,以构建我们自己的虚拟域视频数据集。对于真实领域,我们使用最大的公共视频数据集Kinetics-600[17,2]。我们遵循闭集DA集[30]选择30个重叠的类别,原视频ConvNet(K)中国(2(K)中国(2)………………………LγL6326UCF-HMDB小型UCF-OlympicUCF-HMDB完整动态游戏长度(秒)1 - 211 - 391 - 331 - 10类别编号561230视频编号11711145320949998表1:跨域视频数据集的比较。Kinetics-600和Gameplay数据集,用于构建包含两个域的Kinetics- Gameplay数据集,包括约50 K视频剪辑。完整的统计数据和示例快照见补充材料。5. 实验因此,我们在四个数据集上评估DA方法:UCF-Olympic,UCF-HMDB Kinetics-Gameplay.小、UCF-HMDB充分和表2:最先进工作的准确度(%)5.1. 实验装置UCF-Olympic和UCF-HMDB小型。 首先,我们在UCF-Olympic和UCF-HMDB small上评估了我们的方法,并与也在这两个数据集上评估的所有其他作品进行了比较[39,46,15]。 我们遵循默认设置,但这些论文中没有指定将UCF视频剪辑拆分为训练集和验证集的方法,因此我们遵循UCF 101的官方拆分方法[38]。UCF-HMDB完整和动力学游戏。对于自收集的数据集,我们遵循无监督DA的常见实验协议[30]:训练数据由来自源域的标记数据和未标记数据组成数据来自目标域,并且验证数据全部来自目标域。然而,与大多数图像DA设置不同,我们在两个域中的训练和验证数据是分开的,以避免在对齐不同域时可能出现的过拟合。为了与基于图像的DA方法进行比较,我们使用TemPooling和TemRelation架构扩展了几种最先进的视频DA方法[10,24,20,34],如表3至5所示。“仅目标”和“仅源”设置之间的差异“仅目标”设置可以被视为没有域偏移的上限,而“仅源”设置显示了将用源数据训练的模型直接应用于目标域而有关完整的实施细节,请参见5.2. 实验结果UCF-Olympic和UCF-HMDB小型。在这两个数据集中,我们的方法在“U → O”设置上至少有6.5%的绝对差异(98.15% - 91.60%),在“U → H”设置上至少有9%的UCF-Olympic 和 UCF-HMDB 小 型 ( U : UCF , O :Olympic,H:HMDB)。我们只显示他们的结果,这些结果与源数据进行了微调,以便进行公平比较。详情请参阅补充材料。[15]未对UCF-HMDB small进行DAAA测试。这些结果还表明,这些数据集上的性能是饱和的。有了强大的CNN作为骨干架构,即使是我们的基线架构TemPooling也可以在没有任何DA方法的情况下实现高准确性(例如96.3%为这表明这两个数据集不足以评估更复杂的DA方法,因此需要更大规模的视频DA数据集。UCF-HMDB已满。然后,我们评估我们的方法,并与UCF-HMDB 完整数据集上的其他基于图像的DA方法进行比较,如表3和表4所示。“仅目标”和“仅源”之间的准确性差异指示域间隙。HMDB数据集的差距为TemRelation的11.11% 和Tem-Pooling的10.28%(见表3),UCF 数据集的差距为TemRelation 的21.01%和TemPooling的17.16%(见表4)。值得注意的是,我们的基线架构(TemPooling)在UCF-HMDB full上的对于“U → H”低28.39“增益”值我们现在回答3.2节中关于视频DA的两个问题(见表3和表4):1. 视频DA问题是否受益于将时间动态编码为特征?从表3和表4中,我们可以看到,对于相同的DA方法,TemRelation在以下方面优于TemPooling:来源→目标U →OO →UU →HH →UW. Sultani等人[39]第三十九届33.3347.9168.7068.67T. Xu等人[46个]87.0075.0082.0082.00AMLS(GFK)[15]84.6586.4489.5395.36AMLS(SA)[15]83.9286.0790.2594.40DAA [15]†91.6089.96--TemPooling96.3087.0898.6797.35[10]第十届全国人大代表98.1590.0099.3398.41我们的(TA2 N)98.1591.6799.3399.47我们的(TA3 N)98.1592.9299.3399.476327时间模块TemPoolingTemRelationAcc.增益Acc.增益只针对80.56-82.78-源仅70.28-71.67-DANN [10]71.110.8375.283.61JAN [24]71.391.1174.723.05AdaBN [20]75.565.2872.220.55中文(简体)71.671.3973.892.22我们的(TA2N)N/A-77.225.55我们的(TA3N)N/A-78.336.66时间模块TemPoolingTemRelationAcc.增益Acc.增益只针对92.12-94.92-源仅74.96-73.91-DANN [10]75.130.1776.362.45JAN [24]80.045.0879.695.79AdaBN [20]76.361.4077.413.51中文(简体)76.181.2379.345.44我们的(TA2N)N/A-80.566.66我们的(TA3N)N/A-81.797.88表3:UCF-HMDB 全(U→ H)与其他方法的准确度(%)比较。增益表示与“仅源”精度的绝对差TA2 N和TA3 N 基 于 TemRelation 架 构 , 因 此 不 适 用 于TemPooling。大多数情况下,尤其是对于增益值。例如,而这意味着将DA方法应用于对时间动态进行编码的视频表示提高了跨域视频分类的整体性能。2. 如何在将时间动态编码为特征的同时进一步集成DA?尽管将TemRelation与基于图像的DA方法集成通常比基线(TemPooling)具有更好的对齐性能,但特征编码和DA仍然是两个独立的过程。对齐仅发生在时间动态被编码到特征中之前和之后。为了明确地强制跨域的时间动力学对齐,我们提出了TA2 N,其在“U → H”和“H → U”上分别达到77.22%(5.55%增益)表3和表4表明,虽然TA2 N是从一个简单的DA方法(DANN)中采用的,但它仍然优于其他方法,这些方法是从更复杂的DA方法中延伸出来的,但不遵循我们的策略。最后,通过域注意机制,我们提出的TA3N在“U →H”上达到78.33%(6.66%增益)动力学游戏。动态游戏比UCF-HMDB 完整更具挑战性,因为数据来自真实和虚拟域,这些域具有更严重的域转移。 在这里,我们只使用TemRelation作为我们的骨干架构,因为它被证明在表4:UCF-HMDB 全(H → U)与其他方法的准确度(%)比较。Acc.增益只针对64.49-源仅17.22-DANN [10]20.563.34JAN [24]18.160.94AdaBN [20]20.293.07中文(简体)19.762.54我们的(TA2 N)24.307.08我们的(TA3 N)27.5010.28表5:与其他方法在动力学游戏性上的准确度(%)比较。UCF-HMDB已满。表5示出了“仅源”和“仅目标”之间的准确性差距在这个数据集中,TA3 N也优于所有其他DA方法,将“仅源”的准确率从17.22%提高5.3. 消融研究和分析整合G. 我们使用UCF-HMDBfulll 来提 高在 不同角度上的集成光栅的性能。位置。有三种方法可以将对抗性判别器插入到我们的架构中,每种方法都对应到不同的特征表示,导致三种类型的鉴别器G_d、G_td和G_r_d,它们在图4中示出,并且完整的实验结果在表6中示出。对于TemRelation架构,利用G_rtd的准确性显示出比利用G_rsd更好的性能(在两个任务上平均0.58%的绝对增益改进),而Tempooling的准确性是相同的。这意味着时间关系模块可以对时间数据进行编码。这有助于解决视频DA问题,但时间池不能。利用关系式G-R-D可以进一步提高性能(提高0.92%),因为我们同时对齐和学习跨域的时间动态。最后,通过结合所有三个鉴别器,TA2 N的改善甚至更多(4.20%的改善)。6328S →TUCF →HMDBHMDB →UCF时间模块TemPoolingTemRelationTemPoolingTemRelation只针对80.56(-)82.78(-)92.12(-)94.92(-)源仅70.28(-)71.67(-)74.96(-)73.91(-)G71.11(0.83)74.44(2.77)75.13(0.17)74.44(1.05)Gtd71.11(0.83)74.72(3.05)75.13(0.17)75.83(1.93)格拉德- (-)76.11(4.44)- (-)75.13(1.23)所有Gd71.11(0.83)77.22(5.55)75.13(0.17)80.56(6.66)表6:在没有注意机制的情况下,在不同位置积分G_d的准确度(%)的全面评估。增益值以()表示。S →TUCF →HMDBHMDB →UCF时间模块TemPoolingTemRelationTemPoolingTemRelation只针对80.56(-)82.78(-)92.12(-)94.92(-)源仅所有Gd70.28(-)71.11(0.83)71.67(-)77.22(5.55)74.96(-)75.13(0.17)73.91(-)80.56(6.66)所有Gd+域名代理73.06(2.78)78.33(6.66)78.46(3.50)81.79(7.88)表7:域注意机制的影响。S →TUCF →HMDBHMDB →UCF只针对82.78(-)94.92(-)源仅没有注意71.67(-)77.22(5.55)73.91(-)80.56(6.66)普遍关注域名关注77.22(5.55)78.33(6.66)80.91(7.00)81.79(7.88)表8:不同注意方法的比较。注意力机制。除了TemRelation之外,我们还通过关注原始帧特征而不是关系特征来将域关注机制应用于TemPooling,并提高性能,如表7所示。这意味着,即使骨干架构不编码时间动态,视频DA也可以受益于域注意力我们还比较了一般的注意力模块,它通过FC-Tanh-FC- Softmax架构计算的注意力权重的主注意力然而,它的性能较差,因为权重是在一个域内计算的,缺乏对域差异的考虑,如表8所示。分布的可视化。为了研究我们的方法如何弥合源域和目标域之间的差距,我们使用t-SNE可视化两个域的分布[28]。图5显示了TA3 N可以将源数据(蓝色点)分组到更密集的集群中,并将分布推广到目标域(橙色点)。域差异度量。为了测量不同域之间的对齐,我们使用最大平均离散度(MMD)和域损失,这是使用最终视频表示计算的。较低的MMD值和较高的畴损失都意味着较小的畴间隙。TA3 N的差异损失(0.0842)低于(a)Tempooling + DANN [10](b)TA3 N图5:t-SNE可视化的比较。蓝色的点表示源数据,而橙色的点表示目标数据。更多比较见补充资料。差异损失域损失验证精度TemPooling0.18401.116370.28[10]第十届全国人大代表0.16041.202371.11TemRelation0.26261.758871.67TA3 N0.08421.928678.33表9:我们的基线和建议方法的差异损失(MMD),域损失和验证准确性Tempooling基线(0.184),并且在域损失方面显示出很大的改善(从1.116到1.9286),如表9所示。6. 结论和未来工作在本文中,我们提出了两个大规模的视频域自适应数据集,UCF-HMDB完整和动力学游戏,包括真实和虚拟域。我们使用这些数据集来研究跨视频的域偏移问题,并表明同时对齐和学习时间动态实现了有效的对齐,而不需要复杂的DA方法。最后,我们提出了时间注意对抗适应网络(TA3N),以同时关注,对齐和学习跨域的时间动态,在所有研究的跨域视频数据集上实现最先进的性能。代码和数据在这里发布。我们研究的最终目标是解决现实世界的问题。因此,除了将更多的DA方法集成到我们的视频DA管道中之外,我们希望在未来的工作中追求两个主要方向:1)将TA 3 N应用于不同的跨域视频任务,包括视频字幕、分割和检测; 2)我们想把这些方法推广到开集集合[1,35,30,13],它在源域和目标域之间有不同的类别。开放式设置更具挑战性,但更接近真实世界的场景。6329引用[1] Pau Panareda Busto和 Juergen Gall。开 集域 自适应 。IEEEInternationalConferenceonComputerVision(ICCV),2017年。8[2] Joao Carreira 、 Eric Noland 、 Andras Banki-Horvath 、Chloe Hillier和Andrew Zisserman。关于动力学的简短说明-600。arXiv预印本arXiv:1808.01340,2018。二、五[3] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。 在IEEE计算机视觉和模式识别会议(CVPR),2017年。2[4] 加布里埃拉·楚卡视觉应用领域自适应研究综述在计算机视觉应用中的域适应,第1-35页Springer,2017. 一、二[5] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络在IEEE计算机视觉和模式识别(CVPR)会议上,2015年。2[6] Jeff Donahue , Yangqing Jia , Oriol Vinyals , JudyHoffman,Ning Zhang,Eric Tzeng,and Trevor Darrell.Decaf:用于通用视觉识别的深度卷积激活功能。2014年国际机器学习会议(ICML)。2[7] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。卷积双流网络融合视频动作识别。在IEEE计算机视觉和模式识别会议(CVPR),2016年。2[8] 杰夫·弗伦奇,迈克尔·麦凯维奇,马克·费舍尔。用于视觉 域 适 应 的 自 集 成 。 在 国 际 会 议 上 学 习 表 示(ICLR),2018年。3[9] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督国际机器学习会议(ICML),2015。一、二、三[10] Yaroslav Ganin 、 Evgeniya Ustinova 、 Hana Ajakan 、PascalGermain、HugoLarochelle、FrancçoisLa violette、Mario Marchand和Victor Lempitsky。神经网络的领域对抗机器学习研究杂志,17(1):2096-2030,2016。一二三六七八[11] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展(NeurIPS),2014年。2[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议(CVPR),2016年。3[13] Yen-Chang Hsu,Zhaoyang Lv,and Zsolt Kira.学习集群, 以便 跨领 域和 任务 转移。 国际 学习 表征 会议(ICLR),2018年。8[14] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。在2015年的国际机器学习会议(ICML)上3[15] Arshad Jamal、Vinay P Namboodiri、Dipti Deodhare和KS Venkatesh。动作空间中的深度域适应。英国机器视觉会议(BMVC),2018年。一二三五六[16] Andrej Karpathy , George Toderici , Sanketh Shetty ,Thomas Leung,Rahul Sukthankar,and Li Fei-Fei.使用卷积神经网络进行大规模IEEE计算机视觉与模式识别会议(CVPR),2014年。二、三[17] Will Kay , Joao Carreira , Karen Simonyan , BrianZhang,Chloe Hillier,Sudheendra Vijayanarasimhan,Fabio Viola,Tim Green,Trevor Back,Paul Natsev,etal. 人 体 运 动 视 频 数 据 集 。 arXiv 预 印 本 arXiv :1705.06950,2017。二、五[18] Hildegard Kuehne,Hueihan Jhuang,Est´ıbaliz Garrote,Tomaso Poggio,and Thomas Serre. Hmdb:用于人体运动识别的大型视频数据库。在IEEE国际计算机视觉会议(ICCV),2011年。一、五[19] Chen-Yu Lee,Tanmay Batra,Mohammad Haris Baig,and Daniel Ulbricht.非监督域自适应的切片wasserstein差异在IEEE计算机视觉和模式识别会议(CVPR),2019年。3[20]
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功