没有合适的资源?快使用搜索试试~ 我知道了~
文件标题:时间梯度学习在半监督动作识别中的应用
——74.167.368.352.940455055606570758032520从时间梯度学习半监督动作识别0肖俊飞1 靖龙龙2 张琳3 何举1 佘琦40周宗玮1 Alan Yuille1 李英伟101约翰霍普金斯大学2纽约市立大学3卡内基梅隆大学4字节跳动0摘要0半监督视频动作识别倾向于使深度神经网络即使在非常有限的标记数据下也能取得显著的性能。然而,现有方法主要是从当前的基于图像的方法(例如FixMatch)转移而来。如果不特别利用时间动态和固有的多模态属性,它们的结果可能不够理想。为了更好地利用视频中编码的时间信息,我们在本文中引入了时间梯度作为更加专注的特征提取的附加模态。具体而言,我们的方法明确地从时间梯度(TG)中提取细粒度的运动表示,并在不同模态之间(即RGB和TG)施加一致性。在推理过程中,半监督动作识别的性能得到了显著改善,而无需额外的计算或参数。我们的方法在三个视频动作识别基准测试(即Kinetics-400,UCF-101和HMDB-51)上实现了最先进的性能,在几种典型的半监督设置(即不同比例的标记数据)下。代码可在以下链接中获取:0https://github.com/lambert-x/video-semisup .01. 引言0作为视频理解的基本任务,视频动作识别引起了学术界和工业界的广泛关注[5, 9, 45,47]。与与图像相关的任务不同,视频相关任务的网络通常更容易过拟合,因为任务的复杂性[23, 45,46]。常见的做法是首先在大规模数据集上对网络进行预训练(例如Kinetics[4],高达650,000个视频剪辑),然后在下游小数据集上进行微调以获得更好的性能[9, 15, 32,33]。然而,由于注释大规模视频数据集耗时且昂贵,训练模型在具有完整注释的大规模数据集上受到阻碍。为了利用具有可接受成本的大规模数据集,一些研究人员转向设计半监督学习0t t+1 t+70帧t0慢时间梯度 快时间梯度0帧t - 帧t+70帧t - 帧t+10RGB0RGB 快TG 慢TG 我们的(RGB)0Top-1准确率(%)0图1.上:描述不同模态(即RGB,快和慢时间梯度(TG))的公式的示意图。下:与FixMatch[38]作为半监督学习方法基线的Top-1准确率比较。图表比较了不同输入模态(即RGB,慢TG和快TG)的性能。通过从时间梯度中提取知识到RGB,我们的模型能够显著优于将时间梯度或RGB帧作为输入的模型。0具有有限注释的模型具有良好的泛化能力[21, 37, 55,58]。基于伪标签的方法(例如FixMatch [38]和MixMatch[2])在半监督图像分类上表现出色,大多数先前的基于视频的方法都严重依赖它们来利用无标签数据。尽管这些初步尝试取得了可接受的结果,但大多数方法[21,58]只是将视频剪辑作为在3D中的“图像”,而没有进一步考虑视频的属性。视频与图像有明显的区别,而且32530关键差异在于多帧的时间信息跨度和固有的多模态属性。时间信息指的是帧之间的运动信号,通常来自同一视频的连续帧的特征变化平滑。多模态一致性期望从同一视频剪辑中提取的特征保持一致,因为它们编码了相同的内容。如果没有特别设计来专门关注时间信息和多模态一致性,半监督动作识别的潜力无法完全释放。一些先前的研究[51,57]引入了时间梯度1作为额外的模态,以更好地利用视频中编码的时间信息,因为它富含运动信号。时间梯度可以表示为:TG = x RGB t - x RGB t +n,其中x表示一个视频,t表示帧索引,n表示计算时间梯度的间隔。受到这些研究的启发,我们在半监督设置下尝试了使用时间梯度,并发现当将RGB中的输入帧替换为时间梯度时,可以产生更好的性能。如图1所示,在UCF-101数据集上,使用时间梯度的Top-1准确率比使用RGB作为输入高出约25%,而仅使用20%的标记数据进行训练。当训练数据有限时,为什么时间梯度比RGB帧好得多?我们假设关键在于时间梯度中编码的详细和细粒度的运动信号。沿时间维度的梯度是颜色不变的,并明确地编码了视频中动作的代表性运动信息。这有助于模型在标签极其有限的情况下更容易地进行泛化。因此,在本文中,我们提出了训练半监督动作识别基于RGB的模型,以模拟时间梯度中的细粒度和高级特征。我们从FixMatch[38]开始,这是一个典型的基于伪标签的半监督模型,作为基线框架。然而,在特征级别没有任何进一步的约束条件的情况下,基于伪标签的方法在标签非常有限的情况下表现不佳,因为许多生成的伪标签是不准确的。因此,我们提出了两个约束条件,以帮助模型在具有多个模态的视频中提取时间信息并改善多模态表示之间的一致性。为了利用时间梯度中的详细和细粒度的运动信号,我们提出了一种使用块级密集对齐的知识蒸馏策略。它可以帮助学生RGB模型有效地从教师时间梯度模型中学习。为了进一步改善不同模态之间的高级表示空间,我们在RGB和时间梯度序列之间执行对比学习,以强制高阶相似性。在特征级别给定这两个约束条件下,我们提出的模型能够实现更好的性能。与现有方法不同,我们的模型具有两个独特的优势。首先,我们的模型在推理过程中不需要额外的计算或参数。在训练中,我们将知识从时间梯度蒸馏到基于RGB的网络;在测试中,只需要RGB模型。其次,我们的模型简单而有效。我们在包括UCF-101、HMDB-51和Kinetics-400在内的多个公共动作识别基准上进行了实验。我们提出的方法在性能上显著优于所有现有方法。01. 两个RGB视频帧之间的差异,时间间隔较短。0特征级别的半监督学习在图像中已经得到了广泛研究,许多方法已经被提出,包括Pseudo-Label[26]、S4L [56]、MeanTeacher [42]、MixMatch [2]、UDA [54]、FixMatch [38]、UPS[34]等。Pseudo-Label[26]是一种早期的方法,它使用无标签数据的置信度(softmax概率)作为标签,与少量标记数据和更多无标签数据一起训练网络。已经提出了许多改进版本的Pseudo-Label,而关键是提高标签的质量[34, 38]。根据图像分类的最新方法FixMatch[38],许多类似FixMatch的方法在许多其他任务上取得了最先进的性能,包括检测[49]、分割[59]等。尽管这些方法在基于图像的任务上取得了显著的性能,但一些最近的研究表明,当直接将这些方法应用于视频半监督任务时,性能并不令人满意[21,37]。半监督学习在视频中。虽然已经提出了一些半监督视频动作识别方法[21, 37, 55,58],但其中大多数直接将基于图像的方法应用于视频,较少关注视频的时间动态。VideoSSL[21]通过使用ImageNet预训练模型训练网络,首次尝试构建视频半监督学习任务的基准,这明确指导模型学习每个视频中的外观信息。它还表明现有的基于图像的方法(例如Pseudo-Label[26]、Mean-Teacher [42])在视频半监督基准上的性能较差。TCL[37]是最近提出的一种方法,它通过使用自监督辅助任务和组对比学习来联合优化网络。通过使用多模态数据,MvPL[55]通过使用相同模型和不同输入模态(RGB、时间梯度和光流)共享模型,并使用多模态的“置信度”生成伪标签,实现了最先进的性能。与这些方法相比,我们的方法专注于学习02. 相关工作0图像中的半监督学习。半监督图像分类任务已经得到了广泛研究,并提出了许多方法,包括Pseudo-Label [26]、S4L[56]、MeanTeacher [42]、MixMatch [2]、UDA[54]、FixMatch [38]、UPS [34]等。Pseudo-Label[26]是一种早期的方法,它使用无标签数据的置信度(softmax概率)作为标签,并与少量标记数据和更多无标签数据一起训练网络。已经提出了许多改进版本的Pseudo-Label,而关键是提高标签的质量[34,38]。根据图像分类的最新方法FixMatch[38],许多类似FixMatch的方法在许多其他任务上取得了最先进的性能,包括检测[49]、分割[59]等。尽管这些方法在基于图像的任务上取得了显著的性能,但一些最近的研究表明,当直接将这些方法应用于视频半监督任务时,性能并不令人满意[21,37]。视频中的半监督学习。虽然已经提出了一些半监督视频动作识别方法[21, 37, 55,58],但其中大多数直接将基于图像的方法应用于视频,较少关注视频的时间动态。VideoSSL[21]通过使用ImageNet预训练模型训练网络,首次尝试构建视频半监督学习任务的基准,这明确指导模型学习每个视频中的外观信息。它还表明现有的基于图像的方法(例如Pseudo-Label [26]、Mean-Teacher[42])在视频半监督基准上的性能较差。TCL[37]是最近提出的一种方法,它通过使用自监督辅助任务和组对比学习来联合优化网络。通过使用多模态数据,MvPL[55]通过使用相同模型和不同输入模态(RGB、时间梯度和光流)共享模型,并使用多模态的“置信度”生成伪标签,实现了最先进的性能。与这些方法相比,我们的方法专注于学习32540我们的方法利用了时间梯度中的时间信息,并结合我们提出的约束,在多个公共基准测试中显著优于现有方法。0多模态视频特征学习。视频可以从不同的模态进行观察,而每种模态都从独特的视角编码信息。例如,一般的RGB视频既包含空间信息又包含时间信息,而时间梯度是颜色不变的,主要编码帧间的差异,光流则明确地为每个像素编码运动信息。不同模态的特征通常是互补的,因此进行特征融合可以获得更好的性能。先驱性工作是Two-Stream模型,它融合了来自RGB视频片段和光流片段的特征。通过利用不同模态的互补信息,多模态网络能够获得更好的性能。然而,在推理过程中会增加额外的计算和延迟。与普通的多模态特征融合模型不同,我们的模型从时间梯度中提取与运动相关的表示到基础RGB模型中,推理阶段只需要基础模型和RGB帧。此外,我们的模型在推理阶段仅使用RGB作为输入时,性能优于教师模型。0对比学习。对比学习方法在下游图像分类任务上取得了显著的性能[3, 6, 13, 16, 28,44]。其关键思想是通过最小化正样本对(同一数据样本的两个视图)的特征距离和最大化负样本对(两个不同数据样本)的特征距离来学习表示。最近,许多研究者提出使用时间对比学习进行视频自监督学习[10, 15, 19, 32,33]。在本文中,为了更好地利用无标签数据进行半监督动作识别,我们提出使用跨模态对比损失来强化RGB片段和时间梯度片段的特征一致性。我们证明,跨模态对比方法对于提出的半监督学习非常有效。03. 方法0我们的方法的目标是通过引入和利用视频的一个有效视图:时间梯度,来提高半监督动作识别任务的性能。我们提出的框架概述如图2所示,包括三个主要组件:(1)FixMatch框架,采用弱强数据增强策略为无标签数据生成更好的伪标签;(2)RGB片段和TG片段之间的跨模态密集特征对齐,以便网络学习细粒度的运动信号;(3)跨模态对比损失,用于强化RGB片段和时间梯度片段的特征一致性。我们证明,跨模态对比方法对于提出的半监督学习非常有效。0对比学习,学习RGB和TG片段之间的高级一致性特征。每个组件的公式将在下面的子节中介绍。03.1. FixMatch0考虑一个多类分类问题,我们将标记的训练集表示为X ={(xi, yi)}Nli=1,其中xi ∈ RT × H × W ×3是第i个采样的视频片段,yi是相应的独热标签,Nl是标记集中的数据点数。类似地,我们将无标签集表示为U ={xj}Nuj=1,其中Nu是无标签集中的数据点数。我们使用fθ表示具有可训练参数θ的分类模型。我们使用α(∙)表示弱(标准)数据增强(即在视频动作识别中的随机水平翻转、随机缩放和随机裁剪),使用A(∙)表示强数据增强策略(即Randaugment[8])。网络fθ通过最小化交叉熵损失Ll来优化每个由T帧组成的视频片段xi。对于一个由标记数据{(xi,yi)}Bli=1组成的小批量数据,网络通过最小化交叉熵损失Ll来进行优化。0L l = -10B l0i =1 y i log f θ ( α ( x i )) , (1)0其中 B l是批次中有标签样本的数量。对于一批未标记的数据 { x j }B u j =1 ,FixMatch强制模型对不同程度的增强下的相同未标记数据样本产生一致的预测。具体而言,未标记数据的伪标签 ˆ y通常通过置信度阈值生成,如下所示:0C = { x j | max f θ ( α ( x j )) ≥ γ } , (2)0其中 γ 表示预定义的阈值,C是来自小批量的有信心的示例集。置信的预测 f θ ( α ( x j ))在集合 C 中通过取 argmax 操作转换为one-hot标签 ˆ y j。然后,交叉熵损失 L u 将在样本 C和其生成的one-hot标签上进行优化:0L u = -10B u0x j ∈C ˆ y j log f θ ( A ( x j )) , (3)0其中 B u是批次中未标记样本的数量。通过对有标签和未标记数据的损失,整个FixMatch通过以下目标函数进行优化:0L fm = L l + L u . (4)03.2. 时间梯度并行框架0∂t )两个RGB帧之间的时间梯度编码了外观变化,并对动态变化的时间信息进行了对应。因此,响应通过移动进行强调。C = {xj|max(fθR(α(xRGBj)) + fθT (α(xT Gj))2) ≥ γ}.(5)LT Gfm = LT Gl+ λuLT Gu .(6)min�D�F RGBi, F T Gi��,(7)DL1 (F1, F2) = ∥F1 − F2∥1,DL2 (F1, F2) = ∥F1 − F2∥2,Dcos (F1, F2) = −F1∥F1∥2·F2∥F2∥2.(8)32550稠密对齐RGB TG 停止梯度0RGB主干0无标签0已标记0弱增强0强0增强0弱增强0吸引排斥0CLS头0跨模态对比0学习0� �� ������0� �� ������0对齐0CLS头0� �� ����0� �� ����0跨模态0对比学习0TG主干0� ����0� ������0弱增强0强0增强0无标签0弱增强0图2.我们提出的框架概述。我们的方法由两个并行模型组成,具有不同的视频剪辑输入模态(即RGB和TG)。整个框架通过(1)两个并行的FixMatch框架进行伪标签生成,(2)跨模态稠密特征对齐,以及(3)跨模态对比学习进行联合优化。0对象,特别是边界。FixMatch [38]最初是为图像分类任务设计的,对视频的时间信息关注较少,因此我们将其扩展为与RGB和TG联合训练,以明确更多地关注捕捉时间信息。为了避免在未见视频上进行模型推断时进行额外的计算和延迟,我们提出了从TG到RGB的细粒度运动信号的蒸馏方法,而不引入额外的输入或推断参数。RGB和时间梯度信息互补。RGB以一般方式编码空间和时间信息,而时间梯度则专注于运动信号,如图1所示。因此,对于每个视频剪辑,RGB网络和TG网络的预测值取平均值,然后用于生成伪标签。通过这种方式,融合的伪标签生成被重新定义为:0由于可以访问RGB和TG的特征,融合的伪标签的质量比每个模型单独的预测更准确,第4.5节提供了更详细的消融研究。融合的伪标签将与无标签数据一起用于训练TG和RGB模型。对于时间梯度模型,训练目标也是公式(1)和公式(3)的求和,但是针对TG。03.3. 跨模态稠密特征对齐0为了从时间梯度中学习详细的细粒度运动,我们提出将知识从时间梯度模型蒸馏到RGB模型。通过交叉模态稠密特征对齐模块最小化来自时间梯度和RGB剪辑的特征之间的相似性:0其中 F RGB i , F T G i ∈ R C i × T i × H i × W i表示RGB和TG模型中第i个块的输出特征,D表示评估表示差异的成对函数。对于D,有许多选择,我们尝试了三种不同的函数:L1、L2和余弦相似性损失(如公式(8)所示,其中∥ ∙ ∥ 1和∥ ∙ ∥ 2是ℓ 1 /ℓ 2-范数)。在第4.5节中提供了更详细的讨论。0我们在线知识蒸馏方法中的一个关键设置是在时间梯度侧上进行停梯度(stopgrad)操作,这意味着教师模型不会从对齐损失中接收任何梯度。这有助于TG模型通过与RGB学生模型的对齐避免退化。如公式(9)所示,用于学习细粒度的对齐损失项:Lkd = DF RGBi, stopgrad(F T Gi)�.(9)Lclr = − log�k∈{k+} exp (sim(q, k)/τ)k∈{k+,k−}exp (sim(q, k)/τ),(10)Ltotal = wfm(LRGBfm+ LT Gfm) + wkdLkd + wclrLclr.(11)32560运动特征为:03.4. 跨模态对比学习0稠密特征对齐明确使RGB网络模仿来自时间梯度的细粒度运动信号。我们假设不同模态之间的全局高级表示也是有价值和关键的。因此,我们采用跨模态对比学习作为另一个模块,以发现TG和RGB剪辑中共存的相互信息。遵循SimCLR[6]和CMC[44]的原则,我们使用正样本对和负样本对形成对比学习。具体而言,我们将同一视频剪辑的两种模态视为正样本对{k+},将不同视频剪辑的两种模态视为负样本对{k-}。学习目标是最大化正样本对的相似性并最小化负样本对的相似性。我们采用InfoNCE损失[31]作为从RGB和TG提取的特征的目标函数:0其中τ是一个用于缩放的温度超参数。所有嵌入都进行ℓ 2归一化,并使用点积(余弦)相似性来比较它们sim( q, k )= q � k/ ∥ q ∥∥ k∥。值得注意的是,这种跨模态对比学习直接使用FixMatch中两种模态的所有弱增强样本(α ( x RGB/T G i)),包括有标签的(标签未使用)和无标签数据。因此,数据加载和预处理没有额外的计算。总损失:我们的整个模型基于有标签数据的交叉熵损失、带伪标签的无标签数据的交叉熵损失、有标签和无标签数据的稠密对齐以及有标签和无标签数据的跨模态对比损失进行联合训练。总体而言,我们方法的最终目标函数为:04. 实验结果04.1. 数据集和评估0数据集。我们按照之前最先进的半监督视频动作识别方法[21, 55,58],在三个公共动作识别基准数据集上评估我们的方法:UCF-101 [39],HMDB-51 [25]和Kinetics-400[24]。UCF-101是一个广泛使用的数据集,包含13,320个视频,属于101个类别。HMDB-51是一个较小的数据集,包含6,766个视频,属于51个类别。0类别。对于UCF-101和HMDB-51,我们遵循VideoSSL[21]发布的数据划分。Kinetics-400数据集是一个大规模数据集,包含约235k个训练视频和约20k个验证视频,属于400个类别。对于Kinetics-400,我们按照最新的最先进方法MvPL[55],通过随机抽样每个类别6个和60个视频,形成两个平衡的有标签子集,用于1%和10%的设置。评估。我们报告主要比较的Top-1准确率和一些消融研究的Top-5准确率。04.2. 实现细节0网络架构。为了与最先进的方法[21,55]进行公平比较,我们使用FixMatch[38]框架作为骨干模型,而3D ResNet-18 [17,47]被采用作为RGB和TG(第3.2节)两种模态的特征提取器。对于每个特征提取器,我们添加了两个具有3层非线性MLP架构的独立对比头,用于跨模态对比学习(第3.4节)。视频增强。有两种类型的数据增强:弱增强和强增强。对于弱增强,我们按照[58]的方法进行随机水平翻转、随机缩放和随机裁剪。具体而言,给定一个视频剪辑,我们首先调整视频的大小,使短边为256,然后执行一个随机调整大小的裁剪操作。然后将裁剪的剪辑调整为224×224像素,并以50%的概率水平翻转。对于强增强,我们选择了RandAugment[8],它从一个大的增强池中随机选择一小组变换(例如旋转、颜色反转、平移、对比度调整等),然后对样本执行所选的数据增强。值得注意的是,教师(TG)和学生(RGB)共享相同的弱增强(即输入在相同区域内进行相同的裁剪,同时翻转或不翻转)。这提供了直接的位置信息匹配,在第3.2节的密集对齐中起到了关键作用。训练细节。所有实验都是在8个GPU上以初始学习率0.2进行的,遵循[9, 55,58]中的设置,使用余弦学习率衰减调度器[27]和线性预热策略[12]。我们使用0.9的动量和10-4的权重衰减。在最终分类器层之前使用0.5的Dropout[40]来减少过拟合。根据[58]的方法,每个小批量包含5个有标签的数据剪辑和5个无标签的数据剪辑,而每个输入剪辑由8帧组成,采样步长为8,可以覆盖原始视频的64帧。我们在UCF-101和HMDB-51上一致地训练我们的模型180和360个时期,而在Kinetics-400上训练45(1%)和90(10%)个时期。更多的训练细节请参见补充材料。Kinetics-400UCF-101HMDB-511%10%10%20%50%✗✗5.417.040.265.438.464.854.178.137.868.6✓✗9.425.543.568.860.484.474.691.747.374.8✗✓5.223.142.667.458.082.568.689.246.173.8✓✓9.826.043.869.262.484.976.192.148.475.932570对齐对比 Top-1 Top-5 Top-1 Top-5 Top-1 Top-5 Top-1 Top-5 Top-1 Top-50表1. 跨模态对齐和对比学习的有效性。结果在验证集上评估。第一行显示了没有任何提出模块的FixMatch基线模型的结果。0关于伪标签阈值,我们遵循[55],将其设置为0.3以获得更多的训练样本。对于损失权重,w fm 设置为0.5,而w kd和w clr 设置为1。0推理。按照最近的最先进方法[9, 55,58],每个视频沿其时间轴均匀采样10个剪辑,每个剪辑取3个256×256的裁剪。每个视频评估了总共3x10个裁剪。04.3. 跨模态密集对齐和对比学习的有效性0我们首先进行直接比较,以验证我们的假设:对局部和全局特征施加多模态约束可以作为现有半监督方法的两个互补扩展(以FixMatch[38]为基线)。为此,我们的密集对齐(第3.3节)被设计为对局部特征进行正则化,我们的对比损失(第3.4节)被开发用于区分全局特征。为了公平比较,我们进行了四个实验设置的消融实验(详见表1):(1)无,(2)仅对齐,(3)仅对比,(4)两者。我们使用Kinetics-400、UCF-101和HMDB-51以不同的标记数据比例(即1%、10%、20%和50%)来确保以下观察的普适性。首先,FixMatch(无)的性能比其其他三个对应物要差,这表明仅使用非常有限的标记数据进行伪标签是不足够的。其次,密集对齐显著提高了性能(超过仅对比),表明跨多模态的细粒度运动信号在半监督动作识别中起着重要作用。第三,引入RGB和TG模态之间的对比损失提高了Top-1/Top-5的准确性,揭示了不同模态之间的全局一致性的优势。最后,密集对齐和对比损失从互补的角度强化了模型的学习,因为在FixMatch的基础上同时实施两者超过了其中任何一个。我们希望我们对多模态约束的发现能为视频分析中的半监督动作识别带来新的启示。0减轻了过拟合。表6(补充材料)显示了训练集和测试集之间的显著准确性差距,表明FixMatch严重过拟合于训练集。我们的方法通过施加额外的传统正则化方法有效地减小了这种差距。0对具有RGB输入的模型进行传统正则化。04.4. 与最先进方法的比较0为了展示我们所提出的方法的能力和潜力,我们与半监督动作识别任务的最新最先进方法进行了比较,包括Kinetics-400、UCF-101和HMDB-51等公共数据集。如表2所示,我们主要与两类方法进行比较,包括基于图像的方法[26, 42,56],这些方法最初是为图像分类而设计的,然后简单地应用于视频任务,以及基于视频的方法[21, 37, 55,58],这些方法专门为视频动作识别任务设计。与基于图像的方法进行比较。表2中的前三行显示了基于图像的方法的结果,包括Pseudo-Label [26]、MeanTeacher [42]和S4L[56]。总体而言,所有三种基于图像的方法在所有不同标记百分比的三个数据集上的结果都远远低于所有基于视频的方法的结果。这证实了有必要提出基于视频时态和多模态属性的专门设计方法。与基于视频的方法进行比较。基于视频的方法的整体性能要高得多。VideoSSL通过使用ImageNet预训练模型来指导学习,TCL[37]使用自监督学习任务作为辅助任务,并使用组对比来进行视频半监督学习。ActorCutMix [58]和MvPL[55]都是从FixMatch[38]改编而来。受益于我们提出的跨模态密集对齐和跨模态对比,我们的方法在三个数据集上在所有实验设置(不同标签比例)下都明显优于所有这些方法。04.5. 消融研究0为了了解我们方法中每个部分的设计对结果的影响,我们在UCF-101数据集上进行了大量消融研究,使用20%标记的设置。快速时间梯度更好。时间梯度(TG)是通过比较两个RGB帧并且它们的步幅可以小或大来计算的,从而生成快速或慢速的梯度。32580w/ ImageNet Kinetics-400 UCF-101 HMDB-510方法 蒸馏 骨干网 1% 10% 5% 10% 20% 50% 40% 50% 60%0Pseudo-Label [ 26 ](ICMLW 2013) � R3D-18 6.3 - 17.6 24.7 37.0 47.5 27.3 32.4 33.5 MeanTeacher [ 42 ](NIPS 2017) � R3D-18 6.8 19.517.5 25.6 36.3 45.8 27.2 30.4 32.2 S4L [ 56 ](ICCV 2019) � R3D-18 6.3 - 22.7 29.1 37.7 47.9 29.8 31.0 35.6 UPS [ 34 ](ICLR 2021) �R3D-18 - - - - 39.4 50.2 - - -0VideoSSL [ 21 ](WACV 2021) � R3D-18 - 33.8 32.4 42.0 48.7 54.3 32.7 36.2 37.0 TCL [ 37 ](CVPR 2021) � R3D(TSM)-18 7.7 - - - - - -- - ActorCutMix [ 58 ](arXiv 2021) � R(2+1)D-34 - - 27.0 40.2 51.7 59.9 32.9 38.2 38.9 MvPL* [ 55 ](arXiv 2021) � R3D-18 5.0 36.941.2 55.5 64.7 65.6 30.5 33.9 35.8 我们的方法 � R3D-18 9.8 43.8 44.8 62.4 76.1 79.3 46.5 48.4 49.70*表示该方法是我们自己重新实现的。输入模态为RGB和TG。0表2. 与现有方法的比较。结果以验证集上的Top-1准确率(%)报告。每个设置的最佳性能以粗体显示。0篮球0杂耍0球类0排球0刺激0快速TG 慢速TG RGB0图3.慢速和快速时间梯度的可视化。慢速时间梯度包含射击环境的更多嘈杂背景,而快速时间梯度更关注与活动相关的移动物体。0TG.为了更深入地研究不同步幅的影响,我们进行了快速TG(计算步幅=1)和慢速TG(计算步幅=7)的实验,结果如表3a所示。第一组比较了基线FixMatch框架在不同数据模态作为输入时的性能。结果证实,慢速TG和快速TG的性能都比RGB要好得多(高出25%以上),并且还表明在半监督设置下,快速TG比慢速TG更好。表3a的第二组比较了我们模型在不同时间梯度下的最终性能。当伪标签由快速TG生成时,模型的性能大幅超过慢速TG(74.1%对68.2%)。为了弄清楚为什么快速TG的性能比慢速TG高得多,我们对三个视频剪辑的两种类型的时间梯度进行了可视化,可视化结果如图3所示。比较结果显示,慢速TG的背景信息更加嘈杂,特别是当摄像机有显著运动时。0快速时间梯度信息更关注快速移动物体的边界(例如人、球),而慢速时间梯度信息包含更多嘈杂的背景信息。定量和定性结果都验证了快速TG在半监督动作识别中的优势。对齐损失函数的选择。如第3.3节所讨论的,对齐损失函数有很多可能的选择,只要它能有效地强制两个特征之间的相似性。在这里,我们研究了三种不同的对齐函数(包括L1、L2和余弦相似度损失)的性能。如图3(b)所示,所有三种对齐损失函数都能达到很高的性能,而余弦相似度(74.6%)优于其他两种函数(74.0%和74.4%)。一个可能的解释是,L1和L2对两个表示的尺度有更严格的约束,而余弦相似度损失则更关注向量的方向(例如,�v1=(10,10,10)和�v2=(1,1,1)的L1和L2损失很大,而余弦相似度损失为0)。尽管TG在训练过程中被归一化到0-255的范围内,但RGB和TG之间的表示尺度仍存在差距。像L1或L2这样的严格约束对于学习运动特征的模型会产生负面影响。知识蒸馏中的停止梯度。如第3.3节所述,对TG侧进行的停止梯度操作是密集对齐成功的关键之一。然而,由于学生RGB具有TG没有的外观信息,直接使用密集对齐策略进行训练会导致教师TG模型严重退化,并且难以专注于提取细粒度的运动特征。停止梯度避免了RGB模型干扰TG模型中与细粒度运动相关的表示。如表3c所示,当取消停止梯度时,Top-1准确率下降了14.6%(60.0%对74.6%)。如何生成伪标签?生成伪标签有多种方法,因为我们的模型接受两个输入-54.178.10.174.891.80.275.292.40.576.192.11.074.392.232590学生 老师 Top-10RGB - 52.9 Slow TG -67.3 Fast TG - 68.30RGB Slow TG 68.2RGB Fast TG 74.10(a)快速时序梯度更好。0对齐损失 Top-1 Top-50L1 74.0 91.3 L2 74.491.4 Cosine 74.6 91.70(b)密集对齐函数。0Stopgrad Top-1 Top-50� 60.0 84.4 � 74.691.70(c)知识蒸馏中的停止梯度。0伪标签 度量 Top-1 Top-50RGB 73.6 91.0 TG 74.191.3 Self 72.8 91.6Average 74.6 91.70(d)伪标签的度量。0对齐块索引 准确率0第1 第2 第3 第4 Top-1 Top-50� � � � 71.4 90.2 � � � � 74.0 91.4 � � � � 91.8 � � � � 74.6 91.70(e)块内对齐。0Top-1 Top-50普通 71.1 90.0 + LR预热71.9 91.1 + Sup.预热 74.191.0 + PreciseBN 74.6 91.70(f)关键训练技巧。0温度τ Top-1 Top-50(g)对比温度的消融研究。0表3.在20%半监督设置下(仅使用20%标记数据),对UCF101分割-1进行消融研究。结果在验证集上报告了Top-1和Top-5准确率。骨干网络:3D ResNet-18 [17,47],每个输入剪辑由从单个视频中采样的8帧组成,帧间隔为8。除了研究(a)外,所有其他结果都使用PreciseBN进行评估。除了实验(g)外,所有其他实验都没有进行跨模态对比学习,以便更好地进行比较。0模态。我们比较了四种设置的性能:1)使用RGB模型的预测作为伪标签,2)使用TG模型的预测作为伪标签,3)每个模型使用自身模态的概率,4)融合RGB和TG的结果作为伪标签。表3d显示,融合的伪标签更可靠,并且由于综合了RGB和TB的全面信息,获得了最佳性能。0块内密集对齐。关于我们的知识蒸馏框架的一个直观问题是应该密集对齐哪个块或哪些块。因此,我们通过将密集对齐添加到不同位置(即块)进行了消融研究,并且结果如表3e所示。由于先前的知识蒸馏方法[18, 41,43]的常见做法是对齐最后几层的高级特征。因此,我们从最后(第4个)块(ResNet基本块)的特征开始添加密集对齐模块,然后尝试更多的块。当更多的块被密集对齐时,它们的性能始终得到改善,并且当所有块都对齐时,达到了最佳的Top-1准确率。与基准相比,我们的块内密集对齐策略获得了相当大的改进,提高了20.5%(54.1%至74.6%),这表明细粒度的运动信号对半监督模型的泛化能力更好。0关键训练技巧。通过广泛的实验,我们确定了几个关键训练技巧,这些技巧对于获得高性能至关重要。表3f显示了学习率预热[12]、有监督预热[55]和PreciseBN[53]的影响。这三个技巧都可以带来相当大的改进,而有监督预热(在最初的几个时期仅使用标记数据进行训练)是最有效的,可以获得一定的改进。02.7%(71.9%至74.6%)。这表明,有监督的预热可以缓解冷启动问题,即在开始时会生成低质量的伪标签。半监督学习模型的性能可能会有很大的变化[30, 37,49]。这三个技巧可以坚实地提高性能,同时使训练更加稳定。0对比温度。适当的温度对对比学习的良好性能很重要[6],我们在公式(10)中消融了对比损失的温度。如表3g所示,适度的温度(例如0.2或0.5)可以帮助所提出的跨模态对比学习更好地工作,而较大(1.0)或较小(0.1)的温度则不太理想。05. 结论0本文提出了一种新颖的半监督学习方法,引入了时间梯度来获取丰富的与运动相关的信息和跨多模态的额外表示一致性。我们提出的方法使用块状稠密对齐策略和跨模态对比学习。在推理过程中没有额外的计算或延迟,我们的方法在UCF-101、HMDB-51和Kinetics-400数据集上以所有实验设置(不同的标记比例)实现了最先进的性能。未来,我们计划研究时间梯度在其他基于视频的任务上的有效性,并自动搜索或生成强大的模态。0致谢:本工作得到了国家科学基金会(NSF)的支持,合同号为NSF-1763705。32600参考文献0[1] Humam Alwassel, Dhruv Mahajan, Bruno Korbar, LorenzoTorresani, Bernard Ghanem,和Du Tran.通过跨模态音频-视频聚类进行自监督学习.arXiv预印本arXiv:1911.12667,2019年. 30[2] David Berthelot, Nicholas Carlini, Ian Goodfellow, NicolasPapernot, Avital Oliver,和Colin A Raffel.Mixmatch:一种综合的半监督学习方法. Advances in NeuralInformation Processing Systems,32,2019年. 1 , 20[3] Mathilde Caron, Ishan Misra, Julien Mairal, Priya Goyal,Pi- otr Bojanowski,和Armand Joulin.通过对比聚类分配进行无监督学习的视觉特征学习.在第34届神经信息处理系统会议(NeurIPS)上,2020年. 30[4] Joao Carreira, Eric Noland, Chloe Hillier,和Andrew Zis-serman. 关于Kinetics-700人类动作数据集的简短说明.arXiv预印本arXiv:1907.06987,2019年. 10[5] Joao Ca
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功