时间对齐的少样本视频分类模型

2 浏览量更新于2023-10-25 收藏 13.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1106180通过时间对齐进行少样本视频分类0Kaidi Cao Jingwei Ji � Zhangjie Cao � Chien-Yi Chang Juan Carlos NieblesStanford University0{kaidicao, jingweij, caozj18, cy3, jniebles}@cs.stanford.edu0摘要0在收集和注释大规模视频数据方面的困难引起了对能够仅使用少量训练示例识别新类别的模型的兴趣。在本文中，我们提出了有序时间对齐模块（OTAM），这是一种新颖的少样本学习框架，可以学习对以前未见过的视频进行分类。尽管大多数以前的工作忽略了长期时间排序信息，但我们提出的模型通过有序时间对齐明确地利用视频数据中的时间排序信息。这导致了少样本学习的强大数据效率。具体而言，我们提出的流程通过其对齐路径学习查询视频与新类别代理之间的深度距离测量。我们采用基于剧集的训练方案，并直接优化少样本学习目标。我们在两个具有挑战性的真实数据集Kinetics和Something-Something-V2上评估OTAM，并展示了我们的模型在少样本视频分类方面相对于广泛的竞争基线和最先进的基准测试有显著的改进。01. 引言0深度学习的出现极大地推动了动作识别的前沿[8,26,41]。目前，主要的研究方向是使用大量标记数据学习视频分类的有效表示[2,22]。当需要将预训练模型适应于识别未知类别时，通常需要手动收集数百个视频样本进行知识转移。但这个过程相当繁琐和劳动密集。而且，与图像相比，标记视频的难度和成本要高得多。越来越多的人对能够有效地适应只有少量训练示例的新类别进行学习的模型产生了兴趣。这就是所谓的少样本学习[10,14]。元学习是一种有前途的方法，该模型明确地针对不同的剧集中稀缺的训练数据进行训练，以处理以前未见过的类别[12]。尽管最近的大多数少样本学习工作都集中在图像分类上，但将其扩展到视频分类并不容易。视频比图像复杂得多，具有额外的时间维度。识别“打开门”等动作需要对时间排序进行仔细建模。在视频分类文献中，3D卷积和光流是模拟短期时间关系的两种主流方法[38,41]，而长期时间关系通常被忽视。最先进的方法通常应用一个时间汇聚模块（通常是平均池化）来进行最终预测[22,41]。正如在[47]中观察到的那样，对深度特征进行平均只捕捉到共现关系，而不是时间关系。0� 表示相等的贡献。0查询0支持集0制作寿司0制作茶0图1.我们的少样本学习方法。我们在支持集中找到最近的邻居匹配，以对查询视频进行预测。语义匹配的帧对用蓝色虚线连接。箭头显示有序时间对齐路径的方向。0对于少样本学习的一种有前途的方法，模型明确地训练以处理不同剧集中稀缺的以前未见过的类别的训练数据[12]。尽管最近的大多数少样本学习工作都集中在图像分类上，但将其扩展到视频分类并不容易。视频比图像复杂得多，具有额外的时间维度。识别“打开门”等动作需要对时间排序进行仔细建模。在视频分类文献中，3D卷积和光流是模拟短期时间关系的两种主流方法[38,41]，而长期时间关系通常被忽视。最先进的方法通常应用一个时间汇聚模块（通常是平均池化）来进行最终预测[22,41]。正如在[47]中观察到的那样，对深度特征进行平均只捕捉到共现关系，而不是时间关系。Few-Shot Learning. To address few-shot learning, a directapproach is to train a model on the training set and ﬁne-tune with the few data samples of the novel classes. Sincethe data from the novel classes is not sufﬁcient to ﬁnetunethe model with general learning techniques, several meth-ods have been proposed to learn a good initialization model[12, 30, 33]. These works aim to relieve the difﬁculty ofﬁnetuning the model with limited samples. However, such106190模式的混淆不可避免地导致信息丢失。当只有少量数据样本可用时，缺乏足够的信息会更加严重[19]。在有限的数据量下，学习对少样本分类有用的时间模式是困难的。利用长期的时间排序信息，这在以前的文献中经常被忽视，对于少样本学习是至关重要的。例如，如果模型能够验证在制作茶之前有一个倒水的过程，如图1所示，模型可以自信地预测查询视频的类别为“制作茶”，而不是其他一些潜在的选择，如“煮水”或“上茶”。此外，图1还显示，对于同一类别的两个视频，即使它们都包含一个倒水的过程，然后是茶的特写视图，每个原子步骤的确切时间位置和持续时间可能会有很大的变化。这些视频的非线性时间变化给少样本视频分类带来了巨大的挑战。基于上述观察，我们提出了有序时间对齐模块（OTAM）用于少样本视频分类，这是一种新颖的时间对齐方法，它学习估计查询视频与支持集中相应代理的有序时间对齐分数。具体而言，我们通过仅沿有序时间对齐路径整合段距离来为每个潜在的查询-支持对学习匹配分数，这强制预测的距离保持时间排序。此外，OTAM是完全可微的，因此可以对模型进行端到端的训练，以优化少样本学习目标。反过来，这有助于模型更有效地利用长期时间信息。所提出的模块使我们能够对视频的时间演变进行建模，同时在少样本学习中实现更好的数据效率。我们在两个动作识别数据集上评估了我们的模型：Kinetics-400[22]和Something-Something V2[16]。我们表明，当只有一个样本可用时，我们的方法优于通常在当前最先进技术中采用的平均池化方法，以及其他专门用于少样本视频分类的方法。我们还定性地展示了我们提出的框架可以以端到端的方式学习有意义的有序对齐路径。0S 10S n...Embed106200查询0T0S 20T0支持集0D f0T0n0对齐得分0T0嵌入0嵌入0嵌入0嵌入0D f0内积0查询特征图0支持特征图0标签0n0n0n0n0有序时序对齐0图2.我们方法的概述。我们首先使用嵌入网络提取每帧的深度特征。然后计算查询视频与支持集中视频之间的距离矩阵。接下来，从矩阵表示中计算出对齐分数。最后，我们对每个新类别的对齐分数应用softmax运算符。0我们声称利用时间顺序可以进一步提高视频分类任务中few-shot学习的数据效率。视频中的few-shot学习。先前的研究探索了视频领域中的few-shot学习问题。OSS-MetricLearning[24]通过测量视频对的OSS-Metric来实现一次性视频分类。Mishra等人[28]引入了一种从属性到类别中心的映射函数的零样本方法。它通过整合来自未见过类别的标记数据来扩展到few-shot学习。CMN[48]引入了一种多显著性嵌入算法，将视频帧编码为固定大小的矩阵表示。然后，他们提出了一个复合记忆网络（CMN）来存储表示并通过匹配和排序来分类视频。据我们所知，与我们最相关的工作是TARN[5]。TARN也注意到时间对齐对于few-shot学习的重要性，并提出在测量距离之前利用注意机制。然而，包括TARN在内，以前的方法在表示级别上折叠帧的顺序[7, 13, 24, 25,28,48]。因此，学到的模型对于视频数据来说是次优的。在本文中，我们保留视频数据中的帧顺序，并使用有序的时间对齐来估计距离，从而得到更准确的最终预测。03. 方法0我们的目标是学习一个能够仅凭少量标记样本对新类别的视频进行分类的模型。视频中类别内的广泛的类内时空变化给few-shot视频分类带来了巨大的挑战。我们通过提出一个带有有序时间对齐的few-shot学习框架来解决这个挑战。0模块（OTAM）。使用OTAM使我们的方法与之前未能在元训练和元测试[5,48]阶段保持时间顺序和关系的方法有所不同。图2显示了我们模型的概述。接下来，我们首先提供few-shot视频分类任务的问题形式化，然后定义我们的模型并展示如何在训练和测试阶段使用它。03.1. 问题形式化0在few-shot视频分类设置中，我们对于训练集中的类别有足够的标记数据Ctrain，但是对于测试集中的类别只有很少的标记样本Ctest。few-shot学习的目标是训练一个能够很好地推广到新类别的网络。具体来说，在一个n-way，k-shot问题中，每个episode包含一个支持集和一个查询集。支持集由n个未见过的类别中的每个类别的k个样本组成，其中k通常是一个小整数（<10）。然后算法必须确定查询视频属于支持集中的哪个类别。episode是从更大的数据集中随机抽取的，被称为元集。在我们的设置中，我们引入了3个类别的拆分作为元训练T train，元验证T val和元测试Ttest集。我们通过学习一个距离函数φ(fϕ(x1),fϕ(x2))来将few-shot学习问题形式化为度量学习问题，其中x1和x2是从Ctrain中抽取的两个视频样本，fϕ(∙)是将样本映射到它们的表示的嵌入函数。我们问题形式化与大多数之前的few-shot学习方法的不同之处在于，我们处理的是更高维度的输入，因为它们是(2+1)D体积而不是2D图像。我们few-shot设置中的额外时间维度要求模型能够学习时间或...W ∗ = argminW ∈W⟨W, D⟩,(2)φ(fϕ(xi), fϕ(xj)) = ⟨W ∗, D⟩.(3)106210有限的数据推广到新的类别时，会面临额外的挑战，这些挑战之前的工作尚未得到妥善解决。03.2. 模型0根据上述问题表述，我们的目标是通过最小化少样本学习目标来学习视频距离度量。我们的关键洞察是，我们希望通过对齐两个视频的帧来显式学习一个与非线性时间变化无关的距离度量。与先前使用加权平均或平均池化沿时间维度的方法不同[5, 8, 38, 41, 43, 46,48]，我们的模型可以在元训练或元测试阶段以显式和数据高效的方式推断时间顺序和关系。在本节中，我们按照图2所示的流程来解释我们的模型。嵌入模块：嵌入模块fϕ的目的是生成一个紧凑的表示，以封装修剪视频的视觉内容。原始视频通常由数百帧组成，如果我们对每一帧进行推断，信息可能会冗余。因此，通常采用帧采样作为视频输入的预处理阶段。我们遵循TSN中描述的稀疏采样协议，将视频序列分为T个段，并从每个段中提取一个短片段。稀疏采样方案允许每个视频序列由一定数量的片段表示，尽管可能存在无约束的时间变化。采样的片段跨越整个视频，实现了长期的时间建模。给定输入序列x = {x1, x2, ...,xT}，我们使用CNN骨干网络fϕ将每个片段xi编码为特征fϕ(xi)，从而得到特征向量序列fϕ(x) = {fϕ(x1), fϕ(x2), ...,fϕ(xT)}。注意，每个视频嵌入fϕ(x)的维度为T×Df，而不是图像嵌入的Df。我们使用CNN网络最后一个全连接层之前的激活作为特征嵌入。带OTAM的距离度量：给定两个视频xi、xj及其嵌入特征fϕ(xi)、fϕ(xj)，我们可以计算帧级距离矩阵D ∈ RT×T，如下所示：0D(l, m) = 1 - fϕ0|| fϕ(xli) || || fϕ(xmj) || , (1)0其中D(l,m)是视频xi的第l帧与视频xj的第m帧之间的帧级距离值。我们进一步定义W � {0, 1} T ×T为可能的二进制对齐矩阵的集合，其中�W ∈W，如果视频xi的第l帧与视频xj的第m帧对齐，则Wlm = 1。0我们的目标是找到最佳对齐矩阵W� ∈ W。0理想的对齐矩阵W�将最小化对齐矩阵W与帧级距离矩阵D的内积，如公式(1)所定义。因此，视频距离度量由以下公式给出：0我们提出使用动态时间规整（DTW）算法的变体[29]来解决公式(2)。我们通过求解累积距离函数来实现这一目标：0γ ( l, m ) = D ( l, m ) + min { γ ( l − 1 , m − 1) , γ ( l − 1 , m ) , γ ( l, m − 1) } . (4)然而，在上述DTW设置中，对齐路径是一组连续的矩阵元素，定义了两个序列之间的映射，满足以下条件：边界条件、连续性和单调性。边界条件对对齐矩阵W施加了约束，使得对所有可能的对齐路径，W(1, 1) = 1和W(T, T) =1必须为真。在我们的对齐公式中，尽管视频被修剪，查询视频中的动作不必与代理完全匹配其起始和结束。例如，考虑制作咖啡的动作。在一些视频的末尾可能会有搅拌咖啡的原子动作。为了适应视频序列的DTW，我们提出放宽边界条件。我们允许算法找到一个具有灵活的起始和结束位置的路径，同时保持连续性和单调性。为了解决这个问题，我们在距离矩阵的开头和结尾填充了两列0，以便使对齐过程能够在任意位置开始和结束。因此，对于我们的方法，我们不是在一个T×T的矩阵上计算对齐分数，而是在大小为T×(T+2)的填充矩阵上工作。为了简化，我们进一步将第一维的索引表示为1, 2, ..., T，第二维的索引表示为0, 1, 2, ..., T,T+1。然后，累积距离函数变为：0γ(l, m) =0D(l, m) +0� 0� 0min { γ(l−1, m−1), γ(l−1, m), γ(l, m−1) }, m = 1 orm = T+1 min { γ(l−1, m−1), γ(l, m−1) },otherwise (5)0106220Figure 3.计算对齐分数的不同方法。每个子图显示一个距离矩阵。颜色越深，一对帧的距离值越小。带有绿色边框的条目是贡献到最终对齐分数的条目。0对齐函数强制从γ(∙, m−1)到γ(∙,m)的路径，最终的对齐分数将是T个分数的总和。从不同的查询视频和支持视频对计算的对齐分数被归一化为最大值为T，这意味着所选择的路径不会影响尺度。为了保持对称性，我们在相反方向上重复相同的操作。我们的最终对齐分数是在两个方向下估计的两个对齐分数的平均值。带连续松弛的可微分OTAM：根据最近关于连续松弛离散操作的工作[27]，我们在有序时间对齐模块中引入了连续松弛。我们使用带有平滑参数λ>0的log-sum-exp来近似公式（5）中的不可微分最小算子0min(t1, t2, ..., tn) ≈ − λ log0i=1 e−ti/λ if λ → 0. (6)0尽管在公式（6）中使用连续松弛并不能使目标函数变凸，但它通过允许平滑梯度在OTAM中反向传播来帮助优化过程。训练和推理：我们已经展示了如何计算累积距离函数γ并使用连续松弛来使给定输入视频对(xi,xj)的目标可优化。视频距离度量由提供0φ(fϕ(xi), fϕ(xj)) = γ(T, T+1). (7)0在训练阶段，给定真实的视频对(x,ˆx)和支持集S，我们通过直接最小化损失函数来端到端地训练整个模型0L = − log ex0s∈S exp(−φ(fϕ(x), fϕ(s))). (8)0总之，训练过程可以被视为一种距离度量学习过程，但所有可学习的参数都在特征嵌入模块中，应用固定的度量。0参数在特征嵌入模块中，应用固定的度量。在测试时，我们给出一个未见过的查询视频q及其支持集S，我们的目标是找到最小化视频距离函数的视频s�∈S0s� = argmin s ∈S φ(q, s). (9)0当k >1时，查询视频与支持集中每个类别的对齐分数是该类别的样本对齐分数的平均值。04. 实验0我们感兴趣的任务是少样本视频分类，其目标是仅使用支持集中的少量示例对新类别进行分类。在本节中，我们在两个数据集上评估我们的方法，并与广泛的基线进行比较。04.1. 数据集0正如[46,47]所指出的那样，现有的动作识别数据集可以大致分为两组：YouTube类型的视频：UCF101 [36]，Sports 1M[21]，Kinetics [22]，以及众包视频：Jester[1]，Charades [35]，Something-Something V1&V2[16]，其中视频是通过要求众包工作者录制执行指示活动的视频来收集的。众包视频通常更注重建模时间关系，因为不同类别之间的视觉内容比YouTube类型的视频更相似。为了证明我们的方法在这两组视频数据上的有效性，我们在两个动作识别数据集Kinetics [22]和Something-Something V2[16]上评估我们的少样本评估。Kinetics[22]和Something-Something V2[16]被构建为标准的动作识别数据集，因此我们必须构建它们的少样本版本。对于Kinet- ics数据集，我们遵循与CMN[48]和sam-相同的拆分106230对于元训练，我们随机选择了64个类用于元训练，12个类用于验证，24个类用于元测试。由于在Something-SomethingV2上没有现有的少样本分类划分，我们按照CMN[48]的规则构建了一个少样本数据集。我们随机选择了100个类别。然后将这100个类别分为64个类用于元训练，12个类用于元验证，24个类用于元测试。04.2. 实现细节0对于 n -way, k -shot 测试设置，我们随机选择 n个类，每个类包含 k个样本作为支持集。我们构建查询集，其中每个查询集中的未标记样本属于支持集中的 n个类之一。因此，每个episode总共有 n ( k + 1)个样本。我们通过在实验中随机采样10,000个episode来报告平均准确率。我们遵循TSN[41]中介绍的视频预处理过程。在训练过程中，我们首先将视频中的每一帧调整大小为256×256，然后随机裁剪一个224×224的区域作为视频剪辑。我们稀疏且均匀地对每个视频采样 T = 8个片段。在推理过程中，我们将随机裁剪改为中心裁剪。对于Kinetics数据集，我们在训练过程中随机应用水平翻转。由于Something-SomethingV2数据集中的标签包含左右的概念，例如，从左到右拉动某物和从右到左拉动某物，我们不使用水平翻转进行训练。根据CMN的实验设置，我们使用ResNet-50[18]作为TSN的骨干网络。我们使用在ImageNet[11]上预训练的权重来初始化网络。我们使用SGD[6]来优化我们的模型，初始学习率为0.001，并且每30个epoch衰减0.1。我们使用元验证集来调整参数，并在元验证集的准确率即将下降时停止训练过程。我们使用PyTorch[31]实现了我们的框架。完整模型在4个TITAN Xp GPU上训练了10小时。04.3. 评估少样本学习0我们将我们的方法与以下两类基线进行比较：04.3.1 使用预训练权重0对于使用ImageNet预训练权重的基线，我们遵循CMN中描述的相同设置。由于以前的少样本学习算法都是为处理图像而设计的，它们通常将由一些骨干网络编码的图像级特征作为输入。为了解决这种差异，我们首先将视频的帧传递给在ImageNet上预训练的ResNet-50网络，然后对帧级特征进行平均。0表1.少样本视频分类结果。我们报告了元测试集上的5路视频分类准确率。我们的方法大幅超过了先前的最新技术水平。0Kinetics Something V20方法 1-shot 5-shot 1-shot 5-shot0匹配网络[48] 53.3 74.6 - - MAML[48] 54.2 75.3 - -CMN[48] 60.5 78.9 - - TARN[5] 64.8 78.5 - - TSN++64.5 77.9 33.6 43.0 CMN++ 65.4 78.8 34.4 43.8TRN++ 68.4 82.0 38.6 48.9 OTAM（我们的方法）73.085.8 42.8 52.30通过提取特征获得视频级特征。然后将视频级特征用作这些少样本基线的输入。匹配网络[39]：我们在原始论文中使用了一个FCE分类层，在所有实验中都没有进行微调。FCE模块使用双向LSTM，每个训练样本可以被视为所有其他样本的嵌入。MAML[12]：给定视频级特征作为输入，我们按照[12]中描述的默认超参数和其他设置来训练模型。CMN[48]是专门为少样本视频分类设计的，它可以直接处理视频特征输入。编码的特征序列首先被送入多注意力嵌入函数中，以获得视频级特征。最终的少样本预测通过类似于[20]的复合记忆结构完成。TARN[5]包括一个用于编码视频样本的嵌入模块，一个利用注意力进行时间对齐的关系模块，以及一个用于学习对齐表示上的深度距离度量的深度网络。04.3.2 微调骨干模块0正如[10, 15,32]所发现的，使用输入特征与每个类别的可训练代理之间的余弦距离可以明确减少训练过程中特征的类内变化。[10]中的大量实验证明，Baseline++模型在与其他少样本学习方法相比具有竞争力。因此，在这种微调设置中，我们采用了几种先前方法的结构与Baseline++的结构相适应，以作为更有竞争力的基线。TSN++：对于TSN++基线，我们还使用基于episode的训练来模拟元训练阶段的少样本设置，直接优化对未知新类别的泛化。为了获得视频级表示，我们对查询集和支持集的逐帧特征进行时间维度的平均。支持集的视频级特征可以作为代理。106240平均分数：0.49对齐分数：0.300平均分数：0.47对齐分数：0.350CMN的匹配：切西瓜0我们的匹配：拆箱0查询：拆箱0平均分数：0.38对齐分数：0.150平均分数：0.35对齐分数：0.270CMN的匹配：将某物放在某物前面0我们的匹配：将某物从右边推到左边0查询：将某物从右边推到左边0图4.我们学到的分数图的可视化。在一个episode中比较我们的匹配结果和CMN的匹配结果。尽管给出了查询图像的错误匹配的平均分数很高，但我们的算法能够找到最小化对齐分数的正确对齐路径，最终得出正确的预测。0对于每个新类别，我们可以通过使用softmax函数将这些余弦距离值归一化来获得每个类别的预测概率。在元测试阶段的推理中，我们首先将支持集中的每个视频前向传播，以获得每个类别的代理。有了这些代理，我们可以预测查询集中的视频。CMN++：我们遵循CMN的设置，并自己重新实现了这种方法。CMN++与CMN之间唯一的区别是我们用TSN++提取的特征替换了ImageNet预训练特征。TRN++：我们还将我们的方法与试图在给定一系列图像特征的情况下学习紧凑的视频级表示的方法进行比较。TRN[47]提出了一个时间关系模块，它使用多层感知机来融合不同帧的特征。我们将TRN++指代为TSN++中的一个基线，将平均一致性模块替换为时间关系模块。04.3.3 定量结果0默认情况下，我们进行5路少样本分类。Kinetics和Something-SomethingV2数据集上的1-shot和5-shot视频分类结果列在表1中。可以得出结论，我们的方法在两个数据集上都显著优于所有基线。在CMN[48]中，实验观察结果表明，在元训练集上微调骨干模块并不能提高少样本视频分类性能。相反，我们发现通过适当的数据增强和训练策略，可以训练一个模型，在元训练集上更好地泛化到新领域的未知类别。通过比较TSN++和TRN++的结果，我们可以得出结论，显式考虑时间关系有助于模型在未知类别上的泛化。与TSN++相比，CMN++带来的改进不如在ImageNet预训练上的差距大0原始论文中报告的特征。这可能是由于我们在元训练期间使用了更合适的距离函数（余弦距离），使得帧级特征在未知类别中更具有区分性。最后，注意OTAM在所有微调的基线上都取得了很大的优势。这证明了在处理少样本视频分类问题时考虑时间顺序信息的重要性。04.3.4 定性结果和可视化0我们在图4中展示了CMN和OTAM的定性结果对比。特别地，我们观察到CMN在区分两个具有非常相似视觉线索的不同类别的动作时存在困难，例如背景，如图4中的距离矩阵所示。尽管我们的方法无法改变两个视觉上相似的动作片段的帧间距离得分平均较低的事实，但它能够找到一条最小化查询视频和真实支持类别视频之间累积距离得分的时间对齐路径。尽管OTAM的预测平均分数低于CMN的匹配，但我们的方法通过计算距离矩阵中的较低对齐分数成功进行正确预测。04.4. 消融实验0在这里，我们进行消融实验来证明我们提出的方法的有效性。我们在第4.3节中已经展示了明确建模时间顺序对于泛化到未见类别的重要性。现在我们分析不同时间对齐方法的效果。在具有余弦距离矩阵D的情况下，我们可以采用几种选择来从矩阵中提取对齐分数，如图3所示。除了我们的7072.575.077.580.082.585.0424446485052106250表2.时间匹配消融研究。我们将我们的方法与时间不可知的基线和PlainDTW方法进行比较。0Kinetics Something V20匹配类型 1-shot 5-shot 1-shot 5-shot0Min 52.4 71.6 29.7 38.5 Mean 67.8 78.9 35.245.3 Diagonal 66.2 79.3 38.3 48.7 Plain DTW69.2 80.6 39.6 49.0 OTAM(我们的方法) 73.0 85.842.8 52.30在我们提出的方法中，我们考虑了几种启发式方法来生成分数。第一种是“Min”，我们使用矩阵D中最小的元素来表示视频距离值。第二种是“Mean”，我们对所有帧对的余弦距离值进行平均。这两种选择忽略了时间顺序。然后，我们引入了一些潜在的选择，当计算时间对齐分数时，明确考虑序列顺序。一种直接的方案是对距离矩阵的对角线进行平均。这种方法的假设是查询视频序列与其相应的同类支持代理完全对齐，这在现实世界的应用中可能是不现实的。为了实现更自适应的对齐策略，我们引入了PlainDTW和OTAM。在这里，Tab. 2中的PlainDTW表示没有填充，因此假设W11和WTT在对齐路径中，并且在计算对齐分数期间，我们允许在每个时间步骤中进行可能的移动选择，包括→，ↁ和↓。结果如Tab.2所示。结果表明，通过明确考虑时间顺序，我们可以改善少样本学习。在这两个数据集中，对角线和均值方法之间的性能存在一些轻微差异。Something-SomethingV2的每个帧中的视觉线索较少，比Kinetics的帧中的视觉线索少，因此对角线的改进在Something-SomethingV2上更为显著。同时，对于Kinetics来说，差距很小。然而，我们看到通过自适应时间对齐，我们的方法在1-shot和5-shot的两个数据集上始终比基线提高了3%以上。这表明，通过加强模型学习跨查询视频和代理的自适应对齐路径，最终模型可以学习到更好的视频表示以及更准确的对齐分数。下一个消融研究是关于平滑参数λ的敏感性。直观地说，较小的λ更像是最小操作，而较大的λ意味着对附近位置的值具有更重的平滑效果。我们在[0.01, 0.05, 0.1, 0.5,1]的值集上对λ进行了实验。结果如图5所示。总体而言，性能在不同的λ值下是稳定的。我们观察到00.01 0.05 0.1 0.5 1 平滑参数0准确率（%）0Kinetics0Top-1Top-500.01 0.05 0.1 0.5 1 平滑参数0准确率（%）0Something-Something V20Top-1Top-50图5.平滑因子敏感性。我们比较使用不同平滑因子的效果。我们注意到适当的λ对于表示学习至关重要。总体而言，性能在不同的λ值下是稳定的。0实际上，在两个数据集的设置下，λ的范围从0.05到0.1相对较好。因此，我们注意到适当的λ对于表示学习至关重要。当λ太小时，尽管它可以最类似于真实的最小操作符，但梯度不平衡，因此一些帧对没有得到充分的训练。相反，较大的λ可能过于平滑，以至于各种对齐之间的差异不够显著。05. 结论0我们提出了Ordered Temporal AlignmentModule（OTAM），这是一个新颖的few-shot框架，可以在使用很少的数据的情况下明确学习视频中非线性时间变化无关的距离度量和表示。与以前的工作相比，OTAM在保持时间顺序的同时动态地对齐两个视频序列，并且以端到端的方式直接优化few-shot学习目标。我们的结果和消融实验证明，我们的模型在两个具有挑战性的真实世界数据集上明显优于广泛的竞争基线，并取得了最先进的结果。未来的方向是研究更具可解释性的few-shot视频分类算法。0致谢本工作部分得到了JD.com美国技术公司（JD）在SAILJDAI研究计划下的支持。本文仅反映其作者的观点和结论，而不代表JD或与JD.com有关的任何实体。106260参考文献0[1] The 20bn-jester dataset v1. https://20bn.com/datasets/jester . 50[2] S. Abu-El-Haija，N. Kothari，J. Lee，P. Natsev，G.Toderici，B. Varadarajan和S. Vijayanarasimhan。Youtube-8m：Alarge-scale video classification benchmark. arXiv preprintarXiv:1609.08675，2016. 10[3] S. F. Altschul，T. L. Madden，A. A. Sch¨affer，J. Zhang，Z.Zhang，W. Miller和D. J. Lipman。Gapped blast and psi-blast: anew generation of protein database search programs. Nucleicacids research，25（17）：3389–3402，1997. 20[4] D. Bahdanau，K. Cho和Y. Bengio。Neural machinetranslation by jointly learning to align and translate. arXivpreprint arXiv:1409.0473，2014. 20[5] M. Bishay，G. Zoumpourlis和I. Patras。Tarn: Temporalattentive relation network for few-shot and zero-shot actionrecognition. arXiv preprint arXiv:1907.09021，2019.2，3，4，60[6] L. Bottou。Large-scale machine learning with stochasticgradient descent. In Proceedings ofCOMPSTAT’2010，pages 177–186. Springer，2010. 60[7] C. Careaga，B. Hutchinson，N. Hodas和L.Phillips。Metric-based few-shot learning for video actionrecognition. arXiv preprint arXiv:1909.09602，2019. 30[8] J. Carreira和A. Zisserman。Quo vadis，actionrecognition？a new model and the kinetics dataset. Inproceedings of the IEEE Conference on Computer Vision andPattern Recognition，pages 6299–6308，2017. 1，2，40[9] C.-Y. Chang，D.-A. Huang，Y. Sui，L. Fei-Fei和J. C.Niebles。D3TW: Discriminative differentiable dynamic timewarping for weakly supervised action alignment andsegmentation. arXiv preprint arXiv:1901.02598，2019. 20[10] W.-Y. Chen, Y.-C. Liu, Z. Kira, Y.-C. Wang, and J.-B. Huang.更深入地研究少样本分类. In International Conference onLearning Representations , 2019. 1 , 60[11] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei.ImageNet: 一个大规模的分层图像数据库. 2009. 60[12] C. Finn, P. Abbeel, and S. Levine.用于快速调整深度网络的模型无关元学习. In Proceedings of the34th International Conference on Machine Learning- Volume70 , pages 1126–1135. JMLR. org, 2017. 1 , 2 , 60[13] Y. Fu, C. Wang, Y. Fu, Y.-X. Wang, C. Bai, X. Xue, and Y.- G.Jiang. 基于虚拟体验代理动作的单次视频识别. In Proceedings ofthe 27th ACM International Conference on Multimedia ,pages 411–419, 2019. 30[14] V. Garcia and J. Bruna. 基于图神经网络的少样本学习. InICLR , 2017. 10[15] S. Gidaris and N. Komodakis. 无遗忘的动态少样本视觉学习.In Proceedings of the IEEE Con- ference on Computer Visionand Pattern Recognition , pages 4367–4375, 2018. 60[16] R. Goyal, S. E. Kahou, V. Michalski, J. Materzynska, S. Westphal, H. Kim, V.Haenel, I. Fruend, P. Yianilos, M. Mueller-Freitag, et al.“某事某事”视频数据库用于学习和评估视觉常识. In ICCV , volume 2, page 8, 2017.2 , 50用于学习和评估视觉常识的大规模数据库. In ICCV , volume2, page 8, 2017. 2 , 50[17] B. Hariharan and R. Girshick.通过特征缩减和虚拟特征生成进行低样本视觉识别. InProceedings of the IEEE International Conference onComputer Vision , pages 3018–3027, 2017. 20[18] K. He, X. Zhang, S. Ren, and J. Sun.深度残差学习用于图像识别. In Proceedings of the IEEE con-ference on computer vision and pattern recognition , pages770–778, 2016. 60[19] J. Ji, K. Cao, and J. C. Niebles. 学习少标签的时序动作提议. In Proceedings of the IEEE In

下载后可阅读完整内容，剩余1页未读，立即下载