少样本动作识别中的混合关系引导的集合匹配方法

152 浏览量更新于2023-10-25 收藏 13.75MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Xiang Wang1Shiwei Zhang2∗Zhiwu Qing1Mingqian Tang2Zhengrong Zuo1Changxin Gao1Rong Jin2Nong Sang1∗{wxiang,qzw,zhrzuo,cgao,nsang}@hust.edu.cn, {zhangjin.zsw,mingqian.tmq,jinrong.jr}@alibaba-inc.comQuerSuppSupport: mQuery: ma�oral align�(a)199480混合关系引导的集合匹配用于少样本动作识别01 华中科技大学人工智能与自动化学院图像处理与智能控制重点实验室 2 阿里巴巴集团0摘要0当前的少样本动作识别方法通过通过情节训练学习每个视频的判别特征，并设计各种时间对齐策略来达到令人印象深刻的性能。然而，它们的局限性在于：（a）在不考虑整个任务的情况下学习个体特征可能会丢失当前情节中最相关的信息；（b）这些对齐策略可能在对齐错误的实例上失败。为了克服这两个限制，我们提出了一种新颖的混合关系引导的集合匹配（HyRSM）方法，它包括两个关键组件：混合关系模块和集合匹配度量。混合关系模块的目的是通过充分利用情节中视频内部和视频之间的相关关系来学习任务特定的嵌入。在基于任务特定特征的基础上，我们将查询和支持视频之间的距离度量重新定义为集合匹配问题，并进一步设计了一个双向平均Hausdorff度量来提高对齐错误实例的鲁棒性。通过这种方式，所提出的HyRSM方法可以在少样本情况下提供丰富的信息，并灵活地预测查询类别。我们在六个具有挑战性的基准测试上评估了HyRSM，并实验证明其在性能上优于现有方法。项目页面：https://hyrsm-cvpr2022.github.io/。01. 引言0随着大规模数据集[5, 9, 18]和视频模型[14, 32,52]的发展，动作识别取得了显著的进展。然而，这一成功在很大程度上依赖于大量手动标注的示例，这种标注工作费时费力。这实际上限制了该任务的进一步应用。少样本动作识别在减少手动标注方面具有潜力。0� 通讯作者0CNN0CNN0CNN0查询视频0支持集混合关系模块0“倒水”0“倒咖啡粉”0时间对齐策略集合匹配度量（b）0时间轴0匹配线0� �0图1.（a）所提出的混合关系模块。我们通过在情节中跨视频提取相关的判别模式来增强视频表示，从而能够自适应地学习任务特定的嵌入。（b）制作咖啡的示例，当前的时间对齐度量倾向于严格，导致在对齐错误的视频上产生错误的匹配。相比之下，所提出的集合匹配度量在寻找最佳对应关系时更加灵活。0最近，动作识别领域的研究引起了广泛关注[58,63]。该领域旨在通过极少的标注样本来学习对未见过的动作类别进行分类。为了解决少样本动作识别问题，目前的尝试[4, 40, 59,63]主要采用基于度量的元学习框架[45]，因为它简单且有效。它首先学习一个深度嵌入空间，然后设计一个明确或隐式的对齐度量来计算查询（测试）视频和支持（参考）视频之间的距离，以在一个情节任务中进行分类。例如，有序时间对齐模块（OTAM）[4]独立地为每个视频提取特征，并尝试仅沿着特征空间中的有序时间对齐路径找到潜在的查询-支持帧对。尽管已经取得了显著的性能，但仍有改进空间。199490这些方法仍然存在两个缺点。首先，在表示学习过程中，忽略了每个视频在一个episode中的交互线索。因此，这些方法实际上假设学习到的表示对于不同的episode任务同样有效，并为所有测试任务维持一组固定的视频特征，即任务不可知，这可能忽视当前任务中最具有区分性的维度。现有的工作还表明，任务不可知的方法在其他领域，如图像识别[29, 56]、NLP[35,38]和信息检索[33]中往往具有较差的泛化性能。其次，动作通常是复杂的，并涉及许多具有不同顺序和偏移的子动作，这可能导致现有的时间对齐度量方法失败。例如，如图1（b）所示，要制作咖啡，可以先倒水，再倒咖啡粉，或者反过来，因此最近的时间对齐策略很难找到正确的对应关系。因此，需要一种更灵活的度量方法来处理不对齐问题。0受到上述观察的启发，我们提出了一种新颖的混合关系引导集合匹配（HyRSM）算法，它由一个混合关系模块和一个集合匹配度量组成。在混合关系模块中，我们认为视频内部和跨视频之间的相关关系对于生成一组对于给定任务具有区分性的定制特征是有益的。为此，我们首先应用一个内部关系函数，通过建模长时程依赖关系来加强视频内部的结构模式。然后，一个跨视频的关系函数在不同的视频上提取丰富的语义信息，以加强与查询预测更相关的特征，如图1（a）所示。通过这种方式，我们可以学习针对少样本任务的特定嵌入。在混合关系模块之上，我们设计了一种新颖的双向平均豪斯多夫度量，从集合匹配的角度计算查询和支持视频之间的距离。具体而言，我们将每个视频视为一组帧，并减轻严格的排序约束，以获得更好的查询-支持对应关系，如图1（b）所示。通过结合这两个组件，所提出的HyRSM可以充分整合整个任务中的语义关系表示，并以端到端的方式提供灵活的视频匹配。我们在六个具有挑战性的基准测试上评估了所提出的HyRSM，并取得了显著的改进，超过了现有的最先进方法。0总之，我们的工作有以下三个贡献：1）我们提出了一种新颖的混合关系模块，用于捕捉episode任务内部和跨任务的关系，为不同任务产生任务特定的表示。2）我们进一步将查询-支持视频对距离度量重新定义为集合匹配问题，并开发了一种双向的0平均豪斯多夫度量，可以对复杂动作具有鲁棒性。3）我们在六个具有挑战性的数据集上进行了大量实验，验证了所提出的HyRSM方法在性能上优于现有的方法。02. 相关工作0本文涉及的工作包括：少样本图像分类、集合匹配和少样本动作识别。在本节中，我们将分别对它们进行简要回顾。少样本图像分类。最近，少样本学习的研究[13]大致沿着以下方向进行：数据增强、基于优化和基于度量。数据增强是一种直观的方法，可以增加训练样本的数量并提高数据的多样性。主流策略包括空间变形[39, 41]和语义特征增强[6,7]。基于优化的方法学习一个元学习模型，可以在给定少量训练样本的情况下快速适应新任务。这些算法包括基于LSTM的元学习器[44]、学习高效的模型初始化[15]和学习随机梯度下降优化器[31]。基于度量的方法试图通过“学习比较”来解决少样本分类问题。这类方法旨在学习一个特征空间，并通过欧氏距离[45, 56]、余弦相似度[51,55]或可学习的非线性度量[21, 29,48]来比较查询和支持图像。我们的工作与基于度量的方法[29,56]更相关，它们共享学习任务特定特征的相同精神，而我们专注于解决更具挑战性的少样本动作识别任务，其中存在多样的时空依赖关系。此外，我们还将在补充材料中进一步指出差异并进行性能比较。集合匹配。集合匹配的目标是准确测量两个集合的相似度，这在多年来受到了广泛关注。集合匹配技术可以用于高效处理复杂的数据结构[1, 2,42]，并已应用于许多计算机视觉领域，包括人脸识别[37,53, 54]、物体匹配[43,60]等。其中，豪斯多夫距离是处理集合匹配问题的重要方法。豪斯多夫距离及其变体已广泛应用于图像匹配领域，并取得了显著的成果[12, 22, 23, 47, 49,60]。受到这些巨大成功的启发，我们首次将集合匹配引入到少样本动作识别领域。少样本动作识别。少样本动作识别与之前的少样本学习方法的区别在于它处理更复杂的高维视频数据而不是二维图像。现有的方法主要集中在基于度量的学习上。Support setQuery videoBackboneIntra-relationIntra-relationIntra-relationIntra-relationAInter-relation modelingHybrid relation module0.10.20.7AAvg-poolingEExpendConcatenateConvolutionSet matching metricBackboneBackboneBackboneAAAEEEE3.2. HyRSM199500图2. Hybrid Relation guided Set Matching (HyRSM)方法在3-way1-shot问题上的示意图。给定一个视频数据的episode，首先使用特征嵌入网络提取它们的特征向量。然后使用混合关系模块来整合每个视频内部的丰富信息，并使用内部关系和间部关系函数来交叉视频。最后，将任务特定的特征输入到集合匹配度量中进行匹配分数预测。最佳观看效果为彩色。0ing. OSS-Metric Learning[25]采用视频对的OSS-Metric来匹配视频。TARN[3]学习了一种基于注意力的从属性到类别中心的深度距离度量，用于零样本和few-shot动作识别。CMN[63]利用多显著性嵌入算法来编码视频表示。AMeFu-Net[16]利用深度信息辅助学习。OTAM[4]保留了视频数据中的帧顺序，并通过有序的时间对齐估计距离。ARN[58]引入了一种自监督的不变排列策略。ITANet[59]提出了一种逐帧的隐式时间对齐策略，以实现准确和鲁棒的视频匹配。TRX[40]通过匹配不同子序列的丰富元组来匹配动作。需要注意的是，大多数上述方法都专注于独立学习视频嵌入。与这些先前的方法不同，我们的HyRSM通过学习可以更好地泛化到未见类别的内部和间部关系模式，提高了嵌入的可转移性。03. 方法0在本节中，我们首先给出few-shot动作识别任务的定义。然后我们介绍我们的Hybrid Relation guided Set Matching(HyRSM)方法。03.1. 问题定义0few-shot动作识别的目标是学习一个模型，该模型可以通过仅有少量标记的视频样本很好地泛化到新的类别。为了使训练更符合测试环境，我们采用了每集训练的方式[51]进行few-shot适应，这是之前的工作[4, 40, 51,59]所采用的方式。在每个集训练任务中，有两个集合，即支持集S和查询集Q。支持集S包含来自N个不同动作类别的N×K个样本，每个类别包含K个支持视频，称为N-0wayK-shot问题。目标是使用这些支持视频将查询视频Q分类为N个类别。0流程。HyRSM的总体架构如图2所示。对于每个输入视频序列，我们首先将其分成T个段落，并从每个段落中提取一个片段，就像之前的方法[4,52]一样。这样，在一个集训练任务中，支持集可以表示为S= {s1, s2, ..., sN×K}，其中si = {s1i, s2i, ...,sTi}。为了简单和方便起见，我们讨论N-way1-shot问题的过程，即K =1，并考虑查询集Q包含一个单独的视频q。然后我们应用嵌入模型来提取每个视频序列的特征表示，并得到支持特征Fs= {fs1, fs2, ..., fsN}和查询特征fq，其中fsi = {f1i, f2i, ...,fTi}和fq = {f1q, f2q, ...,fTq}。之后，我们将Fs和fq输入到混合关系模块中学习任务特定的特征，得到˜Fs和˜fq。最后，增强的表示˜Fs和˜fq被输入到集合匹配度量中生成匹配分数。根据输出的分数，我们可以训练或测试整个框架。混合关系模块。给定由嵌入网络输出的特征Fs和fq，当前的方法，例如OTAM[4]，直接在这个特征空间中应用分类器C。它们可以表示为：0yi=C(fsi,fq)(1)0其中yi是fsi和fq之间的匹配分数。在训练过程中，如果它们属于同一类，则yi=1，否则yi=0。在测试阶段，可以使用yi来预测查询标签。从概率论的角度来看，它基于先验fsi和fq做出决策：0yi=P((fsi,fq)|fsi,fq)(2)d( ˜fi, ˜fq) = max˜f ai ∈ ˜fi( min˜f bq ∈ ˜fqd( ˜fq, ˜fi) = max˜f bq ∈ ˜fq( min˜f ai ∈ ˜fi(7)fi( min˜f bq ∈ ˜fqfi( min˜f bq ∈ ˜fqf( min˜f ai ∈ ˜fi199510这是一种典型的与任务无关的方法。然而，与任务无关的嵌入往往容易过拟合与任务无关的表示[21,29]，并且可能无法转移到在训练阶段尚未观察到的未知类别。与以往的方法不同，我们提出为每个目标任务学习任务特定的特征。为了实现这个目标，我们引入了一个混合关系模块，通过在一个episode中捕捉来自不同视频的丰富信息来生成任务特定的特征。具体而言，我们精心设计了混合关系模块H，形式如下：0˜fi=H(fi,G);fi∈[Fs,fq],G=[Fs,fq](3)0也就是说，我们通过在一个episode的任务中聚合跨视频表示G的语义信息来改进特征fi，使得获得的任务特定特征˜fi比孤立特征更具有区分性。为了效率，我们进一步将混合关系模块分解为两个部分：内关系函数Ha和间关系函数He。内关系函数旨在通过捕捉长程时间依赖性来增强视频内的结构模式。我们将这个过程表示为：0fai=Ha(fi)(4)0这里fai∈RT×C是通过内关系函数得到的fi的输出，与fi具有相同的形状。注意，内关系函数有许多可选的实现方式，包括多头自注意力（MSA）、Transformer [50]、Bi-LSTM[19]、Bi-GRU[8]等，非常灵活，可以是其中任何一种。基于内关系函数生成的特征，部署一个间关系函数来在不同的视频之间语义增强特征：0fei=Hei(fai,Ga)=0|Ga|0j(κ(ψ(fai),ψ(faj))�ψ(faj))(5)0其中Ga=[Fas,faq]，ψ(∙)是一个全局平均池化层，κ(fai,faj)是一个可学习的函数，用于计算fai和faj之间的语义相关性。潜在的逻辑是，如果fai和faj之间的相关性得分高，即κ(fai,faj)，这意味着它们倾向于具有相同的语义内容，因此我们可以从faj中借用更多信息来提升表示fai，反之亦然。同样地，如果得分κ(fai,fai)小于1，这表明fai中的一些无关信息应该被抑制。通过充分利用每个episode任务中的有限样本，我们可以通过这种方式提高特征的区分度。间关系函数与内关系函数具有类似的实现方式，但具有不同的0不同的目标。在互关系函数之后，我们采用了一个扩展-连接-卷积操作来聚合信息，如图2所示，其中输出特征˜fi与fei具有相同的形状。作为先验，我们的方法可以表示为：0yi=P((˜fsi,˜fq)|H(fsi,G),H(fq,G));G=[Fs,fq](6)0直观上，与方程2相比，它有助于做出更好的决策，因为提供了更多的先验知识。特别是，混合关系模块是一个即插即用的单元。在实验中，我们将充分探索混合关系模块的不同配置，并进一步研究其可插入性。设置匹配度量。给定增强关系特征˜Fs和˜fq，我们提出了一种新的度量方法，以实现高效灵活的匹配。在这个度量中，我们将每个视频视为T帧的集合，并将视频之间的距离测量重新定义为集合匹配问题，无论它们是否对齐，都能够应对复杂的实例。具体而言，我们通过修改Hausdorff距离来实现这个目标，Hausdorff距离是一种典型的集合匹配方法。标准Hausdorff距离D可以表示为：0支持 ˜f ai -˜f bq0查询 ˜f bq -˜f ai0D = max(d(˜f i, ˜f q), d(˜f q, ˜f i))0其中˜f i ∈ R T × C包含T帧特征，而d(∙,∙)是距离测量函数，在我们的方法中是余弦距离。然而，之前的方法[12, 17, 57,62]指出Hausdorff距离很容易受到噪声样本的影响，导致测量不准确。因此，他们采用了一个对噪声具有鲁棒性的有向修正Hausdorff距离，如下所示：0d m(˜f i, ˜f q) = 10N i0空格0支持 ˜f ai - ˜f bq (8)0其中N i 是˜fi的长度，在本文中等于T。Hausdorff距离及其变体在图像匹配[12, 22, 49]和人脸识别[17,47]方面取得了巨大成功。因此，我们提出将集合匹配策略引入到少样本动作识别领域，并进一步设计了一种新颖的双向均值Hausdorff度量（Bi-MHM）：0D b = 10N i0空格0支持 ˜f ai - ˜f bq+ 10N q0空格0查询 ˜f bq -˜f ai0其中N i 和N q 分别是支持特征˜f i和查询特征˜f q的长度。Table 1s andHMDB51. The experiments are conducted under the 5-way setting, and results are reported as the shot increases from 1 to 5. ”-” meansthe result is not available in published works, and the underline indicates the second best result.199520方法参考数据集 1-shot 2-shot 3-shot 4-shot 5-shot034.4 - - - 43.8 TRN++ [61] ECCV’18 38.6 - - - 48.9 OTAM [4] CVPR’20 42.8 49.1 51.5 52.0 52.3 TTAN [30] ArXiv’21 46.3 52.557.3 59.3 60.4 ITANet [4] IJCAI’21 49.2 55.5 59.1 61.0 62.3 TRX (Ω= {1}) [40] CVPR’21 38.8 49.7 54.4 58.0 60.6 TRX (Ω= {2, 3})[40] CVPR’21 42.0 53.1 57.6 61.1 64.60HyRSM - 54.3 (+5.1) 62.2 (+6.7) 65.1 (+6.0) 67.9 (+6.8) 69.0 (+4.4)053.3 64.3 69.2 71.8 74.6 MAML [15] ICML’17 54.2 65.5 70.0 72.1 75.3 Plain CMN [63] ECCV’18 57.3 67.5 72.5 74.7 76.0 CMN-J[64] TPAMI’20 60.5 70.0 75.6 77.3 78.9 TARN [3] BMVC’19 64.8 - - - 78.5 ARN [58] ECCV’20 63.7 - - - 82.4 OTAM [4]CVPR’20 73.0 75.9 78.7 81.9 85.8 ITANet [59] IJCAI’21 73.6 - - - 84.3 TRX (Ω= {1}) [40] CVPR’21 63.6 75.4 80.1 82.4 85.2 TRX(Ω= {2, 3}) [40] CVPR’21 63.6 76.2 81.8 83.4 85.90HyRSM - 73.7 (+0.1) 80.0 (+3.8) 83.5 (+1.7) 84.6 (+1.2) 86.1 (+0.2)0OTAM [4] CVPR’20 Epic-kitchens 46.0 50.3 53.9 54.9 56.3 TRX [40] CVPR’21 43.4 50.6 53.5 56.8 58.90HyRSM - 47.4 (+1.4) 52.9 (+2.3) 56.4 (+2.5) 58.8 (+2.0) 59.8 (+0.9)045.5 - - - 60.6 OTAM [4] CVPR’20 54.5 63.5 65.7 67.2 68.0 TTAN [30] ArXiv’21 57.1 - - - 74.0 TRX [40] CVPR’21 53.1 62.566.8 70.2 75.60HyRSM - 60.3 (+3.2) 68.2 (+4.7) 71.7 (+4.9) 75.3 (+5.1) 76.0 (+0.4)0提出的Bi-MHM是一个对称函数，两个项目彼此互补。从方程9中，我们可以发现Db可以自动找到两个视频之间的最佳对应关系，例如˜f i和˜fq。请注意，我们的Bi-MHM是一个非参数分类器，不涉及大量的非平行计算，与之前复杂的对齐分类器[4,40]相比，有助于提高计算效率和传输能力。此外，混合关系模块和Bi-MHM可以相互加强，巩固两个视频之间的相关性。在训练阶段，我们将每个类别的负距离作为逻辑回归。然后，我们使用与[4,40]中相同的交叉熵损失和正则化损失[28,34]来训练模型。正则化损失是指在真实动作类别上的交叉熵损失，这在改善训练稳定性和泛化能力方面被广泛使用。在推理过程中，我们选择与查询最接近的支持类别进行分类。04. 实验0实验旨在回答以下关键问题：（1）HyRSM在具有挑战性的few-shot基准上与其他最先进的方法相比具有竞争力吗？（2）使HyRSM工作的关键组件和因素是什么？（3）混合关系模块是否可以作为一个简单的即插即用组件，并为现有方法带来好处？（4）所提出的集合匹配度量是否优于其他竞争对手？04.1. 数据集和实验设置0数据集。我们在六个few-shot数据集上评估我们的方法。对于Kinetics [5]、SSv2-Full [18]和SSv2-Small[18]数据集，我们采用了[4, 40, 59,63]提出的现有划分，每个数据集分别由64个和24个类作为元训练集和元测试集。对于UCF101 [46]和HMDB51[27]，我们使用[40,58]的划分评估我们的方法。此外，我们还使用Epic-kitchens [9,10]数据集评估HyRSM。更多细节请参见补充材料。实现细节。按照以前的工作[4, 40, 59, 63]，我们使用ResNet-50[20]作为骨干网络，其使用ImageNet[11]预训练权重进行初始化。我们稀疏均匀采样每个视频的8帧（即T = 8），与以前的方法[4,59]一样。在训练阶段，我们还采用基本的数据增强，如随机裁剪和颜色抖动，并使用Adam[24]优化器训练我们的模型。对于推理，我们在元测试集中随机抽样了10000个episode进行few-shot动作识别评估，并报告平均准确率。对于多镜头分类，例如5-shot，我们遵循ProtoNet[45]的方法，计算每个类别支持视频的平均特征作为原型，并根据与原型的距离对查询视频进行分类。04.2. 与最先进方法的比较0我们在本节中将HyRSM与最先进的方法进行了性能比较。如表1所示和35.245.3�41.255.0�43.755.2�44.656.0��48.160.5��48.361.2��51.464.6��54.369.0199530UCF101 SSv2-Small0方法参考文献 1-shot 3-shot 5-shot 1-shot 3-shot 5-shot0MatchingNet [51] NeurIPS’16 - - - 31.3 39.8 45.5 MAML [15] ICML’17 - - - 30.9 38.6 41.9 Plain CMN [63] ECCV’18 - - - 33.442.5 46.5 CMN-J [64] TPAMI’20 - - - 36.2 44.6 48.8 ARN [58] ECCV’20 66.3 - 83.1 - - - OTAM [4] CVPR’20 79.9 87.0 88.9 36.445.9 48.0 TTAN [30] ArXiv’21 80.9 - 93.2 - - - ITANet [59] IJCAI’21 - - - 39.8 49.4 53.7 TRX [40] CVPR’21 78.2 92.4 96.1 36.051.9 59.1 HyRSM - 83.9 (+3.0) 93.0 (+0.6) 94.7 (-1.4) 40.6 (+0.8) 52.3 (+0.4) 56.1 (-3.0)0表2. UCF101和SSv2-Small数据集上1-shot、3-shot和5-shotfew-shot分类的结果。“-”表示结果在已发表的工作中不可用，下划线表示第二好的结果。0图3. 混合关系模块中不同组件在5-way 1-shotfew-shot动作分类上的比较。实验在SSv2-Full数据集上进行。0表2中，我们提出的HyRSM在性能上明显优于其他方法，并取得了新的最先进性能。例如，在SSv2-Full的1-shot设置下，HyRSM将最先进性能从49.2%提高到54.3%。特别是，与时间对齐方法[4, 59]和复杂融合方法[30,40]相比，HyRSM在大多数不同的镜头下始终超越它们，这意味着我们的方法具有相当的灵活性和高效性。需要注意的是，SSv2-Full和SSv2-Small数据集倾向于基于运动，并且通常侧重于时间推理。而Kinetics和UCF101部分与外观相关的数据集，场景理解通常很重要。此外，Epic-kitchens和HMDB51相对复杂，可能涉及各种对象交互。在这些数据集上的出色表现表明我们的HyRSM具有强大的鲁棒性和泛化能力。从表2中我们可以观察到，在1-shot和3-shot设置下，HyRSM在UCF101和SSv2-Small上优于当前最先进的方法，这表明我们的HyRSM可以在极少样本的情况下学习到丰富有效的表示。值得注意的是，我们的HyRSM在UCF101和SSv2-Small上分别实现了94.7%和56.1%的5-shot性能，略低于TRX。我们将这归因于TRX是一种专门为多镜头设计的集成方法。0内关系间关系双向MHM 1-shot 5-shot0表3. 在SSv2-Full数据集上进行的5-way 1-shot和5-way5-shot设置的消融研究。0方法 1-shot 5-shot0OTAM [4] 42.8 52.3 OTAM [4]+ 内关系 48.9 60.4 OTAM[4]+ 间关系 46.9 57.8 OTAM [4]+ 内关系 + 间关系 51.7 63.90表4. 混合关系模块的泛化性能。我们在SSv2-Full上进行实验。04.3. 消融研究0为了方便比较，我们使用基准方法ProtoNet[45]，该方法将全局平均池化应用于骨干网络表示，以获得每个类别的原型。0关系建模的设计选择。如图3所示，我们改变混合关系模块中的组件，并系统评估不同变体的效果。实验在SSv2-Full上进行，采用5-way1-shot设置。我们可以观察到不同的组合具有非常不同的特性，例如，多头自注意力（MSA）和Transformer比Bi-LSTM和Bi-GRU更有效地建模类内关系。然而，与其他最近的方法[40,59]相比，每个组合的性能仍然有待提高，这要归功于结构设计对学习任务特定特征的有效性。为简单起见，我们采用相同的结构来建模类内关系和类间关系，并在实验中选择多头自注意力。0提出组件的分析。表3总结了HyRSM中每个模块的效果。我们以ProtoNet[45]作为基准方法。从结果中我们可以观察到每个组件都非常有效。特别是，73.0 68.7 66.0 63.0 61.9 59.0 63.6 59.4 56.7 54.6 53.2 51.1 73.7 69.5 66.6 65.5 63.4 61.0 5-way6-way7-way8-way9-way10-wayAccuracy (%)OTAMTRXHyRSM50665458706242.8 38.6 35.1 32.3 30.0 28.2 42.0 41.5 36.1 33.6 32.0 30.3 54.3 50.1 45.8 44.3 42.1 40.0 5-way6-way7-way8-way9-way10-wayAccuracy (%)OTAMTRXHyRSM2530403550455574Accuracy (%)(a) Frames42465054234567891012481632Accuracy (%)1-shot5-shot455060557065(b) Head number2030405060OTAMTRXHyRSM1-shot2-shot3-shot4-shot5-shot2030405060OTAMTRXHyRSM1-shot2-shot3-shot4-shot5-shotAccuracy (%)505560657075801-shot2-shot3-shot4-shot5-shot505560657075801-shot2-shot3-shot4-shot5-shotAccuracy (%)Accuracy (%)Accuracy (%)199540Kinetics0SSv2-Full0图4.在SSv2-Full上，我们的HyRSM和其他最先进的方法在不同N下的N-way 1-shot性能趋势。比较结果证明了我们HyRSM的优越性。0图5. (a) 在5-way 1-shot设置下使用不同帧数的SSv2-Full性能。(b)在SSv2-Full上头数的影响。0与基准方法相比，内关系建模分别在1-shot和5-shot上带来了6%和9.7%的性能提升，而间关系函数在1-shot和5-shot上提升了8.5%和9.9%的性能。此外，提出的集合匹配度量分别在1-shot和5-shot上提高了9.4%和10.7%，这表明了在视频对中找到更好的对应帧的能力。此外，堆叠模块可以进一步提高性能，表明组件之间的互补性。0混合关系模块的可插拔性。在表4中，我们通过将混合关系模块插入到最近的OTAM[4]中，实验证明混合关系模块对其他方法具有很好的泛化能力。在这项研究中，带有我们的混合关系模块的OTAM从关系信息中受益，并最终在1-shot和5-shot上分别取得了8.9%和11.6%的增益。这充分证明，在视频中挖掘丰富的信息以学习任务特定的特征是非常有价值的。0N-wayfew-shot分类。在之前的实验中，我们所有的比较评估实验都是在5-way设置下进行的。为了进一步探索不同N的影响，在图4中，我们比较了SSv2-Full和Kinetics上N-way（N≥5）1-shot结果。结果表明，随着N的增加，难度变得更高，性能下降。然而，我们的HyRSM的性能仍然始终领先于最近的最先进的OTAM [4]和TRX[40]，这显示了我们的方法通过引入视频之间的丰富关系和集合匹配度量来提升性能的可行性。0改变帧数。为了展示HyRSM的可扩展性，我们还探索了不同视频帧数对性能的影响。值得注意的是，以前的0度量双向 1-shot 5-shot0对角线 - 38.3 48.7 简单DTW [36] - 39.6 49.0 OTAM[4] - 39.3 47.7 OTAM [4] - 42.8 52.30Bi-MHM（我们的方法） - 44.6 56.00表5.在SSv2-Full数据集上与最近的时间对齐方法的比较，采用5-way1-shot和5-way 5-shot设置。对角线表示逐帧匹配。0度量双向 1-shot 5-shot0Hausdorff距离 = 32.4 38.2 Hausdorff距离 = 34.5 39.1修改后的Hausdorff距离 = 44.2 50.00Bi-MHM（我们的方法） - 44.6 56.00表6. SSv2-Full数据集上不同集合匹配策略的比较。070 SSv2-Full（Resnet-18）070 SSv2-Full（Resnet-34）085 Kinetics（Resnet-18）085 Kinetics（Resnet-34）0图6. 不同深度的骨干网络的比较。0在8帧输入下进行比较。图5（a）中的结果显示，随着帧数的增加，性能会提高。当超过8帧时，HyRSM逐渐趋于饱和。0头部数量的影响。以前的分析表明，多头自注意力可以关注不同的模式，对于捕捉多样的特征至关重要[26]。我们在图5（b）中研究了多头自注意力中头部数量的变化对性能的影响。结果表明，多头的影响是显著的，并且性能在某个点之后开始饱和。0改变骨干网络的深度。以前的方法都默认使用ResNet-50作为骨干网络进行公平比较，并且骨干网络深度对性能的影响仍未得到充分探索。如图6所示，我们尝试通过采用在ImageNet上预训练的ResNet-18和ResNet-34作为备选骨干网络来回答这个问题。结果表明，更深的网络明显受益于更大的学习能力，并且能够获得更好的性能。此外，我们注意到我们提出的HyRSM始终优于竞争对手（即OTAM和TRX），这表明我们的HyRSM是一个通用的框架。ule)123451234512345123451234512345123451234512345123451234512345123451234512345123451234512345123451234512345123451234512345(+ hybrid relation module)(+ hybrid relation module)(+ hybrid relation module)HyRSMResNet-1813.8M3.64G36.5ms46.6HyRSMResNet-3423.9M7.34G67.5ms50.0OTAM [4]ResNet-5023.5M8.17G116.6ms42.8TRX [40]ResNet-5047.1M8.22G94.6ms42.0HyRSMResNet-5065.6M8.36G83.5ms54.3199550准确率 = 100% 准确率 = 100%0准确率 = 60% 准确率 = 60准确率 = 80% 准确率 = 60准确率 = 100%0准确率 = 100%0准确率 = 100%0准确率 = 100%0准确率 = 100%0(a) 来自SSv2-Full的示例 (b) 来自Kinetics的示例0图7.查询视频（行）与支持视频（列）之间匹配的相似性可视化。不同颜色的框对应于：正确匹配和错误匹配。04.4. 与其他匹配方法的比较0我们提出的集合匹配度量Bi-MHM旨在通过放宽严格的时间顺序约束来准确找到视频对之间的对应帧。在相同的实验设置下，即将OTAM直接替换为我们的Bi-MHM而保持其他设置不变，通过表5中的比较实验结果显示，我们的Bi-MHM表现良好，优于其他时间对齐方法（如OTAM）。我们在表6中进一步分析了不同的集合匹配方法，结果表明Hausdorff距离容易受到噪声干扰的影响，导致不匹配和相对较差的性能。然而，我们的Bi-MHM对噪声表现稳定，并获得更好的性能。此外，与单向度量相比，我们提出的双向度量更全面地反映了视频之间的实际距离，并在少样本任务上取得了更好的性能。04.5. 可视化结果0为了定性地展示我们提出的方法中学到的任务特定特征的区分能力,我们将查询视频和支持视频之间的相似性进行可视化,并与没有混合关系模块的情况进行比较. 如图7所示,添加混合关系模块后, 特征的区分性显著提高,有助于更准确地进行预测. 此外,我们还在图8中可视化了集合匹配度量的匹配结果,可以观察到我们的Bi-MHM在处理对齐和不对齐方面非常灵活.04.6. 限制0为了进一步了解HyRSM, 表7说明了它与OTAM和TRX在参数,计算和运行时间方面的差异.0支持0查询0(a) SSv2-Full: ”假装打开某物但实际上没有打开”0(b) SSv2-Full: ”展示某物是空的”0支持0查询0支持0查询0(c) Kinetics: ”切西瓜”0图8.在SSv2-Full和Kinetics上使用提出的集合匹配度量的匹配结果可视化.0方法骨干网络参数 FLOPs 延迟准确率0表7. 5-way 1-shot SSv2-Full评估的复杂性分析.实验在一块Nvidia V100 GPU上进行.0参数, 计算和运行时间. 值得注意的是,HyRSM引入了额外的参数(即混合关系模块),导致GPU内存和计算消耗增加. 尽

下载后可阅读完整内容，剩余1页未读，立即下载