零样本时序活动检测的语义引导对比学习

144 浏览量更新于2023-10-15 收藏 13.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

62430基于零样本时序活动检测的语义引导对比学习0Sayak Nag �，Orpaz Goldstein †，Amit K. Roy-Chowdhury �0� 加利福尼亚大学河滨分校，美国，† 亚马逊，美国0{snag@ece, amitrc@ece.}ucr.edu, orpgol@cs.ucla.edu0摘要0零样本时序活动检测（ZSTAD）是在训练过程中以前未见过的活动片段的同时时序定位和分类的问题。这是通过将从语义相关的已见活动中学到的知识进行转移来实现的。这种无监督推理未见概念的能力使得ZSTAD在获取带注释的训练视频困难的应用中非常有前景。在本文中，我们设计了一个基于Transformer的框架，称为TranZAD，通过将ZSTAD作为一个直接的集合预测问题来简化对未见活动的检测，消除了手工设计和手动后处理的需求。我们展示了如何通过语义信息引导的对比学习策略有效地训练TranZAD以适应零样本设置，实现从已见活动到未见活动的知识传递。为了减少视频中未见活动和不相关背景信息之间的混淆，我们引入了一种更高效的计算背景类别嵌入的方法，通过将其作为端到端学习的一部分动态地进行调整。此外，与现有的ZSTAD工作不同，我们不假设在训练过程中已知哪些类别是未见的，并且仅使用已见类别的视觉和语义信息进行知识传递。这使得TranZAD在实际场景中更具可行性，我们通过在Thumos'14和Charades上进行大量实验进行了评估。01. 引言0随着互联网上的视频内容迅速增长[1]，对视频数据的自动索引和分析已经成为信息检索研究中的关键问题。近年来，基于深度学习的时序活动检测（TAD）已经成为长时间未修剪视频中自动检索相关活动的解决方案[67, 15, 16, 57, 9,60]。然而，大多数这些方法需要通过重度监督进行训练以获得良好的性能。在现实世界中0在应用中，获取经过充分注释的视频样本以涵盖所有可能的活动类别通常非常困难和昂贵，这使得现有的TAD框架容易在训练过程中误分类以前未见过的活动实例。因此，迫切需要开发能够在有限监督下学习的方法。零样本学习（ZSL）是一种这样的方法，其中训练和测试数据来自共享某些语义关系的不相交类别集合。其目标是将从检测到的类别中学到的知识转移到未见类别的检测中，这是通过利用一些共同的先验信息（如手工设计的属性或语义标签嵌入）来实现的。在没有重度监督的情况下对未见概念进行泛化的能力使得ZSL在边缘视频分析等应用中非常有吸引力，其中边缘设备的较低计算能力使得大规模监督学习不可行。现有的ZSL研究主要集中在图像数据上，零样本分类/识别（ZSR）是最受欢迎的[35, 34, 63, 10]，其次是零样本目标检测（ZSD）[41, 42,2]。对于视频的有限工作主要集中在扩展ZSR以用于短修剪的视频片段的活动分类上[39, 8, 7, 28,58]。然而，在现实世界的环境中，网络视频是长时间未修剪的，包含多个动作实例，使得TAD比简单的活动识别更具挑战性[49]。在本文中，我们在ZSL设置中解决了TAD问题，正式称为零样本时序活动检测（ZSTAD），通过将对已见活动的时空动态建模的知识转移到对未见活动的检测中。最近，[62]通过引入流行的RC3D框架[57]的修改版本来解决这个任务，其中使用语义嵌入来进行基于度量的时序区域提案的分类。RC3D作为一个两阶段的检测器，严重依赖于几个手工设计的组件，如手动设计的锚点集和非极大值抑制（NMS）来提高性能[5]。由于视频数据的动态性质，设计能够覆盖所有真实实例的锚点集非常具有挑战性。62440[49]，这在零样本情况下进一步放大，其中未知类别活动没有手动调整锚点集设计的监督。因此，这影响了未知类别提议的质量[61]。此外，像NMS这样的后处理步骤增加了推理时间，使得像[62]这样的当前ZSTAD框架不适用于边缘计算等对低延迟推理至关重要的应用。另一个关键点是[62]假设在训练阶段本身就有未知类别的语义嵌入可用，他们使用这些嵌入构建了一个超类分类损失，显著提升了零样本检测性能。然而，未知类别的语义嵌入提供的信息虽然不如视觉信息丰富，但使[62]的框架能够在训练期间判断哪些类别是未知的。这使得[62]的学习模型在现实场景中变得不实用，检索系统在训练阶段可能没有任何关于未知类别分布的先前上下文，并且只在推理阶段才引入它们。为了克服两阶段检测器[45，19，57]的挑战，近年来，DETR[5]及其变体[69，54，25，49]引入了基于Transformer的集合预测模型，通过绕过提议生成和手工设计的组件，从而实现更快的推理。然而，这些模型是针对完全监督学习而引入的，不适用于ZSL设置。在这项工作中，我们将ZSTAD作为一个集合预测问题，并引入了一个基于Transformer的零样本活动检测器TranZAD。TranZAD利用Transformer的多头注意力以及来自语义词嵌入的先验信息，将已知活动的知识转移到语义相关的未知活动的检测中。此外，与[62]不同，我们只使用已知类别的语义信息进行模型训练，从而开发出一个更实用的检索框架。我们的设置示意图如图1所示。在训练阶段，只有包含已知类别活动的视频可用。为了将从已知活动中学到的知识转移到未知活动的检测中，TranZAD学习将活动的视觉特征与其对应的类别特定语义嵌入相关联。这通过对比学习策略实现，其中Transformer模型学习将视频中活动的视觉特征映射到语义特征空间，然后与已知类别的语义嵌入进行度量分类。通过这种方式，TranZAD学习到了一种一致的视觉-语义映射，使其能够将从已知活动中学到的关联知识转移到语义相关的未知活动中。由于ZSTAD是一个定位问题，需要将视频中的背景信息与相关活动区分开来。为了防止与未知活动类别混淆，我们为背景类别分配了一个强大的语义嵌入。张等人[62]通过解决一个优化问题实现了这一点，其中为背景类别分配了一个固定的表示，该表示与所有标签嵌入（已知和未知）最不相似。他们的背景嵌入仅从类别的语义信息中派生，未包含其对应的视觉信息，使其在建模复杂和多样的背景信息方面无效。此外，[62]的方法再次依赖于在训练期间已知未知类别的不切实际的假设。我们通过以联合端到端的方式学习背景嵌入来纠正这一点，使其能够建模更复杂的背景信息。虽然对比学习的分类能够实现有效的视觉-语义映射，但还必须确保活动的视觉特征在不同视频中保持一致。这受到时间一致性[33，44]的概念的启发，即与活动相关的特征应该专注于诸如步态之类的区分性方面，而忽略不同视频以及同一视频的不同时间段的背景细节，如照明和遮挡。为了实现这一点，我们对Transformer生成的中间视觉表示应用了一种监督对比损失[26，48]，并展示了它在提升未知类别的零样本检测性能方面的有效性。主要贡献。据我们所知，这是第一项利用基于Transformer的集合预测框架来解决ZSTAD问题的工作，其中该框架使用语义信息引导的对比学习策略进行训练。我们提出的解决方案的主要特点如下：1.我们将ZSTAD作为一个集合预测问题，并引入了一个基于Transformer的设置TranZAD，用于直接检测0图1：使用TranZAD进行ZSTAD的高级示意图。TranZAD在仅包含已知类别活动实例的视频上进行训练。利用活动标签的语义词嵌入的先验信息，从已知类别向未知类别传递知识。在推理过程中，TranZAD利用未知类别的语义嵌入来执行未知活动片段的零样本检测。0活动62450未见活动的零样本检测（ZSTAD）是通过学习从未见活动中区分出背景的能力来解决的。与现有的方法相比，TranZAD具有以下优势：1.TranZAD通过使用Transformer来学习未见活动的背景表示，消除了手工设计组件的需求，从而实现更快的推理。2.我们引入了一种新颖的方法来获取背景标签嵌入，从而实现对多样化和复杂背景场景的建模。3.这是第一项研究，探索了基于语义信息引导的对比学习多头注意力模型来解决ZSTAD这个具有挑战性的问题。4.与现有的最先进方法相比，TranZAD不依赖于明确知道哪些类别是未见的，并且仍然实现了优越或可比的性能，通过对两个流行的ZSTAD数据集THUMOS'14 [22]和Charades[47]进行实验证实。02. 相关工作0时间活动检测。时间活动检测（TAD）是对长时间未修剪视频中多个动作实例进行同时分类和时间定位的研究。目前最先进的TAD方法主要是两阶段检测器，包括时间提议生成和动作分类[67, 15, 16, 57, 9,60]。这些方法的性能归因于在大规模注释数据上进行完全监督训练，这使得它们在推理过程中无法检测到未见活动，并且需要对新活动进行重训练以获得重度监督。这在现实世界中往往很难获得。此外，提议生成机制依赖于手工设计的锚点放置[3, 20, 15]或手动调整的边界匹配机制[67, 30,29]，以及基于NMS的后处理[49]，这增加了推理时间。零样本学习。零样本学习是通过从语义相关的已见类别中转移知识来推广到以前未见类别的研究。与零样本识别（ZSR）的简单分类问题不同，零样本检测（ZSD）更具挑战性，因为它侧重于以前未见实例的联合定位和分类[42]。现有的关于ZSD和ZSR的文献主要集中在图像数据上[10, 27, 35, 63,41, 56, 64, 42, 65, 32, 53, 42, 2, 68, 40, 66,4]。关于视频的有限工作[39, 8, 7, 28, 58,37]主要集中在扩展用于对短修剪视频剪辑进行分类的ZSR。最近，Zhang等人[62]尝试通过引入修改的RC3D框架来解决这个问题，该框架将时间区域提议映射到语义空间，并与Word2Vec[18]嵌入进行度量分类。然而，他们的框架面临着与RC3D[57]等两阶段检测器相似的挑战，以及与许多先前的ZSD研究（如图像[42,40]）类似的问题，即在训练期间假设已知哪些类别是未见的，并使用这些未见类别的语义上下文来提高ZSD性能。这并不反映许多实际情况，其中可能无法获得有关未见类别的任何信息。0此外，Zhang等人[62]，像许多先前的ZSD研究[42, 41,40]一样，为背景嵌入分配了固定的表示，这在建模视频数据的复杂背景信息方面是无效的。0视觉中的Transformer。Transformer在自然语言处理任务中的成功[52]启发了许多计算机视觉应用，如图像识别[43,13, 14]，图像生成[36]，目标检测[5, 69, 61, 54,25]以及视频理解[49,17]。最近，Carion等人[5]引入了DETR，这是一种基于Transformer的基于集合预测的目标检测方法，消除了对手工设计和手动后处理的需求。然而，正如Tan等人[49]所示，直接将[5]的设置扩展到视频是有问题的，因为视频特征的固有缓慢性使得传统的Transformer编码器容易过度平滑视频表示，导致它们的可辨识性降低。Tan等人[49]通过用多层感知器（MLP）替换Transformer编码器来解决这个问题。我们在实验中使用了[49]的这个见解。然而，与[49]不同的是，[49]解决的是在完全监督的设置中生成活动提议，而我们的框架侧重于在零样本设置中对未见活动进行直接的基于集合的预测。0对比学习对比学习侧重于学习最大化相似实例的对齐的表示。对比损失的使用已经在自监督表示学习中取得了显著的性能提升[21, 55, 51, 12,11]。最近，许多研究将批量对比损失扩展到了监督设置中[26, 48,59]。在本文中，我们以两种方式利用监督对比学习，1）建立一个有效的视觉-语义映射关系，用于执行语义引导的分类，2）实现同一视频中不同时间段内以及不同视频之间的活动视觉特征的一致性。03. 方法论03.1. 问题描述0在ZSTAD中，任务是对训练过程中未见过的活动类别进行联合分类和时间定位。因此，给定C_s个已见活动类别和C_u个未见活动类别，训练数据集(X_c_s, Y_c_s)={(x_c_s,i,y_c_s,i)}_N_s_i=1由N_s个未修剪的视频组成，每个视频仅包含来自已见活动类别的时间注释，并且测试集X_c_u={x_c_u,j}_N_u_j=1由N_u个视频组成，每个视频至少包含一个未见类别的活动。已见类别和未见类别在语义上相关，我们利用这种关系来指导我们框架的训练。62460图2：TranZAD概述。TranZAD将ZSTAD作为一个直接的集合预测问题进行处理，包括四个组件：1）多层感知器（MLP）编码器（具有L_E层），用于将提取的视频特征转换为紧凑的表示，2）变换器解码器（具有L_D层），用于生成视频中所有活动的视觉特征，3）通过将语义嵌入与视觉特征进行对比来解码类标签的语义对齐头部，4）用于获取时间坐标的边界头部。03.2. 方法概述0为了将已见类别的知识转移到未见类别，我们利用使用无监督向量嵌入模型（如Word2Vec [18]和GLoVE[38]）获得的每个活动类别的文本描述符的语义词嵌入。这些嵌入提供了已见和未见类别之间的语义关系的度量[42, 4,62]。已见和未见类别的语义嵌入分别表示为W_c_s={w_c_s,i}_C_s_i=1∈R_d×C_s和W_c_u={w_c_u,j}_C_u_j=1∈R_d×C_u。背景类别嵌入表示为w_Ø，用于将视频中的相关活动类别与背景信息区分开。与现有的ZSTAD工作[62]不同，我们没有为w_Ø分配一个固定的表示，而是将其建模为可学习的网络参数（例如，在pytorch中，它被制定为nn.Embedding()，其权重被设计成模拟背景嵌入）。仅在训练过程中，W_c_s是可用的，它与w_Ø一起用于建立有效的视觉-语义映射，以便将知识转移到检测语义相关的未见活动。0TranZAD的原理图如图2所示。对于每个视频，我们在一个滑动窗口中获得检测结果。0以滑动窗口的方式将视频分成T个重叠的片段{ˆx_i}_T_i=1，其中T取决于时间窗口、重叠比例和视频时长。使用3D卷积网络提取每个时间段ˆx_i的短期时空特征，将其与固定的位置编码[52]一起作为输入提供给基于多层感知器（MLP）的编码器，以获得ˆx_i的紧凑表示。如前所述，由于视频特征的固有缓慢性，传统的变换器编码器[5]被MLP替代，因为前者容易过度平滑视频表示，从而降低了它们的可区分性[49]。编码器表示和M个学习的查询编码（称为动作查询）被传递给变换器解码器，后者利用多头注意力[52]从编码器表示中聚合长期时间信息到动作查询，并将其转换为一组M个动作预测，每个预测表示ˆx_i中活动的视觉特征。动作预测通过语义对齐头部和边界头部并行解码为它们各自的类别和时间坐标（起始时间和结束时间）。0该框架的训练由三个损失函数 L cls 、L loc 和 L con 引导。L loc是应用于边界头部生成的预测坐标的时序定位损失。另一方面，L cls 和 L con是监督对比损失，其中前者是与语义对齐头部相关的主要分类损失，通过将视觉特征首先映射到语义空间并与 W s 和w Ø进行对比。后者则应用于解码器的中间视觉特征，确保每个活动的视觉特征在训练集中始终保持一致，无论不同视频中的背景细微差异如何。下面将详细讨论各个模块和损失函数。the boundary head. On the other hand Lcls and Lcon aresupervised contrastive losses, where the former is the mainclassification loss associated with the semantic-alignmenthead whereby the visual features are first mapped to thesemantic space and contrasted with the Ws and wØ. Thelatter on the other hand, is applied on the intermediate visualfeatures of the decoder and ensures that the visual featuresof each activity are consistent throughout the training setirrespective of background nuances in different videos. Theindividual modules and losses are discussed in detail below.ZE =(2)2. Boundary Head: The boundary head is a simplefeed-forward network with two output nodes that takesas input the activity visual features ZD and outputs theirindividual temporal coordinates ˆtm =(ˆtstart,ˆtend)m.3.4. Loss FunctionsSet based label assignment. The optimal bipartite matchingbetween a set of Ng ground truth instances and the set of Mactivity detections is obtained using the Hungarian matchingalgorithm as shown in [5, 49]. The matched ground truthlabel of the mth detection is given as σ(m). If a detectiondoes not match any ground instance then it is assigned thebackground class i.e. σ(m)=Ø.Visual-Semantic Contrastive Loss. This is the classificationloss associated with the semantic-alignment head and ismodeled as follows,Lcls =− 1MM�m=1C�c=11clogexp(ˆwTc ˆzS,m/τcls)C�c=1exp(ˆwTc ˆzS,m/τcls)(3)where 1c is the one-hot vector corresponding to the cth class.Since the classification score is obtained by contrastingthe visual and semantic information of the seen classes, byminimizing Lcls, TranZAD effectively learns to associatethe visual features of a seen activity with it’s correspondingsemantic concept. This visual-semantic consistency enablesTranZAD to detect previously unseen activities that aresemantically-related with the seen ones.Localization Loss. The temporal localization loss of theboundary head is the following regression loss,Lloc = 1NgM�m,σ(m)̸=Øλa·Ltbox(tσ(m),ˆtm)+λb·LgtIoU(tσ(m),ˆtm)(4)624703.3. 网络架构0视频特征提取。可以使用任何3D卷积网络[50,6]作为骨干网络提取视频特征。因此，对于给定滑动窗口 t中的每个视频段 ˆ x i ，提取的特征表示为 f (ˆ x i)，具有时间长度为 l t。特征编码器。编码器设计为一个MLP，它接受视频段的特征表示 f (ˆ x )，以及固定的位置编码 pos ( f (ˆ x))，并将其转换为紧凑的表示[52, 5, 49]。形式上，具有 L E层的编码器的输出如下所示，0j =1 U T ( E,j ) ( f (ˆ x )+ pos ( f (ˆ x )))(1)0其中，U ( E,j ) 是第 j层的权重矩阵。Transformer解码器。我们在框架中使用标准的Transformer[52]解码器。它以编码的视频表示 Z E 和M 个动作查询 q ∈ R v × M作为输入。Transformer解码器利用多个编码器-解码器和堆叠的多头注意力来建模视频剪辑中所有活动之间的长期时空关系[49,5]。通过这种方式，解码器以成对的方式学习所有相互依赖关系，并将动作查询 q 优化为一组 M 个动作预测 Z D ∈ Rv × M。因此，输出 Z D是视频剪辑中所有活动的视觉特征的集合，然后通过检测头部将其解码为各自的类别标签和时间坐标。为了确保 Z D对于零样本检测具有泛化能力，有必要在解码过程中融入语义嵌入的信息。这是通过下面描述的语义对齐头部完成的。检测头部。以下检测头部用于将 M个动作预测独立解码为它们的类别标签和时间坐标。01.语义对齐头部：该头部的主要目的是通过在训练阶段建立有效的视觉-语义映射，学习已见活动的视觉和语义特征之间的关系。如图2所示，这是通过首先使用将 Z D映射到语义空间的方法来实现的。0使用权重矩阵 U V S ∈ R v × d 的前馈网络获得 ZS，其中 Z S = U T V S Z D。同时，将 w Ø 与 W c s进行连接，得到背景同步的已见类别嵌入矩阵 W C =[W c s ; w Ø ] ∈ R d × ( C s +1)。因此，第 m个动作预测的分类得分如下所示，0p m, c (c | z S,m )= exp ( ˆ w T cˆ z S,m / τ cls )0c=1 exp ( ˆ w T c ˆ zS,m / τ cls )0其中，ˆ w c 和 ˆ z S,m 是第 c 个语义嵌入和第 m 个视觉特征的 l2归一化特征向量0分别映射视觉特征，C = C s + 1，τ cls是一个可学习的温度参数，用于缩放余弦相似度。所有C 类的概率质量函数为 p m = [ p m, 1 ,p m, 2 ,...,pm, C ]。与将 τ cls分配为固定值相比，我们观察到通过学习它可以获得更具有区分性的视觉-语义特征对齐。where, ˆtm and tσ(m) are the detected and matched ground-truth temporal coordinates respectively, Ltbox and LgtIoU arethe l1 and generalized temporal IoU losses of [49].Visual Consistency Loss.While the visual-semanticcontrastive loss brings consistency between the visual andsemantic concepts of each activity, it is also necessary toensure that the distribution of the visual features for eachactivity remains temporally coherent. This means that foreach activity, its visual features should remain consistentacross different temporal segments of the same video aswell as across different videos.We accomplish this byleveraging supervised contrastive learning [26] on theintermediate visual features ZD generated by the transformerdecoder. Therefore for each positive pair of detected features(zD,i,z+D,j) the consistency loss is as follows,l(zD,i,z+D,j)=−logexp(ˆzTi ˆz+jτcon )Mpi�k=1σ(k)̸=Øexp(ˆzTi ˆz+kτcon )+Mni�k=1σ(k)̸=Øexp(ˆzTi ˆz−kτcon )(5)where, a pair is considered positive if their matched ground-truth classes are the same i.e. yσ(i) = yσ(j), ˆzi is the l2normalized feature of zD,i, Mpi and Mni are the number ofpositive and negative pairs w.r.t. i, and τcon is a fixed temper-ature parameter as used in [26]. The total visual consistencyloss over all pairs is formulated as follows,Lcon =M�i=1,σ(i)̸=Ø1MpiMpi�j=1,σ(j)̸=Øl(zD,i,z+D,j)(6)Minimizing Lcon enforces the transformer to focus on thediscriminative aspects of each activity and ignore backgroundnuancesresultinginconsistentvisualfeaturesforeachactivityacross different videos. It must be noted that the backgroundvisual features are excluded from the computation of Lcon.This is because the number of predictions matched to theground truth classes is sparser than background predictions,and so using the background class features leads to an over-whelming influx of irrelevant information to Lcon, causingdistortion in the distribution of the visual feature space.Ltotal =Ldet+λcon·Lcon(7)Backbone0.10.20.30.40.5RC3D+SEC3D13.9612.6110.817.915.11RC3D+CONSEC3D14.1612.5410.938.025.29ZS RC3DC3D21.3416.9815.0111.129.15TranZAD-GC3D21.5920.6119.1416.3712.84TranZAD-WC3D22.2720.5819.4015.9312.36TranZAD-GI3D24.3322.5120.0417.6914.17TranZAD-WI3D23.3121.5419.4817.2113.84624803.5. 训练和推理0训练。在训练过程中，只有已知类别的视觉和语义信息在X cs和W c s中可用。对于X s中的每个xi，以滑动窗口的方式获取检测结果，其中每个时间段和W cs被前向传递到模型中，并计算上述损失。整个框架通过反向传播以下损失进行端到端训练。0其中，L det = L cls + L loc ，λ con为控制检测和视觉一致性之间权衡的超参数。0表1：在不同tIoU阈值下，Thumos'14的8个未知类别的零样本时间活动检测性能，以mAP（%）表示。每个backbone的最佳结果以粗体显示。0tIoU0视觉一致性损失。由于wØ会随着端到端学习的一部分而动态更新自身，它能够将视觉和语义信息结合起来，为ZSTAD建模更具普适性的背景嵌入。推理。在测试阶段，对于X cu中的每个视频，分别检测已知类别和未知类别的活动片段。在任何情况下，在计算分类得分之前，将w Ø与W c s或W cu连接起来，分别得到背景同步的已知类别和未知类别嵌入矩阵，表示为W C和WC'（图2）。使用预测的未知活动片段来评估TranZAD的零样本检测性能。04. 实验04.1. 实验设置0基线。我们将TranZAD的性能与Zhang等人的修改版RC3D[57]框架进行比较，该框架目前是唯一解决ZSTAD的工作。我们将此基线称为ZS-RC3D，并与[62]设计的两个额外基线RC3D-ConSE和RC3D-SE进行比较，它们分别将原始RC3D框架与[35]和[58]的ZSR方法相结合。数据集。我们在两个流行的活动检测数据集Thumos'14 [22]和Charades[47]上进行实验，这两个数据集也用于ZSTAD[62]。为了公平比较，类别和训练-测试划分与[62]的数据集相同。0•Thumos'14：该数据集对20个活动类别进行了时间注释，有200个验证视频和213个测试视频。根据[62]，选择12个活动作为已知类别，选择8个活动作为未知类别，其中200个未修剪的验证视频用于训练，213个测试视频用于测试。0•Charades：该数据集包含9848个由亚马逊机械拖车收集的157个日常室内活动视频。根据[62]，我们将120个活动视为已知类别，剩下的37个视为未知类别。Backbone Baseball Pitch Cricket Bowling Diving Hammer Throw Long Jump Shotput Soccer Penalty Tennis SwingR-C3D+SE [62]C3D2.233.093.139.2112.153.423.384.29R-C3D+ConSE [62]C3D2.213.073.239.5312.543.563.464.72ZS-RC3D [62]C3D4.344.875.0318.1220.787.066.036.93TranZAD-WC3D5.166.3514.2321.4927.5511.735.097.30TranZAD-GC3D5.088.5815.0321.2627.4112.895.147.33TranZAD-WI3D5.398.1015.9118.6032.6517.065.287.73TranZAD-GI3D6.447.7915.2618.2834.5917.545.647.8262490表2：Thumos'14每个未知类别的tIoU=0.5的平均精确度（%）。每个backbone的最佳结果以粗体显示。0表3：Charades的37个未见类的零样本检测性能，以[46]的mAP（%）为度量。最佳结果用粗体突出显示。0骨干网络mAP0RC3D+SE C3D 9.17 RC3D+CONSEC3D 9.84 ZSRC3D C3D 13.23TranZAD-G C3D 13.14 TranZAD-WC3D 13.05 TranZAD-G I3D 13.56TranZAD-W I3D 13.210未见类，训练集和测试集分别由7985个视频和1863个视频组成。0这些数据集及其类别划分的其他详细信息请参见补充材料。语义嵌入。我们尝试使用GloVE[38]和Word2Vec[18]嵌入，每个嵌入的维度大小为300。通过对描述该类别的所有单词的表示进行平均，获得每个活动类别的语义嵌入。与Thumos'14的简单活动标题（如“篮球扣篮”）不同，Charades的活动标题是动名词短语，例如“有人在吃饭”，因此我们按照[62]的方法，在获取最终嵌入之前，删除了每个标题中的一些介词和量词。GloVE模型称为TranZAD-G，Word2Vec模型称为TranZAD-W。实现。特征提取器可以是任何3D卷积骨干网络，我们使用C3D[50]和I3D[6]特征，在Sports-1M[23]和Kinetics[24]上进行预训练。滑动时间窗口在Thumos'14和Charades上分别设置为500和250帧。在这两个数据集上，训练时的重叠比例为0.75，测试时为0.5。在零样本设置中，训练数据不能包含任何来自未见类的实例。因此，按照[62]的原则，我们在训练视频中删除属于未见类的活动的任何时间窗口段。Thumos'14的视频特征的时间长度lT设置为100，Charades的设置为50。动作查询的数量M在Thumos'14上设置为32，在Charades上设置为8。在所有实验中，0图3：TranZAD在Thumos'14上的定性结果。0我们使用固定的正弦位置编码[52]。λa和λb按照[49]的方法设置为5和2，λcon设置为0.01。可学习的缩放参数τcls初始化为0.1，标量τcon对于所有实验都固定为0.05。使用AdamW[31]优化器进行100个epoch的训练，批量大小为64，学习率为10^-4。0在70个epoch之后，将其降低了10倍。其他实现细节请参见补充材料。04.2.比较结果0Thumos'14的结果：Thumos'14的结果如表1所示，以平均精度（mAP）在tIoU阈值[0.1,0.5]上报告。基线模型的性能直接来自于它们的论文[62]。使用C3D和I3D骨干网络，TranZAD优于ZS-RC3D和其他基线模型。特别是对于tIoU=0.5，TranZAD使用C3D特征的最佳结果在mAP上提高了3%以上，而使用I3D特征的TranZAD提高了5%以上。TranZAD-W和TranZAD-G的性能几乎相同，后者略微改进是由于GloVE嵌入比Word2VEC更好。表2显示了tIoU=0.5时每个未见类的平均性能（AP），可以观察到TranZAD在大多数未见类上优于ZS-RC3D。这表明我们基于transformers和自适应背景嵌入的无锚学习有助于克服像ZS-RC3D这样的两阶段检测器的挑战，从而获得更多真正的正检测。图3显示了一些定性结果的可视化。Charades的结果：对于Charades，按照常规做法，性能以Sigurdsson等人的mAP度量[46]进行计算，并以3报告。总体而言，TranZAD使用C3D和I3D特征实现了可比较的性能。平均而言，有大约79%的时间重叠。62500图4：TranZAD在Charades上的定性结果。0表4：我们的框架与ZS-RC3Dw/o超类分类损失的比较。两种方法的3D骨干是C3D。对于Thumos'14，指标是mAP@tIoU=0.5，对于Charades，指标是mAP [46]。0ZS-RC3D- L sc TranZAD-W0Thumos'14 8.25 12.360Charades 11.72 13.050与Thumos'14相比，Charades数据集中的活动之间的关联性更低，仅为8％，这使得Charades对于ZSTAD

下载后可阅读完整内容，剩余1页未读，立即下载