交互式原型学习改善自我中心动作识别

117 浏览量更新于2023-10-13 收藏 13.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Verb-to-Noun Selection BottlePanKnifePotatoBowlBagVerb: “Cut”BottlePanBowlKnifePotato81680自我中心动作识别的交互式原型学习0Xiaohan Wang 1,2 Linchao Zhu 3 Heng Wang 4 Yi Yang 101 CCAI，浙江大学 2 百度研究 3 ReLER，悉尼科技大学 4 FacebookAI研究0wxh1996111@gmail.com linchao.zhu@uts.edu.au hengwang00@gmail.com yangyics@zju.edu.cn0摘要0自我中心视频识别是一项具有挑战性的任务，需要识别演员的动作以及演员与之交互的主动对象。由于杂乱的背景中存在干扰物、频繁的视野变化、严重的遮挡等，识别主动对象尤其困难。为了改善主动对象分类，大多数现有方法使用对象检测器或人眼注视信息，这些方法计算成本高或需要耗费大量人力进行注释。为了避免这些额外成本，我们提出了一种端到端的交互式原型学习（IPL）框架，通过利用演员的运动线索来学习更好的主动对象表示。首先，我们引入一组动词原型，以将主动对象特征与干扰物特征区分开来。每个原型对应于自我中心动作的主要运动模式，为主动对象特征学习提供了独特的监督信号。其次，我们设计了两种交互操作，即名词到动词的分配和动词到名词的选择。这些操作具有参数效率，并且可以在3DCNN骨干网络之上学习明智的位置感知特征。我们证明了IPL框架可以推广到不同的骨干网络，并在三个大规模自我中心视频数据集（EPIC-KITCHENS-55、EPIC-KITCHENS-100和EGTEA）上优于现有技术水平。01. 引言0自我中心视频在社交媒体上变得流行，并在计算机视觉领域引起越来越多的关注，自从出现了EGTEA[21]、Charades-Ego [32]、EPIC-KITCHENS[6,5,7]等数据集以来。与第三人称视频不同，第一人称视频中的动作通常发生在较近的距离，专注于人与物体的互动。理解自我中心视频需要识别演员的动作以及演员与之交互的物体。最近的自我中心视频研究0什么是主动对象？0与运动相关的区域0干扰物0主动对象：“土豆”0瓶子0土豆0碗0袋子0图1.交互式原型学习（IPL）框架的动机。由于主动对象周围可能有大量干扰物，名词分类非常困难。我们的框架旨在协同学习用于更准确的名词（主动对象）分类的明智的运动相关时空特征。0三维视频数据集[5,7]通常通过将动作分解为动词和名词的组合来构建，其中可以通过对相关动词和名词进行分类来实现动作识别。例如，“切土豆”被分解为动词“切”和名词“土豆”。这种形式有助于区分动作之间的微妙语义差异。自我中心视频专注于领域特定的细粒度动作，而现有的第三人称数据集[18]更通用，收集自各个领域，如体育和日常活动。在自我中心视频中，不同动作之间的背景场景通常相似。例如，“切胡萝卜”和“削土豆”都可以发生在同一个厨房场景中。因此，在自我中心视频中，场景上下文信息的有用性有限，使得识别任务更具挑战性。除了上述挑战之外，名词分类尤其困难，因为动作中涉及的主动对象[9,11]可能被大量干扰物所包围，例如图1中的碗和锅围绕着主动对象“土豆”。的确，名词81690自我中心视频数据集[6,40]中的名词类别往往比动词类别具有更低的准确性，并且是整个动作识别系统的瓶颈。以前的方法要么使用现成的目标检测器[40,42]，要么使用数据集提供的人眼注视[21]作为改进名词识别的额外线索。然而，在高分辨率视频帧上运行目标检测器计算成本高，而且人工注释并不总是可用的。在本文中，我们提出通过利用演员动作学到的信息来改进自我中心视频中的主动对象识别。主动对象通常位于演员执行动作的区域。此外，演员的动作承载着演员的意图，并且通常是自我中心视频中的主要信号，可以作为改进主动对象识别的可靠监督。我们设计了一个端到端的IPL（I nteractive P rototype Learning）框架，用于联合动词和名词分类（图1）。IPL使用动词标签的监督来学习动词原型，每个动词原型编码一个动词类的运动模式。学到的动词原型用于通过将主动对象特征与干扰对象特征分离来指导名词分类。这通过两个交互操作实现，即名词-动词分配和动词-名词选择。这两个操作共同提取具有位置感知的时空特征，用于名词分类。名词-动词分配旨在根据它们与动词原型的相似性聚合特征。在动词-名词选择中，我们选择与动作相关性最高的特征进行名词分类。IPL的一些组件与NetVLAD[1]具有相同的精神，但也有一些关键差异。首先，我们的原型是通过动词注释的直接监督来学习的。每个原型对应于每个动词类，而NetVLAD聚类的语义含义不清楚。其次，我们的原型在多任务设置中由动词和名词分类共享，其中更难的任务（即名词分类）可以从动词分类中学到的信息中受益。第三，我们提出了一种动词-名词选择机制，以从主动对象中识别出有区别的特征。通过大量实验证明和详细的消融研究，我们证明了IPL在三个大规模自我中心视频数据集上优于现有技术，并且能够推广到不同的视频主干[3,38]。总结起来，我们做出了以下主要贡献：0•提出利用从识别演员动作中学到的信息来改进主动对象分类，这是目前自我中心视频识别的瓶颈。0•设计了IPL框架，通过共享相同的特征原型集合，允许更好地在动词和名词分类任务之间传递信息。0• IPL在三个自我中心数据集EPIC-KITCHENS-100[7]，EPIC-KITCHENS-55 [6]和EGTEA[21]上展现出卓越的结果，而无需额外的目标检测和人眼注视注释的成本。02. 相关工作0视频架构。早期的视频分类架构[33, 8,39]通常基于从图像领域采用的2D卷积。2D卷积仍然广泛用于高效的视频识别，例如TRN [46]，TSM [24]，ECO[47]等。另一方面，由于其时空建模能力，3D卷积[37]变得越来越受欢迎。I3D [3]使用在ImageNet[20]上预训练的2D CNN的膨胀权重初始化3D CNNs。S3D[44]，R(2+1)D [38]和P3D[28]提出将3D卷积分解为2D空间卷积和1D时间卷积。SlowFast[10]是另一个最近的视频架构示例。这些流行的视频主干是为一般的视频分类任务设计的，并没有考虑到自我中心视频的挑战。虽然IPL是基于现有的视频主干构建的，但我们专注于设计一个可以提高自我中心视频中主动对象识别准确性的框架。0自我中心视频中的动作识别。许多现有方法利用目标检测来改进自我中心视频识别[40, 41, 42, 30, 26]，其中[42,30]还结合了时间上下文来帮助理解正在进行的动作。这些方法需要耗时的目标检测注释，并且计算成本高，这可能限制了它们在实际系统中的应用。相比之下，我们的框架仅使用现有的动作标签作为监督，并且不依赖昂贵的目标检测器。最近，Shan等人[31]开发了一个手-物体检测器来定位主动物体。当检测器训练良好时，可以直接部署在目标数据集上而无需微调。然而，将检测器运行在高分辨率帧上仍然比我们的方法更昂贵。Sudhakara等人[35]提出了一个两阶段的长短期注意力RNN模型来跟踪有区别的区域并定位主动物体。Li等人[21]和Liu等人[25]利用凝视注释来引导深度模型关注交互区域并选择信息丰富的特征。TBN[19]融合多模态信息（如光流和音频）以改进自我中心动作识别。与这些方法相比，IPL利用运动线索。with the highest classiﬁcation score from the verb branch.The selected K features are then aggregated to obtain theﬁnal representation for noun classiﬁcation.3.2. Verb ClassiﬁcationVerb Prototype.In egocentric videos, motion is the dom-inant information for action recognition and indicates theintention of the actor and which object the actor wants tointeract with [6, 7]. This motivates us to leverage the ac-tor motion information to improve active object recognition,which is an arguably harder task. Speciﬁcally, we proposeto learn a prototype for each verb class. We denote the verbprototypes as P = {p1, p2, ..., pM}, where P ∈ RM×C.These verb prototypes are intermediate representations tofacilitate interaction between the verb and noun classiﬁca-tion. They are anchors for grouping spatio-temporal fea-tures based on their similarities.Cosine Classiﬁer.Inspired by recent works [4, 13], Wedesign a simple and effective classiﬁer: Nearest-Neighbors(NN) on top of ℓ2-normalized features, and named as cosineclassiﬁer. Given the spatio-temporal feature map φθ(X),the verb feature is generated with global average pooling(GAP):v = GAP(φθ(X)),(1)where v ∈ R1×C. After that, we calculate the cosine simi-larity between the verb feature and each verb prototype. Theverb classiﬁcation probability qi for the i-th class is gener-ated using a softmax activation function. Formally,qi =exp(¯v ¯piT/τ)�Mj=1 exp(¯v ¯pjT/τ),(2)where ¯v =v∥v∥ and ¯pi =pi∥pi∥ are the l2-normalized vec-tors. Here we use a temperature τ to re-scale the similari-ties following [13, 4]. The temperature τ can help trainingsimilarity-based classiﬁer and reduce intra-class variations[4], which is beneﬁcial for learning discriminative videorepresentations.3.3. Noun Classiﬁcation3.3.1Feature Assignment and GroupingIn egocentric videos, the motion from the actor gives strongindications about what object the actor interacts with. Thisinspires us to leverage the motion features to identify thefeatures from the active objects and suppress the featuresfrom distracting objects. We design new operators that candecompose and regroup object features based on their rel-evance to the actor motion and learn more discriminativefeatures for active object classiﬁcation.81700从动词分类中学习以选择具有区分性的特征进行主动物体识别。0特征聚合。我们的方法还与特征聚合方法（如VLAD[17]和Fisher Vectors [29]）相关。NetVLAD[1]将VLAD转换为可微分层以进行端到端训练。这些特征聚合方法已应用于视频识别并取得了良好的结果[45, 14,27]。除了特征聚合，IPL还设计了在动词和名词分类之间共享的原型，并且原型是通过动词标签的直接监督进行训练的。这使得我们的原型能够编码每个动词类别的运动特征，并提供信息来选择具有区分性的特征以改进名词分类。03. 交互式原型学习03.1. 概述0给定一个输入视频剪辑X，目标是将其分类为M个动词类别和N个名词类别。可以通过动词和名词的预测结果推断出底层动作。如图2所示，我们首先从3DCNN主干φθ的最后一个卷积层中提取时空特征图φθ(X)∈RT×H×W×C，其中θ是CNN的参数，T是时间长度，C是通道数，H×W是空间分辨率。IPL的核心思想是利用动词特征来引导动作中心物体特征的学习。具体而言，我们引入M个动词原型P={p1,p2,...,pM}∈RM×C，其中每个原型对应一个动词类别，表示演员的一种运动类型。所有M个原型在动词和名词分支之间共享，以实现交互学习。在动词分支中，我们通过对φθ(X)应用全局平均池化来获得C维动词特征向量（第3.2节）。与完全连接层实现的传统线性分类器不同，我们使用简单的最近邻分类器和余弦相似度[13]来计算动词特征与M个动词原型之间的相似度。这种简单的策略使我们能够直接从动词的真值中获得强监督，以学习更语义化的动词原型。在名词分类中，我们设计了两个交互操作符，从φθ(X)中提取具有位置感知的特征来进行名词分类。在名词-动词分配操作符（第3.3.1节）中，我们将φθ(X)分解为THWC维特征，并将每个特征分配给M个动词原型和一个额外的背景原型以捕捉无关的背景信息。这将THW特征转换为M+1个特征组。在动词-名词选择操作符（第3.3.2节）中，我们选择与前K个动词类别对应的K个特征组。HWT3D CNN…Global Average PoolingCosineSimilarityVerb Predictions Verb Feature Verb PrototypeBG Center Select K Groupsand FusionAssignment and GroupingInput Video ClipSpatio-temporal Feature MapTxHxWxCMxC1xC1xCTop-K ClassIndicesNoun Predictions 1xM1xN√√M Noun Feature Groups 𝑏𝑝!𝑝"𝑔!#$%#𝑔"#$%#Figure 2. Our Interactive Prototype Learning (IPL) framework. The feature map of size T × H × W × C is extracted from the lastconvolutional layer of the 3D CNN backbone. To facilitate the interaction between the verb branch and the noun branch, we introduce a setof verb prototypes shared across the two branches. A background prototype is introduced to ﬁlter the action-irrelevant information fromthe spatio-temporal feature map. Each prototype is a C-dimensional vector and is randomly initialized during training. Verb predictionis obtained by computing the cosine similarity between the average pooled verb feature and the verb prototypes. For noun prediction, thefeature map is decomposed and grouped by soft-assigning each feature to the prototypes. We select the most relevant K groups based onverb predictions to generate the ﬁnal noun representation. The 3D CNN backbone and IPL are jointly trained in an end-to-end manner.B81710特征分配。我们建议将THWC维特征分配给学习到的原型。除了上述的M个动词原型之外，我们还引入了一个背景原型b∈R1×C，用于捕捉与M个动作模式中的任何一个不匹配的所有不相关特征。总共我们有M + 1个原型，记为P' ={p1，p2，...，pM，b}，其中P'∈R(M +1)×C，每个cj∈R1×C，j = 1 ... M +1。通过将THW特征分配给M +1个原型，我们可以将活动对象的特征与干扰对象的特征分离开，并选择相关的特征进行名词分类。我们使用特征向量和学习到的原型之间的简单点积运算来衡量它们的相似性。对点积应用softmax函数以实现特征对M +1个原型的软分配。为了方便起见，我们将时空特征图φθ(X)∈RT×H×W×C重塑为2D张量Z∈RB×C，其中B =T×H×W。对于来自Z的特征向量zi，分配给原型cj的定义如下：0ai，j =0� M + 1 k = 1 exp (zi cTk)，(3)0其中ai，j是软分配矩阵A'∈RB×(M +1)中的一个元素。我们舍弃属于背景原型b的分配，因为它们被认为与活动对象识别无关。我们最终得到一个新的分配矩阵A∈RB×M。虽然分配0在从A中删除背景原型b的情况下，将所有M +1个原型耦合在Eq.3的分母中。因此，背景原型b的学习方式与pi相同，通过反向传播进行学习。0特征分组。我们将所有分配给每个原型的特征聚合起来，得到M个特征组。聚合操作可以通过矩阵乘法来执行，如下所示：0G = ATZ，(4)0其中G∈RM×C表示M个原型上的特征组。gi∈RC是G的第i行，表示属于原型pi的聚合特征。gi包含来自动作者运动和活动对象的所有信息。为了获得活动对象的特征，我们计算聚合特征gi与动词原型之间的残差：0g名词i = gi -0k = 1 ak，ip i，(5)0其中ak，i是A∈RB×M中的一个元素。对pi进行归一化是为了校准，使其与gi处于相同的尺度上。gnouni是相对于原型pi的最终名词特征。817203.3.2组选择和名词分类0在特征分配和分组之后，我们获得了一组与M个动词原型对应的特征Gnoun ={gnoun1，gnoun2，...，gnounM}。给定一个修剪的视频剪辑，我们希望识别与演员运动最相关的特征，并抑制可能来自无关背景或干扰对象的特征。0为此，我们建议根据它们的动词分类得分从{g名词1，g名词2，...，g名词M}中简单地选择前K个特征。我们按降序对M个动词预测进行排序。我们将得分最高的前K个类别的索引表示为{i1，i2，...，iK}。然后，选择的前K个特征是{g名词i1，g名词i2，...，g名词iK}。0我们对每个选择的特征应用l2归一化，并将它们连接起来生成特征n'∈RK×C。然后，我们使用由w参数化的层fw来增强特征n'，同时将其维度从K×C减小到C。我们得到最终的名词表示n =fw(n')，可以直接用于分类。与动词分类类似，我们仅使用余弦分类器进行名词分类以减少类内变化。在我们的实现中，我们使用带有批归一化[16]的一维卷积层作为fw的实例化，然后是ReLU激活函数。请注意，fw引入的额外参数数量可以忽略不计。0与NetVLAD的关系。IPL的实现与NetVLAD层[1, 14,27]具有相似的组件，如果我们将动词原型视为NetVLAD聚类。与我们的动词原型不同，NetVLAD中的聚类没有通过直接监督进行训练。NetVLAD聚类的语义含义不清楚，因为它们只是在特征空间中用于聚类的锚点。相比之下，我们的动词原型是通过动词分类损失直接优化的。每个动词原型可以被视为捕捉动词类的运动特征的表示。由于这种设计，我们学到的原型可以直接用于动词分类，只需使用简单的最近邻分类器。请注意，动词原型还用于为名词分类分配特征，并在自我中心视频识别中起到桥接两个任务（即动词和名词分类）的作用。来自名词分类的额外监督进一步增强了学到的原型的语义含义。我们只选择前K个聚类中的聚合特征，而不是将所有聚类中的特征进行连接，因为我们的目标是将来自活动对象的特征与来自干扰对象的特征分离开。03.4. 训练和推理0在训练过程中，我们使用交叉熵损失进行分类。整体训练目标是最小化动词分类损失和名词分类损失的总和。3DCNN骨干网络和交互式原型网络以端到端的方式进行联合优化。在推理过程中，给定一个输入视频片段，该框架同时生成动词和名词的预测。动作预测是通过组合动词和名词预测生成的。04. 实验04.1. 数据集0EPIC-KITCHENS-55[6]是一个大规模的第一人称视频数据集。它包含了55小时的厨房日常活动录像。数据集中包含39,594个动作片段，标注了125个动词类别和321个名词类别。我们按照[2]的方法将原始训练集划分为新的训练集和验证集，并报告验证集上的top-1准确率。EPIC-KITCHENS-100[7]是最近推出的数据集。与EPIC-KITCHENS-55[6]相比，它的标注更密集、更准确。它包含了100小时的视频，包含了89,979个细粒度动作片段，涵盖了97个动词类别和300个名词类别。我们按照原始论文[7]的协议报告top-1准确率。EGTEA[21]是一个大规模的自我中心视频数据集，包含了10321个视频片段，标注了19个动词类别、51个名词类别和106个动作类别。我们报告三个训练/验证划分上的平均类别准确率。04.2. 实现细节0我们使用提出的交互式原型学习框架训练了两个骨干网络，即I3D [3]和R(2+1)D-34[38]。对于I3D，我们使用64个RGB帧或光流作为输入训练空间和时间流。骨干网络使用Kinetics[3]预训练权重进行初始化。使用SGD进行30个epoch的IPL训练，动量为0.9，权重衰减为0.0005。学习率初始化为0.006，然后在最后10个epoch中按10的倍数进行降低。批量大小设置为32。在训练过程中，输入视频片段的空间尺寸为224×224。采用随机缩放、随机裁剪和水平翻转进行数据增强。在推理过程中，我们将帧调整为256×256，并将其输入模型而不进行裁剪。我们将10个均匀采样的片段的预测结果进行平均，作为最终的视频级预测结果。对于R(2+1)D-34[38]，我们使用IG-Kinetics[12]预训练权重初始化RGB流。学习率设置为0.0004，每9个epoch按10的倍数进行降低。使用SGD进行20个epoch的模型训练，动量为0.9，权重衰减为0.0005。使用32帧进行训练。81730方法0整体未见参与者尾部类别0Top-1准确率 Top-1准确率 Top-1准确率0动词名词动作动词名词动作动词名词动作0Chance [7] 10.68 1.79 0.55 9.37 1.90 0.59 0.97 0.39 0.12 TSN [39] 59.03 46.78 33.57 53.11 42.02 27.3726.23 14.73 11.43 TRN [46] 63.28 46.16 35.28 57.54 41.36 29.68 28.17 13.98 12.18 TBN [19] 62.7247.59 35.48 56.69 43.65 29.27 30.97 19.52 14.10 SlowFast [10] 63.79 48.55 36.81 57.66 42.55 29.2729.65 17.11 13.45 TSM [24] 65.32 47.80 37.39 59.68 42.51 30.61 30.03 16.96 13.450IPL I3D 65.66 49.74 38.43 59.12 45.26 32.17 32.17 20.34 15.51 IPL R(2+1)D-34 65.74 50.45 39.1761.22 46.01 33.70 33.02 18.97 15.220表1. 在EPIC-KITCHENS-100测试集上与最先进方法的比较。0方法 Act@1 Verb@1 Noun@10Chance [7] 0.51 10.42 1.70 TSN [39] 33.1960.18 46.03 TRN [46] 35.34 65.88 45.43 TBN[19] 36.72 66.00 47.23 SlowFast [10] 38.5465.56 50.02 TSM [24] 38.27 67.86 49.010I3D† [3] 37.58 66.84 48.48 IPL I3D 39.87 67.82 50.87(+2.39)0R(2+1)D-34† [12] 37.62 67.28 47.55 IPL R(2+1)D-3440.98 68.61 51.24 (+3.69)0表2.在EPIC-KITCHENS-100验证集上与基线和最先进方法的比较。“†”表示我们实现了两个独立的名词和动词分类器。0在训练期间，输入的空间尺寸为112×112，在测试期间为128×128。我们使用与I3D相同的数据增强和多裁剪测试策略。在动词到名词选择模块中，我们在所有数据集上将K设置为5。04.3. 与最先进方法的比较04.3.1 EPIC-KITCHENS-100结果0我们将我们的交互式原型学习框架与最先进方法在最大的自我中心视频数据集EPIC-KITCHENS-100[7]上进行比较。TSN [39]，TRN [46]和TSM [24]基于2DCNN。这三个模型都采用了双流方法，使用RGB和光流。除了RGB和光流流之外，TBN[19]还将音频作为另一种模态。SlowFast[10]使用两个具有不同分辨率和帧率的RGB流。我们使用两个流行的骨干网络I3D [3]和R(2+1)D-34[38]来实验IPL框架。如前所述，我们对I3D使用两个流（即RGB和光流），对R(2+1)D-34使用单个流（即RGB）。为了评估骨干网络本身的性能，我们训练了两个0通过FC层实现对动词和名词分类的分离分类器。如表2所示，IPL框架能够显著提升I3D和R(2+1)D的骨干网络性能。IPL将名词分类的整体top-1准确率分别提高了2.39%和3.69%，对应于I3D和R(2+1)D-34。性能的提升主要来自名词到动词的分组和动词到名词的选择操作。通过引入与动词原型的交互，可以选择与动作最相关的特征进行名词分类。动词识别准确率也略有提高，因为动词原型也可以从交互学习方案中受益。如预期的那样，对名词识别的显著改进也导致了动作识别的更高准确性，即I3D提高了2.29%（从37.58%到39.87%），R(2+1)D-34提高了3.36%（从37.62%到40.98%）。我们在整体top-1准确率上超越了其他最先进的方法（例如TSN [39]，TRN [46]，TSM [24]和SlowFast[10]）。例如，我们的IPLR(2+1)D-34在整体top-1动作准确率上超过了TSM2.71%。我们通过将结果提交到竞赛服务器上的测试集上评估了IPL，如表1所示。我们的IPLR(2+1)D-34在名词分类和动作分类以及整体类别和未见参与者分割上超过了所有最先进的方法。具体而言，与TSM相比，IPL R(2+1)D-34在整体名词分类上提高了2.65%。IPLI3D在尾部类别上的结果稍好，这可能是因为两个流输入可以更好地改善少样本类别。04.3.2 在EPIC-KITCHENS-55上的结果0与最先进方法的比较。我们在EPIC-KITCHENS-55验证集上与最先进的3DCNN进行比较，结果见表3。使用I3D主干网络，IPL框架在名词分类方面提高了1.9%。值得注意的是，使用R(2+1)D-34主干网络，IPL在名词分类方面超过基准4.4%。这些结果清楚地表明IPL在R50-NL [42]19.049.826.1R(2+1)D-34† [12]22.556.632.7SlowFast [43]21.955.827.4I3D [3]23.559.631.3IPL I3D24.559.833.2 (+1.9)R(2+1)D-34 [12]23.660.531.1IPL R(2+1)D-3425.460.735.5 (+4.4)LFB Max [42]✓22.852.631.86664SAP [40]✓25.055.935.02871IPL R(2+1)D-3425.460.735.5153I3D†56.7854.9253.9455.21IPL I3D60.1559.0357.9859.0581740方法行为@1 动词@1 名词@10表3. 在EPIC-KITCHENS-55验证集上比较3D CNN主干网络。†表示[ 12]使用两个R(2+1)D-34主干网络，一个用于动词分类，另一个用于名词分类。我们的“IPLR(2+1)D-34”和“R(2+1)D-34”使用共享主干网络进行两个任务。0方法对象行为@1 动词@1 名词@1 GFLOPs0表4.使用对象检测注释与最先进方法在EPIC-KITCHENS-55验证集上进行比较。0EPIC-KITCHENS-55。在名词分类方面取得明显的增益后，动作分类准确率也在两种主干网络上得到了提高。例如，当我们将IPLR(2+1)D-34与其基准进行比较时，准确率提高了1.6%。0与使用对象检测注释的方法进行比较。由于EPIC-KITCHENS-55数据集提供了对象检测注释，一些工作[ 42 , 40]利用这些注释来改善主观视角视频分类。尽管对象注释可以提高名词分类，但它们的成本也很高，而且并不总是可用的。此外，SAP [ 41 ]和LFB [ 42]在高分辨率帧上运行重量级检测器（ResNeXt-101-FPN），这导致计算成本更高。在我们的论文中，我们不使用任何额外的注释，只使用单个CNN主干网络进行名词和动词分类。如表4所示，我们获得了比SAP [ 40 ]和LFB Max [ 42]更高的结果，并且FLOPs更低。这证明了IPL的有效性和效率。04.3.3 在EGTEA上的结果0EGTEA [ 21]提供了注视和手部遮罩注释，这些注释已被最先进的方法用于提供关于时空注意力的强监督。EgoIDT+Gaze [ 23]和I3D+Gaze [ 21]利用注视点来定位和选择判别特征。I3D (联合) [ 3]联合优化了两个流的I3D网络。I3D+EgoConv [ 34]对头部运动和手部遮罩进行编码，并将此信息注入到两流I3D模型中。Prob-ATT [ 22]也使用注视监督来实现高识别结果。EGTEA上的大多数现有方法0方法平均类别准确率0Split1 Split2 Split3 平均0EgoIDT+Gaze [ 23 ] 42.55 37.30 37.60 39.13 I3D (联合) [ 3] 55.76 53.14 53.55 54.15 I3D+Gaze [ 21 ] 53.74 50.3049.63 51.22 I3D+EgoConv [ 34 ] 54.19 51.45 49.41 51.68Ego-RNN-2S [ 36 ] 52.40 50.09 49.11 50.53 LSTA-2S [ 35 ]53.00 - - - Mutual Context-2S [ 15 ] 55.70 - - - Prob-ATT [22 ] 56.50 53.52 53.58 54.53 Prob-ATT+Gaze [ 22 ] 57.2053.75 54.13 55.030表5.在EGTEA数据集上与最先进方法的比较。†表示我们使用两个独立分类器的实现。0像I3D (联合) [ 22 ]和Prob-ATT [ 22]只使用一个使用动作标签训练的动作分类器。相反，我们的方法使用两个独立的分类器进行动词和名词分类。我们使用动词和名词标签训练模型。为了公平比较，我们还使用两个独立的分类器实现了I3D基准。与I3D(联合)相比，我们使用动词和名词标签，结果稍微更好。如表5所示，IPLI3D在所有三个划分上都大幅超过了我们强大的基准和最先进方法，即使我们没有使用注视和手部遮罩注释。04.4.消融研究0与NetVLAD相比，在IPL中，动词原型被用作锚点，用于为名词分类分配特征，并且根据动词预测选择名词特征。为了研究这种交互式学习方案的有效性，我们实现了一个基线模型，该模型使用NetVLAD[1]模块进行名词分类，并且舍弃了动词和名词分类之间的交互。如表6所示，我们的IPLR(2+1)D在动词和名词分类上都取得了比“R(2+1)D +NetVLAD”模型更高的结果，并且将动作top-1准确率提高了2.18%。这表明我们的交互式学习方案不仅可以为名词分类生成更具区分性的表示，还可以增强动词原型以提高动词分类。0动词到名词选择为了将主动物体特征与干扰物体特征分离开来，我们提出根据动词预测选择前K个特征。为了证明这种设计的有效性，我们实现了一个模型，该模型利用所有特征组进行名词分类。如表6所示，“IPLR(2+1)D无选择”模型的名词top-1准确率为49.68%，比IPL R(2+1)D低1.56%。此外，没有了81750预测：打开冰箱真实值：打开冰箱预测：洗刀子真实值：洗刀子0预测：拿盘子真实值：拿盘子0预测：挤抽屉真实值：剥鱼0图3. IPLR(2+1)D模型的分配可视化。我们展示了在时空特征图上每个特征向量的前K个动词原型的分配总和。对于每个输入剪辑，我们均匀采样了四个帧。较高的分配值显示为红色。我们还在帧上方打印了预测和真实值（绿色表示正确预测，红色表示失败案例）。060壶0760倒油-倒油-0咖啡-盖子0洗勺子打开水龙头0洗锅洗勺子0打开煤气打开水龙头0放下刀子0拾起刀子拾起勺子0舀咖啡0打开咖啡打开盖子0削皮胡萝卜0切胡萝卜0放下面食0倒油0倒米倒油0基线0IPL0拾起餐具0拾起垃圾桶拾起盖子0图4. IPL R(2+1)D模型和基线模型的定性结果。0方法 Act@1 动词@1 名词@10R(2+1)D基线 37.62 67.28 47.55 R(2+1)D + NetVLAD 38.8067.39 49.38 IPL R(2+

下载后可阅读完整内容，剩余1页未读，立即下载