零拍动作识别:语义和记忆的新方法

103 浏览量更新于2023-10-15 收藏 930KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

13638零拍动作识别的精细演练ShizheChen*Inria，法国shizhe. inria.fr东煌美国卡内基梅隆大学donghuang@cmu.edu摘要越来越多的动作类对视频理解提出了新的挑战，使零镜头动作识别（ZSAR）成为一个蓬勃发展的方向。ZSAR任务旨在通过利用语义表示来桥接可见和不可见的动作，在没有训练示例的情况下识别目标（不可见）动作然而，由于动作的复杂性和多样性，从语义上表示动作类并从所看到的数据传递知识仍然具有挑战性。在这项工作中，我们提出了一个ER增强ZSAR模型的灵感来自一个有效的人类记忆技术精心排练（ER），其中涉及阐述一个新的概念，并将其与已知的概念。具体来说，我们将每个操作类扩展为Elab-orative Description（ED）语句，这比类名更具区分性，并且比手动定义的属性成本更低。除了直接对齐类语义与视频，我们将对象从视频的精心构思（EC），以提高视频语义和泛化从看到的行动看不见的行动。我们的ER增强的ZSAR模型在三个现有的基准上实现了最先进的结果。此外，我们提出了一个新的ZSAR评估协议的动力学数据集，以克服目前的基准测试的局限性，并首先比较与少数拍摄学习基线在这个更现实的设置。我们的代码和收集的 ED 在https://github.com/DeLightCMU/ElaborativeRehearsal 上发布。1. 介绍监督视频动作识别（AR）近年来取得了很大进展，受益于3D卷积神经网络[10，11，42]和大规模视频数据集[6，16]等新模型。这些监督模型需要每个动作类的大量训练数据然而，随着智能手机、监控摄像机和无人机上的视频应用的爆炸性增长，期望的动作类别不断这是禁止的*这是陈世哲在卡内基梅隆大学时完成的工作。图1：属性和词嵌入不足以语义地表示动作类。我们的精心排练方法通过精心描述（ED）来定义动作，并将视频与精心概念（EC，已知概念）相从视频中检测），这改进了ZSAR的视频语义和通用化视频动作关联。（用于视频，△用于可见动作，◦用于不可见动作，□用于EC）为每个动作类收集注释视频以满足现有监督模型的训练需求是昂贵的。为了减轻这种负担，零短动作识别（ZSAR）[50]已经成为一个蓬勃发展的研究方向，其目的是将AR模型推广到看不见的动作，而不使用任何标记的训练数据。ZSAR的常见方法是将视频和动作类嵌入到联合语义空间中[12，49]，以便视频和可见动作之间的关联可以转移到不可见动作。然而，由于动作的复杂性和多样性，如何在语义上表示上述关联的动作类是一个具有如图1（a）所示，早期的作品采用手动定义的属性[29]来表示动作。尽管这是一种自然的方法，但定义一套完整的原子属性来概括任意的动作是困难和昂贵的。为了克服属性定义中的困难，最近的作品采用动作名称的词嵌入[50，4]作为类语义表示。虽然简单有效，但词嵌入可能是模糊的。词语在不同的语境中有不同的含义，有些行为甚至可能13639根据它们的名称，如图1（b）中的“dumpster diving”动作，从字面上解释除了动作的类语义表示之外，在现有的ZSAR作品中，关于如何学习强大且可概括的视频语义表示的探索还不够。直到最近，深度特征[19，41]才被用于超越传统的手工特征，例如改进的密集轨迹描述符的Fisher向量[43，50]。一种工作[15，21]利用由深度图像网络识别的对象作为视频描述符，其假设图像域中的对象识别是更高级动作识别的先验知识。预测的对象自然地嵌入在语义空间中然而，视频不仅仅是对象的集合，而是包含对象之间的特定关系。因此，仅仅使用对象语义来表示视频内容相反，另一个方向的工作[4]直接在ZSAR中采用虽然强大到足以捕捉视频中的时空信息，但它们容易在看到的动作类上过拟合，并且难以转移到看不见的动作类。在这项工作中，我们从一种成熟的人类记忆技术中获得灵感当我们学习一个新的项目，如以类似的方式，我们提出了一个ER增强模型来概括AR模型的新动作。我们的方法在联合语义空间学习的常见范式下在三个主要方面推进ZSAR[12，49]：（1）对于动作的类语义表示，我们从类名构建精细描述（ED）以全面定义动作类，如图1（c）所示，并利用来自预训练语言模型的先验知识嵌入ED。（2）在视频语义表示方面，提出了两种编码网络流，将时空动态信息和对象信息联合嵌入到视频中。我们使用预先训练的图像对象分类模型[24]来生成对象的阐述概念（EC）。由于在可见类和不可见类中很可能涉及一些公共对象，因此在视频语义中引入EC提高了对不可见类的泛化。（3）为了进一步提高视频语义表示的泛化能力，我们提出了一个ER对象来增强模型，使其能够利用来自EC的附加语义知识来排练视频内容EC的嵌入与动作类的ED具有相同的嵌入功能，这也隐含地使我们的ZSAR模型更适用于不同的类语义表示。我们ER增强的ZSAR模型在广泛使用的基准上实现了最先进的性能，包括奥林匹克运动[32]，HMDB51 [25]和UCF101 [39]数据集。此外，现有的ZSAR基准相对较小，并且包含与用于特征训练的视频数据集重叠的类。为了在更现实的场景中对ZSAR进展进行基准测试，我们进一步提出了一种基于大规模监督动作数据集Kinetics的新ZSAR评估协议在我们的Kinetics ZSAR基准测试中，我们展示了第一种情况，其中ZSAR性能与可见和不可见动作类的清晰分割下的简单但强大的少量学习基线相当。2. 相关工作监督动作识别。深度学习的快速发展[18]有力地推动了AR研究。早期的深度模型[23，38，44]在时域中采用2D卷积为了更有效地编码视频中的时间动态，3DCNN[41] 但是计算和参数繁重，这需要大规模数据集来训练。因此，已经出现了不同的方法来改进3D CNN。Car- reira等。[6]提出了I3D网络，将2D CNN膨胀到3DCNN来学习时空特征。Tran等人[42] 和Qiuet al.[36]将3D卷积分解为2D空间卷积和1D时间卷积。Wang等人[46]将非局部块插入到3D CNN中以捕获长程依赖性。Feichtenhofer等[11]介绍了具有以不同帧速率操作的两条路径的慢快网络，并在[10]中进一步探索了2D CNN沿空间、时间、宽度和深度的Lin等[28]提出了时间移位模块（TSM），以2D计算成本和参数实现时间建模。尽管性能很强，但这些监督模型在没有训练示例的情况下无法在这项工作中，我们推广AR模型来识别看不见的动作。零射击学习。大多数ZSL作品[1，2，12，47，48，53]专注于图像域以识别看不见的物体。在[48]中可以找到一个全面的调查在这里，我们主要回顾联合语义空间的方法。ALE [1]、DE-VISE [12]和SJE [2]使用双线性兼容性函数将视觉和类别表示与不同的训练目标相关联。ESZSL [37]提出了一种具有线性投影闭合形式解的目标函数DEM [53]提出使用视觉空间作为嵌入空间来解决ZSL中的枢纽问题。与上述方法不同的是，Wanget al. [47]基于类的知识图预测分类权重。除了使用不同的特征外，图像域的ZSL方法可以用于零拍动作识别。零射击动作识别。由于我们工作的主要重点是学习更好的视频和动作语义表示13640n=1D∈ DTT{···}类名详细描述（ED）ED源维基百科+Action类挺举挺举：一种两个动作的举重运动，其中一个重量是在最初的举到肩的高度后举过头顶。字典+修改对象概念刨花板刨花板：一种由木片压制而成的廉价硬材料用合成树脂WordNet表1：动作类和对象概念的详细描述（ED）的示例sentations的ZSAR，我们组现有的作品根据类型的语义表示的行动。第一种类型采用手动定义的属性[29，52]来表示动作。Gan等人[14]通过多源域泛化改进属性检测。然而，行动的贡献与图像的对应物相比更难定义。第二种类型则利用对象作为属性。Jain等人[21]检测视频中的对象并将视频与具有最大对象相似性的动作类别相关联。Gan等人[13]建议选择有区别的概念。Gao等人[15]利用图形网络来学习动作-对象关系，然后将视频中的对象与动作原型相匹配。虽然有效，但上述工作忽略了视频和动作中的时空关系第三种方法使用动作名称的词嵌入[4，30，35，50]作为语义表示。Qin等人[35]通过类别级嵌入和固有数据结构两者导出用于动作的纠错输出代码。最近的工作[4]认为端到端训练对ZSAR很重要，并建议训练3D CNN来预测动作名称的单词嵌入。然而，词嵌入可能是模糊的，并且误导动作类之间的知识传递。与我们最相似的工作是[45]，它采用文本和图像作为动作的替代语义表示，但它们的文本描述相当嘈杂，不如属性或词嵌入。3. 我们的方法在ZSAR中，我们给出源数据集Ds=具有来自所看到的动作类S={1，...，S}的标签的N个视频中的{（vn，yn）}N个，其中vn是视频剪辑，并且yn∈S是标签。 Dt={（vm）}N+M是目标仅在Ds上训练，并在Dt上测试。在本节的其余部分，我们将介绍ER增强ZSAR模型的新组件：描述（ED）、动作类嵌入函数ψ（y）、视频嵌入函数ψ（v）和精心排练（ER）损失。该框架如图2所示。3.1. 详细描述（ED）对于每个动作类名或每个对象概念，我们将名称及其基于句子的定义连接为ED。ED的示例在表1中列出，其比类名更具区分性并且比属性更容易生成以语义地表示动作或对象。人类参与的理由。ZSL需要类式语义表示，这可能涉及人类来构建，但成本显著低于监督训练中的样本式注释工作。事实上，用较少的类注释工作来设计高质量的语义表示是ZSL的重要步骤。对于一般对象分类任务的ZSL [12，27，48]，类名的词嵌入作为语义表示越来越受欢迎，因为一般对象词的语义嵌入在预训练的语言模型中学习得很好，并且可以用作先验知识。然而，单词嵌入不适用于其他领域，例如鸟类的细粒度ZSL [20]，其中类名提供了关于视觉外观的很少信息。手动定义的属性[20]或干净的文本描述[33]在这种情况下需要。ZSAR中的情况类似，其中单独的动作名称不足以区分动作的上下文。例如，Kinetics数据集[6]中的动作M的数据集m=1+N带有来自未见过动作类的”而不是其常见的=S+1，，S+T . ZSAR的目标是使用仅在s上训练的AR模型对看不见的类进行分类。在[12，49]之后，我们的ZSAR模型的主要架构将视频和动作类（文本）嵌入到联合语义空间中，其中相似语义的类作为最近邻居更接近。它们各自的嵌入函数是视频嵌入函数（v）和动作类嵌入函数ψ（y）。两个功能-小动作因此，有必要对人类参与的行动定义进行澄清。与精心设计和注释的属性相比，我们人类更自然的方式是用自然语言描述目标动作的视觉过程，这促使我们收集基于句子的ED用于动作类表示。详细描述的构建。定义操作比定义对象更复杂在ImageNet中清洁水槽清洁水槽：使清洁;除去……的污垢、痕迹或污点。固定在屋顶边缘下面用来排走雨水的浅槽。13641∈∈联系我们∈∈∈联系我们我图2：我们的ER增强的ZSAR模型的架构动作类嵌入函数（左）将动作名称扩展到ED，以实现动作类嵌入z。多模态视频嵌入函数生成视频的时空和对象特征[xvo，xov]（中间）。ER损失利用所识别的对象语义z〇（右）来匹配[xvo，xov]，这改善了动作识别损失。数据集[8]，对象类直接链接到WordNet [31]中的概念，因此对象的ED可以直接获得。然而，目前没有这样的资源来定义行动。为了减少从头开始编写ED的手动工作，我们首先使用动作名称作为查询从维基百科和词典自动抓取候选句子。然后，我们要求注释者从候选人中选择并修改一组最小的句子来描述目标动作。更多细节见补充材料。生成每个操作类的ED平均花费不到20秒，这是非常高效的。Kinetics数据集[6]中动作的ED平均长度为36个单词。3.2. 操作类嵌入ψ（y）表示d=w1，，wNd 动作y的ED，其中wi是组合词。动作类嵌入的目标是将d编码成维数为K的语义特征zRK。为了捕获d中的顺序并从大规模文本模型中转移先验知识，与使用tf-idf [34]，平均单词嵌入[50]或从头开始训练的RNN [53]的先前作品不同，我们建议采用预训练的BERT模型[9]进行ED编码。BERT模型在隐式编码常识知识方面表现出了出色的能力[7]，这有利于嵌入句子的全局语义。将hiR768表示为来自单词wi的BERT的最后一层的隐藏状态，我们应用平均池化来获得句子级别特征h'：比我们的平均池更复杂的方法来聚集HI。然后，我们使用线性变换层将h¯转换到联合语义嵌入空间：z=Wch¯+bc，（2）其中WcRK×768、bcRK是要学习的参数。最后，操作类嵌入被归一化为z=z/||z||二、3.3. 多模态视频嵌入（v）看不见的动作类可能涉及新颖的时空特征和对象两者。为了更好的泛化，我们建议在两个模态流中编码视频，以捕获时空动态和对象语义。视觉形态中的时空流受到3D CNN最近在监督AR中的成功的鼓舞，我们采用3D CNN，特别是TSM [28]来提取空间-时间（ST）特征。表示x¯vR2048作为TSM最后一个池化层的输出，我们通过线性变换将x¯v映射到联合嵌入空间：xv=Wvx¯v+bv，（3）其中Wv∈RK×2048，bv∈RK是要学习的参数。我们还将嵌入归一化为xv=xv/||xv||二、文本模态中的对象流。与动作相关联的对象是ZSAR模型可用的先验知识[15，21]，这是一个广泛公认的假设。我们利用从帧中自动识别的对象来构建文本模态的视频表示具体来说，我们使用在Ima-geNet 21 k数据集上预训练的BiT模型[24]来预测均匀分布的对象概率。h¯=1ΣNdH.（一）从视频v中采样8帧。物体的概率-对帧上的连接进行平均，并且仅对前N个O 对象由于BERT中存在多层次的自我注意，实义词比其他停用词更容易被强化。因此，我们没有观察到使用O= o1，，oNo被保存和嵌入在一个连锁序列：xo=ψ（[ED（o1）;· · ·; ED（oNo）]），⑷Ndi=113642·DvovoNCvn·∈D∈∈CΣΣDvO1No儿NCCc，vCc，oCc，vc，oCc，vc，ovoOVCj=1我Cj=1arNvO··1ΣL=Lar+ λLer。（十二）其中ED（〇i）表示如表1中的对象〇i的ED在这里，我们使用与动作类嵌入相同的ψ（）函数，它明确鼓励来自视频的对象嵌入xo和来自动作名称的动作类嵌入z位于相同的语义空间中多通道注意。对象语义的感知可以将时空流聚焦到对象突出显示的视频特征，而对象语义可以用运动特征来丰富。因此，我们进一步提出将两个嵌入X和X动态地融合为en。因为xvo比xov更强大，所以在s上训练的模型倾向于在等式中超重xvo8并且导致过拟合。因此，我们将等式中的三个损失平均。10个。此外，由于在Lar中仅存在S个语义标签作为语义监督，因此所学习的视频和文本表示可能较不易推广到更多样化的语义。为了解决这个问题，我们进一步提出了一个精心排练（ER）的损失，排练的视频表示-图1示出了具有来自从逐帧对象分类获得的EC的语义的图。表示0n={0n，· · ·，0n}顶部互相鼓励注射xo改善的配方X 如下所示在视频vn中识别的对象，我们生成语义表示。（E）（n）（n）（n）（n）由于总数vi i所有对象中的一个是大的，我们对前几个对象类进行gvo=σ（W2 RELU（W1 [xv; xo]）），（5）在训练期间为了效率。设Zo为对象类沃沃xvo= xvgvo/||xvgvo||第二条第六款嵌入在小批量训练中，并且ER损失被计算为：其中W1∈R2K×K，W2∈R，K×K是参数，σ是sigmoid函数同样地，我们得到xov从对象L=1ΣL（pn，qn）+L（pn，qn）+L（pn，qn），（11）n=1以全面地表示视频。3.4. 精心排练（ER）强化培训在标准ZSAR训练之后，给定所见类别S的视频vn，我们首先生成视频嵌入[xn，xn]=（vn）和动作类别嵌入矩阵Z∈其中pn=xvoZo，pn=xovZo，pn=pn+pn，并且qn是vn的地面实况对象标签。最后，我们在ZSAR模型训练中将Lar和Ler与平衡因子λ结合起来：其中每列zi=ψ（i）。然后，我们计算视频动作相似度分数：pn=xvo·Z，po=xov·Z，（7）其中·表示向量矩阵乘法，pn，pn∈RS.与Eq相比10，我们的模型由Eq. 12从EC学习共享Φ（）（即Φ（〇i））和ED（即，ψ（yi））。该共享倡导在公共语义中学习视频和类之间更全面的v ~ o空间定义，从而导致更好的生成作为对象和动作类em之间的负分层理主要表明被识别的物体与动作无关，大小不太重要。因此，我们可以将两个相似性分数融合为：对看不见的类进行验证。在推断中，识别具有最高相似性得分的动作类v_m_tn n nym=argmax（xm·ψ（y）+max（xm·ψ（y），0））（13）p=pv+ max（po，0）。（八）我们用标准的对比损失来训练动作沃奥夫y∈T其中xm，xm=（vm）。识别模型为了可概括，pRC表示预测得分，q RC是地面实况标签，其中如果第i个标签为真，则q i =1，否则qi= 0，并且C是类别的数量。对比损失为：4. 实验4.1. 数据集和拆分沃奥夫L（p，q）=−1Σqlogexp（pi/τ）ji=1、（9）现有ZSAR基准。奥林匹克运动[32]、HMDB51[25]和UCF101 [39]是最受欢迎的三个其中τ是温度超参数。为了对看到的数据s进行动作识别，我们将标签yn转换为独热向量qn，损失为：NL=L（pn，qn）+L（pn，qn）+L（pn，在xv的引导下嵌入xo。因此，我们的视频编码器（v）产生两个视频嵌入xvo和xovQexp（pj/τ）现有ZSAR论文中使用的数据集[22]，其中包含16，51，101个动作类别的783，6766和13320个视频13643qn）. （十）n=1分别对于稳健的评价，Xuet al. [50]建议对50个独立数据分割进行评估，并报告平均准确度和标准偏差。在每个分割中，50%随机选择的类的视频用于训练，其余50%的类保持不可见以用于测试。我们采用与[50]相同的数据分割进行公平比较。13644± ±±±±±±± ±±± ±±± ±±±±±±±±±±± ±±±±±在上述ZSAR协议中存在两个主要限制。首先，使用在其他大规模监督视频数据集上预训练的深度特征是有问题的，因为在预训练类和测试类之间存在重叠的动作类。其次，训练和测试数据的大小很小，这导致不同数据分割之间的差异很大，因此需要大量的实验来评估模型。为了解决这些局限性，Brattoliet al. [4]提出了另一种设置，其排除与预训练数据集Kinetics中的上述测试数据集重叠的类。尽管如此，他们的重叠类选择算法太嫩了，使得测试类仍然在训练中可见。此外，还需要对视频骨干进行新的端到端训练，因为此设置不遵循官方的Kinetics数据分割。因此，在这项工作中，我们提出了一个更现实，方便和清洁的ZSAR协议。我们提出的动力学ZSAR基准。 Kinetics数据集[5，6]的演变自然涉及新动作类的增加： Kinetics-400 和Kinetics-600数据集分别包含400和600个操作类。由于Kinetics-600中的一些重命名，删除或拆分的类，我们在清理后在Kinetics-400之外获得了220个新的动作类。因此，我们使用Kinetics- 400中的400个动作类作为训练的可见类。我们将Kinetics-600中的220个新类随机分为60个验证类和160个测试类。我们独立地将类拆分三次以进行鲁棒性评估。如我们的实验所示，由于大尺寸的训练和测试集，不同分裂的变化显着小于以前的ZSAR基准。总而言之，我们的基准测试包含来自Kinetics- 400训练集的212，577个训练视频，来自Kinetics-600 验证集的 2 ， 682 个验证视频和来自Kinetics-600测试集的14，125个测试视频。我们的评估方案的更多细节在补充材料中。4.2. 实现细节对于动作类嵌入，我们使用预训练的12层BERT模型[9]，如果没有指定，则微调最后两层对于视频嵌入，我们使用TSM [28]在Kinetics基准的时空流中对Kinetics-400进行预训练，并使用BiT图像模型[24]在ImageNet 上对其他三个基准进行预训练，以避免Kinetics中的重叠动作类;对象流使用在ImageNet 21 k [8]上预训练的BiT以上骨干固定，快速训练。我们使用一个Nvidia TITAN RTX GPU进行实验。补充材料中提供了更多详细信息。我们设置公共语义空间的维度K=512，τ=0。1，在损失中λ=1，并且在ER损失中使用前5个对象。我们使用ADAM算法训练模型，权重衰减为1 e-4。的方法视频课程奥运会HMDB 51UCF101 DAP [26]FVA45. 412. 8N/A15. 91.2IAP [26] FV A 42.3 12.5 N/A 16.7 1.1HAA [29] FV A 46.1 12.4不适用14.9 0.8SVE [49] BoW WNN/A 13.0 2.7 10.9 1.5ESZSL [37] FV WN39.6 9.6 18.5 2.0 15.0 1.3SJE [2] FV WN28.6 4.9 13.3 2.4 9.9 1.4SJE [2] FV A 47.5 14.8 N/A 12.0 1.2MTE [51] FV WN44.3 8.1 19.7 1.6 15.8 1.3ZSECOC [35] FV WN59.8 5.6 22.6 1.2 15.1 1.7UR [54] FV WN N/A 24.4 1.6 17.5 1.6O2A [21] Obj†WNN/A 15.6 30.3ASR [45] C3D* WTN/A 21.8 0.9 24.4 1.0TS-GCN [15]目标WN56.5 6.6 23.2 3.0 34.2 3.1E2E [4] r（2+1）d* WNN A 32.7 48我们的（S+对象）†ED60.2±8.9 35.3 2019 -04-2811：00：00表2：ZSAR在三个现有基准上的性能。视频：Fisher向量（FV）、词袋（BoW）、对象（Obj）、图像空间特征（S）、*（在视频数据集上训练）、†（在ImageNet数据集上训练）;类：属性（A），类的词嵌入名称（WN）、类文本的词嵌入（WT）、精细描述（ED）。报告平均前1准确度（%）标准偏差。基本学习速率是1 E-4，具有预热和余弦退火。该模型训练了10个epoch，除了在奥林匹克体育数据集上，由于其训练规模较小，我们训练了100个epoch。根据验证集上的性能选择最佳历元。前1和前5个准确度（%）用于评估所有模型。4.3. 对现有ZSAR基准我们将我们的模型与以下模型进行比较：（1）直接/间接贡献预测（DAP，IAP）[26];（2）人类行为属性（HAA）[29];（3）SVM和语义嵌入的自训练方法（ SVE ） [49]; （ 4 ）令人尴尬的简单零次学习（ESZSL）[37];（5）结构性关节包埋（SJE）[2];（6）多任务嵌入（MTE）[51];（7）带纠错输出码的零触发（ZSECOC）[35];（8）通用表示（UR）模型[54];（9）Objects2Action（O2A）[21];（10）替代语义表示（ASR）[45]，其使用文本描述和图像作为替代类嵌入;(11)TS-GCN [15]使用ConceptNet在动作和对象类之间构建图形，以更好地嵌入动作类;（12）端到端训练（E2 E）[4]，通过排除与测试集重叠的部分动作类，使用减少的动力学训练集。所有上述方法都在归纳ZSL设置上进行评估，其中在训练期间不可用未看到的动作类的视频除了[15]之外，未看到的表2给出了比较结果。为了避免泄露Kinetics视频数据集上预训练的特征的信息，我们只使用图像特征和预测对象。13645方法视频类top-1 top-5此外，与表2中的结果相比，每-[12]第十二话23.8±0.3 51.0 ± 0.6不同分割的性能差异远低于ALE [1] 23.4±0.8 50.3 ± 1.4这些在以前的基准测试，这进一步证明了苏-SJE [2]DEM [53]STWN22.3±0.6 48.2 ± 0.423.6±0.7 49.5 ± 0.4我们的基准为未来ZSAR研究的优势。ESZSL [37] 22.9±1.2 48.3 ± 0.8GCN [17] 22.3±0.6 49.7 ± 0.6我们的STED37.1±1.7 69.3 ± 0.8ST+目标42.1±1.4 73.1±0.3表3：拟定动力学基准的ZSAR性能符号与表2相同;ST：时空特征。在ImageNet [24]上预训练的2D网络用于视频语义表示学习。所提出的ER增强ZSAR模型在三个基准上实现了对最先进方法的一致改进。我们的模型在OlympicSports16、HMDB51和UCF101上分别以0.4、10.9和17.6的绝对增益超过了之前的最佳性能（不使用预训练的视频特征），并且在HMDB51和UCF101数据集上以2.6和3.8的增益实现了比在大规模Kinetics数据集上训练的E2E更好的性能。这证明了ED作为动作语义表示的有效性和ER目标提高了模型的泛化能力。4.4. 动力学ZSAR基准评价由于现有基准的限制，我们进一步进行了广泛的实验，更现实的动力学ZSAR设置，以评估我们的模型的有效性。4.4.1与艺术我们在所提出的基准上重新实现了最先进的ZSL算法，包括：（1）DEVISE [12];（2）ALE[1]（ 3 ） SJE [2]; （ 4 ） DEM [53]; （ 5 ） ESZSL [37];（6）GCN [17]：最近的ZSAR工作，利用动作类的知识图来预测分类权重[47]。详情见补充材料。表3示出了上述方法的ZSAR性能。当使用从TSM网络提取的相同时空（ST）特征时，我们的ER增强模型具有ED和ER损失，显著优于以前的作品，在前1和前5个准确度上分别有13.3和18.3的绝对增益。然而，现有的方法实现了类似的性能，这可能是由于模糊的词嵌入表示。在融合了视频语义表示中的对象语义后，该模型的性能得到了进一步的提升，证明了ST视觉特征和对象文本特征是互补的。1我们观察到不同随机权重初始化的大的性能变化，这主要是由于小的训练集。4.4.2消融研究我们提出了以下Q A来证明我们提出的语义表示和ER训练目标的有效性。更多的超参数消融和分析在补充材料中。以下所有消融研究均在Kinetics ZSAR基准上进行。行动类代表是否需要人的参与？在表4a中，我们比较了不同的动作类表示，包括动作类名称（WN）、维基百科条目（Wiki）、词典定义（Dict）和手动修改的ED。所有模型使用TSM视频特征和等式中的Lar10训练WN使用预训练的手套词嵌入进行编码，而其他则通过BERT进行编码，因为我们观察到BERT不适合编码诸如类名之类的短文本。我们可以看到，自动抓取的action类文本非常嘈杂，甚至不如模糊的类名。然而，通过对抓取描述进行最小的手动清理，我们实现了显着的改进，例如与WN相比，前5名准确性的绝对增益为8.5%。这证明了即使是这样简单的人类参与也有利于类表示质量，如3.1节所述，并且ED比单词嵌入更有区别性的动作类原型。与预训练的BERT模型相比有多少改进？在表4b中，我们比较了 ED 的不同动作类编码模块。AvgPool、AttnPool和RNN都从预训练的Glove词嵌入中传递知识类似于表4a，所有模型都使用TSM视频特征并且用Lar训练。预训练的BERT显著提高了其他三个编码模块的性能，证明了其理解动作描述的有效性。ER损失是否有益？表4c比较了在有或没有ER损失的情况下训练的模型。通过对ST和对象特征的ER增强训练，对看不见的动作的泛化能力得到了很大的提高。ER损失增强了来自自动精细化概念的视频的语义标签，使得特征更可推广到看不见的类。ST特征与宾语特征是否互补？表4d中的单独的对象特征“Obj”在前1准确度上与ST特征相当，但在前5准确度上比ST差。他们的组合13646班长WN维基词典top-1top-526.5±0.4 54.7 ± 1.225.8±1.1 50.4 ± 1.622.3±0.4 49.7 ± 0.631.0± 1.2 63.2± 0.4类Enc平均池AttnPooltop-1top-525.3±1.2 54.7 ± 0.6RNN28.2±1.0 56.9 ± 0.2BERT31.0±1.2 63.2±0.425.4±1.1 53.7 ± 1.1视频stSTObj儿w/ow/otop-1top-531.0±1.2 63.2 ± 0.437.1±1.7 69.3 ± 0.8目标w/36.7±1.0 63.2 ± 0.534.6±1.4 60.6 ± 1.1(a) 比较动作类文本。(b) 比较操作类编码器。(c) 比较有或没有ER损失的模型。目标36.7±1.0 63.2 ± 0.5目标（ED）ER（姓名）36.3±1.3 62.8 ± 0.9ST+目标42.1±1.4 73.1±0.3(d) 比较视频表示。目标（ED）ER（ED）36.7±1.0 63.2 ± 0.5(e) 比较ED和类名以表示对象类。表4：Kinetics ZSAR基准的消融研究。在Kinetics ZASR设置上实现最佳性能。这表明，与ST特征相比，单独的对象特征不足以区分动作。但添加对象要素会丰富ST每个类别的视频数量Top-1（%）Top-5（%）ER-ZSAR 0 42.1±1.4 73.1 ± 0.31 31.8±0.8 60.2 ± 2.5在动作类之间共享语义嵌入。ED是否是动作和对象的通用表示？虽然我们证明ED是有益的监督2 45.0±0.9 73.2 ± 0.65 56.5±1.5 83.4 ± 0.8100 72.7±1.4 93.3 ± 0.5为了表示动作类，ED是否也改进了对象的语义表示仍然是一个问题。值得注意的是，由于ImageNet类和WordNet概念之间的良好对应关系，对象的ED是从WordNet中自动提取的。因此，我们将ED替换为Eq中对象的类名。4用于视频对象嵌入，并且在Eq.第11话训练目标从表4e中，我们可以看到，即使对象比动作更不含糊，使用它的ED而不是类名仍然是有益的。我们在补充材料中提供了更多的超参数消融和4.5. 与监督学习的以前的ZSAR工作主要是基准的零炮方法的进展。然而，从视频动作识别的实际前景来看，了解最先进的ZSAR方法的实际工作情况是很有趣的我们提出的第一个尝试，为这一目的。在表5中，我们比较了我们的ZSAR模型与在我们的Kinetics ZSAR基准中用不同数量的不可见类别的标记视频训练的监督模型。为了避免在少数训练样本上过度拟合，我们使用TSM中相同的固定ST特征，并且只训练线性分类层。它作为一个简单但强大的基线，用于少量学习，如[40]中所建议的。我们的ER增强的ZSAR模型在1次拍摄基线上改进了很大的幅度，但仍然劣于每类使用2个标记视频的模型。虽然我们的工作是表2和表3中的最新技术水平，但它只是建立了一个开始。表5：我们的ER增强的ZSAR模型和在Kinetics基准上的监督的少数拍摄基线的比较。ZSAR模型与在非常少的样本上训练的监督模型相当。5. 结论我们提出了一个精心排练（ER）增强模型，以提高视频理解下的零拍设置。我们的ER增强的ZSAR模型利用Elabo-迭代描述（ED）来学习动作类的区分性语义表示，并从基于图像的分类的先验知识生成Elaborative Concepts（EC）我们的模型在现有的ZSAR基准测试以及我们新提出的基于Kinetics数据集的更现实的ZSAR设置上实现了最先进的性能。我们证明了我们新的ZSAR基准测试的潜力，开始赶上监督AR基线。在未来，我们将探索零镜头和少镜头的统一，用于动作识别。致谢。这项工作得到了情报高级研究项目活动（IARPA）通过内政部/内政部商业中心（DOI/IBC）合同号D17 PC 00340的支持。视频top-1top-5视频损失top-1top-5St37.1 ±1.769.3 ±0.8对象（名称）ER（姓名）34.5 ±1.661.4 ±1.213647引用[1] Zeynep Akata 、 Florent Perronnin 、 Zaid Harchaoui 和Cordelia Schmid 。用于图像分类的标签嵌入 IEEEtransactionsonpatternanalysisandmachineintelligence，38（7）：1425[2] Zeynep Akata ， Scott Reed ， Daniel Walter ， HonglakLee，and Bernt Schiele.用于细粒度图像分类的输出嵌入的评估。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 2927[3] Aaron S Benjamin和Robert A Bjork。论死记硬背与精心复述单词的识别速度与准确率之间的关系。实验心理学杂志：学习，记忆和认知，26（3）：638，2000。[4] Biagio Brattoli，Joseph Tighe，Fedor Zhdanov，PietroPerona，and Krzysztof Chalupka.重新思考零镜头视频分类：针对实际应用的端到端培训。在IEEE/CVF计算机视觉和模式识别会议论文集，第4613-4623页[5] Joao Carreira 、 Eric Noland 、 Andras Banki-Horvath 、Chloe Hillier和Andrew Zisserman。关于动力学的简短说明-600。arXiv预印本arXiv：1808.01340，2018。[6] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集，第6299-6308页[7] 崔乐阳，成思杰，吴宇，张跃。伯特是否运用常识知识解决常识性问题 arXiv 预印本 arXiv ： 2008.03945 ，2020。[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[9] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。[10] 克里斯托夫·费希滕霍夫。X3d：扩展架构以实现高效的视频识别。在IEEE/CVF计算机视觉和模式识别会议论文集，第203-213页[11] Christoph Feichtenhofer ， Haoqi Fan ， Jitendra Malik ，and Kaiming He.用于视频识别的慢速网络。在IEEE计算机视觉国际会议论文集，第6202-6211页[12] Andrea Frome 、 Greg S Corrado 、 Jon Shlens 、 SamyBengio 、 Je

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

零拍动作识别: 语义和记忆的新方法

最新资源

零拍动作识别: 语义和记忆的新方法

目标识别、语义分割和实例分割

语义分割技术的现实应用

语义分割有哪些应用场景

语义分割有哪些应用领域？

深度学习使用人脸检测识别与语义分割结合，有什么推荐的简单的课程项目方向

语义分割和实例分割的区别是什么

语义分割编解码结构的优缺点

语义分割和特征识别的关系

图像分类、目标识别、语义分割

语义分割评价指标和评价方法研究的意义

图像分割和语义分割的区别

对以下的句子进行扩写：- 创建百万级UI应用截图及相应的标注数据，实现常用应用的复杂UI界面元素识别、语义关系识别；

使用深度学习实现语义识别计数功能

介绍语义分割，要介绍概念、来源、现在的应用情况

语音识别模块有哪些类型

请以老师视角对语义web自底向上增加语义进行评价

【天池赛事】零基础入门语义分割-地表建筑物识别 task

语义增强有哪些方法，具体如何实现

基于机器学习的法律文本语义识别流程图

经济补偿金、赔偿金的核定及劳动合同解除后双方的义务.ppt

最新资源