开集动作识别的多特征图自动编码器

16 浏览量更新于2023-10-16 收藏 1.68MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3371视频剪辑图构建编码器隐藏嵌入解码器已知击剑未知射击弓未知类的阈值X′Z重建Humpty Dumpty：用于开集动作识别的多特征图自动编码器杜大伟 Ameya Shringi 安东尼·胡格斯克里斯托弗·芬克Kitwarehttps://github.com/Kitware/graphautoencoder摘要大多数动作识别数据集和算法假设一个封闭的世界，其中所有测试样本都是已知类的实例。在开集问题中，测试样本可以从已知或未知的类中提取。现有的开集动作识别方法通常基于通过添加分类分数或特征距离的事后分析来扩展闭集方法，并且不捕获所有视频片段元素之间的关系。我们的方法使用重建误差来确定视频的新颖性，因为未知类更难放回一起，因此具有比已知类的视频更高的重建误差。我们参考我们对开集动作识别问题的解决方案“矮胖子”，因为它的重建能力Humpty Dumpty是一种新颖的基于图的自动编码器，它考虑了击剑射击弓未知行动夹片以改善重建。更大的重构误差导致动作不能被重构的可能性增加，即，，不能把Humpty Dumpty重新组合在一起，表明该动作从未见过，是新奇/未知的。在HMDB-51和UCF- 101两个公开的动作识别数据集上进行了大量的实验，显示了开集动作识别的最新性能。1. 介绍动作识别由于其在体育[38]、监控[17]、智能家居[49]等方面的潜在应用而引起了人们的极大兴趣。虽然在识别HMDB-51 [19]、UCF- 101 [39]和Kinetics-700[3]等动作识别数据集上的活动方面取得了重大进展[ 3，7，12，37，40，44 ]，几乎所有这些进展都是在封闭世界假设下取得的[34]，这样测试数据只包含训练类的实例。在这个封闭的世界中，算法预测图1：Humpty Dumpty被训练以最小化视频中提取的关系X和重建的关系X'之间的重建误差。在推断期间的大的重构误差指示未知关系，即，，一个未知的动作，在视频中。我们的方法的名字是Humpty Dumpty童谣，它告诉当测试实例所属的已知类，并且忽略该实例是否属于任何未知类的问题。封闭世界的假设对于许多现实世界的问题来说是不现实的，因为知道所有的类是不可行的。封闭世界方法可以通过预测以下内容来适应这种开集范式：当任何已知类的最大预测足够弱时，测试实例是未知的。这是因为，经过区分训练的封闭世界模型往往是在-图？重构误差3372有效地根据培训中未包括的背景数据定义边界[16]。这使得很难区分已知类的异常实例和未知类的实例。为了应对这些挑战，我们在开集前提下开发了一种动作识别算法[34]，该算法可以区分视频中的已知活动和未知活动。因此，在视频中检测新活动[11]。训练集中不存在未知活动虽然它们可能与已知活动共享一些语义或上下文特征，但这些特征之间的关系是显著不同的。我们的方法将这些特征及其关系建模为图的节点和边。它学习使用多特征图自动编码器为已知活动重建图。在测试过程中，我们使用重建误差来确定视频中发生的活动是已知还是未知。最近在开集动作识别方面的工作依赖于阈值softmax分数[29]或从与已知类别相关联的视频中获得的分类器预测[30这些技术中的一个共同主题是将视频视为单个实体，而不是利用视频内的语义关系。我们的方法在图中明确地捕获这些关系。为了构建图，我们将视频划分为固定长度的非重叠剪辑我们获得的上下文和语义信息，为每个剪辑使用平均池和最大池，分别对剪辑功能。使用不同的池技术来获得多特征或如图2所示，图中的每个节点表示与剪辑相关联的池化特征，而边对应于不同剪辑之间或同一剪辑内的上下文或该图使用图卷积网络（GCN）在潜在空间中编码，该网络有效地学习已知类的常见上下文和语义关系。然后，在解码阶段期间重建该图。我们依靠图自动编码器得到的重构误差，直接根据这些关系估计开集风险。我们在两个基准数据集上进行了大量的实验，用于动作识别：HMDB-51 [19]和UCF- 101 [39]，其中50%的行动标签被指定为每个数据集的新型。我们评估我们的方法-计算受试者工作特征Humpty Dumpty在HMDB-51和UCF-101数据集上分别实现了ROC-AUC评分约2%和3%的改善，以及4%和1%的mAP评分改善，超过现有的开集动作识别方法[15，28，30，35]。广泛的消融研究也显示了我们所提出的方法的不同组成部分的影响我们工作的主要贡献是：图2：击剑视频中视频剪辑和相应的rela- tions部分显示更清晰。• 一种新的多特征图来表示动作，通过识别跨视频剪辑的相似上下文（平均池化）和显著（最大池化）关系来构造，以改进重建;• 一种通过开放空间风险估计进行开放集合动作识别的新方法[34]，该方法使用基于图形的自动编码器来学习已知类的公共语义• 广泛的实验和消融研究表明，在两个动作识别数据集上的性能优于现有方法，这些数据集以前已被建立为新动作识别的基准。2. 相关工作2.1. 开放集识别开集识别[34]最初是在图像识别领域提出的，近年来受到了极大的关注[26，47，48]，包括GMM [28]，单类SVM [35]，稀疏编码[51]，极值理论[23]和CNN[27]。例如，Mundt et al. [23]将模型不确定性与极值理论相结合，用于在各种分类任务上使用预测不确定性的开集识别。Perera等人。 [27]从外部数据集学习全局负过滤器，然后对所提出的网络的最大激活进行阈值设置，以有效地识别新对象。然而，有限的开集的工作已经在动作识别领域。最近，Roitberg等人。 [30]在预测中利用单个分类器的估计不确定性，并提出了一种基于投票的方案以测量用于动作识别的新输入样本的新颖性。Shi等人 [36]提出了一种开放的深度网络，通过应用多类三元组阈值方法来检测新类别，然后动态重构3373LLL∈ L通过不断地为新的类别添加预测器来改进分类层。此外，Busto等人。 [2]提出了一种用于动作识别的开集域自适应方法，其中目标域包含源域中不存在的类别实例。这些方法集中于关于视频内的各个视频剪辑对新颖性进行建模;其不考虑剪辑之间的语义关系。我们的方法，通过其图形构造，明确地学习如何在一个剪辑的时空关系是在时间上链接的视频剪辑，从而提高性能。虽然我们的方法侧重于开集识别，但我们的方法捕获的关系可用于检测视频中的应该注意的是，异常检测和开集识别之间存在根本差异异常是实例离群值，通常仍在已知类别之一内，通常很少发生，而未知/新奇来自不同的类别，并且在推理过程中经常发生[8，22]。标签空间也是不同的-异常检测器产生帧级输出，而活动识别算法将整个视频标记为活动。尽管公式不同，但自动编码器[10，13，52]经常用于检测视频中的异常。此外，零射击学习关注的是训练中的已知类和测试中的未知类之间的共享属性[8]，而开集识别的重点它们基于训练期间可用的信息和测试期间期望的结果，在问题的目标上有所不同。因此，直接比较是无效的。每个问题如何定义未知类有一个关键的区别-在零射击学习中，未知类是通过一些共享的边信息（如属性）指定的，而在开集识别中，未知类在训练过程中确实没有以任何方式指定[8]。2.2. 图卷积网络越来越多的研究关注于将神经网络[1，9，18，21，33，46]泛化到任意结构的图上。早期的著名研究[1]发展了基于谱图理论的图卷积Kipf和Welling [18]开发了一个基于变分自动编码器的图结构数据无监督学习框架。在Salehi和Davulcu [33]的工作中，掩蔽的自我注意层被杠杆化以关注其邻域的特征，以获得更具区分性的表示。Gilmer等人 [9]提出了消息传递神经网络来利用图分子的区分特征。Wang等人。 [46]通过开发Edge- Conv层将图网络应用于点云最近，Li等人。 [21]采用残差/密集连接和扩张卷积来训练更深的图卷积网络受[33]的启发，我们在图自动编码器中引入了自注意编码方案，通过基于来自相邻节点的信息对节点进行加权来增强多特征，从而实现更好的图重建能力。2.3. 动作识别近年来，基于深度学习的方法[3，12，40]与传统方法[20，32，43]相比，已经主导了视频动作识别领域。在这些方法中，3D CNN [12，41]在对视频中的时间信息进行编码方面是有效的Tran等人。 [40]提出了使用深度3D卷积网络（C3D）的时间特征学习。3DResNets [12]扩展了2D ResNets [14]块，并获得了比浅C3D网络更好的性能。I3D [3]是一个双流的3D卷积神经网络，它使用RGB和光流来大大提高动作识别的最新水平Feichtenhofer等人 [6]提出了用于视频识别的SlowFast网络，包括用于捕获空间语义的Slow路径和用于以精细时间分辨率捕获运动的Fast路径此外，Fe-ichtenhofer开发了另一个X3 D [5]主干，它是从一个微小的空间ResNet网络逐步扩展的由于3D CNN使用卷积运算对视频的时间范围进行建模，因此由于GPU上的内存限制，它们的时间范围相当有限。Xi等人。 [24]将3D CNN与LSTM结合起来进行动作识别。在图的构建过程中，我们使用外观相似度和时间阈值来创建视频片段之间的边缘。Wang等人。 [45]使用非局部自我注意层来计算动作识别的时间相似性。我们的方法提取时间特征，从每个非重叠的视频剪辑与视频。与其他方法不同的是，我们还定义了这些片段之间的上下文3. 方法如上所述，我们的任务是开集动作识别。给定一组具有K个已知类别可用于训练的标记视频，以及一组包含K个已知类别以及仅在测试期间出现的U个未知类别的混合的未标记视频，我们的目标是将未标记视频x j分类为“已知”，如果x jK或“未知”，如果xjU通过利用从训练视频中获得的潜在语义关系。为此，我们的网络表示与视频相关的片段内和片段间语义关系，并重建图中存在的地形信息。如图3所示，我们的模型由三个部分组成：动作特征提取、视频图形构造和多特征图形自动编码器。3374CL∈ C·∈ E一C{\fnMicrosoftYaHei\fs14\bord1\shad0\3aHCC\b0}G V EGAV{|∀∪∈（二）0否则。图3：Humpty Dumpty方法的架构，包括（a）动作特征提取，（b）视频图分解，和（c）多特征图自动编码器，以及两个损失（i）重建和（ii）已知类分类。重建误差在评估期间用于确定给定视频的新颖性如何。AVG和MAX分别代表平均池化层和最大池化层。3.1. 概述如图3（a）所示，我们将视频分割成片段，使得片段没有时间重叠，并且每个片段具有n个图像帧。对于每个剪辑c，我们提取与c中的所有n个帧相关联的特征向量。为了获得多特征表示，我们采用了两种池化层：最大池化层和平均池化层。最大池化层编码视频剪辑中存在的显著特征，而平均池化层编码视频剪辑的上下文信息多特征用于构建视频图，其中每个节点表示从视频剪辑获得的池化特征，并且每个边连接具有足够的时间和外观相似性的两个节点。在学习阶段，训练图自动编码器以重建在前一步骤中获得的图。与典型的自动编码器方法一样，每个训练视频以其图形的形式提供其自己的地面实况。在编码阶段，我们应用图卷积网络（GCN）将视频图映射到潜在空间。此外，我们使用自我注意力[42]来捕捉图中存在的最具区分性的关系为了学习区分已知类，我们在潜在空间上添加一个全连接层，将已知实例分类为K个类。在解码阶段，通过在潜在空间上应用GCN来重构邻接矩阵，随后是Sigmoid层。在训练过程中，我们最小化原始图和重建图之间的重建误差。在推理（测试）过程中，重构误差用于衡量视频的新颖性。3.2. 多特征图形自动编码器使用图形自动编码器[18]建模，我们使用它来基于底层关系重建时间剪辑相似性视频图形构建。给定视频中所有片段的多特征表示，我们构造了一个不规则的未加权图=（，）来表示视频片段之间的成对关系。如图3（b）所示，使用3D主干B，从视频剪辑获得的池化特征由节点表示，并且这些特征之间存在的语义关系由边表示。形式上，节点是一组池化特征，即，，=vi vi=δavg（B（ci））δmax（B（ci）），ci其中δmax和δavg分别表示最大和平均池化操作。定义为视频内的池化节点特征的数量。节点vi和v j之间的边e i，j使用外观相似度fa（vi，vj）和时间距离ft（vi，vj）获得，基于ei，j=θ a（fa（vi，vj ）≤θa，ft（vi，vj）≤θt），（1）其中，如果参数为真，则θ a（）=1，否则为0，θ a和θ t是外观和节奏的阈值-距离分别。因此，视频图可以模拟短期的时间一致性和语义相似性。我们使用一个二进制邻接矩阵来表示图的边缘时，图卷积应用于图。行i和列j处的值1/0指示在节点vi和v j之间存在/不存在边。地面实况邻接矩阵A被计算为：.1如果ei，j=1，图形自动编码器是我们的方法的关键组成部分。从最近的成功关系的在我们的实验中，我们使用与节点vi和vj相关联的特征之间的欧几里得距离来计算A（i，j）=3375×FGZWZZ F ∈ZZZZ {···}Z {···}LLNNNWIJWWAAVl+1ELLNC我 XiXiNRXiXi我S KIJK J分别为样本xi的地面真值类标签X对应的潜在表征。功能iisisJVΣ Σˆ2表观相似度fa（vi，vj）。时间距离ft（vi，vj）是剪辑c i和c j的中心帧之间的绝对差（按帧的数量计数）。节点特征f聚集在一个CD矩阵，其中D是剪裁特征的尺寸因为图是无向的，所以邻接矩阵是对称的，即，，A（i，j）= A（j，i）.自注意力图形编码器。为了学习由图捕获的底层语义关系，我们使用多特征图自动编码器。如图3（c）所示，图形编码器如下使用邻接矩阵A和特征矩阵F上的图形卷积（GC）来学习逐层变换Z=GC（Z，A;W），（3）其中l和l+1是在层l处的图卷积的输入和输出，并且0=RC×D，如上构造的原始图。l是网络中对应的图卷积层为了清楚起见，在下文中省略了层1的索引为了增强图形数据的区分性表示，我们进一步引入图形注意力层[42]来执行自注意编码。图关注层的输入是节点特征的集合=z1，z2，，z C;输出是具有不同基数的一组新的节点特征′=z1′，z2′，，zC′. 我们使用K个注意头，而不共享权重，以获得与节点特征相关联的表示的不同集合。通过聚合与节点vi及其相邻节点相关联的特征来计算节点特征zi聚合特征在注意力头上被平均以生成节点v的更新特征z′，即、图形解码器。在对图进行编码之后，我们得到了用于图重构的隐藏嵌入。如图3（c）所示，我们使用另一个图卷积层以更高的基数进行细化在丢弃操作之后，我们使用图解码器来学习隐藏嵌入中每一行的相似性，以获得输出邻接矩阵。类似于Kipf和Welling [18]的工作，我们使用内积来计算隐藏嵌入中每个特征之间的余弦相似度，因为它对特征的大小是不变换句话说，通过对隐藏嵌入Z和ZT应用内积，我们可以学习Z中每个节点的相似性，并生成重构的邻接矩阵AA=Sigmoid（ZZT）。（六）3.3. 训练和推理通过最小化地面实况邻接矩阵A与重构邻接矩阵A之间的差异来训练网络。损失函数。为了训练所提出的网络，我们使用两个损失项-（i）分类损失c和（ii）反射损失r。分类损失惩罚网络对已知类别样本的错误分类。反射损失使网络对原始邻接矩阵的重建较差。总损失函数定义为L= Lc+ Lr1 1=P（x），y;Z）+Z（A ，A），iii=1Ki=1（七）z′=σ。1αkWz，（4）k=1j∈Nvi<$vi其中P（xi）和yxi是softmax概率，Z其中σs表示非线性softmax激活函数。V1表示节点V1的相邻节点，以及K是对应的输入线性变换的权重矩阵。αk表示由第k个注意力头计算的归一化注意力系数，其计算为布拉奇分类损失的交叉熵和函数是重建损失的二进制交叉熵。邻接矩阵重构。由于每个视频的长度在数据集中不同，我们使用归一化的re-k表达式σl（αT（Wkzi++Wkzj））<$LK 我K（五）图G（xi）的构造得分S（x i）来测量αij=Σexp. σ（αT（Wz++Wz）），对应样本x i的新颖度，即、其中++是级联操作，σl是泄漏ReLU激活函数。1、A=kzi，kzj）度量节点v j的特征对节点v i的重要性，其由单层前馈神经网络γ计算。如图3所示，我们只在第一个卷积图中使用了自我注意层。S（xi）=β·r（A（xi），A（xi）），（8）其中，R1和R2分别是估计的邻接矩阵和地面实况邻接矩阵。是二进制交叉熵函数。为了适应不同大小的邻接，我们使用β=N-NE作为归一化比。N和N表示E图编码器的层。N图的节点数和边数G分别。j∈Nv ii3376S0的情况。200的情况。30的情况。150的情况。100的情况。20的情况。050的情况。10的情况。00二、5个5.07。5100125标准化重建评分(a) HMDB-51数据集0的情况。01 2 3 4 5标准化重建评分(b) UCF-101数据集图4：测试集上已知和未知类的归一化重建分数（NRS）（xi）直方图。X轴指示归一化重建分数，而y轴指示实例的计数。红线表示数据集的最大F1分数阈值。推理。为了确定与视频相关的开放空间风险，我们计算测试集中每个视频的多特征表示。这些表示被传递通过图形自动编码器以确定与视频相关联的重构误差。给定由等式（2）计算的真实邻接矩阵，我们可以通过经验地设置阈值来估计重建误差以测量新颖度。如图4所示，如果重构误差高于阈值，则视频被视为4. 实验所提出的方法使用Pytorch [25]实现，并且所有实验都在具有NVIDIA Titan X GPU卡的工作站上进行如在相关工作中所讨论的，很少有新颖性检测方法用于视频动作识别1。根据[30]，我们将我们的模型与几种基线新颖性检测方法进行了比较。具有RBF内核的单类SVM [35]可以对一个（或所有）已知类的视频进行建模，其中训练错误分数n的上限设置为0。1.一、高斯混合模型（GMM）[28]生成性地表示具有8个分量的子空间中的视频，这表明任何样本都具有足够低的概率。I3D网络[3]的 Softmax概率[15不确定性[30]通过具有不同网络参数的贝叶斯神经网络（BNN）后验分布Informed Democracy [30]在新颖性检测的投票方案中利用了输出神经元1由于没有可用的开集动作识别方法的源代码[2，36]，我们无法在实验中比较它们已知µ2.57±1.57未知µ5.26±3.79已知µ1.0未知µ20.85 ±2.305±0.18概率概率3377−数据集。我们使用HMDB-51 [19]和UCF-101 [39]来评估我们的方法。 HMDB-51是一个视频数据集，包含6，766个手动注释的视频和51个动作类。每个类包括至少101个片段，每个片段的持续时间至少为1秒。它是从数字化电影和YouTube上收集的。UCF-101是另一个大型视频数据集，包含13，320个剪辑和101个动作类。剪辑长度从1. 06秒71分04秒。这些视频是从用户通过互联网上传的视频中收集的。在[30]中的工作之后，每个数据集被均匀地分成已知/未知类。为了公平比较，我们使用与Roitberg等人相同的数据集分割。 [30]并将开集动作识别公式化为二元分类问题。也就是说，我们将HMDB-51分为26/25个已知/未知类，将UCF-101分为51/50个已知/未知类。在不确定特定阈值的情况下，我们使用受试者操作特征（ROC）的曲线下面积（AUC）值、精确度-召回率（PR）曲线和F1评分来评估比较方法。实施详情。评估数据集包含许多持续时间为几秒的短剪辑。该网络使用Adam进行优化，学习率为1e5，持续300个epochs。公式（2）中的相似性阈值根据经验确定，并设置为θ a= 30和θ t=2n=32。用于自注意编码的头的数量被设置为K= 4。4.1. 结果分析如表1所示，可以看出，我们的方法大大优于现有的方法。我们的方法实现了ROC-AUC增益为3。17%和1。在HMDB-51和UCF-101数据集上分别为90%。同时，相应的标准差小于3378±K--单类SVM [35][28]第56话. 83（±4. （2）78。40（±3. （6）59. 21（±4. （2）79. 50（±2. （二）五十四09（±3. （0）77. 86（±4. （0）53. 55（±2. （0）78。57（±2. 四、不确定性[30][30]第三十话Humpty Dumpty（英[15]第六十五章：你是我的女人58（±3. 3）84. 21（±3.0）84. 28（±1. （9）93. 92（±0. 第七章）75. 33（±2. （7）88。66（±2. （3）92. 94（±1. （7）97。52（±0. 六、七十一78（±1. （8）86. 81（±2. （5）91. 43（±2. （3）96. 72（±1. 0个）数值报告为µ σHMDB-51 [19] UCF-101 [39]ROC-AUC mAP表1：开集识别结果（十个数据集分割的平均值和标准差在现有的方法中。这可归因于两个原因。首先，我们专注于建模的时间语义关系的视频剪辑，而不是单独的视频剪辑的外观其次，自注意编码方案可以更鲁棒地捕获多个特征之间的共同表示。在图4中，我们显示了上述两个数据集的测试集上已知和未知类的重建分数分布。平均重建分数F1 Max ROC-AUC mAPMax87.8176.8991.07AVG87.3976.6191.06多特征88.0679.0192.16表2：根据多个特征的开集识别结果。#KF1最大ROC-AUC mAP未知类的数目大于已知类的数目五、26对2 57（图4a）。然而，已知分布和未知分布之间存在一些重叠，导致HMDB-51的性能较弱.相比之下，UCF-101中已知测试视频的重构分数的大多数小于1。00（图4b）。这可能是因为我们在HMDB-51上的训练样本比UCF-101少。图5显示了在不同的重建误差值下获得的一些定性结果，其中我们选择了专门用于定性可视化的阈值。4.2. 消融研究我们进一步研究了我们的方法的三个重要组成部分的影响：（a）多特征表示，（b）自注意编码，以及（c）图形自动编码器。消融研究是在HMDB-51的单个分流上进行的。多重功能的有效性。为了研究多特征表示的重要性，我们仅使用主干的平均或最大池化层（在图3（a）中表示为“AVG”和“MAX”）来测试系统以计算剪辑的特征。根据表2，“MAX”变体与“AVG”变体相比此外，使用这两个功能在所有三个指标方面表现最好，a 2。ROC-AUC增加1，1。1 mAP增益和0. 最大F1增益为67。我们的结论是，多个功能是部分复杂的，在捕捉视频中的语义信息。自我注意编码的有效性。为了验证自我注意编码的有效性，我们列举了1 87.88 76.38 91.04288.07 77.76 91.382019 - 06 - 29 00：00：002019 - 04 - 28 00：00：00表3：根据不同的自我注意编码头部的开集识别结果。在等式（4）中，自注意编码的头的数目K=1，2，4，6。K=1意味着我们的方法使用卷积图层而不是自注意编码来捕获视频片段之间的关系。根据表3所示的结果，ROC-AUC和AP评分在达到最佳性能（K=4这一结果表明，自注意编码可以有效地建模视频片段之间的时间语义关系然而，这种影响并不大，并且很难用更多的自我注意编码头来提高性能。对于K=6，即使我们的F1评分提高，我们也实现了略差的ROC-AUC和mAP评分由于ROC-AUC和mAP评分的性能更好，我们在主要结果中设置K=4图形自动编码器的有效性。为了研究图自动编码器的有效性，我们将我们的方法与两种著名的开集算法，即极值机（EVM）[31]和自动编码器[52]进行了比较，这两种算法都是在与Humpty Dumpty相同的多个特征上进行训练的。如表4所示，我们发现使用EVM的两个度量中的急剧下降，即，69。24对 79岁。01在3379GT已知已知已知未知未知HMDB-51NRS0.911.051.342.15 2.58GT已知未知已知未知未知HMDB-51NRS3.204.805.625.75 10.21GT已知已知已知已知已知UCF-101NRS0.881.001.021.09 1.45GT未知未知未知未知未知UCF-101NRS1.561.621.651.81 2.23图5：HMDB-51和UCF-101数据集的定性结果，其中视频是随机选择的。框的颜色表示我们的方法是否正确（绿色框）或错误（红色框）识别剪辑是否来自已知或未知类。开集算法F1最大ROC-AUC mAPEVM [31]87.4969.2486.51自动编码器[52]86.9344.3973.27Humpty Dumpty（英语：HumptyDumpty）88.0679.0192.16表4：EVM、Autoencoder和我们的方法的开集识别结果ROC-AUC评分，86。五十一对九十二。mAP评分16分。这表明我们的图形自动编码器中的隐藏嵌入以及重建误差比EVM [31]使用的Weibull分布更有效。此外，尽管我们的图形自动编码器和标准自动编码器共享类似的概念，例如编码器、解码器和重构，但标准自动编码器学习对恒等函数的近似，使得输出特征类似于原始特征，但它未能捕获不同特征之间的潜在关系相比之下，我们的图形自动编码器利用视频剪辑之间的上下文和语义关系，然后重构视频图的邻接矩阵，从而得到更好的性能。5. 结论在这项工作中，我们提出了一个新的多特征图自动编码器，Humpty Dumpty，以解决开集动作识别。这些结果表明，多个特征有助于自动编码器通过利用来自视频的突出和上下文信息来学习已知类的更鲁棒的重建。自我关注步骤有助于将网络集中在最重要的节点上，尽管太多的自我关注头部会带来收益递减。最后，我们证明了Humpty Dumpty可以在两个数据集上实现开集动作识别的最新性能鸣谢。本材料是基于美国国防高级研究计划局（DARPA）根据合同号HR001120C0055。本材料中表达的任何观点、发现和结论或建议均为作者的观点，不一定反映DARPA的观点。鼓掌波仰卧起坐俯卧撑骑自行车flic_flac接投篮刷毛台球击剑曲棍球点球锤击大提琴演奏弓步PoleVault攀绳WallPushupsSoccerPenalty3380引用[1] Joan Bruna ， Wojciech Zaremba ， Arthur Szlam ， andYann Le- Cun. 图上的谱网络和局部连通网络。见ICLR，2014年。[2] Pau Panareda Busto，Ahsan Iqbal和Juergen Gall。用于图像和动作识别的开集域自适应。TPAMI，42（2）：413[3] J oaoCarreira和Andr e wZisserman。Quovadis，动作识别？新模型和动力学数据集。在CVPR中，第4724-4733页[4] L. Carroll和J.泰尼尔透过镜子：爱丽丝在那里发现了什么。阿尔特莫斯1897年亨利·阿尔特穆斯公司[5] 克里斯托夫·费希滕霍夫。X3D：扩展架构以实现高效的视频识别。在CVPR，第200-210页[6] Christoph Feichtenhofer ， Haoqi Fan ， Jitendra Malik ，and Kaiming He.用于视频识别的慢速网络。在ICCV，第6201-6210页[7] ChristophFeichtenhofer、AxelPinz和AndrewZisserman 。卷积双流网络融合视频动作识别。在CVPR，第1933-1941页[8] Chuanxing Geng，Sheng-Jun Huang，and Songcan Chen.开集识别的最新进展：一个调查。TPAMI，43（10）：3614[9] 放大图片作者：Justin Gilmer.帕特里克·舍恩霍尔茨Riley、Oriol Vinyals和George E.达尔量子化学的神经信息传递。在ICML，第70卷，第1263[10] Dong Gong ， Lingqiao Liu ， Vuong Le ， BudhadityaSaha，Moussa Reda Mansour，Svetha Venkatesh ，andAnton van den Hengel.记忆正态性以检测异常：用于无监督异常检测的存储器增强深度自动编码器。在ICCV，第1705-1714页[11] Omkar Gune ， Amit More ， Biplab Banerjee ， andSubhasis Chaudhuri.使用开集识别的广义零激发学习。在BMVC中，第213页，2019年。[12] 原贤章片冈广胜佐藤丰时空3d cnns能回溯2d cnns和imagenet的历史吗？在CVPR中，第6546-6555页[13] 放大图片作者：Mahmudul Hasan，Jonghyun Choi，JanNeumann，Amit K. Roy-Chowdhury和Larry S.戴维斯学习视频序列中的时间在CVPR，第733-742页[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年[15] 丹·亨德里克斯和凯文·金佩尔。用于检测神经网络中错误分类和分布外示例的基线。在ICLR，2017。[16] Lalit P Jain，Walter J Scheirer，and Terrance E Boult. 利用包含概率的多类开集识别。在ECCV，第393-409页[17] 水忘机、魏旭、明阳、开宇。用于人体动作识别的三维卷积神经网络TPAMI，35（1）：221[18] 托马斯·N Kipf和Max Welling。变分图自动编码器。CoRR，abs/1611.07308，2016。[19] Hildegard Kuehne，Hueihan Jhuang，Est´ıbaliz Garrote，Tomaso A. Poggio和Thomas Serre。HMDB：一个用于人体运动识别的大型视频数据库。在ICCV，第2556-2563页[20] 伊万·拉普捷夫和托尼·林德伯格。时空兴趣点。ICCV，第432-439页，2003年[21] 李国豪， MatthiasMüller ， AliK.作者声明：JohnW.Deepgcns：gcns能和cnns一样深吗？在ICCV，第9266-9275页[22] Marc Masana ， Idoia Ruiz ， Joan Serrat ， Joost van deWei-je r，andAn tonioM. 洛佩兹。度量学习用于噪声和异常检测。在BMVC，第64页，2018年。[23] Martin Mundt，Iuliia Pliushch，Sagnik Majumder，andVis- vanathan Ramesh.通过深层神经网络不确定性进行开集识别：分布外检测是否需要生成分类器？在ICCVW，第753-757页，2019年。[24] Xi Ouyang ， Shuangjie Xu ， Chaoyun Zhang ， PanZhou，Yang Yang，Guanghui Liu，and Xuelong Li.基于3d-cnn和lstm的动作识别多任务学习架构访问，7：40757[25] Adam Paszke ， Sam Gross ， Francisco Massa ， AdamLerer ， James Bradbury ， Gregory Chanan ， TrevorKilleen ， Zeming Lin ， Natalia Gimelshein ， LucaAntiga，et al. Pytorch：命令式的高性能深度学习库。在NeurIPS，第8026-8037页[26] 弗拉德？普拉穆迪萨？佩雷拉Morariu、Rajiv Jain、Varun Man-junatha、Curtis Wigington、Vicente Ordonez和Vishal M.帕特尔开集识别的生成-判别特征表示。在CVPR中，第11811-11820页[27] Pramuditha Perera和Vishal M.帕特尔用于多类新颖性检测的深度转移在CVPR中，第11544-11552页[28] Marco A. F.作者：David A. Clifton，Lei A.克利夫顿和莱昂内尔·塔拉森科新颖性检测综述。信号处理。，99：215[29] Sebastian Ramos，Stefan Gehrig，Peter Pinggera，UweFranke，and Carsten Rother.检测自动驾驶汽车的意外障碍物：融合深度学习和几何建模。在智能车辆研讨会上，第1025- 1032页[30] Alina Roitberg，Ziad Al-Halah，and Rainer Stiefeldings.信息民主：用于动作识别的基于投票的新颖性检测。在BMVC，第52页，2018年。[31] 伊森·M Rudd， Lalit P. Jain ，Walter J. Scheirer 和 Terrance E.博尔特极值机器。TPAMI，40（3）：762[32] 作者：Jason J.高索行动银行：视频中活动的高级表示。在CVPR，第1234-1241页[33] 阿明·萨利希和哈桑·达武尔库图形注意自动编码器。CoRR，abs/1905.10715，2019。[34] Walter J Scheirer，Anderson de Rezende Rocha，ArchanaSapkota，and Terrance E Boult.开集识别。TPAMI，35（7）：1757[35] 放大图片作者： BernhardScholk opf ， RobertC.Wilberson，Ale xanderJ.Smola，John Shawe-Taylor，andJohn C.普拉特支持向量3381新颖性检测方法。NeurIPS，第582-588页，1999年。[36] Yemin Shi ， Yaowei Wang ， Yixiong Zou ， QingshengYuan，Yonghong Tian，and Yu Shu. ODN：开放深层网络，用于开放集合动作识别。在ICME，第1-6页，2018年。[37] Karen Simonyan和Andrew Zisserman双流卷积网络用于视频中的动作识别。在NeurIPS，第568-576页[38] Khurram Soomro和Amir R Zamir。真实体育视频中的动作识别。在计算机视觉在体育，第181-208页。2014年[39] Khurram Soomro、Amir Roshan Zamir和Mubarak Shah。UCF101：来自野外视频的101个人类动作类的数据集。CoRR，abs/1212.0402，2012。[40] 杜特兰Bourdev，Rob Fergus，Lorenzo Torre- sani，andManohar Paluri.用3d卷积网络学习时空特征。在ICCV，第4489[41] Du Tran，Heng Wang，Lorenzo Torresani，Jamie Ray，Yann LeCun，and Manohar Paluri.动作识别的时空卷积的详细研究在CVPR中，第6450- 6459页[42] PetarVelickovic、GuillemCucurull、ArantxaCasanova、Adria

下载后可阅读完整内容，剩余1页未读，立即下载