全息交互T变换器网络：一种用于动作检测的多模态网络，利用手部和姿势信息对人类行为进行建模，并使用注意力融合机制粘合多模态特征，提取时间上下文线索，达到更好的分类效果

162 浏览量更新于2023-10-16 1 收藏 962KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3340用于动作检测的整体交互式Transformer网络Gueter Josmy Faure1陈敏宏2赖尚宏1，21国立清华大学，台湾2微软人工智能研发中心，台湾josmyfaure@gapp.nthu.edu.twvitec6@gmail.comlai@cs.nthu.edu.tw摘要行动是关于我们如何与环境互动在本文中，我们提出了一种新的多模态全息交互T变换器网络（HIT），该网络利用了基本上被忽略但关键的手部和姿势信息对大多数人类行为的影响建议的HIT网络是一个全面的双模态框架，包括RGB流和姿势流。它们中的每一个都分别对人、物体和手的交互进行建模。在每个子网络中，引入了一个内部模态聚合模块然后使用注意力融合机制（AFM）将每个模态的结果特征粘合在一起。最后，我们从时间上下文中提取线索，以更好地分类使用缓存内存发生的动作。我们的方法在J-HMDB，UCF 101 -24和MultiSports数据集上的性能显着优于以前的方法。我们在AVA上也取得了有竞争力的成绩代码将在https://github.com/joslefaure/HIT上提供。1. 介绍时空动作检测是在空间和时间上对动作进行分类的任务。在这方面，它是有趣的不同和更具有挑战性的比普通的动作检测，其目标是标记一个单一的类的整个视频。声音时空动作检测框架旨在深入学习每个视频帧中的信息，以正确标记帧中的每个人。它还应该保持相邻帧之间的链接，以更好地理解具有连续属性（如近年来，已经引入了更强大的框架，明确考虑空间实体之间的关系[28，42]，因为如果两个人在同一帧中，他们可能会相互作用。然而，仅使用每个特征不足以捕获对象相关动作（例如，排球扣球）。另一些人不仅试图理解画面上的人与人之间的关系，图1：直觉。这个数字说明了手部特征对于检测动作的重要性。画面中的两个人都在与物体互动。尽管如此，实例检测器仍然无法检测到人们正在与之交互的那些对象（绿色框），而是选择不重要的对象（灰色虚线框）。然而，捕捉手和其间的一切（黄色框）使模型更好地了解参与者正在执行的动作（红色框）;其周围的物体[26，39]。这些方法有两个主要缺点。首先，它们仅依赖于具有高检测置信度的对象，这可能导致忽略可能太小而无法检测或对现成检测器未知的重要对象。例如，在图1中，没有检测到参与者正在与之交互的对象。其次，这些模型很难检测到与帧中不存在的对象相关的动作。例如，考虑动作有可能参与者所指向的对象不在当前帧中图1说明了我们进行这项研究的动机之一。大多数人的行动是偶然的，他们用他们的手和他们的姿势时，执行特定的行动。左边的人正在尽管如此，我们的模型仍然能够捕捉到这个动作，因为我们考虑了人的手部特征和主体的姿势（弯曲的位置是典型的有人拿起东西）。同样的问题也发生在右边那个“坐着并拿着（一个物体）”的该男子拿着一个杯子，但物体探测器没有发现3341对象，可能是因为它非常小或高度透明。使用手部特征，我们的模型隐含地专注于这些具有挑战性的对象。我们提出的全息交互转换器（HIT）网络使用细粒度的上下文，包括人的姿势，手，和对象，构建一个双模态的交互结构。每种模式都包括三个主要组成部分：人交互、物体交互和手交互。这些组件中的每一个都学习有价值的本地动作模式。然后，我们使用注意力融合机制来结合不同的模态，然后从相邻帧中学习时间我们在J-HMDB [13]、UCF 101 -24 [35]、多运动[18]和AVA [10]数据集上进行了实验，我们的方法在前三个数据集上实现了最先进的性能，同时与AVA上的SOTA方法竞争。本文的主要贡献可归纳如下：• 我们提出了一个新的框架，结合RGB，姿势和手的动作检测功能。• 我们引入了一个双模态整体交互转换器（HIT）网络，它以直观和有意义的方式结合了不同类型• 我们提出了一个注意力融合模块（AFM），作为一个选择性的过滤器，以保持最informa- tive功能，从每个模态和模态内聚合器（IMA）学习有用的动作表示内的模态。• 我们的方法在三个最具挑战性的时空动作检测数据集上实现了最先进的性能。2. 相关工作2.1. 视频分类视频分类包括识别视频剪辑中通常，剪辑跨越几秒钟，并有一个标签。最近的这项任务的方法使用3DCNN [1，5，6，40]，因为它们可以将整个视频剪辑作为输入处理，而不是将其视为帧序列[30，38]。由于标签视频数据集的稀缺性，许多研究人员依赖于在ImageNet上预训练的模型[1，41，47]，并将其用作提取视频特征的骨干。双流网络[5，6]是另一种广泛使用的视频分类方法，这要归功于它们只处理一小部分输入帧的能力，在准确性和复杂性之间取得了良好的平衡。2.2. 时空动作检测近年来，更多的关注已经给予时空动作检测[5，7，17，28，39]。正如其名称（时空）所暗示的那样，我们需要检测空间中的动作，而不是将整个视频分类每个人在当前帧中的动作，并且在时间上，因为每个帧可能包含不同的动作集合。最近关于时空动作检测的工作使用3D CNN主干[27，42]来提取视频特征，然后使用ROI池化[8]或ROI对齐[12]从视频特征中裁剪人物特征。这种方法丢弃了视频中包含的所有其他潜在有用的2.3. 交互建模如果时空动作检测任务真的是一个交互建模任务呢事实上，我们的大多数日常行为都是与环境的互动（例如，其他人，物体，我们自己）和我们的行动之间的相互作用（例如，很可能“ 开门 ” 之后是 “ 关门”）。交互建模的想法激发了一波关于如何有效地为视频理解建模交互的研究[28，39，42]。这方面的研究大多采用注意机制。[25 51]提出了时间关系网络（TRN），其学习帧之间的时间依赖性，或者换句话说，学习来自相邻帧的实体之间的交互。其他方法进一步不仅对来自同一帧的不同实体之间的时间和空间交互进行然而，选择的实体的模型的相互作用不同的模型。[28，45]不是只使用人类特征，而是选择使用背景信息来模拟帧中的人与上下文之间的交互。他们仍然裁剪人物的特征，但不丢弃剩余的背景特征。这种方法提供了关于人的周围环境的然而，虽然上下文说了很多，但它可能会引起噪音。为了更有选择性地使用特征，[26，39]首先将视频帧通过对象检测器，裁剪对象和人的特征，然后对它们的交互进行建模。这个额外的交互层提供了比独立的人类交互建模模型更好的表示，并有助于与对象相关的类，例如然而，当对象太小而不能被检测到或不在当前帧中时，它们仍然不足。2.4. 多模态动作检测最近的动作检测框架只使用RGB特征。少数例外，如[10，34，36，37]和[29]用光流捕捉运动[37]第三十七话3342˜∗∈∈K- -MP OH图2：我们的HIT网络概述。在我们的RGB流之上是一个3D CNN主干，我们使用它来提取视频特征。我们的姿态编码器是一个空间变换器模型。我们使用人，手，和对象的功能，从两个子网络来计算丰富的本地信息。然后，我们结合学习的功能，使用一个专注的融合模块，然后建模他们的相互作用与全球背景。类似于inception-like模型，并在Mixed4b层（早期融合）连接RGB和流特征，而[10]和[36]使用I3 D主干分别提取RGB和流特征，然后在动作分类器之前连接这两种模态。虽然基于骨架的动作识别已经存在了一段时间[2，11，24]，但据我们所知，以前没有任何工作解决了基于骨架的动作检测。在本文中，我们提出了一个双模态的方法来动作检测，采用视觉和基于图像的功能。每种模态在融合之前都要计算一系列的交互，包括人、物体和手。然后将时间交互模块应用于融合特征以学习关于相邻帧的全局信息。3. 该方法在本节中，我们将详细介绍我们的方法。我们的整体交互Transformer（HIT）网络同时由RGB子网络和姿态子网络组成. 每一个都旨在对象、姿势、手）。在融合两个子网络的输出之后，我们通过查看来自过去和未来帧的缓存特征来进一步建模动作如何随时间演变。这样一个全面的activity理解计划，帮助我们实现卓越的动作检测性能。本节的组织如下：我们首先描述图3：交互模块的图示。是指模块特定的输入，而P是指A（P）中的人的特征或A（P）之前的模块的输出。图4：模态内聚合器的图示。从一个单元到下一个单元的特征首先用上下文线索增强，然后过滤。第3.1节中的实体选择过程。在第3.2节中，我们在第3.3节中介绍其姿态对应物之前详细说明RGB模态。此外，在3.4节中，我们解释了我们的注意力融合模块（AFM），然后是时间交互单元（3.5节）。给定RC×T ×H ×W中的输入视频V，我们提取视频通过应用3D视频骨干以VbRC×T ×H ×W为特征。之后，使用ROIAlign，我们从视频中裁剪人物我们还保留了一个内存缓存功能=[t S，.， t 1，t，t+1，...，t+S]，其中2S+1是时间窗口。同样，我们使用姿势模型从数据集的每个关键帧中提取人物关键点。此外，RGB和姿态子网络分别计算RGB特征Frgb和姿态特征Fpose。然后，这些特征被融合并且随后被用作用于学习全局上下文信息以获得Fcls的锚。最后，我们的网络输出y=g（Fcls），其中g是分类头。总体框架如图2所示。3.1. 实体选择HIT由两种镜像模式组成，它们具有不同的模块，旨在学习不同类型的交互。人类的动作主要基于他们的姿势、手部动作（和姿势）以及与周围环境的互动。基于这些观察，我们选择人体姿势和手部边界框作为模型的实体，3343KPK POHOH∗˜P波尔v对象和人物边界框。我们使用Detectron [9]进行人体姿势检测，并创建一个包围盒来包围人的手的位置遵循最先进的方法，[39]，[32]，[28]，我们使用Faster-RCNN[31]来计算对象边界框建议。视频特征提取器是3DCNN骨干网络[5]，3.3. Pose Branch姿势模型类似于RGB模型，并重用其大部分输出。我们首先通过使用受[50]启发的光Transformer编码器f来提取姿态特征K'K′=f（K）（2）姿势编码器是一个轻量级的空间Transformer，其灵感来自于[50]第50段。我们应用ROIAlign [12]来修剪视频特征，然后我们计算F构成通过反映不同的骗局，提取人、手和对象特征。3.2. RGB分支RGB分支包括三个主要组件，如图2所每个都执行一系列操作替代品的RGB模式和重用其相应的-ING输出。这里，P′、O′和H′是A（P）、A（O）和A（H）的相应输出。F位姿=（A（K′，P′）→zp→A（O′）→zp→A（H′）→zp）′ ′wq（K′）×wk（P′）′以了解有关目标人物的具体信息。人交互模块学习交互是-A（K，P）=softmax（波普尔）×wv（P）（三）当前帧中的人物之间（或当帧仅包含一个主题时的自交互对象和手交互模块分别对人-对象和人-手交互进行建模。每个交互单元的核心是交叉注意力计算，其中查询是目标人（或前一个单元的输出），并且键和值是从对象或手特征中导出的，这取决于我们在哪个模块（参见图3）。这就像问以下等式总结了RGB分支Frgb=（A（P）→zr→A（O）→zr→A（H）→zr）A（′，′）计算了姿态特征和增强的人的交互特征，tures′。这样的跨模态混合通过聚焦于RGB特征的关键对应属性来实施姿态特征。其他组件A（′）和A（′）将zp的线性投影作为查询，而它们的键值对来自A（）和A（）。Zp是姿态模型的模态内聚合分量与zr类似，它过滤和聚合来自每个交互模块的信息3.4. 注意力融合模块（AFM）在网络中的某个点，RGB和姿势流需要在被馈送到动作分类器之前被组合成一组特征。为此，我们建议f）=softmax（wq（P）×wk（））×w（）（一）一个专注的融合模块，应用通道方式的CON，两个特征集的连接，然后是自我关注zr=<$A（b）×softmax（θb），b∈（P∈，O，H，M）dr表示RGB特征的通道维度wq、wk和wv将它们的输入投影到查询、键和值中，用于特征细化。然后，我们通过使用投影矩阵Θfuse d来减小输出特征的幅度。我们的消融研究中的表5a证实了我们的融合机制与文献中使用的其他融合类型相比的优越性。分别A（）是交叉注意机制。它只需要人的特征作为输入时，计算人在-F稠合 =使用的Θf（自我注意（F） RGB，F姿势））（4）相互作用A（）。然而，对于手交互（对象交互），需要两组输入：z r的输出，其用作查询（表示为P），以及手特征（对象特征），我们从中获得键和值。模态内聚合分量zr是所有交互模块的加权和，包括时域交互模块TI（见图4）。由于两个主要原因，ZR是必不可少的。首先，它允许网络有效地聚集尽可能多的信息。其次，可学习参数θ有助于过滤不同的特征集，手工挑选每个特征集必须提供的最佳特征，同时丢弃噪声和不重要的信息。关于zr的更详细的讨论在柔软的材料中提供。BA（3344MM3.5. 时间交互单元融合模块之后是时间交互块（TI）。人类的行为是连续的;因此，长期背景对于理解行动是至关重要的。随着F融合，这个模块接收压缩内存数据的长度为2S+1。受[39]的启发，内存缓存包含视频骨干中的人物特征。F融合询问哪些相邻帧包含信息特征，然后吸收它们。TI是另一个交叉注意模块，其中F融合是查询，并且存储器M的两个不同投影形成键值对。Fcls=TI（F融合，M）（5）3345≥最后，分类头g由具有relu激活的两个前馈层和输出层组成。y=g（Fcls）（6）4. 实验我们在四个具有挑战性的动作检测数据集上进行实验：[13][14][15][16][17][18][19]下面描述的实现细节与J-HMDB和UCF 101 -24数据集有关。我们建议读者参考补充材料，了解我们如何训练MultiSports和AVA的详细信息。4.1. 数据集J-HMDB数据集[13]有21个动作类，每个类最多55个剪辑。该数据集总共有31，838个带注释的帧，分辨率为320x240。每个视频剪辑都经过裁剪以包含单个动作。为了与其他方法保持一致，我们报告了数据集分割1的帧和视频mAP帧mAP的IoU阈值为0.5，与我们比较表中的其他方法相同。UCF 101 -24是UCF 101 [35]数据集的一个子集，适用于时空动作检测。它包含24个动作类（主要与体育活动有关），跨越3207个未修剪的视频，并逐帧注释人类边界框。我们采用与J-HMDB相同的测试MultiSports[18]包含来自四种不同运动的66个细粒度动作类别，跨越3200多个视频剪辑，具有37701个动作实例和902k个边界框。动作的注释速度为25 FPS，每个视频片段持续约22秒。AVA[10] 2.2版由430个15分钟的视频组成，这些视频对于数据集中的每个视频，900帧用人类边界框和标签注释。该数据集包含80个类别标签，分为姿势动作（14）、人与人交互（49）和人与物体交互（17）类别。根据标准实践，我们报告了80个类中的60个的帧mAP，空间IoU阈值为0.5。4.2. 实现细节人员和物体探测器：我们从数据集中的每个视频中提取关键帧，并使用[16]中检测到的人绑定框进行推理。作为对象检测器，我们采用Faster-RCNN [31]和ResNet-50-FPN [21，46]主干。该模型在ImageNet上进行了预训练[3]，并在MSCOCO上进行了微调[22]。关键点检测和处理：对于关键点检测，我们采用Detectron [9]的姿势模型。作者使用Resnet-50-FPN主干在ImageNet上进行对象检测预训练，并在MSCOCO上进行微调关键点使用预先计算的RPN [31]建议。来自目标数据集的每个关键帧都通过模型，该模型为每个检测到的人输出17个关键点，对应于COCO格式。我们进一步对检测到的姿势坐标进行后处理，因此它们匹配地面实况人物边界框（在训练期间）和[16]中的边界框（在测试期间）。对于人手的定位，我们只对与人的手腕有关的关键点感兴趣;因此，我们把这两个关键点做成一个边界框来突出人的手和两者之间的一切。骨干网：我们采用SlowFast网络[5]作为视频骨干网。我们的实验和消融研究使用Slow- Fast和在Kinetics-700 上预训练的 ResNet-50 实例化 [1] 。对于 AVA 和MultiSports，我们使用在K700上预训练的更培训和评估：输入视频每剪辑采样32帧，α=4，τ=1，这意味着慢速路径的SlowFast主干的时间步长为4，而快速路径将整个32帧作为输入。在训练期间，随机抖动增强被应用于地面实况人类边界框。对于对象框，我们使用检测得分为0的对象框。25并且其与同一帧中的任何人边界框的IoU为正。这是为了确保只有具有相对高的置信度分数的对象和那些与人类直接交互的对象被包括在我们的样本中。该网络在J-HMDB数据集上训练了7 K次迭代，前700次迭代用作线性预热。未使用重量衰减。我们使用SGD作为优化器，批量大小为8，在一个11GB的GPU上训练模型。我们在UCF 101-24数据集上进行了50 k次迭代的训练，在前1 k次迭代中采用线性预热。在迭代25k和35k时，初始学习速率0.0002降低了10倍。在推理过程中，我们预测了[16]为两个数据集提供的人类边界框的动作标签。4.3. 与最新方法的在表1和表2中，我们分别在具有挑战性的J-HMDB和UCF 101 -24数据集上将我们的结果与其他方法进行了比较。我们的方法注册显着的收益相比，国家的最先进的方法，无论是在帧和视频mAP。这样的表现证明了我们的双模态框架在表3中，我们报告了MultiSports数据集的结果。我们的方法优于其他方法的帧mAP与IoU阈值为0.5，和视频mAP时，时空管阈值为2。如表4所示，我们在最具挑战性的细粒度动作检测数据集（AVA）上获得了有竞争力的结果。与ACAR [28]使用预先训练的特征作为记忆和Tu-3346模型输入f@0.5v@0.2v@0.5模型预训练帧图谱SlowFast，R-101+NL[5]K60029.0X3D-L[4]K60029.4美国航空公司[39]K70032.3对象Transformer[43]K60031.0[48]第四十八话K70031.6ACAR[28]K70033.3[44]第四十四话K70033.5*TubeR [49]IG +40033.6我们K70032.6我们的五83.889.7 88.1表1：与J-HMDB上最先进方法的帧和视频级比较。我们使用一个慢快Resnet50作为视频骨干，并报告我们的结果在mAP。我们的模型在帧mAP和视频mAP指标上都优于最先进的模型输入f@0.5v@0.2v@0.5ACT [15]V + F67.177.251.4[23]第二十三话V + F70.9--TacNet [34]V + F72.177.552.9[29]第二十九话V + F73.780.449.5MOC [20]V + F78.082.853.8美国航空公司[39]V78.8--[第36话]V + F79.284.361.0TubeR [49]V + F83.283.358.4ACAR [28]V84.3--我们的五84.888.8 74.3表2：与UCF 101 -24最新方法的比较。与我们的比较表中的其他方法一样，我们使用0.5的IoU阈值评估分割1上的帧mAP，并使用0.2和 0.5的阈值评估视频mAP。模型f@0.5v@0.2v@0.5公路[33]3.90.00.0YOWO[16]9.210.70.8MOC [20]25.212.80.6[18]第十八话27.724.19.6我们33.327.88.8表3：与多项体育运动的最新技术水平的比较。我们的模型在两个指标上显着优于其他方法。beR [49]使用在IG + K400数据集上预训练的主干，这是唯一一种性能优于我们表4：与AVA v2.2最新技术水平的比较。与SOTA方法相比，我们的模型具有可比性的结果。是MeMViT [44]。总的来说，我们在四个动作检测数据集上的结果展示了我们的方法的泛化能力。4.4. 消融研究我们在J-HMDB数据集上进行消融实验，以说明我们的模型及其组成部分的有效性。所有消融均使用SlowFast-Resnet 50视频主干进行。我们使用具有0.5的IoU阈值的帧mAP作为评估度量。网络深度：我们的两层网络足以学习有价值的功能，有助于准确的动作检测。如表5b所示，与只有一层相比，两层设置将mAP提高了4%以上，而添加第三层会导致过拟合。这是由于我们的方法在一个层中混合了大量信息。因此，对于剩余的实验，我们使用两个层报告结果。两层是指RGB子网络重复两次，姿势子网络也是如此。注意力融合模块（AFM）：我们使用了Atten- tiveFusion Mechanism（AFM）来结合两种模式的特征。它配备了自我注意力，有助于平滑不同模态之间的融合过程。我们通过将其与 Sum 、 Concat 、WeightedSum和Average进行比较来证实这一选择。在Sum融合中，指的是按元素添加特征。这种方法产生最坏的结果，因为我们最终得到了显着放大的结果。Concat融合代表RGB和姿势特征的逐通道级联它比Sum融合略好，但仍然达不到预期的结果，因为它没有增强结果。WeightedSum产生的mAP略高于前两种融合方法。然而，它不会挑战我们的AFM，因为我们的模态内聚集器（IMA：zr，zp）已经从每个模态中选择了最佳特征一种较好的融合方法是平均融合法。ACT [15]V + F65.774.273.7Li et. [19]V-76.174.3TacNet [34]V + F65.574.173.4MOC [20]V + F70.877.377.2AVA[10]V + F73.3-78.6[第36话]V + F74.882.682.2[29]第二十九话V + F76.785.984.0[第37话]V + F77.9-80.1[45]第四十五话V79.2--TubeR [49]V + F-87.482.33347双峰融合mAP总计78.60Concat 78.77加权和80.21平均值81.35AFM83.81(a) 双模态融合方法深度图1 层79.212 层83.813 层81.54(b) 网络深度地图时间交互之后82.16时间交互之前83.81(c) 晚期与早期融合地图不含IMA 79.80含IMA83.81(d) IMA的重要性地图骨干58.85[39]第39话Backbone + Pose Encoder 80.44骨干+我们的83.81(e) 交互建模方法双手RGB姿势mAP58.85✓79.11中国79.62✓80.19中国80.82价格80.90中国83.81(f) 每种形态和手部特征A（H）A（O）TImAP✓81.44✓78.86✓79.73中国79.36中国80.23中国79.62中国83.81(g) 单个交互单元表5：J-HMDB的消融研究我们使用SlowFast-Resnet 50作为视频主干，并在mAP中报告我们的结果。主干指的是视频主干，后面跟着动作分类器。对于Backbone + Encoder，我们直接使用我们的AFM融合从姿势编码器和视频骨干中提取的姿势和RGB特征，然后应用动作分类器。sion，它取RGB和姿势流的平均值这种融合方法解决了Sum的缺点，但并没有增强所得到的特征。如表5a所示，我们的AFM由于其增强组合特征的能力而比其他方法工作得更好。晚期与早期融合：后期/早期融合是指我们是否在时间交互模块之前或之后融合两种模态。表5c报告了我们尝试两种结构的结果。正如我们所料，时态交互在完整的要素地图上而不是要素地图上进行时效果(a) 手部特征对于检测动作类“倒”。(b) The “pick up” class has aclear pose每一种模式都是独立的。它也应该更有效，因为我们只需要一个时间交互单元。模态内整合器（IMA）：在第3节中，我们描述了用于RGB模态的模态内分量z r和用于姿态模型的z p的使用。我们注意到，当网络自己学习如何做到这一点时，可以实现更好的特征选择如表5d所示，如果没有模态内聚合模块，重要信息将被浪费，从而阻碍模型的性能。因此，我们呈现来自每个交互单元的特征，并让IMA组件选择和聚合-图5：手部和姿势特征的重要性。(a)另一个动作与明确的姿态（b）一个中立的类。精度按自己喜欢的方式来组建。交互建模方法：为了验证我们的互动-签名.随着我们插入更多模块。的建模方案，我们重新实现了另一种交互方法，在视频骨干网的顶部上的文献表5e包含用裸骨架、用骨架和我们的姿势编码器以及用骨架和我们的姿势编码器获得的结果。图6：模式的重要性。3348OHPOAIA的实施[39]。对于Backbone + Pose Encoder框架，我们直接融合视频骨干和姿势编码器的输出。该表显示，我们的姿势编码器比AIA更强大，AIA聚合了per-son，object和memory interaction。这证明了一个人这样的结果也证实了姿态信息工作良好，无论是用作补充还是用作独立网络。每种模式和手部特征的重要性：在表5f中，我们给出了我们模型的不同构建块的详细消融。仅使用RBG或姿势模态，动作检测mAP与骨干相比跳了20个点，并从那里继续增加。排除手部特征，仅姿态模型比仅RGB模型更强，这证实了我们的假设，即手部特征对RGB子网络更有价值，因为姿态子网络隐含地包含手部信息（手部关键点）。也就是说，仅姿态模型仍然受益于手部特征，如mAP从80增加所证明的。19%没有手到80。90%与他们只有RGB的模型在增加手牌时会获得更高的增益（79。11%对80. 82%）。这些实验强调了手的互动动作检测的重要性。在所有这些组件拉动字符串的情况下，使用两种具有手部交互的模式训练的模型具有最高的准确性。这样的结果表明我们框架的所有部分之间的和谐以及它们的独立贡献。不同类型互动的重要性：由于我们的框架由三种辅助类型的交互单元组成，因此我们希望量化它们的不同贡献。虽然这是可行的，但由于我们的模型是以人为中心的，因此我们没有考虑在该消融中移除A（）。如表5g所示，单独的手交互（A（））产生比A（）或TI更高的准确性。它也比任何其他组合都好。我们怀疑这是我们的内部模态聚合器没有足够的功能来工作的副产品。如果没有其他交互类型作为强制器，A（）返回最低的准确性。然而，当与手交互配对时，该模型的准确率从78.86%跃升至80.23%，概述了它们的互补性。这种消融证明，以前被忽视的手部特征为准确的动作检测提供了重要信息。4.5. 定性结果为了进一步评估我们的框架的性能并理解它“看到”了什么，在图5中，我们展示了来自J-HMDB数据集的选择帧的定性结果，其中我们认为动作类与手相关。图5a说明了如何使用手的特征可以帮助与手相关的类，例如“pour”。一个没有手的模特由于背景和演员之间的差的差异，难以检测到这样的动作。我们的模型很容易发现动作，因为它关注的是人的手。在图5b中，由于人的弯曲，仅姿态模型甚至比完整的双模态框架更强大即使“拾取某物”的动作是与手相关的，但是由于帧的模糊，针对该帧的手检测特征可能是有噪声的。这样的结果表明我们的姿势模态能够识别的微妙之处图6a证实了我们的仅姿态模型在对具有典型姿态特征的动作进行分类方面做得非常出色。这个人用他的手“挥棒球”;然而，姿势签名仍然比RGB手部特征更明显。图6b进一步证实了我们的模型的每个模态对于像“run”这样的中性类有了这样的结果，我们可以说，我们的网络的不同模式协同工作，以帮助我们实现卓越的视频动作检测性能。4.6. 局限性和失败案例我们的框架依赖于现成的检测器和姿态估计器，并没有考虑到他们的失败。AVA数据集的大量帧是拥挤的并且具有低质量。因此，检测器和姿态估计器分析我们在J-HMDB数据集上的结果，我们发现失败的两个主要原因第一个与外观相似的类有关，例如“throw”和“catch”，它们在视觉上是相同的。第二种是部分闭塞。有关限制的更详细讨论，请参阅补充材料。5. 结论学习人与其他实例之间交互的性质对于检测动作至关重要。在本文中，我们证明了仔细选择的实例是一个健全的动作检测框架的关键。在我们的整体交互转换器（HIT）网络中，我们集成了以前被忽略的实体，如人的姿势和手，并构建了一个双模态框架来有效地建模和聚合交互模态特定的交互功能相结合，使用我们提出的注意力融合机制。我们还提出了详细的消融验证我们的设计选择。四个公共行为检测基准的结果鸣谢：本研究得到台湾国家科学技术委员会的部分资助，基金编号为111-2221-E-007-106-MY 3。我们感谢黄伟哲的建设性讨论。3349引用[1] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集，第6299-6308页[2] Yuxin Chen，Ziqi Zhang，Chunfeng Yuan，Bing Li，Ying Deng，and Weiming Hu.基于骨架的动作识别的通道拓扑细化图卷积。IEEE/CVF计算机视觉国际会议论文集，第13359-13368页，2021年[3] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[4] 克里斯托夫·费希滕霍夫。X3d：扩展架构以实现高效的视频识别。在IEEE/CVF计算机视觉和模式识别会议论文集，第203-213页[5] Christoph Feichtenhofer ， Haoqi Fan ， Jitendra Malik ，and Kaiming He. 用于视频识别的慢速网络。在IEEE/CVF计算机视觉国际会议论文集，第6202-6211页[6] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。卷积双流网络融合视频动作识别。在计算机视觉和模式识别会议（CVPR），2016年。[7] Rohit Girdhar ， Joao Carreira ， Carl Doersch ， andAndrew Zis-serman. 视频动作 Transformer 网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第244-253页[8] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。[9] RGirshick，我是说，GGkioxari，PDolla'r和K He。探测器URL：https：//github.com/facebookresearch/detectron，2011年。[10] Chunhui Gu ， Chen Sun ， David A Ross ， CarlVondrick，Caroline Pantofaru，Yeqing Li，SudheendraVijayanarasimhan ， George Toderici ， Susanna Ricco ，Rahul Sukthankar，et al. Ava：时空局部原子视觉动作的视频数据集。In Proceedings of the IEEE Conference计算机视觉和模式识别，第6047- 6056页，2018年。[11] Pranay Gupta ，Anirudh Thatipelli，Aditya Aggarwal ，Shubh Maheshwari，Neel Trivedi，Sourav Das，and RaviKiran Sar- vadevabhatla.什么骨骼动作识别国际计算机视觉杂志，129（7）：2097[12] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页[13] H. Jhuang，J. Gall，S.祖菲角Schmid和M. J.布莱克。对动作识别的理解。国际会议计算机视觉（ICCV），第3192-3199页，Dec. 2013.[14] 水忘机、魏旭、明阳、开宇。用于人体动作识别的三维IEEEtransactionsonpatternanalysisandmachineintelligence，35（1）：221 -231，2012.[15] Vicky Kalogeiton，Philippe Weinzaepfel，Vittorio Ferrari和Cordelia Schmid。用于时空动作定位的动作小管检测器。在IEEE计算机视觉国际会议论文集，第4405- 4413页[16] OkanK o¨ p u¨ kl u¨，Wei Xiangyu，andGerhardRigoll.你只看一次：一种用于实时时空动作定位的统一CNN结构。arXiv预印本arXiv：1911.06644，2019。[17] Chao Li，Qiaoyong Zhong，Di Xie，and Shiliang Pu.协同时空特征学习用于视频动作识别。在IEEE/CVF计算机视觉和模式识别会议论文集，第7872- 7881页[18] 李逸轩，陈雷，何润玉，王振志，吴刚山，王利民.多项运动：时空定位运动动作的多人视频数据集。在IEEE/CVF计算机视觉国际会议论文集，第13536-13545页[19] Yuxi Li ， Weiyao Lin ， Tao Wang ， John See ， RuiQian，Ning Xu，Limin Wang，and Shugong Xu.寻找具有稀疏到密集框架的动作管。在AAAI人工智能会议集，第34卷，第11466-11473页[20] Yixuan Li ， Zixu Wang ， Limin Wang ， and GangshanWu.作为移动点的动作。在欧洲计算机视觉会议上，第68-84页。Springer，2020年。[21] 林宗义、彼得·多尔、罗斯·格希克、何启明、巴拉特·哈里哈兰和塞尔日·贝隆吉. 用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第2117-2125页[22] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[23] 刘宇，范阳，多米尼克·吉纳克。Acdnet：一个基于流引导特征近似和内存聚合的实时边缘计算的动作检测网络。Pattern Recognition Letters，145：118[24] Ziyu Liu，Hongwen Zhang，Zhenghao Chen，ZhiyongWang，and Wanli Ouyang.基于骨架的动作识别的解缠和统一图卷积在IEEE/CVF计算机视觉和模式识别会议论文集，第143-152页[25] Chih-Yao Ma，Asim Kadav，Iain Melvin，Zsolt Kira，Ghassan AlRegib，and Hans Peter Graf.参与并互动：用于视频理解的高阶对象交互。在IEEE计算机视觉和模式识别会议上，第6790-6800页，2018年[26] Joanna Materzynska，Tete Xiao，Roei Herzig，HuijuanXu，Xiaolong Wang，and Trevor Darrell.其他东西：利用时空交互

下载后可阅读完整内容，剩余1页未读，立即下载