基于人体骨架的动作识别表示学习和多模态骨架的相对位置关节

182 浏览量更新于2023-10-25 收藏 1.82MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

20186InfoGCN：基于人体骨架的动作识别表示学习Hyung-gun Chi1岁，Myoung Hoon Ha2岁，Seunggeun Chi1岁，Sang Wan Lee2岁，Qixing Huang3岁，KarthikRamani1岁，4岁 1美国西拉法叶普渡大学电气计算机工程学院2韩国大田KAIST3美国德克萨斯大学奥斯汀分校4美国普渡大学机械工程学院{hgchi，sgchi，ramani}@ purdue.edu，mh.ha. gmail.comsangwan@kaist.ac.kr，www.example.com，huangqx@cs.utexas.edu摘要基于人体约束的动作识别能够处理人体约束和意图之间的复杂关系，为理解人体行为的复杂性提供了一种有价值的手段。虽然一些研究集中在编码骨架，较少注意到已支付嵌入到人类行为的潜在表示这些信息。InfoGCN提出了一种结合新的学习目标和编码方法的动作识别学习框架。首先，我们设计了一个基于信息检查的学习目标，以指导模型学习信息丰富但紧凑的潜在表示。为了提供区分信息，对动作进行分类，我们引入了基于注意力的图卷积，它捕获了人类动作的上下文相关的内在拓扑结构。此外，我们提出了一个多模态表示的骨架使用的相对位置的关节，旨在提供补充的空间信息的关节。InfoGCN1超越了已知的国家的最先进的多个基于cron的动作识别基准与准确性的93.0%对NTU RGB+D 60跨主题分裂，89.8%对NTU RGB+D 120跨主题分裂，和97.0%对西北大学洛杉矶分校。1. 介绍人类动作识别是计算机视觉中的一个基本问题，具有丰富的应用，包括紧急检测[36]，手语识别[35]和VR / AR的手势识别[57]，仅举几例。特别是，基于图像的人类动作识别[6，7，19，44，58]在计算机视觉中引起了很大的兴趣基于图卷积网络（GCN [21]）的方法是基于图卷积网络的动作识别*这些作者对这项工作1代码可在github.com/stnoah1/infogcn图1. InfoGCN概念图。我们提出了一个IB目标和相应的损失，以指导我们的模型学习最大限度地提供信息的表示骨架为基础的动作识别。编码器推断关节的固有拓扑，其提供超出物理连接性的上下文信息。底部的彩色线条表示推断的内在拓扑，粗细表示关系的强度本文介绍了一种新的基于骨架的动作识别预测框架。我们的方法在三个关键方面推进了最先进的技术。第一个是表示学习的算法。大量研究表明，表征学习显著影响机器学习任务的性能[2，5，13，23，29，59，61]。我们的方法受到信息瓶颈（IB）理论的启发[49]。我们推导出新的IB目标和相应的损失，以学习潜在表示对目标变量提供最大信息，同时压缩输入信息，如图1顶部所示。与建议的目标学习的模型进行识别，通过编码隐式和一般的潜在表示，桥接输入级的物理信息和动作语义。二是骨架的编码方法。使用骨连接的骨骼图形表示-20187ity（extrinsic topology）[27，33，44，56，60]有一个固有的局限性：它可以忽略可能的联合关系，称为内在拓扑。例如，当我们“自拍”时关节的内在拓扑结构[40]提供了识别人类动作的上下文信息。在这种情况下，我们开发了一种新的基于自注意力的图卷积（SA-GC）模块，在编码骨架序列时提取内在的图结构。如图1的底部所示，对于出现在不同动作中的相似姿势，推断的拓扑可以基于它们的行为上下文而不同。最后，我们提出了一个多模态骨架表示，利用关节的相对位置。它提供关节的补充空间信息。用表示训练的模型的集合大大提高了识别性能。通过耦合上述三个建议，我们介绍了一个新的学习框架，基于Web的动作识别命名为InfoGCN。为了验证我们的方法的有效性，我们在基于信标的动作识别中进行了实证评估，并将我们的结果与三个流行的基准数据集上的竞争基线进行了比较：NTU RGB+D 60120 [30，42]和NW- UCLA [55]。实验结果表明，我们的模型实现了国家的最先进的性能，所有三个数据集的准确性。分析表明，学习到的动作潜表示遵守所提出的IB约束，并根据行为上下文自适应地引入上下文相关的内在拓扑.我们的贡献如下：• 信息瓶颈目标。我们介绍了一个新的学习目标IB的基础上，旨在学习一个有效的压缩潜在的表示的行动。• 基于自注意力的图卷积。我们提出了一个SA-GC模块，推断一个上下文相关的内在拓扑结构的骨架空间建模。• 多模态表示。我们提出了一个多模态表示的骨架模型ensem- ble，大大提高了动作识别perfor-曼斯。• 实证验证。大量的实验证明了我们工作的优越性.InfoGCN在基于骨架的动作识别中在三个数据集上实现了最先进的性能。2. 相关作品在基于深度学习的方法的早期阶段，卷积神经网络（CNN）[10，32，46]和递归神经网络（RNN）[11，25，31，53]是标准模型。然而，这些方法的能力是有限的，因为它们没有明确地利用结构拓扑的接头。自从引入GCN [21]以来，已经引入了利用外部拓扑的图结构的各种方法[26，33，43，56]。已经提出了各种图，包括时空图[56]和有向图[43]来建模骨架。多尺度图卷积[26，33]已经被提出来捕获关节的长程依赖性。然而，这些方法不能表示内在拓扑，限制了捕获动作的上下文信息的能力最近的作品[27，44]集中在联合拓扑建模，可以推断内在的关系。AS-GCN [27]和2s-AGCN [44]提出了从数据中自适应学习联合关系的方法。然而，由于所捕获的拓扑独立于姿态，因此难以对姿态随时间变化的动作的上下文进行编码。CTR-GCN [6]在上下文相关的内在拓扑建模方面与我们的工作类似。与我们的工作相反，CTR-GCN侧重于在不同的嵌入通道中嵌入联合拓扑。同时，与以往的研究只关注骨架的时空特征聚合不同，据我们所知，InfoGCN是第一种利用信息理论目标来更好地表示潜在信息的方法。3. InfoGCNInfoGCN是一个新的学习框架，它预测给定骨架序列的动作类。在本节中，我们首先推导出基于IB的学习目标和相应的损失（第二节）。第3.1节）。此外，我们还介绍了一个神经架构（Sec. 3.2）和多模态表示的骨架模型合奏（节。3.3）。最后给出了总体的学习方案。请注意，本节中使用的所有符号都在附录中进行了总结。3.1. 信息瓶颈目标本节的目标是定义一个基于IB的目标，用于从一系列骨架中学习潜在表示，并导出其变分界和易处理的损失。所提出的公式可以应用于其他问题，如人体运动预测和自监督学习。3.1.1学习目标我们的目标是设计一个随机潜变量Z包含压缩信息的输入变量X（一个序列的骨架），同时保留最大的信息为目标变量Y（一个动作标签）。这20188|··−←↔D{}||2||D|Σ=||µ −µ||，（9）p（z|y）r（z|y）Σ{|}有约束优化问题可以转化为无约束优化问题，其拉格朗日乘子为：maxZI（Z;Y）β1I（Z;X），其中I（;）为互信息，β1为拉格朗日乘子。与先前的工作[2，13]一样，我们假设变量的关系遵循图形模型ZX Y，并且唯一可访问的内容是随机编码器p（zx）。在infoGCN中，我们提出了以下目标，相当于最大化先前IB目标（见附录）：3.1.3训练损失我们从我们的目标函数的下限定义用于训练InfoGCN的损失函数（等式10）。（5））。Eq的第一项。（5）可以通过组合编码器和分类器的预测网络的经验损失来近似：L CLS= −Ep（x，y）p（z|x）[log q（y|z）]R（Z）=I（Z;Y）−λ1I（Z;X）−λ2I（Z; X|（Y）、（1）1≈−|D|xi∈D，yi∈DEp（z|xi）[logq（yi|z）]、（6）其中λ1和λ2是控制参数。第一项I（Z;Y）迫使Z提供足够的信息来预测Y。第二项确保Z是简洁的。第三项允许潜在变量Z被压缩，其中=（x i，y i）是给定的数据集。Eq的第二项（5）可以进一步分解为[16，34]。当给定一个类时，注意输入变量X。我们的目标采用了来自VIB [2]和CEB [13]的压缩正则化项的组合，同时保留Ep（x）p（z|x）[logp（z|x）]= I（Z;X）+DKLr（z）（p（z）||r（z））（7）IB哲学我们导出的目标比[2，13]的目标更一般，同时将前面的目标作为特例（当λ1= 0时为VIB，当λ 1=0时为CEB）。λ2=0）。3.1.2变分界限在这里，我们推导出我们的IB目标的变分界（方程：①①）。根据最近的研究[2，4，37]推导出R（Z）的每项的变分界限，这些研究使用易处理的变分界限和深度学习技术来估计我们使用变分分类器q（y）得到了I（Z;Y）的变分下界|z）：我们做了两个简化。第一种是删除I（Z;X），以优先考虑Z包含关于X的压缩信息[19，34]。第二种方法是用易处理的最大-均值离散项（MMD [ 12，14，28 ]）代替难处理的KL-多样项DKL（p（z）r（z）），这在文献[ 61 ]中已被证明是有效的。我们设置域和余域作为一个欧氏空间和特征映射作为一个恒等式。这给了我们以下边际MMD损失：LmMMD= DMMD（p（z））||r（z））为||µ p（z）− µ r（z）||2、（8）I（Z; Y）≥ E p（x，y）p（z|x）[log q（y |z）]+H（Y），（2）其中µp（z）=1µxi，yi∈DEp（z|xi）[z];µr（z）是平均值其中，当基础数据生成分布固定时，RHS的第一项对应于对数似然，并且RHS的第二项是常数，因此其不影响优化。在[13，17]之后，我们定义r（z）为变分边际，r（z y）为变分类con，边缘的。得到了I（Z;X）和I（Z;X）的变分上界|Y）如[13，17]变分边际分布r（z）最后一项在Eq.（5）按照与Eq.（7），我们有以下条件边际MMD损失：LcmMMD= DMMD（p（z|y）||r（z|y））22I（Z; X）≤E p（x）p（z|x）[logp（z|x）]，r（z）（三）其中μp（z|y）y=1|Dy|xi，yi∈D yE p（z|xi）[z]，且Dy=I（Z; X |Y）≤Ep（x）p（z|x）p（y|x）[logp（z|X）]。（四）r（z |y）x i，y iy i=y.最后，我们有一个总损失函数来训练我们的模型：替换方程（2）到（4）到Eq.（1）我们有L总=LCLS+ λ1LmMMD+ λ2LcmMMD。（十）20189R（ Z）≥ Ep（x，y）p（z|x）[logq（y|z）]−λ1Ep（x）p（z|x）[logp（z|x）]r（ z）3.2. 神经架构-λ2Ep（x）p（z|x）p（y|x）[logp（z|X）]。（五）r（z |y）我们引入了一种神经架构，该架构可以通过利用自我注意机制来对关节的上下文相关的内在拓扑进行建模[51]。它包括一个编码器-方程的推导（2）至（4）载于附录。分类器结构如图所示。二、20190−NG∈∈不不3.2.1学习内在拓扑的重要性我们提出了内在拓扑的重要性，通过展示GC只使用外在拓扑会导致严重的效率低下和消息传递方面的信息丢失假设双手关节由于身体结构的双侧对称性而具有内在联系。这两个叶节点必须通过物理连接的路径传递消息以彼此传输信息当遵循GC机制传递信息时，它要求网络深度与消息传递的最短路径长度成比例地增加，这意味着两个节点之间的信息交换严重低效此外，可能会发生信息丢失。GC在对邻居节点的特征进行平均后执行非线性变换。如果表示节点的信息的特征向量不是线性独立的，则在求平均之后不容易重构每个邻居的信息。设α是由向量合成引起的节点稀释信息的最小部分。如果两个节点之间的距离有一个内在的关系l，信息可以传输的最大比率为（1α）l。当α >0时，l越长，能被稀释的信息越多。一种直接的方法是通过对邻接矩阵进行幂运算来增加卷积核的大小，如[19，26]所示，但这并不理想，因为它无法动态地对可能的内在拓扑进行建模。更好的解决方案是自适应地推断改变信息所需的联合关系因此，我们提出了一种架构，利用自我注意机制来捕捉内在的拓扑结构。3.2.2体系结构概述该编码器是由一个嵌入块和一个堆栈的L=9编码块，其次是一个全球平均池层。嵌入块将骨架序列转换为初始关节表示。然后，编码块从初始联合表示提取时空特征。我们利用了VAE [20]中的重新参数化技巧的方法。利用辅助独立随机噪声Σ（0，I），z被采样为z=μ+ΣΔ，其中多变量高斯分布的均值μ和对角协方差矩阵Σ Δ该技巧通过使用基于梯度的优化以端到端的方式估计无偏梯度来使模型可训练由单个线性层和soft-max函数组成的分类器将潜在向量z转换为分类分布的模型参数。图2. InfoGCN架构。我们引导我们的神经架构学习基于信息瓶颈目标的基于类的动作的类条件表示该模型由编码器和分类器组成。具有SA-GC模块的编码器捕获上下文相关的固有关节拓扑以更好地表示动作。3.2.3嵌入块人体骨架可以表示为图（V，E）其中关节作为N个顶点V的集合，骨骼作为边E.边可以表示为邻接矩阵ARN ×N，其中如果关节i和j物理连接，则A i，j = 1，否则为0。一个骨架图序列表示为一个联合特征张量XRT×N ×C，其中T是骨架的总帧数，C是特征维数.嵌入块将关节特征线性变换为具有可学习参数的D（0）维向量，然后添加位置嵌入（PE）以注入关节的位置信息。我们适应可学习的体育，这是跨时代共享的。H（0）=线性（Xt）+PE，（11）其中H（0），PE ∈ RN ×D（0）; t是时间指标。2019111·∈∈⊙⊙不×2不2（l）（l+1）SAHtKtQ（13）×tt3.2.4编码块我们的编码块的核心由两个子模块组成：用于空间建模的基于自注意力的图卷积（SA- GC）模块和用于时间建模的多尺度时间卷积（MS-TC）模块关节的输入和隐藏表示依次使用SA-GC、MS-TC、残差连接和层归一化进行编码[3]（见图3）。2）。空间建模。我们提出了一个新的模块SA-GC来推断上下文相关的本征拓扑。在描述SA-GC之前，我们回顾了vanilla GC [21]，它由两个过程组成：1）平均邻域顶点特征和2）线性变换聚合特征。GC隐藏表示的更新规则如下H（ 1+ 1 ）=σ （A<$H（ 1 ） W（ 1 ）），（ 12）图3.插图的多模态表示法的塞音。箭头表示尖顶点的第k个模式与[44]中一样，我们将靠近质心的关节定义为源关节，将远离质心的关节定义为目标关节。蓝点表示没有对应源的顶点。时间建模。为了对人体骨骼的时间特征进行建模，我们采用了MS-TC模块[6，33]，如图2所示。该模块由三个卷积分支组成，具有不同的内核大小t t和膨胀率。卷积分支的输出为其中，正规化邻接矩阵A∈=D−（A+I）D−，D是A +I的对角度矩阵，W（l）∈RD×D是第l层的可学习参数，σ（）表示非线性激活函数，如ReLU [1]。SA-GC利用联合特征的自我注意力[51]，推断内在拓扑，并使用拓扑作为GC的邻域顶点信息自我注意力是一种涉及身体不同关节的注意力机制考虑到所有可能的联合关系，SA-GC引入正的、有界的权值，称为自注意映射，来表示联合关系的强度。我们线性地将联合表示Ht投影到具有学习矩阵WQ，WK的D ′维查询和键上RD×D′得到一个自我注意力地图。H W（H W）T（t）=softmax（D′）除了自注意力映射之外，我们让SA-GC学习在时间和实例上共享的拓扑A_n，如[6，44]所示。共享拓扑和自注意映射具有M个多头，使模型从不同的代表共同参与，子空间。对于1≤m≤M中的头，我们将连在一起具有11卷积的剩余连接围绕该模块。3.3. 多模态表示的在本节中，我们将介绍一种通用形式的众所周知的骨架表示，如骨骼和关节，我们称之为多模态表示。我们训练我们的模型与每个模态表示和集成推理。该表示使用关节的相对位置提供互补特征。参见图3用于说明。Shi等人[44]引入了骨骼信息，其被定义为从物理连接的源关节指向其目标关节的向量，如图3中k=1。以前的作品[6，33，44]表明，用骨骼和关节信息训练的模型这大大提高了动作识别性能，这意味着这些不同的骨架表示是互补的。我们提出了多模态骨架表示定义额外的表示，基于这样一个事实，即骨骼信息是一个线性变换的关节。详细地，我们将时间t处的关节骨关系推广为利用自注意映射SA m（Ht）∈ RT× N ×N，得到了该系统的内在拓扑.X<$ （k）=（I-Pk）X，（十六）Am <$SAm（Ht）∈RT×N×N，（14）其中表示广播的元素级乘积。我们采用D′= D/8和M = 3。SA-GC利用A_ m_SA_m（H_t）作为邻域信息。气相色谱法。联合表示的总体更新规则被公式化为：其中PRN×N表示包含骨架图的源-目标关系的二进制矩阵，如果第i个关节是第j个关节的源，则Pij=1 我们将与P中的质心相对应的行设置为零向量，使得它不具有源关节。我们把X∈ （k）称为s k元的第k个模表示. 的具有不同k值的表示提供不同的spa，H（l+1）=σ.ΣM.A~（l）SAm（H（l））（十五）关节的主要特征我们定义K = maxvd（v）+1，∈t mm=1t t mv V，其中d（v）给出数中的最短距离从顶点v到质心的跳跃数。然后，我们使用一个残差连接[15]，其中11个卷积，在SA-GC模块周围。如果k=1，则第k个模式表示Xk （k）对应于20192联系我们方法累积（%）X-subX-ViewST-GCN [56]81.588.0AS-GCN [27]86.894.22s-AGCN [44]88.595.1[60]第60话89.094.5DGNN [43]89.996.1ST-TR-agcn [39]90.396.3Shift-GCN [9]90.796.5DC-GCN+ADG [8]90.896.6PA-ResGCN-B1990.996.0DDGCN [22]91.197.1动态GCN [58]91.596.0MS-G3D [33]91.596.2MST-GCN [7]91.596.6CTR-GCN [6]92.496.8我们93.097.1方法ACC（%）X-subX-Set[60]第60话79.281.52S-AGCN [44]82.984.9ST-TR-agcn [39]85.187.1Shift-GCN [9]85.987.6DC-GCN+ADG [8]86.588.1MS-G3D [33]86.988.4PA-ResGCN-B1987.388.3动态GCN [58]87.388.6MST-GCN [7]87.588.8CTR-GCN [6]88.990.6我们的（关节）85.186.3我们的（骨）87.388.5我们的（关节+骨骼）88.589.7我们的（4合奏）89.490.7我们的（6合奏）89.891.2方法累积（%）李群[52]74.2[54]第五十四话76.0HBRNN-L [11]78.5Ensemble TS-LSTM [24]89.2AGC-LSTM [45]93.3Shift-GCN [9]94.6DC-GCN+ADG [8]95.3CTR-GCN [6]96.5我们97.0表1. NTU RGB+D 60 [42]（左）、NTU RGB+D 120 [30]（中）和NW-UCLA [55]（右）的比较结果。我们根据分类准确度（%）来评估我们的模型基线方法的性能是基于他们的论文。粗体数字表示每个数据集的最佳值X-Sub、X-view和X-Set分别表示跨主题、跨视图和跨设置拆分如[44]中所定义的，如果k=K，则关节，因为PK=0。例如，在图3中，k=1时，质心的关节表示为蓝点，因此在这种情况下K等于3.4. 学习框架本节描述了信息全球通信网的总体培训制度。骨架序列在调整大小为64帧后被批量处理在一起，如[6]所示。该模型是最新的，以尽量减少总损失（方程。（10））使用SGD opti-动量系数为0.9的混合器。我们将µ r（z）设为0，使得LmMMD表现为µ r p（z）的范数的正则化子。我们设置µr（z|y）作为随机正交向量[41]，标度为3。在训练过程中，我们估计了µp（z）和µp（z|y）通过一个小批量的平均边际特征向量和类条件边际特征向量，分别为。此外，我们使用值的标签平滑[48]0.1.在推理过程中，我们将使用不同k模式表示训练的模型集成为[6，33，44]中4. 实验为了展示InfoGCN的优势，我们在三个大规模数据集上进行了基于行为的动作识别。我们将我们的模型与强基线进行比较，并进行消融研究，以检查单个组件的影响。我们的模型使用PyTorch [38]实现，并使用NVIDIA RTX A6000 GPU进行训练和测试我们的实验设置的进一步细节在附录中描述。4.1. 数据集NTU RGB+D NTU RGB+D 60 [42]是一个大型3D人类活动数据集，包含56，880个视频，60个行动类。NTU RGB+D 120是NTU RGB+D 60的扩展版本，增加了60个额外的动作类，包含114，480个视频。根据[30，42]的建议，我们报告了NTU RGB+D60的跨主题和跨视图设置以及NTU RGB+D120的跨主题和跨设置设置下的分类准确性西北-ULCA NW-ULCA [55]有1，494个视频，其中10个不同的动作同时从三个摄像机中捕获。我们使用前两个摄像机的数据进行训练，另一个用于测试，如[55]所示。4.2. 实验结果我们将我们的结果与表1中的先前最先进的方法进行比较。对于NTU RGB+D 60 120，我们将K设置为8，对于NW-UCLA，我们将K设置为6。在表1的中间，具有多模态表示k=1，K和1，2，K的姿态和运动的系综分别表示为4和6系综。这里，运动意味着两个连续时间帧之间的联合运动。在表1的左侧和右侧，我们报告了6个系综的结果。在所有三个数据集上，InfoGCN都实现了最先进的性能，验证了我们工作的有效性。在NTU-RGB+D 120上使用与CTR-GCN（4个系综）[6]相同的系综设置，我们的模型在跨主体和交叉集合中分别优于CTR-GCN 0.5%和0.1%的裕度（参见表1的中间）。这些结果从实验上验证了InfoGCN在基于机器人的动作识别中的优势4.3. 消融研究为了分析In-foGCN的单个组件的效果，我们检查了我们的模型的不同配置的分类精度。所有实验性消融研究均在NTU RGB+D 120交叉受试者分割上进行，具有关节信息（k=K）。20193LLL⊙LLLLLLL方法累积（%）L总w/oLmMMDw/oLcmMMD不含LmMMD、LcmMMD85.184.684.684.3方法累积（%）ASA（Ht）SA（Ht）85.184.7A~84.5A82.8表2. 基于（左）从总损耗中去除mMMD或cmMMD和（右）不同拓扑推断方法的分类精度比较。方法累积（%）4-流多模态基线88.889.2（0.4↑）+LmMMD，L cmMMD89.1（0.3↑）89.4（0.6↑）+ SA-GC+ LmMMD，LcmMMD，SA-GC89.1（0.3↑）89.4（0.6↑）89.5（0.7↑）89.8（1.0↑）表3.将InfoGCN的拟议组件应用于基线时的分类精度比较。MMD损失。我们首先验证了MMD损失的影响，从IB的目标在第二节。3.1.3.为了确认我们的目标增加了泛化的效果，直接导致测试精度的提高，我们通过从TOTAL中删除每个损失项来比较我们的模型的性能，如表2左侧所示。我们观察到，在没有cmMD和mMMD的情况下训练的模型的性能比原始模型下降了0.8%。在没有cmMMD和没有mMMD的情况下训练的In-foGCN的性能都下降了0.5%，证实了MMD损失指导我们的模型学习更好的动作分类表示。上下文相关拓扑。我们比较了使用不同拓扑推断方法的模型的分类准确性，如表2右侧所示。我们使用每个推断的拓扑作为GC的邻域信息我们可以看到，具有自适应拓扑推断方法的模型，例如A_n、SA（Ht）和A_n_SA（Ht），优于静态外部拓扑A_n。此外，还将扩展依赖拓扑A扩展为SA（Ht）法优于其它方法，证明了SA-GC法的有效性。多模态表示。我们比较了用不同组合的多模态表示训练的模型的集合的性能。在表1的中间，我们观察到性能随着用于集合的模态的数量增加而改善在交叉受试者中，与仅关节的准确度相比，关节+骨、4和6集成的准确度分别提高了3.4%、4.3%和4.7%。这意味着多模态表示增加了输入特征的多样性和相应训练模型的数量，进一步最大化了集成的效果。6模集合后精度趋于饱和（见附录）。随着k的增加，没有源的顶点的数量增加，在图3中标记为蓝点，并且它们不提供独特的特征。图4.（左-中）在有或没有MMD损失的情况下训练时潜在表示到2D的PCA投影。我们从NTU RGB+ D120数据集中随机选择了五个动作类进行可视化。不同的颜色表示不同的类别。（右）余弦µp（z）之间的相似性|y）和µr（z|y）。每一行和每一列表示不同的类。每个组件的贡献我们仔细检查每个InfoGCN组件的贡献，如表3所示。基线是通过将SA-GC替换为我们的模型中的[56]中的GC来构建的（第二节）。3.2），并只与CLS培训。采用4流集合[6，7，9，43]作为基线，以与使用多模态表示作为输入训练的模型的集合结果进行比较。我们观察到，SA-GC和MMD损失（mMMD，cmMMD）均使基线准确度提高0.3%。此外，当我们对模型集成采用多模态表示时，与4-流集合基线。5. 分析我们进行了深入的分析，建议学习- ING目标和上下文相关的内在拓扑结构。所有分析都基于使用联合训练的模型（k=K）在NTU RGB+D 120跨主体分割上。5.1. 信息瓶颈约束为了验证所提出的目标的效果，我们通过主成分分析（PCA [50]）在有或没有MMD损失和补偿表示的情况下训练了我们的模型，如图4所示。在MMD损失的情况下学习的潜在表示呈现出更密集和非重叠的类条件分布，其在前两个prin-unr分量所跨越的子空间我们在所有其他类中观察到类似的模式，但为了简单起见，只可视化了五个类别。我们将比较µ p（z）之间的余弦相似性|y）a在测试集上的平均值和µ r（z|y），如图4的右侧所示。我们看到矩阵的对角元素具有接近1的值，而非对角线项接近0，表示µp（z|y）和µr（z|y）如预期的那样良好对准。我们将性能增益归因于观察结果，即MMD损失成功地将类条件表示的均值约束为接近µ r（z|y），其被设置为按类正交。20194图5. SA-GC的上下文相关固有拓扑的示例。彩色线指示从指定关节（手或脚）到所有其他关节的推断拓扑。接头上彩色线的粗细和圆的大小与推断关系的强度成正比。黑色边界框表示具有不同内在拓扑的相似姿势。5.2. 上下文相关的内在拓扑行为背景。图5给出了通过SA-GC推断的拓扑结构的实例。我们观察到，相似的姿势（由边界框分组）可能具有不同的内在拓扑结构，这取决于它们的行为背景，这可能是我们的模型更好地区分不同模式的原因。例如，图5中在t=32处单脚跳跃和踢某物具有类似的姿势。然而，它们的内在拓扑结构（彩色线）是独特的。从右脚关节到左臂的注意力在动作踢比跳跃强。一种可能的解释是，当踢东西时，左手向与右脚相反的方向移动以平衡身体，因此它们是强耦合的。而单脚跳跃时，右脚和左手的关节我们还观察到边际注意力，以了解内在拓扑用于描述上下文的有效性，如图6的左侧所示。在自拍的动作中右手的关节具有很大的注意力，而在单脚跳跃的动作中右脚被强烈地注意。这种观察是直观的，因为右手积极参与自拍的动作，并且脚主要用于单脚跳跃的动作。此外，多头注意力为动作提供了不同的行为背景，如图3的右侧所示。六、不对称消息传递。与外在拓扑学不同，自我注意力地图被推断为不对称的，如图6所示。由于在关节之间传递的消息的量可以根据方向而不同，所以SA-GC可以在关节之间有效地传输信息，克服了在第2.1.1节中描述的GC的限制。3.2.1.图6. Eq.中的自我注意力图的示例。（13）以及对每个骨骼关节的关注程度。骨骼关节中圆圈的大小表示注意力的大小，其被定义为自我注意图中每个关节的列的总和。我们可视化的自我注意地图与不同的头部m的最后一个编码块。颜色越深，自我注意地图中的值越高。6. 限制尽管InfoGCN在三个数据集上具有最先进的性能，但它在具有大量类的数据集中的有效性（即，动力学400个动作-400 [18]）仍有待测试。这需要进一步的调查，以证明该模型的能力，以处理大量的类和更大的批量大小。此外，将我们的方法扩展到元学习和自监督学习来利用未标记的数据将是有趣的。最后，InfoGCN的应用仅限于人体骨骼建模。话虽如此，我们应该注意到InfoGCN可以应用于任何结构化数据，例如粒子和铰接对象的运动。7. 结论我们提出了一个基于信息检索的表示学习框架InfoGCN，用于基于机器人的人类动作识别。它是建立在信息论目标的变分界限的基础上的，鼓励类条件边际的均值接近正交。我们提出了一种新的基于自我注意力的图卷积模块，SA-GC，并证明它可以有效地收集行为上下文信息的数据使用推断的内在拓扑结构。我们进一步介绍了一个多模态表示的人体骨架模型集成。值得注意的是，我们的框架在三个流行的基准数据集上实现了最先进的性能，用于基于动作的识别。致谢本工作得到了美国国家科学基金会（FW-HTF 1839971），国家研究基金会（NRF-2019 M3 E5 D2 A01066267），KAIST-KT联合研究中心（GE-2019）的部分支持。大脑：开发像人脑一样思考的抽象和推理引擎），以及信息通信技术规划评估研究所&（IITP，No.2019-0-01371，开发具有类人智能的脑启发AI）。我们也感谢为Karthik Ramani教授提供的美联储主席基金。20195引用[1] 阿比恩·弗雷德·阿加拉普。使用校正线性单元（relu）的深度学习arXiv预印本arXiv：1803.08375，2018。5[2] Alexander A Alemi 、 Ian Fischer 、 Joshua V Dillon 和Kevin Murphy。深层次的变信息瓶颈。arXiv预印本arXiv：1612.00410，2016。第1、3条[3] 吉米·雷·巴，杰米·瑞安·基罗斯，杰弗里·E·辛顿.层归一化。arXiv预印本arXiv：1607.06450，2016。5[4] Mohamed Ishmael Belghazi 、 Aristide Baratin 、 SaiRajesh- war 、 Sherjil Ozair 、 Yoshua Bengio 、 AaronCourville和De- von Hjelm。互信息神经估计。国际机器学习会议，第531PMLR，2018。3[5] Yoshua Bengio Aaron Courville和Pascal Vincent表征学习：回顾与新视角 . IEEE Transactions on PatternAnalysis and Machine Intelligence ， 35 （ 8 ）： 1798-1828，2013. 1[6] Yuxin Chen，Ziqi Zhang，Chunfeng Yuan，Bing Li，Ying Deng，and Weiming Hu.基于骨架的动作识别的通道拓扑细化图卷积。IEEE/CVF计算机视觉国际会议论文集，第13359-13368页，2021年。一、二、五、六、七[7] 斩尘，李思成，杨冰，李清寒，刘洪。多尺度时空图卷积网络用于基于动作识别。在AAAI人工智能会议论文集，第35卷，第1113-1122页一、六、七[8] Ke Cheng，Yifan Zhang，Congqi Cao，Lei Shi，JianCheng，and Hanqing Lu.基于骨架的动作识别中gcn与dropgraph模块的解耦。在计算机视觉-553. Springer，2020年。6[9] Ke Cheng，Yifan Zhang，Xiangyu He，Weihan Chen，Jian Cheng，and Hanqing Lu.基于骨架的动作识别与移位图卷积网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第183-192页，2020年。六、七[10] Gui l hemChe'ron，I v anLapt ev，andCordeliaSchmid. P-cnn ：用于动作识别的基于姿势的 cnn 特征。在Proceedings of the IEEE International Conference onComputerVision，第3218-3226页，2015年。2[11] 雍都、魏王、梁王。用于基于骨架的动作识别的分层递归神经网络在IEEE计算机视觉和模式识别会议论文集，第1110-1118页，2015年。二、六[12] Gintare Karolina Dziugaite，Daniel M Roy，and ZoubinGhahramani.通过最大平均差异优化训练生成神经网络。arXiv预印本arXiv：1505.03906，2015年。3[13] 伊恩·费舍尔。条件熵瓶颈。Entropy，22（9）：999，2020. 第1、3条[14] Arthur Gretton ， Karsten Borgwardt ， Malte J Rasch ，Bernhard Scholkopf，and Alexander J Smola.两样本问题的核方法。arXiv预印本arXiv：0805.2368，2008年。3[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。5[16] Matthew D Hoffman 和 Matthew J Johnson 。埃尔博手术：分割变分证据下限的另一种方法。在近似贝叶斯推理进展研讨会上，NIPS，第1卷，2016年。3[17] HyeongJoo Hwang，Geon-Hyeong Kim，Seunhoon Hong和Kee-Eung Kim。变分相互作用信息最大化的跨域解纠缠。神经信息处理系统的进展，33，2020。3[18] Will Kay ， Joao Carreira ， Karen Simonyan ， BrianZhang，Chloe Hillier，Sudheendra Vijayanarasimhan，Fabio Viola，Tim Green，Trevor Back，Paul Natsev，etal. 人体运动视频数据集。 arXiv 预印本 arXiv ：1705.06950，2017。8[19] Hyunjik Kim和Andriy Mnih。通过因子分解法解开。国际机器学习会议，第2649-2658页。PMLR，2018。一、三、四[20] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。4[21] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。arXiv预印本arXiv：1609.02907，2016。一、二、五[22] Matthew Korban和Xin Li。Ddgcn：一个用于动作识别的动态有向图卷积网络。在欧洲计算机视觉会议上，第761Springer，2020年。6[23] Hsin-Ying Lee，Hung-Yu Tseng，Jia-Bin Huang，Ma-neesh Kumar Singh，and Ming-Hsuan Yang.通过非纠缠

下载后可阅读完整内容，剩余1页未读，立即下载