深度双线性学习用于RGB-D动作识别

80 浏览量更新于2023-10-13 收藏 1.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

用于RGB-D动作识别的深度双线性学习Jian-Fang Hu1，Wei-ShiZheng1， 3， 4[0000− 0001− 8327− 0003]， JiahuiPan1，Jianhuang Lai1，and Jianguo Zhang21中山大学，中国{hujf5，zhwshi，stsljh}@ mail.sysu.edu.cn;panjh7@mail2.sysu.edu.cn;2邓迪大学，英国j.n. dundee.ac.uk;3机器智能与先进计算MoE部重点实验室4Inception Institute of Arti-official Intelligence，阿拉伯联合酋长国抽象。在本文中，我们专注于探索模态-时间互信息的RGB-D动作识别。为了联合学习时变信息和多模态特征，我们提出了一种新的深度双线性学习框架。在该框架中，我们提出了双线性块，由两个线性池化层池化输入立方体功能从模态和时间方向，分别。为了捕获丰富的模态时间信息并促进我们的深度双线性学习，在张量结构中提出了一种新的动作特征，称为模态时间立方体，用于从全面的角度表征RGB-D动作。我们的方法在两个公共数据集上进行了广泛的测试，具有四个不同的评估设置，结果表明，所提出的方法优于国家的最先进的方法。关键词：深度双线性，RGB-D动作，特征学习，立方体。1介绍基于低成本深度相机的人体动作识别近年来受到了越来越多的关注。与RGB相机相比，Kinect作为一种广泛使用的深度相机，具有许多优点。首先，它可以捕获深度图，这对于几何建模是有用的[32]。其次，它可以实时输出3D人体姿势（骨架），这也有利于动作识别[30]。最近的工作表明，深度相机捕获的RGB、深度和骨架数据可以相互补充，用于描述人类动作;将它们集成在一起可以大大提高系统性能[37，12，39]。具体而言，在[37]中，从不同模态和身体部位提取的特征在[12，28]中，通过显式挖掘共享的特定组件，将各种模态的特征汇集在一起。然而，这些作品中的系统仅考虑来自通讯作者2J. - F. 胡伟S. Zheng，J.Pan，J.Lai和J.张|AHS|= 3|AHS|= 4|AHS|= 2|AHS|= 5时间|AHS|= 1图1.一、具有多模态的动作快照，显示可以从不同模态和不同进度水平的序列中识别动作（动作历史序列的长度（AHS，将在第3.1节中详细讨论）。不同的模态，都是从完整的动作序列中提取的相对较少的工作，探讨了在不同的时间层次上的动作上下文，即，随时间变化的信息序列涉及部分动作执行。事实上，从识别的角度来看，多模态序列中的部分动作执行可以包含以图1中呈现的动作为例，我们可以通过观察RGB、深度或骨架序列中的任何一个来识别该人正在喝酒。同时，也可以通过仅观察完整序列的前80%（即，|= 4），这意味着可以在识别中利用具有部分动作执行和各种模态的序列。|= 4), which means that sequences with partial action executions andof various modalities can be exploited in recognition.使用时变信息进行动作识别可以追溯到运动历史图像（MHI）的早期工作[2]，其中运动的历史被编码在单个静态图像中。每个MHI对应于某个进度级别的一个序列然而，很少有工作还没有考虑到深入编码和学习的时变信息与模态。在本文中，我们提出了一种新的张量结构的立方体特征，并提出学习时变信息的多模态动作历史序列的RGB-D动作识别。具有时间信息的多模态序列可以被看作是一个张量，具有两个不同的维度（时间和模态）。学习和池化张量是一项相当具有挑战性的任务，这是由于到达序列的复杂性，其具有不同的进展水平和模态。对于处于某个进度水平的序列，由于不同模态从不同的角度描述动作，因此不同模态的特征可以彼此补充以用于描述动作上下文。而对于某种模态，各种进展水平的序列编码时间动态。并且序列中描绘的时变信息针对不同的模态而变化时变信息与多模态特征一起可以给出动作的全面画面，但是如何从高度结构化的序列（张量）中学习模态-时间互信息仍然是一个挑战。在本文中，我们通过提出一种新的深度双线性框架来解决这一挑战，其中定义了由两个线性池化层（模态池化层和时间池化层）组成的双线性块来池化输入张量模态用于RGB-D动作识别的深度双线性学习3图二、我们的识别系统的图示。我们的系统由两部分组成：立方体特征构建和深度双线性学习。立方体构造部分是提取用于表示RGB-D动作的多个时间特征图深度双线性学习部分用于挖掘用于识别的信息动作表示。分别沿着模态和时间方向。以这种方式，沿着时间和模态维度的结构都被保留。通过堆叠所提出的双线性块和其他网络层（例如，Relu和softmax），我们开发了我们的深度双线性模型来共同学习视频中的动作历史和结果表明，学习模态时间互信息有利于RGB-D动作的识别。请注意，在[9，10]中还探索了双线性池的使用，用于池化特征对。然而，它们的双线性层被定义为两个输入特征的外积，其目的是将两个向量池化为更高维的特征表示。这些方法被开发用于池化1D向量。相比之下，我们的目标是整合的输入模态时间张量从不同的维度，以保持输入的张量结构。我们的双线性块是基于双线性映射构造的，它迭代地学习序列中的时变动力学和多模态信息，因此更适合于学习在时间和模态方向上具有复杂张量结构的RGB-D序列为了在序列中编码丰富的模态时间信息并促进我们的深度双线性学习，我们进一步提出了一种称为模态时间立方体的新型动作描述符，以从全面的角度来表征RGB-D动作。我们的立方体包括五个特征图，每个特征图都是从某个模态内的各种进度水平的序列中提取的，并从某个角度描述了动作。我们的实验表明，所提出的模态-时间特征适合所提出的深度双线性模型，并且可以很好地相互补充。总的来说，我们的贡献是：1）用于学习多个模态-时间特征的新型深度双线性框架; 2）用于表征RGB-D动作的模态-时间立方体描述器。在两个公开的基准RGB-D动作集上进行了广泛的实验分析和评估，具有四种不同的评估设置，表明我们的方法达到了最先进的性能。我们的系统的图示如图2所示。立方体构造双线性学习类单通道CNN时间类类类模态类时间模态类时间16通道CNN时间模态时间模态时间类...单通道CNN时间类时间类类类类类16通道CNN时间双线性块1双线性块n类…RNN时间SKLRGBDEP模态时间时间模态模态时间时间模态模态识别分数4J. - F. 胡伟S. Zheng，J.Pan，J.Lai和J.张图三. 从原始序列生成复合动作GIST帧的图示。2相关工作在下文中，我们简要回顾了与我们的工作密切相关的Kinect动作识别方法（基于深度或骨架我们还概述了双线性池技术和学习多模态特征和时变信息用于动作识别的方法。基于深度或骨架的动作识别。深度序列中描绘的几何信息可以用于表征动作[24，36，42，26，18]。例如，每个时空深度立方体内的定向法线的直方图这些方法主要是基于观测到的深度序列来开发它们的系统。另一方面，人类动作也可以由人类姿势（或骨架）的动态来表征。探索每个骨架关节[15，40，5，33]和关节对[41，25，20，43，29]的时间动态，以挖掘骨架序列中描绘的结构运动然而，每种模态都有其自身的不足之处，用于表征涉及对象和交互的复杂动作。相比之下，我们的方法探索了不同模态之间的协作，因此通过仅使用深度或骨架特征来丢失上下文信息的弱点可以通过与RGB特征协同工作来克服基于RGB-D的动作识别。最近的工作表明，将RGB，深度和骨架结合在一起可以提高系统性能[37，12，39，28，19]。例如，[13]提出了一个联合学习框架来挖掘由不同模态特征共享和指定的在[28]中探索了一种深度共享特定与这些选择结合从完整序列中提取的多模态特征的工作不同，在本文中，我们制定了一种深度学习方法来学习各种模态和进度水平的特征从而探讨了情态-时态交互结构。双线性池。已经引入了双线性池来组合由两个CNN模型提取的特征[21，9，10]。例如，在[9]中，开发了一种具有双线性池的深度然而，在这些作品中，双线性池被定义为两个特征的外积，以产生更高维的特征。在我们的工作中，双线性时间原始图像复合动作要点图像用于RGB-D动作识别的深度双线性学习5被定义为由两个线性算子组成的操作块，这两个线性算子分别沿着模态和时间维度汇集张量特征，其具有保持张量结构的优点。多模态动作识别。综合多模态特征可以提高识别性能。组合特征的一种简单方法是直接将它们连接在一起[46，31]。为了在多模态特征之间挖掘更多的交互信息，提出了许多方法来显式地学习特征之间的共享特定结构[11，13，28]。然而，这些工作没有探索的时变信息之间的多个模态特征提取的序列的不同的进展水平。用于动作识别的时变信息。研究表明，明确地捕获序列中的时变信息是有益的。直观地说，时变信息可以通过非参数模型来捕获，如均值或最大池[16]和傅立叶变换[13]等。通过数据驱动方法学习时变信息[7，8，35]可以更好地推广到看不见的序列。例如，[7]使用排名机器来编码序列特征之间的动态。请注意，TSN [38]还旨在学习不同模态序列内的时变信息。然而，他们对时变和模态变化信息进行了单独建模。从每个模态中挖掘的时变信息是经验总结的，这使得他们的方法不太适用于建模时间-模态相互信息。相比之下，我们开发了一个灵活的学习框架，用于学习各种形式和时间长度的序列之间的动态联合。3方法我们的目标是探索时变和模态变化的信息，为RGB-D动作识别提出了一种新的深度双线性框架，其目的是整合模态和时间方向的模态时间立方体。我们还提出了一个立方体描述符，用于表征RGB-D动作。3.1模态-时态立方体构造在这里，我们描述了如何构建我们的模态时间立方体表示RGB-D动作。我们的立方体包括时间特征图提取的序列中的各种进展水平在一定的形式（骨架，RGB或深度），其中每一个特征的行动从一定的角度来看。动作历史序列。为了提取时间特征，我们将每个序列均匀地划分成D个段，并且将包括前d个段的序列视为长度为d（|AHS|= d）。因此，我们总共有D个AHS，其长度范围从1到D。然后，对于骨架、RGB或深度的每个序列，我们从相应的AHS中提取时间特征，这形成了捕获时变信息的基础。骨架时间特征图。我们采用序列-序列RNN从每个骨架序列中提取时间特征，其中AHS是6J. - F. 胡伟S. Zheng，J.Pan，J.Lai和J.张K由动态骨架描述符（DS）[13]编码。因此，连续AHS的DS特征之间的依赖关系被建模。然后，我们使用RNN的输出作为我们的特征映射，它可以捕获每个序列中描述的一些动态骨架信息。RGB和深度时间特征图。受[13]的启发，其中从每个骨骼关节周围的局部图像块中提取的视觉特征用于表示人类动作，我们还考虑以类似的方式提取我们的时间特征图在这里，对于每个RGB/D图像帧，我们收集每个骨架关节周围的局部图像块，并将它们平铺以组成新图像，我们将其称为动作要点图像，如图3所示的动作帧的紧凑表示因此，通过顺序地池化其GIST帧来形成动作要点应注意，对应于相同（跟踪的）骨骼关节的局部贴片在帧中的相同空间位置处平铺，但跨越时间，从而在时间维度中形成基于轨迹的贴片使用这样的组合有两个优点：1）可以有效地将卷积神经网络作为CNN，因为我们不需要为每个基于概率的块序列创建CNN;在图3中，我们展示了一些关于复合动作GIST框架的示例。可以看出，要点图像帧浓缩了大部分动作上下文，并自动去除了不相关的信息，如背景。相同空间位置处的片块对应于关节的长期轨迹在这方面，我们的工作可以是基于轨迹的动作识别[34]。然后，我们通过分别从所有复合动作要点AHS中提取K通道CNN5为了训练K通道CNN，我们为每个训练序列选择了K个有序动作GIST帧具体地，第u个所选帧的时间位置由max（1，1 +（u-1）ls+ δ）给出，其中ls指示序列的长度，并且扰动δ是服从均匀分布的随机整数U（−ls，ls）。在我们的实验中，两种不同的设置（K= 1和K= 16）2K2K都被使用了。从K= 1提取的特征图可以捕获静态外观信息，而来自K= 16的映射表征动态外观。特征立方体构造。最后，将所有的特征图沿模态维连接起来，构造模态-时间立方体，其大小为模态数×AHS数×特征维。总的来说，我们的立方体描述符包含五个时间特征图，其中两个来自RGB AHS（1通道CNN和16通道CNN），两个来自深度AHS（（1通道CNN和16通道CNN）），一个来自骨架AHS（RNN），每个特征图表征来自特定模态的不同AHS长度的动作。它们的组合可以形成综合的动作表示。请注意，为了构建特定模态和时间长度的AHS的时间特征，我们使用CNN的最后一层的输出(orRNN用于骨架AHS），其大小与动作的数量相同5K通道CNN的输入是沿着通道维度连接的K个灰度图像。因此，它是一个CNN，其输入大小为224 × 224 × K。用于RGB-D动作识别的深度双线性学习7图4.第一章按元素全连接与平面全连通层。班那些特征可以被认为是软分类分数（即，在使用softmax操作符之前）。因此，我们的立方体的第三个维度编码的分类信息，沿着这个维度的元素是高度相关的彼此。我们把这个特征维度称为类维度。3.2深度双线性学习我们的立方体描述符包括从RGB-D AHS中提取的多个时间特征，使得大多数现有的多模态特征学习方法不适用于学习信息丰富的动作表示。由于（立方体）类维度中的每个元素对应于将给定样本分配给某个操作类的置信度，因此汇集不同类的置信度没有多大意义。此外，我们在表5中的实验结果证实，合并不同类的元素对我们的框架来说不是最好的。在下文中，我们将介绍一种新的深度学习框架，以汇集模态和时间信息，同时保持类维度不变。我们称我们的框架为深度双线性，因为它的灵感来自双线性映射的制定重访双线性映射。在数学中，双线性映射是将两个向量空间的元素组合以产生第三个向量空间的元素在社区中广泛使用的双线性函数的公式是f（x，y）=xTAy（1）其中A∈Rm×n，x∈Rm，y∈Rn.可以看出，f（x，y）相对于变量x和y中的每一个是线性的。将上述公式以矩阵形式扩展为f（X，Y）=XTAY⑵其中A∈Rm×n，X∈Rm×p，Y∈Rn×q.该公式可以被认为是两个线性算子的组合。第一个运算符L=XTA是使用X的列所指示的权重来组合A的行。它合并输入矩阵的行，同时保持列维度不变。我们称之为行池操作符。并且第二运算符LY（命名为列池化运算符）用于计算潜在矩阵L中的所有列的加权和，其中组合权重由以下行指示：类时间类时间逐元素平面方向模态模态模态模态8J. - F. 胡伟S. Zheng，J.Pan，J.Lai和J.张Y. 它用于汇集L的列。行池化和列池化的组合将m×n大小的A变换为p×q的矩阵。双线性块。给定模态时间立方体，这里我们将定义一个块，称为双线性块，以基于双线性映射（2）将其分别在模态和时间维度因此，沿模态和时间维度的张量结构在特征池化期间被保留。请注意，块将保持类维度不变。我们的双线性块由两个神经层（即，时间池化层和模态池化层），其中的每一个对应于双线性函数中的一个运算符。模态池化层。该层被定义为在模态维度中池化输入立方体。我们将其表述为平面线性组合问题：L（：，：，c）= XTA（：，：，c），c = 1，2，… C（3）其中X∈RMA×ML是要学习的模型参数，其中MA和ML是立方体A和L的模态维数。特别地，ML是要由用户指定的参数A∈RMA×T×C是输入立方体，L是输出立方体，其大小为ML×T×C。由等式（3）定义的层将模态定义从MA汇集到ML。这并不意味着M在实践中的地位。值得注意的是，模态池化层（3）可以被重写为ΣL（mL，：，：）=mA =1，2，…是个X（mA，mL）A（mA，：，：），mL= 1，2，…中国（4）这意味着对应于相同模态的元素由相同参数加权。也就是说，立方体以平面方式被池化。另一种方法是以逐元素的方式将其合并，其中每个元素由特定参数加权，如图4所示然而，这会引入大量可学习的参数，使模型容易陷入过拟合。我们将在实验部分（5）中演示它。临时池化层。时间池化层被定义为在时间维度中池化输入3D立方体。具体地，它可以被公式化为Z（：，：，c）= L（：，：，c）Y，c = 1，2，.，中文（简体）这里，Z和Y分别表示输出立方体和池化参数我们想要指出，如果我们置换输入立方体的时间维度和模态维度，则可以使用模态池化层来等效地计算时间池化层。在下文中，我们使用fT来指示时间池化层。为了提高模型的泛化能力，我们对模型参数X（Y）进行了L2范数和L1范数约束.L1范数被用来惩罚X（Y）中的非零元素，这可能导致稀疏矩阵。溶液L2范数用作衰减项。则双线性块可以定义为b=fT<$fM（A）。在这里，我们基于模态池化和时间池化层构建我们的双线性块，分别从一个维度到另一个维度池化立方体。用于RGB-D动作识别的深度双线性学习9模态（M 2M）时间（T T/2）类类模态双线性块1模态时间类模态(2M M）类（T/2T/4）模态模态双线性块2模态级别（M 1）类时间（T/4 1）模态SoftmaxReLUReLUReLU类双线性块3图五、所采用的深层体系结构的图示。深度双线性架构。给定一组M×T×C大小的模态时态立方体，我们的目标是学习一个底层映射f，它将所有立方体元素合并为一个鲁棒表示y∈RC。换句话说，目标是找到将输入立方体的模态维度和时间维度池化为1的映射。在本文中，我们将映射f定义为双线性块、Relu和softmax算子的堆栈，即， f = g1◦ g2◦... gn. 其中g，n是指上述算子或双线性块中的我们的深度双线性架构的形式是灵活的。本文中的实验涉及具有三个双线性块、三个Relu层和一个softmax层的深度架构，而更多的层是可能的。在该架构中，每个双线性块之后是Relu层以非线性地映射块的输出。所采用的深度架构的图示可以在图5中找到。更多细节请参考实验部分。优化.我们通过具有动量的随机梯度下降（SGD）来优化我们的深度双线性，其中梯度由反向传播算法确定我们使用逻辑损失作为损失函数。对于X（Y）的L1-范数的梯度，我们使用广义梯度X. |（Y ./|(Y./ |）以简化。|) for simplicity.4实验我们在两个公共基准3D动作数据集上评估了我们的方法：NTURGB+D数据集[22]和SYSU 3D HOI数据集[14]，每组采用两种不同的评估方案。在下文中，我们将简要介绍实现细节，然后描述我们的实验结果。4.1实现细节根据[13]中的观察，我们提取骨骼关节周围的64×64块，以形成我们的复合动作GIST帧6。为了从NTU RGB+D集上的RGB和深度视频中提取时间特征图，我们6要点图像线性调整为224 ×224。时间时间时间时间时间时间10J. - F. 胡伟S. Zheng，J.Pan，J.Lai和J.张表1. NTU RGB+D集的识别结果（准确度）。“-”表示文献中未报告该性能。方法使用的数据跨学科交叉视图[6]第六话SKL百分之三十八点六41.4%[12]第十二话SKL百分之六十点二65.2%Part-aware LSTM [27]SKL百分之六十二点九百分之七十点三ST-LSTM [22]SKL百分之六十九点二百分之七十七点七GCA-LSTM网络[23]SKL74.4%82.8%[28]第二十八话RGB+DEP+SKL 74.9%-MTLN [17]SKL百分之七十九点六百分之八十四点八视图自适应LSTM [44]SKL百分之七十九点四百分之八十七点六注意力[1]公司简介82.5%88.6%RGB+DEP79岁。百分之二81. 百分之一深度双线性公司简介DEP+SKL83岁0%的百分比83岁百分之三87岁百分之一89岁。百分之五RGB+DEP+SKL 85.4%百分之九十点七训练了一组K通道VGG-16网络，而没有在其他辅助数据集7上进行预训练，其中我们将动量因子和辍学率分别设置为0.9和0.7。而对于SYSU 3D HOI数据集，由于我们没有足够的数据来训练CNN，我们选择对在NTU RGB+D集上训练的模型进行微调。对于RNN在两个集合上的训练，我们使用具有动量的时间反向RNN的隐藏层中的神经元数目被设置为256。为了加快RNN的优化，我们使用PCA来降低提取的DS特征的维数，其中保留了98%的方差。在下面的实验中，我们的深度双线性学习模型被定义为三个双线性块，三个Relu层和一个softmax层的堆栈，除非另有说明。详细架构是模态池化层M-→ 2 M、时间池化层T-→T/2、模态池化层2 M-→M、时间池化层T/2-→T/4、Relu、模态池化层M-→1、时间池化层T/4-→1、Relu、softmax，如图5所示这里，模态池化层2 M-→M意味着该层在从2 M到M的模态维度上池化立方体。T、C、M分别指示时间长度、类别编号和模态编号。我们凭经验发现，在我们的实验中，放大模态维度可以产生更好的识别结果。这可能是因为不同模态的特征有很大的差异，并且向上扩展模态维度可以产生表达能力更强的元模态特征，这符合开发内核技巧的基本思想模型参数初始化由一个改变的xavier算法，其中的随机权重是由一个均匀分布，而不是一个高斯分布。我们的实验发现，以这种方式初始化网络可以显着减少训练的时间。从包含70%-100%的全序列的AHS提取的时间特征图（即，|=7、8、9、10）是|=7, 8, 9, 10) are7事实上，我们没有观察到通过在imageNet集合上预训练网络来显著提高识别性能。用于RGB-D动作识别的深度双线性学习11表2.SYSU3DHOI集的识别结果（准确度）。“-”表示文献中未报告该性能。方法使用的数据设置-1设置-2HON4D [13，26]DEP百分之七十三点四百分之七十九点二HFM [13，4]RGB+DEP+SKL 百分之七十五76.7%ST-LSTM [22]SKL76.5%-视图自适应LSTM [44]SKL百分之七十六点九百分之七十七点五MPCCA [13，3]RGB+DEP+SKL 百分之七十六点三百分之八十点七MTDA [13，45]RGB+DEP+SKL 百分之七十九点二百分之八十四点二Joule [13]RGB+DEP+SKL 百分之七十九点六百分之八十四点九RGB+DEP七十七。百分之二83岁百分之一深度双线性公司简介DEP+SKL81. 百分之五82岁占6%86岁。百分之二84. 百分之八RGB+DEP+SKL 百分之八十四点八88.9%用于在大多数实验中构造立方体描述符。学习率初始化为10−3，经过几次迭代后会下降到10−44.2NTU RGB+D数据集NTU RGB+D数据集是专门为研究大规模RGB-D人体动作识别而收集的为了收集该集合，要求40个受试者执行60个不同的动作，并且使用Kinect v2从三个不同的视图捕获完整的动作执行总的来说，它包含超过56K的动作样本，用于训练和测试。与大多数现有数据集相比，这个集合非常具有挑战性，并且在动作类，视图和样本的数量方面更大，具有较大的类内变化[13，37]。对于实验，我们完全遵循[22]中指定的相同评估设置，其中两个不同的训练-测试分裂（即跨主题和跨视图）被用于评估识别性能。在跨主题设置中，由20个主题执行的序列用于训练，其余的用于测试。而在交叉视图设置中，两个视图（相机2和相机3）的样本被用作训练集，并且其他样本形成测试集。比较结果见表1。如图所示，我们的深度双线性学习方法在该集合上获得了最佳结果，并且比最先进的方法，如MTLN [17]和视图自适应LSTM模型[44]，表现更好（例如，交叉受试者设置≥6%具体地，我们的方法获得了85的准确度。4%和90。7%的跨学科和跨视图设置，分别。我们可以观察到，即使对于跨视图设置，我们的模型仍然可以比所有其他竞争对手表现得更好，特别是比视图自适应模型[44]好3。1%，这是专门设计用于识别跨不同视图的动作值得注意的是，我们的双线性框架比中开发的模型表现得更好。[28]（85。4% vs. 74. 9%），它还通过深度模型学习从RGB，深度和骨架中提取的特征，但仅使用完整序列。这证明了我们的双线性框架的有效性，该框架旨在探索具有部分动作执行和不同动作识别模式的AHS12J. - F. 胡伟S. Zheng，J.Pan，J.Lai和J.张我们还可以观察到，即使使用从RGB、深度和骨架数据中的两个提取的时间特征图，我们仍然可以获得良好的性能，这与现有技术的模型相当，例如，注意力网络。这意味着用我们的深度双线性模型显式地挖掘一些信息模态-时间结构有利于识别。正如预期的那样，当我们使用所提出的深度双线性学习算法将所有特征融合在一起时，性能得到了很大的提高这也表明从不同模态序列中提取的时间特征图可以很好地相互补充，以获得全面的动作表示。4.3SYSU 3D HOI套件收集SYSU 3D HOI集用于研究具有人-对象交互的复杂动作该集合包含了玩手机、打电话、拖地、扫地等6对交互动作的480个样本。这一组是具有挑战性的，因为每对所考虑的相互作用包含类似的对象上下文和交互式运动。在实验中，我们采用文献[14]中定义的两个评价标准进行检验。在第一个设置（命名为setting-1）中，对于每个操作类，一半的样本用于训练，其余的用于测试。第二个设置（命名为设置-2）是跨受试者设置，其中一半受试者执行的序列用于训练模型参数，其余的用于测试。对于每个设置，报告了通过30个随机训练-测试分割获得的平均准确度。我们在表2中报告了结果。可以看出，在这两种设置中，我们的深度双线性模型都优于最先进的模型JOULE [13]，该模型旨在从不同模态的完整序列中学习动作表示。特别是对于设置-1，我们的方法具有4的性能增益。8%。这表明，明确探索多模态序列中描绘的时变信息与NTU RGB+D集相同，融合多个模态-时间立方体描述符可以获得更好的性能，这说明我们的深度双线性模型可以从立方体中学习全面的动作表示来表征人类动作。我们还可以观察到，基于RGB-D的模型（JOULE [13]和我们的深度双线性模型）获得了比基于单一模态的方法（例如：视图自适应LSTM [44]，ST-LSTM [22]和HON 4D [26]）。这是预期的，因为仅使用深度或骨架数据在克服由外观变化、遮挡、杂乱背景等引起的模糊性方面受到固有限制5深入的分析在这里，我们对所提出的深度双线性学习方法进行了更多的讨论和分析。以下所有结论均基于NTU RGB+D数据集上的实验获得，具有挑战性的跨学科设置。用于RGB-D动作识别的深度双线性学习13表3. 与对比的评估没有时间模型。RGBDEP骨架RGB+DEP+SKL没有72.5% 73.1% 69.8%83.5%与百分之七十五点三75.9% 72.5%85.4%表4.AHS长度的评估。AHS长度≥1≥3≥5≥7≥9精度84.1% 84.1% 84.3% 85.4% 84.3%对时间模型的评价。我们的深度双线性模型从模态时间立方体中学习动态。在这里，我们研究的时间维度的影响，仅使用对应于完整的序列的功能。详细结果见表3。如图所示，通过时间动态建模，我们可以看到有价值的改进（准确度方面约为1.5-3%），这表明了在不同长度的AHS中学习时变信息以用于动作识别的功效在这里，我们进一步研究了AHS的长度的影响。我们分别对长度大于等于1、 3、 5、 7、 9的 AHS进行了测试。结果示于表4中。我们可以观察到，当长度大于或等于7时，我们的系统获得最佳结果当长度变小时，精度会这是因为具有小长度的AHS不包含用于表征动作的足够的动作上下文。引入短的AHS可能会给学习增加更多的噪音。与其他融合和双线性格式的比较。在这里，我们比较我们的双线性学习框架与其他融合和双线性计划。具体而言，我们测试了不同的设置，其中立方体通过最大池化（max），平均池化（mean），线性SVM和多模态紧凑双线性（MCB [9]）模型进行池我们还将双线性块中的平面连接池（表5中由Ours表示）替换为元素连接FCN（详情请参见图4），并比较它们的性能。比较结果见表1。5. 可以看出，我们的模型提供了优于硬编码的非学习融合方法（例如，最大值和平均值）。这是因为我们模型中的每一层因此，我们的双线性模型提供了更好的融合学习能力。而这些硬编码的方法缺乏这一关键点。通过检查由数据驱动融合方案（例如，线性支持向量机，MCB和多核表5. 与其他融合方案的比较，其中使用我们的特征网络。方法Max是说线性SVMFCNMCB [9] MKL我们参数编号0072K6.7M16K72K115精度七十七。百分之五83岁0%的百分比83岁百分之五七十六。百分之三百分之八十四84. 百分之一八十五百分之四14J. - F. 胡伟S. Zheng，J.Pan，J.Lai和J.张表6. 对深度双线性模型中使用的双线性块数量的评估。块号12345精度83岁百分之八84. 百分之四八十五百分之四八十五百分之一84. 百分之九学习（MKL）），我们可以看到数据驱动的融合可以实现比硬编码的更好的结果。其中最好的结果是由MKL，达到了84的准确性。3%，这比表中除我们的方法外的所有其他方法都要好。还应注意，如果我们使用按元素的FCN来池化立方体描述符而不是按平面的描述符，则性能降低。这是意料之中的，因为FCN有大量的参数需要学习，这使得模型很容易陷入过拟合。模型参数越多，性能越差。我们的方法也比MCB [9]高出1.4%，MCB [9]通过外积双线性算子汇集了特征，而没有精确考虑不同维度的张量结构这表明，我们的双线性模型以迭代的方式学习时间模态互信息可以帮助提高识别性能。双线性深度和池化顺序的影响。我们的深度双线性是通过堆叠一组双线性块和其他网络层来构建的。在这里，我们评估双线性块的数量（深度）的影响结果列于表6中。可以观察到，当块的数量较小时，增加深度将增加性能（例如，85.4% vs.83.8%）;当数量变大时（例如，大于3）时，性能趋于饱和，对深度的增加我们的方法也是不敏感的顺序融合。例如，如果我们首先融合时间维度，然后在每个双线性块中融合模态，则识别准确率略有下降（85.0% vs.85.4%）。6结论我们提出了一种新的深度双线性学习框架来学习模态时间信息（即，跨不同模态的时变信息）用于RGB-D动作识别。在该框架中，构造了一个由两个线性池层组成的双线性块，分别从模态和时间方向提取互信息。此外，我们提出了一个新的动作特征表示的张量结构，命名为模态时间立方体的动作上下文编码。广泛的实验已被报道，以证明所提出的框架的有效性。确认本工作得到了国家自然科学基金（U1611461）和国家自然科学基金（61702567，61522115，61661130157，61628212）的资助这项工作也得到了中国国家重点研究发展计划（2018YFB1004903）的部分支持。本文作者郑伟世。用于RGB-D动作识别的深度双线性学习15引用1. Baradel，F.，Wolf，C. Mille，J.：人类行为识别：基于姿势的注意力将注意力吸引到手。在：计算机视觉研讨会国际会议（2017）2. Bobick，A.F.，Davis，J.W.：利用时间模板识别人体运动。IEEE Transactions onpattern analysis and machine intelligence23（3），2573. 蔡志，Wang，L.，美国，彭，X. Qiao，Y.：用于动作识别的多视图超矢量。计算机视觉与模式识别国际会议。pp.第5964. 曹，L.罗，J.，Liang，F.，Huang，T.S.：用于视觉识别的异构特征机。国际计算机视觉会议（ International Conference on Computer Vision ） pp. 1095-1102（2009年）5. 杜，Y.，王伟，Wang，L.：基于骨架的动作识别的层次递归神经网络。计算机视觉与模式识别国际会议。pp. 11106. Evangelidis，G.，Singh，G. Horaud，R.：骨骼四头肌：使用关节四元组的人类动作识别。国际模式识别会议（International Conference on Pattern Recognition）pp. 45137. Fernando，B.，Gavves，E.，Oramas，J.，Ghodrati，A.，Tuytelaars，T.：排名池 -用于动作识别。 IEEE Transactions on Pattern Analysis and MachineIntelligence39（4），7738. Fernando，B.，Gould，S.：学习端到端视频分类与排名-汇集国际机器学习会议（International Conferenceonpp. 11879. Fukui，A.，D.H.公园杨，D.，Rohrbach，A.，Darrell，T.，Rohrbach，M.：多模态紧凑双线性池的视觉问题回答和视觉接地。arXiv预印本arXiv：1606.01847（2016）10. 高，Y.，Beijbom，O.，Zhang，N.，达雷尔，T.：紧凑的双线性池。国际计算机视觉与模式识别会议. pp. 317-326（2016）11. Gu，Q.，Zhou，J.：学习用于多任务聚类和trans-ductive transfer classification的共享子空间。数据挖掘国际会议。pp. 15912. 胡J.F. Zheng，W.S.，Lai，J.，Zhang，J.：联合学习rgb-d活动识别的异构特征。计算机视觉与模式识别国际会议。pp. 534413. 胡J.F. Zheng，W.S.，Lai，J.，Zhang，J.：联合学习rgb-d活动识别的异构特征。IEEE Transactions on Pattern Analysis and Machine Intelligence39（11），218614. 胡J.F.Zheng，W.S.，马，L.，Wang，G.，Lai，J.：实时rgb-d活性预测软回归。欧洲计算机视觉会议pp. 280-296（2016）15. Hussein，M.E.，Torki，M.，Gowayyed，M.A.El-Saban，M.：人类行为识别-在3D关节位置上使用协方差描述符的时间层次来进行估计。在：国际联合会议人工智能。第13卷，第2466-2472（2013年）16. Karpathy，A.，Toderici，G.，Shetty，S.，Leung，T.，Sukthankar河李菲菲：使用卷积神经网络进行大规模视频分类。在：计算机视觉和模式识别国际会议. pp.第1725-1732（2014）号决议16J. - F. 胡伟S. Zheng，J.Pan，J.Lai和J.张17. Ke，Q. Bennamoun，M.，An，S.，Sohel，F.，Boussaid，F.：新制图表达用于3D动作识别的骨架序列。arXiv预印本arXiv：1703.03492（2017）18. Klaser，A.，Marsza-lek，M.，Schmid，C.：一种基于三维梯度的时空描述子。在：英国机器视觉会议。pp. 27519. Koppula，H.S.，古普塔河Saxena，A.：从rgb-d视频中学习人类活动和物体的相关性。International Journal of Robotics Research32（8），95120. 利略岛Soto，A.，尼布尔斯，J.C.：空间-时间可组合人类活动的判别分层建模。计算机视觉与模式识别国际会议。pp. 81221. Lin，T.Y.，RoyChowdhury，A. Maji，S.：用于细粒度视觉识别的双线性cnn模型。IEEE International Conference on Computer Visi

下载后可阅读完整内容，剩余1页未读，立即下载