基于李群的深度学习用于动作识别的研究

29 浏览量更新于2023-10-16 收藏 878KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6099基于李群的深度学习，用于基于动作的识别Zhiwu Huang瑞士苏黎世联邦理工学院计算机视觉实验室比利时鲁汶大学{zhiwu.huang，wanc，probstt，vangool}@ vision.ee.ethz.ch摘要近年来，基于机器人的动作识别已经成为一个流行的3D分类问题。最先进的方法通常首先将每个运动序列表示为李群上的高维轨迹，并具有额外的动态时间扭曲，然后浅地学习有利的李群特征。在本文中，我们将李群结构纳入深度网络架构，以学习更合适的李群特征用于3D动作识别。在网络结构中，我们设计了旋转映射层，将输入李群特征转换为所需的特征，这些特征在时域中更好地对齐。为了减少高特征维数，该架构配备了李群上元素的旋转池此外，我们还提出了一个对数映射层，将生成的流形数据映射到一个切空间，便于将常规输出层应用于最终分类。对标准3D人体动作识别数据集的评估清楚地表明，该网络优于现有的浅李群特征学习方法以及大多数传统的深度学习方法。1. 介绍由于深度传感器的发展，3D人类活动分析[27，45，23，43，41，3，42，37，44，26，35，17]比以往任何时候都吸引了更多的兴趣。最近基于流形的方法在3D人体动作识别方面非常成功，这要归功于它们对骨架数据的基于流形的视图不变表示。典型的例子包括Kendall形状空间中的形状轮廓在本文中，我们专注于研究基于流形的方法[41，3，42]来学习骨骼动作数据的更合适的李群表示，这些方法已经实现了一些3D人类动作识别基准的最新性能。如在[41，3，42]中所研究的，李群特征学习方法经常受到速度变化的影响（即，时间未对准），这趋于恶化分类准确性。为了处理这个问题，他们通常采用动态时间规整（DTW），如最初在语音处理中使用的那样[30]。不幸的是，这样的过程花费额外的时间，并且还导致两步系统通常比端到端学习方案执行得更差。此外，这种用于动作识别的李群表示往往是非常高维的，部分原因是每个骨骼段提取特征，然后堆叠。因此，对这种非线性轨迹的任何计算都是昂贵且复杂的。为了解决这个问题，[41，3，42]尝试首先通过切线近似或滚动映射来平坦化底层流形，然后利用SVM或PCA类方法来学习所得平坦空间中的特征。虽然这些方法取得了一定的成功，但它们仅仅采用了浅线性学习方案，在特定的非线性流形上产生深度神经网络在学习图像和视频的紧凑和区分表示方面这促使我们构建一个深度神经网络架构，用于李群上的表示学习。特别是，受经典流形学习理论[38，36，4，12，20，19]的启发，我们为新的网络结构配备了旋转映射层，输入李群特征被转换为具有更好对齐的新特征。结果，可以适当地减轻速度变化的影响。为了降低李群特征的高维性，我们设计了特殊的池层，分别在空间和时间层面上由于输出数据驻留在非线性流形上，我们还提出了一个黎曼计算层，其输出可以馈送到任何规则的输出层，如softmax层。简而言之，我们的主要贡献是：• 引入一种新的神经网络架构，以深入学习更理想的李群表示的问题，基于神经网络的动作识别。6100m，nm，nMM000R01 1R0n• 所提出的网络提供了一种将李群结构纳入深度学习的范例，它将传统的神经网络模型推广到非欧李群• 为了在反向传播框架内训练网络，在李群的背景下利用随机梯度下降优化的变体2. 相关工作已经有相当多的作品[46，34，2，29，33，14，15]将李群理论的各个方面应用于深度神经网络。3. Skeleton数据的李群表示设S=（V，E）是身体骨架，其中V={v1，. . .，v N}表示身体关节的集合，并且E ={e1，. . . ，eM}指示边缘的集合，即，定向刚体骨骼。如[41，3，42]中所述，相对几何-一对身体部位En和EM的Try可以在附加到另一个的局部坐标系中表示。身体部位en的局部坐标系是通过以最小旋转旋转来计算的，使得其起始关节成为原点并且与x轴重合。通过该过程，我们因此分别得到两个边缘em，en的变换后的3D矢量em，en 然后我们可以计算例如，[33]研究了如何稳定性能的一个旋转矩阵Rm，n（RTRm，n=Rm，nRT=连续递归神经网络可以通过使用李群投影在突触权重矩阵上操作而在平衡点的邻域内改变。[14]研究了具有正交约束的无监督神经网络的行为，通过利用李群的几何学。特别地，研究了一般李群学习理论的两个子类详细地，处理一阶（基于梯度）和二阶（非基于梯度）学习。[15]介绍了深度对称网络（symnets），卷积网络的推广，在基本上是李群的任意对称群上形成特征映射该对称网利用基于核的插值来可追踪地绑定参数并在任何维度的对称空间上池化。此外，最近出现了一些深度学习模型[10，7，28，25，18，21]，它们处理非欧几里德域中的数据例如，[10]提出了卷积网络的频谱版本来处理图形。利用经典傅里叶变换与Laplace-Beltrami本征基之间的相似性，提出了非平移不变卷积的概念。[25]开发了一种可扩展的方法，用于将任意时空图视为丰富的递归神经网络混合物，该方法可用于通过采用某组定义明确的步骤来转换任何时空图对于形状分析，[28]提出了局部测地线坐标系上的这种方法通过在流形上滑动窗口来执行卷积，并且使用局部测地线坐标来代替图像补丁。为了深入学习对称正定（SPD）矩阵-用于许多任务- [18]在SPD矩阵的流形上开发了一个黎曼网络I n|Rm，n|=1）从em到e n的局部坐标系。具体地，我们可以首先通过下式计算旋转矩阵Rm，n的轴角表示（ω，θ）：ω=emen，（1）eθ=arccos（em·en）。（二）其中，·、·分别是外积和内积然后，轴角表示可以容易地变换为旋转矩阵Rm，n。同样地，从en到em的局部坐标系的旋转ma-Rn，m可以计算。为了完全编码em和en之间的相对几何形状，Rm，n和Rn，m都被使用。结果，时刻t的骨架S由形式（R1，2（t），R2，1（t））表示。. .，RM−1，M（t），RM，M−1（t）），其中M是身体部位的数量，旋转矩阵是2C2（C2是组合公式）。Rn中n×n旋转矩阵的集合构成特殊正交群SOn，SO n实际上是一个矩阵李群[22、9、16]。因此，移动骨架的每个运动序列用李群SO3× SO4上的曲线表示。. . . ×SO3。已知矩阵李群被赋予具有可微的黎曼流形结构。因此，在 SOn 上的每个点 R0 处，可以导出切空间TR0SOn，它是由集合反对称矩阵当锚点是单位矩阵In∈SOn时，所得的切空间称为李代数SOn。由于切空间是配备了内积，黎曼度量，SOn可以由Frobenius内积定义：< A1，A2>=trace（ATA2），A1，A2∈TRSOn.（三）10ces，其中一些层专门设计用于处理这种结构矩阵总之，这些工作已经将李群的一些理论应用于规则网络，甚至将普通网络推广到非欧域。尽管如此，据我们所知，这是第一个研究李群深度学习架构以处理基于机器人的动作识别问题的工作。与黎曼度量相关的SOn上R0logR（R1）= log（R1RT），其中R0，R1∈SOn，（4）exp（A）=expA1RT其中A ∈ TSO。（五）6101中国R中国p中国R中国p中国r10我R1 = W1 R0 R2 =最我我我R3 = W3 R2 R4 =最我我我中国l（l-1）李群…我M我1 2ˆ1 2ˆ1 2ˆ输入RotMatRotMap旋转池RotMap旋转池...LogMap输出Rl（l）SO3 × SO3SO3 × × SO3SO3 × × SO3so3 × × so3图1.所提出的李群网络（LieNet）架构的概念说明在网络结构中，每个RotMap/RotPooling层的数据空间对应于李群，而RotMap层的权重空间也是李群4. 基于小波变换的动作识别RotMap层采用旋转映射fr，f（k）（（Rk−1，Rk−1. . . ，Rk−1）; W k，Wk. . . ，W k）r1 2M12M对于基于小波变换的动作识别问题，=（W kRk−1，W kRk−1. . . ，WkRk−1）（六）构建一个深度网络架构来学习李群1 1 2 2MM=（Rk，Rk. . . 、Rk）骨架数据的表示网络结构称为LieNet，其中每个输入都是李群上的元素。与卷积网络（ConvNets）一样，1 2百万美元其中M =2C2（M是身体骨骼的数量在一个骨架中，C2是组合计算），LieNet还展示了完全连接的卷积层（Rk−1，Rk−1M. . . ，Rk−1）∈SO×SO. . . ×SO是和池化层，命名为旋转映射（RotMap）lay-1 2M3 3 3层和旋转池（RotPooling）层。输入李群特征（即，旋转质量积特别是，建议的RotMap层执行transfor-trices），对于第k层中的一个骨架，Wk∈R3×3对输入旋转矩阵进行多个元素运算以生成新的旋转矩阵，新的旋转矩阵具有相同的流形属性，并且期望被更准确地对准以实现更可靠的匹配。RotPooling层的目标是在空间和时间级别上池化所得到的旋转矩阵，从而可以降低李群特征的维度。由于旋转矩阵位于非欧几里德流形上，因此我们必须设计一个名为对数映射（LogMap）的层，以执行黎曼计算。这将旋转矩阵转换为通常的反对称矩阵，这些矩阵位于欧几里得空间中，因此可以被馈送到任何规则的输出层。拟议的LieNet的架构如图所示。1.一、4.1. RotMap图层从经典流形学习理论[38，36，4，12，20，19]中众所周知，人们可以学习或保留原始数据结构，以忠实地保持测地线距离，以便更好地分类。因此，我们设计了一个RotMap层，将输入的旋转矩阵转换为更适合最终分类的新矩阵。从形式上讲，是变换矩阵（连接权重），（Rk，Rk. . . ，Rk）是所得的李群表示a-M第请注意，虽然只有一个转换矩阵，它可以很容易地扩展为每个输入的多个投影为了保证形式（Rk，Rk. . . ，Rk）变成旋转ma的有效乘积。M位于SO3× SO3上的三分子。. . × SO3，变换矩阵解矩阵Wk，Wk，. . . ，W k都是基本必需的M是旋转矩阵。因此，数据和每个RotMap层上的权空间对应于一个李群SO3×SO3。. . × SO3。由于RotMap图层旨在协同工作利用分类层，每个得到的骨架表示被调整为以端到端深度学习方式进行更准确的分类。换句话说，设计RotMap层的主要目的是对齐移动骨架的李群表示，以实现更可靠的匹配。4.2. RotPooling层为了降低深度模型的复杂性，通常有用的是将表示的大小减小到l（l-1）（l）Rl-2我{R3，..}我{R1，我中国R中国p6102Rk-1，1 n，mn，m1l1 2 3 4 5 6 7 8 9 1011 12 13 14 15 16 1718 19 1减少了网络中的参数和计算量。为此，通常插入一个池max{RkkRk-1，i max{Rkk层之间的连续卷积层在一个典型的，calConvNet架构。池化层通常被设计为计算局部邻域中的统计数据，例如总和聚合、平均能量和最大激活。不失一般性，我们在这里只将max pooling1引入到LieNet设置中，并使用等效的邻域概念。由于特殊池层的输入和输出都是旋转矩阵，我们称这种层为旋转池（RotPooling）层。对于RotPooling，我们提出了两个不同的概念在这件作品中。第一个是在空间层。如图2（a）→（b），我们首先汇总谎言（一）n，m（c）第（1）款（b）第（1）款p，qi、j（c）第（1）款（d）其他事项将每对基本骨骼em，en上的特征分组，第i帧，由两个旋转矩阵表示cesRk−1，i，Rk−1，i（这里k−1是层的阶数）为图2.空间池（SpaPooling）（a）→（b）→（c）和时间池（TemPooling）（c）→（d）方案的图示m，n n，m上述。然后，如图所示。2（b）→（c），我们可以对属于相同的组（这里，我们可以定义五个部分组，即，躯干，两个手臂和两条腿，身体）。然而，第二步将不可避免地导致严重的空间失准问题，从而导致不良的匹配性能。因此，我们最终只采用第一步池化。在是获得运动序列的更紧凑的表示。这是因为一个序列通常包含许多帧，这导致了极高维表示的问题。因此，在时域中池化也可以降低模型复杂度形式上，这种最大池的函数定义为：在此设置下，最大池化的函数由下式给出：f（k）（{（Rk−1，1. . . Rk−1，1）的情况。. . ，（Rk−1，p. . . ，Rk−1，p）}）f（k）（{Rk−1，i，Rk− 1，i}）= max（{Rk− 1，i，Rk− 1，i}）p1，2k−1，1M−1，Mk−1，p一、二M−1，Mpm，n.n，mm，nn，m=（max（{R1，2. . . ，R1，2}）。. . 、Rk−1，i，如果Θ（Rk −1，i）>Θ（Rk −1，i），（七）max（{Rk−1，1. . . ，Rk−1，p}）），=m，nm，nn，mM−1，MM−1，MRk−1，i，否则其中Θ（·）是given旋转矩阵的表示，诸如四元数、欧拉角或欧拉轴角。例如，欧拉轴ω和角度θ表示通常通过下式计算：Rn，m（3，2）−Rn，m（2，3）（十）其中，M是一个骨架中的身体部位的数量，p是用于池化的骨架帧的数量，并且函数max（·）在等式1的方式中定义。7 .第一次会议。4.3. LogMap图层李群SO 3 ×上曲线的分类. . ×ω（Rn，m）=2sin（θ（Rn，m<$Rn，m（1，3）−Rn，m（3，1）<$，））Rn，m（2，1）−Rn，m（1，2）（八）由于SO 3的非欧性质，SO3底层的空间。为了解决这个问题[42]，我们设计对数映射（LogMap）层来使θ（Rn，m）=arccos. 跟踪（Rn，mΣ）−1 、（9）李群SO3×. . . × SO3到它的李代数so3×. . . ×所以3. 因此，通过使用对数映射Eqn.4号2其中Rn，m（i，j）是第i行第j列元素，Rn，m。不幸的是，除了角度表示，该层的函数可以定义为f（k）（（Rk−1，Rk−1. . . ，Rk−1））M（十一）定义四元数或轴角表示的排序关系是不平凡的。因此，在本文中，我们最终采用角形式Eqn。9的旋转矩阵max{Rkn，mRk-1，4 n，mRk-1，4 n，mR k-1，2 R k-1，3n，mn，mRk-1，iRn，mk-1，im，nRR61031 2ˆ及其简单的排序关系来计算函数Θ（·）。另一个汇集方案是在时间层面上的作为示于图2（c）→（d），时间汇集的目的1与求和和均值池化相比，最大池化可以直接生成另一方面，利用李群计算使总和和平均池为李网工作，然而，超出了本文的范围=（log（Rk−1），log（Rk−1）. . . ，log（Rk−1））。M计算对数映射的一种典型方法是使用方法log（R）=Ulog（R）UT，其中R=U<$UT，log（R）是特征值矩阵的对角矩阵。然而，谱运算不仅由于旋转矩阵R的性质而遭受log（log）中出现零的问题，而且还消耗太多的时间用于矩阵梯度计算[24]。因此，我们采用其他方法来执行此功能61042 sin（θ（R））焕光焕光KKKK层.幸运的是，我们可以探索对数映射和轴角表示之间的关系： .其中y是类标签，Rk= f（k）（Rk−1）。等式13是用于更新Wk的梯度，而Eqn. 14计算下面层中的梯度以更新Rk-1。log（R）=0，如果θ（R）= 0，θ（R）（R-RT），否则，（十二）RotPooling、LogMap和常规输出层中涉及的数据的梯度可以通过等式11计算。14像往常一样特别地，其中θ（R）是角度Eqn。9、R。有了这个等式，相应的矩阵梯度可以通过以下容易地导出：传统的元素矩阵计算。4.4. 输出层在执行LogMap层之后，输出可以转换为矢量形式，并且由于其欧几里德性质而在一个序列中直接逐帧连接。然后，我们可以添加任何规则的网络层，例如整流线性单元（ReLU）层和规则的全连接（FC）层。特别是对于ReLU层，我们可以简单地将相对较小的元素设置为零，如经典的ReLU 。在FC层中，权重的维数被设置为dk×dk−1，其中dk和dk−1分别是类数和向量维数对于基于卷积的动作识别，我们采用一个通用的softmax层作为最终输出层。此外，正如在[37，26]，学习时序数据的时间依赖性可以提高人类动作识别。因此，我们还可以将输出馈送到长短期记忆（LSTM）单元中，以学习有用的时间特征。由于篇幅所限，我们不再进一步研究。RotPooling可以使用与传统ConvNets上下文中的常规最大池化层中使用的相同梯度计算方法来计算。对于LogMap层中的数据，可以通过对所涉及的旋转矩阵进行逐元素梯度计算来获得梯度另一方面，RotMap层中定义的参数权重的梯度的计算是不平凡的。这是因为权矩阵被强制在旋转矩阵的黎曼流形SO3上，即李群因此，仅仅使用Eqn。13来计算它们的欧几里得梯度而不是在反向传播过程中的黎曼梯度将不会生成有效的旋转权重。为了解决这个问题，我们提出了一种新的方法来更新方程中使用的权重。6对于RotMap层。如[1]中所研究的，所使用的损失函数L（k）（Rk−1，y）相对于流形SO3上的W k的最陡下降方向为黎曼梯度εL（k），它可以通过将欧几里得梯度并行传输到相应的响应切空间特别是，将组分从一个点W t输送到另一个点W t+1需要子（k）5. 训练过程在Wt+1处，可按如下方式获得：为了训练拟议的LieNet，我们利用L（k） =L（k）WTWk，（15）随机梯度下降（SGD）算法，这是一个WkWkk最流行的网络培训工具。首先，让其中，欧几里得梯度是通过使用LieNet模型被表示为函数序列复合函数f=f（l）<$f（l−1）。 . . 其中参数元组W=（Wl，Wl−1. . . ，W1），其中f（k）是第k层的函数，Wk（丢弃用于sim的样本索引）。复杂度）表示第k层的权重参数等式13作为（k）焕光L（k+1）（Rk，y）Rk不k−1.（十六）L是层数。第k层的损耗由L（k）= f（l）定义。. .其中，k是最终输出层的损失函数。由于平行输运，黎曼梯度可以通过下式计算：为了优化深度模型，一个经典的SGD算法-（k）=L（k）−L（k）（十七）RITHM需要计算目标函数的梯度，这通常通过反向传播链规则来实现。特别地，第k层的权重Wk和数据Rk-1（为了简单而丢弃样本索引）的梯度可以分别通过链式规则计算：WkWkWk沿切向搜索时，在SO3流形的切空间中进行更新.然后，通过一个回缩操作将这些更新映射回SO3管汇因此，SO3流形上的权重Wk的更新具有以下形式L（k）（Rk−1，y）<$L（k+1）（Rk，y）<$f（k）（Rk−1）=、（十三）Wt+1=Γ（Wt−λ<$L（k）），（十八）WkRkWkkkWkL（k）（Rk−1，y）<$L（k+1）（Rk，y）<$f（k）（Rk−1）其中，Wt是当前重量，Γ是回缩操作。LR==6105Rk−1RkRk−1，（14）Kλ是学习率。61066. 实验我们采用三个标准的三维人体动作数据集来研究所提出的LieNets的有效性。6.1. 评价数据集G3 D-Gaming数据集[5]包含20个不同游戏动作的663个序列。每例受试者每项动作均进行2次以上此外，20个关节的3D位置19个骨骼）与数据集一起提供。HDM05数据集[31]由2，337个序列组成，由各种参与者执行的130个动作类组成。大部分的动作序列已经由所有五个演员根据剧本中的指导方针表演了几次。作为G3 D-Gaming [5]数据集，31个关节的3D位置（即，30块骨头）也与该数据集一起提供。据我们所知，NTU RGB+D数据集[37]是目前最大的3D动作识别数据集，包含超过56，000个序列。40名受试者共完成60个不同的动作类别。25个关节的3D坐标（即，24骨头）也提供。由于其规模庞大，该数据集非常适合深度学习。6.2. 实现细节对于特征提取，我们使用[42]的代码来用李群SO3×上的一个点表示每个人体骨骼。. . ×SO3。正如[42]中所预处理的那样，我们将任何运动序列规范化为一个固定的N长度序列.因此，对于每个移动的骨架，我们最终计算一个G3 D-Gaming、HDM 05和NTU RGB-D数据集的长度分别为100、16、64的李群曲线由于这项工作的重点是基于电子邮件的行动方法G3D游戏RBM+HMM [32]86.40%[41]第四十一话87.23%[42]第四十二话87.95%LieNet-0Block84.55%LieNet-1Block85.16%LieNet-2Blocks86.67%LieNet-3Blocks89.10%表1.G3 D-Gaming数据库上的识别精度6.3. 实验结果G3 D-Gaming数据集[5]。对于数据集，我们遵循跨主题测试设置，其中一半的主题用于训练，另一半用于测试。针对该数据集报告的所有结果都是在训练和测试数据集的十种不同组合上的平均值。表1将所提出的LieNet与现有技术的方法（即，RBM-HMM [32]， SE [41]和SO [42]）报告了G3 D-Gaming数据集。为了公平起见，我们报告了他们的结果，没有使用傅立叶时间金字塔（FTP）后处理（使用FTP后，他们的准确率分别为91.09%和90.94%）。如表1所示，LieNet显示了其优于两种基线方法SO和SE 的优势。此外，我们的 LieNet 与 3 块 RotMap 和RotPooling层实现了最佳性能。对于这个数据集，我们还研究了LieNet架构中不同块数的性能。由于每个序列中的帧数固定为100，如前所述，向LieNet添加更多块将最终退化-识别，我们主要利用基于流形的方法进行比较。两种基线方法是基于特殊欧几里得群（SE）[41]和特殊正交群（SO）[42]表示的浅层学习方法。为了公平比较，我们使用原作者的源代码，并将涉及的参数设置为原始论文中的参数对于所提出的LieNet，我们构建了一个或多个RotMap/RotPooling层块的架构，如图所示。1，最后三个层是LogMap、FC和softmax层。学习率λ固定为0.01 ，批量大小设置为30 ，RotMap层中的权重初始化为随机旋转矩阵，时间RotPooling（TemPooling）层的样本数量设置为4。为了训练LieNet，我们只使用没有任何GPU 的i7-6700 K（4.00GHz）PC。由于LieNet在具有相同配置的所有数据集上都得到了有希望的结果，这表明它对参数设置不敏感。请注意，对于LieNets，我们不采用动态时间规整（DTW）技术[30]，该技术已用于SO和SE方法来解决速度变化的问题将时间序列仅划分为1帧。理论上这种极端情况将导致时间分辨率的损失，从而破坏识别活动的性能。为了保持紧凑的空间特征学习和时间信息编码之间的平衡因此，我们最多为我们的李网研究4个区块。对于堆叠4个块的情况，我们发现其性能（87.28%）低于3块的情况，这证明了上述论点。然而，如表1所示，堆叠更多的RotMap/RotPooling块可以提高所提出的LieNet的性能此外，我们评估了不同LieNet配置的性能，如图所示。3 .第三章。图的左边。3验证了使用RotMap、RotPooling和LogMap层改进LieNet-3Blocks的必要性。此外，我们还比较了有DTW和无DTW的LieNet.在这个数据集上，性能（88.89%与89.10%），这两种情况大致相同。因此，使用RotMap图层的好处在某种程度上显示了6107110.90.880.860.90.880.860.840.820.80.840.820.8表2.HDM05数据库的识别精度图3.（a）不同LieNet配置的比较：在LieNet-3Blocks for G3 D-Gaming中使用RotMap层（w/o-RotMap ）， w/o-RotPooling 层， w/o-LogMap 层和使用 all（ w/-All ）。 (b) 不同合并方案的比较：使用 1 个空间RotPooling层（1SpaPooling，即，LieNet- 1Block）、2个空间 RotPooling 层（ 2SpaPooling ）、 1 SpaPooling +1 个时间RotPooling 层（ 1 Spa 1 TemPooling ，即， LieNet-2Blocks）、1SpaPooling+2TemPooling（1Spa2TemPooling，即，LieNet-3Blocks）的G3 D游戏。一拳一拳左踢左踢(b) 输入（c）第一层：RotMap（d）第二层：RotPooling...（e）第7层：LogMap图4. 示例骨架由一些代表性LieNet层的输出旋转矩阵重构，用于处理来自G3 D-Gaming数据集的四个动作序列红色的骨骼是动作类的有趣骨骼。它可以起到DTW的作用，解决速度变化的问题。图的右边。3分析了1SpaPooling案例的有效性（即，图2（a）→（b）），并显示了2Spa-1的性能下降行为池化情况（即，图2（a）→（b）→（c））。因此，我们最终使用1SpaPooling和2TemPooling（即，图2（c）→（d））。此外，我们亦研究添加整流线性单元（ReLU）类层的行为（即，将所述矩阵元素设置为低于阈值θ=0。1到零），如前所述然而，性能差（87.58%）比没有。此外，为了验证这些改进是来自RotMap和RotPooling层的贡献，而不是更深层次的架构，我们构建了一个常规的（类似LeNet的）深层结构，也就是说， LogMap→2×（FC→MaxPooling）→FC→ReLU→FC→Softmax，在控制器上应用8个常规层LogMap层的串联输出欧几里得形式MaxPooling的步长设置为4，不同FC权重的大小设置为307800×40000，10000×4000，分别为1000×400和400×20的性能该网络度为85.49%，支持验证。为了更好地理解所提出的LieNet，我们还可视化了一些代表性层的输出结果。特别是，我们粗略估计每个身体骨骼的3D位置，给定学习的旋转矩阵和躯干部分中开始边缘的3D坐标。图4、我们给出了四个动作序列的一些层的可视化，它们属于“右拳”和“左踢”类如图4，我们观察到它们为特定的类逐层产生有意义的语义信息。具体来说，第一层（RotMap）和第二层（RotPooling）的重建通常仍然混合了一些特定于动作类的模式和一些相当令人困惑的模式。但是，当到达第七层（LogMap）时，特定运动类的模式变得更具鉴别力。HDM05数据集[31]。在[18]之后，我们进行了10次随机评估，每次随机选择一半的序列进行训练，其余的进行测试。如表2所示，除了两种基线方法SE和SO之外，我们还研究了SPDNet方法[18]，该方法迄今为止已达到该数据集的最佳性能。SE和SO在SPDNet上的大幅改进表明了李群表示对于基于行为的动作识别问题的有效性。作为G3 D-Gaming数据集上的最后请注意，由于该数据库中每个序列的长度固定为16帧，如上一次评估中所研究的，添加过多的LieNet块将导致时间分辨率的损失。因此，我们为数据集实现了最多3个块的LieNet。由于添加3个块将为每个视频生成1帧，因此其性能（70.42%）不如其他情况那么有希望相比之下，如表2所报告的，使用更多的块（低于3个块）比使用更少的块有所改进，并且在数据集上获得了最新技术水平，再次显示了其优于SE和SO浅层学习方法的优点w/o-RotMapw/o-RotPoolingw/o-LogMapw/-所有（一）1SpaPooling2SpaPooling1Spa1TemPooling1Spa2TemPooling（b）第（1）款准确度方法HDM05SPDNet [18]61.45%±1.12[41]第四十一话70.26%±2.89[42]第四十二话71.31%±3.21LieNet-0Block71.26%±2.12LieNet-1Block73.35%±1.14LieNet-2Blocks75.78%±2.26准确度（%）6108火车测试2目的10110010-110-21010 20 30 40 50 60 70 80 90 100训练时期图5.G3 D-Gaming数据集的LieNet的收敛行为表3. 在NTU RGB+D数据库上进行跨学科和跨视图评估的识别精度。NTU RGB+D数据集[37]。该数据集有两个标准测试协议。一种是跨学科测试，其中一半的科目用于培训，其余的用于测试。另一种是交叉视图测试，其中两个视图用于训练，另一个视图用于测试。由于这个数据集足够大，可以训练深度网络，最近的作品[37，26]研究了典型的递归神经网络（深度RNN和深度LSTM）以及两个变体，即，LSTM的部分感知（PA）和时空（ST）版本。这些深度网络的共同优势是学习时间信息，并且显著优于李群表示学习方法SE和SO，后者擅长学习空间信息，但不是深度学习模型。在本文中，我们的LieNet通过展示深度学习对空间表示的有效性来填补这一如表3所示，我们的具有更多堆叠块的LieNet可以显著改善两种基线方法SE和SO，这验证了深度学习的有效性。通过与最先进的方法进行比较，我们的LieNet表现得更好或与大多数深度网络（例如，深度RNN和深度LSTM），它们利用时间信息。然而，LieNet仍然被最近提出的PA-LSTM和ST-LSTM所超越，它们联合学习移动骨架的空间和时间特征。这是合理的，因为LieNet主要是为了学习空间特征而设计的，只需要汇集时间信息。LieNet训练算法的性质。虽然在[8，6]中已经很好地研究了黎曼流形上所用SGD算法的收敛性，但收敛行为（见图10）是不稳定的。我们的LieNet训练算法的5）在运行时间方面，在 G3 D- gaming 上训练 LieNet-3Blocks 每个 epoch 大约需要 6 分钟（ m ），在 NTURGB+D上每个epoch需要514 m。训练LieNet-2Blocks需要大约122米每时代上HDM05 。在测试中， LieNet （即，前向通过）在G3D、HDM05和NTU RGB+D上分别花费约3m、4m和86m请注意，像通常的网络工具箱一样，当前的LieNet可以通过实现来加速-GPU版本。关于内存需求，LieNet-3Block-G3 D、LieNet-2Block-HDM 05和LieNet-3Blocks-NTURGBD 分别需要约 1.2GB 、 1.1GB 和1.4GB。7. 总结和未来工作我们研究了李群特征域中的深度网络架构，该架构成功地用于基于卷积的动作识别。为了处理李群特征的速度变化和高维性的关键问题，我们设计了特殊的此外，我们还利用对数映射层对表示进行黎曼计算，从而在新的网络结构中提供规则的输出层在三个标准的三维动作数据集上的最终评估不仅证明了所提出的网络的有效性，而且还比较了其不同的配置。此外，我们还展示了一个有趣的网络可视化，这在一定程度上揭示了其内在机制。据我们所知，由于所提出的网络是第一次尝试在李群上进行深度学习，以进行基于机器人的动作识别，因此存在相当多的例如，研究每个RotMap层的多个旋转映射，并在李群网络的上下文中利用类似ReLU的层是值得关注的。此外，以端到端的学习方式从原始3D关节位置开始到李群特征，构建更深的网络最后但并非最不重要的是，受到深时空网络成功的鼓舞[37，26]，探索所提出的网络在时间环境中的潜力也将是一个有趣的方向。致谢：这项工作得到了欧盟框架七项目ReMeDi（grant610902）的支持。能源方法RGB+ D主题RGB+D-viewHBRNN [13]59.07%63.97%深度RNN [37]56.29%64.09%深度LSTM [37]60.69%67.29%PA-LSTM [37]62.93%70.27%ST-LSTM [26]69.2%百分之七十七点七[41]第四十一话50.08%52.76%[42]第四十二话52.13%53.42%LieNet-0Block53.54%54.78%LieNet-1Block56.35%60.14%LieNet-2Blocks58.02%62.52%LieNet-3Blocks61.37%66.95%6109引用[1] P. - A.阿布西尔河Mahony和R.坟墓矩阵流形上的优化算法。普林斯顿大学出版社，2008年。[2] F. Albertini和E. D.桑塔格对于神经网络，功能决定形式。《决策与控制》，1992年，第31届IEEE会议论文集，第26-31页。IEEE，1992年。[3] R. Anirudh，P. Turaga，J. Su和A.斯里瓦斯塔瓦。黎曼轨线的弹性泛函编码IEEE T-PAMI，2016年。[4] M. Belkin和P.新木用于维数缩减和数据表示的拉普拉斯特征映射。神经计算，15（6）：1373[5] V. Bloom，D. Makris和V.阿吉瑞欧G3D：游戏动作数据集和实时动作识别评估框架。在CVPR研讨会，2012年。[6] S. Bonnabel黎曼流形上的随机梯度下降。IEEE T-AC，58（9）：2217[7] D. Boscaini ， J. Masci ， S. Melzi ， M. 布朗斯坦大学Castel-lani，和P.范德海恩斯使用局部谱卷积网络学习可变形形状的类特定描述符。在计算机图形论坛，第34卷，第13-23页。Wiley Online Library，2015.[8] L. 博图大规模机器学习与随机梯度下降。2010年，《竞争统计数据库》[9] N. Boumal和P. -A. Absil 流形上的离散回归方法IFACPro-ceedings，44（1）：2284[10] J. Bruna，W.Zaremba、A.Szlam和Y.乐存。图上的谱见ICLR，2014年。[11] R. Chaudhry，A.拉维钱德兰G.Hager和R.维达尔非线性动力学系统的定向光流直方图和宾内-柯西核用于人类行为的识别。CVPR，2009。[12] D. L. Donoho和C.格莱姆斯Hessian特征映射：高维数据的局部线性嵌入技术。美国国家科学院院刊，100（10）：5591[13] Y.杜，W. Wang和L.王.基于骨架的动作识别的层次递归神经网络。CVPR，2015。[14] S.菲奥里李群上的无监督神经学习国际神经系统杂志，12（03 n 04）：219[15] R.根斯和PM多明戈斯深层对称网络。在NIPS，2014年。[16] B. C.大厅李群、李代数和表示：一个基本的介绍。施普林格，2015年。[17] F.汉湾Reily，W. Hoff和H.张某基于3D骨骼数据的人的时空表示：审查. arXiv预印本arXiv：1601.01006，2016.[18] Z. Huang和L.范古尔用于SPD矩阵学习的黎曼网络。InAAAI，2017.[19] Z. 黄河，巴西-地Wang，S.Shan和X.尘Grassmann流形上的投影度量学习及其在基于视频的人脸识别中的应用。CVPR，2015。[20] Z.黄河，巴西-地Wang，S. Shan，X. Li和X.尘对称正定流形上的对数欧几里德度量学习及其在图像集分类中的应用。ICML，2015。[21] Z. Huang，J. Wu，and L.范古尔在Grassmann流形上构建深度网络。arXiv预印本arXiv：1611.05742，2016年。[22] K. Huper和F. S. 莱特关于S（n），SO（n）和格拉斯曼流形上的滚动和插值曲线的几何Journal of Dynamicaland Con

下载后可阅读完整内容，剩余1页未读，立即下载