基于SPD矩阵空间和Cholesky空间的黎曼几何3D骨架互动识别的神经网络

174 浏览量更新于2023-10-14 收藏 12.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

133790GeomNet：基于SPD矩阵空间和Cholesky空间的基于黎曼几何的3D骨架互动识别的神经网络0Xuan Son Nguyen ETIS UMR 8051, CY Cergy Paris Universit´e, ENSEA, CNRS,F-95000, Cergy, France0xuan-son.nguyen@ensea.fr0摘要0在本文中，我们提出了一种新颖的方法，用于表示和分类基于3D骨架序列的双人互动。我们的方法的关键思想是使用高斯分布来捕捉Rn上的统计信息以及对称正定（SPD）矩阵空间上的统计信息。主要挑战是如何参数化这些分布。为此，我们基于李群和黎曼对称空间的理论，开发了将高斯分布嵌入矩阵群的方法。我们的方法依赖于底层流形的黎曼几何，并具有从3D关节位置编码高阶统计量的优势。我们展示了所提出的方法在三个用于3D人体活动理解的基准测试中取得了竞争性的结果。01. 引言0近年来，基于3D骨架的动作识别一直是一个活跃的研究课题，具有许多潜在的应用。在这项工作中，我们专注于基于3D骨架的双人互动识别（3DTPIR）。与大量用于基于3D骨架的动作识别的通用方法相比，3DTPIR的方法在文献中研究较少。最近的研究[46,63]表明，最先进的动作识别方法在人际互动识别上并不总是表现良好。这是因为它们缺乏有效的机制来捕捉人际和人际关节之间的关系[46]。在双人互动中，手臂和腿部的运动高度相关。然而，在大多数现有的3DTPIR作品中，这些相关性仅通过关节之间的距离来编码[17, 18, 42,65]。这激发了我们使用高阶统计量，即协方差矩阵，来更好地捕捉这些互动。已知n×n协方差矩阵位于一种特殊类型的黎曼流形上，即SPD流形（用Sym +n表示）。大量的研究工作0已经开发出用于SPD值数据分类的方法。最近，SPD神经网络展示了令人印象深刻的结果[13]。一个仍然未解决的核心问题是寻找在Sym +n上建模概率分布的有效和高效方法。由于高斯分布（简称为高斯分布）在统计学中是最常用的概率分布，现有的工作主要集中在将其推广到Sym +n上。这样的推广首先在[43]中在黎曼流形的更一般上下文中给出。然而，该工作提出的黎曼高斯分布（简称为黎曼高斯分布）的渐近公式使其难以在实践中进行评估和应用。一些工作旨在通过引入对称空间[49,50]和齐次空间[6]中的黎曼高斯分布的概念来解决这个缺点。这些已成功应用于分类问题。在这项工作中，我们也对分类中的黎曼高斯分布感兴趣。然而，与上述工作不同，我们寻求将黎曼高斯分布嵌入矩阵群的方法。这使我们能够对黎曼高斯分布进行分类，而无需像[6, 49,50]中那样依赖于其概率密度函数的精确表达。总之，本文的主要贡献是：0•我们提出了一种通过将高斯映射到黎曼对称空间的嵌入方法。0•我们考虑用一组SPD矩阵表示3D骨架序列，从而导致对Sym + n上的统计学研究。我们展示了Sym +n上的均值和协方差的乘积空间可以被视为具有适当群乘积的李群。此外，我们指出了这个空间与具有正对角线条目的下三角矩阵的群之间的联系。0•基于上述理论，我们介绍了一个神经网络，用于从3D骨架序列中学习几何表示。� �133800•在3D人体活动理解的三个基准测试上的实验表明，我们的方法与最先进的方法具有竞争力。02. 相关工作0我们将简要讨论3DTPIR（第2.1节），高斯嵌入（第2.2节）和Sym + n上的概率分布（第2.3节）的代表性工作。02.1. 从3D骨架序列中识别双人交互0已经提出了各种基于3D骨架的动作识别方法。这些方法基于手工设计的特征[10, 35, 54, 58, 64, 67]和深度学习[9, 19,29, 30, 31, 32, 33, 40, 52, 57, 60,68]。最近的工作集中在流形上的神经网络[13, 14, 15,41]和图上的神经网络[7, 21, 22, 53,62]。由于篇幅限制，我们将感兴趣的读者参考[48]进行更全面的调查。下面我们将重点讨论3DTPIR。3DTPIR的方法研究较少。基于手工设计特征的方法主要依赖于两个人的关节之间的距离[17, 18, 42, 65]或运动相似性[27]。Li和Leung[23]应用多核学习方法构建了一个由关节相对距离的相对方差构成的交互图。在[37,57]中提出了两流RNN，其中两个人之间的交互通过连接它们对应关节的3D坐标或通过在输入序列中增加它们的关节之间的距离来建模。在[46]中，关系网络[51]被扩展到自动推断个人内部和个人间的关节关系。最近的工作[63]处理图卷积网络中的图构建。02.2. 高斯嵌入0高斯嵌入方法在统计学中被广泛使用，例如用于测量概率分布之间的距离。[47]的工作首次提出了基于Fisher信息的距离函数作为黎曼度量。然而，在多元高斯的一般情况下，很难得到距离函数的精确公式。在计算机视觉中，最广泛使用的嵌入方法源自[34]。其关键思想是通过将高斯分布的空间参数化为一个黎曼对称空间，将高斯分布与SPD矩阵进行对应。[5]的工作也采用了类似的思想，将高斯分布与SPD矩阵进行对应，但是它是基于将高斯分布嵌入到Siegel群中。在[12]中，建立了高斯分布与仿射矩阵子空间之间的联系。[24]的方法依赖于线性空间中的Log-Euclidean度量，用于将高斯分布嵌入到线性空间中。02.3. Sym + n 上的概率分布0现有的工作主要集中在将高斯分布推广到Sym +n，因为它们在统计学中很受欢迎。高斯分布的推广在黎曼流形[43, 66]、对称空间[49,50]和齐次空间[6]中被提出。在[2,4]中，黎曼高斯分布是从指数族最大熵的定义中推导出来的。Alpha-Divergences家族和其他相关散度也得到了广泛研究[8]。03. 背景理论03.1. 黎曼流形上的统计学0这里提出的理论基于[43]。在这个框架中，流形M的结构由一个黎曼度量来指定。设x是M上的一个点，作为局部参考点，TxM是x处的切空间。黎曼度量是在TxM上的一组连续的点积<.,.>x。连接在一起的两个连通黎曼流形上的点之间的距离是连接它们的光滑曲线的最小长度。实现这个最小值的曲线对于任意两个点都被称为测地线。设v∈TxM是x处的一个切向量。我们将x处的指数映射定义为将v映射到M上的点y，该点是从x开始的测地线在单位时间内到达的点，该测地线具有这个切向量。这个映射在整个切空间TxM上都被定义，但通常只在切空间中的0附近是一对一的（即在流形中的x附近）。设−→xy=logx(y)是指数映射的逆映射，它是由黎曼度量测量的最小向量，使得y=expx(−→xy)。x处的指数图可以看作是沿着测地线在给定点处的切空间中的M的展开。黎曼流形上均值和协方差的定义如下。0定义 1 设 x 是具有概率密度函数 p x 的随机点。dist R ( y,x ) 表示由 M 的黎曼度量引起的 x 和 y之间的距离。期望值或均值的集合为：0E [ x ] = arg min y ∈M0M dist R ( y, z ) 2 .p x ( z ) .d M ( z )，（1）0其中 d M ( z ) 是由 M的黎曼度量引起的体积测度，我们假设对于 M 中的所有点y ，积分对于所有点 y ∈ M都是有限的（对于具有紧支持的密度函数是真实的）。0定义 2 设 x 是一个随机点，¯ x是我们假设唯一的均值。协方差定义为：0Cov ¯ x ( x ) = E [ −→ ¯ x x. −→ ¯ x x T ] = �0D (¯ x ) ( −→ ¯ x x ) . ( −→ ¯ xx ) T .p x ( x ) .d M ( x ) ，(detΣΣΣ)−−expP(A) = P12 exp�P− 12 AP−logP(Q) = P12 log�P− 12 QP−Pm = arg miny∈Sym+nPc =1L133810其中 D (¯ x ) 是在 ¯ x 处的指数图的最大定义域。04. 提出的方法0在接下来的内容中，我们感兴趣的是实数域上的矩阵，除非另有说明。04.1. 高斯分布的嵌入0设 N ( n ) 是 n 变量高斯分布的空间，Sym + , 1 n是具有行列式为 1 的 SPD n × n 矩阵的空间。引理 1给出了高斯分布在 N ( n ) 中的嵌入。0引理 1 我们可以将高斯分布（ΣΣΣ，µµµ）∈ N(n)与以下矩阵对应在 Sym + , 1 n + k 中：0n + k ΣΣΣ + kµµµµµµ T µµµ ( k )µµµ ( k ) T I k0� ，（3）0其中 µµµ 和 ΣΣΣ 是高斯分布的均值和协方差，I k 是 k × k的单位矩阵，µµµ ( k ) 是具有 k 个相同列向量 µµµ的矩阵。0证明见补充材料。当 k = 1时，（3）中的嵌入变成了[34]中引入的嵌入。由上述嵌入得到的自然对称黎曼度量在引理 2 中给出。0引理 2 黎曼度量由以下给出：0< A 1 , A 2 > P = Tr ( A 1 P − 1 A 2 P − 1) −0n + k Tr ( A 1 P − 1 ) Tr ( A 2 P − 1) ，（4）0其中 A 1 和 A 2 是 P处的两个切向量。证明见补充材料。事实证明，（4）中给出的黎曼度量属于[44]中提出的仿射不变度量的家族。因此，可以通过[45]得到点处的指数映射：02 � P 1 2，（5）0其中 P 是 SPD 矩阵，A 是 P 处的切向量，exp( . )是矩阵指数。通过求逆指数映射，我们得到对数映射：02 � P 1 2，（6）0其中 P 和 Q 是两个 SPD 矩阵，log( . ) 是矩阵对数。04.2. Sym + n 上的统计学0假设我们有一组矩阵 P 1 ，P 2 ，...，P L ∈ Sym +n。根据（1），可以将 P 1 ，P 2 ，...，P L的经验或离散均值定义为：0� 10i = 1 dist R ( y, P i ) 2 �，（7）0均值可以通过迭代过程计算得到：（1）将当前均值的 SPD矩阵投影到切空间中；（2）在该空间中估计算术均值；（3）将均值投影回 Sym +n。重复这些步骤直到收敛[39]。类似地，一组 L 个均值为P m 的 SPD矩阵的经验协方差可以使用（2）中的离散版本的期望算子来定义：0L − 10i = 10−−−→ P m P i � −−−→ P mP i ，（8）0其中 � 表示张量积。我们提出学习从 T P m Sym + n到另一个切空间的 −−−→ P m P i的变换，使得在该空间中计算的协方差对于分类更具有区分性。变换是通过平行传输（PT）来执行的。我们需要引理 3来进行变换。0引理3：设P，Q ∈ Sym +n。假设Riemannian度量如（4）所示。从Q到P的PT沿连接Q和P的测地线的切向量A ∈ TQ Sym + n的公式为：0TQ, P(A) � (PQ^(-1))^(1/2)A(PQ^(-1))^(1/2)^T.(9)0证明见补充材料。PT中的公式（9）与[11，55，0[61]，这些方法都基于以下形式的Riemannian度量：0 P = Tr(A1P^(-1)A2P^(-1)), (10)0其中A1和A2是P处的两个切向量。在[4]中，作者们还使用PT来设计Riemannian批归一化（RBN）层。我们的方法在三个主要方面与他们的方法不同。首先，他们的方法通过小批量的统计信息来学习RBN层的参数，而我们的方法处理每个序列内的统计信息。注意，我们的框架中也可以设计一个RBN层，并且有可能提高网络的准确性。其次，他们的Riemannian高斯公式只涉及Riemannian均值，没有方差的概念。第三，他们的方法不旨在利用SPD流形上的二阶统计量（协方差）。K+(n′ + k′) =KPm,H ≜H0n′×k′ϕ(Pm)Ik′(Pm, Pc) �→L0n′×k′ϕ(Pm)Ik′xoutt,i =t+1�i′∈Si133820现在假设−−−→PmPi，i =1,...,L被传送到˜P（PT的目标点）的另一个切空间上，则协方差可以估计为：0Pc = 10L − 10i=1 T Pm, ˜P(−−−→PmPi) � T Pm,˜P(−−−→PmPi). (11)0令fv(.)是一个映射，通过取对称矩阵的下三角部分并应用√20为了保持范数，我们在其非对角元素上乘以2个系数[45]。然后，协方差由以下公式给出：0Pc = 10L − 10i=1 fv^T Pm, ˜P(−−−→PmPi) fv^T Pm,˜P(−−−→PmPi)^T.0(12)如果Pc是一个n'×n'大小的矩阵，则我们使用一个在乘积流形Sym + n × Sym + n'上的点(Pm,Pc)来参数化给定的SPD矩阵集合的分布。接下来，我们基于李群理论提出了一个嵌入这个点的方法。04.3. Riemannian高斯的嵌入0我们首先在乘积流形Sym + n × Sym +n'上定义一个合适的群乘积。0定义3：设M(n, n')为乘积流形Sym + n × Sym +n'。令(Pm1, Pc1) ∈ M(n, n')，(Pm2, Pc2) ∈ M(n,n')，其中Pm1 ∈ Sym + n，Pc1 ∈ Sym + n'，且Pc1 =LiLTi为Pc1的Cholesky分解。设ϕ: Sym + n →Mk'×n'为一个具有光滑双射和光滑逆的映射，其中Mk'×n'是k'×n'矩阵集合的子集。M(n, n')的群乘积�定义为：0�: M(n, n') × M(n, n') → M(n, n')0(Pm1, Pc1) � (Pm2, Pc2)0= (ϕ^(-1)(ϕ(Pm1)L2 + ϕ(Pm2)), (L1L2)(L1L2)^T).(13)0定理1表明M(n, n')形成一个李群。0定理1：M(n, n')在乘积�下是一个李群。0证明见补充材料。根据定理1，我们可以建立M(n,n')与具有正对角元素的下三角矩阵群的子群之间的李群同构。0定理2：记LT +(n')为具有正对角元素的下三角n'×n'矩阵的群，0n'×k'为所有元素均为零的n'×k'矩阵。令0ϕ，(14)0其中 H ∈ LT + (n')，且0ϕ: K + (n' + k') → M(n, n')，ϕ(KPm, L) = (Pm,Pc)，(15)其中Pc = LLT，L ∈ LT +(n')。那么ϕ是一个李群同构。0证明见补充材料。现在我们可以给出一个点(P m, P c) ∈ M(n, n ′)的嵌入矩阵如下：0� . (16)0(16)中的嵌入矩阵取决于函数ϕ(.)的选择。在这项工作中，我们设置ϕ = ( f v ◦ f lm )( k ′ )T0其中(f v ◦ f lm )( k ′ ) T是(f v ◦ f lm )( k ′ )的转置，(f v ◦ flm )( k ′ )是从f v ◦ f lm获得的k ′个相同列向量的矩阵，f lm( . )由以下公式给出：0f lm ( P ) = log( P ) = U log( Z ) U T , (17)0其中P = UZU T是P的特征值分解，log( Z)是特征值对数的对角矩阵。04.4. 3DTPIR的神经网络0现在我们准备根据前面部分的理论介绍一个基于该理论的3DTPIR神经网络（Ge- omNet）。令N j和Nf分别为给定序列中关节和帧的数量，令x in t,i ∈ R 3，t =1，...，N f，i = 1，...，Nj为关节i在帧t的特征向量（3D坐标）。如果两个关节i和j相连，则它们是邻居关节。用S i表示关节i的邻居集合。令i1,r，i2,r分别为第一个和第二个骨架的根（见图1）。对于属于同一个骨架的任意两个关节i和i r ∈ {i 1,r，i2,r}，它们之间的距离dist J (i, ir)定义为连接它们的骨头的数量（见图1）。Ge-omNet的第一层是一个卷积层，表示为：0t ′ = t − 10˜ W t ′ ,i ′ x in t ′ ,i ′ , (18)0其中x out t,i ∈ R d是关节i在帧t的输出特征向量，˜ W t ′ ,i′ 定义如下：0W t ′ +2 − t, 1，如果dist J (i ′, i r) = dist J (i, i r) - 1 W t ′ +2 − t, 2，如果i ′ = i W t ′+2 − t, 3，如果dist J (i ′, i r) = dist J (i, i r) + 1 (19) 这里，权重集合{W u,v}，u, v = 1,2, 3完全定义了方程(18)中的卷积滤波器。令N j, 10并且N j, 2是属于手臂的关节数量iblibPbl = (detΣΣΣbl)−(25)xt+1 = expxt,(30)133830图1：身体关节位置的示意图（仅显示第一个骨架）。髋部关节被选为骨架的根。关节1和6之间的距离为4。关节22,23,24,25不参与卷积运算。手臂包含以下关节：5, 6, 7, 8, 9,10, 11, 12。腿包含以下关节：13, 14, 15, 16, 17, 18, 19,20（图由[52]复制）。0分别是两个骨架的手臂和腿（见图1）。令X out, 1和X out,2分别为大小为N j, 1 × N f × d和N j, 2 × N f ×d的与两个人的手臂和腿相关的数据。这种分割的动机是因为两个人之间的交互通常涉及到他们的手臂之间和腿之间的交互。对于每个b ∈ {1, 2}，从X out,b中得到的N j,b N fd维特征向量集合被使用K-means聚类算法分成L个子集。令y b l, 1, ..., y b l,i b l为第l个子集中的特征向量。0集。我们假设y b l, 1, ..., y b l,i b0高斯分布 (ΣΣΣ b l ,µµµ b l ) 的参数可以估计为：0µµµ b l= 10我b l0j = 1 y b l,j , (20)0ΣΣΣ b l = 10我 b l0j = 1 ( y_b_l,j - µµµ_b_l )( y_b_l,j -µµµ_b_l )^T . (21)0根据第4.1节中的理论，高斯分布(ΣΣΣ b_l ,µµµ b_l)可以被表示为以下矩阵：0n + k ΣΣΣ b_l + kµµµ b_l ( µµµ b_l )^Tµµµ b_l ( k ) ( µµµ b_l ( k ) )^T I_k0� . (22)0上述计算可以由一层执行，如下所示：0{ P_b_l } b = 1, 2 l = 1,...,L = f_gaussemb ( { X_out,b } b =1, 2 ) . (23)0下一层旨在计算SPD流形上的统计量，可以写成：0{ P_b,m , P_b,c } b = 1, 2 = f_spdstats � { P_b_l , W_b_pt } b = 1, 2 l = 1,...,L � ,(24)其中W_b_pt，b = 1, 2是对应于PT目标点的参数(见第4.2节)。具体而言，P_b,m0是P_b_l，l = 1, ..., L的均值，P_b,c由以下给出：0P_b,c = 10L - 10i = 1 f_v � T P_b,m , W_b_pt (−−−−−→ P_b,m P_i ) � ×0f_v � T P_b,m , W_b_pt (−−−−−→ P_b,m P_i ) � T .0下一层计算统计量P_b,m，P_b,c，b = 1, 2，可以写成：0{ B_b } b = 1, 2 = f_spdstatsemb � { P_b,m , P_b,c } b= 1, 2 � , (26)0其中B_b是( P_b,m , P_b,c)右侧给出的嵌入矩阵。下一层将B_b，b = 1,2转换为LT+(n'+k')中的一些矩阵：0{ D_b } b = 1, 2 = f_trilmap � { B_b , W_b_lw } b =1, 2 � , (27)0其中D_b = B_bW_b_lw，W_b_lw，b = 1,2是需要在LT+(n'+k')中的参数，以使输出D_b也在LT+(n'+k')中。然后网络执行投影：0{ E_b } b = 1, 2 = f_triltoeud ( { D_b } b = 1, 2 ) , (28)0其中E_b = f_lm(D_b(D_b)^T)，b = 1,2。最后，使用全连接(FC)层和softmax层来获取类别概率：0C_out = f_prob � concat ( f_v ( E_1 ) , f_v ( E_2 )) ,W_fc � , (29)0其中W_fc是FC层的参数，concat(V_1,V_2)将两个列向量V_1和V_2垂直连接，C_out是输出类别概率。我们使用交叉熵损失来训练GeomNet。04.5. 几何感知约束优化0GeomNet的一些层依赖于特征值分解。为了推导这些层的反向传播更新，我们遵循[16]中计算相关偏导数的框架。参数W_b_pt，W_b_lw，b = 1,2的优化过程基于Riemannian流形中的Adam算法[3]。Riemannian Adam更新规则如下：0�0- αˆm_t√ˆv_t+ ϵ0�133840其中，x_t和x_t+1分别是在时间步t和t+1更新的参数，ˆm_t= m_t / (1 - β_t1)，ˆv_t = v_t / (1 - β_t2)，m_t =β_1τ_t-1 + (1 - β_1)g_t是动量项，v_t = β_2v_t-1 + (1 -β_2)∥g_t∥^2x_t是适应性项，g_t是在时间步t评估的梯度，α、ϵ、β_1、β_2是常数值。在Riemannian设置中，平方Riemannian范数∥g_t∥^2x_t = _x_t对应于Riemannian度量中的平方梯度值。这里，<. |.>_x_t是所考虑流形的Riemannian度量的点积，如第3.1节所讨论的。在更新方程(30)中更新x_t+1后，我们将τ_t更新为沿连接x_t和x_t+1的测地线的m_t的PT，即τ_t =T_x_t,x_t+1(m_t)。方程(30)中的更新规则需要计算指数映射和PT。对于SPD流形，这些操作在方程(5)和(9)中给出。对于参数W_b_lw，b = 1,2的更新，我们依赖于最近的工作[26]中研究的LT+(n)的Riemannian几何。通过考虑以下度量：0 K = �0i > j U_ij V_ij+0j = 1 U_jj V_jjK-2jj，(31)0其中K ∈ LT+(n)，U，V ∈ TKLT+(n)，U_ij是U的第i行第j列的元素，Lin已经证明[26]，配备上述度量的空间LT+(n)（称为Cholesky空间）形成了一个Riemann流形。在这个流形上，点的指数映射可以计算为：0exp K U = �K� + �U� + D(K) exp(D(U) D(K)^-1)，(32)0其中K ∈ LT+(n)，U ∈ TKLT+(n)，�K�是与K大小相同的矩阵，其(i, j)元素为K_ij（如果i> j）或者为零（否则），D(K)是一个对角矩阵，其(i,i)元素为K_ii。此外，切向量U ∈ TK LT+(n)的PT到切向量H∈ LT+(n)的PT由以下公式给出：TK, H(U) = �U� + D(H)D(K)^-1 D(U)，(33)0其中K，H ∈ LT+(n)。05. 实验0我们的网络是使用Tensorflow深度学习框架实现的，实验是在两个NVIDIA GeForce GTX 1080GPU上进行的。我们使用GeomStats库[38]进行几何计算。卷积层输出向量的维度d，聚类数L和学习率分别设置为9、180和10^-2。在SBUInteraction数据集上的实验和NTU数据集上的实验的批量大小分别设置为30和256。对于(3)和(16)中的一对(k,k')的值分别设置为(2, 3)和(2, 1)。0在SBUInteraction和NTU数据集上的实验分别设置了α，ϵ，β1和β2的值为10^-3，10^-8，0.9和0.999[20]。在我们的实验中，GeomNet在600个epoch后收敛良好。关于我们实验的更多细节，请参阅补充材料。05.1. 数据集和实验设置0SBUInteraction数据集。该数据集[65]包含来自7个主题的8个动作类别的282个序列。每个动作由两个主题执行，每个主题有15个关节。图1中的关节4、21、1、5、6、7、9、10、11、13、14、15、17、18、19分别对应于SBUInteraction数据集第一个骨架的关节1、2、3、4、5、6、7、8、9、10、11、12、13、14、15。我们遵循基于提供的训练/测试划分的5折交叉验证的实验协议[65]。NTURGB+D60数据集。该数据集[52]包含来自40个主题的56,880个序列，具有三个相机视图，并分为60个类别。我们遵循两个实验协议交叉主题（X-subject）和交叉视图（X-view）[52]。NTU RGB+D120数据集。该数据集[28]包含来自106个主题的114,480个序列，具有三个相机视图和120个动作类别。我们遵循两个实验协议交叉主题（X-subject）和交叉设置（X-setup）[28]。05.2. 消融研究0在本节中，我们研究了GeomNet的不同组件对其在SBUInteraction和NTU RGB+D60数据集上的准确性的影响。嵌入维度。在这里，我们调查了参数k和k'（参见（3）和（16））对GeomNet在SBUInteraction数据集上的准确性的影响。图2显示了GeomNet在不同设置的(k, k')下在SBUInteraction数据集上的准确性，即k = 0, 1, 2和k' = 0, ...,10。请注意，当k =0时，层fgaussemb仅依赖于协方差信息。同样，当k' =0时，层fspdstatsemb的输出Bb, b = 1,2只是通过对Pb,c进行Cholesky分解得到的，即Bb(Bb)^T= Pb,c。有趣的是，GeomNet在(k, k') = (2,3)的设置下达到了最佳准确性，即k和k'都不等于1。这与之前的工作[12, 25, 41, 59]相反，其中n元高斯总是与SPD(n+1) ×(n+1)矩阵等同。据我们所知，这是第一个展示将n元高斯与SPD (n+k) × (n+k)矩阵（其中k >1）等同的工作。结果还表明，(k,k')的设置对GeomNet的准确性有重要影响。即两个设置(k,k') = (1, 1)（94.54%）之间的性能差距01我们的代码处理约束和非约束参数。2GeomNet的结果是在3次运行中平均的。012345678910k'9293949596k=0k=1k=2PT96.3393.6296.32U0124681012141618k77.580.082.585.087.590.092.5LTML96.3393.6296.32ingts.Pc =1L − 1L�i=1fv�−−−→PmPi�fv�−−−→PmPi�T .(34)133850准确率（%）0图2：在SBUInteraction数据集上，GeomNet在不同（k，k'）设置下的准确率。0数据集SBU Interaction NTU RGB+D 60 数据集 X-SubjectX-View0不使用PT 71.51 62.18 66.830表1：PT在SBU Interaction和NTU RGB+D60数据集上的有效性。0当（k，k'）=（2，3）时，准确率为96.33％，增益为1.79％。我们还可以注意到，当k固定时，GeomNet在k'>1时始终表现最佳。这显示了我们在（16）中Riemannian高斯参数化的有效性。为了研究我们提出的高斯嵌入在我们框架之外的高斯嵌入的有效性，我们使用它来改进SPD流形上的最新神经网络SPDNet[13]。在[13]中，作者通过将每个序列表示为联合协方差描述符来执行动作识别实验。协方差描述符是从每帧中所有身体关节的3D坐标的二阶统计量计算得到的。对于SBUInteraction数据集，协方差矩阵的大小为90×90（每帧30个身体关节）。在我们的实验中，我们使用所提出的高斯嵌入将协方差矩阵和均值向量组合起来表示每个序列。然后，每个序列由一个SPD（90 + k）×（90 +k）矩阵表示。我们使用了作者发布的SPDNet3的代码。图3显示了在不同k设置下，SPDNet 4在SBUInteraction数据集上的准确率。可以观察到，SPDNet在k= 10的设置下给出了最佳准确率。设置k = 1（90.5％）和k=10（92.38％）之间的性能差距为1.88％。仅使用协方差（k= 0）时，SPDNet的准确率为79.48％，明显低于k =10的准确率。结果证实了我们提出的高斯嵌入在SPDNet框架中的有效性，并且它比[34]的方法更有优势。这表明我们的方法对于依赖于高斯函数捕捉局部特征分布的先前工作，如[12，24，25，36，41，59]，也可能是有益的。03 https://github.com/zhiwu-huang/SPDNet 4结果是在10次运行中平均的。0准确率（%）0图3：在SBUInteraction数据集上，SPDNet在不同k设置下的准确率。0数据集SBU Interaction NTU RGB+D 60 数据集 X-SubjectX-View0不使用LTML 94.90 92.30 95.050表2：在SBU Interaction和NTU RGB+D60数据集上不使用下三角矩阵学习（LTML）的GeomNet的有效性。0平行传输。表1给出了在SBU Interaction和NTU RGB+D60数据集上不使用PT的Geom-Net的准确性。为了比较，还显示了GeomNet的准确性。当不使用PT时，方程（12）中的协方差计算如下：0可以看出，使用PT对于获得高准确性至关重要。具体而言，在NTU RGB+D60数据集上，如果不使用PT计算协方差，将导致X-Subject协议准确性损失31.44％，X-View协议准确性损失29.49％。在SBUInteraction数据集上，如果不使用PT，还可以观察到准确性显著降低（24.82％）。这些结果突出了在GeomNet中学习参数W b pt，b =1，2的重要性。下三角矩阵学习。表2给出了在SBUInteraction和NTU RGB+D 60数据集上不使用层ftrilmap的GeomNet的准确性。同样，为了比较，还显示了GeomNet的准确性。我们可以注意到，引入ftrilmap层会带来性能改进，即SBUInteraction数据集上的1.43％，NTU RGB+D60数据集上的X-Subject协议上的1.32％和X-View协议上的05.3. SBU Interaction数据集上的结果0在SBUInteraction数据集上，GeomNet和最先进的方法的结果如表3所示。对于SPDNet，我们使用（3）中的嵌入和k=10来报告其最佳准确率。我们可以看到，大多数基于手工特征的方法[18,56]的准确率低于90%。基于骨架的动作识别的最先进方法[9]只能达到80.35%的准确率。te-ds.is133860方法准确率0Lie Group [56] 47.920Constrast Mining [18] 86.900Interaction Graph [23] 92.560Trust Gate LSTM [29] 93.300Hierarchical RNN [9] 80.350Deep LSTM+Co-occurence [68] 90.410SPDNet [13] 92.380GeomNet 96.330表3：GeomNet和SBUInteraction数据集上最先进方法的识别准确率（%）。0方法 X-Subject X-View0ST-LSTM [30] 83.0 87.30ST-GCN [62] 86.75 91.170AS-GCN [22] 87.08 92.040LSTM-IRN [46] 90.5 93.50SPDNet [13] 74.85 76.070GeomNet 93.62 96.320表4：GeomNet和NTU RGB+D60数据集上最先进方法的识别准确率（%）。0在竞争方法中，GeomNet的准确率为96.33%，居第二位。这比SPDNet的准确率高出16.85%。05.4. NTU RGB+D 60数据集上的结果0表4显示了GeomNet和NTU RGB+D60数据集上的最先进方法的结果。对于ST-GCN和AS-GCN，我们使用了作者发布的代码[5,6]。对于SPDNet，我们使用（3）中的嵌入和k=3来报告其最佳准确率。可以观察到，GeomNet在这个数据集上给出了最好的结果。由于ST-GCN是基于固定骨架图的，可能会错过隐含的关节相关性，AS-GCN通过学习行动链接来捕捉关节之间的潜在依赖关系，还扩展了骨架图以表示结构链接。然而，AS-GCN在ST-GCN上并没有取得显著的改进。这表明AS-GCN中的行动和结构链接仍然不能应对3DTPIR中的复杂模式。可以看到，GeomNet在很大程度上优于ST-GCN和AS-GCN。我们还可以注意到GeomNet和SPDNet之间存在很大的性能差距。这可能可以解释为：（1）GeomNet旨在学习人际关节关系；（2）GeomNet利用了SPD流形上的协方差信息。05 https://github.com/yysijie/st-gcn 6https://github.com/limaosen0/AS-GCN0方法 X-Subject X-Setup0ST-LSTM [30] 63.0 66.60ST-GCN [62] 78.60 79.920AS-GCN [22] 77.83 79.300LSTM-IRN [46] 77.7 79.60ST-GCN-PAM [63] 83.280SPDNet [13] 60.72 62.080GeomNet 86.49 87.580表5：GeomNet和NTU RGB+D120数据集上最先进方法的识别准确率（%）。05.5. NTU RGB+D 120数据集上的结果0在NTU RGB+D120数据集上，GeomNet和最先进的方法的结果如表5所示。对于SPDNet，我们使用（3）中的嵌入和k=3来报告其最佳准确率。可以观察到，GeomNet在这个数据集上表现最好。请注意，LSTM-IRN在这个最具挑战性的数据集上的表现明显比GeomNet差。通过调整ST-GCN中的图结构以涉及两个骨架之间的连接，ST-GCN-PAM取得了显著的改进。然而，在X-Subject协议7上，ST-GCN-PAM仍然被GeomNet超过3.21%。结果表明：（1）在没有任何先验知识的情况下，自动推断人内和人际关节之间的关系是困难的；（2）即使有先验知识，最先进的ST-GCN的表现也不如GeomNet。与NTU RGB+D60数据集上的结果相比，GeomNet和SPDNet之间的性能差距在这个数据集上更加明显。请注意，我们的方法仅基于这样一个假设，即两个人的手臂和腿的关节在互动过程中高度相关。因此，对于互动识别，不需要对成对关节连接做出明确的假设。06. 结论0我们提出了基于高斯和Riemannian高斯嵌入的GeomNet，用于3DTPIR。为了提高GeomNet的准确性，我们提出了使用PT和学习具有正对角元的下三角矩阵的层。最后，我们提供了在三个基准测试上的实验结果，展示了GeomNet的有效性。0致谢。我们感谢NTURGB+D数据集的作者提供数据集的访问权限。07作者没有报告其在X-Setup协议上的准确

下载后可阅读完整内容，剩余1页未读，立即下载