没有合适的资源?快使用搜索试试~ 我知道了~
基于可变形卷积的三维动作和手势识别
用于3D动作和手势识别的可翁俊武†[0000−0001−7983−1461],刘梦媛†[0000−0003−4036−9315],蒋旭东†[0000−0002−9104−2315]和袁俊松§[0000−0002−7324−7034]†南洋理工大学we0001wu@e.ntu.edu.sg{liumengyuan,exdjiang} @ntu.edu.sg纽约州立大学布法罗分校CSE系jsyuan@buffalo.edu抽象。三维姿态的表示对于三维动作和手势识别起着至关重要的作用。在本文中,我们提出了一种变形姿态遍历卷积网络,该网络应用一维卷积来遍历3D姿态以用于其表示,而不是直接通过其关节位置来表示3D姿态它不是在执行遍历卷积时固定接收场,而是通过考虑具有各种权重的上下文关节来优化每个关节的卷积核。 这种可变形卷积更好地利用上下文关节进行动作和姿势识别,并且对噪声关节更鲁棒。此外,通过将学习到的姿势特征馈送到LSTM,我们执行端到端训练,共同优化3D姿势表示和时间序列识别。三个基准数据集上的实验验证了我们提出的方法的竞争力的表现,以及它的效率和鲁棒性,以处理噪声关节的姿态。关键词:位姿遍历,位姿卷积,可变形卷积,三维动作和手势识别1介绍随着使用深度传感器的姿态估计方法[1,2,3]的成功,3D动作和手势识别引起了相当大的关注。为了识别3D动作和姿势,每个3D姿势通常由其具有3D位置的关节来表征。然而,以前的工作[4,5,6]表明,并非每个空间关节对动作的识别都具有同等重要性,并且人体运动在姿势关节之间表现出空间模式[7]。因此,通过识别对于识别重要的关节的关键组合来识别那些运动模式并避免无信息关节是非常重要的。例如,为了记录“OK”的情况,“隐藏文件的一部分”和“文件夹”将要求必须观察到从该文件夹中取出的文件的“安全性”。这五个关键指尖的协调对于“OK”的记录是重要的。2J. Weng,M. Liu,X. Jiang,J.元(a) 姿势遍历(b)姿势遍历转换(c)D姿势遍历转换图图1:姿态遍历表示、姿态遍历卷积和可变形姿态遍历卷积的图示(a)姿势遍历。遍历从红色躯干关节开始,并遵循橙色箭头的指导。(b)姿势遍历卷积。与橙色线连接的红点表示3× 1姿势卷积核。绿点表示卷积锚点(c)可变形姿态遍历卷积。(b)中的内核变形为涉及两只手和右肩的卷积。为了识别用于3D动作和手势识别的关节模式,最近已经普遍使用基于深度学习的方法[8,9,10,11,4,6]。例如,[4,6]通过为关节分配权重并使用关键关节来表示3D姿势,将注意力机制应用于3D动作识别。然而,在这些工作中,每个关节被单独考虑,并且姿势的空间配置中的判别基于部分的模型[12,13]应用递归神经网络(RNN)来探索身体部位之间的关系。Liu等人。 [14]和Wang等人。 [15]在每一步将一个3D姿势关节馈送到RNN中,以对关节的空间依赖性进行建模,并表明这种空间依赖性建模可以提高识别性能。然而,考虑到在每个步骤中当前可用的空间上下文仅是来自先前步骤的隐藏状态,这两个模型的顺序方式没有充分利用关节的空间依赖性在这项工作中,我们建议通过传统的卷积来识别关节模式在图像识别中,卷积神经网络(CNN)对输入图像的每个局部窗口进行加权求和,这涉及到像素的局部空间关系同时,每个卷积是独立的,并且CNN适合于并行而不是顺序地对像素的空间依赖性进行类似于通过卷积的相邻像素之间的外观相似性度量我们遵循[14]中的树遍历规则来保持关节的空间相邻关系,如图所示。1a.然后,我们应用一维卷积遍历姿势提取空间表示。我们使用图1b来说明这种姿态平移卷积。在右肘处放置的内核在右臂上进行卷积操作,并且它继续沿着姿势关节滑动以获得遍历可变形位姿遍历卷积3图中的导向器1a. 同时,可以优化姿态遍历卷积以搜索每个单独关节的适当空间上下文,我们称之为可变形姿态遍历卷积。利用可变形姿态遍历卷积,我们不再固定卷积的核的规则结构,并且卷积可以容易地涉及彼此不是邻居的关键关节,从而可以捕获关节之间的基本依赖性此外,每个关节将通过识别合适的内核来识别其自己的空间上下文。我们的可变形姿势遍历卷积受到可变形卷积神经网络[16]的启发,该神经网络将注意力机制引入卷积。如示于图在图1c中,锚定在右肘上的卷积核变形,使得左手和右手以及右肩也包括在一个卷积操作中。我们认为,由于动作和手势的复杂性,关节的关键组合在动作执行过程中是变化的。因此,卷积核的变形偏移由基于先前观察到的姿态数据的单层ConvLSTM [17最终提取的姿势特征将进一步馈送到LSTM网络中[18]。整个网络利用可变形的姿势训练卷积来学习关节之间的空间依赖性,并使用LSTM来模拟姿势序列的长期演变。该网络是端到端训练的。在基准动作和手势数据集上的性能以及与现有技术的比较证明了所提出的可变形姿态平移卷积用于3D动作和手势识别的有效性。我们的贡献可归纳如下:• 我们引入了一个一维卷积神经网络,变形姿态遍历卷积,来表示3D姿态。它可以通过识别关节的关键组合来提取姿势特征,这对于动作和手势理解是可解释的。• 我们应用ConvLSTM [17]来学习卷积核的变形偏移它模拟关节键组合的时间动态。2相关工作3D动作和手势识别三维动作和手势识别任务近年来引起了人们的广泛关注。最近提出的方法可以分类为传统模型[19,20,21,22,23,5,24,7,25,26,27,28,29]和基于深度学习的模型[14,16,17]。6、30、15、4、11、9、31、10、12、32、33]。由于这些工作量巨大,我们将审查限制在深度学习中的空间姿势建模。基于部分的模型将3D动作视为身体部分之间的交互在HBRNN [12]中,3D姿态被分解为五个部分,并且多个双RNN被分层堆叠以建模这些部分之间的关系。在[14,6,15]中,姿态图通过树遍历规则进行扁平化,并且关节4J. Weng,M. Liu,X. Jiang,J.元t=1被顺序地馈送到LSTM中,以对它们之间的空间依赖性进行建模。在基于2D CNN的方法[33,34,30,32]中,姿态序列首先被可视化为图像。图像的每个像素与关节相关然后在生成的图像上应用二维CNN以提取序列级CNN特征,通过该特征隐式地学习关节的时空依赖性。与2D CNN方法相比,我们对姿态遍历数据应用一维卷积来提取帧级姿态特征,这对于需要帧级特征的任务来说更灵活。三维动作和手势的注意机制在3D动作和手势识别中,并非每个空间关节对识别任务都具有同等重要性。因此,识别识别关键关节至关重要。在STA-LSTM [14]中,训练两个子LSTM来预测空间和时间权重,以发现关键关节和帧。在ST-NBNN [5]中,引入支持张量机来为最近邻距离矩阵分配空间和时间权重以进行动作分类。 在Orderlet [7]中,通过对关节的基本特征的几个关键比较来描述动作,并且通常对关节的子集进行了定义。在测试期间固定接头的关键组合。相比之下,所提出的方法允许在动作执行期间每个关节变化的最佳空间上下文,因为我们使用RNN结构来对关键关节组合的时间动态进行建模。3该方法在本节中,我们介绍所提出的可变形姿态遍历卷积如何处理每个帧中的姿态数据并识别3D动作和手势。在我们的模型中,特征图和卷积核是一个维度用于空间域,另一个维度用于信道域。可变形姿态卷积在空间域上操作,并且内核的变形在通道维度上保持相同。为了符号清晰,我们描述了空间维度上的模块,省略了信道维度的索引。每个3D动作/姿势被表示为3D姿势的序列。假设每个姿态由J个关节组成,单个姿态可以表示为X∈RJ×C,其中C是通道数 如果关节的坐标和速度都涉及,则3D姿势具有六个通道,如图所示。3.第三章。我们定义x∈RJ作为X的单通道版本。则3D动作/姿势序列可以由一组姿态描述,V={xt}T,其中T是序列sample. 给定3D姿态序列,我们的目标是预测对应的标签k∈ {1,2,…K},其中K是类别的数量。该问题可以按照最大后验(MAP)规则来公式化,k*= arg max p(k|(1)K可变形位姿遍历卷积5(a) 位姿遍历卷积网络(b) 变形位姿变换卷积网络图2:姿态平移卷积网络和可变形姿态平移卷积网络的结构结构中的每个块表示网络工作的一个操作。“输入”和“输出”表示输入字符串和输出字符串的数量。 “k e r n e l”表示k e r n e l的大小,“s t r id e”表示c o n v o l u t i o n o p e r a t i o n的类型。 LSTMhid deneron的大小由“hid d e n”确定。3.1姿态遍历卷积为了充分利用单个姿势中关节的空间运动学依赖性,我们遵循[14]中的树遍历规则来表示我们的方法中的姿势数据,如图所1a. 通过这种方式,姿势数据的长度从J扩展到Je ,并且关节的布置变成环。我们将其命名为姿态遍历数据。在我们的方法中,我们将修改后的时间卷积网络[35](TCN)应用于姿势遍历数据以执行空间姿势卷积,其被称为姿势遍历卷积。TCN的每一层由一维卷积、一维池化和信道归一化操作组成。在每个卷积运算之后,包括一个整流线性单元(ReLU)以涉及非线性。TCN是一种编码器-解码器结构,旨在解决时间分割任务。在这项工作中,我们只使用TCN的编码器部分,并将其修改为一个两层的一维卷积神经网络。具有位姿遍历卷积的神经网络的结构如图所示。2a.双层卷积结构从每个单帧中提取姿势特征,然后将姿势特征进一步馈送到主LSTM网络中,以对输入姿势序列的长期时间动态进行建模。常规一维卷积有两个步骤:1)使用输入数据中的一个正则表达式G进行采样;2)对由w加权的一个简单的j〇its值进行求和。采样集G定义了感受野大小和扩张。对于伸缩为1的N×1正则卷积核,其中N=2<$M+1,且M∈N+,该图是一个可满足以下条件的映射:G={−M,…,-1,0,1,...,M}(2)变形conv1在:C 输出:32内核:5 步幅:1conv1在:C 输出:32内核:5 步幅:1pool1在:32 输出:32内核:5 步幅:3pool1在:32 输出:32内核:5 步幅:3渠道规范在:32 输出:32渠道规范在:32 输出:32conv2在:32 退出:64内核:3 步幅:1conv2在:32 退出:64内核:3 步幅:1池2在:64 退出:64内核:5步幅:4池2在:64 退出:64内核:5步幅:4渠道规范在:64 退出:64渠道规范在:64 退出:64LSTM隐藏:256LSTM隐藏:2566J. Weng,M. Liu,X. Jiang,J.元速度姿势conv 5×6(内核×通道)Je×6(暗×通道)ConvLSTM细胞Je×32(暗×隐藏通道)偏置学习偏移偏移转换三十二五一九(in,out,stride,kernel)习得偏移Je×5(暗×偏移)速度姿势conv 5×6,32(内核×通道,输出)Je×6(暗×通道)图3:可变形姿态遍历卷积的图示姿态由姿态特征和速度特征表示灰色矩形表示卷积核,并且它们内部的深灰色矩形指示卷积锚。姿态遍历数据被馈送到偏移学习模块中,其中,姿态遍历数据是C 〇nvLSTM的变换,并且是C〇nvLti 〇n的变换。文件中的“输入”和“输出”分别表示输入和输出字符串的数量。橙色矩形是学习的偏移,以使每个锚点处的卷积核变形。可变形姿势平移卷积基于学习的偏移在图的底部操作。对于输出特征图y的位置i0,我们有Σy(i0)=in∈Gw(in)·x(i0+in)⑶其中in枚举G中的元素。3.2可变形位姿遍历卷积常规姿势卷积集中在空间相邻关节上。这种传统的操作可能涉及非信息关节,并且不能很好地构建彼此远离的关键关节的关系。我们认为,最佳的空间背景的联合并不总是来自它的邻居。打破常规卷积核的局限性,学习最优的空间上下文是非常重要的。受设计用于图像识别的可变形卷积网络[16]的启发,我们提出了姿势遍历卷积的可变形版本,并将其应用于姿势数据以发现可变形位姿遍历卷积7n=1n=1我FOO更好的关节组合。更具体地说,我们用一维可变形卷积替换姿态遍历卷积网络的第一层,并且涉及ConvLSTM [17]来学习每个卷积锚的内核的偏移量δ,如图所示。3.第三章。偏移是特征图上卷积采样位置的调整。采用一种新的不规则采样的N×setG={(in,δn)}N在位置10处的输出特征y被定义为,Σy(i0)=(in,δn)∈G~w(in)·x(i0+in+δn)⑷现在,该求和是在该第二个区域上的局部计算,Si〇+in+δn。ThePos eTrav ersal卷积是可变形版本的特殊情况。当{δn}N均为这是一个很好的例子。请注意,此字段中包含较低的已定义字段使用非整数、双线性内插对输入特征图进行采样x(i)=α·x(i)+(1−α)·x(i)(5)其中i=i0+in+δn表示分数位置(子关节),α=i−i。偏置学习我们使用子路径网络来学习偏移量δ。考虑到要决定注意哪些关节应该从先前观察到的动作/手势中推断出来,基于RNN结构ConvLSTM [17]构建子路径网络。利用所涉及的RNN模型,子路径能够学习时间进程上的偏移δ。ConvLSTM首先针对图像序列提出。ConvLSTM中的每个卷积都是二维的。在这里,在我们提出的方法中,我们将其修改为一维版本,以便它可以很好地应用于姿势遍历数据。通过姿态遍历表示,Con-vLSTM在每个卷积运算中考虑关节的空间相邻关系。在每个时间步中,偏移学习模块的输入是具有C个通道的姿态遍历数据,并且对应的输出是每个锚点位置上的核的具有N个通道的偏移隐藏和记忆细胞张量在ConvLSTM内部存储动作/手势重要信息。偏移卷积位于ConvLSTM的输出端,它在每个时间步将隐藏张量转移到偏移量。偏移学习的图示如图所示。3,并且ConvLSTM的关键方程在Eq. 六、gt=σ(wxi*xt+whi*ht−1+bi)gt=σ(wxf*xt+whf*ht−1+bf)mt=gt◦ht−1+gt◦tanh(wxm*xt+whm*ht−1+bm)(六)f igt=σ(wxo*xt+who*xt+bo)ht=gt◦tanh(mt)8J. Weng,M. Liu,X. Jiang,J.元n=1MM其中,ConvLSTM的输入门、遗忘门和输出门gt、gt和gt为我福奥向量m_t和h_t分别是记忆胞张量和隐态张量。σ(·)是唯一函数。 在每个操作中,我们都可以根据时间和数据来进行处理。*是一维卷积的符号,◦表示元素乘积。如果卷积核的大小为1,则学习偏移定义为,ot=wof*ht+bof(7)其中〇t∈RJe是学习的偏移张量。如果卷积核的大小为N,输出偏移是矩阵Ot∈RJe×N。Ot的每一列对应到偏移集{δn}N在一个回旋锚上3.3学习和分类在通过可变形位姿遍历卷积网络之后,位姿遍历数据被转换为抽象位姿特征。然后将该特征馈送到主LSTM中,以模拟该特征的长期时间演化。输入动作或手势。我们使用隐藏状态hT从上一个时间点开始来预测标签。隐藏状态hT被传递到全连接层并且如果icatic z的最小值是输入的等式Vbelonggtooclassk的最小概率,即zk=p(k|V)。该约束函数是为了最小化交叉熵损失,其可以通过时间反向传播(BPTT)[36]以端到端的 方式进行优化。4实验在本节中,我们评估和分析三个3D动作和手势数据集上的所提出的方法。实施细节在第2节中介绍4.1.动态手势14/28数据集(DHG)[29],NTU-RGB+D数据集(NTU)[13]和伯克利多模态人类动作数据集(MHAD)[37]的比较结果在第二节中提供和讨论。四点三。实验结果表明,本文提出的可变形姿态遍历卷积算法能够有效地在线搜索最优关节组合,并在3D动作和姿态识别方面达到了最4.1执行表示. 这三个数据集包括单个动作、两人交互和手势。所有的身体动作和手势都表示为3D姿势。为了确保表示的位置和视图不变性,通过减去时间平均姿态中心来集中姿态的每个关节,并且预旋转每个姿态对于单人动作和手势,可变形位姿遍历卷积9表1:手势数据集的结果比较- DHG(%)方法罚款粗两个-14两个-28[38]第三十八话70.692.284.579.4SoCJ+HoHD+HoWR [29]73.688.383.180.0姿势链转换76.290.480.475.7姿势遍历转换77.191.881.176.6D姿势遍历转换81.995.285.880.2姿势中心分别定义为髋关节和掌关节。对于两个人的交互,姿势中心是每个帧中两个人的相互作用由两个人中的对应关节的绝对差表示网络所有实验中用于姿态特征提取的卷积网络共享相同的网络参数。我们修改了时间卷积网络[35]以提取每帧的姿态特征网络的主要参数如图所示。二、在我们的实验中,我们使用单层ConvLSTM进行偏移学习。DHG、NTU和MHAD的主LSTM层的数量分别为2、3和训练我们的神经网络由PyTorch实现。随机优化方法Adam [39]适用于训练网络。我们使用类似于[40]的梯度裁剪来避免梯度爆炸问题。训练的初始学习率设置为0.001。DHG、NTU和MHAD数据集的批量大小分别为64、64和32为了有效地学习,我们首先训练姿势遍历卷积网络,并使用学习到的参数来初始化可变形网络。4.2数据集动态手势14/28。Dynamic Hand Gesture 14/28数据集由英特尔RealSense深度摄像头采集它包括14个手势类别,这些手势以两种方式执行,使用一个手指和整个手。按照[29]中介绍的方案,在四种设置下进行评估实验,即精细、粗略、两者-14和两者-28。在每个实验设置中,我们使用留一主题交叉验证策略。NTU-RGB+D. NTU-RGB+D数据集使用Kinect V2深度相机收集。有60个不同的行动类。我们遵循[13]中描述的方案进行实验。有两种标准评估设置,即跨主题(CS)和跨视图(CV)评估。在CS设置中,一半10J. Weng,M. Liu,X. Jiang,J.元表3:MHAD(%)的比较方法CSCV方法精度ST-LSTM [1]69.277.7SMIJ [25]95.4两条溪流[35]71.379.5[42]第四十二话97.6GCA-LSTM [6]74.482.8[43]第四十三话98.2RNN树[10]74.683.2HBRNN [12]100.0CNN+MTLN [32]79.684.8ST-LSTM [1]100.0Li等人 [41个]83.289.3ST-NBNN100.0姿势链转换75.283.4姿势链转换96.4姿势遍历转换76.184.3姿势遍历转换98.6D姿势遍历转换76.884.9D姿势遍历转换100.0的科目用于培训,其余科目用于测试。在CV设置中,三个视图中的两个用于训练,其余一个用于测试。伯克利MHAD。Berkeley MHAD数据集中的动作序列由运动捕捉系统捕捉。该数据集中有11个动作类别我们遵循[37]中介绍的实验方案来评估所提出的方法。由前七个受试者执行的序列用于训练,而由其余受试者执行的序列用于测试。4.3结果和与基线的我们比较了所提出的方法与两个基线上的三个数据集,DHG,NTU和MHAD。两种基线方法是具有单链表示的姿态卷积(姿态链卷积)和具有姿态遍历表示的姿态卷积(姿态遍历卷积),其中,姿态链卷积简单地使姿态图平坦而不考虑关节的相邻关系比较结果见表。1,表。2、桌子。分别3。从表中可以看出,姿态遍历卷积比姿态链卷积实现了更好的性能,这验证了姿态卷积中遍历表示的参与的有效性在这三个数据集中,我们还可以看到可变形姿态平移卷积(D-Pose平移卷积)的性能优于姿态平移卷积。可变形姿态遍历卷积能够在每个卷积运算中找到关键关节的良好组合,并避免无信息或噪声关节,这可以有效地帮助提高识别精度。此外,性能改进在涉及比身体动作更多的姿势部分的协调的动态手势上是显著大的图图4a示出了DHG-14数据集上的姿态遍历卷积与可变形姿态遍历卷积之间的混淆矩阵的比较可变形位姿遍历卷积1112345678910111213141 2 3 4 5 6 7 8 9 10 11 12 13 14姿势遍历转换12345678910111213141 2 3 4 5 6 7 8 9 10 11 12 13 14可变形姿势遍历转换1234123412341234(a) 主混淆矩阵(b)子混淆矩阵图图4:(a)DHG-14上的姿态平移卷积和可变形姿态平移卷积之间的混淆矩阵的比较 红色矩形表示矩阵的子部分,其中包括两个最小的图“Gr a b”和“P i n c h”。 DHG-14中的图为1。 Grab,2。 Tap,3。 Exp和,4。 Pi nch,5.顺时针旋转,6。逆时针旋转,7。向右滑动,8.向左滑动,9.向上滑动,10.11.我的超次元帝国滑动X,12。第13章.14. wikipedia 握手(b)位姿遍历卷积与可变形位姿遍历卷积之间的子混淆矩阵的比较在Both-14设置下。从该图中可以看出,与姿势遍历卷积相比,可变形姿势遍历卷积的混淆矩阵更清晰,这意味着通过使用可变形姿势遍历卷积减少了手势之间的混淆。 我们还可以看到,这是一个由“Gr a b”和“P i nc h”组成的集合。这两个任务都是针对“F i ne”任务区的,并且彼此之间非常相似。可变形姿态遍历卷积可以大大减少“P i n c h”的数量,如果是“G r a b”,则可以将简单的计算简单化,如图所示。 4b. “P i n c h h”geeere的回收率从49%整体提升至71. 5%。与最新技术水平的在本节中,将所提出的方法与三个基准数据集DHG-14/28,NTU-RGBD+D和Berkeley MHAD上的现有方法进行比较。从表中可以看出1,表。2、桌子。3.在NTU-RGB+D数据集和Berkeley MHAD数据集上,我们的方法取得了在动态手势数据集上,该方法的性能明显优于现有方法。值得注意的是,所提出的方法,可变形姿态遍历卷积网络,比ST-LSTM [14]和双流网络[15]表现得更好,它们使用长短期记忆网络(LSTM)对关节的空间背景进行0.6050.250.7450.850.3350.490.610.270.780.860.160.715姿势遍历转换可变形姿势遍历转换12J. Weng,M. Liu,X. Jiang,J.元0.880.860.840.820.80.780.760.740.720.7-90°-60°-30° 0° 30° 60°90°旋转度10.950.90.850.8DPTCPTC0 0.1 0.2 0.3 0.40.5噪声关节百分比图5:旋转对精度的影响图6:噪声对精度鲁棒性分析1) 轮换。随着2D姿态估计方法[44,45]最近达到一个新的水平,我们考虑所提出的方法是否能够很好地处理2D姿态我们进行了一个实验,比较的性能的姿势遍历卷积(PTC)和变形的姿势遍历卷积(DPTC)的2D和3D数据的DHG数据集。结果示于表中。4.第一章可以看出,所提出的方法在2D数据上的精度与在不同设置下在3D数据上的精度原因是DHG数据集是为了人机交互而收集的,并且所有记录的姿势都是用手掌面向相机来执行的虽然有一个维度丢失,所提出的方法仍然达到了性能是类似的一个3D数据。结果验证了DPTC的有效性优于PTC。我们进一步评估我们的方法在不同数据旋转下的性能,以了解其对旋转的鲁棒性。我们沿y轴以−90◦、−60◦、−30◦、30◦、60◦以及90◦旋转3D手部姿势,并记录这些设置下的结果示于图5中。可以看出,尽管具有不同的旋转,所提出的方法仍然可以保持对3D数据的性能,而在2D数据上,性能随着旋转度的增加而改变在2D数据设置下,可变形位姿遍历卷积仍然找到最佳接头组合,并且比位姿遍历卷积表现得更好。考虑到使用者的轮换时间仅 为 ± 3 0 分 钟 , 我 们 能够 很 好 地 处 理 日 常 情 况 。2) 噪声虽然目前姿态估计方法取得了很好的性能,但是在三维动作和手势识别中,由于估计误差和遮挡引起的姿态噪声仍然是不可忽视的。在这一节中,我们进行实验,以显示所提出的方法的伯克利MHAD数据集上的姿态噪声的容忍度。我们随机选择10%、20%、30%、40%和50%的姿势关节,并添加最大幅度高达10%的严重随机噪声。DPTC-3DDPTC-2DPTC-3D精度精度可变形位姿遍历卷积13表4:DHG上2D和3D数据的比较(%)方法罚款粗两个-14两个-28姿势遍历转换-2D74.690.181.277.1姿势遍历转换-3D77.191.881.176.6D-Pose Traffic Conv-2D81.994.985.180.4D姿势遍历转换-3D81.995.285.880.250。我们评估的性能的姿态遍历卷积和变形姿态遍历卷积与不同百分比的噪声关节。结果示于图六、从图中可以看出,虽然由于噪声的影响,PTC的精度下降了很多,但DPTC仍然可以避免噪声接头,并获得良好的性能。在50%噪声节点的情况下,从PTC到DPTC的精度提高了7。百分之六十四在这里,我们使用的噪声是严重的幅度高达50,和建议的DPTC仍然可以表现良好。在50%噪声关节的设置下,我们还通过使用幅度仅为5的小噪声来评估PTC和DPTCPTC和DPTC的准确率分别 为 96 。 36% 和 98 。 分 别 为 18% 。 我 们 可 以 看 到 , Pose TrafficConvolution通过使用关节的相邻空间上下文能够很好地处理小噪声可视化在本节中,我们将从图1中的偏移学习模块中学习到的单个帧的偏移可视化。7.第一次会议。实验在NTU数据集的交叉视图设置上进行。为了简化实验的可视化,我们将卷积核的大小设置为1。在该设置下,学习的偏移重新排列卷积的采样点,并将这些采样点移位到与该采样点的距离相等的位置。对于图1中的“T h r o w”中的ACti on。 7a,高响应偏移位于右手周围,由彩色点标记。子图形拐角处的草图零件是右手。可以看出,食指两侧的内核正朝向它移动,其中,该模型将该内核移动到食指的“下”位置,并且该模型将其内核移位以获得更好的信息。对于图7d中的“Kick S 〇 m e t h i n g”,在左脚部分中存在有引导内核朝向左膝和左脚踝之间的位置而不是左脚尖移动的金属颗粒。原因是脚的姿态估计在NTU-RGB+D数据集中并不总是稳定的,尤其是在交叉视图设置下,并且因此偏移模块选择在该点和该点之间的点以执行“K i ck”算法。“十字架”一词由两个字母组成,并从图中可见。在图7中,在两个手部分上都有高响应。14J. Weng,M. Liu,X. Jiang,J.元遍历方向遍历方向偏移偏移1110.50.50.5000-0.5-0.5-0.5-10 10 20 30 4050姿势遍历指数(a) 扔-10 10 20 30 4050姿势遍历指数(b) 检查时间-10 10 20 30 40 50姿势遍历指数(c) 诺德角10.50-0.5-1遍历方向0 10 20 30 4050姿势遍历指数(d) 踢东西1.510.50-0.5-1-1.5遍历方向0 10 20 30 4050姿势遍历指数(e) 自拍1.510.50-0.5-1-1.5遍历方向0 10 20 30 4050姿势遍历指数(f) 十字手图7:学习偏移的可视化蓝色曲线显示每个锚点上卷积核的偏移每个子图的角上的草图示出了在偏移学习中具有高偏移响应的姿势的部分。草图中接头的颜色对应于图形x轴上的彩色标记草图中的红色箭头指示遍历的方向。5结论在这项工作中,我们引入了一个可变形的一维卷积神经网络来遍历3D姿态的姿态表示。卷积核由ConvLSTM引导变形以发现最佳卷积上下文。由于ConvLSTM的递归特性,它可以模拟内核变形的时间动态所提出的可变形位姿遍历卷积能够发现最佳关键关节组合,以及避免无信息关节,并且因此实现更好的识别精度。实验验证了所提出的贡献,并验证了所提出的变形姿态遍历卷积的有效性和鲁棒性谢谢。这项研究得到了新加坡南洋理工大学和北卡罗来纳大学教堂山分校合作的BeingTogether中心以及南洋理工大学的ROSE实验室的支持。BeingTogether中心由新加坡总理办公室国家研究基金会在其新加坡国际研究中心资助计划下提供支持。ROSE实验室由新加坡总理办公室国家研究基金会支持。这项工作也得到了布法罗大学计算机科学与工程系的启动补助金的支持遍历方向偏移偏移偏移偏移可变形位姿遍历卷积15引用1. Shotton,J.,Fitzgibbon,A.,Cook,M.,Sharp,T.,Finocchio,M.,摩尔河凯普曼,A.,布莱克,A.:单深度图像中人体局部姿态的实时识别。参见:C.V.P.R.,IEEE(2011)12972. Ge,L.,Cai,Y.,Weng,J.,Yuan,J.:手点网:使用点集的三维手姿态估计在:CVPR中。第1卷(2018年)513. Ge,L.,Ren,Z.,Yuan,J.:点到点回归点网络用于三维手姿态估计。In:ECCV,Springer(2018)14. Song,S.,兰角邢杰,Zeng,W.,Liu,J.:一个端到端的时空注意力模型,用于从骨架数据识别人体动作在:AAAI。第1(2017)71,2,35. Weng,J.,翁角,澳-地Yuan,J.:空时朴素贝叶斯最近邻(st-nbnn)算法用于空间数据库的检索。 In:CVPR. (2017)41716. 刘杰,Wang,G.,Hu,P.,Duan,L.Y.,科特,A.C.:用于3d动作识别的全局上下文感知注意在:CVPR中。(July 2017年)1、2、3、107. Yu , G. , 刘 志 , Yuan , J. : 判 别 小 序 挖 掘 用 于 实 时 识 别 humam-objectintertectiónn。In:ACCV,Springer(2014)508. Veeriah,V.,Zhuang,N.,Qi,G.J.:微分递归神经网络在动作恢复中的应用参见:ICCV,IEEE(2015)40419. 朱伟,兰角邢杰,Zeng,W.,李,Y.,Shen,L.,Xie,X.,等:使用正则化深度lstm网络的共现特征学习用于基于骨架的动作识别。在:AAAI。第2卷(2016)82,310. 李伟,温湖Chang,M.C.,Nam Lim,S.,Lyu,S.:用于大规模人体动作识别的自适应rnn树。In:ICCV. (Oct 2017年)2、3、1011. 李岛Kim,D.,康,S.,Lee,S.:使用时间滑动lstm网络进行基于骨架的动作识别的集成深度学习。In:ICCV. (Oct 2017年)2、312. 杜,Y.,王伟,Wang,L.:基于骨架的层次递归神经网络算法。 In:CVPR. (2015)111013. Shahroudy,A.,刘杰,Ng,T. T.,王G:Ntu rgb+d:用于3d人类活动分析的大规模数据集。在:CVPR中。(June 2016年)2、8、914. 刘杰,Shahroudy,A.,徐,D.,王G:用于3维仿人记忆的具有信任门的时空最小二乘模型。In:ECCV,Springer(2016)81615. 王,H.,Wang,L.:使用双流递归神经网络建模动作的时间动态和空间配置。在:CVPR中。(July 2017年)2、3、1116. Dai,J.,Qi,H.,Xiong,Y.,李,Y.,张,G.,Hu,H.,魏云:可变形对流网络。In:ICCV. (Oct 2017年)3、617. S.,S.,陈志,王,H.,杨D.Y. W.K.胡伟:卷积lstm网络:降水临近预报的机器学习方法。In:NIPS. (2015)80218. Hochreiter,S.,Schmidhuber,J.: 长短期记忆。 神经计算(1997年)第9(8)号决定19. Ren,Z.,Yuan,J.,张志:一种基于手指运动分布的鲁棒手势识别方法。 In:ACMMM. (2011年)109316J. Weng,M. Liu,X. Jiang,J.元20. 王杰,刘志,吴,Y.,Yuan,J.: 挖掘actionlet集成以识别带有数据包的动作。参见:C.V.P.R.,IEEE(2012)129021. 王杰,刘志,吴,Y.,Yuan,J.:用于3d人类认知的学习actionlet集成。T-PAMI36(5)(2014)91422. Liang,H.,Yuan,J.,Thalmann,D.,Thalmann,N.M.:AR在手:增强现实应用中以自我为中心的手掌姿势跟踪和手势识别In:ACMMM,ACM(2015)743- 74 4 323. Ren,Z.,Yuan,J.,孟,J.,张志:基于kinect传感器的鲁棒部分手势识别。T-MM 15(2016)324. Weng,J.,翁角,澳-地Yuan,J.,刘先生:用于三维动作识别的判别式时空模式发现。T-CSVT(2018)325. Ofli,F.,乔杜里河Kurillo,G.,维达尔河Bajcsy,R.:信息量最大的节理序列(smij):一种用于人体骨骼动作识别的新表示方法。《中华人民共和国民事诉讼法》25(1)(2014)24- 3 8 3,1 026. 维穆拉帕利河切拉帕河:滚动旋转用于从3d skeletaldata识别人的动作。In:CVPR. (2016)447127. Garcia-Hernando,G.Kim,T.K.: 过渡森林:学习判别式项目,以进行重新分类和确定。 In:CVPR. (2017)43228. 王,P.,Yuan,C.,胡伟,李,B.,张毅:基于图的骨架运动表示和相似性度量的动作识别。In:ECCV,Springer(2016)370- 38 5 329. De Smedt,Q.,Wannous,H.,Vandeborre,J.P.:基于骨架的动态手工操作。 In:CVPRW. (2016)130. 刘,M.,Yuan,J.:将人类动作识别为姿态估计图的演变在:CVPR中。(June 2018)3,431. 李,Y.,兰角邢杰,Zeng,W.,Yuan,C.,Liu,J.:基于联合分类回归递归神经网络的在线人体动作In:ECCV,Springer(2016)203- 22 0 332. Ke,Q. Bennamoun,M.,An,S.,Sohel,F.,Boussaid,F.:一种新的三维动作识别骨架序列表示方法。在:CVPR中。(July 2017年)3、4、1033. 王,P.,Li,Z.,侯,Y.,李伟:基于关节轨迹模型的神经网络动作识别。In:ACMMM,ACM(2016)10234. 刘,M.,刘洪,Chen,C.:增强的骨架可视化,用于视图不变的骨架重建。第六届中国(北京)国际医疗器械博览会(2017年)35. Lea,C.,弗林医学博士维达尔河Reiter,A.,Hager,G. D.:用于动作分割和检测的时间卷积网络在:CVPR中。(2017年7月)5、9、1036. 格雷夫斯,A.:监督序列标记。在:具有重新创建的网络任务的受监督序列标记中。2012年5月13日37. Ofli,F.,乔杜里河Kurillo,G.,维达尔河Bajcsy,R.: Berkeley mhad:A comprehensivemultimodalhmanactindatabase. In:WACV,IEEE(2013)5338. Evangelidis,G.,Singh,G. Horaud,R.:骨骼四头肌:使用jointquadruples的人体动作识别。参见:ICPR,IEEE(2014)451339. 金玛,D.P.,Ba,J.L.:Adam:随机最佳化的方法。(2015年)940. 萨茨克弗岛Vinyals,O.,Le,Q.V.:使用神经网络进行序列到序列学习。 In:NIPS. (2014)310441. Chao Li,Qiaoyong Zhong,D.X.S.P.:基于骨架的动作识别与卷积神经网络的工作。参见:I
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功