基于关节关系的视频动作评估模型

92 浏览量更新于2023-10-12 收藏 1.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6331基于联合关系图的潘家辉1，高继斌1，郑伟世1，2，3，刘伟1中山大学数据与计算机科学学院2鹏程实验室，深圳5180053机器智能与先进计算教育部重点实验室网址：panjh7@mail2.sysu.edu.cn，gaojb5@mail2.sysu.edu.cn，网址：www.example.com，wszheng@ieee.org摘要我们提出了一个新的模型，以评估性能的行动，从视频的视觉基于图形的联合关系建模。以往的作品主要关注表演者的身体和背景等整体场景，而忽略了细节上的关节互动。这对于细粒度和准确的动作评估是不够的，因为每个关节的动作质量取决于其相邻关节。因此，我们提出了基于关节关系来学习我们建立了可训练的关节关系图，并在其上分析关节运动。我们提出了两个新的模块，联合commonality模块和联合差分模块，用于联合运动学习。关节共性模块对某些身体部位的一般运动进行建模，关节差异模块对身体部位内的运动差异进行建模。我们评估我们的方法对六个公共奥运活动的绩效评估。在Spearman秩相关中，我们的方法优于以前的方法（+0.0912）和全场景分析（+0.0623）我们还展示了我们的模型1. 介绍行动绩效评估是一项评估行动执行情况的任务。行动评估技术在一些实际应用中是相当重要的例如，在医疗中，动作评估系统可以帮助在患者执行日常任务时监测和评估患者。在体育运动中，利用自动评估技术，我们可以为每个奥运项目建立通用的评分系统最近，在计算机中已经探索了使用自动评估动作性能的问题*通讯作者图1. 在关系图上学习关节运动以进行动作评估。我们在关节关系图上学习运动的共性和差异。运动的共性反映了身体各部位的总体运动，运动的差异反映了运动的协调性。一个表现良好的动作必须同时具有出色的基于部分的运动和关节之间的良好协调。愿景社区一些作品尝试在视频中进行动作表现评估[6，7，24，10，21，20]。然而，他们以粗略的方式分析动作。许多方法[6，7，21，20]只是简单地提取整个场景的特征来评估动作的性能虽然一些作品[24，10]已经分析了每个关节的运动，试图更好地发现用于评估的细粒度线索，但它们单独分析了每个关节的位置不同的是，为了评估细粒度的性能，我们考虑了几个局部连接的关节的交互式运动模式，而不是单独查看每个关节例如，在跳水中，当踝关节和髋关节也弯曲时，弯曲的膝盖是正常的（例如，在滚动阶段），而如果踝关节和髋关节在伸展姿势（例如，在进水阶段）。因此，它是更合适的集中在局部连接的关节，而不是一个单一的关节评估细粒度的评估行动的绩效共性：身体部位动力学区别：联合协调良好的表现=出色的动作 +良好的协调针对每个身体部分关节间6332在这项工作中，我们探索的联合关系之间的运动局部连接关节的行动评估。特别地，我们关注通过运动共性建模的身体部位动力学，以及通过运动差异建模的关节协调（参见图1）。相邻（局部连接的）关节的运动共性指示某个身体部位的总体运动，而那些相邻关节之间的运动差异反映动作协调。一个好的动作必须有熟练的细节动作和关节之间的协调。为了对关节运动之间的关系进行建模，我们提出了一种基于图的动作评估网络，其中图的节点对应于关节运动。我们定义了两个可学习的关系图：空间关系图用于在一个时间步内建模联合关系，时间关系图用于在两个直接的时间步内建模联合关系。基于这两个图，我们开发了两个运动学习模块，即联合一致性模块和联合差分模块。关节共性模块通过聚集空间图中的关节运动来提取特定时间步长处的身体部位动力学信息。关节差异模块通过将每个关节与空间图以及时间图中的其局部连接的邻居进行比较来提取协调信息我们的模型不仅利用关节运动来改善动作评估，而且还学习用于解释评估过程的关系图，因为可训练的关节关系图显示了相邻关节对动作评估的相互影响总之，我们的贡献如下。1)我们提出了一个新的框架，学习详细的关节运动的动作性能评估。2)我们提出了一个空间关系图和时间关系图来模拟相邻关节之间的关系。3)我们提出了一个关节共性模块和一个关节差异模块来学习关节关系图上的关节运动。我们证明了我们提出的方法优于现有数据集上以前的工作，它可以提供对评估过程的理解。2. 相关工作行动绩效评估。一些作品试图在视频中进行动作性能评估[11，14，16]。Gordon [11]是第一个探索从视频中自动评估动作的可行性的人。通过对体操跳马动作的骨骼特征进行评价，阐述了自动视频评价技术在体操跳马中的应用。然后，由于医疗领域的密集培训需求，许多工作[18，26，36，39，40，10，19]都集中在评估手术任务中的技能。然而，他们设计每个手术操作都有特定的特征，因此这些方法很难推广。关于任务制定，一些方法[41，40]将行动评估制定为级别分类任务，将参与者分为新手和专家类别。其他一些方法[37，6，7，1]将视频中的技能确定制定为成对排序任务。相反，遵循一些方法[24，32，21，20]，我们利用专家评委给出的可靠分数来指导学习过程，然后将其制定为回归任务。大多数关于动作评估的现有作品以粗略的方式分析整个场景[6，7，21，20]，而没有进一步对详细的关节运动进行建模。 Pirsiavash已经考虑了联合位置序列[24]。提取联合定位序列的DCT特征，利用支持向量回归模型对奥运项目进行分类。然而，它单独建模每个关节，没有考虑关节之间的关系。关系模型。在计算机视觉社区中有一些关于建模不同类型关系的一些作品旨在对动作分析中人体骨骼结构的时空关系进行在对骨架结构建模时，一些作品[17，34]将人体骨架构建为树，实际上从原始骨架图中删除其他人[23，15]取出相邻的关节，并将它们平铺以形成图像。事实上，这增加了一些不相关的关系，因为图像中的一些相邻关节在原始骨架结构中可能根本不相关C.eliktutan的另一个工作然而，这项工作的重点是对齐骨架动态序列，并没有建模的骨架图上的关节关系。相反，我们的目标是建立动作分析的关节关系模型，保留骨架关节的图形结构。基于图形的关节关系。一些关于动作识别而不是评估的工作也通过图形对时空联合关系进行建模[28，33，13]。它们只是在不同的时间里将相同的关节单独这可以很好地用于动作识别，但在动作评估中是不够的相比之下，我们专注于解决行动评估问题，并认为，对联合关系进行更细粒度的建模是重要的。更重要的是，我们特别提出了聚合的动力学差异，每个关节从它的邻居在空间和时间关系图，这还没有尝试在图形建模。6333合计差额聚合一般运动求和时态关系图时间差异评估模块Σ关节运动特征评分为步骤1时都空间关系图差异联合通用模块评分为时间步长t局部小片关节周围回归关节运动特征空间关系邻域图形运动评分为时间步长T全场景特征特征编码器C1联系我们0∈1C001 ∈i3D联合差分模块Σ总体得分全场景视频图2. 我们模型的整体结构。输入视频被均匀地划分为T个时间步。我们的模型给出了每个时间步的评估结果。我们采取整个场景和局部补丁视频作为输入，其中局部补丁被裁剪周围的关节。我们提取了全场景视频和局部补丁视频的特征然后，提出的关节共性模块和关节差异模块学习关节运动的关系图，给出四个学习特征。然后将学习到的特征馈送到回归模块。我们的模型给出了每个时间步的部分结果和整个视频的整体结果。3. 方法我们考虑了几个局部连接关节的交互运动模式为此，我们建议学习详细的关节运动和协调内的联合neighborhood ，其中包括一定的关节和它的neighborbours。我们模型的整体结构如图2所示3.1. 学习联合邻域的运动在评估动作性能时，我们关注联合邻居的动作。我们设计了一个联合共性模块来学习联合邻居的一般运动在介绍联合公共模块之前，我们首先介绍了一个可学习的空间关系图，该模块的工作。空间关系图表示在每个时间步长内每个邻居对特定关节的运动有多大影响。中的每个节点图表示某个关节。每条边代表一对关节之间的关系。以spa为例-表示第i个关节对第j关节的影响程度。As中的元素是非负的和可学习的，除了那些不相关的关节对，它们被设置为零。可学习元素在训练开始时在[0，1）内随机初始化联合共性模块在空间关系图上进行图卷积，并学习联合邻域内的联合运动特征，这受到图卷积网络的启发[25]。该模型输出了共同特征，显示了联合邻域的一般在聚合过程中，每个节点将其拥有的运动特征传输给其邻居。我们将图卷积之前和之后的特征矩阵表示为Ht，其包含第t个时间步中所有节点的隐藏状态。这里，c0，1表示是否已经执行了图形卷积。图卷积可以被写为相邻矩阵和隐藏状态矩阵的矩阵乘法。Ht的计算如下：Ht=As·Ht，（1）图3显示了一个关系。注意，并非每对节点都是连接的。一对节点（x，y）被视为不相关的，如果对应的关节不完全相同，也不连接在人体骨骼中。例如，在图3中，a的节点和z的节点是不相关的。我们表示空间关系图As∈RJ×J，其中J是骨架关节的总数As（i，j）是相邻矩阵中的一个元素，其中H t，H tRJ×M。这里J表示关节的总数，M表示隐藏状态的特征尺寸。具体地，隐藏状态包含卷积前关节的运动特征，即：H t=F t，其中F tRJ×M表示关节运动特征，第t个时间步长。然后，该模块将所有节点的隐藏状态聚合为Commona lityFeatureh<$t，其中t是时间步长i3D…………6334联系我们Sp∈−SpS联合差分模块图3.关节a的空间和时间关节关系图，以及人体骨骼结构。关节b、c、d是关节a的邻居，而关节z与关节a无关。以及c0，1表示是否已经执行了图形卷积。特征聚合是平均池化，其可以被写为：h<$t=1（HtT·1），（2）图4.联合差分模块中的计算。首先，计算关节i和任何相邻关节j然后用A（i，j）对差值进行加权。节理i的聚集特征由其邻域内的加权和形成。关系图A的差异特征Dt由所有关节的聚合特征构造。cNc¯t¯t其中1 =[1，1，...，1]T是一个全一向量。所提出的关节共性模块学习单个关节的运动（在卷积之前）和关节邻域的运动（在卷积之后），其以更小和更大的粒度描绘局部运动。3.2. 联合邻域中的学习协调将差异特征ds和dp用于描述运动邻里之间的差异。为了计算关节i的差异特征，我们首先计算关节i与其每个邻居j之间的运动差异。运动差异由As（i，j）和Ap（i，j）中的权重参与。然后关节用加权和法对邻域内的运动差异进行加权在当前时间步长t处的所有关节的聚合邻域差形成矩阵Dt除了联合邻域的一般运动之外，动作协调对于动作评估也很重要相邻关节之间的运动差异很大，表明缺乏协调。我们引入一个关节Dp。示出了Ds在图4中。Dt和Dt的计算可以写成如：Σ差异模块，学习每个关节的运动差异，比较其空间和时间的邻居。对于某个关节，我们现在不仅考虑其相邻关节在当前时间步的运动，而且还考虑Dt（i，m）=Dt（i，m）=（As（i，j）·（F t（i，m）-F t（j，m）·wj，JΣ（Ap（i，j）·（F t（i，m）−F t−1（j，m）））·wj，J上一个时间步的运动。出于上述目的，我们引入时间关系图来建模跨两个imme的联合关系1≤i，j≤J，1≤m≤M，（三）放大时间步长。我们将时间关系图的邻接矩阵表示为Ap，其中ApRJ×J。时间关系图还对相邻关节之间的关系进行Ap（i，j）的元素表示第i个joint（在前一时间步t-1）具有第jjoint（在当前时间步t）。与A类似，相邻的MA-p也是非负的，是可以学习的。可训练权重在训练开始时在[0，1）上随机初始化。其中，Ft−1是时间步t1（前代）的联合特征，Ft是时间步t（前代）的联合特征。我们使用Ft（i，m）表示第i个关节的关节特征的第m个维度，这是一个实数。同样，J是关节的总数，M是关节特征的尺寸。邻域聚合中的权重表示为wj，其是可学习的，并且表示关节j对其他关节的影响以用于动作评估。然后，通过均值池化来融合每个关节的聚合运动差异，以形成差异因子关节差异模块学习运动差异而d<$t，也就是d<$t可以写成：在空间关系图和时间关系图上，每个关节与其相邻关节的距离。把它拿出来-p sd<$t=1（DtTsNs·1），（四）空间关系时间关系基于图的联合关系人类骨骼C一. ... ..一个dBz联合联合联合关节特征部关系图（-接头i）X接头ji与j的关系特征联合加权和i的差异i的差异从j到它的邻居合计差额联合国i的差异矩阵D6335KCSp·∈我我我我Jpi0 1s跳水体操跳马滑雪同步潜水10米图5.姿态估计结果的示例。表1.我们模型的结果与最先进的方法和我们的基线进行了比较我们的模型达到了最先进的性能，并且在六个动作中的每一个动作中都优于基线。在哪里dt ∈RM是时间步长t的差分特征。d′t的计算与d′t的计算相同。p s3.3. 评估其表现回归模块。在下文中，我们将介绍用于计算评估结果的回归模块。输入到回归模块的要素是整个场景视频特征eqt∈RM、共性特征（ht）和表2.烧蚀研究显示了模型中各组分的贡献联合共性模块和联合差异模块都有助于模型性能。特征编码器和特征池层在我们的方法中是必要的，用于融合学习的特征。差异特征（d′t dt）。我们使用全场景特征，因为运动员更具体地说，首先将特征编码为特征编码。输入特征ut可以是qt、h<$t、h<$t、d<$t或d<$t。编码过程写成ut=Ci（ut），（5）其中S（）是回归函数，并且SNR是视频的评估结果。视频被分成t个片段，并且对于每个片段给出部分评估结果。优化. 我们在训练过程中利用MSE损失，以及正交正则化项（其中ii，权重0.8）和L2正则化项（权重其中，Ci是编码函数，并且ut是对应的0.1）上的关系图。正在启用编码功能。其次，它们通过要素池层聚合为了形成整体特征VT，Σ4. 实验我们首先描述我们vt=αi·ut+βi，（6）我模型，然后我们提出了评估结果的六个奥运行动与基线，并分析了控制，其中，αi是特征u的标量，βi是相应的偏差。为了减少不同特征之间的冗余，我们在训练期间在特征池层中应用正交正则化项正交正则化被写为：对每个模块进行消融研究。我们还解释了我们的模型的鲁棒性，姿态估计方法和扩展我们的方法，以自我为中心的手术任务。最后，我们提出了我们的方法的定性结果。4.1. 实现细节RO= Σi、jγ·（u·t·u（t），（7）数据预处理。我们提取人类的姿势并结合-使用基于Mask的姿态估计方法对盒子进行RCNN [12].示出了姿态估计结果的示例其中（u_t，u_t）是要正交化的一对特征，并且在图5中。我们利用在Kinetics上预先训练的I3D [2]来执行，描述RGB和光流的联合特征（通过γ是预定义的系数。最后给出了两个全连通层的评估结果。总体评估结果由下式给出Σs=S（vt），（8）不不跳水体操跳马滑雪滑雪板同步.3m同步。10mAvg. Corr.Pose+DCT [24] 0.5300––––––ST-GCN [33]0.32860.57700.16810.12340.66000.64830.4433C3D-LSTM [21] 0.60470.56360.45930.50290.79120.69270.6165C3D-SVR [21] 0.79020.68240.52090.40060.59370.91200.6937整个场景0.63390.68720.51790.50530.87830.88320.7226整体+贴片0.70430.67580.57830.45470.85470.87660.7229我们0.76300.73580.60060.54050.90130.92540.7849跳水体操跳马滑雪滑雪板同步. 3m同步。10mAvg. Corr.我们的（满）0.76300.73580.60060.54050.90130.92540.7849无共性0.70200.71660.52220.51170.86320.90730.7423无差异0.74690.70070.61910.49680.86510.87640.7455无空间关系0.71930.65120.50590.47520.87250.88130.7229无时间关系 0.72730.64900.51860.52030.88240.90490.7423无功能池0.72880.73490.55040.45280.86400.90320.7451不带特征编码器 0.65040.67550.30880.32930.84210.82680.6512全景（基线） 0.63390.68720.51790.50530.87830.88320.72266336TV-L1算法[22]）。全场景特征由整幅图像获得，关节运动特征由关节周围裁剪的局部块获得。我们将视频分为10段，在每段中均匀采样出16帧作为I3D6337×××主左主右4.2. 定量结果奥林匹克的行动。我们对AQA-7数据集[20]的六个动作进行了评估，这些动作都是从奴隶左派奴隶权利夏季和冬季奥运会，包含1106个视频。我们遵循[20]的实验设置和前，图6.手术动作关系图。基线我们的：AlphaPose我们的：Mask-RCNN0.63390.75580.7630表3.姿态估计方法的鲁棒性。我们的模型在两种姿态估计方法上都有性能增益。结果表明，我们的模型是鲁棒的姿态估计方法。包括蹦床，其注释尚未发布。[24][25][26][27][28][29]Gymvault由[21]收集，而其他四个动作首次发表于[20]。我们在[20]中遵循了训练和测试的划分。评估指标。为了与现有文献[24，21，20]保持一致，斯皮尔曼-1至1，越高越好），它显示了两个系列之间的等级相关性，用于评估预测与实测地面实况评估之间的相关性结果它被定义为ρ=πi（pi−p<$）（qi−q<$）（pi−p<$）2得双曲余切值.我我表4.通过四重交叉验证，将我们的模型结果与最先进的方法和我们在JIGSAWS数据集上的基线进行比较网络我们通过左右翻转来增强视频。奥林匹克委员会公布的地面实况分数被归一化为0-100，作为我们评估模型的监督。更多细节可以在我们的档案材料中找到。模特训练所有模型都使用Adam Op- timizer进行训练，批量大小为64。我们利用{1 e-4，1 e-5和1 e-6}的循环学习率[27]，从1 e-4开始，每500次改变一次。在实现中， C1是具有ReLU激活的形状400 512的FC层。然后，评分模块中的第一个FC具有形状512 128，具有ReLU激活，并且第二个FC是形状128 1的线性层。γ设定为0.8。为了稳定的训练，我们在多个阶段优化权重。首先，我们分别训练基线分支（图2中的橙色）、联合差分模块（图2中的蓝色）和基于到目前为止学习的A在此阶段，不包括特征池层，也不保存回归块。所有分支都经过4500次迭代的训练。然后我们根据前一阶段的权重训练完整模型;包括特征池化层，并重新初始化回归块。第二阶段运行3000次迭代，而加载的权重在前500次迭代中是固定的。为了公平比较，我们加载了1500次迭代的全场景检查点的权重p及q分别表示两个数列的排名动作之间的平均斯皮尔曼与最先进的方法和我们的基线进行比较。表1显示了我们的模型对六个奥运行动的结果，并与最先进的方法进行了比较。我们使用[24，21]中提出的方法作为当前最先进的六个动作的动作评估性能。由于Pirsiavash[24]只对潜水动作进行了实验，我们只在潜水中展示了他们的结果我们的建议优于所有最先进的方法和基线。与C3 D-SVR 方法 [21]相比，我们的模型在除Diving之外的所有方面都取得了更好的性能，平均提高了0.0912。我们的模型的成功部分是因为我们的方法基于视频特征提取中的可扩展I3D [2]模型，部分是因为使用我们的图建模来评估动作性能。因此，我们还评估了两个基线使用I3 D的视频特征提取与-出使用我们的基于图形的建模，即。一种方法仅使用整个场景的I3 D特征来评估动作性能，另一种方法使用具有均值池的整个场景和局部块特征两者。与两个基线相比，我们的方法在每个动作上都取得了更好的性能，结果表明，我们基于图的联合运动学习为动作评估提供了显着的改进。所提出的方法也优于ST-GCN [33]（用我们的回归模块替换分类层），显示了我们的图建模对行动评估的有效性消融研究。在表2中，我们给出了一个在这个过程中。我们将最终模型（+3000步骤）与4500次迭代的全场景模型和4500次迭代的整体+补丁模型（在表1中表示为按任务消融研究。我们评估个体的控制力-联合共性模块、联合差异模块、特征池化层和特征编码器的部分。我们尝试从缝合缝针通过打结Avg. Corr.ST-GCN [33]0.310.390.580.43TSN [6]0.340.230.720.46全场景0.090.100.150.11关节运动0.170.250.550.34整体+关节0.170.370.730.46我们0.360.540.750.576338节理的空间关系节理裂隙的时间关系图7.可视化Gymvault的学习关系图我们可视化了空间关系图的相邻矩阵（左侧）和时间关系图的相邻矩阵（右侧）。如图所示，在一个时间步长内，我们的体操跳马评估模型非常重视一些关键关节之间的关系，如髋关节，肩关节和膝关节。我们的模型非常关注同一关节和肩膀从上一个时间步的运动。我们的完整模型平均而言，删除每个组件会导致模型性能下降。去掉联合公共模块后，性能平均下降0.0426.如果去掉联合差分模块，性能也下降了0.04左右。这表明联合共性模块和联合差异模块都有助于我们模型的性能。不过，在某些行动中也有一些例外。在滑雪中，仅使用关节共性模块已经取得了良好的效果，因为滑雪的评估更关注身体部位的总体运动而不是运动差异，因为所有身体部位的运动都具有相似的高速度。此外，当我们删除空间关系（-0.062）或时间关系（-0.0426）时，结果会下降。这表明，空间和时间关系对于行动评估至关重要。此外，重新移动特征池层和特征编码器会导致性能下降超过0.039。每个分支的特征具有不同的分布。它们需要在特征学习时映射到共享空间。在我们的评估框架中，编码器和特征池层都是必要的。对姿态估计方法的鲁棒性。除了基于Mask-RCNN [12]的姿态估计方法外，我们还基于AlphaPose [8]在Diving上评估了我们的模型。基于两种姿态估计方法的模型的评估结果正如我们所看到的，我们的方法在两种姿态估计方法上都有改进使用AlphaPose，我们的方法在相关性上获得了0.1219的增益使用Mask-RCNN，我们的方法的性能增益为0.1291。这表明我们的方法对两种姿态估计方法都具有鲁棒性。自我中心手术视频的扩展。此外，我们还在JIGSAWS数据集[9]上评估了我们的模型，该数据集包含关于三种手术活动的以自我为中心的视频。JIGSAWS数据集包含由左摄像机和右摄像机捕获的立体声记录，我们将左视图和右视图记录视为单独的样本。我们将主工具操纵器（Masters）和患者侧操纵器（Slaves）视为节点，并提取作为局部特征的3D动力学。图6显示了手术操作的关系图。我们执行四重交叉验证，如[6]中所做。结果如表4所示，再次证明了我们的模型实现了更好的性能4.3. 定性结果关系图。在图 7 中，我们可视化了我们的模型在Gymvault上学习的关系图Gs和Gp的As和从学习到的As可以看出，我们的模型更加关注肩部、臀部和膝盖之间的细节运动。这并不奇怪，因为它们是行动分析中的传统关键点。从已知的Ap中，我们可以看到主对角线（实线）周围的位置颜色较深。我们可以看到，我们的模型非常重视同一关节在前一个时间步的运动，这与我们的认知是一致的，即判断一个动作的执行在分析相关关节时，我们的模型也非常重视肩部结果非常有趣，因为它们表明我们6339良好的着陆更好我们全场景失败的着陆我们全场景更糟图8.我们的模型在两个体操跳马案例中的动作评估结果与全场景基线的结果。我们的模型的评估结果表明，良好的行动表现（绿色）和缺陷（红色）。我们的模型进一步给出了对关节的评估结果，显示了最好和最差性能的关节。最好的颜色。评估当前的联合运动。在评价各关节的运动时，我们重视多个锚关节的同步运动，以及同一关节和肩部的先前细粒度的评估结果。在图8中，我们显示了我们的模型的评估结果与全景基线的评估结果的比较。我们提出了我们的模型在两个Gymvault案例上的动作我们还展示了得分最高和最低的关节我们通过仅保留该关节在共性和差异特征处的特征，而不是将所有关节的特征汇集在一起来获得某个关节的评分（等式2和等式4）。我们可以看到，上面的运动员在这里，我们的模型不仅在整个着陆过程中给出了一个分数，而且还成功地检测到了性能最好的关节。在最后两个时间步，我们的模型给最高分的左肩。相反，整个场景基线在最后一个时间步长处未能识别出良好这是因为全场景方法很少关注人的姿势。在第二种情况下，运动员在着陆时摔倒。她在第二个时间步也表现不佳。这也可以通过我们的模型和整个场景基线来检测。在第二个时间步，我们的模型给不稳定的右髋关节最低的分数在完成姿势时，我们的模型对右肘弯曲异常的评分最低5. 结论在本文中，我们提出了一个新的模型来评估的行动性能，通过基于图的联合关系建模。我们建立了关节可训练的关节关系图，并在其上分析了关节运动。我们提出了两个新的模块，关节共性模块和关节差异模块，用于身体部位内的关节运动学习该方法实现了国家的最先进的结果对奥运会的行动绩效评估，并可以帮助解释的行动评估过程。确认这项工作得到了部分支持国家重点研发计划（ 2018YFB1004903 ），国家自然科学基金（U1611461），广东省科技创新领军人才（2016TX03X157）、广州研究项目（201902010037）和英国皇家学会牛顿高级院士（NA150459）。我们感谢Hong-Xing Yu提供有用的反馈和建议。引用[1] Gedas Bertasius ， Hyun Soo Park ， Stella X Yu ， andJianbo Shi.我是个球员吗？第一人称视频中的篮球表现评估。在IEEE计算机视觉国际会议论文集，第2177-2185页[2] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集，第6299-6308页6340[3] OyaCeliktutan ， C e yhunBurakAkgul ， ChristianWolf ，andB u？lentSanku r. 基于图形的身体运动动作分析。在第一届ACM国际医疗保健多媒体索引和信息检索研讨会论文集，第23-32页。ACM，2013年。[4] Xinlei Chen，Li-Jia Li，Li Fei-Fei，and Abhinav Gupta.它是超越卷积的交互式视觉推理。在IEEE计算机视觉和模式识别会议论文集，第7239-7248页，2018年[5] Bo Dai，Yuqi Zhang，and Dahua Lin.用深层关系网络检测视觉关系。在IEEE计算机视觉和模式识别会议论文集，第3076-3086页[6] 黑兹尔 · 道蒂迪玛 · 达曼沃特里奥 · 马约尔 · 奎瓦斯Whos’best，whos’best：使用深度排名的视频中的技能确定。IEEE计算机视觉和模式识别，2018年。[7] 黑兹尔·道蒂沃特里奥·马约尔·奎瓦斯和迪玛·达曼利与弊：用于长视频中技能确定的等级感知时间注意力。IEEE计算机视觉与模式识别，2019年。[8] 方浩树，谢淑琴，戴玉荣，陆策武。区域多人姿态估计。在IEEE计算机视觉国际会议论文集，第2334-2343页，2017年[9] Yixin Gao，S Swaroop Vedula，Carol E Reiley，NargesAh-midi ， Balakrishnan Varadarajan ， Henry C Lin ，Lingling Tao ， LucaZappella ， BenjamınBe´ja r ， D avidDYuh ， etal.Jhu-isi 手势和技能评估工作集（拼图）：用于人体运动建模的手术活动数据集。在MICCAI工作坊：M2CAI，第3卷，第3页，2014年。[10] Srujana Gattupalli，Dylan Ebert，Michalis Papakostas，Fillia Makedon，and Vassilis Athitsos. Cognilearn：一个基于深度学习的认知行为评估界面。第22届智能用户界面国际会议论文集，第577-587页。ACM，2017。[11] 安德鲁·S·戈登自动视频评估人的表现。在AI-ED的会议记录中，第16-19页[12] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页[13] Ashesh Jain ， Amir R Zamir ， Silvio Savarese ， andAshutosh Saxena.结构-rnn：时空图的深度学习。在IEEE计算机视觉和模式识别会议论文集，第5308-5317页[14] Mar k oJug，JanezPer sZeros，Bran k oD ezZeros man，andStani s l a v Kov a cic. 人类活动协调性的基于目标的评估计算机视觉系统国际会议，第534-543页。施普林格，2003年。[15] Qiuhong Ke ， Mohammed Bennamoun ， Senjian An ，Ferdous Sohel，and Farid Boussaid.基于骨架的3d动作识别的学习剪辑表示 IEEE Transactions on ImageProcessing，27（6）：2842[16] 克里斯汀妈妈和斯坦尼斯拉都很高兴。利用贝叶斯网络对篮球有组织活动的自动评价2007.[17] Jun Liu，Amir Shahroudy，Dong Xu，Alex C Kot，andGang Wang.基于信任门时空lstm网络的骨架动作识别IEEEtransactionsonpatternanalysisandmachineintelligence，40（12）：3007[18] Anand Malpani，S Swaroop Vedula，Chi Chiung GraceChen和Gregory D Hager。基于成对比较的客观评分，用于外科手术任务中节段的自动技能评估。在计算机辅助干预中的信息处理国际会议上，第138Springer，2014.[19] Adeline Paiement，Lili Tao ，Sion Hannuna，MassimoCam- plani，Dima Damen，and Majid Mirmehdi.从骨架数据在线评估人体运动质量。英国机器视觉会议，第153-166页。BMVA Press，2014.[20] Paritosh Parmar和Brendan Tran Morris。多个行动的行动质量评估。arXiv预印本arXiv：1812.06367，2018。[21] Paritosh Parmar和Brendan Tran Morris。学习奥运项目得分。在IEEE计算机视觉和模式识别研讨会会议中，第20-28页[22] JavierSa'nchezPe'rez，EnricMeinhardt-Llopis，andGabrieleFacciolo.Tv-l1光流估计在线图像处理，第137-150页[23] Huy-Hieu Pham ， Louahdi Khoudour ， Alain Crouzil ，Pablo Zegers，and Sergio A Velastin.学习使用深度卷积神经网络从新的基于卷积的表示中识别3D人类动作。arXiv预印本arXiv：1812.10550，2018。[24] Hamed Pirsiavash Carl Vondrick和Antonio Torralba评价行动的质量。欧洲计算机视觉会议，第556-571页。Springer，2014.[25] Franco Scarselli、Marco Gori、Ah Chung Tsoi、MarkusHa-genbuchner 和 Gabriele Monfardini 。图神经网络模型。IEEE Transactions on Neural Networks，20（1）：61[26] YachnaSharma ， VinayBettadapura ， ThomasPlo¨ tz ，NilsHammerla ， Sebastian Mellor ， Roisin McNaney ，PatrickOlivier，SandeepDeshmukh，AndrewMcCaskie，and Irfan Essa.使用顺序运动纹理的基于视频的osats评估。佐治亚理工学院，2014年。[27] 莱斯利·史密斯训练神经网络的周期学习率。2017年IEEE 计算机视觉应用冬季会议（ WACV ），第464IEEE，2017年。[28] Kalpit Thakkar和PJ Narayanan。用于动作识别的基于部分的图卷积网络。2018年英国机器视觉会议[29] 王小龙和阿比纳夫古普塔。视频作为时空区域图。在欧洲计算机视觉会议（ECCV）的会议记录中，第399-417页[30] Nicholas Watters 、 Daniel Zoran 、 Theophane Weber 、Peter Battaglia、Razvan Pascanu和Andrea Tacchetti。视觉交互网络：从视频学习物理模拟器神经信息处理系统的进展，第4539-4547页，2017年6341[31] 王梦翔，黄建强，齐贤彪，华贤生，张磊.基于同心超球面特征嵌入的身份识别。 arXiv 预印本 arXiv ：1804.08866，2018。[32] 徐成明，付延伟，张兵，陈子田，姜玉刚，薛向阳.学着给花样滑冰运动录像打分。arXiv预印本arXiv：1802.02774，2018。[33] 严思杰，熊元军，林大华。用于基于骨架的动作识别的空间时间图卷积网络。第三十二届AAAI人工智能会议，2018。[34] Zhengyuan Yang ， Yuncheng Li ， Jianchao Yang ， andJiebo Luo.基于时空视觉注意的骨架图像序列动作识别。IEEE Transactions on Circuits and Systems for VideoTechnology，2018。[35] 姚邦鹏和李飞飞。通过对物体和人体姿势的相互背景进行建模，识别静止图像中的人 - 物体交互。 IEEETransactionsonPatternAnalysisandMachineIntelligence，34（9）：1691[36] 张强和李宝新。基于视频的运动专家分析在基于模拟的外科手术训练中使用分层dirichlet过程隐马尔可夫模型。 2011 年国际 ACM 医学多媒体分析和检索，第19ACM，2011年。[37] 张强和李宝新。手术训练中基于视频的运动技能评估的相对隐马尔可夫模型。 IEEE transactions on patternanalysis and machine intelligence，37（6）：1206[38] Bo

下载后可阅读完整内容，剩余1页未读，立即下载