没有合适的资源?快使用搜索试试~ 我知道了~
1110150无监督的分层舞蹈视频识别的3D姿势估计*0Xiaodan Hu,Narendra Ahuja伊利诺伊大学香槟分校电气与计算机工程系0{xiaodan8,n-ahuja}@illinois.edu0摘要0舞蹈专家通常将舞蹈视为信息的层次结构,涵盖了低级别(原始图像、图像序列)、中级别(人体姿势和身体部位运动)和高级别(舞蹈类型)。我们提出了一种分层舞蹈视频识别框架(HDVR)。HDVR估计2D姿势序列,跟踪舞者,然后同时估计相应的3D姿势和3D到2D成像参数,而不需要3D姿势的真值。与大多数仅适用于单个人的方法不同,我们的跟踪方法适用于多个舞者,即使存在遮挡。从估计的3D姿势序列中,HDVR提取身体部位运动,并从中得出舞蹈类型。得到的分层舞蹈表示对专家来说是可解释的。为了克服噪声和帧间对应的不确定性,我们在时间上强制执行空间和时间运动平滑性和光度连续性。我们使用LSTM网络从中提取3D运动子序列,从而识别舞蹈类型。在实验中,我们确定了154种运动类型,涵盖了16个身体部位,并组装了一个新的伊利诺伊大学舞蹈(UID)数据集,包含1143个视频剪辑,涵盖30小时,带有运动和类型标签。我们的实验结果表明,我们的算法优于最先进的3D姿势估计方法,这也提高了我们的舞蹈识别性能。01. 引言0舞蹈代表了一种特殊的人类活动类型。本文的目标是开发算法来理解舞蹈视频。我们将身体动作的估计与其作为舞蹈的一部分的可行性相结合。这使得我们不仅可以根据数据的约束来解释舞蹈视频,还可以根据领域知识的约束来解释。还有一些提出的方法也专注于0*感谢海军研究办公室在资助号N00014-20-1-2444下的支持,以及美国农业部食品和农业国家研究所在资助号2020-67021-32799/1024178下的支持。0舞蹈视频[1-6]。其中大部分依赖于Kinect传感器获取深度信息[1,2]。[3]通过提取以身体关节位置为中心的补丁,并使用LSTM网络进行分类,对印度舞蹈进行分类。[4]提出通过执行拉班运动分析(以舞蹈领域的身体、努力、形状和空间构建为基础),然后从姿势序列中描述人体运动。[5]比较了使用三种不同表示(原始图像、光流和多人姿势数据)对其提出的舞蹈数据集的影响,证明视觉信息不足以对运动密集类别进行分类。有几种行为识别方法首先估计姿势[7-9]。[7]创建了一个基于姿势正确性的个性化运动训练辅导系统。[8]通过改进姿势估计准确性,使用额外的空间和时间约束来提高动作识别性能。然而,[7,8]仅估计2D姿势,当运动沿着视角方向时会导致困难和模糊。[9]估计2D和3D姿势以及图像特征,以预测所有三者的动作。[7-9]将动作识别的表示限制为仅包含姿势序列,而不包括可能定义动作的任何更高级语义。此外,这些方法还需要在训练视频中进行姿势注释。[6]将RGB和光流值嵌入到一个两合一流网络中,以更高效地进行舞蹈类型分类。除了这些工作中使用的姿势和光流等特征外,本文还使用舞蹈领域的表示来调整特征分析,使其适应舞蹈而不是通用的。0当人们跳舞时,他们按照精心编排的3D运动序列进行,其中每个运动都是由更简单的运动层次组成,最终形成基本运动。每个基本运动由代表特定舞蹈模式的一系列姿势组成。为了简洁起见,接下来我们将简称基本运动为运动。我们在图3中列出了16个主要身体部位e∈E的运动,遵循Labanotation[10],这是一种用于记录和存档人体动作的著名符号系统。然后在表1中,我们列出了每个身体部位e∈E的基本运动ye∈Ye,同样遵循[10]中的定义,以描述舞蹈领域中的运动同质性和层次。我们的舞蹈识别模型采用了舞蹈专家使用的这种层次结构,从舞者的3D姿势序列开始,将关节位移的子序列组合成舞蹈运动,并从关节运动序列中推断出舞蹈流派。为了帮助模型将姿势序列分割为基本运动,我们手动为UID数据集中的一部分视频的每个身体部位的基本运动起始和结束位置进行了注释。我们的框架以原始舞蹈视频序列{It}T-1t=0作为输入,估计每帧It的姿势ˆpt,根据过去的姿势序列识别每个身体部位e的运动ˆyet(跨多个帧),然后从运动序列中预测舞蹈流派ˆgt。实验证明,我们的层次化特征分析是识别舞蹈的有效方法,我们的方法在F-score上优于现有技术。本文的主要贡献如下:list the basic movements ye ∈ Y e for each body part e ∈ E,again following [10] and defined in terms of homogeneityof motion direction, and level which are frequently usedto describe the dance in dance domain. Our dance recog-nition model adopts this hierarchy used by dance experts,which starts with the 3D pose sequence of the dancer, com-bines subsequences of joint displacements into dance move-ments, and finally infers dance genre from the sequences ofthe movements of joints. To help the model segment thepose sequence into the basic movements, we manually an-notate the starting and ending positions of such movementsfor each body part for a subset of videos in the UID dataset.Our framework takes a raw dance video sequence {It}T −1t=0as input, estimates poses ˆpt for each frame It, recognizesthe movement ˆyet (over multiple frames) of each body part ebased on its past pose sequence, and then predicts the dancegenre ˆgt from the movement sequence. Experiments showthat our hierarchical feature analysis is an effective way torecognize dance and our method outperforms state-of-the-art on F-score.The main contributions of this paper are as follows:110160图1.模型架构概述。给定一个视频帧序列{It}T-1t=0,模型以层次化方式分析内容,从低层(姿势估计和跟踪)到认知层(运动和舞蹈流派识别)。输入序列{It}T-1t=0形成第一(底层)层。在第二层,我们的算法同时估计每个舞者i(i =0,...,N-1)在每个帧上的2D姿势ˆpit和3D姿势ˆPit,以及相机投影参数。我们的算法可以在遮挡情况下工作,例如舞者之间的遮挡。在第三层,根据先前帧估计的姿势,识别每个身体部位e∈E(定义在一系列帧上)的舞蹈动作ˆyet,并估计其位置,例如其起始帧t和长度。在第四层,根据所有身体部位的动作{ˆyet}e∈E,识别舞蹈流派ˆg。0•我们提出了第一个舞蹈视频理解框架,该框架以层次化方式分析视频 -从视频帧的底层,通过人体姿势的中间层,到运动和相关舞蹈流派的最高层。0•我们的算法可以在存在遮挡的情况下跟踪并输出每个舞者在每帧中的2D姿势。0舞者之间的关系。0•我们提出了一种无监督的3D姿势估计算法,该算法从估计的2D姿势序列开始,使用单个摄像头同时迭代更新2D姿势、3D姿势和3D到2D投影参数,而不使用这些姿势或参数的真值。我们的3D姿势网络通过结合34个自由度人体骨骼模型的运动运动约束和时间平滑性,实现了最先进的性能。0•我们整理了一个大型舞蹈视频数据集,其中包含每个视频帧以及每个动作的姿势真值,我们将与社区共享以进行进一步的探索。02. 计算方法0图1描述了我们在舞蹈视频识别中采用的方法及其形成的层次结构。我们的方法可以总结为以下几个步骤:步骤1:对于每个输入帧It,模型估计出出现在It中的舞者i的2D姿势pit。模型通过舞者的边界框{Bit}T-1t=0在整个视频中跟踪舞者的近似位置{i}N-1i=0。步骤2:在每个帧上,模型提供与每个跟踪框Bit相关联的舞者的2D姿势pit的估计ˆpit(第2.1节)。步骤3:然后,模型通过使用无监督的3D姿势将估计的2D姿势ˆpit估计为3D姿势ˆPit。110170身体部位 运动示例 标签数量0头部 向上转头;向下转头;向左转头;向右转头;头部旋转 7 颈部 颈部向左移动;颈部向右移动;颈部旋转;头部保持静止;未知5 左肩膀 左肩膀向上移动;左肩膀向下移动;左肩膀旋转 5 左前臂 左臂向上移动;左臂向下移动;左臂向左移动 11 左上臂左臂向上移动;左臂向下移动;左臂向左移动 11 躯干 躯干弯曲;躯干伸直;躯干向左转;躯干向右转;躯干摆动;翻筋斗 10 臀部臀部挥动;臀部八字形;臀部旋转;臀部向上移动;臀部向下移动;臀部保持静止 10 左小腿左腿向上移动;左腿向下移动;左腿向左移动 15 左大腿 左腿向上移动;左腿向下移动;左腿向左移动 15 左脚左脚伸展;左脚弯曲;左脚放松;未知 40表1. 每个身体部位运动标签的选定示例。为了节省空间,表中仅显示了左侧身体部位的运动。右侧身体部位的运动与左侧相同。总共有16个身体部位和154个运动标签。0估计方法(第2.2节)。步骤4:模型使用LSTM网络识别每个身体部位e的运动{ˆyet}T-1t=0,其中e∈E(例如,头部,躯干等)从所有连接到身体部位e的关节j∈Je的轨迹{{ˆPjt}j∈Je}T-1t=0,其中Je�E(第2.3节)。我们将任何给定的舞蹈状态表示为一组身体部位配置,并将整个舞蹈表示为这样一组序列。步骤5:为了识别,我们首先将所有身体部位的运动{{ˆyet}e∈E}}T-1t=0连接起来,并将其输入到LSTM网络中以识别舞蹈类型ˆg(第2.4节)。本节的其余部分介绍了这个层次结构的组成部分。02.1. 通过跟踪进行2D姿势估计0算法1:对象跟踪0输入:视频帧序列{It}T-1t=0输出:第i个舞者的边界框序列{(xit, yit, wit,lit)}T-1t=0初始化:选择要跟踪的N个舞者的边界框(x i 0, yi 0, w i 0, l i 0) 当有新帧I t 可用时执行0对第i个舞者进行0通过LDES方法获得(x i t, y i t, w i t, l i t)如果与其他人没有重叠 则0存储第i个舞者的直方图和速度0舞者结束 如果发生重叠并且跟踪失败 则0估计重叠结束的时间如果重叠结束 则0重新定位边界框 结束 结束 结束0为了估计2D(或3D)姿势,我们估计2D(或3D)0算法2:基于跟踪的2D姿势估计06 输入:视频帧序列{It}T-1t=0和边界框序列{Bit}T-1t=0 = {(xit, yit, wit,lit)}T-1t=0的第i个舞者 输出:第i个舞者的姿势序列{ˆpit}T-1t=00舞者 当有新帧I t 可用时执行0估计姿势/ /0根据直方图匹配从与边界框B it重叠的C个姿势中选择姿势ˆc 结束 结束0每个身体关节的坐标。经典的姿势估计方法,如图像结构框架和可变形部件模型,在确定身体关节位置时主要依赖于手工设计的特征。最近,基于深度学习的方法在解决多人姿势估计问题方面取得了重大突破(例如,如何为不同的人群分组关键点)。它们可以分为自上而下[11,12]和自下而上[13-15]两种。前者使用检测器首先定位人物实例,然后定位其各个关节;后者首先估计图像中的所有关节位置,然后将关节分配给相应的人物。尽管这些方法提供了优越的姿势估计,但它们在我们的任务中存在两个主要缺点。首先,大多数姿势估计方法不能在存在多个舞者时通过视频跟踪舞者,因为它们从单个图像中执行姿势估计,忽略了时间信息。此外,这些方法主要在大型数据集上进行训练,其中舞蹈部分非常小,只有一个人,姿势变化有限,背景清晰。因此,无法保证在真实世界的舞蹈视频上的准确性。我们提出的方法可以跟踪舞者。110180选择的舞者,检测估计错误并自动纠正它们。对象跟踪:如算法1所述,我们的跟踪算法是基于LDES跟踪器[16]构建的。由于舞者之间的遮挡是一个严重的问题,我们的算法主要解决这个问题。我们的算法有以下三个阶段:(1) 使用LDES跟踪器跟踪每个第i个舞者0舞者当舞者与其他舞者没有重叠时,保持颜色直方图 h i t和边界框 B i t = ( x i t , y i t , w i t , l i t ) for the dancer.(2)通过检测跟踪器的失败来检测重叠的发生,这表明重叠前后的运动方向存在显著差异。(3)从重叠可能结束的时间和位置开始预测,根据重叠开始前观察到的位置和速度。由于在预测帧中可能检测到多个接近预测位置的舞者,选择提供最佳直方图匹配的舞者,并相应地更新 h i t 和 B i t。基于跟踪的2D姿势估计:如算法2所述,我们使用OpenPose方法[15]获得初始2D姿势。在我们获得每个舞者 i在重叠结束时的边界框 B i t后,该框可能与多个框同时重叠,表示多个2D姿势估计结果。我们选择与前一帧中看到的姿势 ˆ p i t 最相似的姿势 ˆp i t (算法2)。02.2. 3D姿势估计0算法3:3D姿势初始化0输入:舞者的2D姿势序列 { p t } N − 1 t =0 输出:舞者的3D姿势序列 { ˜ P t} N − 1 t =0 设置时间窗口大小为 2∆ 将总段数表示为 s = N02∆0对于 t = ∆ 到 N − ∆0对0尝试新的DH参数种子 Λ k 和透视投影参数 ω k0对于 i = t − ∆ 到 t + ∆0生成3D姿势 ˆ P k i = G (Λ k ) 估计2D姿势 ˆ p k i= Ψ( ˆ P k i ; ω k ) 计算误差 e k i = || ˆ p k i − pi || 2 2 优化 Λ � k , ω � k0结束 结束 结束 选择与种子k相对应的3D姿势 k � = argmin ˜ k0将 t +∆ i = t − ∆ e ˜ k i作为初始化姿势0算法4:3D姿势估计0输入:视频帧序列 { I t } T − 1 t =0 ,2D姿势序列{ p t } T − 1 t =0 和初始3D姿势序列 { ˜ P t } T −1 t =0 输出:估计的3D姿势序列 { ˆ P t } T − 1 t=0 而新帧 I t 可用时0估计3D姿势 ˆ P t 投影到2D姿势 ˆ p t 计算损失 L = α ( || ˆ p t − ˆp t − 1 || 2 2 + β || ˆ P t − ˆ P t − 1 || 2 2 ) + || ˆ p t − p t || 2 2 + || ˆ P t − ˜ P t || 2 2 更新 ω 2D 和 ω 3D0结束0为了实现使用与专家使用的舞蹈表示形式相似的舞蹈表示形式的目标,我们需要使用3D而不是2D的姿势序列。同样,为了使用舞蹈专家的语言进行识别,我们需要从2D姿势序列中提取3D运动的描述符,这构成了我们方法的下一阶段。从计算上讲,3D姿势包含比2D姿势更多的信息,因此可以更准确地识别舞蹈。然而,从2D姿势预测3D姿势是一个不适定问题,就像其他2D到3D问题一样。最先进的方法[17-19]使用两步流程来解决这个问题:首先从视频帧中检测2D姿势,然后通过学习2D和3D关键点的对应关系来预测3D姿势。[20]提供了一个简单而有效的基准,证明了2D到3D任务可以以非常低的错误率解决。[21]使用对抗训练方法将2D姿势的分布映射到3D姿势的分布。然而,[20,21]从单个2D帧估计的2D姿势中估计3D姿势,忽略了时间连续性信息。[22,23]使用2D关键点的时间对应关系来学习关节角度并预测关节位置。他们通过计算这些关键点与使用估计的3D姿势反投影的关键点之间的距离来计算损失。他们通过逐步改进3D姿势的估计来强制实现这种几何一致性。然而,这些方法基于输入的2D姿势准确的假设。[23]提出了一个2D姿势校正模块,使用一个时间CNN来改进2D初始输入。然而,这假设训练校正模块时有真实的2D姿势可用。这些假设在实践中往往是有限制的,并且对于我们从互联网收集的舞蹈视频来说并不成立。[24]基于跟踪检测来跟踪检测到的2D姿势,然后在贝叶斯框架中恢复3D姿势。然而,如果视频很长或背景发生剧变,他们的MAP估计就不稳健。[25]提出了一种应对这个问题的方法。110190图2.提出的3D姿势估计方法概述。给定一系列视频帧{It}T−1t=0,舞者通过我们的跟踪算法在算法1中进行跟踪,每个舞者的2D姿势{pit}N−1i=0通过我们的基于跟踪的2D姿势估计算法在算法2中进行估计。然后基于2D姿势{pit}N−1i=0,我们初始化他们的3D姿势和相机透视投影参数P�t和ω�2D,如图2(顶部)和算法3所示。最后,我们训练一个神经网络来估计3D姿势{ˆPt}T−1t=0,该网络结合了运动的运动学约束和时空平滑性,如算法4所述。0遮挡。他们首先推断可见身体关节的3D位置,然后使用学习的姿势先验和运动骨骼模型重建遮挡的关节位置。[26]将参数化的人体模型(SMPL)拟合到观察到的图像关键点和线段上,同时还加入了一些额外的约束。然而,[25,26]需要3D姿势标签和/或形状来监督训练,而这些在我们的“野外”视频数据集中是不可用的。[27,28]在没有3D姿势注释的野外图像中估计3D姿势,但它们要求额外的2D姿势数据集或多视图设置。为了避免这些要求和对groudtruth2D姿势的需求,并提高计算鲁棒性,我们提出了一种将3D姿势估计与2D姿势校正相结合的算法,可以同时训练收敛于两个估计值,同时还能一致地估计相机投影参数。我们使用Denavit-Hartenberg(DH)参数Λk={Θk,dk,ak,αk}来表示3D姿势。通过将Λk传递给34自由度运动学模型G,生成3D姿势ˆPki如下:ˆPki=(J0,J1,...,J24)(1)0Jj=G(Θ,d,a,α)=TΘTdTaTαJj−1(2)0其中0TΘTdTaTα=0�cosΘ−sinΘcosαsinΘsinαrcosΘsinΘcosΘcosα−cosΘsinαrsinΘ0sinαcosαd00010�0图3.我们的34自由度数字舞者模型。该模型的DH参数Λ={Θ,d,a,α}的值在附录的表7中列出。关节旋转偏移角θ和骨长b的范围在附录的表8中定义。110200其中TΘ,Td,Ta和TαJj−1是过渡矩阵,Jj是关节j的3D位置。我们使用多个随机选择的种子对{Λ�k,ωk}进行初始化,以样本搜索空间,如图2(顶部)和算法3所示。ωk={fk,ck}是透视投影参数。在帧t,我们对DH参数Λk进行优化,通过比较从生成的3D姿势ˆPt投影的重建2D姿势ˆp=Ψ(ˆPt;ω2D)与2.1中估计的输入2D姿势pi进行优化。0生成3D姿势ˆPki,同时满足以下要求:(a)约束关节旋转偏移角θk,(b)与已知骨长bk一致,(c)2D和3D姿势的时间平滑性。通过训练具有两个部分的损失函数实现:(1)2D姿势和3D姿势的时间平滑性:α(||ˆpt−ˆpt−1||22+β||ˆPt−ˆPt−1||22)。(2)保持3D到2D投影(成像)属性:||Ψ(ˆPt;ω2D)−pt||22。系数α和β选择与误差成反比:误差越大,窗口权重越小。我们还通过在时间窗口上进行平滑来强制保持3D到2D投影参数的一致性。在每个时间步t,我们更新3D姿势ˆPt和投影参数ω3D。从使用不同种子获得的解中,选择提供最小误差的种子对{ˆP�t;ω�2Dt}。如图2(底部)所示,在从3D姿势初始化块中获得初始3D姿势P�t和3D到2D投影参数ω�2Dt之后,我们训练时间卷积网络来学习从输入2D姿势{ˆpt}到3D姿势{ˆPt}的映射。我们使用[17]作为基线网络。在训练过程中,除了在所有时间上保持2D和3D姿势的一致性外,我们还通过以下损失函数强制保持运动的时间平滑性:0L = || ˆ p t − p t || 2 2 + || ˆ p t − p t − 1 || 2 2 + || ˆ P t− P � t || 2 2 + || ˆ P t − ˆ P t − 1 || 2 2 ) (3) 其中 ˆ p t= Ψ( ˆ P t ; ω � 2 D )。详细信息请参见算法4。为了在有限的标记3D地面真实姿势数据可用时进一步提高准确性,我们引入了所提出的姿势估计方法的半监督训练版本。通过使用可用的标记地面真实3D姿势 P t作为目标来训练一个监督损失,而使用剩余的未标记数据来实现方程(3)中的损失。在这里,预测的3D姿势 ˆ P t被投影回2D关节坐标以与2D输入 p t保持一致。类似于[17]中的训练策略,我们在训练过程中同时优化监督组件和无监督组件,标记数据占据批次的前半部分,未标记数据占据0后半部分。02.3. 身体部位运动识别0对于每个身体部位e,我们训练一个基于LSTM的模型来识别其(基本)运动。在训练过程中,输入是与身体部位e连接的所有关节j ∈ J e 的3D姿势序列{{ ˆ p j t } j ∈ J e } T − 1t =0,输出是与e相关联的预测运动标签序列{ ˆ y e t } T −1 t=0。由于这是一个多标签分类问题,也就是说与身体部位e相关联的姿势{ ˆ p j t } j ∈ J e可能同时映射到e的多个运动标签 ˆ y e t,我们使用二元交叉熵(BCE)损失来计算预测的运动{ ˆ ye t } T − 1 t =0与目标运动标签{ y e t } T − 1 t=0之间的损失。在训练过程中,通过最小化这个损失来获得最优模型。在测试过程中,每个e ∈E的训练模型将与e相关联的所有关节的3D姿势序列{{ ˆ p j t} j ∈ J e } T − 1 t =0作为输入,并预测e的运动{ ˆ y e t } T02.4. 舞蹈类型识别0类似于第2.3节中的方法,我们训练一个LSTM模型,将所有身体部位e ∈ E的运动标签序列{{ ˆ y e t } e ∈ E } T − 1 t=0作为输入。我们使用最后一层的最后一个时间步的输出作为舞蹈类型的预测值 ˆ g。作为损失函数,我们使用预测的舞蹈类型 ˆ g与目标舞蹈类型 g之间的交叉熵。我们在补充文档的算法5和算法6中详细描述了运动和舞蹈类型识别。03. 实验03.1. 数据和实验设置0伊利诺伊大学舞蹈(UID)数据集。舞蹈识别面临的一个主要挑战是缺乏训练数据。我们精选了包含9种舞蹈类型(芭蕾舞、肚皮舞、弗拉门戈舞、嘻哈舞、伦巴舞、摇摆舞、探戈舞、踢踏舞和华尔兹)的UID视频数据集,详细信息列在表2中。图4和图5展示了我们数据集中每种舞蹈类型的样本帧和信息。这些视频包含了各种难度的情况,从简单的教程视频(具有干净的背景)到困难的视频,包括互动的舞者、嘈杂的背景和不同的光线。0舞蹈类型9 总时长108,089秒0总剪辑数1143 总帧数2,788,1570最小剪辑长度4秒 每类最小剪辑数30个0最大剪辑长度824秒 每类最大剪辑数304个0表2. UID数据集的特征总结。0评估协议。我们使用广泛使用的平均关节位置误差(MPJPE)(以毫米为单位)来计算110210图4. 伊利诺伊大学舞蹈(UID)数据集中9种舞蹈类型的样本帧。0图5. UID数据集中每个舞蹈类型的剪辑数量和时长分布。0方法 监督级别 额外数据 MPJPE(mm)(↓)0Martinez [20] ICCV'17 有监督 - 110.0 Wandt [21]CVPR'19 有监督 - 323.7 Pavllo [17] CVPR'19 有监督 -77.60Pavllo [17] CVPR'19(�)半监督 否 446.1 我们的半监督 否73.70Zhou [27] ICCV'17 弱监督 是 93.1 Kocabas [28] CVPR'19自监督 多视角 87.4 我们的无监督 否 246.40表3.使用协议1对AIST舞蹈视频数据集[29]进行的3D姿势估计结果比较:在平均每关节位置误差(MPJPE)上。使用基准的2D姿势作为参考(�)。使用不同监督级别的方法通过水平线分隔。我们提出的方法(半监督)在完全有监督的方法中达到了最低的误差。此外,我们的无监督姿势估计方法可以达到与最先进的有监督/半监督方法相同水平的性能。0预测的3D姿势{ˆPt}T−1t=0与目标3D姿势{Pt}T−1t=0之间的平均欧几里得距离。我们使用F-score来衡量我们在UID数据集上的运动和舞蹈识别方法的准确性。实验设置。我们在UID视频数据集和AIST++舞蹈数据集[29]上评估我们的无监督3D姿势估计方法。AIST++数据集包含来自10种舞蹈流派的1,408个多视角舞蹈序列,包含数百个编排,提供3D人体关键点注释和相机参数的10.1M图像,并涵盖9个视角中的30个不同主体。我们使用AIST++的子集进行实验,包含200个视频(0.4M帧)。其中30%的带有真实3D姿势的视频用作有标签数据来训练有监督的方法[17、20、21]和半监督的方法([17]和我们的方法)。10%的视频用于测试。其余的视频样本用作半监督方法的无标签数据。为了与其他工作[17、20、21]保持一致,我们在相机空间中训练和评估3D姿势。在3D姿势初始化组件中,我们使用Adam[35]优化器对算法3中估计的3D姿势进行50个时期的优化。时间窗口大小∆=3,种子数量K=2。在获得最佳的初始3D姿势和相机投影参数(焦距和主点)之后,我们使用[17]作为基准来训练200个时期的3D姿势估计网络。0方法 监督级别 额外数据 MPJPE(mm)(↓)0Martinez [20] ICCV'17 有监督 - 87.3 Zanfir [26] CVPR'18有监督 - 69.0 Wandt [21] CVPR'19 有监督 - 89.9 Pavllo[17] CVPR'19 有监督 - 46.8 Mehta [25] SIGGRAPH'20有监督 - 63.60Pavllo [17] CVPR'19(�)半监督 否 51.6 我们的半监督 否47.30Zhou [27] ICCV'17 弱监督 是 64.9 Rhodin [30] ECCV'18无监督 多视角 98.2 Kocabas [28] CVPR'19 自监督 多视角60.6 Chen [31] CVPR'19 无监督 是 68.0 Kundu [32]ECCV'20 无监督 是 67.9 我们的无监督 否 82.10表4.使用协议1对Human3.6M数据集[33]进行的3D姿势估计结果比较:在S9和S11上的平均每关节位置误差(MPJPE)。使用基准的2D姿势作为参考(�)。根据方法的监督级别,使用五个标记的主体(S1、S5、S6、S7、S8)来训练有监督的方法,使用四个标记的主体(S5、S6、S7、S8)和一个未标记的主体(S1)来训练半监督的方法,使用五个未标记的主体(S1、S5、S6、S7、S8)来训练其他方法(例如无监督方法)。我们提出的方法(半监督)在完全有监督的方法中达到了第二低的误差。在不需要额外的2D/3D数据的情况下,我们的无监督姿势估计方法可以达到与最先进方法相同水平的性能。0点注释和相机参数,共有1010万张图像,涵盖9个视角中的30个不同主体。我们在AIST++的子集上进行了实验,包含200个视频(0.4M帧)。其中30%的带有真实3D姿势的视频用作有标签数据来训练有监督的方法[17、20、21]和半监督的方法([17]和我们的方法)。10%的视频用于测试。其余的视频样本用作半监督方法的无标签数据。为了与其他工作[17、20、21]保持一致,我们在相机空间中训练和评估3D姿势。在3D姿势初始化组件中,我们使用Adam[35]优化器对算法3中估计的3D姿势进行50个时期的优化。时间窗口大小∆=3,种子数量K=2。在获得最佳的初始3D姿势和相机投影参数(焦距和主点)之后,我们使用[17]作为基准来训练200个时期的3D姿势估计网络。03.2. 3D姿势0图6显示了我们的3D姿势方法在UID数据集和AIST++数据集[29]上的定性结果。从估计的3D姿势重建的2D姿势(顶行)与舞者的动作很好地对齐。110220AIST++数据集0UID数据集0帧0 帧10 帧20 帧30 帧0 帧10 帧20 帧300图6. 在AIST++数据集[34]和我们提出的University of Illinois Dance(UID)数据集的样本视频上的可视化结果。顶行显示从估计的3D姿势重建的2D姿势,底行显示估计的3D姿势。0运动识别的输入0F分数0平均 头 左肩 右肩 左臂 右臂 臀部 躯干 左腿 右腿 左脚 右脚02D姿势 0.93 0.95 0.96 0.96 0.89 0.91 0.81 0.96 0.94 0.85 1.00 1.00 3D姿势 0.97 0.93 0.96 0.96 0.94 0.93 1.00 0.98 0.95 0.980.99 1.000表5.从估计的2D姿势(第2.1节)和估计的3D姿势(第2.2节)作为输入的身体部位运动识别的F分数。使用我们估计的3D姿势可以提高识别性能。请注意,几个部位的性能与现有结果相当。这是因为舞者与摄像机之间的距离较远,降低了3D信息提供的额外能力。这种情况在表6中发生变化。0舞蹈类型识别的输入 F分数02D姿势 0.44 3D姿势 0.47运动(以2D姿势为输入)0.50运动(以3D姿势为输入)0.552D姿势+运动(以2D姿势为输入)0.733D姿势+运动(以3D姿势为输入)0.860表6.使用不同组件作为输入的消融研究。总体上,3D姿势对于类型识别比2D姿势提供了更高的准确性。2D和3D级别估计的组合比单独使用任何一个更好。0估计的3D姿势很好地匹配已知的人类骨骼结构,并且在帧之间平滑。为了定量评估我们的方法,我们在AIST++数据集上训练了我们的模型和三种最先进的方法[17, 20,21],并计算了平均每关节位置误差(MPJPE)。我们还在Human3.6M数据集[33]上评估了我们的模型。表3和表4显示,我们的无监督姿势估计方法与监督方法相当。此外,我们的半监督版本在AIST++数据集[29]和3.6M数据集[33]上分别取得了最好和第二好的性能。03.3. 运动和舞蹈类型识别0在UID数据集上,对身体部位运动和舞蹈类型识别的识别结果分别在表5和表6中给出。我们使用我们的非监督方法估计的3D姿势。0由于我们的UID在野外收集视频,因此不提供用于训练所提出的半监督版本的地面真实3D注释,因此我们使用监督方法作为识别的输入。不同身体部位的运动可以帮助舞蹈专家理解舞蹈。04. 结论和未来工作0总之,我们提出了一种舞蹈视频理解的方法,该方法遵循专家用于描述舞蹈的分层表示。我们提出了一种从原始视频到3D姿势,再到运动,最后到舞蹈类型的表示的方法。我们介绍了我们遇到的挑战以及我们如何使用新的约束和算法来解决这些挑战。需要注意的是,我们当前的舞蹈视频识别框架中的训练并不完全无监督。我们计划开发一个完全无监督的流水线,可以联合训练姿势估计和类型识别。此外,我们计划使用我们提取的表示来合成舞蹈。我们还计划使用专家观众对合成舞蹈视频质量的判断作为我们算法提取的表示的定性指标。110230参考文献0[1] Eftychios Protopapadakis, A. Grammatikopoulou, Anasta-sios Doulamis,和Grammalidis Nikos.基于Kinect传感器获取的深度图像的民间舞蹈模式识别. IS- PRS ,XLII-2/W3:587–593, 2017年2月. 10[2] 松山秀明, Hiroi K., Kaji K., Yonezawa T.,和N. Kawaguchi.利用视频和可穿戴传感器进行舞蹈锻炼的混合活动识别.在ICIEV和icIVPR会议上,2019年. 10[3] Swati Dewan, Shubham Agarwal,和Navjyoti Singh.用于印度舞蹈风格分类的深度学习流程.在ICMV会议上,卷10696,2018年. 10[4] S. Dewan, S. Agarwal,和N. Singh.舞蹈风格识别的时空Laban特征. 在ICPR会议上,2018年. 10[5] Daniel Castro, Steven Hickson, Patsorn Sangkloy,Bhavishya Mittal, Sean Dai, James Hays,和Irfan A. Essa.让我们跳舞: 从在线舞蹈视频中学习. CoRR , 2018年. 10[6] 赵娇娇和Cees G. M. Snoek. 舞蹈与流动:一种两合一流动动作检测方法. 在CVPR会议上,2019年6月. 10[7] Chunyu Wang, Yizhou Wang,和Alan L. Yuille.基于姿势的动作识别方法.在2013年IEEE计算机视觉与模式识别会议上,页915–922,2013年. 10[8] 王建波, 裘凯, 彭厚文, 傅建龙,和朱建科. AI教练:面向个性化运动训练辅助的深度人体姿势估计和分析.在第27届ACM多媒体国际会议上,2019年. 10[9] Diogo C. Luvizon, David Picard,和Hedi Tabia.使用多任务深度学习进行2D/3D姿势估计和动作识别.在IEEE/CVF计算机视觉与模式识别会议(CVPR)论文集中,2018年. 10[10] Ann Hutchinson Guest. Labanotation: 运动分析和记录系统. Routledge, 第四版 (2005年2月15日). 1 , 20[11] J. Wang, K. Sun, T. Cheng, B. Jiang, C. Deng, Y. Zhao, D.Liu, Y. Mu, M. Tan, X. Wang, W. Liu,和B. Xiao.用于视觉识别的深度高分辨率表示学习. PAMI , 页1–1, 2020年. 30[12] George Papandreou, Tyler Zhu, Liang-Chieh Chen, SpyrosGidaris, Jonathan Tompson,和Kevin Murphy. Personlab:基于底层、部分、几何嵌入模型的人体姿势估计和实例分割.在ECCV会议上,2018年. 30[13] S. Kreiss, L. Bertoni,和A. Alahi. Pifpaf:用于人体姿势估计的复合场. 在CVPR会议上,2019年. 30[14] Bowen Cheng, Bin Xiao, Jingdong Wang, Humphrey Shi,Thomas Huang,和Lei Zhang. Higherhrnet:面向自底向上人体姿势估计的尺度感知
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功