4394基于卷积序列的动作合成算法严思杰李志忠李元军熊华涵严大华林香港中文大学资讯工程学系{ys016,lz015,dhlin}@ ie.cuhk.edu.hk,{bitxiong,huahanyan2}@ gmail.com摘要在这项工作中,我们的目标是生成长动作表示为骨架序列。生成的序列必须表现出连续的、有意义的人类动作,同时保持身体各部分之间的连贯性。我们提出了一个框架,通过从高斯过程(GP)采样的一系列潜在向量进行变换,从而生成整个序列,而不是按照自回归模型顺序生成骨架这个框架被命名为卷积序列生成网络(CSGN)1,在时间和空间维度上联合建模结构.它通过GP先验和时间卷积在多个尺度上捕捉时间结构;并通过一种新的图细化方案建立了隐向量与骨架图之间的空间联系。值得注意的是,CSGN允许潜在空间和观察空间之间的双向转换,从而实现各种形式的动作序列的语义操作。我们对多个数据集进行了实证研究,其中包括我们收集的一组高质量的舞蹈序列。结果表明,我们的框架可以产生跨时间步长和身体部位之间连贯的长动作序列1. 介绍当舞者在舞台上踏步、跳跃、旋转时,所有观众的注意力都被流畅优美的动作所吸引。建立一个能够跳舞的模型是一项与欣赏表演本身一样迷人的任务在本文中,我们的目标是产生长时间的人类行动表示为骨架序列,e.G.那些涵盖了整个舞蹈,有数百个动作和无数可能的组合。近年来,基于莱顿的行动综合[2,5,6,9,17,29]正在取得进展它用于辅助以人为中心的视频*两位作者的贡献相等。1https://github.com/yysijie/CSGN上的代码和数据。图1. CSGN从高斯过程采样的潜在信号序列开始,通过卷积和上采样操作逐步构建舞蹈动作的骨架蓝色骨架和黄色骨架共享部分潜在信号(以绿色显示),导致它们之间的时间依赖性较长持续时间的关系是由高斯过程带来一代[7],并看到了AR和3D角色动画的潜在应用用于生成骨架序列的现有工具[2,5,9,17,29]大多是从用于动作预测的框架扩展而来的,其目的是在给定几个可见帧的情况下预测不久的将来的短序列。因此,它们通常基于自回归模型,如LSTM [14],GRU [1]和Seq2seq [24]。当应用于生成长时间的动作序列时,这些方法出现了两个固有的局限性。首先,他们依赖于马尔可夫依赖的假设来建模时间关系,即。在时间步长t处的新帧的生成取决于几个先前帧的隐藏状态这使得在多个时间尺度上表达结构变得非常重要其次,沿着时间维度逐个生成帧的方式特别地,在未来时间步生成的帧不能改变先前步骤中的帧。我们提出了卷积序列生成网络(CSGN),一个新的框架,基于卷积的行动4395一代与自回归模型不同,CSGN将从固定高斯过程提取的潜在向量序列转换为遵循数据随机过程的序列。具体地,采样的潜向量通过卷积网络以逐层的方式被转换该网络将时空图卷积层与时空图上采样算子交织,从而逐渐融合多尺度的时空关系。如图1所示,在每一步得到的骨架取决于输入的子序列,并且相邻骨架的对应子序列重叠。这确保了所生成的序列在短范围的时间步长上是时间相干的此外,在长时间范围内的关系是由高斯过程。为了实现条件采样,我们设计了一个编码网络以及上面介绍的生成网络编码网络通过图粗化降低骨架的空间分辨率,将观察到的骨架序列转换回潜在向量序列。这种双向转换允许CSGN以各种方式操纵动作序列,例如:补充、预测和语义编辑。CSGN 在 两 个 数 据 集 上 进 行 评 估 : NTU-RGB+D[22] , 一 个 真 实 世 界 的 动 作 数 据 集 , 和MikuDance,一个我们收集的新数据集前者包括从Kinect传感器获得的短动作序列[28]。 后者包含201个长长的舞蹈片段。 每件持续3分钟,总计10小时。我们对CSGN进行了定量和定性评估,生成动作序列和执行动作操作的任务。实验表明,CSGN克服了现有自回归方法的局限性,能够生成高质量的长动作序列。2. 相关工作动作预测。以往的行为预测工作主要依赖于自回归模型。Fragkiadaki等人[9]提出了编码器-递归-解码器(ERD)模型,在递归单元之前和之后合并编码器和解码器网络。其去噪组件减少了误差的积累。Martinez等人[17]提出一个基于Seq2seq [24]的框架,该框架预测关节的速度而不是位置。Li等[29]提出了Ac-LSTM,它在训练中将合成帧与观察帧混合,从而增强了模型的纠错能力。 Butepage等人[5]提出将一系列先前帧编码为潜在表示,并从中解码未来序列。对于所有这些方法,帧都是逐步生成的,新的帧取决于以前生成的帧。相反,我们的框架直接通过卷积生成整个序列,这自然地捕获了多个尺度的时间结构。行动综合。生成对抗网络[10]是生成模型的一种流行范式,已被应用于人类动作生成[2]。 HP-GAN [2]将Seq2seq框架与GAN结合起来进行运动预测,其中Seq 2Seq模型用作生成器,完全连接的网络用作训练器。与HP-GAN不同,我们制定了生成器和图卷积网络。Cai等人[6]提出了一种两阶段的GAN骨架运动生成,其中第一阶段学习生成姿态的空间信号,第二阶段生成表示为潜在向量序列的时间信号我们的模型使用时空图卷积对时空信号进行联合建模图卷积。图神经网络受到越来越多的关注[16,27]。有两种主要类型的图卷积。谱图卷积利用卷积定理并通过图拉普拉斯算子在谱域上操作[4,8,12]。空间图卷积直接对顶点及其邻居进行操作[18,27]。图卷积用于动作识别[27]。在这项工作中,我们使用图卷积来捕获骨架的空间结构。此外,为了允许在不同分辨率的图的计算,我们引入了图粗化和细化操作。3. 卷积序列生成受观察到一个动作是由短的基本运动连续组成的启发,例如。跳跃,转身,踢,我们提出了卷积序列生成网络(CSGN),一个网络架构,通过转换一系列的潜在向量生成一个动作序列如图2所示,为了生成长度为T的动作序列,CSGN首先从高斯过程中采样一系列潜在向量,该序列预计包含抽象和缓慢变化的运动信号。这个潜在的序列可以表示为一个张量的形状(C0,1,T0),其中包含T0个潜在的向量的维度C0。 由于假设每个潜在向量包含多个时间步长上的信息,因此我们设T0