没有合适的资源?快使用搜索试试~ 我知道了~
从文本中生成多样自然的三维人体运动
5152开始端生成运动1生成运动2真实运动从文本生成多样自然的三维人体运动川郭世豪邹欣欣左森王伟纪星宇李立成阿尔伯塔大学{cguo2,szou2,wji3,xingyu,lcheng5} @ ualberta.ca图1.作为输入的文本描述,真实运动也在右侧面板中呈现以供参考。摘要从文本中自动生成三维人体运动是一个具有挑战性的问题。所生成的运动被期望是足够多样的,以探索基于文本的运动空间,更重要的是,准确地描绘在规定的文本描述的内容。在这里,我们用两个阶段的方法来解决这个问题:text2length采样和text2motion生成。Text2length涉及从以输入文本为条件的运动长度的 学 习 分 布 函 数 中 进 行 采 样 。 其 次 是 我 们 的text2motion模块使用时间变分自动编码器来合成一组不同的采样长度的人体运动。而不是直接参与姿势序列,我们提出了运动片段代码作为我们的内部运动表示,它捕获本地语义运动上下文,并根据经验证明,以促进可信的运动忠实于输入文本的生成此外,构建了 一 个 大 规 模 的 脚 本 化 三 维 人 体 运 动 数 据 集HumanML3D,包括14,616个运动剪辑和44,970个文本描述。1. 介绍给定人物动作的简短文本描述我们能够在头脑中甚至在图画中将运动形象化。问题是,如何通过机器自动化这个过程,或者换句话说,从文本中生成逼真这就是本文要解决的问题。如图1所示,给定“人物从躺着的位置上升并逆时针走圈,然后躺回地面“的输入馈送1同时,现有的从描述[1,4,21,32,44]生成3D人体运动的努力观察到几个常见的不足之处:输入文本通常是一个简短的句子;该任务总是被公式化为确定性的序列到序列生成,合成的运动往往是静止的和无生命的;此外,所生成的运动被限制为具有相同的长度;最后,现有方法依赖的唯一数据集KIT运动语言(KIT-ML)[31]仅由3,010个专注于运动动作的运动序列组成。具体而言,有三个继承挑战尚待解决。1项目网页:https://ericguo5513.github.io/text-to-motion5153首先,由相同模型从文本生成的运动被期望具有可变长度。第二,通常有多种方式的一个字符的行为以下相同的文字描述。第三,从自然语言的角度来看,输入描述可以具有广泛的形式,从简短到非常长的复杂。为了解决上述不足和挑战,我们提出了一个两阶段的管道text2length采样和text2motion生成。Text2length基于输入文本估计视觉运动长度的分布函数。text 2 motion的作用是从输入文本和采样的运动长度生成不同的3D运动;这是通过将时间变分自动编码器(VAE)框架以其先验、后验和生成器网络的三元组形式实现的;此外,运动片段代码被引入作为VAE代码中的内部表示,并贯穿我们的管道以表征时间运动语义,其作用在以后的消融研究中进行了最后,构建了一个专用数据集(HumanML3D),由14,616个3D人体运动的44,970个文本描述组成它涵盖了广泛的动作类型,包括但不限于机车动作。对Hu-manML 3D和KIT-ML数据集的经验评估表明,我们的方法优于现有方法。我们的主要贡献概述如下。首先,据我们所知,我们的工作是第一个从文本中随机生成3D运动的工作,能够生成具有可变长度的各种3D人体运动,这些运动具有逼真的外观并且忠实于文本输入。第二,我们的方法是灵活的工作与输入文本,从简单到复杂的形式。这是由text2length text2motion模块和建议的运动片段代码(将在后面的章节中详细介绍)实现的。最后,构建了一个大规模的人体运动数据集它包含广泛的动作,每个动作序列都配有三个文本描述。2. 相关工作3D人体运动生成。在基于动作类别或从包括音频和文本的模态基于动作类别的姿态序列合成通常使用一个独热条件向量。在该领域,[5,43]都应用了两阶段生成对抗网络(GAN)框架,以逐步扩展具有新生成姿势的部分运动序列;[45]的工作改为使用基于GCN的GAN对人体动态的时空结构进行建模;同时,[11,12,29]促进了VAE建模和Transformer架构,在音频信号输入方面,由于音频在时间上与其运动输出对齐,因此常见的策略是将其与运动输出对齐。使用递归神经网络(RNN)在将声学特征表示(例如MFCC)转换为个体人类姿势时使用时间滑动窗口。在[35]中,采用双向LSTM网络来从语音输入中生成上身体姿势。[34]还检查了类似的LSTM类型模型,以预测钢琴和小提琴独奏会音频的上身动力学,并在[36]中捕获音乐到舞蹈的映射。最近的工作开始解决基于音频信号的人类动力学的随机性。[17]采用VAE和GAN的混合模型从音乐中产生非确定性的[14]的工作进一步支持长期的音乐舞蹈生成课程培训。将文本描述转换为人体运动是一个新兴的课题。先前的努力,如[10,21,32,44]重新排序到经典的编码器-解码器RNN模型,而在[1]中提出学习自然语言和3D人类动态之间的联合嵌入空间。[10]考虑了分层姿态结构以及利用姿态映射。然而,这些方法具有不期望的缺点,因为它们是具有固定运动长度的确定性一对一过程相反,针对这些问题,我们的学习模型能够产生随机的,一对多的序列映射的可变长度。视频生成和基于文本的视频生成。在生成视频时,GAN和VAE等深度生成模型一直是最受欢迎的选择。例如,在MoCo-GAN [38]中提出了一种递归结构化GAN,以分别这是其次[37]纳入对比学习。[8]利用具有RNN架构的VAE基于历史视频序列随机预测未来帧,这在[42]中进一步扩展以合成具有规定开始和结束帧的视频。文本到视频的生成相对较新。为了解决这样的任务,GAN框架已经在包括[20]和[25]的几项努力中被招募。接下来是[6],其中还使用了注意力机制来将本地视频区域与文本中的单词此外,在[24]中使用了短期和长期跨域注意向量作为VAE框架的输入。视频字幕。我们工作的主题可能被认为是一个逆问题的运动字幕或更广泛的,视频字幕。因此,也有必要提及这一研究路线。早期的努力,如[16],经常诉诸于预定义的句子模板,包含手工制作的语言规则,涉及有限的动作和对象类别这在深度学习时代已经发生了根本性的变化,我们见证了通过采用各种强大的技术,包括RNN [30,40],Transformer [18],专注的上下文,建模[41],内存网络[28,46],GAN [26],以及强化学习[19,27]。5154.ΣSrecrecSS图2. 方法概述。(a)作为预处理步骤,在我们的训练运动数据上训练专用的运动自动编码器,以将运动序列编码成运动片段代码流,然后可以将其解码回运动。(b)我们的培训渠道。通过文本编码器,注意词特征(watt)被VAE网络使用,如图所示。3 .第三章。时间VAE的三元组结构,涉及前,后,和生成器网络被用来处理运动片段代码(CS)和重建的(CXC-S)。这导致估计重构姿态序列(Lmot)和重构代码序列(Lcode)的损失项分别由于篇幅有限,图3中推迟列出了一些关键成分。(c)我们的推理流程。从输入文本,文本2Length模块被激活以采样预期的运动长度。然后,通过文本编码器提取的文本特征被馈送到先验网络,产生先验分布。生成器从先验分布中抽取潜在向量,并产生一系列运动片段代码(motion snippet codes,简称MSNC)。 姿态序列最终通过对来自在(a)中预训练的运动解码器的片段代码进行解码来获得。语言和3D人体运动数据。KIT运动-语言数据集[31]是迄今为止唯一一个包含3D人体运动及其文本解压缩的可用数据集,由3,911个运动序列组成&3.1. 运动自动编码器如图1所示的预处理步骤在图2(a)中,编码器E将姿态序列P =(p1,., pT′)到运动片段代码序列,Cs=c1,.,cT,此外,存在许多现有的3D运动捕获人体运动的数据集,例如CMU Mocap [7]、Hu-man 3. 6 M [15]、MoVi[9]和BABEL [33],其形式为通过在时间线上应用1-D卷积来实现;然后用解码器r,D来重建P。在数学上,该过程被公式化为:日常活动和体育运动。然而,他们都没有语言描述的运动。Cs= E(P),P=D(Cs)。(一)3. 我们的方法根据M个单词的文本描述,X =(x1,...,xM),为了避免脚滑动,我们的解码器D另外预测每一帧处的脚接触,其不提供给编码器E。为了保证代码的稀疏性和时间平滑性,还需要对代码片段的值和连续代码的差异进行约束。最终的目标函数为LE,D=p′−p′1+λsprct1+λsmtct−ct− 11。我们的 目标是生成3D姿态序列,P=(p1,...,pT′),其长度T ′在试验时确定。作为t t st′tS s不(二)示于图2,我们从一个预处理步骤开始,训练一个运动自动编码器这是其次是解决一个合理的运动长度从文本(秒。3.2),并且随后合成以输入文本和采样的运动长度为条件的运动(第3.2节)。3.3),通过引入内部运动表示第3.1节)。自动编码器由两层卷积组成,过滤器大小为4,步幅为2,详细说明了其结构在补充文件中。因此,运动片段代码ct具有8帧感受野,对于20帧每秒(fps)姿势流传输总计约0.5秒;它还导致更紧凑的内部代码序列,6,278句,重点是运动动作。5155LL4|--θ.Σattθ∈∈SS.Σ|−N.−2我2我1:tlogpθ(ct|c1:t−1,z1:t,c)(SSS1:t-1和条件ΣC.总的来说,我们的VAE是通过最大化以下变分下限来训练的ΣTΣlogp(Cs)≥St=1-λKLDKL,q(zt|c1:t,c)p(zt|c1:t−1,c),n.图3.我们用于text2motion生成的时间VAE的结构:(a)生成器Ft,和(b)后验网络Ft。先前净额-第一项是减少重建误差rec,而第二项惩罚后验分布和先验分布之间的KL-发散KL。文本编码器。 除了词嵌入之外,我们还提出了将词的词性(POS)标记θ ϕ除了不同的输入之外,工作Ft具有与Ft相同的架构变成文本编码器。POS标记明确表示单词cat-词汇表,从而方便了重要词汇的本地化T=T′。与单个姿势相比,片段代码捕获时间语义信息,这对于平滑和忠实的运动生成至关重要。3.2. Text2length采样如图2(c)所示,我们的text2length采样模块的目的是近似以文本为条件的离散运动长度T的概率分布,使得在推断阶段,可以通过从该学习的分布函数p(T×1,...,xM)给定一个输入文本。因此,该模块使我们的方法能够生成不同长度的运动这是一个典型的密度估计问题,有许多实用的选择,其中我们采用了pixelCNN的神经网络方案[39]。由于一个运动序列在我们的工作中被内在地表示为一系列的片段代码,我们的目标具体归结为决定片段代码的长度。在推理中,文本编码器从输入文本中提取文本级特征,然后将其馈送到具有softmax激活的MLP层,产生多项式分布。一句话。此外,如图2(b)所示,手动构建外部词典以收集与运动相关的词并将其分类为四种类型:方向、身体部位、对象和动作。这些独热单词标签被送入嵌入层并添加到单词嵌入向量中。我们的文本编码器是实现在双向GRU的形式,它把这些嵌入向量作为输入,并产生句子特征s和单词特征w 1:M。前者提供了全球上下文信息,并用于初始化VAE的隐藏单元;后者作为局部单词注意力的形式,在每个时间步的部分输入,将在下面讨论。文本编码器的实际结构在补充文件中有详细说明注意力(Attention)。在从文本预测运动的过程中,分配给每个单词的注意力可能会有所不同。 这是由我们的本地单词注意力单元Fatt解决的,它使单词特征w 1:M与运动上下文记忆hθ(即,发电机隐藏单元),如图3所示。局部词语注意的过程可以描述为在离散长度索引1,2,...,Tmax. 这里,增量1对应于4个姿势帧,并且设置Q=ht−1WQ,K=w 1:MWK,V=w1:MWV,Tmax=50对应于200帧,对于20 fps的视频,总计10秒。其训练目标由交叉熵损失定义。wt = softmaxQKT阿卡德·阿特第五章(四)3.3. Text2motion生成我们的text2motion生成器包含一个文本编码器和一个时间VAE模型,该模型由一个三重网络组成,其中WK,WVRdw×datt和WQRdh×datt are可训练权重,其中dh、dw和datt分别是生成器隐藏单元ht-1、词特征w 1:M和关注层中的通道数。wt是多模态atten-因子Fθ、后验Fθ和前验Fθ,如图2所示第2段(b)分段。文本作为时间att编码器提取字级w水平s1:M并判处─t.到达时间位置编码。 在生成Mo-从输入文本的功能;我们的VAE生成运动代码片段c1:T一个接一个的循环architec-对于长度可变的情况,重要的是要知道我们在哪里时间:tS,我们的后验网络F近似以及要走多远。这促使我们编码时间-后验分布q∈ztc1:t,c以部分码序列c1:t以及单词和句子特征为在每个时间步具有位置编码的到达信息T t,如图3所示。它被制定为c=(W1:M,s,. )的情况。 与其将后部的dis-与文献中使用的先验正态分布(0,I)不同,这里它与学习的先验分布p(zt)相关|c1:t−1,c),这是由我们的先验网络获得的-工作 F,基于先前的状态csPET−t,2i=sinPET−t,2i+1=cosTt、10000天.E、5156T−t10000天(五)5157SSNNSS|S代码motrecΣS→θattrecSSΣ其中,向量PE的第二下标表示维度索引;d是输入嵌入的维度Temporal VAE的架构 图2(b)说明了用于text 2 motion生成的我们的时间VAE的总体架构;这之后是图1B。3,它带来了生成器和后验网络结构的在时间t,词特征首先与生成器数据集#运动#文本持续时间 词汇人ML3D14,61644,97028.59h5,371KIT-ML [31]3,9116,27810.33h1,623表1. 3D人类运动语言数据集的比较。相应地,生成的代码片段将替代地用于存储器单元ht-1,以产生attentiv evect或wt -是的 N o w作为输入,概率为1−ptf。作为边界条件,连接当前和先前的片段代码(c_t_tion,c_o是使用ct−1),注意向量wt为了形成输入向量,运动编码器E.s att其被馈送到多层感知器(MLP)中;其输出与到达时间位置编码PET−t相加,然后通过GRU层产生后分布(μs(t),σs(t))。产生先验分布(µ(t),σ(t))遵循相同的过程,只是不将ct作为输入。在训练中,生成器学会重新-从ct-1的输入构造当前片段代码ct,4. 我们的HumanML3D数据集我们的HumanML3D数据集源自HumanAct12 [12]和AMASS [23]数据集的运动序列的混合,这两个数据集是公开访问的3D人体运动捕获的他们骗-S s不att,以及从后验分布采样的噪声向量zt从各种人类行为中获取运动,例如日常报应 在测试中,作为ct真实的数据是没有用的,活动(例如, “步行”、“跳跃”)、运动(例如,“游泳-能够,Szt是从估计的先验分布中采样的,ming’, ’karate’), acrobatics (e.g, ’cartwheel’) and分布p(ztc1:t−1,c)(图第2段(c)分段)。最后,通过用预先训练的运动解码器D(Sec. 第3.1节)。在text2motion中,运动解码器D与其余网络进行了补充文件中提供了详细的网络结构最终目标。我们最终的text2motion生成目标函数为L=L+λmotL+λKLLKL,其中(例如,“跳舞”)。不幸的是,这些数据集没有对运动的文字描述。数据标准化的几个处理步骤如下。运动被缩放到20FPS,那些长于10秒的运动被随机裁剪为10秒;然后它们被重新定位到默认的人类骨骼模板,并正确旋转到最初的Z+方向。接下来是通过亚马逊土耳其机器人(AMT)进行的文本注释过程,recrec92%的人被雇佣,并被要求描述一个至少L代码=ct−ct1,不五个字。我们为每个动作片段收集3个文本描述不同的工人。一个手动后处理步骤,Lmot=pt′−pt′1,(6)t′L KL=KL(N(µ(t),σ(t))<$N(µ(t),σ(t)。不培训计划。 为了解决可变长度序列到序列生成任务,我们的训练过程利用课程学习[3]和预定采样[2]策略,如下所示。 从顺序生成第一个Tcur片段代码开始,我们在训练数据上优化我们的模型,这些训练数据的片段代码长度等于或长于Tcur。只要验证上的重建损失开始增加,则我们通过在目标序列中追加一个片段代码来继续进行下一阶段;任务的复杂性在每个阶段逐渐增加,直到达到预测的最大时间步长Tmax(即,Tcur=Tmax)。此外,为了弥补序列预测的训练和推理的差距,以概率ptf对整个目标片段代码序列c1:T应用教师强制,这意味着将真实片段代码作为下一步骤的生成的输入过滤掉不正常的文字描述因此,我们的HumanML3D数据集成为我们所知的最大和最多样化的脚本人类运动集合,由14,616个运动和44,970个描述组成,由5,371个不同的单词组成运动总时长为28.59小时,平均运动时长为7.1秒。最小和最大持续时间分别为2s和10s。就文字描述而言,它们的平均长度和中位数长度分别为12和10。我们的HumanML 3D 与 唯 一 现 有 的 运 动 文 本 数 据 集 KITMotion-Language [31]的表格比较见表1。5. 实验在内部HumanML 3D和KIT-ML [31]数据集上进行经验评估。我们通过镜像运动和正确替换描述中的某些关键词(例如,“左”“右”)来增强两个数据集都被分成训练集、测试集和验证集,0的情况。八比零十五比零05比率。 在训练中,所有的动作都被修剪W5158±→∈∈ ∈∈∈∈∈方法R精密度↑表2. HumanML3D测试集的定量评价。所有基线都直接使用真实的运动长度,而我们的方法(Ours)则采用从text2length模块中采样的序列长度。 表示95%置信区间, 越接近真实运动越好。粗体表示最佳结果,下划线表示次佳结果。方法R精密度↑表3. KIT-ML测试集的定量评价。所有基线都直接使用真实的运动长度,而我们的方法(Ours)则采用从text2length模块中采样的序列长度。±表示95%置信区间,→表示越接近真实运动越好。使得帧的数目是4的倍数。我们应用与[13]中相同的姿势处理步骤。摆姿势表示。在 我 们 的 工 作 中 ,姿态p由元组( rsteca , rstecx , rstecz ,ry , jp ,jv ,jr ,cf)定义,其中 rstecaR是沿Y轴的根部角速度;(rstecx,rsteczR)是XZ平面上的根线速度; ryR是根高; jpR3j、jvR3j和jrR6j是根空间中的局部节理位置、速度和旋转,其中j表示节理数目;cfR4是通过对脚跟和脚趾关节速度进行阈值化以强调足部地面接触而获得的二进制特征。特 别 地,采用了[ 47 ]的6D连续旋转表示。HumanML3D数据集中的运动遵循具有22个关节的SMPL[22]的骨架结构。KIT-ML中的姿势有21个关节附录文件中提供了实施细节。5.1. 实验结果5.1.1评价指标和基线本文采用文献[12]中的评价方法,包括Frechet起始距离(FID)、多样性和多模态性.对于定量评估,在对比损失下训练运动特征提取器和文本特征提取器以产生匹配的文本-运动对的几何上接近的特征向量,反之亦然。进一步解释上述指标,以及特殊的,由于空间的限制,文本和运动特征提取器被归入补充文件。此外,在这项工作中提出了R精度和多模距离作为补充度量,如下所示。考虑R-精度:对于每个生成的运动,其地面实况文本描述和从测试集中随机选择的31个不匹配的描述形成描述池。然后计算池中每个描述的运动特征和文本特征之间的欧几里德距离并对其进行然后,我们计算前1名,前2名和前3名的平均准确度落在前k个候选者中的地面实况条目被视为成功检索,否则它失败。同时,MultiModal距离被计算为测试集中每个生成运动的运动特征与其对应描述的文本特征之间的平均欧氏距离基线方法。我们将我们的工作与三种最先进的方法进行 了 比 较 : Seq2Seq [21] , Text2Gesture [1] 和Text2Gesture [4]。与所有现有方法一样,它们是确定性方法。考虑到我们任务的随机性,我们采用了相关领域的两种非确定性方法进行更公平和彻底的评估:MoCo-GAN [38]和Dance 2 Music [17]。前者广泛用于有条件的视频合成,后者从音频信号产生2D舞蹈运动序列。适当的改变是为了让这些方法生成-前1顶部2前3FID↓MultiModalDist↓多样性→多模态↑真实运动来0的情况。511±。0030的情况。703±。0030的情况。797±。0020的情况。002±。000二、974±。0089 .第九条。503±。065-[21]第二十一话0的情况。180±。0020的情况。300±0020的情况。396±。00211个国家。75±。035五、529±。007六、223±。061-[1]第一次见面0的情况。246±。0020的情况。387±。0020的情况。486±。00211个国家。02±。046五、296±。0087 .第一次会议。676±。058-[4]第四话0的情况。165±。0010的情况。267±。0020的情况。345±。0027 .第一次会议。664±。030六、030±。008六、409±。071-前1顶部2前3FID↓MultiModalDist↓多样性→多模态↑真实运动来0的情况。424±。0050的情况。649±。0060的情况。779±。0060的情况。031±。004二、788±。01211个国家。08 ±。097-[21]第二十一话0的情况。103±。0030的情况。178±。0050的情况。241±。006二十四岁86±。3487 .第一次会议。960±。031六、744 ±。106-[1]第一次见面0的情况。221±。0050的情况。373±。0040的情况。483±。005六、545±。072五、147±。0309 .第九条。073 ±。一百[4]第四话0的情况。156±。0040的情况。255±。0040的情况。338±。00512个。12±。183六、964±。0299 .第九条。334 ±。079 -5159图4. 我们的方法的视觉结果与那些passiage2Pose [1]。给定每个输入描述,我们展示了从我们的方法生成的两个运动,以及从Language2Pose生成的一个运动(因为它是一个确定性方法)。由于我们生成的运动长度可变,因此只显示每个序列中的关键帧完整的剪辑在演示视频中。更多结果在补充文件中。表2和表3中的以下观察结果。首先,我们的方法在所有指标和两个数据集上都明显优于所有比较方法Seq2Seq [21]和 Text 2Gesture [4] 通 过 编 码 器 -解 码 器 和Transformer的神经机器翻译架构直接将文本数据映射到人类动态;然而,他们发现难以保持真实感。在他们的过程中的抽搐运动。这导致基于运动的文本检索精度低,FID值高。通过引入共嵌入空间,Pose [1]在生成质量上表现得更好,但结果与真实运动相差甚远。不幸的是,通过MoCoGAN [38]和Dance2Music[36]的非确定性方法生成的运动质量非常低,表现为它们的低多样性和多模态性图5.在生成的运动中对用户偏好进行定量评估。对于每种比较方法,颜色条(从蓝色到红色)指示其偏好水平的百分比(从最少到最多)。从文本中导入3D运动。5.1.2定量评价表2和表3分别列出了Hu-manML 3D和KIT-ML数据集的定量结果。为了公平比较,每个实验重复20次,并报告具有95%置信度的统计区间。由于所有基线方法都直接使用地面实况运动长度来生成新的运动,为了公平比较,我们还考虑通过删除text 2length采样模块(即我们的w/ real length)来修改我们的方法。真实运动的高R精度证明了所提出的R精度度量的可靠性,其为所有方法设置了性能上限。总的来说,我们有分数-不忠实于输入文本的结果。相反,我们的方法的变体直接使用实际运动长度(我们的w/ real length)在几乎所有指标上都实现了最佳性能。我们的默认方法使用text2length采样(Ours),在R精度和FID分数方面具有可比较的性能,但它更能够合成不同的运动,特别是在多样性多模态分数中反映出来。用 户 研 究 除 了 上 述 客 观 评 估 外 , 还 通 过 AmazonMechanical Turk进行了一项众包主观评估,内容涉及生成运动的视觉感知质量。对于每种比较方法,使用从测试集中随机选择的50个分解器生成运动。对于每种描述,不同方法的结果显示给5个AMT用户,他们被要求根据运动真实性和magni对这些运动的偏好进行排名。0.0630.0820.1640.2130.1830.2220.1350.1730.2120.2950.7100.5070.3090.3280.2850.2560.2120.2370.4050.1500.1400.3860.1790.1980.1200.0870.0820.0970.0585160方法前1R精密前2名前3FID↓我们的0。455±。0030的情况。636±。0030的情况。七百三十六度。0021 .一、087±。021w/oSnO2 0. 370 ±。002 0的情况。538±。0030的情况。642±。0031 .一、两百±。027不含属性 0。396 ±。002 0的情况。570±。0020的情况。674±。0031 .一、833±。032不含PoS0。443 ±。0030的情况。622±。0030的情况。723±。0031 .一、157±。016不带PoE0。444 ±。0050的情况。627±。0030的情况。729±。0021 .一、229±。020表4. 在HumanML3D数据集上进行消融研究,SnC表示运动片段代码,Att表示局部单词注意力,PoS表示词性标签,PoE表示位置编码。它们与预期的文本描述一致仅考虑具有主识别偏好结果如图5所示。 总的来说,我们的方法是最受用户欢迎的;同时,两种非确定性方法是最不受欢迎的,因为它们的运动表现出严重的失真; Seq 2Seq和Text 2Gesture从用户那里获得了10%以上的积极分数;Pose成为第二受欢迎的方法。此外,我们的方法生成的运动中有很大一部分(约72%)被用户认为是前2即与真实的人类运动相当或仅接近。这项用户研究为我们的approach能够合成视觉逼真的运动提供了有力的证据。5.1.3定性评价图4显示了我们的方法与性能最佳的基线-来自其他比较方法的运动过于扭曲,无法使用SMPL人体形状进行渲染[22]。Pose有时会捕获部分概念(例如,坐下来)在输入文本中。然而,它无法理解全局文本信息。此外,生成的运动往往会在短时间后冻结。相比之下,我们的方法能够生成视觉上吸引人的运动,准确地反映了文本描述中的细节,在手势,动作,身体部位和时间方面。此外,从相同的输入文本中,我们生成的运动是足够多样的。更多结果见附录。5.1.4消融分析、Text2length结果、失效病例和局限性表4量化了我们的方法中不同组分对HumanML3D数据集的影响。当片段代码(即SnC)或单词注意力(即Att)被移除时,观察到性能的急剧下降,其中R精度下降超过6%。相反,位置编码(即PoE)和词性(即POS)的影响相对不太显著,给定约2%的R精度下降。在图6中,显示了来自相同输入文本的我们的、我们的w/o SnC和我们的w/o Att的合成运动的视觉比较。虽然代码段代码不是图6. 我们的、我们的无SnC和我们的无Att生成的运动结果的视觉比较,所有这些都提供了相同的描述。更多示例请参见补充文件。应用后,所得到的运动在开始时看起来是视觉上令人愉快的和上下文感知的;然而,随着时间的推移,它不能忠实地遵循文本描述。类似的现象在我们的无词注意力的运动中也观察到。另一方面,我们的方法的结果与贯穿全文的文本概念充分一致由于空间限制,我们将进一步的消融结果归入补充视频,通过text2length学习的长度分布的经验结果,失败案例和限制性讨论归入补充文件。6. 结论与展望本文研究了基于自然语言描述的三维人体运动生成这一新兴的研究课题,特别强调了多样性和自然运动的 生 成 。 它 导 致 我 们 的 两 阶 段 流 水 线 , 其 中 text2length模块从估计的运动长度分布中采样给定文本描述; text 2 motion模块从输入文本中生成采样运动长度的运动,由我们的temporal VAE完成构建了一个大规模的人体运动语言数据集,以期促进社区中新方法的开发和评估。大量的定量和定性实验证明了我们的方法的有效性。未来的计划包括调查的方式来简化一套评估指标,和我们的任务,运动字幕相反的方式确认这项研究部分得到了埃尔伯塔大学启动补助金,UAHJIC补助金和NSERC发现补助金的支持RGPIN-2019-04575)↑5161引用[1] Chaitanya Ahuja和Louis-Philippe Morency语言2pose:自然语言基础的姿势预测。在3D视觉国际会议(3DV)中,第719IEEE,2019。一二六七八[2] Samy Bengio 、 Oriol Vinyals 、 Navdeep Jaitly 和 NoamShazeer。循环神经网络序列预测的计划采样。第1171-1179页,2015年。5[3] YoshuaBengio , Je´ ro meLouradour, RonanCollobert ,andJa-son Weston.课程学习。第26届机器学习国际年会,第41-48页,2009年。5[4] Uttaran Bhattacharya 、 Nicholas Rewkowski 、 AbhishekBanerjee 、 PoojaGuhan 、 AniketBera 和 DineshManocha。Text2gestures:一个基于transformer的网络,用于为虚拟代理生成情绪化的身体姿势在IEEE虚拟现实和3D用户界面(VR)中,第1-10页IEEE,2021。一、六、七[5] Haoye Cai,Chunyan Bai,Yu-Wing Tai,and Chi-KeungTang.深度视频生成、预测和完成人体动作序列。在欧洲计算机视觉会议(ECCV)的会议记录中,第366-382页,2018年。2[6] 齐尘,齐武,剑尘,武青瑶,安东·范登亨格尔,谭明奎。 使用自下而上生成对抗网络的脚本视频生成。IEEE Transactions on Image Processing , 29 : 7454-7467,2020。2[7] CMU。卡内基梅隆大学图形实验室运动捕捉数据库。2003. 3[8] 艾米丽·丹顿和罗伯·费格斯具有学习先验的随机视频生成。国际机器学习会议,第1174-1183页。PMLR,2018。2[9] Saeed Ghorbani 、 Kimia Mahdaviani 、 Anne Thaler 、Konrad Kording、Douglas James Cook、Gunnar Blohm和Niko-laus F Troje。Movi:一个大型多用途运动和视频数据集。arXiv预印本arXiv:2003.01888,2020。3[10] Anindita Ghosh , Noshaba Cheema , Cennet Oguz ,Chris- tian Theobalt和Philipp Slusallek。从文字描述合成合成动画。arXiv预印本arXiv:2103.14675,2021。2[11] Chuan Guo,Xinxin Zuo,Sen Wang,Xinshuang Liu,Shihao Zou,Minglun Gong,and Li Cheng.22video:生成人类3D动作的视频。国际计算机视觉杂志,第1-31页,2022年。2[12] Chuan Guo , Xinxin Zuo , Sen Wang , Shihao Zou ,Qingyao Sun , Annan Deng , Minglun Gong , and LiCheng. Action-2 motion:3D人体运动的条件生成。第28届ACM国际多媒体会议论文集,第2021-2029页,2020年二、五、六[13] Daniel Holden,Taku Komura,和Jun Saito.用于字符控制的相位函数神经网络。ACM Transactions on Graphics(TOG),36(4):1-13,2017。6[14] Ruozi Huang,Huang Hu,Wei Wu,Kei Sawada,MiZhang,and Daxin Jiang.舞蹈革命:通过课程学习与音乐进 行长 期的 舞蹈 创作 。在 国际 会议 上学 习表 示(ICLR),2021年。2[15] Catalin Ionescu , Dragos Papava , Vlad Olaru , andCristian Sminchisescu.人类3。6m:大规模数据集和预处理5162用于自然环境中的3D人体感测的直观方法。IEEETransactionsonPatternAnalysisandMachineIntelligence,36(7):1325-1339,2013. 3[16] AtsuhiroKojima , TakeshiTamura , andKunioFukunaga.基于动作概念层次的视频图像人类活动自然语言描述International Journal of Computer Vision,50(2):171-184,2002。2[17] Hsin-Ying Lee,Xiaodong Yang,Ming-Yu Liu,Ting-Chun Wang,Yu-Ding Lu,Ming-Hsuan Yang,and JanKautz.随着音乐跳舞。第33届神经信息处理系统国际会议论文集,2019年。二、六[18] Jie Lei,Liwei Wang,Yelong Shen,Dong Yu,TamaraL Berg , and Mohit Bansal.Mart : 内 存 增 强 的 循 环Transformer,用于连贯的视频段落字幕。arXiv预印本arXiv:2005.05402,2020。2[19] 李丽君和龚伯庆。端到端视频字幕与多任务强化学习 。 2019 年 IEEE Winter 计 算 机 视 觉 应 用 会 议(WACV),第339-348页。IEEE,2019。2[20] Yitong Li , Martin Min , Dinghan Shen , DavidCarlson,and Lawrence Carin.从文本生成视频在AAAI人工智能会议论文集,第32卷,2018年。2[21] Angela S Lin ,Lemeng Wu ,Rodolfo Corona,KevinTai,Qixing Huang,and Raymond J Mooney.从自然语言描述生成人类活动的动画视频。学习,2018:1,2018。一、二、六、七[22] Matthew Loper、Naureen Mahmood、Javier Romero、Gerard Pons-Moll和Michael J Black。Smpl:一个有皮肤的多人线性模型。ACM图形交易(TOG),34(6):1-16,2015。六、八[23]
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功