统一的三维人体运动合成模型及其应用

139 浏览量更新于2023-10-15 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11645一种统一的三维人体运动合成模型通过条件变分自动编码器∗宇君蔡1，一尾王2，一横朱6，塔特-Jen占1，剑飞蔡3，俊松元5，君刘7，川下郑1、颜思杰8、丁恒辉1、沈晓辉6、丁刘6，Nadia Magnenat塔尔曼41南阳技术大学、新加坡。{yujun001，ding0093，chuanxia001}@e.ntu.edu.sg，astjcham@ntu.edu.sg2新加坡国立大学旺尤夫seu@foxmail.com3莫纳什大学、澳大利亚尖飞。才@monash.edu，4大学的日内瓦Thalmann@miralab.ch5美国纽约州布法罗市布法罗大学纽约州立大学jsyuang@buffalo.edu6字节跳动研究公司{义亨。朱，沈晓辉，六丁}@bytedance.com7新加坡苏特君liu@sutd.edu.sg，8香港中文大学yysijie@gmail.com摘要我们现在是一个统一和灵活的框架，用于解决三维运动合成的广义问题，该问题cov-处理运动预测、完成、内插和时空恢复的任务。因为他们的任务是有区别的输入约束和瓦里奥乌斯富达和多样性要求，莫斯特现存阿普罗阿切斯只卡特到a特殊任务或使用不同架构来地址变异任务。这里we普罗波塞a统一框架基论共轭可变自动编码器（CVAE），我们在哪里处理任何任意输入作为一个蒙面运动系列。值得注意的，根据符合条件的生成这个问题，我们估计了缺失区域的一个参数分布基论the输入条件、来自惠希到采样并合成完整的运动系列。要坚持操纵运动风格的可弯曲性生成系列，我们设计一个动作自适应调制（AAM）通过全序列传播吉文语义指导。我们也将交叉注意机制引入到埃克普洛伊特距离关系阿蒙解码器和编码器FEA-TURES促进更好的现实主义和全球一致性。我们对人3.6 M和CMU-MOCAP进行了导通扩展实验。我们方法乘积的结果展示变异运动合成的可拓实结果任务、∗这研究is支持比研究所为媒体创新、南洋理工大学（IMI-NTU）和国家研究开发基地，新加坡在its国际研究中心在新加坡资助倡议。在这些材料中所表达的任何意见、寻找和承诺或建议都是作者(s)的内容，而且不能被再次提及。the观点的国家研究基金会、新加坡。这研究部分是由蒙纳士适合的启动补助和商汤科技奖励基金、国家科学基金补助CNS1951952和SUTD项目支持的PIE-SGP-Al-2020-02。与the合成的议案迪斯廷克特利适应比the吉文行动公司标签。1. 导言现实的生成与可仿造的人体动画--具有特定动作的是一种超度的探索，但也是一种挑战任务在计算机视觉和图形学【29，4]。进行合成斯穆特和自然的议案、传统方法[30，32【坚持复杂姿势的可利用性，是时间的消耗和消耗到奥宾。近期深度学习方法[5，60，56，55，17，20，61，58]有被研究的可仿效人类莫---- 豪韦弗、辛斯差速器运动合成任务有区别的目标和期望值（美国西恩在图1）、许多方法要么被限制为一种类型的运动合成论文任务，要么使用不同的方法来地址各种不同的任务。为例，much工作[6，14，37，63]是在运动预测任务上的Fo-cused，类型采用再电流神经网络（RNN）架构来预测序列fu框架，新的一个依赖只在预先生成框架上。阿尔托在运动预测中的表现井，他们的方法不是直接的组曲。广义化到其他运动合成任务苏奇美国Mo-Tion完成、内插和时空恢复ery，美国肖恩在图1，为惠希博思前进和后向依赖者应该被挖掘。Moreover，many methods[5，60，56]它关注的是在地面真相和生成之间尽量减少预测结构错误莫-蒂翁序列、怀勒勒斯孔西德林运动多样性以及人性化、惠希阿雷阿尔索西格尼菲坎特为现实Gen-Eration。弗瑟莫尔，在精准运动动画中，它是11646图1. 我们统一框架汉德勒斯差速器三维运动辛-泰西斯任务、广义化到塞维拉尔现存问题苏奇美国预diction、完成、内插和时空恢复。吉文安阿利塔里利蒙斯基德姿势系列、我们方法辛普塞西泽斯一个完整的consecutive序列无不知情普里奥信息从预先定义的关键帧。高可渴望的为a用户到be阿布尔到影响the类型在一代系列中的行动，当现有的解决方案可以精确地操纵运动系列的语义信息和一般的很好地区分合成任务。美国要找到统一档案的上述观测值为瓦里奥乌斯三维运动合成任务、何地we制罐机现实和迈纳宁富尔结果安德差速器Cir-Cumstances。关于支持我们灵活的雄心因科尔波-拉特斯语义指导为普雷西控制的代Mo-tions，我们想探索影响行动类型的能力的the代系列在这工作。到交易与采用单一模型的Var-ious输入条件，我们统一处理阿尼任意的输入美国a蒙斯基德运动系列。 The维斯-伊布勒零部件阿雷康西代里德美国the输入条件或约束，当遮蔽区域是针对自动生成的地方。可调和分歧可能解决方案----that阿雷一致性与the吉文观察者框架、we propose a框架法团化条件一种用于估计一个潜在分布的可变自动编码器（CVAE）the错过地区、来自惠希we can样本和辛-泰西泽多普劳西布勒结果。到恩库拉奇估计与地面真实分布之间的相合性，we引入duce两个并行但连接的分支during培训。就像在人物中看到的那样2中，底层分支使用地面真相以阻断缺失地区的先验分布，重新构建原先的运动系列。上分部，代理美国the推论分支机构、塔克斯the可见的约束到埃斯蒂-mate the条件拉坦特分布和桑普莱斯与此不同的结果分配。在添加到基于CVAE的通用运动合成框架中，我们also allow more precise操纵-拉蒂翁的运动斯泰尔斯。在颗粒状、we普罗波塞安作用-自适应调制(AAM)使given子化抽动进入一代进程。进一步增强重新的眉心和全球一致性的the代系列、we在─引导编码器和解码器之间的交叉注意机制关于输入和输出之间的关系的特征对资本的看法。姿势，时间的不尊重距离。在总结、the玩贡献的这工作阿雷：我们提出了一个统一的基于CVAE的框架，用于处理变异运动合成任务，即当遇到不同输入条件、不同保真度和多样性时的预测、完成、内插和时空恢复要求。我们引入一种动作自适应调制（AAM）可以控制一代人的语义运动风格系列。我们设计了一个交叉注意机制，该机制利用长期背景信息来增强合成的现实性和全局一致性序列。我们对广泛使用的Human3.6 m和CMU-Mocap数据集进行了有指导意义的量化和质量评估。实验秀我们接近表现不佳的现存变差输入时的位姿综合方法、生成真实感和可模拟mo-级数条件约束。2. 相关的工作运动合成是一个通用的术语，包含了所有的任务，就像是运动预测、完成和定形。用统计学包含的人类运动合成论中的工作域[12，39]、学习型[55，17，20，61，16]和基于物理的[2，46，42]计算机视觉和图形中的甲基ods。这里我们主要关注最相关的学习基础接近。运动预测法典型问题是运动预测[14，11，6，34，3，15]，which典型推论预测未来人类运动的任务给一个简短的开头莫离子段。对这些任务的固有时间性质的充分认识，许多现有方法[14，37，47，5，63]用于时间建模的递归神经网络（RNN）的度假村。怀勒推进the边界的运动预测、这些方法中最重要的是逐步生成框架，与新的一个搁置在前生成框架。它是杠杆后向依赖的一个障碍，使它难以应用到更多的广义运动完成和内插任务中。莫雷奥弗，多途径[35，23，31，34，3，15]通过最小化地间MSE损失确定预测位姿。真理和生成的姿势系列，which鼓励一个单一最优结果的前例，在五月存在的多个普劳西布勒解决方案满意the吉文约束。到生产稳健和动态运动合成结果，生成模型【5，60，56，55，17，20，61，1】哈夫贝恩在后面。巴尔苏姆等。【5]结合Seq2seq框架-工作与a甘为运动预测、惠希is阿布尔到···11647-▲。{}{}▲。|||图2. 舍梅马蒂奇概览的我们提出网络建筑。杜林培训、二互补性零部件、纳梅利the可见的局部区域X我和the地真相的the不知情的错过Xu，阿雷同时性美联储进入the尊敬的编码器到埃斯普马特斯the分布的the错过区域超过a拉坦特太空。 The发行情况阿雷then乌塞德到样本the温塞恩嵌入式到代（上分支）和重建（底部-分支）the整序列。到弗瑟普雷西塞利曼尼普拉特山the语义指导为the合成的poses，we引言the动作适应型调制(AAM)在the译码舞台、福洛韦德比安行动分类器到普罗普盖特the语义信息阿克罗斯the整序列。莫雷奥弗、a交叉注意力机械装置is雇员到恩汉斯the一致性贝特韦恩the输入和产出特点。杜林检测、the输入关键帧只围棋通the厄佩尔-布兰奇的the网络无乌辛the鉴别者和分类器。 The合成的波塞斯阿雷联合与the输入关键帧美国the产出的the网络。网络A和乙（e.g.、编码器A和编码器B）伊姆普利相似的建筑师无共享重量。由随机抽取的差分潜在向量生成多结果分配。3. 提出方法吉文安阿利塔里利蒙斯基德姿势序列X我∈RT × K，运动插值与完成用于用特定键帧约束填充运动间隙，多重存在工作乌蒂利泽卷积的模型【56，25，20，64]、递归模型和【18，7】、协办的与状语序列网络到普罗维德一致性和普劳西布勒结果。为站着，哈维等。【18]介绍了一个过渡生成技术，它可以作为三维动画师的新工具服务，基于对抗递归神经网络。亨特等。【19]提出一种基于归一化流的通用运动-数据序列自回归体系结构。蔡等。【7]为骨架MO-TION合成提出两阶段GAN，第一阶段在哪里启动输入约束的最佳LA-TENT空间，而第二阶段生成时间信号被表示为潜在向量。到潜伏和骷髅空间之间的双向变换，燕等。【 56] 提出一种卷积序列生成网络（CSGN），which变形金刚the骷髅序列来自a系列的拉-坦特矢量采样来自a高斯进程(GP)和乌蒂-利泽斯格尔帕赫神经网络【28，52，51，53，49，54，50】用于姿态合成。托姆孔局部相干性的思想实现空间、we通知that兰登抽样来自a高斯-何地T德诺特斯the长的a序列和K is the数-伯的参数描述伊奇姿势、我们目标is到重新─c ov呃the错过r e吉昂斯Xˆu和代the富勒consec-ut我五e系列Xˆg=X我，Xˆu。这里X我=米Xg，和the地真相互补性区域Xu=（一）米）Xg。米雷弗尔斯到the二进制的面罩应用到the序列。美国statedearlier、这问题is a泛化作用的the人物中的八重现有运动合成任务shown 1。昂利克莫斯特现存运动预测方法【14，37，47，5】that度假村到a时态建模建筑苏奇美国RNN、we普罗波塞a基于CVAE的框架与二小腿小枝杜灵训练，which在人物上很显眼2。Below，我们讨论了其中的各个组成部分细节。吉文the观察者区域X我在a姿势系列、we at-坦普特到synthesize a普劳西布勒和现实姿势序列Xˆg=X我，Xˆu无洛辛the普里奥kn奥弗莱奇的the输入基框架。到做那么，we功利的a CVAE[44]-基框架、惠希埃斯普马特斯a参数化的分布的不见天日区域超过a拉坦特空间、来自惠希we can萨姆-普尔潜在向量zu到产生遗漏的零件Xu。福尔马利、这因沃尔韦斯a可变的下楼定界的the它的con-连代对数似然性观察：青色进程不充分利用全球背景线人-原木p（Xu|X我）≥-KL（q徽州（zu|Xu）||pϕ（zu|X我））（一）mation和also不适用于时空恢复任务。到地址these问题、we引言a小说+Eq徽州（zu|Xu）[原木（pθ（Xu|zu，X我））]，基于CVAE的框架which能够在全球背景下综合意义上的姿态序列，而且更多的意义能够推广到不同的任务，就这样作为运动预测、完成和时空Recov-Ery。何地KL is the库尔巴克-莱布勒分歧、zuis采样潜向量、q徽州（zuXu）是后部翻转功能，pϕ（zuX我）是条件先验，而且pθ（Xuzu，X 我）是想像力。分发的笔记--------------q徽州，pϕ和pθcan be参数化的比深神经11648|-|▲▲|∈-在{}n，c，tc，tc，tc，t+β网络、和we雷费尔读者报到the补充的档案对于详细的衍生品。一发行与情商。（1）is that the第二期限只拿上抽样来自q徽州（zuXu）杜林培训、惠希is恩科迪德比the地真相的the温塞恩区域Xu。今年五月不be最优为the合成杜林检测、我们只有可视区域的地方X我。减轻吐温训练和测试中的差距，激励[44】、我们修改了情商。（1）比抽样来自博思q徽州（zu|Xu）和pϕ（zu|X我）：罗g（p（Xu|X我））≥-KL（q徽州（zu|Xu）||pϕ（zu|X我））+在Eq徽州（zu|Xu）[原木（pθ（Xu|zu，X我））]+（一）在） Epϕ（zu|X我）[原木（pθ（Xu|zu，X我））]。（二）图3。动作自适应调制（AAM）应用于解码阶段的规范化层。微粒，我们先编码the预定义的行动标签比加法a位置嵌入-何地0在1是一种权衡参数。网络架构。图2给出了我们基于CVAE的统计框架的概述，该框架具有两个并行路径，一个编码器和一个译码器的惠氏一致性和the解码器网络股份身份重量。在Partic-Snake，为the上路径（阿尔索the测试路径）、the部分维斯-伊布勒姿势序列X我is乌塞德到infer the拉坦特分布pϕ（zuX我）从无处不在的地方，从我们可以样品拉坦特矢量zu和代the普劳西布勒富勒姿势Se-Ries。对于较低的路径，潜伏的分配q徽州（zuXu）is编码器来自the地真相的the温塞恩区域Xu。丁到each框架。要素明智和结果通常会卷积到每帧调制参数的产生γ和β作为学习的尺度和偏见常态化。专科医生、莱特h我be the活动的the我-th层的a深卷积的网络为a批次的N样品。L丁T is the语义标签的伊奇样品、何地丁is a集的整数去额定the一个热火朝天的行动标签。 T我is the长的the序列在the层、和C我is the号码的通道在the激活地图。 The调制的行动价值at site（n ∈ N、c ∈ C我，t ∈ T我）is吉文比：比联合the特点拔出的来自the可见的重新─金昂斯与采样潜向量包含信息the错过零部件、the目标的这路径is重建γ我（PE（L））我n，c，tσ我n，c我n，c我c，t（PE（L）），（三）原始姿态序列Xg=X我，Xu。莫雷奥弗，要保证thatthe合成的数据飞度在the培训集区─布妥、博思小径阿雷部署与安对立面学习网络促进高质量一代人。3.1. 基于CVAE的统计框架3.2. 动作适应型调制当用吉文约束合成人体动画时，典型的渴望能力会变得：can we曼尼普拉特山the运动斯泰尔斯的the代有明示语义指导的系列就像行动标签？要抓住这个问题，鼓舞人心[24，40，65]在图像风格的常态化图层中调整了空调分层转换，我们准备部署一个自适应的行动调制（AAM）杜林译码阶段（作为展示在人物4），按动作分类器遵循，以增强显著的动作相关特征。人物中AAM能找到的细节设计3《调变的地方》参数γ和β常态化层是从吉文行动标签学来的。到进一步利用顺序顺序，我们添加插入一个位置嵌入到行动标签，分配一个唯一编码的each框架价值。何地h我is the激活前常态化、PE is位置嵌入式功能跟随【45】、γ我（PE（L））和β我（PE（L））我们学习的调制参数规范化层，以及在n，c和σn，c是米恩和斯坦-达德偏离的the激活在渠道c的样本n。3.3. 交叉注意力机械装置一波特蒂亚尔限制为the电流框架is它是卷积架构中主要的救济，通过数据进行传播门局部信号。它是一个长途跋涉，保持，不充分利用距离特点的长距离的听力，作为一个一致的时间。贝特韦恩the吉文可见的区域和the合成姿势。地址这期，《变形金刚网络的灵感》[45]那雇用的全局注意的长期依赖模型，我们应用了一个交叉注意机制之间的编码器和解码器特征跨越尺度。具体而言，我们首先表现了一种多头的自我关注，以捕获框架之间的长期依赖关系。当我们引入编码器和非编码器特征之间的交叉注意，以加强受控约束和输出之间的关系系列。h11649gggrggL|||（L+L（L+L米pNrggggKL广告广告L米=||米▲。（Xˆg恩-Xg）||1（七）何地米面额输入的可见面罩序列。对抗损失。向便利化高品质代，我们未来公司两个歧视者丁A，丁乙重新定义法官whether。生成和重建的序列与数据集分布相匹配。灵感来自[48]，我们应用平均特征匹配损失来加强重建准确性：L广告 =||丁乙（Xˆ re c，L）-丁乙（Xg，L）||2（八）图4. 插图的the编码器和解码器建筑、何地丁乙（。）是判别器的输出特征图丁乙和L是回应行动标签。给副手萨里亚损失在the代路径、we阿多普特尔斯干【36，62]要改进现实主义：惠希法西利塔特the效果进程和联合的the跨越尺度的Fea-tures。为了明确，我们也在减少一个积木（底部达舍德方框）展示the德塔伊莱德建筑的伊奇德-L广告=【丁A（Xˆ ge n，L）-1]2。（九）编码舞台。3.4. 培训追随的失利是用的训练。分配正则化。在情商。（2），The KL Diver-Gence期限can be解读美国规格化the学习分类损失。 A分类损失cis简介─诱导促进基于动作的运动合成。在粒子，分类网络是预先训练的地面真理姿势系列。去火车我们的模型，我们应用L1范数到规格化the分类处理斯科雷斯山的the生成和重建的结果：L c=||CL（Xˆge n）-CL（Xg）||1+||CL（Xˆre c）-CL（Xg）||1条件普里奥pϕ（zu|X我）到the后迪斯里乙乌蒂翁gg（十）q徽州（zuXu）。在粒子，简化计算，我们定义博斯q徽州（zuXu）和pϕ（zuX我）作为高斯区的一瓶酒，损失是吉文。比g何地CL（。）是从分类中打分的网络。工装裤损失。联合所有the阿博夫遗失、we蒙蔽整体损失功能L：LKL=-KL（q徽州（zu|Xu）||pϕ（zu|X我））（四）为了加强平滑训练，我们会用一种传统的VAE【27】到模型the错过区域美国阿里辛来自aL=λKLKL+λ米（Lp）+ λ广告rg+Lg）+ λcLc（十一）平滑高斯先验p（zu）：LKL=-KL（q徽州（zu|Xu）||p（zu））（五）何地p（zu）=（0，σ2（米）我）中，到allow大潜伏先验方差当the号码的错过区域米is拉格。匹配损失。类比于情商中的似然术语。（2）、weencourage精准序列重建为了重建的路径（人物的最底层路径2随着L1的损失，吉文比L米=||Xˆr欧共体-Xg||1（六）何地Xˆr欧共体isthe重建的姿势系列和Xgisthe地真相的the整序列。Conversely、为the代路径（上路径在图2）we旺特到空调-康莫代特多样性和瑟斯只恩福尔斯the外观匹配方式的the可见的区域贝特韦恩the代就─昆斯Xˆg恩和the科伦布尔丁地真相Xg，乌辛米）r11650何地λ∗阿雷the折衷参数。在我们实施--tion，we setλKL=20，λ广告=1，λ米=20，和λc= 1。4. 实验4.1. 实施详情我们用PyTorch框架工作来实现我们的方法。 The三维波塞斯阿雷有代表性的在根部相对的三维联合定位不移除全球定向渡越训练和推论。杜灵培训，我们定了一个学习率10-4中，用亚当优化器小批号128个样品[26]。姿势系列的长度T它是一个为人类3.6 M和64为CMUMocap设置。四个头部在交叉注意机制中使用。注我们的模型可以不通过删除AAM和分类器模块而不使用行动标签，以及不为鉴别者使用行动标签，也可以照样应用到数据中。请参阅补充文件，以获取更多我们的详细信息实施。11651图5。关于Human3.6 m和CMU-Mocap数据集的我们提出的不同动机相关任务模型的限定性示例。格雷·波塞斯阿雷the预定义的输入框架（或局部车身的索姆帧）、怀勒the红&蓝色骷髅序列阿雷the合成的波塞斯。输入约束可以灵活地设置为任意位置的注释与变奏密度。4.2. 数据集我们评价了我们关于两个发布可用数据集的方法：人3.6 m[22]和CMU-Mocap 1。Human3.6M. 这数据集【22】is a规模很大的和人体运动合成和三维姿势估计的共同单一使用数据集，7个被试的一致性。用地面真实三维姿势注释表演了一种动作品种。在我们实验、在秩序到雷杜采冗余框架和鼓励大运动变奏曲，我们的子样本视频帧到每秒10帧。我们亲自动手的行动课是“方向”、“坐”、“坐下”，“散步”、“拍照”、“抽烟”和“吃饭”。在[10，33，38，9，13，8]，我们接受了5个科目（S1，S5、S6、S7、S8）为培训和2主体（S9和S11）用于测试。全球翻译和恒定关节被排斥在我们之外实验。CMU-Mocap。去展示泛化的能力我们提出的方法、we 阿尔索评价我们表演论CMU mocap数据集（CMU-Mocap）。在我们的实验中，我们精选6行动克拉塞斯为评价、包罗万象“bas-ketball”、《跳跃》、“Washwindow”、etc. We下采样each序列到25框架每第二个。 The数据处理与为一样Human3.6M.4.3. 评价计量学评价合成姿态序列的质量是一个艰难的问题，对不同合理的可能性有充分的解释为伊奇蒙斯基德姿势序列。普雷维奥乌斯方法1可用的athttp://mocap.cs.cmu.edu/无论以MPJPE（每个联合位置误差的最小平均数）来评估地面真相之间的距离和协议产生的结果[6，14，37，63]、或以分配为基础计量学、e.g。国际发展部（弗雷谢盗梦空间 Dis-Tance）， IS （盗梦空间评分），衡量一代Fi-Delity[56，7，61]。在我们的论文中，通过更多的预定义输入约束使一代人的多样性变得更小，而当它来产生更长范围的缺失部分时却变得更大，我们采用的是 MPJPE和基于分布的计量学（FID、IS、和多样性）到综合样本的全称性评价，运动的生成不确定性条件系列。MPJPE. 对于用预先定义的过去和未来框架来完成序列，我们认为我们的50个合成样本中的一个将接近地面真相，并且用最小MPJPE来验证单个样本。我们应用30帧的中心掩模来完成each序列评估。国际发展部，它和多样性。面向长范围世代随着初始输入帧的增加，序列是有的迪里塞斯可能的期货在共计差速器趋势、资讯科技这是不赞成直接比较综合结果与一个地面真理。Instead，我们主要关注的是如何将结果与真实数据进行充分的现实对比，因为它很好地被分散到了多重可模拟解决方案的产生。在粒子，遵循评价指标的[56 [which]是从图像/视频生成问题扩展而来的[62，59，41，7]，《我们采用弗雷谢盗梦空间距离》（国际发展部）[21]这就是统计距离的措施贝特韦恩the雷亚尔和合成的数据在the特写11652图6。从相同的初始姿势中产生的不同动作。通过设置不同的语义指导，我们的模型生成了语义意义结果的一个变量，得到了相同的输入框架。表1. 分类处理阿库拉西（%）的差速器行动克拉塞斯论人类3.6M乌辛a分类器独立报受训与地真实三维姿势系列。我们的方法有适当的行动指导和行动自适应调制（AAM）一致性改进大余量分类精度与其他两种比较基线。数据坐鸣声步行塔金福图方向西廷当斯斯莫金吃平均我们的w/o行动0.280.450.820.100.300.870.320.470.45我们的w/action w/oAAM0.410.620.910.510.630.900.570.660.65我们的w/行动w/AAM0.850.930.990.890.810.990.970.810.91表2。用FID/IS/di-versity度量对Human3.6 M进行量化结果评估长期生成，并MPJPE评估完成精度。最好的结果是标在大胆。方法国际发展部g（↓）国际发展部a（↓）IS（↑）多样性（↑）HP-GAN【5】272.3365.23.480.05MPJPE（↓）-两阶段【7】327.8453.61.330.11154.9CSGN【56】136.8264.54.350.17185.2我们的w/o行动88.2192.36.120.26115.6我们的w/行动62.5111.36.870.1997.3空间，和盗梦空间得分（IS）[43]那分析了each生成序列超过所有类的类概率。附加，我们介绍a多样性那记分用相同的输入条件估计多代输出的特征标准偏差。所有世代的运动都被评价为不移除方向。为了公平和完整的比较，FID将进一步分为两个指标：国际发展部g对整个数据集的真实序列和合成序列之间的分布距离进行了概括的评估，并国际发展部a它计算了基于一般年代的统计离散度。获得等级化分数和中级特质，我们关注[56]在培训一个基于ST-GCN的分类器[57【与地面真相训练数据。用于FID和多样性评分的中间特征是从最后一层提取出来的特征图。以长时间骨架序列精确分析运动模式，我们将合成序列切成八个短片段，each长30帧，用于量化目的评价。动作分类。从以上指标到评价一代人的质量，我们也想考查车轮the合成的桑普莱斯阿雷实际上留存在与吉文行动标签相同的运动风格。到这个尽头，we雇员the预先训练的ST-GCN【57】到计算each行动课的分类精度。笔记that表3。关于CMU-Mocap数据集的量化结果。贝斯特结果被标记在大胆。方法国际发展部g（↓）国际发展部a（↓）IS（↑）多样性（↑）HP-GAN【5】188.5214.22.360.01MPJPE（↓）-两阶段【7】386.4426.91.020.02162.2CSGN【56】146.7223.53.750.04188.3我们的w/o行动86.2162.34.320.08126.7我们的w/行动84.697.74.670.05108.6表4. 影响的the克罗斯注意机械装置论Human3.6M.为费尔比较、行动拉贝尔阿雷杠杆作用的为博思方法。方法国际发展部g（↓）国际发展部a（↓）IS（↑）多样性（↑）MPJPE（↓）我们的w/o克罗斯注意71.3120.16.430.18我们的w/克罗斯注意62.5111.36.870.18104.497.3五号桌。评价生成质量和运动风格操作的感知用户研究。一个更高的分数指标更真实-刻度/样式一致性结果。HP-GAN[5】两阶段[7】CSGN[56】我们w/o行动我们的w/action代品质3.131.982.863.913.92斯泰尔一致性2.311.952.062.344.12the高the识别准确性、the贝特the遵循实类特定运动的样本生成模式。4.4. 位姿序列的结果代定量比较法。我们把我们的方法比作最新技术的方法[5，56，7]那东西是可承受的普罗维德多合成的结果论博思人3.6 m和CMU-Mocap。既然我们的模型可以选择与语义指导相补充，我们就会被排除在经验门之外。与二瓦里安茨的我们方法：a）乌尔斯w/o行动报that卸载the AAM和分类器模块化、和多埃斯不得为歧视者使用行动标签; b）我们的w/action语义操作的操作标签的杠杆作用。方法比较包含基于RNN的HP-GAN[5]，基于卷积图的CSGN[56]that横贯-11653图7。人类3.6 M数据集比较的可视化实例。从上到下，我们展示了HP-GAN的成果[5]、CSGN[56]和我们的方法。我们看到基于RNN的HP-GAN毕业冻结为静态位姿和CSGN五月生成的非自然位姿完全符合高斯随机抽样过程。高斯过程到Se-Ries位姿的形式随机向量，以及两阶段生成模型[7]这是一种单序策略。量化结果，FID对Mea-Sured a/国际发展部g/IS/Diversity/MPJPE for the代和完成任务、阿雷总结在塔-布尔斯2和3。由于HP-GAN无法支持Mo-Tion完成任务，我们仅报告了两个阶段和CSGN的每共振峰完成情况（MPJPE）模特们。作为表格中的seen，为了完成和长期序列的生成，我们的方法（我们w/o行动）值得一提的是，它揭示了人类3.6 M和CMU-Mocap上的领先优势。更多，加上行动标签（我们的w/action（FID/IS）未来要照顾一代现实主义（FID/IS）和完成精度（MPJPE），因为生成序列是莫尔利克利到跟随the运动斯泰尔斯的the吉文行动标签，领先到贝特一致性与the雷亚尔数据分配。在addition中，我们被通知与之比较的我们的w/action中，我们的非行动方法（我们w/o行动）实现更高多样性评分。这是意料之中的，作为一代人的多样性将通过对一种运动风格的约束而减少。对于现身说法，a站立initial姿势梅铅到多可能的未来运动，就像走路，坐，跑。Ifwe specify the未来行动美国行走、the可能性威尔be有限公司达成一致。人类评价We孔德克特德感性的用户研究-我们评估一代质量和运动风格的MA-Nipulation，100名参与者从不同方法中看到了一代运动序列，并要求为一代质量和运动风格的一致性得分1-5分，哪里更好。五MOD-ELS（HP-GAN[5]、两阶段[7]、CSGN[56]，oursw/o ac，ours w/actions）在Human3.6 M数据集上的测试被用于评估。为了公平比较，each序列是从与这10个帧相同的输入约束中生成的。我们从each模型中抽取了100个用于each操作类的运动夹，并要求Eachpartic-ipant来评估从问题池中选择的20个随机序列。表5展示我们的方法（我们的w/o行动，我们的w/action）是以提高生成质量为主导的，当（我们的w/action）是在操纵运动中的效果斯泰尔斯。合格结果。为了质量分析，we第一在Both Human3.6 m和CMU-Mocap数据集上为变异运动相关任务提供我们非行动方法的一些可视实例。就能在人物身上看到5，我们的模型是可生产的现实和可仿效的姿势系列，与杂项输入匹配良好约束。图6赠送我们行动指导方法的few视觉结果与the同initial姿势但是差速器行动标签。Wecan见那么，比设置差速器语义引导、完全区分但语义意义下的我们方法乘积可模拟未来动力学趋势。We阿尔索普罗维德a可视化处理埃克安普勒到秀如何我们的结果普罗维迪斯a质量较高的雷苏尔特比较到其他AP-Proaches。美国西恩在图7，the基于RNN的HP-GAN引导一个冰冻状态的长期预测，当CSGN占用代非自然的波塞斯杜伊到泰尔随机抽样法方法。Conversely、我们方法生产可浮动无冷冻长航渡预测。4.5. 消融作用研究作用-自适应调制的影响。为评价我们所建议的行动-适应调节（AAM）MO-TION风格操纵，遵循基线的我们行为分类实验：a）ours w/o交流电;b）我们w/action w/o AAM：将行动标签和潜在特征直接串联起来，作为无杠杆AAM解码器的输入; c）我们的w/action w/AAM：我们提出的方法对语义操作的效用是AAM。成果都列在表上了1。对照基线-A，提高行动标签（基线-b）元素-囚禁改进的the分类处理阿库拉西来自45%到65%。莫雷奥弗、乌辛我们提出AAM弗瑟改进的阿库拉西到91%，示范the有效性的我们为语义提出的AAM操纵。影响的the交叉注意力机制。 We阿尔索排除交叉注意机制的影响。作为秀场在表4，我们方法与the克罗斯注意机械无政府主义一致性不良在所有评价指标中一个没有，清晰地演示了它有效性。5. 会合We哈夫提出a统一基于CVAE的模型到汉dle变异三维运动合成任务。不似现有方法，我们的框架启用了具有灵活输入约束的自动运动合成-sis。为了进一步操纵一代系列的运动风格，我们设计了一个动作自适应的调制（AAM），通过整个序列来传播完美的指导。我们也被引导到改进现实主义的交叉注意机制和全球一致性。实验结果论二本希-马克数据集德蒙斯特拉特德the上位表演的我们提出的方法。11654参考资料[1] Kfir Aberman，Rundi Wu，Dani Lischinski，陈宝权和Daniel Cohen-Or。学习角色不可知论的为运动重定向作用在二维。 ACM交易论图形学（TOG），38（4）：1-14，2019。 2[2] 伊贾兹·阿赫特和迈克尔·J·布莱克。三维人体姿势重建的姿势条件关节与gle极限。在计算机视觉与模式识别IEEE会议的过程，2015年第1446-1455页。 2[3] 埃姆雷·阿克桑，曼努埃尔·考夫曼，还有奥特马尔·希利格斯。结构化预测帮助三维人体运动建模。在计算机视觉 IEEE/CVF 国际会议会刊， pages 7144-7153 ，2019。 2[4] 布莱恩·F·艾伦和彼得罗斯·法卢索斯。用于仿真的进化控制器机车。在国际讲习班论游戏中的运动，页219-230。斯普林格，2009年。 1[5] 埃马德·巴苏姆，约翰·肯德，还有刘自成。Hp-gan：通过gan的概率三维人体运动预测。在Pro-Ceedings的theIEEE会议论计算机视觉和帕特-燕鸥识别讲习班，佩吉斯1418-1427, 2018. 1，2，3，7，8[6] 朱迪思·布特佩奇，迈克尔·J·布莱克，丹妮卡·克拉吉奇和赫德-维格·凯耶尔斯特伦。面向人类的深度表征学习莫离子预测和分类。在计算机视觉与模式识别IEEE会议论文集，页6158-6166，2017年。1，2，6[7] 好叶菜、春燕白、裕永泰、及智强堂。人类动作序列的视频深度生成、预测与完成。在欧洲计算机视觉会议（ECCV）会刊第366-382页，2018。3，6，7，8[8] 育君蔡、柳豪哥、健飞蔡、娜蒂娅玛格纳纳特-塔尔曼、和俊松元。三维手姿势估算使用合成数据和弱标签rgb图像。关于模式分析和机器智能的IEEE Trans-Actions，2020年。6[9] 玉君才、柳浩阁、剑飞才、俊松元。从MonoCu-LARRGB图像进行弱监督的三维手位估计。在欧洲计算机视觉会议（ECCV）会刊，页666-682，2018。 6[10] 蔡裕俊、葛柳豪、刘军、蔡剑飞、詹达珍、袁俊松，以及Nadia Magnenat Thalmann。利用图卷积网络实现三维姿态估计的Exploit-ING时空关系。在IEEE计算机视觉国际会议会刊，Pages 2272-2281，2019。 6[11] 蔡裕君，林煌，王义伟，湛达珍，蔡剑飞，袁俊松，刘军，徐扬，朱一恒，小惠沈，等。用于人体运动预测的学习渐进联合传播。在欧洲计算机视觉会议（ECCV）会刊，2020年。 2[12] 金香·柴和杰西卡·K·霍金斯。用统计动态模型进行约束的MO-TION优化。在ACM SIGGRAPH2007文件8-es页面。2007. 2[13] 浩树方、原路徐某、文官王女士、小白刘某、还有颂春朱。学习姿势语法编码人类三维姿态估计的身体配置。预印 arxiv arxiv ：1710.06513，2017年。 6[14] Katerina Fragkiadaki，Sergey Levine，Panna Felsen和Ji-Tendra Malik。人动态的递归网络模型-ics。在议事录的the IEEE国际会议论计算机视觉，2015年第4346-4354页。1，2，3，6[15] 帕塔·戈什，杰·松，埃姆雷·阿克桑，还有奥特马尔·希利格斯。用于长期预测的学习人体运动模型。在2017国际会议论三维视觉（3DV），页458-466。IEEE，2017年。 2[16] 川国、欣欣左、森王、世豪邹、清尧孙、安南邓、明伦功、李成。AC-tion2motion：三维人体运动的条件生成。在议事录的the第28届ACM国际会议论多媒体上，页202

下载后可阅读完整内容，剩余1页未读，立即下载