没有合适的资源?快使用搜索试试~ 我知道了~
11374随机场景感知运动预测Mohamed Hassan1 Duygu Ceylan2 Ruben Villegas2 Jun Saito2 Jimei Yang2 Yi Zhou2 MichaelBlack11MaxPlanckInstituteforIntelligentSystems,Tübingen,German y2AdobeResearch{mhassan,black} @ tue.mpg.de{ ceylan,villegas,jsaito,jimyang,yizho} @ adobe.com图1:SAMP合成虚拟人导航复杂的场景与现实和多样化的人类场景交互。摘要计算机视觉的一个长期目标是捕捉、建模和真实地合成人类行为。具体来说,通过从数据中学习,我们的目标是使虚拟人类能够在杂乱的室内场景中导航并自然地与对象交互。这种具体化的行为在虚拟现实、计算机游戏和机器人技术中具有应用,而合成的行为可以用作训练数据。这个问题是具有挑战性的,因为真实的人体运动是多样的,并适应场景。例如,一个人可以在许多地方坐在或躺在沙发上,并且具有不同的风格。我们必须对这种多样性进行建模,以合成逼真地执行人-场景交互的虚拟人。我们提出了一种新的数据驱动,随机运动合成方法,模型不同风格的执行-ING给定的动作与目标对象。我们的场景感知运动预测方法(SAMP)推广到各种几何形状的目标为了训练SAMP,我们收集了涵盖各种坐、躺、走和跑风格的MoCap数据。我们证明SAMP在复杂的室内场景,并实现优于现有的- ING解决方案的性能。代码和数据可在https://samp.is.tue.mpg.de上查阅。1. 介绍计算机视觉社区在3D场景理解和捕获3D人体运动方面取得了实质性的进展,但较少的工作集中在合成方面3D场景中的3D人物。然而,这两个子领域的进步已经为虚拟世界的具体代理(例如,虚拟现实)提供了工具,并且已经引起了对虚拟世界的具体代理的 [35,42,55,56])和将人类置于场景中(例如,[6,21])。然而,创建像真人一样移动和行动的虚拟人是具有挑战性的,并且需要解决许多较小但困难的问题,诸如对看不见的环境的感知、合理的人体运动建模以及与复杂场景的具体交互。虽然由于大规模数据集[7,33,38,45,50]的可用性,在人类运动建模[23,32]方面已经取得了进展,但真实地合成移动并与3D场景交互的虚拟人仍然在很大程度上未解决。想象一下,在一个杂乱的场景中,指示一个虚拟人“坐在沙发上”,如图所示。1.一、为了实现这个目标,角色需要执行一系列复杂的动作。首先,它应该在场景中导航以到达目标对象,同时避免与场景中的其他对象发生碰撞。接下来,角色需要在沙发上选择一个接触点,这将导致一个面向正确方向的舒适坐姿。最后,如果角色多次执行这个动作,那么动作中应该有自然的变化,模仿真实世界中的人与场景的交互;例如,在一个实施例中,以不同的方式坐在沙发的不同部分,如交叉双腿,手臂摆出不同的姿势等。实现这些目标需要系统联合地推理场景几何形状、在循环(例如,行走)和非循环(例如,坐)运动,并对人-场景交互的多样性进行建模。为此,我们提出了SAMP场景感知的Mo-11375预测。SAMP是一种随机模型,其将3D场景作为输入,对有效的交互目标进行采样,并生成描绘真实动态角色-场景交互的角色的目标调节和场景感知运动序列。SAMP的核心是一种新的自回归条件变分自编码器(cVAE),称为Mo- tionNet。给定一个目标对象和一个动作,MotionNet在每一帧采样一个随机的特征向量,以在角色的前一个姿势上调整下一个姿势以及随机向量。这使MotionNet能够在执行目标动作时对各种样式进行建模。给定目标对象的几何形状,SAMP进一步使用另一种称为GoalNet的新颖神经网络来生成目标对象上的多个似然接触点和取向(例如,不同的位置和坐在沙发垫子上的方向)。该组件使SAMP能够在具有不同几何形状的对象之间进行泛化。最后,为了确保角色在杂乱场景中到达目标时避开障碍物,我们使用显式路径规划算法(A* 搜索)来预先计算角色的起始位置和目标之间的无障碍路径。此分段线性路径由多个路径点组成,SAMP将其视为中间目标以在场景中驱动角色。SAMP以30fps实时运行。据我们所知,这些单独的组件,使SAMP的第一个系统,解决了产生不同的动态运动序列,描绘现实的人在杂乱的环境中的场景交互的问题。训练SAMP需要丰富多样的角色场景交互的数据集。现有的大规模MoCap数据集主要由运动主导,并且少数交互示例缺乏多样性。此外,传统的MoCap专注于身体,很少捕捉场景。因此,我们捕获了一个新的数据集,涵盖了与多个对象的各种人类场景交互。在每个运动序列中,我们使用高分辨率光学标记MoCap系统跟踪身体运动和对象。该数据集可用于研究目的。我们的贡献是:(1)一种新的随机模型,用于实时合成各种目标驱动的角色-场景交互。(2)一种新的方法建模plasi-ble行动相关的目标位置和方向的身体给定的目标对象的几何形状。(3)将显式路径规划结合到变分运动合成网络中,使得能够在杂乱场景中导航。(4)一个新的MoCap数据集,具有不同的人类场景交互。2. 相关工作相互作用合成:分析和合成合理的人-场景交互已经受到计算机视觉和图形学界的广泛关注。已经提出了用于预处理的各种算法。指示对象功能[16,66]、示能表示分析[18,53]以及合成静态人-场景交互[16,18,21,27,41,62,64]。较少探索的领域涉及生成动态的人-场景交互。虽然早期的工作[28]侧重于在捕获运动的相同环境中合成角色的运动,但后续工作[2,26,29,43]从大型数据库中组装运动序列,以合成与新环境或角色的交互。然而,这样的方法需要大型数据库和昂贵的最近邻匹配。人类场景交互的一个重要子类别涉及运动,其中角色必须以适当的脚放置来响应地形的变化。相位函数神经网络[23]通过使用表示运动周期状态的引导信号(即,相)。Zhang等人[61]扩展该思想以使用专家的混合[13,25,60]作为运动预测网络。一个额外的门控网络用于预测专家混合权重在运行时。与我们的工作更密切相关的是神经状态机(NSM)[47],它扩展了阶段标签和专家网络的思想,以模拟人类场景交互,如坐,携带和打开。虽然NSM是一种强大的方法,但它不会在这种相互作用中产生变化,这是我们的关键贡献之一。我们的实验还表明,NSM往往无法避免3D字符和对象之间的混乱场景(第二节)。5.2)。此外,训练NSM需要耗时的手动且通常模糊的非周期性动作的阶段标记。Starke等人[48]提出了一种在两人篮球比赛的环境中自动提取每个身体部位的局部相位变量的方法。然而,将局部阶段扩展到非周期性动作并非微不足道。我们发现,使用预定采样[5]提供了一种替代方法,可以生成平滑过渡,而不会产生相位标签。最近,Wang et al.[52]介绍了用于合成人-场景交互的分层框架。它们生成场景中的子目标位置,预测这些子目标中的每个子目标处的姿势,并且合成这些姿势之间的运动。该方法需要后优化框架以确保平滑度和稳健的足部接触并且阻止与场景的穿透。Corona等人[11]使用语义图来建模人-对象关系,然后使用RNN来预测人和对象的移动。另一种方法使用强化学习(RL)来构建对交互进行建模的控制策略。Merel等人[37]和Eom et al.[14]以自我为中心的视野来专注于接球。Chao等人[10]训练子任务控制器和Meta控制器来执行子任务以完成坐姿任务。然而,与SAMP相反,他们的方法不允许目标位置的变化11376我我我--我我-∈我我∈我∈我 我 我 我 我 我 我 我 我 我 我 我我我我我我∈ ∈∈- ∈∈选择和方向。此外,与许多基于RL的方法一样,将学习到的策略推广到新的环境或动作通常具有挑战性。运动合成:神经网络(前馈网络,LSTM或RNN)已广泛应用于运动合成问题[1,15,19,24,36,49,51]。典型的方法基于先前帧来预测角色的未来运动。虽然在生成短序列时显示出令人印象深刻的结果,但这些方法中的许多方法在长序列上测试时要么收敛到平均姿势,要么发散一种常见的解决方案是采用计划采样[5],以确保在测试时稳定的预测,以生成长运动和舞蹈序列[32,65]。几项工作集中在人体运动的随机性建模,特别强调轨迹预测。给定一个角色的过去轨迹,他们会模拟多个可能的未来轨迹[4,6,8,17,34,40,44]。最近,Cao et al.[6]对多个未来目标进行采样,然后使用它们来生成不同的未来骨骼运动。这与我们使用GoalNet的精神相似。不同之处在于,我们的目标是预测总是导致相同目标对象的各种轨迹(而不是预测任何可能的未来轨迹)。对整个人体运动的随机性进行建模是一个探索较少的领域[54,58,59]。运动VAE [32]使用条件变分自动编码器的潜在空间来预测下一个姿势而不是一个姿势的分布。MoGlow是一种基于规范化流的可控概率生成模型[22]。从音乐中产生不同的舞蹈动作最近也被探索[30,31]。Xu等人[57]通过混合来自数据库的短序列来据我们所知识,以前的工作没有解决的问题object.路径规划模块计算角色的起始位置和目标位置之间的无障碍路径。完整的流水线如图所示。二、3.1. MotionNetMotionNet 是 一 种 自 回 归 条 件 变 分 自 编 码 器(cVAE)[12,46],其生成以其先前状态为条件的字符的姿势(例如,姿态、轨迹、目标)以及交互对象的几何形状。MotionNet有两个组件:编码器和解码器。编码器将角色和交互对象的先前和当前状态编码为潜在向量Z。解码器采用该潜在向量、字符管道如图所示3 .第三章。请注意,在测试时,我们仅利用MotionNet的解码器并从标准正态分布中采样Z编码器:编码器由两个子编码器组成:状态编码器和交互编码器。状态编码器将字符的先前和当前状态编码为低维向量。类似地,交互编码器将对象几何形状编码成不同的低维向量。接下来,两个向量被连接并通过两个相同的全连接层,以预测表示潜在嵌入空间的高斯分布的平均值μ和标准差σ然后,我们对随机潜在代码Z进行采样,当预测字符的下一个状态时,将其提供给国家代表:我们使用类似于Starke等人的表示。[47]以编码字符的状态具体地,帧i处的状态被定义为,jp,jr,jv,j~p,tp,td,t~p,t~d,ta,gp,gd,ga,c,,(1)产生不同的人-场景交互。3. 方法其中,jpR3j、jrR6j、jvR3j是每个关节相对于根部的位置、旋转和速度。 j是骨架中的关节数,在我们的在clut中生成动态人场景交互斯特雷 环境 需要 解决方案 到 几个子数据~p∈R3j是相对于未来的关节位置tp∈R2t和td∈R2t是根问题 首先,相对于框架根部的位置和前进方向的合成运动角色应该是现实的并且捕捉自然变化。给定目标对象,重要的是对用于执行特定动作(例如,坐在椅子上的位置以及面向哪个最后,需要合成运动,使得其导航到目标位置,同时避免穿透场景中的对象。我们的系统由三个主要部分我1.一、t~pR2t和t~dR2t是根位置,并且相对于帧i的目标的前向方向。我们定义这些输入为t时间步长,在[ 1,1]秒之间的2秒窗口中均匀采样。taRnat是t个样本中的每个样本上的连续动作标签的向量。在我们的实验中,na是5,它是我们建模的动作(即,空闲、行走、奔跑、坐下、躺下)。gp∈解决这些子问题的组件:一个Mo-R3t,gd∈R3t是目标位置和方向,并且图10示出了图10的系统1000的框图,其包括图10的系统1000的操作系统1000、图11的操作系统1000、图12的操作系统1000、图13的操作系统1000、图14的操作系统1000、图15的操作系统1000、图15的操作系统1000、图16的操作系统1000、图15的操作系统1000、图16的操作系统1000、图16的操作系统1000和路径规划模块1000。在我们的方法的核心是运动网络预测的基础上,以前的姿势,以及其他因素,如互动对象的几何形状和目标的目标位置和方向的字符的姿势。GoalNet预测目标位置和方向,用于在期望的目标上的交互。gaRnat是描述要在t个样本中的每个样本处执行的动作的独热动作标签。ciR5是接触骨盆、脚和手的标签。状态编码器:状态编码器获取当前状态Xi和先前状态Xi-1,并使用三个完全连接的层将它们编码为低维向量J根1秒前。11377× ×−∈∈Σ2图2:我们的系统由三个主要组件组成。GoalNet预测给定交互对象的定向目标位置(绿色球体和椅子上的蓝色箭头)。路径规划模块预测从起始位置到目标的无障碍路径。MotionNet按顺序预测下一个角色状态,直到执行所需的动作。图3:MotionNet由编码器和解码器组成。编码器由两个子编码器组成:状态编码器和交互编码器。解码器由预测网络和门控网络组成,预测网络预测下一个字符状态和预测混合权重。参见第第3.1条交互编码器:交互编码器采用交互对象I的体素表示并将其编码为低维向量。我们使用大小为8 8 8的体素网格。每个体素存储一个4维向量前三个分量是指体素中心相对于字符根的位置第四元素存储体素的实值占用(在0和1之间)该架构由三个完全连接的层组成解码器:解码器获取随机潜在码Z、交互对象表示I和先前的交互对象表示I。状态Xi−1,并预测ne xt个状态Xi。类似于最近工作[32,47],我们的解码器是作为一个混合的专家有两个组成部分:预测网络和门控网络。预测网络负责预测第n个状态X^i。预测网络的权重为通过混合K个专家权重来计算:3.2. GoalNet给定目标交互对象(其可以由用户在测试时间交互地定义或在场景中的对象中随机采样),角色由目标位置gpR3和方向gdr3采样在物体的表面。以便执行现实的相互作用;角色需要能够根据对象几何形状预测这些目标位置和方向。例如,虽然普通的椅子允许在坐的方向方面的变化,但坐在扶手椅上的方向是受限制的(见图1)。(七).我们使用GoalNet来建模特定于对象的目标位置和方向。GoalNet是一种条件变分自动编码器(cVAE),其预测给定目标交互对象I的体素表示的可行目标位置和方向,如图所示4.第一章编码器将交互对象I、目标位置g_p和方向g_d编码为潜在代码Z_goal。解码器重新-Kα=ωiαi,(2)i=1其中,混合权重ωi由门控网络预测。每个专家是一个三层完全连接的网络。门控网络也是一个三层全连接网络,它将Z和Xi−1作为输入。MotionNet经过端到端训练,以最大限度地减少损失L运动=||2+ β 1 KL(Q(Z||Xi,X i − 1,I)|其中第一项最小化||p(Z)),(3)where the first term minimizes the difference betweenthe从 Z和I构造目标位置gp 和方向gd。我们使用类似于MotionNet中使用的体素表示来表示对象(第2节)。第3.1节)。的唯一的区别在于,我们计算相对于对象中心的体素位置,而不是相对于字符根的位置。在编码器中,我们使用了一个类似于MotionNet中使用的交互编码器(参见第二节)。3.1)以将对象表示I编码为低维向量。然后将该向量与g_p和g_d级联,并进一步编码到潜在向量Z目标。解码器具有与图1所示的编码器相同的架构。4.第一章训练网络以使损失最小化:L目标=||gp−gp||2个以上||gd−gd||2角色和KL2 2的表示Kullback-Leibler散度。+β2KL(Q(Z)g)l|gp,gd,I)||p(Zgol))。(四)11378N--∼--∼----∼1epoch−C1C2−C 1C1<时期≤C2,图4:GoalNet在一个对象表示I中生成多个有效的目标位置gp和方向gdg i。FC(N)表示大小为N的全连接层。在测试时,给定一个目标对象I,我们随机抽样Z目标(0,1),并使用解码器生成各种目标位置GP和方向GD。3.3. 路径规划为了确保角色可以在避免障碍物的同时在混乱的环境中导航,我们采用了显式A* 路径规划算法[20]。给定期望的目标位置,我们使用A* 来计算从角色的起始位置到目标的无障碍路径。该路径被定义为一系列路径点,其中i=w0、w1、w2、…定义路径改变方向的位置。我们将执行最终所需动作的任务分解为子任务,其中每个子任务要求角色步行到下一个航点。最后一个子任务要求角色在最后的路径点执行期望的动作。3.4. 培训战略使用标准监督训练对MotionNet进行训练,在运行时会产生质量较差的预测(请参见附录Mat.)。这是由于当网络的输出作为下一步骤的输入被反馈时,在运行时误差的累积。为了解决这个问题,我们使用预定采样[5]来训练网络,这已被证明可以产生长期稳定的运动预测[32]。在训练期间,当前网络预测被用作下一个网络预测的输入。训练步骤,概率为1-P。P是(参见Sup。材料):1epoch≤C1,P=(五)0时期> C2。4. 数据准备4.1. 运动数据为了模拟人类场景交互的变化,我们使用具有54个Vicon相机的光学MoCap系统捕获新的数据集。我们在MoCap区域的中心放置了七个不同的对象,即两个沙发,一个扶手椅,一个椅子,一个高酒吧椅,一个低椅子和一张桌子。我们用不同的风格记录每个互动的多个片段。在每个序列中,受试者在MoCap空间中的随机位置中从A姿势开始,向目标行走弹出,并执行该操作20-40秒。最后,受试者从物体上站起来并走开。我们的目标是捕捉执行相同动作的各种风格,因此我们要求受试者在每个序列中改变风格。除了主体之外,我们还使用附加的标记来捕获对象姿势。我们也有每个对象的CAD模型。最后,我们捕获运行,行走,和空闲序列,其中受试者以不同的速度在不同的方向上行走和运行, 我们的数据集由单个受试者以30fps记录的100分钟运动数据组成,产生185K帧。我们使用MoSh++[33]来拟合SMPL-X[39]身体模型到光学标记。有关数据的更多详细信息,请参见补充文件。Mat.4.2. 运动数据增强只有七个捕获的对象,MotionNet将无法适应新的看不见的对象。用各种各样的对象捕获MoCap我们通过使用类似于[3,47]的高效增强管道来增强我们的数据来解决这个问题。由于我们捕获身体运动以及对象姿势,因此我们计算身体和对象之间的接触。我们检测的字符骨架的五个关键关节的接触。也就是说,骨盆,手和脚。然后,我们增加我们的数据随机切换或缩放对象在每一帧。切换时,我们用从ShapeNet [9]中选择的类似大小的随机对象替换原始对象。对于每个新对象(缩放或切换),我们将从地面实况数据检测到的接触投影到新对象。最后,我们使用IK解算器重新计算完整姿势,以保持接触。请参阅补充说明。Mat.的双曲余切值。4.3. 目标数据为了训练GoalNet,我们为来自ShapeNet [9]的不同对象标记各种目标位置gp和方向gd这些目标表示对象曲面上角色可以坐的位置以及角色坐着时的前进方向我们从ShapeNet中选择5个类别,即沙发,L形沙发,椅子,扶手椅和桌子。从每个类别中,我们选择15 20个实例,并为每个实例手动标记15个每个实例标记的目标数量取决于一个对象可以提供多少不同的目标。例如,L形沙发比椅子提供更多的座位我们总共使用了80个对象作为训练数据。我们通过在xyz轴上随机缩放对象来增加我们的数据,从而获得13K的训练样本。11379N(N−1)我J 2我我 我 我--LNNLNNi=0j=05. 实验评价5.1. 定性评价在本节中,我们提供定性结果并讨论要点。我们指的是Sup。Mat.和配套视频以获得更多结果。生成多样化的运动:与以前的确定性方法[47]相反由SAMP生成的几种不同的坐和躺样式在图中示出。五、使用交互编码器3.1和数据增强(第4.2)进一步确保SAMP可以适应具有变化的几何形状的不同对象请注意角色如何自然地将头靠在沙发上。动作的风格也取决于交互对象。角色坐在高椅子/桌子上时抬起腿,但坐在很低的桌子上时伸展腿我们观察到躺下是一项更难的任务,并且几种基线方法无法执行此任务(参见第2节)。5.2)。虽然SAMP合成合理的序列,我们的结果并不总是完美的。生成的运动可能涉及走运行坐利敦GT五、957 .第一次会议。74五、187 .第一次会议。52SAMP五、63五、75五、05六、69表1:多样性度量。值越高表示多样性越大。来帮助角色导航5.2. 定量评价确定性与随机数:为了量化生成的运动的多样性,我们将角色放在一个固定的起始位置和方向,并以相同的目标运行我们的方法十次。例如,我们指示角色从相同的初始状态/位置/方向开始多次坐/躺在相同的对象对于步行和跑步,我们指示角色在四个方向中的每一个方向上跑15秒。我们记录每次运行的角色运动,然后计算平均成对距离(APD)[58,63],如表所示。1.一、APD定义为:一些物体的穿透力NNA PD=1ΣΣ||X′−X′||二、(六)J I应该执行该动作在[47]中,目标被计算作为对象中心。然而,这种试探法对于具有复杂几何形状的对象失败在图6中,我们表明使用对象中心会导致无效的动作,而GoalNet允许我们的方法推理应该在哪里执行动作如图7、通过采样不同的潜码Z 目 标,GoalNet为各种对象生成多个目标位置和方向。请注意GoalNet是如何捕捉到这一点的,虽然一个人可以侧坐在普通的椅子上,但这对扶手椅无效。图8显示了GoalNet生成的不同目标如何引导角色的运动。虚拟人从相同的位置、方向和初始姿态出发,沿着两条不同的路径到达不同的目标位置。Xi’表示帧i处的角色的局部姿势特征。X′=jp,jr,jv.N是所有序列的帧的总数。为了进行比较,我们还报告了地面实况(GT)数据。1.一、GoalNet:给定在测试对象上采样的150个看不见的目标,我们测量GoalNet的平均位置和方向重构误差为6。04cm和2. 29度(我们注意到对象具有真实的测量值)。为了测量生成的目标的多样性,我们计算生成的 目 标 位 置 gp 和 方 向 gd 之 间 的 平 均 成 对 距 离(APD):APD阳性=1ΣΣ Σ|g p−g p|(七)当执行“坐在沙发上”的动作时的位置。角色的最终姿态在两种情况LN(N−1)I jk=0i =0j =0j/=i由于MotionNet的随机性。路径规划:当导航到一个特定的目标日志-APD-Rot=1Σarccos(g d.g d)。( 八)在杂乱的场景中,避开障碍物是至关重要的。我们的路径规划模块通过预测LN(N−1)Ijk=0i=0j=0j/=i使用基于3D场景计算的导航网格来确定起始角色位置和目标导航网格定义场景中的可行走区域,并在离线时进行计算。在图9中,我们示出了由路径规划模块计算的示例路径。如果没有此模块,角色通常会在场景中的对象中穿行。我们在NSM [47]以前的工作中观察到类似的行为,即使NSM使用环境的体积表示L=150是对象的数量,N=10是为每个对象生成的目标的数量。 我们发现我们生成的目标的APD-Pos和APD-Rot为16。42厘米和41岁27度与16度相比。18厘米和90。23度用于地面实况(GT)数据。路径规划模块:为了定量评估我们的路径规划模块的有效性,我们在一个混乱的场景中测试我们的方目标生成:当出现一个新的物体时,角色需要预测在哪里,朝哪个方向11380法。我们将角色置于一个随机的初始位置和方向,然后选择一个随机的11381∞∞.Σ图5:SAMP生成合理和多样化的动作风格,并适应不同的对象几何形状。MLPMoESAMPGT坐十三岁0612个。9912个。5311个国家。7利敦∞∞十七岁06十五岁49图6:没有GoalNet(左),SAMP无法位于有效位置。带有GoalNet的SAMP显示在右侧。表2:以秒为单位的平均执行时间。表示该方法未能在3分钟内达到目标。所生成的运动的分布与地面实况之间的差异(FD)执行时间是从空闲状态转换到目标动作标签所需的时间精度是目标的位置(PE)和旋转(RE)误差我们在状态特征的子集上测量FD,我们称之为X~:图7:GoalNet在不同的对象上生成不同的有效目标球体表示球门位置,蓝色箭头表示球门方向。目标.我们重复这个10次。我们发现发生穿透的帧的百分比为3。8%,11. 2%,8。对于具有路径规划模块、不具有路径规划模块和NSM的SAMP,分别为11%[47]虽然NSM使用体积传感器来检测与环境的碰撞,但它不如显式路径规划有效。与以前型号的比较:我们通过测量三个指标将模型与基线进行比较:平均执行时间、平均精度和Fre`chet距离X~=jp,jr,jv,t~p,t~d.(九)作为我们的基线,我们选择前馈网络(MLP)作为运动预测网络,专家混合(MoE)[61]和NSM [47](参见Sup.Mat.以取得详细数据)。SAMP与MLP与MoE:我们使用与SAMP相同的训练策略和数据重新训练了MLP和MoE。MLP和MoE都需要更长的时间来执行任务,并且通常无法执行“躺下”动作(未注明),如表中的执行时间所证明的。2和表中的精度。3 .第三章。这些架构有时会生成难以置信的姿势,如Sup中所示垫,其由表中的下部FD反映。四个SAMP与NSM:对于NSM,我们使用了公开可用的预训练模型,因为由于缺少阶段标签,在我们的数据上重新训练NSM是不可行的。我们在训练NSM的相同数据在11382∞图8:GoalNet生成的目标(网格球体)被MotionNet用于指导虚拟角色的运动图9:我们的路径规划模块帮助SAMP成功地导航杂乱的场景(左)。[47]在这样的场景中,NSM失败了(右)。方法坐利敦PE(cm)RE(度)PE(cm)RE(度)MLP9 .第九条。273 .第三章。99∞∞MoE7 .第一次会议。99五、73∞∞SAMP六、093 .第三章。55五、76六、45表3:位置和旋转误差(PE和RE)方面的平均精度。表示该方法未能在3分钟内达到目标。空闲走运行坐利敦MLP一百零二85121. 18一百五十56一百零五87三十六85MoE一百零二91一百一十四17151. 14一百零五10三十五79SAMP一百零二72111.09一百四十一11一百零四68十七岁30表4:Fre` chet距离。在表5中,我们观察到我们的模型在实现目标方面与NSM相当,而不需要阶段标签,这是繁琐的,并且通常是模糊的注释。此外,我们的主要重点是通过一个随机模型,而NSM是确定性的模型不同的运动。我们的路径规划模块模块可以帮助SAMP安全地导航复杂的场景,其中NSM失败,如所示的渗透量。对于所有评估,所有测试对象都是从ShapeNet中随机选择的,没有一个是我们训练集的一部分。局限性和未来工作:我们观察到有时角色和交互对象之间会发生轻微的渗透。一种潜在的解决方案是引入后处理步骤以优化角色的姿势以避免这种交叉。为了将SAMP推广到具有显著不同的交互对象-11383表5:SAMP与NSM。与训练中看到的那些相比,在未来的工作中,我们希望探索编码局部对象几何的方法。6. 结论在这里,我们描述了SAMP,它使几个重要的步骤,创造逼真的化身,移动和行动像真正的人在以前看不见的和复杂的环境。至关重要的是,我们引入了三个必须成为解决方案一部分的元素。首先,角色必须能够导航世界并避开障碍物。为此,我们使用现有的路径规划方法。第二,角色可以以不同的方式与物体互动。为了解决这个问题,我们训练GoalNet获取一个对象,并随机产生一个交互位置和方向。第三,角色应该产生动作,以实现自然变化的目标。为此,我们训练了一个新的MotionNet,它基于过去的运动和目标逐渐生成身体姿势我们训练SAMP使用一个新的运动捕捉数据集,涉及人与物体的交互。致谢本工作是MH在Adobe担任实习生时发起的。我们非常感谢Sebastian Starke所做的鼓舞人心的工作,有益的讨论,并使他的代码开源。我们感谢Joachim Tesch对Unity和渲染的反馈,感谢NimaGhorbani对MoSH++的反馈,感谢Meshcapade对角色纹理的反馈。我们感谢Tsvetelina Al e xiadis、GalinaHenz、MarkusHöschle和TobiasBauch对数据收集的帮助。披露:MJB已经收到了Adobe、In- tel、Nvidia、Facebook和亚马逊的研究资金。 虽然MJB是亚马逊的兼职员工,但他的研究完全是在马克斯普朗克进行的,并完全由马克斯普朗克资助。MJB在Amazon 、 Datagen Technologies 和 MeshcapadeGmbH拥有财务权益。坐携带精密度PE(cm)↓十五岁97十六岁954.第一章584.第一章72精密度RE(度)↓五、38二、321 .一、781 .一、65执行时间(秒)↓12个。9310个。26十三岁2912个。8211384引用[1] Vida Adelli,Mahsa Ehsanpour,Ian里德胡安Car-los Niebles,Silvio Savarese,Ehsan Adelli,and HamidRezatofighi. Tripod:野外人体轨迹和姿势动力学预测。IEEEInternationalConferenceonComputerVision(ICCV),2021。三个[2] Shailen Agrawal和Michiel van de Panne。 任务日志运动。ACM事务处理图表,35(4),2016. 2[3] Rami Ali Al-Asqhar、Taku Komura和Myung Geol Choi。用于交互式运动适应的关系描述符。在Proceedings ofthe 12th ACM SIGGRAPH/Eurographics Symposium onComputer Animation,SCA计算机协会。五个[4] Alexandre 阿拉希 克拉塔斯 戈尔 维涅什·拉马纳坦Alexandre Robicquet,Li Fei-Fei,and Silvio Savarese.社会lstm:人类在拥挤的空间轨迹预测IEEE/CVF会议论文集计算机视觉和模式识别(CVPR),第961-971页,2016年。三个[5] Samy Bengio、Oriol Vinyals、Navdeep Jaitly和Noam沙泽尔循环神经网络序列预测的计划采样。在第28届神经信息处理系统国际会议论文集-第1卷,NIPSMA,USA,2015.麻省理工学院出版社. 二三五[6] Zhe Cao , Hang Gao , Karttikeya Mangalam , Qi-ZhiCai,Minh Vo,and Jitendra Malik.具有场景上下文的长期人体运动预测。在欧洲计算机视觉会议(ECCV)中,第387-404页。Springer,2020年。第1、3条[7] 卡内基梅隆大学。CMU MoCap数据集。一个[8] 柴玉宁、本杰明·萨普、马扬克·班萨尔和德拉戈米尔·安格洛夫。多路径:用于行为预测的多概率锚轨迹假设。在Proceedings of the Conference on Robot Learning,第100卷Proceedings of Machine Learning Research,第86-99页中PMLR,2020年10月30日至11月1日。三个[9] 天使XChang,Thomas Funkhouser,Leonidas Guibas,PatHanrahan,Qixing Huang,Zimo Li,Silvio Savarese,Mano-lis Savva , Shuran Song , Hao Su , JianxiongXiao,Li Yi,and Fisher Yu. ShapeNet:一个信息丰富的3D模型库。技术报告arXiv:1512.03012 [cs.GR],斯坦福大学-普林斯顿大学-芝加哥丰田技术研究所,2015年。五个[10] Yu-Wei Chao,Jimei Yang,Weifeng Chen,and Jia Deng.学会坐:通过分级控制合成人椅交互。AAAI人工智能会议论文集,2019年。二个[11] Enric 科罗娜 阿尔伯特 普马罗拉 Guillem 阿莲雅,还有弗朗切斯克·莫雷诺·诺格尔上下文感知的人体运动预测。在IEEE/CVF计算机视觉和模式识别会议论文集,第6992- 7001页,2020年。二个[12] P金玛·迪德里克和马克斯·威林。自动编码变量标准贝叶斯在2014年国际学习代表会议ICLR上。三个[13] David Eigen,Marc在一个深度混合的前-太好了。2014年,在国际会议上学习代表ICLR。二个[14] 放大图片作者:Haegwang Eom,Daseong Han,Joseph S.申和俊勇诺。基于物理的角色动画用视觉运动系统的模型预测控制。ACM事务处理图表,39(1),Oct. 2019. 二个[15] Katerina Fragkiadaki,Sergey Levine,Panna Felsen,and Ji-坦德拉·马利克用于人体动力学的循环网络模型。在IEEE计算机视觉国际会议( ICCV)的会议录中,ICCVIEEE计算机协会。三个[16] Helmut Grabner,Juergen Gall,Luc Van Gool. 什么把椅子变成椅子IEEE/CVF会议论文集计算机视觉和模式识别(CVPR),第1529-1536页,2011年。二个[17] 阿格里姆·古普塔贾斯汀·约翰逊李飞飞西尔维奥·萨瓦雷塞和亚历山大·阿拉希社交伙伴:具有生成对抗网络的社会可接受的轨迹。IEEE/CVF会议论文集计算机视觉和模式识别(CVPR),第2255-2264页,2018年。三个[18] A. 古普塔河Satkin,A.A. Efros,和M。赫伯特 从3D场景几何到人类工作空间。IEEE/CVF会议论文集计算机视觉和模式识别(CVPR),第1961-1968页,2011年。二个[19] I.哈比比丹尼尔·霍顿乔纳森·施瓦茨乔·耶斯利和T.小村一种用于人体运动合成的循环变分自编码器。在BMVC,2017年。三个[20] P. E. Hart,N. J. Nilsson和B.拉斐尔 正式基础用于最小成本路径的启发式确定IEEE Transactions onSystems Science and Cybernetics,4(2):100五个[21] 穆罕默德·哈桑 Partha Ghosh, Joachim Tesch,Dim-itrios Tzionas和Michael J.黑色. 通过学习人机交互填充3D场景。IEEE/CVF会议论文集计算机视觉和模式识别(CVPR),2021年6月。一、二[22] Gustav Eje Henter、Simon Alexanderson和Jonas Beskow。MoGlow:使用归一化流的概率和可控运动合成。ACM事务处理图表,39(6),Nov. 2020. 三个[23] 丹尼尔·霍顿 高村拓 还有斋藤纯阶段-功能神经网络的字符控制。ACM事务处理图表,36(4),2017年7月。一、二[24] 丹尼尔·霍尔登斋藤纯和高村拓深度学习用于角色运动合成和编辑的框架。ACM事务处理图表,35(4):1-11,2016. 三个[25] R. A. Jacobs,M.I. Jordan,S.J. Nowlan和G.E. Hin-吨当地专家的适应性混合。神经计算,3(1):79-87,1991. 二个[26] Mubbasir Kapadia,Xu Xianghao,Maurizio Nitti,Marcelo放大图片作者:Robert W. Sumner和Markus Gross。精确度:用于接触丰富的角色动画的预计算环境语义。第20届ACM SIGGRAPH交互式3D图形和游戏研讨会论文集,I3 D'16,第29
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功