GOAL:生成全身动作和抓握未知3D物体的方法

152 浏览量更新于2023-10-25 收藏 14.63MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

132630GOAL: 生成4D全身动作以进行手-物体抓握0Omid Taheri Vasileios Choutas Michael J. Black Dimitrios TzionasMax Planck Institute for Intelligent Systems, T¨ubingen, Germany0{ otaheri, vchoutas, black, dtzionas } @tue.mpg.de0图1.GOAL生成全身动作以接近和抓握未知的3D物体。图中显示了2个人（上、下）生成的动作，每个人抓握一个不同的新颖物体。对于每个序列，我们显示了4个不同的视图（从左到右），以及最终抓握的放大圆形快照。GOAL是第一个生成全身自然动作和抓握的方法。0摘要0生成逼真移动的数字人在许多应用中都有很多应用，并且已经得到广泛研究，但现有的方法都集中在身体的主要肢体上，忽略了手和头部。手部已经被单独研究过，但重点是生成物体的逼真静态抓握。为了合成与世界互动的虚拟角色，我们需要同时生成全身动作和逼真的手部抓握。这两个子问题本身就具有挑战性，而且在一起，姿势的状态空间显著增大，手和身体运动的尺度不同，并且整体身体姿势和手部抓握必须一致，满足物理约束并且合理。此外，头部也参与其中，因为化身必须看着物体与之互动。我们首次解决了生成化身抓握未知物体的全身、手和头部动作的问题。作为输入，我们的方法称为GOAL，接收一个3D物体、其姿势、0并提供一个起始的3D身体姿势和形状。GOAL使用两个新颖的网络输出一系列全身姿势。首先，GNet生成一个具有逼真的身体、头部、手臂和手部姿势以及手-物体接触的目标全身抓握。其次，MNet生成起始姿势和目标姿势之间的运动。这是具有挑战性的，因为它要求化身向物体行走并与地面接触，将头部朝向物体，伸出手臂，并以逼真的手部姿势和手-物体接触抓住物体。为了实现这一点，网络利用了将SMPL-X身体参数和3D顶点偏移结合起来的表示。我们在GRAB数据集上对GOAL进行了定性和定量的训练和评估。结果显示，GOAL对未见过的物体具有很好的泛化能力，优于基线方法。感知研究表明，GOAL生成的动作接近GRAB的真实情况。GOAL在生成逼真的全身物体抓握动作方面迈出了一步。我们的模型和代码可在https://goal.is.tue.mpg.de上获得。1326401. 引言0虚拟人对于电影、游戏、增强现实/虚拟现实和元宇宙都非常重要。它们不仅需要看起来逼真，还必须以逼真的方式移动和互动。大多数关于人体动作生成的研究只关注身体，而忽略了头部和手部。通常，这些身体被视为“孤立”的，没有场景或物体的上下文。其他研究关注身体与场景的互动，但忽略了手部。同样，关于生成手部抓握的工作通常忽略了身体。我们认为这些都只是问题的一部分。我们真正需要的是通过同时考虑身体、头部、脚部、手部以及物体来生成全身化身抓握物体的动作。我们在这里首次解决了这个问题。这个问题具有挑战性和多方面性。想象一下我们在现实生活中如何抓取物体（见图2）；我们用脚接触地面走向物体，我们转动头部看着物体，倾斜躯干并伸出手臂去触摸它，并巧妙地摆动手部以建立细微的接触并抓住它。人类能够优雅地执行这些步骤，然而，这些步骤具有挑战性并涉及运动规划、运动控制和空间意识。其中一些步骤已经分别进行了研究，但我们不能简单地将部分解决方案组合起来，因为整个动作必须协调一致。这是具有挑战性的，因为：（1）整个身体的状态空间比仅有身体或手部要高得多；（2）身体和手部的大小、运动尺度和灵巧程度都非常不同；（3）身体、头部和手部必须协调运动。目前还没有自动生成这种协调的全身抓握动作的工具。我们通过GOAL来解决这个问题，GOAL代表生成与物体互动的全身动作。GOAL通过同时考虑身体、头部、脚部、手部和物体来生成抓握未知物体的全身化身动作。GOAL接收三个输入：（1）一个3D物体，（2）其位置和方向，以及（3）一个“起始”3D身体姿势和形状，位于物体附近并大致朝向物体。作为输出，GOAL生成从起始姿势到物体抓握的一系列3D身体姿势。为此，GOAL使用了两个新颖的网络（概述见图3）：（1）首先，GNet生成一个“目标”全身抓握，具有逼真的身体姿势、头部姿势、手臂姿势和手部姿势，以及逼真的手指-物体和脚-地面接触。GNet被制定为条件变分自编码器（cVAE），因此它学习了抓握姿势的分布，并且可以生成各种“目标”抓握。（2）然后，MNet以自回归方式生成“起始”和“目标”姿势之间的运动。这是具有挑战性的，因为化身需要（见图1）通过采取与物体距离成比例的步骤数来行走，同时与地面保持自然的脚-地面接触。0图2.抓取物体涉及多个动作。我们走向物体，脚接触地面，转动头部看向物体，倾斜躯干，伸展手臂，调整手的姿势以接触和抓取物体。所示示例使用GRAB数据集[57]中捕获的运动。0在接近物体时，我们需要向物体走去，脚接触地面，持续转动头部以看向物体。然后，当靠近物体时，需要减速，停止行走，倾斜躯干，伸展手臂以触碰物体。还需要调整手的姿势以接触和抓取物体。所有身体部位都需要优雅地协调运动，使运动看起来自然。要实现这种逼真程度，需要技术创新。GOAL超越了最近的工作[38, 65,67]，同时推断SMPL-X[46]参数和3D偏移量。GNet推断3D手到物体的顶点偏移量，以提供空间感知并指导物体抓取。MNet推断3DSMPL-X顶点偏移量，以指导从上一帧到当前帧的SMPL-X变形。这些偏移量位于3D欧几里得空间中，因此它们可以比SMPL-X参数更准确地推断，并在离线优化方案中用于改进SMPL-X姿势。我们在GRAB[57]数据集上训练GNet和MNet，该数据集包含全身SMPL-X人体抓取物体的数据。我们在GRAB数据集的保留部分进行了GOAL的定量和定性评估。具体而言，我们保留了5个物体进行测试。结果显示GOAL具有良好的泛化能力，并能为全身行走和物体抓取生成自然的运动；参见图1。定量评估结果显示GOAL优于基线方法，消融研究结果显示所有主要组件都有积极贡献。感知研究验证了上述结果，同时显示GOAL生成的运动达到了与GRAB的真实运动相媲美的逼真程度。GOAL为生成逼真的虚拟角色的全身抓取运动迈出了一步。模型和代码可在https://goal.is.tue.mpg.de上获得。1326502. 相关工作0孤立情况下的身体运动生成：人类运动生成的研究历史悠久[2, 4, 61]。然而，即使是最近的方法[41, 49, 64,67]，大多数也是研究“孤立”的身体，即没有场景上下文。大多数方法生成3D骨架的运动[15, 24, 41-43,64]，而其他方法[18, 49,67]生成类似SMPL[39]的人体模型的运动。通常，1-2秒的运动合成被称为“长期”。早期的深度学习方法使用RNNs[12, 15,44]，但它们在观察和预测姿势之间的不连续性以及长程时空关系方面存在困难。其他方法使用相位函数前馈神经网络[23,56]来解决这些问题，即通过将网络权重与相位相关联，但它们主要关注循环运动。最近的方法使用注意力[36, 41, 49,58]。在3D场景中生成身体的运动：大多数早期方法通过在MoCap数据库中添加脚和手接触的点注释[14, 27, 33,34]来扩展数据库。然后，他们使用优化和时空约束将运动适应于接触，以进行3D身体运动重定向[14]，以及在3D地形上移动的身体动画[27, 33,34]。一些方法使用深度强化学习（RL）来处理身体-场景[6,47, 48]或手-物体[7, 8,13]的交互。这些方法在处理高度和间隙变化的地形[47,48]、坐在椅子上[6,56]、锤击[13]、开门[13]、移动物体[8]以及手持物体重新定向[7]方面显示出有希望的结果。将这些方法推广到新的身体、物体几何和交互类型仍然是一个挑战。其他方法采用3D几何方法。Pirk等人[50]在物体上放置虚拟传感器，以感知与与之交互的代理人上采样的点的流动，并构建功能性物体描述符。Al-Asqhar等人[1]通过将人体关节编码为采样在场景上的固定点来重新定向身体运动。Ho等人[22]使用身体和物体顶点计算每帧的“交互网格”，并最小化它们的拉普拉斯变形来重新定向身体运动。这些纯几何方法对现实世界的噪声不够稳健。相比之下，GOAL属于数据驱动方法的范畴。Corona等人[9]生成与对象交互的人体骨架的上下文感知运动，其中“上下文”被编码为连接人和对象节点的有向图。更相关的是在3D场景中生成从“起始”姿势到“目标”姿势的运动的方法。Hassan等人[19]估计对象上的“目标”位置和交互方向，规划从“起始”身体姿势到此位置的3D路径，最后使用自回归cVAE生成行走和交互的一系列身体姿势，例如坐在椅子上。Wang等人[60]首先估计几个“子目标”位置和身体，将其分为短期的起始/结束对来合成短期运动，最后使用优化过程将它们拼接成长时间的运动。0手部运动生成：ElKoura1等人[11]使用学习的低维姿势空间估计音乐乐器的物理可行手部姿势。Pollard等人[51]使用MoCap学习基于物理的抓握控制器。Kry等人[32]使用带有仪器化物体的手部MoCap和力量，构建用于合成或重新定位具有物理模拟的运动的“交互轨迹”。与我们更相关的是，Lie等人[62]通过输入身体和物体运动的MoCap数据，通过搜索可行的接触点轨迹，然后使用时空优化生成平滑的手部运动，满足估计的接触点。3D场景中的姿势生成：早期方法使用3D物体上的接触注释[37]或检测[29]，并将人体骨架拟合到这些注释上。其他方法使用物理模拟来推理接触和坐姿舒适性[26,35,69]。Grabner等人[16]专注于房间，使用接近度和交叉度量预测3D场景网格上可以坐下3D人体网格的所有区域。最近的方法生成与给定场景交互的静态SMPL-X[46]人体；Zhang等人[68]学习给定深度图像和场景语义分割的隐式交互表示，Zhang等人[66]使用显式的以场景为中心的交互表示，而Hassan等人[20]使用一种以人为中心的交互表示，称为POSA，将其嵌入到SMPL-X[46]统计身体模型中。相反，Yi等人[63]通过使用基于POSA的接触、碰撞和相对深度约束，重建和改进物体姿势，以更好地“支撑”给定的人体运动。手物体抓握的姿势生成：Taheri等人[57]通过首先预测粗略抓握，然后使用距离和接触度量对其进行细化，推断出3D物体的MANO[55]抓握。Grady等人[17]首先估计手和物体上的接触，然后通过优化来改进手部姿势以满足接触。Karunratanakul等人[28]推断出一个“抓握”距离场，然后将MANO拟合到它上面。全身交互的运动：人们将身体和手一起用于与世界的交互。Hsiao等人[25]构建了一个数据库，其中包含一个人操作一个化身的全身抓握，并进行模仿学习。Borras等人[3]使用人形模型捕捉人与场景物体和手持物体进行交互的全身MoCap数据[40]，并定义了一个姿势分类法。Taheri等人[57]捕捉手持物体的全身SMPL-X[46]交互，但由于任务复杂性，他们学习了一个只生成静态抓握手的cVAE。Merel等人[45]使用深度强化学习和人体MoCap演示来学习一个视觉引导的神经控制器，用于拾取和携带箱子，或接住和投掷球。总结：社区只关注身体或手部，使用不真实的模型。我们学习生成全身SMPL-X运动，从走向一个物体到抓住它，给定一个“起始”物体和人体姿势。132660图3.GOAL概述。有两个主要阶段：（1）GNet以一个3D物体及其位置和方向作为输入，生成一个“目标”全身抓握姿势。GNet的输出姿势通过优化后处理进行细化，使其看起来更真实和物理可行。（2）MNet以起始人体姿势和GNet的“目标”姿势作为输入，以自回归方式生成中间的运动姿势序列。MNet的输出姿势通过优化后处理进行细化，以更好地“达到”“目标”姿势。03. 方法0我们的方法GOAL的概述如图3所示。GOAL接受三个输入：（1）一个3D物体，（2）它的位置和方向，以及（3）一个“起始”3D身体姿势和形状，位于物体附近（大约0.5-1.5米）并朝向物体（大约±10°）。作为输出，GOAL生成具有两个主要网络的SMPL-X运动：（1）GNet合成一个“目标”SMPL-X网格，以真实的身体姿势和手物体接触抓住3D物体；（2）MNet通过以自回归方式生成一系列“移动”的SMPL-X身体，将“起始”姿势到“目标”姿势的运动“填补”起来。不失一般性，我们模拟右手抓握；可以通过“镜像”数据和重新训练轻松转换为左手。将这些扩展到双手抓握，无论是否需要手部协调，都留给未来的工作。03.1. 人体模型0我们使用SMPL-X [46]统计的3D全身模型，它同时表示身体、头部、面部和手部。SMPL-X是一个可微分的函数，它以形状 β、姿势 θ 和表情ψ 参数作为输入，然后输出一个具有10,475个顶点 V和20,908个三角形 F 的3D网格 M。形状向量 β ∈ R20包含了一个低维空间的系数，该空间是通过对大约4,000个不同人的3D网格进行主成分分析（PCA）得到的[54]。顶点通过线性混合蒙皮与学习到的带有关节的骨架 J ∈ R55×3进行姿势变换。令 Θ = {θ, γ} 表示关节姿势 θ ∈ R55×6[70] 和身体的平移 γ ∈R3。在接下来的内容中，我们不使用所有的SMPL-X顶点，而是使用GRAB的[57]接触热图在对交互重要的身体区域上采样 N 个顶点。03.2. 交互感知注意力0身体-物体交互的两种常见表示方法是：顶点-顶点距离和网格顶点的二进制接触标签，然而，前者携带了与交互无关的信息（例如，远离物体的顶点），而后者过于紧凑，没有关于接触前/后3D接近性的信息。在这里，我们使用顶点-顶点距离，但引入了一种新的“交互感知注意力”（IAA），它更加关注对交互重要的身体顶点（例如，抓取的手部，行走的脚部），而不是无关的顶点（例如，对于抓取，膝盖比手部不太重要）。我们的“交互感知”注意力的公式如下：0I w (d) = e^(-wd), (1)0其中 w > 0 是一个标量权重，d ∈ R N+是身体到物体的距离，N是SMPL-X上采样的顶点数；我们采样 N b = 400个身体顶点和 N h = 99个每只手的顶点。我们的交互感知注意力（IAA）对与交互相关的顶点给予指数级的关注。如图4所示，这将注意力集中在对交互有意义的身体区域上。我们将 w 设置为5，经验上得到了逼真的抓取。03.3. 目标网络（GNet）0GNet是一个有条件的变分自编码器（cVAE）[31]，它根据给定的物体和其姿势生成一个静态的全身抓取。为了实现这一点，我们首先将全身抓取编码成一个嵌入空间。输入：GNet的编码器输入为：0GNet中的输入为 Θ, β, v, q, γo, bo, db) o, (2)0其中 Θ 和 β 是SMPL-X的姿势和形状参数，v ∈ R Nb × 3 是N b 个3D坐标132670采样的SMPL-X顶点，q ∈ R3 是头部方向的单位向量，γo∈ R3 是物体的平移，bo ∈ R1024是3D物体形状的基点集（BPS）[52]表示。最后，db) o ∈R Nb × 3表示编码了身体到物体的接近程度的3D偏移向量；对于每个采样的身体顶点v，它包含了到最近物体顶点vo的3D偏移向量。在训练时，GNet的编码器将输入X映射到一个正态分布的参数{µ, σ} ∈R16。在推理时，我们“跳过”编码器，并从该分布中采样一个潜在的全身抓取编码zg ∈R16。输出：GNet的解码器根据物体的输入条件C = [bo,γo]，以及推断出的SMPL-X姿势参数ˆΘ、头部方向向量ˆq和3D偏移向量ˆdh) o，从采样的手部顶点vh � v到最近物体顶点的距离。输出空间：我们做出了两个经验观察：（1）网络很难准确预测SMPL-X参数，可能是因为它们处于非欧几里德空间。（2）网络在欧几里德空间中更精确地预测交互特征。这些观察结果与最近的研究[38, 65,67]一致。然而，我们通过推断3D偏移与SMPL-X参数一起，而不是回归顶点位置并将SMPL-X拟合到这些位置，超越了以往的工作。训练：GNet使用以下损失进行训练：0LGNet = 0λqLq + λh)odLh)od + λKLLKL, (3)0其中，Lv = ∥v - ˆv∥1，Lhv = ∥vh - ˆvh∥1，LΘ = ∥Θ -ˆΘ∥2，Lq = ∥q - ˆq∥2，Lh)od = ∥dh)o -ˆdh)o∥1，LKL是Kullback-Leibler散度，λ是权重。帽子变量是推断值；非帽子变量是真实值。GNet的编码器和解码器使用具有跳跃连接的全连接层。有关架构细节，请参见补充材料。优化：我们使用预测的偏移量通过优化后处理来改进我们的SMPL-X预测。具体而言，我们在SMPL-X参数Θ上进行优化，初始值为GNet的预测值。在优化过程中，我们不使用手工制作的接触约束[10, 21,60]，而是使用从GNet生成的数据驱动约束，即：（1）手到物体顶点的偏移量，（2）头部方向向量，（3）姿势与初始值的耦合，以及（4）脚与地面的穿透。从技术上讲，为了使手能够真实地抓住物体，我们定义了一个项，惩罚GNet推断的偏移量ˆdh)o与在优化过程中从SMPL-X的手部顶点到最近的物体顶点计算得到的偏移量dh)o之间的差异：0Eh)od(θ, γ; ˆdh)o) = ∥dh)o - ˆdh)o∥1. (4)0姿势θ和平移γ参数的耦合抑制了与GNet推断值ˆθ和ˆγ的偏差：0Eθ(θ; ˆθ) = ∥θ - ˆθ∥2, Eγ(γ; ˆγ) = ∥γ - ˆγ∥1. (5)0图4.“交互感知注意力”（IAA）对应第3.2节中的身体到物体顶点距离Iw(d)的可视化。对于每一对：（左）人体（粉色）和物体（黄色）的输入3D网格。（右）颜色编码的身体网格可视化了交互感知注意力；蓝色表示远离物体的身体顶点（即与特定交互无关），红色表示靠近物体的顶点（即非常相关）。0类似地，头部方向的耦合定义为：0Eq(θ, γ; ˆq) = ∥q(θ, γ) - ˆq∥1. (6)0为了鼓励与地面接触并防止穿透，在每一次优化步骤中，我们在线找到身体沿“y”垂直轴的最低顶点，并鼓励其y坐标为零：0Ef = |vy(k)|, k = arg mini vy(i), (7)0其中，i和k是身体网格中的顶点索引。我们的最终能量是上述项的组合：0EGNet = λh)odEh)od + λθEθ + λγEγ + λqEq + λfEf. (8)03.4. 动作网络（MNet）0MNet生成从“起始”到“目标”帧的动作；后者由上述第3.3节中的GNet生成。序列的长度取决于多个因素，例如物体相对于身体的位置和运动速度。因此，为了生成任意持续时间的动作，我们使用自回归网络架构[19,56]。输入：MNet按自回归方式输入：0MNet中的X = [Θt-5:t, β, vt, ˙vt, dh(t→g), bhg]，(9)0其中，t是当前帧，Θt-5:t是过去5帧的SMPL-X参数，β是主体的形状，vt和˙vt是当前帧中N个采样的身体顶点的位置和速度，dh(t→g)是从当前帧t到“目标”帧g的手部顶点偏移量。最后，bhg是手在“目标”帧中的BPS表示[52]。XoutMNet = [∆Θt:t+10, ∆vt:t+10, ∆dht:t+10](10)λvLv + λhvLhv + λΘLΘ + λh)odLh)od+ λfvLfv,(11)∥(12)EMNet = λΘEΘ + λhvEhv,(13)132680图5.GNet生成的SMPL-X抓取姿势（第3.3节）在优化之前（粉色）和优化之后（绿色）。结果表明，基于优化的后处理有效地改进了初始预测，使其更加真实和物理可行的抓取。0使用与对象相同的BPS基点作为输入，使用相同的基点表示编码手部与对象在“目标”帧中的空间关系，这在“引导”动作朝向真实的抓取时具有经验性重要性。我们经验性地发现，使用超过1个过去帧的姿势 Θ作为输入可以得到更平滑的动作预测，与Starke等人的研究结果一致 [ 56]；使用超过5个帧没有明显的改进。输出：MNet的输出为：0其中， t : t + 10 代表未来的10帧， ∆ Θ t : t + 10代表SMPL-X参数的变化， ∆ v t : t + 10代表SMPL-X顶点位置的变化， ∆ d h t : t + 10代表手部顶点偏移的变化。所有的变化 ∆都是相对于当前帧的。输出空间：MNet同时关注SMPL-X参数和欧氏空间交互特征，与GNet类似。这在推断过程中经验性地有助于生成更平滑、更接近“目标”抓取的动作。自回归：MNet预测未来姿势的SMPL-X参数，然后将其作为下一次迭代的输入，与公式 ( 9 )中的其他输入一起。有关架构细节，请参见补充材料。与HuMoR [ 53]不同的是，在每次迭代中，MNet生成的未来帧数量越多，生成的动作越好；请注意，对于未来10帧，改进趋于饱和，参见第4.2节中的表2右侧。训练：MNet的损失函数为：LMNet =0其中，身体顶点损失 L v ，手部顶点损失 L h v，SMPL-X参数损失 L Θ ，手到物体偏移损失 L h ) o d均来自于公式 ( 3 )。最后，L f v = ∥ v f − ˆ v f ∥ 1是一个新的损失函数，用于约束接近地面的脚部顶点。这个损失函数和公式 ( 9 )中的输入速度有助于脚部与地面的接触，并减少滑动；请参考我们网站上的视频。优化：我们通过后处理优化来改进MNet生成的动作，使得最终的手部抓取更接近于GNet生成的“目标”抓取。由于我们只需要在手部靠近物体时才需要精确控制，所以我们只在MNet估计的手部顶点距离“目标”手部顶点位置小于10厘米时进行优化。按照GNet的方案，我们使用MNet从公式 ( 10 )中的预测作为约束条件，而不是手工设计的约束条件。具体来说，我们首先计算MNet预测手部的平均每顶点速度 ˙ v ht 。然后，我们在当前帧 v h t 和“目标”帧 v h g之间线性插值得到下一帧的手部顶点 v h t + 1 ：0v h t +1 = v h t + ∥ ˙ v h t ∥ l ，其中 l = v h g − v h t0其中， ∥ ˙ v h t ∥ 为平均速度的大小， l为从当前手部顶点指向“目标”手部顶点的单位向量。在实践中，我们以局部线性轨迹的方式“强制”手部朝着“目标”抓取移动；这种方式简单直观，但可能导致手部与物体的穿透。由于我们的重点是手部抓取，对于身体的其他部分，我们保持MNet预测的姿势和速度不变。优化的能量函数为：0其中，项 E Θ 是关于SMPL-X参数的能量，项 E h v是关于手部顶点的能量；它们的定义来自于公式 ( 3 )。03.5. 实现细节0优化：我们使用Adam [ 30]进行梯度下降来改进GNet和MNet推断出的SMPL-X人体模型。数据：我们使用GRAB [ 57 ]数据集，该数据集包含了整体3DSMPL-X人体抓取物体的数据；它有单独的训练集和测试集。有关数据准备，请参见补充材料。04.实验04.1.定性评估0GNet：图5显示了优化前后的代表性生成静态抓取。优化前，身体和头部姿势是合理的，但手的抓取可以改进（粉色）。优化使手更加逼真和物理上合理的抓取（绿色）。图7显示了GNet对YCB数据集[5]中两个未见过的复杂物体生成的抓取的泛化能力。MNet：图6显示了针对多种物体形状、位置、身体形状和“起始”姿势生成的运动。2. –"– SMPL-X7.330.873. GNet-w/o-opt5.320.874. GNet (ours)2.221.001. MNet-Pose22.030.210.4126.735.717.92. MNet-Marker [67]21.130.19.8221.529.613.23. MNet-w/o-IAA21.029.110.5320.325.512.24. MNet (ours)19.728.09.9519.728.110.51019.728.09.9132690图6. GOAL（GNet和MNet）生成的几种物体形状、位置、身体形状和“起始”姿势的运动示例。0抓取合成穿透体积（cm3）↓接触比例[68]0GRAB（GT）1.95 1.000表1.GNet的穿透和接触比例评估。我们将GNet与无优化和GrabNet变体进行比较。04.2.定量评估0GNet：表1报告了四个模型的穿透体积（cm3）和接触比例[68]：（1）“GrabNet”[57]，生成MANO抓取，（2）“GrabNet-SMPL-X”，使用SMPL-X的变体，（3）无优化的GNet，（4）带有优化的“GNet”。我们可以看到生成整体抓取（第2行）比仅手部抓取（第1行）更困难，但“GNet”（第4行）优于基线。因此，后处理优化有助于改善接触并减少穿透；由于SMPL-X不模拟软组织变形，小的穿透是不可避免的；参见[17]。MNet -IAA和输出特征：表2左侧比较了MNet与类似模型的区别，这些模型推断出：（1）仅SMPL-X姿势参数，“MNet-Pose”，（2）仅类似于MOJO[67]的标记，“MNet-Marker”，以及（3）没有交互感知注意力的MNet输出，“MNet-w/o-IAA”。我们报告了GRAB的保留测试集上全身、手和脚的顶点对顶点（V2V）误差。误差随着：（1）0运动V2V（毫米）↓ #输出V2V（毫米）↓0网络身体手脚帧身体手脚0表2.（左）MNet输出和“交互感知注意力”（IAA）对V2V误差的影响。“姿势”指SMPL-X姿势参数，“标记”指类似于MOJO[67]的整体身体设置。（右）随着MNet输出帧数的增加，结果得到改善，但在10帧左右饱和。0使用IAA特征并联合推断SMPL-X姿势和标记偏移作为输出。我们凭经验观察到，我们从角色控制的工作中得到的输入和输出的组合导致了更加逼真的结果。MNet -输出帧数：我们训练了5个网络，输出范围从1到10帧，并在表2右侧报告了生成网格和地面真实网格之间的顶点对顶点（V2V）误差，包括身体、脚和手。结果表明，在我们的自回归方案的每次迭代中生成更多的帧有助于生成更好的结果。我们凭经验观察到，当推断未来的帧数较少时，有时运动不会收敛到抓取，手逐渐偏离物体而不是接触物体。132700图7.我们展示了GOAL如何通过从GNet的潜在空间中采样4个抓取来进行泛化，这些抓取是针对2个复杂的未见过的YCB [5]物体生成的。0脚滑动：我们使用“脚滑动”指标评估脚与地面的接触。对于每一帧，我们找到离地面最近的身体顶点并计算其速度。在接触时，速度理想情况下应为零；如果每帧速度高于1厘米，我们认为脚“滑动”。GOAL生成的序列中有13.7%的“脚滑动”帧；GRAB的真实数据中有6.7%。虽然还有改进的空间，但与现有工作[19,67]相比，GNet的脚“滑动”更少。04.3. 感知评估0我们通过在GRAB的测试集上生成抓握姿势和动作来评估GNet和MNet，并通过亚马逊机械土耳其进行感知研究。GNet：对于每个测试集对象，我们生成2个“目标”全身抓握，并在优化前后以及相应的真实抓握之前和之后渲染“转盘动画”。参与者根据1（不真实）到5（非常真实）的评分对4个特征的质量进行评估：（1）抓握姿势，（2）脚与地面的接触，（3）手-物体抓握和（4）头部方向。每个抓握至少由10个参与者评估。为了去除无效评分，例如那些不理解任务的评分，我们使用类似于[57]的catchtrials。结果显示在表3中。优化步骤改善了全身抓握的真实性。此外，与地面真实情况相比，它改善了头部方向；这是因为一些GRAB受试者在抓握物体时看向物体的另一侧，而GNet由于显式的头部方向q在方程（2）中，产生了朝向物体的头部方向。对于脚与地面的接触也是如此，由于方程（11）中的显式脚项Lfv。总体而言，生成的抓握质量接近于真实情况。MNet：我们向参与者展示生成的和真实的序列，并要求评估以下质量：（1）整体身体动作，（2）脚与地面的接触，（3）动作结束时的手-物体抓握，（4）头部方向。表4显示了结果；GOAL生成的抓握动作接近于真实情况。请注意，相对于静态姿势，MNet的任务更加困难，因为它生成了完整的动作。此外，表3和表4显示，相对于静态姿势，地面真实情况的评分更高；这对于MNet来说更难匹配。0指标 GNet GNet + Opt 真实情况 [57]0整体抓握姿势 ↑ 3.89 ± 0.93 3.98 ± 0.94 3.78 ± 1.06 脚与地面的接触 ↑3.98 ± 1.06 4.10 ± 0.93 3.82 ± 1.11 手-物体抓握 ↑ 2.70 ± 1.37 3.63 ±1.16 3.98 ± 1.04 头部方向 ↑ 3.83 ± 1.01 4.01 ± 0.97 3.84 ± 1.070平均值 ↑ 3.60 ± 1.22 3.93 ± 1.02 3.86 ± 1.070表3.GNet无优化的感知研究。受试者根据1（不真实）到5（非常真实）的评分对抓握的真实性进行评估。我们报告了所有有效参与者的平均评分值±标准差。优化步骤（“GNet +Opt”）改善了所有四个研究特征。0指标 GOAL 真实情况 [57]0整体身体动作 ↑ 3.74 ± 0.97 4.20 ± 0.90 脚与地面的接触 ↑3.88 ± 1.14 4.18 ± 1.05 最终手-物体抓握 ↑ 3.66 ± 1.05 4.32± 0.91 头部方向 ↑ 3.86 ± 1.03 4.18 ± 1.000平均值 ↑ 3.79 ± 1.05 4.22 ± 0.970表4.MNet动作评估。参与者根据Likert量表（1表示不真实，5表示非常真实）对生成的动作和真实动作进行评分，评估的因素有4个：整体身体动作真实性、脚与地面的接触、最终手-物体抓握和头部方向。0表4和表5显示，相对于静态姿势，地面真实情况的评分更高；这对于MNet来说更难匹配。05. 结论0我们引入了GOAL，这是第一个能够生成真实人类动作以抓取以前未见过的3D物体的模型。我们使用两个新颖的网络（GNet和MNet）首先生成静态的“目标”抓握，然后填充帧之间的动作。我们利用这两个网络在欧几里得空间中推断交互特征的能力，并在每个网络之后引入优化步骤，以基于回归特征改善抓握和动作的质量。评估结果表明，我们的框架能够合成自然且物理上可行的抓握动作。未来的工作：GOAL为未来的抓握动作生成研究开辟了许多可能性。尽管GOAL生成了逼真的抓握动作，但它受到靠近物体的限制，无法在身体远离物体时生成动作。我们计划在与物体互动之前扩展到合成更长的行走动作。此外，我们在这里专注于人-物体互动；我们计划将GOAL与人-场景互动模型结合起来。0致谢：本研究得到了智能系统国际马克斯普朗克研究学校和马克斯普朗克ETH学习系统中心的支持。我们感谢TsvetelinaAlexiadis，Taylor McConnell，Joachim Tesch和BenjaminPellkofer对实验、渲染和网站的帮助。披露：https://�les.is.tue.mpg.de/black/CoI CVPR 2022.txt132710参考文献0[1] Rami Ali Al-Asqhar, Taku Komura和Myung Geol Choi.交互式动作适应的关系描述符.在计算机动画研讨会（SCA）中，第45-53页，2013年。 [2]Norman I. Badler，Cary B. Phillips和Bonnie Lynn Webber.模拟人类：计算机图形动画和控制.美国牛津大学出版社，1993年。 [3] J´ulia Borras和TamimAsfour. 用于定位操纵任务的全身姿势分类法.在智能机器人和系统国际会议（IROS）中，第1578-1585页，2015年。 [4] Matthew Brand和Aaron Hertzmann. 风格机器.在计算机图形和交互技术国际会议（SIGGRAPH）中，第183-192页，2000年。 [5] Berk C¸ alli，Arjun Singh，AaronWalsman，Siddhartha S. Srinivasa，Pieter Abbeel和Aaron M.Dollar. YCB对象和模型集：面向操纵研究的共同基准.在先进机器人国际会议（ICAR）中，第510-517页，2015年。 [6]Yu-Wei Chao，Jimei Yang，Weifeng Chen和Jia Deng.学习坐下：通过分层控制合成人-椅子交互.在人工智能会议（AAAI）中，第5887-5895页，2021年。 [7] TaoChen，Jie Xu和Pulkit Agrawal. 通用手持物体重新定向系统.机器人学习会议（CoRL），2021年。 [8] SammyChristen，Muhammed Kocabas，Emre Aksan，JeminHwangbo，Jie Song和Otmar Hilliges.D-Grasp：用于手-物体交互的物理合理的动态抓取合成.在计算机视觉和模式识别会议（CVPR）中，2022年。 [9] EnricCorona，Albert Pumarola，Guillem Aleny`a和FrancescMoreno-Noguer. 上下文感知的人体运动预测.在计算机视觉和模式识别会议（CVPR）中，第6990-6999页，2020年。 [10] Enric Corona，Albert Pumarola，GuillemAleny`a，Francesc Moreno-Noguer和Gregory Rogez.GanHand：在多物体场景中预测人体抓取可行性.在计算机视觉和模式识别会议（CVPR）中，第5030-5040页，2020年。 [11] George ElKoura和Karan Singh. Handrix：人手动画.在计算机动画研讨会（SCA）中，第110-119页，2003年。 [12]Katerina Fragkiadaki，Sergey Levine，Panna Felsen和JitendraMalik. 人体动力学的循环网络模型.在国际计算机视觉会议（ICCV）中，第4346-4354页，2015年。[13] Guillermo Garcia-Hernando，Edward Johns和Tae-KyunKim. 基于物理的巧妙操作：估计手势和剩余强化学习.在智能机器人和系统国际会议（IROS）中，第9561-9568页，2020年。 [14] Michael Gleicher. 将动作重新定位到新角色.在计算机图形和交互技术国际会议（SIGGRAPH）中，第33-42页，1998年。 [15] Anand Gopalakrishnan，Ankur Mali，DanKifer，Lee Giles和Alexander G. Ororbia. 用于0人体运动预测.在计算机视觉和模式识别会议（CVPR）中，第12116-12125页，2019年。 [16] Helmut Grabner，Juergen Gall和Luc Van Gool.什么使椅子成为椅子？在计算机视觉和模式识别会议（CVPR）中，第1529-1536页，2011年。 [17] Patrick Grady，ChengchengTang，Christopher D. Twigg，Minh Vo，SamarthBrahmbhatt和Charles C. Kemp.ContactOpt：优化接触以改善抓取.在计算机视觉和模式识别会议（CVPR）中，第1471-1481页，2021年。 [18] Chuan Guo，Xinxin Zuo，Sen Wang，Shih

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

GOAL: 生成全身动作和抓握未知3D物体的方法

最新资源

GOAL: 生成全身动作和抓握未知3D物体的方法

goal:Goal.reach Google.Analytics Yandex.Metrika

gps_goal-master_gps_goal_UsingGPS_

代码改错：while path[-1] != goal:

Failed to execute goal :There are test failures

Initial State: At(HWS) ∧ ¬ Have(Drill) ∧ ¬ Have(Milk) ∧ Sells(SM, Milk) ∧ Sells(HWS, Drill) Goal: At(Home) ∧ Have(Milk) ∧ Have(Drill)画出Graph Planning

机械臂模拟抓握水杯代码

如何在 C++ 中实现 action 的 goal 和 result 类型？

maven中<goal>generate</goal>的作用

ros2 nav2导航的action中的goal cancel status result的消息类型都是什么

如何将智能体目标位置的二维坐标self.goal_position = [90, 0.9275]，改成横坐标为固定值1.75，纵坐标为未知的任意值

怎么用rostopic pub发布move_base_simple/goal

用python写一个小游戏

m: Maze = Maze(rows=1000, columns=2000, sparseness=0.2, start=MazeLocation(0, 0), goal=MazeLocation(999, 1999))每个参数是什么意思

Maven的生命周期？

最新资源