预测人类动作目标的特征3D姿势

44 浏览量更新于2023-10-25 收藏 16.19MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

159140预测人类行为的特征3D姿势0Christian Diller 1 Thomas Funkhouser 2 Angela Dai 101慕尼黑工业大学2谷歌0目标0动作时间（秒）0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.50“喝”0“播放”0“传递”0输入0目标0目标0输入0输入0图1.对于一个真实的人类执行动作的3D骨架序列，我们提出预测具有语义意义的特征3D姿势，代表该序列的动作目标。作为输入，我们采用一系列连续姿势的短时间观察，以预测未来的目标特征姿势。因此，我们提出采用面向目标的方法，预测未来行为的关键时刻，而不是预测连续的运动，后者可能以不同的速度发生，对于长期（>1秒）的预测更容易发散。我们开发了一种基于注意力的概率方法来捕捉可能的未来特征姿势的最可能模式。0摘要0我们提出了预测特征3D姿势的任务：从一个人的短序列观察中，预测该人在可能的动作定义特征姿势中的未来3D姿势，例如，从观察一个人拿起一个苹果，预测该人吃苹果时的姿势。先前的人体运动预测工作估计固定时间间隔内的未来姿势。虽然易于定义，但这种逐帧的公式化混淆了人类行为的时间和意图方面。相反，我们定义了一个从时间中解耦预测姿势的语义有意义的任务，从目标导向行为中获得灵感。为了预测特征姿势，我们提出了一种概率方法，模拟可能特征姿势分布中的多模态。然后，我们以自回归的方式从预测的分布中采样未来姿势假设，以模拟关节之间的依赖关系。为了评估我们的0通过构建一个手动注释的特征3D姿势数据集，我们的实验表明，我们提出的概率方法平均优于现有技术方法26%。01. 引言0未来的人体姿势预测对于全面理解人类行为至关重要，因此对于实现机器与人类的更高级别感知，如自主机器人或车辆，具有基础性的作用。事实上，预测被认为在智能中起着基础性的作用[3, 9,13]。特别是，预测人类未来的3D姿势为人类行为的结构和语义理解奠定了基础，并为代理人采取细粒度的预测性行动提供了基础。例如，机器人外科助手应该提前预测在哪里最好放置工具以协助外科医生的下一步行动，以及传感器视角。𝒙𝟎𝒙𝟑 𝒙𝟒𝒙𝟔𝒙𝟕𝒙𝟖 𝒙𝟗“pick up”“drink”“put down”“step back”159150在观察外科医生的实际3D骨架序列时，我们提出预测具有语义意义的特征3D姿势的任务，代表该序列的动作目标。作为输入，我们采用一系列连续姿势的短时间观察，以预测未来的目标特征姿势。因此，我们提出将时间和意图行为解耦，并引入一项新任务：预测人类未来动作的特征3D姿势。这有许多潜在的应用，包括人机交互、监控、可视化、模拟和内容创作。它可以用于预测机器人将物体传递给人的交接点；在安全监控系统中检测和显示值得警报的未来姿势；在协助人们举起重物时协调抓取；在遮挡情况下协助跟踪；或者像视频生成中那样预测未来的关键帧。图2可视化了这个新任务与传统的基于时间的方法之间的区别：我们的任务是预测动作定义时刻的下一个特征姿势（蓝点），而不是在固定的时间间隔内（红点）。如图1所示，特征3D姿势更具语义意义，未来很少在完全相同的时间发生。我们相信，预测可能的未来特征3D姿势迈出了向预测0关节位置0时间0连续运动 � �0� �0� �0特征姿势0固定时间步长的姿势0关节位置0时间0� �0图2.这些图显示了我们的新任务（左）与传统任务（右）之间的显著差异。橙色曲线描述了一个关节的运动（例如，一个人喝水时的手的位置）。它代表了一个典型的分段连续运动，在运动曲线的拐点处具有离散的动作定义的特征姿势（例如，在桌子上抓住杯子，将其放到嘴里等），并将它们分开的平滑轨迹连接它们（例如，举起或放下杯子）。我们的任务是预测未来的特征姿势（左侧的蓝色点），而不是在固定时间间隔内的中间姿势（右侧的红色点）。0通过理解未来动作或运动的目标，我们可以理解未来动作或运动的目标。由于未来的特征3D姿势通常在未来的较长时间间隔（>1秒）内发生，可能存在多个可能的特征姿势模式，我们必须在预测中捕捉这种多模态性。与许多3D人体姿势预测方法中的确定性预测不同，我们开发了一种基于注意力的概率热图预测，表示每个人体姿势关节在其未来位置的可能性。这使得我们能够生成多个不同的未来姿势假设。为了在所有姿势关节的潜在多模态未来中生成一致的姿势预测，我们对动作的末端执行器进行自回归预测（例如，预测右手，然后在预测的右手位置的条件下预测左手）-这使得我们能够对人体姿势关节的联合分布进行可行建模。为了展示我们提出的方法，我们在GRAB[27]和Human3.6M[15]数据集中引入了一个新的特征3D姿势预测基准。我们对这个基准进行的实验表明，我们的概率方法平均优于基于时间的最新技术26％。总结起来，我们提出了以下贡献：0•我们提出了预测特征性3D姿势的任务：从人的序列观察中预测可能的下一个动作定义的未来时刻，以实现目标导向的姿势预测理解。0•我们引入了一种基于注意力的概率方法来解决这个问题，并对下一个特征姿势的最可能模式进行建模，并表明它优于最新技术。0•我们自回归地建模未来姿势关节位置的多模态分布，将姿势预测视为末端执行器位置（例如，手）和身体其他部位的条件分布的乘积。0•我们引入了一个特征3D姿势预测的数据集和基准，包括来自GRAB [27]和Human3.6M[15]数据集的1535个注释的特征姿势帧。02. 相关工作0确定性人体运动预测。许多研究致力于人体运动预测，将其视为一个顺序任务，根据相机的固定帧率捕捉预测一系列人体姿势。对于这个顺序任务，循环神经网络已经被广泛用于人体运动预测[1，7，10，11，17，23，31]。这些方法在人体运动预测方面取得了令人印象深刻的成功。+159160编码0注意0输入姿势序列0先前的关节预测（如果有）多模态热图0热图0采样0� 骨架样本（不包括偏移）0偏移0每个体素的偏移0� 骨架样本0图3.我们用于特征3D姿势预测的方法概述。从输入的观察到的姿势序列以及任何先前的关节预测中，我们利用注意力机制学习关节之间的依赖关系，并解码一个3D体积热图，表示下一个要预测的关节的概率分布，以及一个相同大小的每个体素偏移场，以改善关节的放置。这使得自回归采样可以获得最终的姿势假设，以描述可能的特征3D姿势。0短期预测（最多≈1秒，偶尔几秒钟用于长期预测），但是RNN将历史总结为固定大小的表示形式，很难保持长期依赖性，以便进一步预测未来。为了解决RNN的一些缺点，还采用了非循环模型，使用卷积或全连接网络[5, 19,22]或注意力[21,28]对时间历史进行编码。Li等人提出了一种自动调节的方法，可以合成长达300秒的周期性动作（行走、跳舞）的姿势序列。然而，这些工作都集中在逐帧合成上，评估基准为最多1000毫秒。与逐帧合成不同，我们提出了一个目标导向的任务，以捕捉更长期人体动作的感知，这不仅有助于预测更有语义意义的关键时刻，而且使评估更可预测：如图1所示，在预测达到关键或目标姿势的姿势帧数方面可能存在显著的模糊性，这使得在长期预测中难以进行基于帧的评估。0多模态人体动作预测。虽然3D人体动作预测通常以确定性方式进行，但最近的一些工作引入了多模态未来姿势序列预测。这些方法利用了多模态预测的众多研究方法，如生成对抗网络和变分自编码器。例如，Aliakbarian等人将随机噪声与先前的姿势观察相结合，从而产生更多样化的序列预测。Yuan等人学习了一组映射函数，然后用于从训练过的VAE中进行采样，从而比简单的随机采样产生了更多样化的序列预测。与这些基于时间的方法不同，我们考虑以目标为导向的特征姿势预测，并将多模态明确地建模为预测的身体关节热图。0以捕捉关节之间的依赖关系的方式。0面向目标的预测。虽然基于时间的逐帧预测是未来预测任务的主要方法，但有几项工作提出了解决面向目标的预测问题。最近，Jayaraman等人提出了以与时间无关的方式预测“可预测”未来视频帧，并将预测表示为机器人任务的子目标。Pertsch等人预测了代表未来事件的未来关键帧序列。Cao等人通过首先预测人的2D目标位置来规划人的轨迹，以合成路径。受到这些基于目标的抽象的启发，我们的目标是将3D人体动作表示为其关键的特征姿势。03. 方法概述给定一个人的N个3D姿势观测序列X1:N = [x1,x2, ...,xN]，我们的目标是估计该人的特征3D姿势，以表征人的未来动作意图。对于输入序列的每个姿势，我们采用J个关节位置（表示为它们的3D坐标），即xi∈RJ×3。从这个输入序列中，我们预测J个概率热图Hj的关节分布，最后，采样K个输出姿势假设Y1:K，其特征为J个3D关节：yi∈RJ×3。通过表示关节预测的概率热图，我们可以捕捉可能的特征姿势中的多个不同模式，从而实现更多样化的未来姿势预测。我们注意到，据我们所知，我们是第一个提出使用体积热图进行未来人体姿势预测的方法，而以前的工作则将其用于从多个图像中估计姿势的更确定性任务。从输入序列出发，我们设计了一个神经网络架构，用于预测每个关节的概率热图，对应于该关节未来位置的可能性。这使得能够有效地建模多模态性，但仍然与离散网格相关联，因此我们�159170左手预测0右手预测0身体预测0姿势细化0图4.为了建模人体骨架内的关节依赖关系，我们通过首先预测末端效应器（右手和左手），然后预测身体的其余部分来以自回归方式采样关节；姿势细化然后提高骨架一致性。0还回归相应的体积偏移量，允许对位置进行精确采样。图3显示了我们学习的概率预测的概述。我们以自回归的方式有条件地建模这些预测，以便能够可靠地建模所有姿势关节位置上的关节分布。这使得在姿势关节集上实现一致的姿势预测成为可能，因为一组关节可能具有可能模式，这些模式在一起不太可能同时出现（例如，右手向前移动，而右肘向侧面移动-这两者独立地是有效的，但不是同时有效的）。为了自回归地顺序化姿势关节预测，我们首先为数据集中的末端效应器预测概率热图-先预测右手，然后在右手预测的条件下预测左手，然后预测其余的身体关节。04. 用热图预测捕捉多模态0我们的目标是学习预测输出姿势关节j的可能未来位置，其特征是可能姿势关节位置的概率热图Hj，该热图覆盖了可能的姿势关节位置的体积网格。根据N个姿势关节的J个姿势观测的输入序列，并在任何已经预测的关节的条件下，我们构建了一个注意力驱动的神经网络，以学习人体骨架关节之间的不同依赖关系，以提供最终的热图预测。0注意力驱动的序列编码。我们将输入序列X1:N的身体关节表示为N×J×3（N=10，GRAB数据集的J=25，Human3.6M的J=17）的关节位置随时间的连接。首先使用单层GRU[8]提取特征。然后从这些特征计算注意力图，表示对姿势关节输入集的依赖关系。通过这种方式，网络不仅学习了骨架中不同关节如何直接影响彼此（例如，运动学关系），还学会了利用更微妙的相关性，例如一个手相对于另一个手的可能位置。根据自然语言处理中广为流行的缩放点积注意力[30]的形式，我们的注意力图是从查询Q和一组键值对K和V计算得出的。在训练过程中，学习了Q、K和V的表示，这些表示在所有关节之间共享。这使我们能够将所有关节投影到相同的嵌入空间中，然后可以比较感兴趣的关节（表示为0通过Q与所有其他关节（K）的相似性来确定学习的姿势骨架表示的哪些部分对于所需的预测是重要的。在我们的情况下，注意力图A的维度为J'×N，其中J'表示要预测的关节数量。任何先前的关节预测都被视为我们注意力图的附加节点，使得注意力图的维度为J'×(N+np)，其中np是先前关节的数量。0Attn(Q, K, V) = softmax0� QKT√0V = AV, (1)0直观地说，键和查询之间的相似性定义了学习的姿势骨架表示中对于所需预测的重要部分。在我们的情况下，这在公式1中定义如下：值表示V通过Q和K之间的点积结果（乘以嵌入向量D的维度和softmax操作）进行逐元素加权。在我们的情况下，注意力图A的维度为J'×N，其中J'表示要预测的关节数量。任何先前的关节预测都被视为我们注意力图的附加节点，使得注意力图的维度为J'×(N+np)，其中np是先前关节的数量。0热图预测。基于注意力得分，我们使用一系列九个3D卷积来解码每个身体关节j的输出概率热图Hj。网格以骨架的髋关节为中心；我们使用16×16×16的网格大小，跨度为2立方米。网格中Hj在位置Hj(x, y,z)处的值对应于未来特征姿势中关节j在位置(x, y,z)处的概率。我们不直接回归概率值，而是将Hj(x, y,z)预测为分类问题，通过将输出值离散化为n discr =10个区间在[0,1]空间内。然后，我们使用交叉熵损失与离散化的目标热图一起训练我们的热图预测。在我们的实验中，我们发现与ℓ2或ℓ1回归损失相比，这种分类形式的Hj产生了更好的结果，因为它减轻了趋向于平均值或中位数的倾向。0偏移预测。由于在离散网格中预测关节位置会导致采样输出姿势中的网格伪影，我们还学习了相同体积网格上的偏移场Oj。在这里，每个体素Oj(x, y, z) ∈R3表示要在从热图Hj(x, y,z)采样关节后添加的位移。我们使用一系列九个3D卷积类似于热图体积来预测这些偏移量，并将每个偏移向量Oj(x, y,z)限制在最多一个体素长度的范围内移动关节。然后通过采样热图来估计输出姿势，然后使用相应的预测偏移进行细化。(2)1591804.1. 训练细节0请注意，对于捕捉到的人体运动的真实世界数据，我们没有未来特征姿势的完整真实概率分布，而是一组输入姿势到目标姿势的配对观察。因此，我们通过在训练数据中的单个未来观察中应用高斯核（大小为5，σ =2）在目标关节位置上生成目标热图数据。在测试时，我们使用温度为0.025的softmax缩放预测的热图，并从中采样最终的关节位置。我们通过在训练集观察中泛化来学习多模态，这样可以看到类似输入的多个可能性（例如，右传递与前传），从而鼓励学习的热图表示多个模式。我们在一台NVIDIA GeForce RTX2080Ti上训练我们的模型。我们使用带有权重衰减为0.001和线性预热计划为1000步的ADAM优化器；然后将学习率保持在0.001。我们使用批量大小为100，因为较大的批量大小有助于训练我们的注意机制。我们的模型训练时间长达8小时直到收敛。在训练过程中，我们应用教师强制，即基于先前关节预测的地面真实位置训练条件下的姿势关节预测。有关我们网络架构的详细规范，请参阅补充材料。05. 自回归联合预测0给定每个姿势关节位置的一组热图，下一步是预测具体的关节位置。由于它们彼此之间不是独立的，我们不能简单地从每个热图中独立地采样关节位置。相反，我们必须建模姿势关节之间的相互依赖关系。为此，我们自回归地建模姿势关节的联合分布，如图4所示：我们首先预测末端执行器关节，然后是其他身体关节。在我们的实验中，我们发现右手和左手的变异性较大，所以我们首先预测右手，然后在右手位置的条件下预测左手，然后是其他身体关节。经验上，我们发现手往往定义了身体姿势，而其余部分的顺序几乎没有影响。为了从关节热图中采样，我们使用温度缩放将热图集中在其局部最大值附近，然后进行随机采样。0姿势细化。虽然我们的自回归姿势关节预测鼓励与粗略全局结构一致的姿势预测，但姿势关节可能仍然略微偏离自然骨架结构。因此，我们使用姿势细化优化来鼓励预测的姿势遵循固有的骨长和角度约束，同时保持所有关节在高概率区域内，末端执行器靠近其原始预测，目标函数如下所示：0we∥xe−e∥2 + wb∥bonelengths(x)−b∥1 +wa∥angles(x)−θ∥1 + wc∥x−x0∥1 + wh�j(1−Hj)0E R ( x , e , b , x0 , θ, H ) =06.特征3D姿势数据集0其中x是原始预测的姿势骨架，表示为N个3D关节位置的向量；b和θ分别是最初观察到的姿势骨架的骨长和关节角度；x0是输入序列中最后一个骨架的关节位置；Hj是每个关节的热图概率；e是采样的末端执行器位置；we、wb、wa、wh、wc是加权参数（在我们的所有实验中，我们使用we=0.2，wb=1.0，wa=0.4，wh=0.1，wc=0.1）。然后，我们在这个目标下优化x，得到最终的姿势预测。0为了训练和评估特征3D姿势预测任务，我们介绍了一个基于GRAB [27]和Human3.6M[15]构建的带注释的特征姿势数据集。0“倒”0•GRAB是一个最近的数据集，包含1334个序列中的超过100万帧，由10个不同的演员表演共29个不同的动作，使用各种物体。每个演员0“行走”0“传递”0“拍照”0We then annotate the timesteps of the captured sequencescorresponding to characteristic poses. Input sequence startframes are randomly sampled, up until the characteristicpose frame. Several example input sequence-characteristicpose pairs are visualized in Fig. 5. Annotations were per-formed by the authors, within a time span of one day. Thisis the total time for annotating more that 1000 sequencesacross two datasets, with each annotation taking 10-30 sec-onds; this annotation efficiency enables quick and easyadoption of new datasets in the future. We define a char-acteristic pose as the point in time when the action is mostarticulated, i.e. right before the actor starts returning backto another pose (e.g., when the hand is furthest from theperson when passing, most tilted when pouring, etc.). Forsequences containing multiple occurrences of the same ac-tion, like lifting, we chose the repetition with most articu-lation, e.g. when the object is lifted highest. In the case ofHuman3.6M, where there are sometimes multiple possibleoptions for characteristic poses, we pick the first one that isrepresentative of the action, e.g., the first sitting pose.159190以T形姿势开始，向一张桌子移动，拿起一个物体并进行动作，然后回到T形姿势。人类动作是使用现代运动捕捉技术捕捉的，精度在几毫米范围内。GRAB提供了SMPL-X[24]参数，我们从中提取了最具定义性的25个身体关节。更多细节请参阅补充材料。0特征3D姿势预测。对于特征3D姿势预测任务，我们考虑一个人的N =10个3D姿势观察的输入序列，表示为GRAB数据集的J =25个3D关节位置和Human3.6M数据集的J =17个3D关节位置（按照它们的原始关节布局；有关更多详细信息，请参见补充材料）。从这个观察中，下一个特征姿势被预测为J个3D关节位置。所有姿势都以髋部为中心的坐标系表示。请注意，虽然我们在注释的数据集中有动作标签，但我们不在这个任务中使用它们。N个输入姿势观察可以发生在任何时间，因此方法是使用随机输入序列进行训练，直到特征3D姿势。在测试时，对于每种方法评估五个输入点，这五个输入点被选择为在序列开始到特征姿势之前的N帧之间均匀分布。0评估。我们在每个数据集中按照演员进行训练/验证/测试划分。对于GRAB，我们有8/1/1个训练/验证/测试演员，分别对应992/197/136个训练/验证/测试序列。对于Human3.6M，我们遵循[21]的划分：5/1/1个训练/验证/测试演员和序列，分别对应150/30/30个训练/验证/测试序列。为了评估我们的特征3D姿势预测任务，我们旨在考虑任务的多模态性质。由于我们没有地面真实概率分布数据，我们采用了之前工作中的方法。0由于每个输入姿势观察只有一个观察到的特征姿势，并且每种方法从每个方法中考虑k =10个假设，我们遵循之前关于多模态人体姿势序列预测的工作[2, 4, 32, 33]：在测试时，我们考虑每种方法的k =10个假设。为了全面描述这些假设，我们考虑了几个指标来评估预测的准确性、多样性和质量。准确性。首先，我们使用平均每关节位置误差（MPJPE）[15]评估采样误差，通过将最相似的预测p'与真实姿势p进行比较：0E MPJPE = 10N0j =1 || p ′ j − p j || 2 2 (3)0这评估了预测的假设是否很好地捕捉到目标，并允许与确定性基线进行比较（其中所有假设都相同）。多样性。我们通过同一序列中所有采样姿势之间的MPJPE来评估多样性。这评估了预测分布的多模态性。质量。最后，我们使用Inception Score[26]评估我们的多模态预测的质量，该评估针对所有测试序列的预测假设集合。InceptionScore被广泛用于衡量生成模型输出的质量。具体而言，我们使用首次在[14]中引入的条件形式。与[2]类似，我们根据我们的用例对其进行了调整，通过在我们的数据集中的地面真实样本上训练一个简单的基于骨架的动作分类器。总的来说，该指标估计了预测如何捕捉到一个动作，同时产生多样的姿势。07. 实验评估0我们使用从现实世界的GRAB [27]和Human3.6M[15]数据集构建的注释数据集来评估特征3D姿势预测任务。0与基于时间的最先进预测方法的比较。在表1中，我们将其与基于条件VAE的最先进多模态序列预测方法DLow[33]进行比较，以及最近的确定性基于帧的未来人体运动预测方法Learning Trajectory Dependencies [22]和HistoryRepeats Itself[21]，它们分别使用图神经网络和基于注意力的模型来预测人体姿势序列。我们在我们的数据集上训练所有这些顺序方法，给定输入序列N帧，预测输出N o帧的姿势序列，其中N o =100帧，以确保特征姿势位于每个目标序列中。由于这些基于序列的方法都预测输出序列，我们还允许它们使用MLP预测特征姿势的时间步长，以获得最终的特征姿势预测（有关详细信息，请参见补充材料）。159200GRAB Human3.6m0方法MPJPE ↓ 多样性 ↑ IS ↑ MPJPE ↓ 多样性 ↑ IS ↑0统计0随机采样 1.018 - - 1.159 - -0平均训练姿势 0.146 - - 0.179 - -0零速度 0.063 - - 0.166 - -0算法0学习轨迹依赖性[22] 0.077 - - 0.165 - -0历史重演[21] 0.071 - - 0.116 - -0DLow [33] 0.071 0.089 1.257 ± 0.02 0.119 0.104 1.623 ± 0.080我们的 0.054 0.105 4.153 ± 0.87 0.092 0.189 3.139 ± 0.320表1.特征3D姿势性能，与最先进和统计基线进行比较。我们评估所有方法的MPJPE，并且还评估多模态方法的样本之间的MPJPE多样性以及它们的质量，类似于[2]的Inception Score。0由于我们的目标是在给定任意序列观察的情况下预测特征3D姿势，我们对输入序列采样不同的起始点，并分析在与目标姿势的不同距离上的性能。我们在表中报告MPJPE、多样性和IS指标。01;我们首先测量了上述五个输入序列起始时间的每个性能，并对最终结果进行平均。我们的方法更准确地描述了未来的特征姿势，同时产生了改进的多样性和质量。为了比较，我们还在表2中报告了基线性能，当给出提供地面真实特征时间步的oracle时。即使有了这些额外的信息，我们的特征姿势公式也取得了改进的结果。定性结果如图6所示；我们的概率方法更有效地捕捉到了一组现实的特征模式。在图7中，我们将我们的预测多样性与多模态基线进行了可视化比较。我们预测的姿势假设在关节放置和动作表示方面更具多样性，同时仍然捕捉到目标姿势。0与统计基线的比较。我们还与三个统计基线进行比较：从均匀分布的热图中进行完全随机采样，整个数据集上的平均目标训练姿势，以及零速度基线（即仅使用最后一个输入姿势作为预测的错误），Martinez等人[23]表明这种方法与最先进的方法相比具有竞争力并且有时表现更好。我们的方法优于这些统计基线，表明学习到了强大的特征姿势模式。0方法GRAB Human3.6m0MPJPE ↓ IS ↑ MPJPE ↓ IS ↑0L. T. D. [22] 0.075 - 0.156 -0H. R. I. [21] 0.066 - 0.116 -0DLow [33] 0.059 1.567 ± 0.02 0.108 1.418 ± 0.140我们的 0.054 4.153 ± 0.87 0.092 3.139 ± 0.320表2.3D姿势性能特征比较。与表1相反，基线提供了具有地面真实特征时间步信息的基线。08.消融研究0概率预测是否有帮助？除了与基于确定性预测的最先进替代方法进行比较外，我们还在表3中将我们的模型骨干与一个确定性输出头（一个MLP）进行比较，该输出头替换了体积热图解码器，该解码器重新-0输入0学习轨迹依赖性（Mao等，19）0历史重演（Mao等，20）0我们的0目标0“通过”0“剥皮”0“拍照”0“吃”0DLow（Yuan等，20）0图6.特征3D姿势预测的定性结果。与确定性[21,22]（第2行和第3行）和概率性[33]（第4行）方法相比，我们的方法更有效地预测了可能的动作姿势。请注意，动作标签仅用于可视化目的。159210DLow（Yuan等人，2020年）我们的输入目标0“检查”0“拍照”0图7. 特征3D姿势预测的定性结果，显示了我们的预测与DLow [33]的多样性。0回归每个姿势关节相对于输入位置的偏移位置。去除我们的热图预测同样无法有效地捕捉到特征模式；我们基于概率的、基于热图的预测明显提高了性能。0每体素偏移预测是否有帮助？我们在表3中分析了每体素偏移预测的效果，结果显示它们明显改善了姿势预测。没有偏移预测的姿势细化无法达到同样水平的改善。0自回归姿势关节采样是否有帮助？我们在表3中分析了自回归姿势关节采样的效果。我们将其与一个独立预测每个姿势关节热图并独立采样姿势关节的模型进行比较，后者通常会得到与其他姿势关节不一致的有效的单个姿势关节预测结果。相比之下，我们的自回归采样有助于生成一个可能的、一致的姿势。0采样的姿势多样性如何？我们在图7中展示了我们多模态预测的定性示例，概述了热图预测和采样骨架的多样性。我们还在表1中评估了我们采样输出之间的预测多样性，以MPJPE表示。0GRAB Human3.6m0消融MPJPE↓IS↑MPJPE↓IS↑0损失0ℓ1损失0.132 1.132 ± 0.01 0.198 2.246 ± 0.240ℓ2损失 0.130 1.146 ± 0.01 0.206 1.976 ± 0.080模型0确定性 0.064 - 0.108 -0非自回归0.077 1.583 ± 0.15 0.109 1.929 ± 0.090采样0无偏移0.132 1.328 ± 0.02 0.172 2.537 ± 0.070细化 0.127 1.509 ± 0.03 0.163 2.978 ± 0.140k = 50 0.049 1.222 ± 0.02 0.082 1.845 ± 0.190未细化 0.057 3.989 ± 0.95 0.098 2.418 ± 0.110我们的0.054 4.153 ± 0.87 0.092 3.139 ± 0.320表3.在不同的热图损失、确定性和非自回归姿势采样、无偏移预测（有和没有姿势细化）、用于评估的样本数量以及没有姿势细化的情况下的消融研究。0姿势样本数量的影响是什么？如果我们从我们预测的关节分布中采样更多的姿势样本（从10到50），如表1所示，我们可以更好地预测潜在的目标特征姿势，这是可以预期的。0不同的热图损失是否重要？我们通过将热图预测作为离散化的热图，并使用交叉熵损失与使用ℓ1或ℓ2损失回归热图进行评估，发现我们的离散化公式更有效地模拟了相关模式。0局限性。我们的特征3D动作姿势预测方法仍然存在一些局限性。例如，虽然我们的偏移预测有助于减少与体素热图网格的关联，但更精确地建模较小尺度行为（例如，细节手部运动）需要更高效的表示方法，如稀疏网格。此外，我们的方法依赖于手动注释的特征3D姿势进行监督；虽然对于新数据集来说，特征姿势注释非常高效，但自监督的公式也是一个有趣的未来方向。09. 结论0在本文中, 我们介绍了一个新的任务:从短序列的姿势观察中预测人体活动的未来特征3D姿势.我们引入了一种概率方法来捕捉这些特征姿势中最可能的模式,并结合自回归公式来预测姿势关节以从预测的关节分布中采样一致的3D姿势.我们在一个新的用于特征3D姿势预测的注释数据集上训练和评估了我们的方法, 超过了确定性和多模态的最先进方法.我们相信这为面向目标的3D人体姿势预测和理解人类运动的预期打开了许多可能性.0致谢0该项目由巴伐利亚州科学和艺术部资助,由巴伐利亚数字转型研究所(bidt)协调.159220参考文献0[1] Emre Aksan, Manuel Kaufmann, and Otmar Hilliges.结构化预测有助于3D人体运动建模.在2019年IEEE/CVF国际计算机视觉会议(ICCV 2019)上, 首尔,韩国, 2019年10月27日-11月2日, 页码7143-7152. IEEE, 2019年.20[2] Sadegh Aliakbarian, Fatemeh Sadat Saleh, Mathieu Salz-mann, Lars Petersson, and Stephen Gould.一种用于多样化人体运动预测的随机条件方案.在IEEE/CVF计算机视觉和模式识别会议论文集中,页码5223-5232, 2020年. 3, 6, 70[3] Moshe Bar. 主动大脑: 预测记忆. 皇家学会B: 生物科学,364(1521):1235-1243, 2009年. 10[4] Emad Barsoum, John Kender, and Zicheng Liu. Hp-gan:通过GAN进行概率性3D人体运动预测.在IEEE计算机视觉和模式识别会议工作坊论文集中,页码1418-1427, 2018年. 3, 60[5] Judith B¨utepage, Michael J. Black, Danica Kragic, andHed- vig Kjellstr¨om. 用于人体运动预测和分类的深度表示学习.在2017年IEEE计算机视觉和模式识别会议(CVPR 2017)上, 檀香山,夏威夷, 美国, 2017年7月21日-26日, 页码1591-1599.IEEE计算机学会, 2017年. 30[6] Zhe Cao, Hang Gao, Karttikeya Mangalam, Qi-Zhi Cai,Minh Vo, and Jitendra Malik.带场景上下文的长期人体运动预测. 在Andrea Vedaldi, HorstBischof, Thomas Brox和Jan-MichaelFrahm编辑的计算机视觉-ECCV 2020-第16届欧洲会议, 格拉斯哥,英国, 2020年8月23日-28日, 第I部分, 卷12346, 计算机科学讲义,页码387-404. Springer, 2020年. 30[7] Hsu-Kuang Chiu, Ehsan Adeli, Borui Wang, De-An Huang,and Juan Carlos Niebles. 无关动作的人体姿势预测.在IEEE应用计算机视觉冬季会议(WACV 2019)上,夏威夷瓦伊科洛亚村, 美国, 2019年1月7日-11日,页码1423-1432. IEEE, 2019年. 20[8] Kyunghyun Cho, Bart Van Merri¨enboer, Caglar Gulcehre,Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, andYoshua Bengio.使用RNN编码器-解码器学习短语表示进行统计机器翻译.arXiv预印本arXiv:1406.1078, 2014年. 40[9] Andy Clark. 接下来是什么? 预测性大脑,情境代理和认知科学的未来. 行为和脑科学, 36(3):181-204,2013年. 10[10] Katerina Fragkiadaki, Sergey Levine, Panna Felsen, and Ji-tendra Malik. 人体动力学的循环网络模型.在2015年IEEE国际计算机视觉会议(ICCV 2015)上, 圣地亚哥, 智利,2015年12月7日-13日, 页码4346-4354. IEEE计算机学会, 2015年.20[11] Anand Gopalakrishnan, Ankur Mali, Dan Kifer, C. LeeGiles, and Alexander G. Ororbia II.一种用于人体运动预测的神经时间模型.在IEEE计算机视觉和模式识别会议(CVPR 2019)上, 长滩,加利福尼亚, 美国, 2019年6月16日-20日, 页码12116-12125.计算机视觉基金会/IEEE, 2019年. 20[12] Liang-Yan Gui, Yu-Xiong Wang, Xiaodan Liang和Jos´e M.F. Moura. 对抗几何感知的人体运动预测。在VittorioFerrari，Martial Hebert，Cristian Sminchisescu和YairWeiss（编辑）的《计算机视觉 - ECCV 2018 -第15届欧洲会议，慕尼黑，德国，2018年9月8-14日，论文集，第四部分》中，卷11208的《计算机科学讲义》，页码823-842。Springer，2018年。20[13] Jakob Hohwy. 预测性思维。牛津大学出版社，2013年。10[14] Xun Huang, Ming-Yu Liu, Serge Belongie和Jan Kautz.多模态无监督图像到图像的转换。在欧洲计算机视觉会议（ECCV）论文集上，页码172-189，2018年。60[15] Catalin Ionescu, Dragos Papava, Vlad Olaru和CristianSminchisescu.Human3.6m：大规模数据集和自然环境中的3D人体感知预测方法。IEEE Trans. Pattern Anal. Mach.Intell.，36（7）：1325-1339，2014年。2, 5, 60[16] Karim Iskakov, Egor Burkov, Vict

下载后可阅读完整内容，剩余1页未读，立即下载