BEHAVE：全身人-物互动数据集与方法

29 浏览量更新于2023-10-25 收藏 12.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

159350BEHAVE：用于跟踪人-物互动的数据集和方法0Bharat Lal Bhatnagar 1,2，Xianghui Xie 2，Ilya A. Petrov 1，Cristian Sminchisescu 3，Christian Theobalt 2和Gerard Pons-Moll 1,201 德国图宾根大学 2 德国马克斯∙普朗克信息学研究所，萨尔兰信息学校园 3 Google研究 {i.petrov,gerard.pons-moll}@uni-tuebingen.de, {bbhatnag, xxie, theobalt}@mpi-inf.mpg.de, sminchisescu@google.com0摘要0在自然环境中建模人类与物体之间的互动对许多应用至关重要，包括游戏、虚拟和混合现实，以及人类行为分析和人机协作。这种具有挑战性的操作场景需要对大量的物体、场景和人类动作进行泛化。不幸的是，目前还没有这样的数据集。此外，这些数据需要在多样化的自然环境中获取，这排除了4D扫描仪和基于标记的捕捉系统。我们提供了BEHAVE数据集，这是第一个具有多视角RGBD帧和相应的3DSMPL和物体拟合以及它们之间的注释接触的全身人-物互动数据集。我们在5个位置记录了约15k帧，8个主体与20个常见物体进行了各种互动。我们使用这些数据来学习一个模型，可以使用易于使用的便携式多摄像头设置在自然环境中同时跟踪人类和物体。我们的关键见解是从人体和物体到统计身体模型预测对应关系，以在互动过程中获得人-物接触。我们的方法可以在3D中记录和跟踪不仅人类和物体，还有它们的互动，以表面接触的形式进行建模。我们的代码和数据可以在以下网址找到：http://virtualhumans.mpi-inf.mpg.de/behave。01. 引言0过去十年来，人类外观建模取得了快速进展，包括身体姿势、形状[52, 58, 60, 61, 81]、面部[74]甚至详细的服装[5, 7,11, 57,65]。具有虚拟试穿、个性化角色创建和其他几个应用的各种实际用例0图1. 给定一个多视角RGBD序列，我们的方法在3D中跟踪人类、物体和它们之间的接触。0在增强和混合现实，或人机协作中，对人类的关注是合理的。除了建模外观，很少有方法专注于捕捉和合成人类的互动（人-物/场景互动）。已经有工作在静态3D场景中捕捉人类[33]，甚至不使用外部摄像头[30]，以及合成静态姿势[34,49]或全身运动[32, 32, 50,68]在3D场景中。这些方法显示出对建模人类行为的日益关注，突出了捕捉真实人类互动的需求。然而，现有方法[32,68]是从使用光学标记的运动捕捉系统或可穿戴传感器捕捉的高质量策划数据中学习的。不幸的是，这些商业系统昂贵，严重限制了可以捕捉的互动，并且在跟踪人类和物体在遮挡下的情况下经常失败。此外，录制体积在空间上受限且难以重新定位，从而限制了可以捕捉的活动、场景和物体。可穿戴传感器[30]在体积上没有限制，但无法准确捕捉近距离互动。总之，缺乏多样化的3D互动数据以及缺乏准确和灵活的捕捉方法都是模拟人类行为的障碍。为了简化数据捕捉过程，从而加快该领域的进展，我们提出了BEHAVE，一种在自然环境中使用便携式、廉价且易于使用的RGBD相机组成的方法，用于捕捉多样化的3D人类互动。然而，从稀疏的消费级摄像头中跟踪人类互动极其具有挑战性。深度数据本质上是嘈杂和不完整的。此外，在互动过程中，人和物体经常相互遮挡。此外，准确估计人-物接触是困难的，因为接触表示图像中靠近可观察（分辨率）极限的小区域。这需要创新，远远超出了当前最先进的跟踪器。我们提出使用参数化人体模型（如SMPL[52]）跟踪人类，并使用模板网格跟踪物体。由于上述挑战，简单地将人体模型和物体3D模板拟合到点云中完全失败。我们的关键思想是训练一个神经模型，同时完成人体和物体的形状，用隐式表面表示，并预测到人体的对应场和物体的方向场。这些丰富的输出使我们能够制定一个强大的人-物拟合目标，该目标对缺失数据、噪声和遮挡具有鲁棒性。为了训练和评估BEHAVE，我们在自然环境中捕捉了最大的人-物互动数据集。BEHAVE数据集包含20个3D物体，8个主体（5个男性，3个女性），5个不同的位置，总共约15.2k帧的录制。我们提供了真实的SMPL和3D物体网格以及接触点。我们的贡献可以总结如下：159360缺乏多样化的3D互动数据以及缺乏准确和灵活的捕捉方法都是模拟人类行为的障碍。为了简化数据捕捉过程，从而加快该领域的进展，我们提出了BEHAVE，一种在自然环境中使用便携式、廉价且易于使用的RGBD相机组成的方法，用于捕捉多样化的3D人类互动。然而，从稀疏的消费级摄像头中跟踪人类互动极其具有挑战性。深度数据本质上是嘈杂和不完整的。此外，在互动过程中，人和物体经常相互遮挡。此外，准确估计人-物接触是困难的，因为接触表示图像中靠近可观察（分辨率）极限的小区域。这需要创新，远远超出了当前最先进的跟踪器。我们提出使用参数化人体模型（如SMPL[52]）跟踪人类，并使用模板网格跟踪物体。由于上述挑战，简单地将人体模型和物体3D模板拟合到点云中完全失败。我们的关键思想是训练一个神经模型，同时完成人体和物体的形状，用隐式表面表示，并预测到人体的对应场和物体的方向场。这些丰富的输出使我们能够制定一个强大的人-物拟合目标，该目标对缺失数据、噪声和遮挡具有鲁棒性。为了训练和评估BEHAVE，我们在自然环境中捕捉了最大的人-物互动数据集。BEHAVE数据集包含20个3D物体，8个主体（5个男性，3个女性），5个不同的位置，总共约15.2k帧的录制。我们提供了真实的SMPL和3D物体网格以及接触点。我们的贡献可以总结如下：0•我们提出了第一种能够使用多视角RGBD图像在自然环境中准确跟踪人类、物体和接触的方法。0•我们收集了最大的多视角RGBD序列数据集以及相应的人体模型、物体和接触注释。有关其对社区的有用性的详细信息，请参见第3节。0•由于目前没有公开可用的代码和数据集能够准确跟踪自然环境中的人类-物体交互，我们将发布我们的代码和数据以供进一步研究。02. 相关工作0在本节中，我们首先简要回顾了专注于物体和人体重建的工作，这些工作与它们的环境背景相隔离。这些方法侧重于建模外观，并不考虑交互。接下来，我们介绍了专注于静态场景中的人类的方法，并最后讨论了与我们的工作更相关的模拟动态人类-物体交互的工作。0外观并不考虑交互。接下来，我们介绍了专注于静态场景中的人类的方法，并最后讨论了与我们的工作更相关的模拟动态人类-物体交互的工作。02.1. 外观建模：没有场景背景的人类和物体0人体重建和动作捕捉从单目RGB数据[12, 29, 31, 41, 43, 44,58, 59, 64, 87]和多视角[37-40,62]设置中感知人类已经得到广泛探索。最近的工作倾向于重建手势和面部表情等细节[20, 25, 85, 91]，自我接触[27,54]，人与人之间的互动[26]，甚至服装[6,11]。这些方法受益于使用参数化身体模型[52, 58,81]来表示人类，因此激发了我们使用最近的隐式扩散表示[8,10]作为我们跟踪器的基础。随着像素对齐的隐式函数学习的成功[64, 65]，最近的方法可以从稀疏[38,80]甚至单个RGB相机[47,48]中捕捉人类表现。然而，从RGB数据中捕捉3D人类涉及深度和尺度之间的基本模糊。因此，最近的方法使用RGBD[56, 69, 73, 76, 84]或体积数据[9, 10,19]进行可靠的人类捕捉。这些见解激发了我们基于多视角RGBD数据构建新型跟踪器的动机。0物体重建大多数现有的从RGB [21, 46, 53, 75, 78]和RGBD[45, 55,82]数据中重建3D物体的工作是在孤立的情况下进行的，没有人类参与或交互。虽然具有挑战性，但在严重遮挡的情况下，在动态环境中重建物体可能更有趣。02.2. 交互建模：具有场景背景的人类和物体0静态场景中的人类建模人类在场景中的行为建模既重要又具有挑战性。最近几年，已经广泛研究了将人类放置在静态场景中[34, 49, 90]，运动预测[15, 32]或人体姿势重建[16, 33,77, 86,89]等任务，这些任务在场景约束下，或者学习人类-物体交互的先验知识[66]。这些方法与建模人类与静态物体交互有关，但受到限制。我们解决了一个更具挑战性的问题，即在动态环境中共同跟踪人类-物体交互，其中物体被操纵。0动态人类物体交互最近，人们开始强调基于3D [42,72]、2.5D [13, 14]和2D [22, 24, 28, 35,83]的手-物交互建模159370数据集 RGBD 人类对象交互质量可扩展性0NTU [51] � Jts. X NA *** PiGr [66] � Jts. X NA ** GRAB [72]X � � *** * PROX [33] � � Stat. * **0我们的 � � � ** ***0表1.我们将提出的BEHAVE数据集与包含人类-物体交互的现有数据集进行比较。我们的标准基于RGB输入、3D人体、与物体的3D接触、质量（星星越多越好）和在不同位置进行捕捉的可扩展性（星星越多越好）。NTU-RGBD [51]和PiGraphs[66]不提供完整的3D人体和物体接触，因此不适合建模动态的3D交互。GRAB[72]使用基于标记的捕捉系统，因此包含最高质量的数据，但这也使得它难以扩展。PROX[33]更容易扩展，因为它使用了一个基于Kinect的捕捉设置（尽管需要预先扫描场景），但这降低了整体质量。更重要的是，它不包含动态交互。我们的数据集是第一个在多样化环境中捕捉动态人类-物体交互的数据集。0数据。尽管这些方法很强大，但目前仅限于建模手-物交互。相反，我们对全身捕捉感兴趣。动态全身人体物体交互的方法通过2D动作识别[36,51]或在交互过程中重建3D物体轨迹[23]来解决问题。尽管令人印象深刻，但这些方法要么缺乏完整的3D推理[36,51]，要么仅限于特定物体[23]。最近的工作从RGB[71]或RGBD流[70]中重建和跟踪人体物体交互，但不考虑接触预测，因此缺少准确交互估计所必需的组件。与我们的工作非常相关，PHOSA[88]从单张图像中重建人体和物体。PHOSA使用手工设计的启发式方法，实例特定优化进行拟合，并使用预定义的接触区域，这限制了对多样化人体物体交互的泛化能力。相反，我们的方法通过从数据中学习来预测必要的信息，使我们的模型更具可扩展性。实验证明，我们的方法的准确性明显高于PHOSA。03. BEHAVE数据集0我们提供了BEHAVE数据集，这是迄今为止最大的自然环境中人体物体交互数据集，包含3D人体、物体和接触注释。请参见表1，与其他数据集进行比较。我们的数据集包含多视角RGBD帧，准确的伪地面真实SMPL[52]，物体拟合，人体和物体分割掩码以及接触注释。0记录多视角RGBD数据我们在正方形录制空间的4个角落设置和校准了4个Kinect，所有交互由8个受试者（5男性，3女性）执行。在5个不同的室内位置捕捉交互，使用20个常用但多样化的物体：5个不同的盒子，2个椅子，2个桌子，板条箱，背包，垃圾桶，显示器，键盘，手提箱，篮球，运动球，瑜伽垫，凳子和工具箱。我们包括抬起、携带、坐、推和拉等常见的手脚交互，以及自由交互。请参见我们的补充视频以获取示例序列。总共，我们的数据集分别包含10.7k帧用于训练和4.5k帧用于测试。0人体分割和SMPL拟合我们通过运行DetectronV2[79]对图像中的人体进行分割，然后使用[67]对分割掩码进行手动修正。然后使用这些掩码将多视角深度图分割并将人体点云从2D提升到3D。我们使用FrankMocap[63]从图像中初始化SMPL的姿势，然后使用实例特定优化[6]将SMPL模型拟合到分割的人体点云上。为了更准确地拟合，我们还使用[9]从3D扫描中获取每个主体的SMPL形状参数。我们报告分割的Kinect点云与我们的SMPL拟合之间的Chamfer误差为1.80cm。0物体分割和拟合为了获得物体分割，我们使用3D扫描仪[1,3]对物体进行预扫描。然后，我们使用AMT[2]的注释者在图像中手动标记的多视角物体关键点来优化预扫描的物体网格的6D姿态。我们得到分割的Kinect点云与物体拟合之间的Chamfer误差为2.42cm。然后，通过将拟合的物体网格投影到图像中获得分割掩码。0基于伪GTSMPL和物体拟合，我们自动检测接触，如果人体表面上的一个点（注册的SMPL）距离物体表面小于2cm。对于每个物体点，我们存储一个二进制接触标签（是否有接触）和与人体的对应关系（表面上的接触位置）。有关数据采集的更多详细信息，请参见补充材料。0这个数据集对社区有什么用处？我们在记录自然环境中最大的全身日常人体与常见物体交互数据集方面付出了重大努力。我们提出了BEHAVE数据集的以下挑战：159380图2. 我们提出了BEHAVE数据集，这是自然环境中最大的人体-物体交互数据集。BEHAVE包含多视角RGBD序列和相应的3D物体和SMPL拟合，以及3D接触。0•跟踪人体-物体交互。使用多视角RGBD数据跟踪人体和物体。这可以进一步扩展到仅使用多视角RGB、无深度，最终仅使用单个摄像头进行跟踪。0•从单张图像重建。从单个RGB图像中联合重建3D人体和物体的3D结构。目前，还没有可以用于基准测试，更不用说学习这样的模型的数据集。0•姿势和形状估计。在人与交互物体之间存在严重遮挡的具有挑战性的自然环境中对姿势和形状估计方法进行基准测试。0除了这些任务，研究社区可以自由探索BEHAVE数据集的其他应用。04. 方法：跟踪人体、物体和接触0我们提出了BEHAVE，一种基于多视角RGBD输入的联合跟踪人体、物体及其交互（表示为表面接触）的方法。我们将我们的方法表述为一个扩展的逐帧配准问题：我们注册人体（使用SMPL[52]）和物体（使用其预扫描的物体网格），并预测接触作为SMPL和物体网格之间的对应关系。请参见图3，了解我们方法的概述。我们的表述必须遵守三个属性，（i）SMPL模型M（∙）应适应多视角输入中的人体，（ii）物体网格Wo应适应输入物体，以及（iii）SMPL模型和物体应满足接触。为了在3D中直接促进人体、物体和接触的联合推理，我们提升了人体Sh和物体So0使用多视角深度和语义分割将点云转换为3D。我们的联合表述适应SMPL M（∙）和0将物体Wo与每个时间步的多视角RGB-D数据进行显式接触。这采用以下形式：0E（θ，β，Ro，to）= ESMPL（Sh，M（θ，β））+Eobj（So，Wo）+0E接触（1cWo，M（θ，β））。（1）0SMPL模型由姿势θ和形状β参数化。为了简洁起见，我们将全局SMPL平移包括在姿势参数中。我们假设模板物体W是刚性的，并且仅估计旋转Ro和平移to，以使物体网格Wo =RoW +to适应物体点云。指示矩阵1c选择物体网格Wo上与SMPL模型接触的顶点。这确保了物体和人体网格上的接触位置在3D中充分对齐。术语ESMPL（Sh，M（θ，β））旨在将SMPL准确拟合到人体点云Sh。术语Eobj（So，Wo）旨在将物体网格拟合到物体点云，并且Econtact（1cWo，M（θ，β））确保人体和物体之间的接触匹配（对齐）。我们接下来详细解释每个术语。04.1. 将人体模型拟合到人体点云0将SMPL拟合到人体点云Sh需要，（i）最小化SMPL模型与人体点云之间的距离，以及（ii）正确的SMPL部分适应点云的相应身体部位。后者对于避免退化情况（如180°）很重要。0翻转拟合，其中左手错误地匹配到身体的右侧或反之亦然[9]。考虑到这些因素，我们将SMPL拟合目标设计为：0ESMPL = d（Sh，M（θ，β））+ Ecorr +Ereg，（2）L159390输入：分割的人体和物体的多视角点云0参考SMPL模型0输出：已注册的SMPL模型、物体和接触0NN预测的对应关系和距离0拟合SMPL，对象和接触0图3.给定一系列多视图图像，我们使用SMPL和模板对象网格跟踪人体和对象。我们将分割的多视图RGBD帧提升到3D，并获得人体和对象的点云。如图所示，我们的网络预测了人体点云与身体模型之间的对应关系，这使我们能够拟合SMPL。我们还预测了对象到身体模型的对应关系，从而使我们能够建模接触。我们的网络预测（见第4节）使我们能够将SMPL和对象网格注册到视频中，实现对人体和对象的准确联合跟踪。0其中d(S h, M(θ, β))最小化了输入人体点云Sh与SMPL模型之间的点到网格距离。为了避免拟合过程中的次优局部最小值[9,10]，我们训练了一个神经网络，从输入预测密集的对应关系到SMPL模型。这确保了正确的SMPL部分解释了相应的输入区域，使用项Ecorr。具体来说，我们训练了一个类似于[17,18]的编码器网络，它以分割和体素化的人体S h和物体So点云作为输入，并生成与体素对齐的特征网格F = f encφ(S h, S o)。然后，我们采样N个3D查询点{p1, ...,pN}，其中p i ∈ R3，对于每个点p i = (x, y,z)，获得相应的点特征F i = F(x, y,z)。我们将这个点特征通过解码器网络f udfφ传递，预测到物体和人体表面的无符号距离u o i，u h i =f udf φ(F i)，u o i，u h i ∈R。我们使用第二个解码器网络f corr φ，预测点pi与SMPL模型的对应关系c i = f corr φ(F i)，c i ∈ R3。Ecorr要求输入点p i与通过SMPL模型变换后的相应点ci之间的距离与网络预测的距离u hi相同。在稍微滥用符号的情况下，我们使用M(c i, θ, β)将ci与SMPL函数进行变换。0E corr =0i =1 || p i − M(c i, θ, β)|2 − u h i|. (3)0如果网络预测的对应关系ci偏离了SMPL表面，那么这些对应关系就不能使用SMPL模型进行蒙皮，因为SMPL模型的功能仅在身体表面上定义。为了缓解这个问题，我们使用LoopReg[10]的公式，允许我们对表面之外的对应关系进行姿态和形状调整。最终项E reg = E J2D + E θ + E β，添加正则化项0SMPL关节拟合的目标函数，E J2D = ∑ K k=1 |π k M J(θ, β) −J k 2D|2，其中π k是第k个Kinect图像的相机投影矩阵，MJ(∙)是3D身体关节，J k2D是在第k个Kinect图像中检测到的2D关节。E θ和Eβ是对SMPL姿势和形状的正则化项，类似于[12]。04.2. 将对象网格拟合到对象点云0为了拟合对象网格，我们必须确保从输入的对象点云到对象网格的距离最小化。最小化这个单侧距离是必要但不充分的。由于在我们的交互环境中严重遮挡很常见，对象的大部分可能会从对象点云中丢失，使得拟合变得困难。为了缓解这个问题，我们还必须确保对象网格的所有顶点相对于输入正确地放置，即使点云是不完整的。为此，我们取对象网格顶点v o j ∈ W o，j ∈ {1, ..., L}并获得相应的点特征Fj，与第4.1节相同，其中L是对象网格顶点的数量。然后，我们使用点特征获得到对象和人体表面的无符号距离u o j，uh j = f udf φ(F j)。由于v oj是对象网格上的一个顶点，它到对象表面的距离u oj必须为零才能正确拟合。这使我们能够在对象点云中缺失对应部分时，将对象顶点准确地拟合到点数据中。0Eobj = d(So, Wo) +0j =1 |uoj|，(4)0其中，d(So,Wo)最小化了对象点云与对象网格之间的点到网格的距离，而项�Lj=1|uoj|使用隐式无符号距离预测来推断缺失的对象部分。N159400输入点云0我们的无方向0我们的0图4.我们展示了我们的网络预测的方向对于准确的对象拟合是重要的。如果没有我们的方向预测，拟合会陷入局部最小值。0预测对象方向。尽管方程（4）中的项最小化了对象点云与对象网格之间的双向距离，但它们不能保证对象点云的部分由对象网格上的语义对应部分解释，例如在图4中，桌子的腿没有正确对齐。如果我们在拟合过程中获得全局对象方向，可以解决这个问题。我们用在对象顶点上运行PCA获得的主要分量表示对象的方向。我们训练一个神经网络faφ，它使用与每个查询点pj对应的点特征Fj（与第4.1节相同）来预测对象的全局方向aj =faφ(Fj)，aj∈R9。我们发现，如果查询点离对象表面很远，方向预测是不可靠的，因此我们过滤掉无符号距离从对象表面uoj大于阈值ϵ = 2cm的点。对象的全局方向通过对过滤点的方向预测进行平均得到，ao =1M�Mj=1aj，其中M是过滤点的数量。接下来，我们计算当前对象方向¯a与预测对象方向ao之间的相对旋转，并使用它来初始化对象的旋转Ro =ao(¯aT¯a)−1¯aT。我们进一步对Ro进行SVD分解。0并且仅保留旋转矩阵。使用网络预测的对象方向初始化Ro对于避免对象拟合过程中的局部最小值非常重要，如图4和表3所示。04.3. 使用接触优化人体和对象模型0我们上面的公式可以得到相当好的人体和对象拟合，但不能确保人体和对象网格满足网络预测的接触。这经常导致浮动的对象和悬浮的手，如图5所示，因为人体和对象模型没有接触。在本节中，我们明确优化人体和对象网格以适应网络预测的接触。我们将接触建模为注册对象网格中的顶点voj∈Wo，0输入点云0没有我们网络预测的接触0我们的0图5.没有我们网络预测的接触，我们观察到出现了浮动的对象，导致不现实的跟踪。0非常接近输入人体uhj < ϵ和对象uoj <ϵ表面的点。与第4.2节类似，我们使用fudfφ来获取无符号距离uoj，uhj和fcorrφ来获取这些点到SMPL模型的对应关系cj。为了过滤接近人体和对象表面的查询点，我们计算一个二进制指示矩阵1c∈RN，使得1cj = 1当且仅当uoj <ϵ，uhj < ϵ。0Econtact =0j =1 1cj|voj−M(cj, θ, β)|2. (5)0Econtact使我们能够共同优化SMPL模型和对象参数Ro，to以满足网络预测的接触。04.4. 网络训练0在本节中，我们详细介绍了训练我们的网络。0特征编码。我们使用类似于IF-Net [17]的3DCNN来获得与体素对齐的多尺度特征网格F = fencφ(Sh,So)。0无符号距离预测。为了训练网络f_udfφ，我们在3D中采样N个查询点{p1,...,pN}。对于每个查询点pj，我们获取其点特征Fj（第4.1节）并使用它来预测到人体和物体表面的无符号距离[18]uoj，uhj =f_udfφ(Fj)。我们使用标准的L2损失联合训练f_encφ，f_udfφ。uoj，uhj的GT很容易获得，因为我们的数据集包含GTSMPL和物体拟合，可以获得点pj到SMPL和物体网格的GT距离。0SMPL对应预测。为了训练f_corrφ，我们使用采样的查询点pj的点特征Fj来预测其与SMPL模型的对应关系cj =f_corrφ(Fj)。我们使用标准的L2损失联合训练f_encφ，f_corrφ。由于我们的数据集中有GTSMPL拟合，我们只需找到查询点pj最近的SMPL表面点，并将其用作GT对应。159410方法 SMPL v2v (cm) 物体 v2v (cm)0IP-Net [9] 6.61 NA LoopReg [10] 9.12 NA直接拟合输入 16.15 26.09 PHOSA [88] 13.7334.730我们的方法 4.99 21.200表2.我们将我们的方法与IP-Net、LoopReg和PHOSA进行比较以获得SMPL和物体拟合。我们还展示了直接将SMPL和物体网格拟合到输入的次优性能。我们的方法不仅获得了更好的拟合结果，而且与LoopReg和IP-Net不同，我们还可以拟合物体。0物体方向预测。为了训练网络f_aφ，我们使用采样的查询点pj的点特征Fj来预测全局物体方向aj =f_aφ(Fj)。我们使用标准的L2损失联合训练f_encφ，f_aφ。我们发现远离物体表面的点在预测物体方向时不可靠。因此，我们只对靠近物体的点应用此损失，即GT uoj <ϵ。由于我们有GT物体拟合，我们通过对物体网格顶点进行PCA来获得GT方向，并在R9中使用3个主轴。05. 实验0在本节中，我们将我们的方法与现有方法进行比较。我们的实验证明，我们明显优于现有的基准。接下来，我们对我们的设计选择进行了消融实验，并强调了接触和物体方向预测在捕捉人体物体交互中的重要性。05.1. 与PHOSA比较0我们发现PHOSA[88]，一种从单个图像中重建人体和物体的方法，与我们的工作非常相关。尽管PHOSA仅使用单个图像，而我们使用多视角图像，因此我们的方法具有优势，但它仍然是最接近的竞争方法。我们对PHOSA的结果进行Procrustes对齐以消除深度模糊。值得注意的是，PHOSA依赖于预定义的固定接触区域，而我们的方法可以自由预测全身接触，并且PHOSA使用手工制作的启发式方法来建模接触，而我们的方法从数据中学习接触建模，使我们的方法更具可扩展性。我们在图6和表2中将我们的方法与PHOSA进行比较，明显优于它。05.2. 为什么不直接将人体和物体模型拟合到点云中？0由于目前没有现有的方法可以同时跟踪人体、物体和多视角输入中的接触，我们创建了一个明显的基准，直接将SMPL和物体网格拟合到输入点云中。我们在表2中展示了直接拟合很容易陷入局部最小值。0方法 SMPL v2v (cm) 物体 v2v (cm)0A) 我们的方法无物体方向 4.98 24.02 B)我们的方法无接触 4.96 21.280C) 我们的方法 4.99 21.200表3.我们分析了我们的方法中物体方向预测(A)和接触预测(B)的重要性。可以看到，物体方向预测明显改善了物体定位误差。接触损失的影响在数量上并不显著，但在质量上有明显的差异，见图5。0这是因为点云非常嘈杂，而且由于人与物体之间的严重遮挡，很多部分都丢失了。而我们的网络可以隐式地推断出缺失的部分，从而生成更准确的结果。05.3.为什么现有的人体配准方法不能扩展到我们的设置？0没有直接的基准可以从多视角输入中共同跟踪人体、物体和接触。有一些工作[9,10]追求类似的思路，即预测对应关系并将SMPL拟合到人体点云中。在本小节中，我们探讨了它们在我们的设置中的适用性。0与IPNet[9]的比较IPNet以人体点云为输入，并预测人体的隐式重建和与SMPL模型的稀疏对应关系，从而使其适应隐式重建。这种方法有三个主要缺点。首先，为了获得隐式重建，需要查询1283网格的占据情况，这是昂贵的。其次，它预测需要闭合表面的占据情况。第三，运行传统的MarchingCubes使占据预测对SMPL拟合不可微分。我们在方程（2）和（3）中的公式中缓解了这些问题，因为我们只需要查询N =30k个点来拟合SMPL，而不是1283（约2M）个点。由于我们使用的是无符号距离预测，我们的方法可以处理非闭合表面。我们还可以直接将SMPL拟合到无符号距离预测中，从而消除了对MarchingCubes的要求。我们在表2中将我们的方法与IPNet[9]（在我们的数据集上训练）进行比较，并显示出我们以更低的成本（30k（我们的）vs.约2M（IPNet）查询点和无MarchingCubes）获得更好的性能。这表明我们的公式甚至对于人体配准也优于IPNet。我们还可以处理物体和交互。定性比较见补充材料。0与LoopReg[10]的比较LoopReg通过显式预测对应关系将SMPL拟合到输入点云中。我们发现这个想法很有趣，并使用了他们的扩散159420输入PC0PHOSA0我们的0PHOSA-侧0我们的-侧0图6.我们将我们的方法与PHOSA[88]进行了人体、物体和接触的跟踪比较。可以清楚地看到，我们的方法可以推断人体与物体的接触，并产生更准确的结果。0我们方法中的SMPL公式。然而，LoopReg在我们的设置中不直接适用，因为它假设人体点云是无噪声和完整的。当点云由于遮挡而不完整时，无法为缺失部分预测对应关系。由于LoopReg只能使用表面点进行拟合，这使得配准不准确。BEHAVE通过使用对每个采样查询点预测的SMPL表面距离（方程（3））来拟合身体模型，从而允许使用非表面点进行拟合。这一点很重要，因为Kinect点云存在噪声。我们在缺失部分和噪声输入方面优于LoopReg[10]（在我们的数据集上训练），并且通过（表2）显示出我们的公式的鲁棒性。05.4. 接触的重要性0在这个实验中，我们展示了我们的网络预测的接触是实现物理合理追踪的关键。尽管数量上的差异不显著（表3），但从图5中可以看出，没有接触信息，人体和物体无法正确锁定在正确的位置。因此，我们注意到了不自然的结果，比如浮动的物体。使用我们的接触预测可以缓解这些问题。我们鼓励读者查看我们的补充文档，以了解关于BEHAVE的限制和未来工作的详细讨论。06. 结论0通过将神经网络引入到预测对应于3D人体模型的人体和物体表面上定义的无符号距离场，我们能够准确地建模人体与物体的接触。我们进一步将这种神经预测集成到提出的联合配准方法中，从而实现对人体-物体交互的稳健3D跟踪。除了我们提出的方法，我们还提供了BEHAVE，这是迄今为止最大的RGBD序列和已注释的人体、物体和接触数据集。BEHAVE数据集是对于对建模人体-物体交互感兴趣的研究社区的第一个基准。我们提出了一些现实世界的挑战，如从单个RGB图像重建人体和物体，从多个和单个视角的RGB(D)输入跟踪人体-物体交互，姿势估计等。我们的数据集连同我们的代码一起发布，以促进未来在这个重要新兴领域的研究。0致谢特别感谢RVH团队成员[ 4]和审稿人，他们的反馈有助于改进本文。本工作由德国研究基金会(DFG, German Research Foundation)资助-409792180(EmmyNoether计划，项目:真实虚拟人类)，德国教育和研究部(BMBF):图宾根人工智能中心, FKZ: 01IS18039A和ERC Consolidator Grant4DRepLy (770784)。GerardPons-Moll是机器学习卓越集群的成员，EXC编号2064/1-项目编号390727645。159430参考文献0[1] Agisoft metashape, https://www.agisoft.com/. 3 [2]https://www.mturk.com. 3 [3] https://www.treedys.com/. 3[4] http://virtualhumans.mpi-inf.mpg.de/people.html. 8 [5]Thiemo Alldieck, Marc Kassubeck, Bastian Wandt, BodoRosenhahn, and Marcus Magnor.基于光流的单目视频中的3D人体运动估计.在德国模式识别会议上, 2017年. 10[6] Thiemo Alldieck, Marcus Magnor, Bharat Lal Bhatnagar,Christian Theobalt, and Gerard Pons-Moll.从单个RGB相机学习重建穿着衣物的人体.在IEEE/CVF计算机视觉与模式识别会议(CVPR)上, 2019年. 2 , 30[7] Thiemo Alldieck, Marcus Magnor, Weipeng Xu, ChristianTheobalt, and Gerard Pons-Moll.从单目视频中生成详细的人体虚拟形象. 在国际3D视觉会议上,2018年9月. 10[8] Thiemo Alldieck, Hongyi Xu, and Cristian Sminchisescu.imGHUM: 隐式生成的3D人体形状和关节姿势模型.在IEEE国际计算机视觉会议上, 2021年. 20[9] Bharat Lal Bhatnagar, Cristian Sminchisescu, ChristianTheobalt, and Gerard Pons-Moll.结合隐式函数学习和参数模型进行3D人体重建.在欧洲计算机视觉会议(ECCV)上. Springer, 2020年8月. 2 , 3 ,4 , 5 , 70[10] Bharat Lal Bhatnagar, Cristian Sminchisescu, ChristianTheobalt, and Gerard Pons-Moll. Loopreg:自监督学习隐式曲面对应、姿势和形状用于3D人体网格配准.在神经信息处理系统进展会议(NeurIPS)上, 2020年12月. 2 , 5 , 7, 80[11] Bharat Lal Bhatnagar, Garvita Tiwari, Christian Theobalt,and Gerard Pons-Moll. Multi-garment net:从图像中学习给3D人物穿衣. 在IEEE国际计算机视觉会议(ICCV)上.IEEE, 2019年10月. 1 , 20[12] Federica Bogo, Angjoo Kanazawa, Christoph Lassner,Peter Gehler, Javier Romero, and Michael J Black. Keep itSMPL: 从单个图像自动估计3D人体姿势和形状.在欧洲计算机视觉会议上. Springer International Publishing,2016年. 2 , 50[13] Samarth Brahmbhatt, Ankur Handa, James Hays, andDieter Fox. Contactgrasp:从接触中合成功能性多指抓取。在IROS，2019年4月。20[14] Samarth Brahmbhatt, Chengcheng Tang, Christopher D.Twigg, Charles C. Kemp, and James Hays. ContactPose:具有物体接触和手势姿势的数据集。在欧洲计算机视觉会议上，2020年8月。20[15] Zhe Cao, Hang Gao, Karttikeya Mangalam, Qi-Zhi Cai, Minh Vo, andJitendra Malik.具有场景上下文的长期人体运动预测。ArXiv，abs/2007.03672，2020年。20[16] Yixin Chen, Siyuan Huang, Tao Yuan, Siyuan Qi, Yixin Zhu,and Song-Chun Zhu. 全面的场景理解：0单视角3D整体场景解析和人体姿势估计与人物-物体交互和物理常识。在IEEE国际计算机视觉会议（ICCV）中，2019年。20[17] Julian Chibane, Thiemo Alldieck, and Gerard Pons-Moll.特征空间中的隐式函数用于3D形状重建和补全。在IEEE计算机视觉和模式识别会议（CVPR）中，2020年6月。5,60[18] Julian Chibane, Aymen Mir, and Gerard Pons-Moll.用于隐式函数学习的神经无符号距离场。在神经信息处理系统（NeurIPS）中，2020年12月。5,60[19] Julian Chibane and Gerard Pons-Moll.从部分3D数据中完成纹理的隐式特征网络。在欧洲计算机视觉会议上，页码717-725，2020年。20[20] Vasileios Choutas, Georgios Pavlakos, T

下载后可阅读完整内容，剩余1页未读，立即下载