在没有人的场景中生成3D人物的全自动系统

152 浏览量更新于2023-10-20 收藏 2.71MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6194在没有人的场景中生成3D人物张燕 * 1，3，穆罕默德·哈桑2，海科·诺依曼3，迈克尔·J. Black 2，Siyu Tang *11ETH苏黎世，瑞士2德国图宾根马克斯·普朗克智能系统研究所3德国乌尔姆大学神经信息处理研究所图1：自动生成具有各种形状和姿势的3D人体以与场景交互鼓励适当的人-场景接触，并且不鼓励人-场景表面相互渗透。摘要我们提出了一个全自动的系统，需要一个3D场景，并产生合理的3D人体自然构成的3D场景。给定一个没有人的3D场景，人类可以很容易地想象人们如何与场景和其中的对象然而，这对计算机来说是一个挑战性的任务，因为解决它需要（1）所生成的人体在3D环境中在语义上是合理的（例如，人们坐在沙发上或在炉子附近做饭），以及（2）所生成的人-场景交互在物理上是可行的，使得人的身体和场景不相互渗透，而同时，身体-场景接触支持物理交互。为此，我们使用基于表面的3D人体模型SMPL-X。我们首先训练一个条件变分自动编码器来预测语义上可信的3D人体姿势条件下，潜在的场景表示，然后我们进一步细化生成的三维机构使用场景约束，以执行可行的物理交互。我们表明，我们的ap-proach是能够合成逼真的和富有表现力的三维人体自然地与三维环境的互动我们进行了大量的实验，证明我们的生成框架与现有的方法相比，无论是定性还是定量。我们相信，我们的场景调节3D人体生成管道将适用于许多应用;例如在视频游戏和VR/AR中生成用于人姿态估计的训练数据。我们的数据和代码的项目页面可以在https://vlg.inf.ethz.ch/projects/PSI/ 上看到。该工作是在Y. Z.和S. T.在MPI-IS和图宾根大学。61951. 介绍近年来，出现了许多高质量的3D室内场景数据集，如Matterport3D [3]，ESTA [42]和Gibson [47]，它们采用3D扫描和重建技术来创建数字3D环境。此外，虚拟机器人代理存在于 3D环境中，例如 Gibson [47]和Habitat模拟器[32]。这些被用于开发从具体视图的场景理解方法，从而为室内机器人导航、AR/VR、计算机游戏和许多其他应用提供平台。尽管取得了这些进展，但这些环境的一个重要限制是它们不包含人。这样的世界不包含人的原因是，没有自动化工具来生成与3D场景真实地交互的真实的人，并且手动地做到这一点需要大量的艺术家努力。因此，我们的目标是在场景中自动生成自然和逼真的3D人体生成的人体预期在物理上是合理的（例如，既不漂浮，也不相互渗透），多样，在场景中自然地摆出姿势。这是向装备高质量3D场景和模拟器迈出的一步（例如，Matterport3D [3]和Habitat [32]），并且对于许多应用是必不可少的，例如创建合成数据集、VR/AR、计算机游戏等。我们的解决方案受到人类如何推断与环境的合理互动的启发。根据[49]的研究，人类倾向于根据对象的结构和语义提出交互计划。之后，为了实现交互计划，将应用物理规则来确定详细的人-物体模型，同时保证人体既不会漂浮在空中也不会碰撞到物体。因此，我们的方法有两个步骤：（1）我们提出了一个使用条件变分自动编码器（CVAE）[ 39 ]框架的人-场景交互生成模型。给定场景深度和语义，我们可以从CVAE中采样以获得各种人体。(2)接下来，我们将生成的3D人体转换到世界坐标并执行场景几何感知拟合，以便细化人-场景交互并消除物理上不合理的配置（例如，浮动和碰撞）。我们认为，逼真地模拟人的场景的相互作用需要一个现实的身体模型文献中关于场景示能性推理和人体合成的先前研究，如[28，46，57]，将身体表示为3D简笔画或粗略体积。这阻止了关于接触的详细推理，例如腿表面如何接触沙发表面。在没有身体形状的模型的情况下，不清楚所估计的身体姿势是否对应于合理的人类姿势。为了克服这些问题，我们使用SMPL-X模型[36]，该模型采用一组低维身体姿势和形状参数并输出3D身体与手指等重要细节相吻合由于SMPL-X是可微的，因此它可以直接优化人类场景接触和碰撞预防[18]。此外，我们将身体形状的变化纳入我们的方法中，使我们生成的人体具有各种姿势和形状。为了训练我们的方法，我们利用了PROX-Qualitative数据集[18]，其中包括在3D场景中捕获的3D人物。我们通过渲染图像，场景深度和语义分割的场景从许多虚拟相机扩展。我们进行了大量的实验，以评估不同的模型场景感知三维人体网格生成的性能。为了进行测试，我们从Matterport3D [3]数据集中提取了7个不同的房间，并在Habitat Simulator [32]中使用虚拟代理从不同视图捕获场景深度和语义。根据以前的工作，例如，[28，46]，我们提出了三个指标来评估我们的结果的多样性，物理可行性和语义实验结果表明，我们的解决方案有效地在场景中生成3D人体网格，并且优于最先进的人体生成方法的修改版本[28]。我们将提供我们的数据集和评估指标，以建立基准。我们的训练模型学习3D人与3D场景交互的方式。我们将展示如何以场景相关的身体姿势先验的形式利用这一点，并展示如何使用它来改善RGB图像的3D身体姿势估计。概括而言，我们的贡献如下：（1）提出了一种在场景中生成三维人体的方法，利用CVAE生成具有语义合理姿态的人体网格。我们遵循这一点与场景几何感知拟合，以改善人类场景的相互作用。(2)我们扩展和修改了两个数据集，并提出了三个评价指标的场景感知人体生成。我们还修改了[28]的方法，以生成体网格作为基线（参见第二节）。4.1.2）。实验结果表明，该方法的性能优于基线. (3)我们表明，我们的人类场景交互先验能够提高RGB图像的3D姿态估计。2. 相关工作多项研究集中在将对象放置在图像中，使它们看起来自然[11，27，29，34]。例如，[11，43，45]使用上下文信息来预测哪些物体可能出现在图像中的给定位置。Lin等人[29]将单应性变换应用于2D物体以近似物体和背景的透视Tan等人[44]预测人在输入图像中的可能位置Ouyang等人[34]使用GAN框架来合成城市场景中的行人。Lee等人。[27]学习在语义地图中放置物体或人的位置，然后确定物体的姿势和形状6196C各自的对象。然而，所有这些方法都限于2D图像合成或修复。此外，添加人造人的方法没有考虑人类与世界之间的相互作用为了对人-对象或人-场景交互进行建模，知道与给定对象的哪些交互是可能的是有益的。这种互动的机会被称为启示[14]，计算机视觉中的许多作品都利用了这一概念[7，8，15，17，21、25、24、28、38、46、56、57]。对象示能表示通常由与给定对象交互时的人类姿势表示[8，15，17，21，28，38，46，56，57]。例如，[15，17，57]在3D场景中搜索人类姿势的有效位置。Delataire等人[8]学习物体和人体姿势之间的关联，以提高物体识别能力。给定一个物体的3D模型Kim et al.[21]预测与给定对象交互的人类姿势。给定一个对象的图像Zhu etal.[56]学习知识库以预测可能的人类姿势和对象相对于姿势的粗略相对位置。Savva等人[38]学习连接3D场景中的人类姿势和对象布置的模型，该模型可以在给定3D对象和动词-名词对的语料库的情况下生成对象交互的快照。Monszpart等人[33]使用捕获的人体运动来推断场景中的对象及其排列。Sava等人。[37]预测动作热图，突出场景中动作最近，Chen et al.[5]提出联合处理场景解析和3D姿态估计，并利用它们的耦合性质来提高场景理解。Chao et al. [4]提出训练多个控制器来模仿来自mocap的简单动作，然后使用分层强化学习（RL）来实现更高级别的交互任务。Zanfir等人的工作。[50]首先估计图像中的地平面，并且需要地面前的人物图像作为输入。上述方法不使用真实的身体模型来表示自然和详细的人类-环境交互。最近，Wang et al.[46]发表了一个足够大的启示数据集，以获得姿势概率的可靠估计，并训练神经网络进行启示预测。这些数据是从多个情景喜剧中收集的，包含有人类和没有人类的场景图像。人的形象包含了丰富的人与各种物体相互作用的行为。给定图像和位置作为输入，Wang et al.首先从一组30个姿势中预测最可能的姿势。这个姿势被第二个网络变形和缩放，以适应场景。 Li等人[28]将这项工作扩展到自动估计将人放在哪里为了获取3D训练数据，他们将2D姿势映射到3D姿势，并将其放置在SUNC数据集的3D场景中[40，51]。通过删除与3D场景相交或没有足够支持的所有预测，对该合成数据集进行清理。身体[28，46]的方法在其通用化方面受到限制，因为它们需要大量的配对数据和姿势检测的手动清理。对于情景喜剧不太频繁覆盖的场景，或者在3D场景数据集中的情况下，可能很难获得如此大量的数据。此外，这两种方法都只预测表示为简笔画的姿势。这样的表示很难在视觉上验证，缺乏细节，并且不能直接用于生成人类与环境交互的真实合成数据3. 方法3.1. 预赛3D场景表示。我们从一个具体的代理人的角度来表示场景，就像在栖息地模拟器中一样。根据[52]，其表明深度和语义分割是场景理解的最有价值的模态，我们捕获场景深度和语义作为我们的场景表示。对于每个视图，我们表示深度和语义的堆栈为xs，从3D到2D的相机透视投影为π（·），并且其逆操作为π−1（·），用于3D记录。我们的训练数据xs是从Habitat生成的，为了与我们的网络兼容，我们将其调整为128×128;我们保留了长宽比并在需要的地方填充零。3D-2D投影π（·）使用相机固有函数和最大深度值将3D坐标归一化到[-1，1]的范围请注意，每个单独的xs来自单个相机视图。我们在工作中不使用多视图数据。3D人体表现。我们使用SMPL-X [36]来表示3D人体。SMPL-X可以被视为函数M（·），将一组低维身体特征映射到3D身体网格。 3D人体网格有10475个顶点和固定拓扑。在我们的研究中，我们使用的身体形状特征β∈R10，身体姿势特征θb∈R32，和手姿势特征θh∈R24。身体姿势特征θb在VPoser [36]的潜在空间中表示，是在大规模运动捕捉数据集AMASS上训练的变分自动编码器[31]。全局旋转R，即，骨盆的旋转由6D连续旋转特征[55]表示，这有助于我们试验中的全局平移t由以米为单位的3D向量表示。全局旋转和平移相对于相机坐标。基于摄像机外特性Tw，可以将3D人体网格变换到世界坐标。我们将关节体表示表示为xh：=（t，R，β，θb，θh）T∈ R75;即，个体身体特征的连接在处理全局和局部如[28]中所述，我们将全局平移表示为xg，将其他身体特征表示为xl。H H6197BSH单级（S1）网络其中这些项分别表示重建损失、Kull-backα的集合对于sim-简单地说，我们将α-L接触+α-collL碰撞表示为LHS，这意味着人-场景交互的损失。重建损耗Lrec：其由Lrec=|xg− xg，rec|+的|π（xg）− π（xg，rec）|hhhh+|xl− xl，rec|,(2)2小时两级（S2）网络图2：我们的模型的网络图。trape-zoids表示场景编码器，这些编码器是从预先训练的ResNet 18网络中微调的蓝色矩形表示全连接（fc）层。在残差块中，在fc层之间采用Leaky-ReLU [30]。或者-其中分别考虑全局平移、投影和标准化的全局平移以及其它身体特征我们在S1模型和S2模型中都应用了这种重建损失KL-DivergenceLKL：将我们的VAE编码器表示为q（zh|xh），KL发散损失由下式给出：LKL= DKL（q（zh|xh）||N（0，I））。（三）相应地，在我们的S2模型中，KL发散损失由LKL=D（q（zg|xg）||N（0，I））+D.q（zl|xl）||NΣ范围虚线箭头表示KLhHKLhH（0，I）.（四）VAE重新参数化技巧[23]。带“猫”的积木表示特征级联操作。3.2. 场景上下文感知人体生成器3.2.1网络架构我们采用条件变分自动编码器（CVAE）[39]概率模型框架p（xh|xs）。当联合推断所有身体特征，我们提出了一个单阶段我们使用[23]中的重新参数化技巧，使得KL散度是封闭形式。VPoser损失：由于VPoser [36]试图在其潜在空间中用正态分布编码自然姿势，如[36]和[18]中，我们采用VPoser损失，即LVPoser=|θrec|2、（5）鼓励生成的身体具有自然的姿势。碰撞损失L碰撞：基于模型输出xrec，广利核质(S1)网络当连续推断xh和xh时，我们将概率分解为p（xl|xg，xs）p（xg|xs）并使用a我们生成人体网格并将其转换为世界坐标，坐标然后，我们计算负符号距离H H H二级（S2）网络。网络架构是IL-在图中示出。二、参考[28]，我们的场景编码器从ResNet18中的前6个卷积层给定负符号距离字段（SDF）−（·），并最小化L= EΣ|−（TwM（xrec））|Σ。（六）[19]这是在ImageNet上预先训练的[9]。人类的恐惧-Colls c h首先通过全连接层将Truexh在两阶段模型中，两个场景编码器都从ResNet18进行了微调，但不共享参数。在第一阶段之后，重建的身体全局特征Xg，rec被进一步编码，并且被用于表示身体上的负SDF的绝对值的平均值。接触损失L接触：在[18]之后，我们鼓励身体网格和场景网格之间的因此，接触损耗被写为Σ第二阶段推断身体局部特征。L接触=vc∈C（TwM（xrec））minvs∈Msp（|vc− vs|），（7）Ch3.2.2训练损失整个训练损失可以公式化为L= Lrec+αkl LKL+αvp LVPoser猫猫X2X2猫猫X2X2猫猫X2X26198+ ααL接触+αcollL碰撞，（一）其中，C（·）表示选择体网格顶点，根据[18]中的注释，Ms表示场景网格，ρ（·）表示用于降低场景影响权重的Geman-McClure误差函数[13]远离身体网格的顶点。6199H3.3. 场景几何体感知拟合我们使用类似于[18]的优化步骤来细化体网格。它鼓励接触，并有助于避免身体和场景表面之间的相互渗透，同时不会偏离生成的姿势太多。令生成的人体配置为x0。为了改进这一点，我们考虑场景几何学来最小化拟合损失，即，Lf（xh）= |xh − x0 |+ α 1 L接触+ α 2 L碰撞H+α3LVPoser，（八）其中α表示损失权重;损失术语的定义见上文。3.4. 执行我们的实现基于PyTorch v1.2.0 [35]。对于接触损失中的倒角距离，我们使用与[10，16]相同的实现。为了训练，我们{αkl，αvp}={0. 1，0。001}中的等式 1，其中αkl在退火方案中线性增加[1]。当另外使用LHS时，我们设置{α，αcoll}={0. 001，0。01}，并在75%的训练时期后启用它，以改进交互模型-ing.我们使用Adam优化器[22]，学习率为3e-4，并在30个epoch后终止训练。对于场景几何感知拟合，我们设置{α1，α2，α3}={0。1，0。5，0。01}在所有情况下。我们的数据、代码和模型将可用于研究目的。4. 实验14.1. 场景感知三维人体网格生成4.1.1数据集PROX-E ： PROX-E 数据集（发音为 “ 代理 ” ）是从PROX-Qualitative（PROX-Q）数据集[ 18 ]扩展而来的，该数据集记录了人们如何与各种室内环境进行在PROX-Q中，通过将SMPL-X身体模型拟合到受场景约束的RGB-D数据来估计各个帧中的3D人体网格[18]。我们在研究中使用这些数据作为伪地面实况，并以三种方式扩展PROX-Q：（1）我们手动构建虚拟墙壁、地板和天花板，以封闭原始开放扫描并模拟真实的室内环境。(2)我们根据Matterport3D的对象分类手动注释网格语义[3]。(3)我们对原始记录进行下采样，每0.5秒提取一帧。在每一帧中，我们设置了具有各种姿势的虚拟相机来捕获场景深度和语义。光学图3：我们如何将PROX-定性数据集[18]扩展到PROX-E的说明。在PROX-定性的行中，从左到右显示视频帧、身体场景网格和深度图。在PROX-E的行中，虚拟相机设置、具有语义的网格和完成的深度图从左到右示出。然后将高斯噪声应用于摄像机平移。为了避免严重的遮挡，所有虚拟摄像机都位于房间高度的一半以上和虚拟天花板以下。结果，我们总共获得约70K帧。我们使用 'MPH16' ， 'MPH1Library' ， 'N0SittingBooth' 和'N3OpenArea'作为测试场景，并使用其他场景的样本进行训练。见图3 .第三章。MP 3D-R：此名称表示从Matterport3D的建筑扫描中，我们根据注释的边界框提取了7个不同的房间此外，我们使用Habitat simulator [32]创建了一个虚拟代理我们采用RGB，深度和语义传感器的代理。这些传感器离地面1.8米高，俯视现场;这些都是在一个类似的范围内的虚拟相机在PROX-E.对于每个快照，我们还记录了传感器的外部和内部参数结果，我们得到7个房间里有32张快照。此外，我们遵循与PROX-Qualitative [18]中相同的过程来计算场景网格的SDF。我们的MP 3D-R如图所示。4.第一章4.1.2基线据我们所知，最相关的工作是李等。[28]，其提出了一种生成模型，将3D身体简笔画放入图像2中。为了公平的比较，我们修改了他们的方法，使用SMPL-X来生成3D人体网格每个虚拟摄像机的轴指向人体，2[28]中的数据和预训练模型基于SUNC [41]，1更多详情请参见附录。而不是公开的。PROX-定性PROX-EPROX-定性PROX-E6200表1：模型之间的比较，其中3.2.2）。最好的结果是粗体字。rec. 错误。−logP（x）模型Val测试Val测试基线[28]0.520.480.980.72S10.220.250.230.41S1 +LHS0.160.240.270.36S20.240.700.250.49S2 +LHS0.200.230.300.39图4：左列显示MP 3D-R中的两个房间。右列显示了Habitat虚拟代理从不同视图捕获的快照，其中包含RGB图像，深度图和场景语义。场景具体而言，我们进行以下修改：(1)我们将场景表示从RGB（或RGB-D）改为像我们这样的深度和语义，以提高泛化能力。(2)在训练过程中，我们执行K-means对训练样本的VPoser姿势特征进行聚类，以生成姿势类。(3)where模块用于推断全局平移，what模块推断其他SMPL-X参数。（4）为了训练几何感知的判别器，我们将人体网格顶点而不是简笔画投影到场景深度图。我们使用PROX-E使用[28]中的默认架构和损失权重训练修改后的此外，在实验中，我们将改进的基线方法与场景几何感知拟合相结合。4.1.3评价：代表权在这里，我们使用PROX-E调查如何以及提出的网络架构表示人的场景交互。我们使用来自训练场景中的虚拟相机的样本来训练所有模型，使用来自训练场景中的真实相机的样本来验证它们，并使用来自测试场景中的真实相机的样本来测试它们对于定量评估，我们将单个测试样本输入到我们的模型中，并重新端口的重建误差的平均值，和负证明下限（ELBO），即。−logP（X），它是重建误差和KL散度之和。为了公平比较，所有模型的重建误差都基于等式中的Lrec二、如Tab.所示。1、我们的模型在验证和测试方面都优于基线模型由大的边缘设置。验证集和测试集上的指标是相当的，这表明我们的虚拟相机方法在防止所见环境的严重过度拟合方面是有效的4.1.4评价：3D人体网格生成给定一个3D场景，我们的目标是生成不同的，物理和语义上合理的3D人体。基于[28，46]，我们建议使用多样性度量和物理度量来定量评估我们的方法此外，我们进行了用户感知研究，以衡量所生成的人体的语义可定量评价基于PROX-E和MP 3D-R数据集。在PROX-E上进行测试时，我们使用训练场景中的所有样本来训练我们的模型，并使用测试场景中的真实相机快照来生成人体网格。对于每个单独的模型和每个测试场景，我们随机生成1200个样本，因此获得4800个样本。在MP 3D-R上进行测试时，我们使用PROX-E中的所有样本来训练模型。对于每个快照和每个单独的模型，我们随机生成200个样本，因此获得6400个样本。(1) 多样性度量：该度量旨在评估生成的人体的多样性。具体而言，我们实证地执行K均值聚类的SMPL-X参数的所有生成的人体到20个集群。然后，我们计算所有样本的聚类ID直方图的熵（也称为香农指数，一种多样性指数）我们还计算了所有集群的平均大小。较高的值指示所生成的人体在其全局位置、其身体形状和姿势方面更加多样化。我们认为，这个指标是必不可少的，用于评估生成的机构的质量，并应始终考虑与其他指标。例如，总是生成相同的身体网格的后折叠VAE可以导致低多样性分数，但是根据物理度量和语义度量的性能更好。结果见表。二、总体而言，我们的方法始终优于基线。值得注意的是，我们的方法大幅增加了生成样本的平均聚类大小，这表明生成的人体比基线更加多样化。(2) 物理指标：从物理的角度，我们评估的碰撞和接触之间的身体网格和场景网格。给定场景SDF和SMPL，6201B表2：根据多样性度量的不同模型之间的比较每个指标的最佳结果以粗体显示。“S1” and “S2” denote ourstage-1 and stage-2 3.2.2）。 3.3）。簇ID熵簇大小平均模型PROX-EMP3D-RPROX-EMP3D-R基线[28]2.892.931.491.84S12.962.992.512.81S1 +LHS2.932.992.402.73S22.972.912.462.85S2 +LHS2.962.892.222.90基线+Lf2.932.921.521.94S1 +Lf2.972.982.532.86S1 +LHS+Lf2.942.962.432.79S2 +Lf2.942.872.482.91S2 +LHS+Lf2.912.902.262.95X体网格，我们提出了一个非碰撞分数，这是计算的身体网格顶点的数量与阳性SDF值除以所有体网格顶点的数量（10475 SMPL-X）。同时，如果任何实体网格顶点具有非正的SDF值，则实体与场景有接触。然后，对于所有生成的体网格，非碰撞分数是自由空间中所有体顶点的比率，并且接触比率被计算为具有接触的体网格的数量除以所有生成的体网格。因此，由于物理约束，更高的非碰撞分数和接触率指示更好的生成，类似于对象检测任务中的精确度和结果见表。3 .第三章。首先，可以看到我们提出的方法始终优于物理度量的基线。LHS损失对3D身体生成的影响1）。此外，可以看出，由于拟合过程旨在提高物理可扩展性，因此场景几何感知拟合一致地提高了物理度量。图7示出了拟合之前和之后的一些生成的示例。(3) 用户研究：在我们的研究中，我们将生成的结果渲染为图像，并将其上传到 Amazon Mechanical Turk（AMT）进行用户研究。由于卓越的性能-在没有LHS的S1模型的情况下，我们将其与基线进行比较，如果存在的话，也会与地面实况进行比较。对于每个场景和每个模型，我们分别在PROX-E和MP 3D-R中生成100和400个身体，并要求Turkers为每个结果给出1（强烈不自然）和5（强烈自然）之间的分数用户研究详情都在附录里此外，对于PROX中的每个场景-E数据集，我们从地面随机选取100帧表3：根据物理度量的不同模型之间的比较。最好的结果是粗体字。非碰撞得分模型PROX-EMP3D-RPROX-EMP3D-R基线[28]0.890.920.930.78S10.930.940.950.80S1 +LHS0.890.950.880.65S20.910.930.880.79S2 +LHS0.890.950.880.56基线+Lf0.930.970.990.89S1 +Lf0.940.970.990.88S1 +LHS+Lf0.920.980.990.81S2 +Lf0.940.970.990.88S2 +LHS+Lf0.930.970.990.81表4：用户研究评分中模型之间的比较（1- 5）。每个指标的最佳结果以粗体显示使用研究评分w.r.t. 平均值±标准差模型PROX-EMP3D-R基线[28]3.31 ±1.393.14 ±1.41基线+Lf3.32 ±1.353.35 ±1.38S13.29 ±1.363.15 ±1.40S1 +Lf3.49±1.263.30±1.30地面实况4.04 ±1.03n/a”[18]“是的，”他说。结果见表。4.第一章毫不奇怪，地面实况样本在用户研究中获得了最好的分数。我们观察到，几何感知拟合提高了基线和模型的性能，这很可能是由于物理可扩展性的提高。请注意，尽管基线和我们的模型达到了相似的平均得分，但我们生成的样本的多样性要高得多（表1）。2）。这表明，与基线相比，我们的方法生成更多样化的3D人体，同时在给定3D场景的语义可行性方面同样良好定性结果见图。5，Fig.6和图8.更多结果在附录中。4.2. 场景感知的3D人体姿态估计在这里，我们执行一个下游应用程序，并显示我们的模型提高了3D人体姿势估计从单目图像。给定一个没有人的场景的RGB图像，我们使用预训练模型[26]估计深度图，并使用在ADE 20K [53]数据集上预训练的[6为了统一语义，我们创建了一个查找表，将对象ID从ADE 20K转换为Matterport 3D。接下来，我们将估计的深度和语义提供给我们的S1模型，LHS并随机生成100个身体。我们计算VPoser潜在空间中的姿态特征的平均值，并将其表示为θs。6202BBB表5：PROX定量中来自RGB帧的3D姿态估计的结果，其中误差（毫米）方法PJEV2vp.PJEp.V2V[36]第三十六话223.83225.6073.2862.93PROX [18]171.78173.9773.2064.76我们174.10171.7571.7362.64图5：在两个测试场景中生成的人体PROX-E。结果在两个视图中可视化。图6：在MP 3D-R的三个场景中生成的结果。图7：场景几何感知拟合前后的生成失败场景几何感知拟合失败图8：我们的结果中的两个典型失败案例。当在同一场景中执行3D姿态估计时，我们遵循SMPlify-X [36]和PROX [18]的优化框架。与这两种方法相比，我们使用我们导出的θs来初始化优化，并改变VPoser项在[18，方程7）从|θb|2至|θb−θs|二、我们使用PROX-Quantitative数据集[18]评估性能。我们通过Al-phaPose [12，48]从帧中导出2D关键点，并从背景图像中获得θs没有人。然后，我们使用相同的优化方法和[18]中的评估度量进行公平比较。结果见表。五、我们发现，我们的方法提高了PROX定量数据集上的3D姿态估计。这表明我们的模型学习了3D人物与3D场景互动的场景。利用它作为场景相关的身体姿势先验可以改善从RGB图像的3D5. 结论在这项工作中，我们引入了一个生成框架，以产生3D人体自然构成的3D环境。我们的方法包括两个步骤：（1）提出了一个场景上下文感知的人体生成器，以场景深度和语义为条件，学习三维人体的姿态和形状分布;（2）采用几何感知拟合来施加人-场景交互的物理可接受性。实验结果表明，自动合成的三维人体具有真实感和表现力，并能以语义和物理上合理的方式与三维环境进行交互致谢。我们真诚地感谢：Joachim Tesch在图形支持方面的所有工作。李雪亭为贯彻落实有关工作提出意见[28] 。大卫霍夫曼，杨金龙， Vasileios Choutas ，Ahmed Os-man，Nima Ghorbani和Dimitrios Tzionas进行了深入的讨论。丹尼尔·沙尔斯坦和科妮莉亚·科勒校对。Benjamin Pellkirst和Mason Landry负责IT/硬件支持。Y. Z. 和S.T. 感谢德国研究基金会（DFG，德国研究基金会）项目编号276693517 SFB 1233的资助。管理公开MJB已经收到了来自In-tel，Nvidia，Adobe，Facebook和亚马逊的研究礼物基金。虽然MJB是亚马逊的兼职员工，但他的研究仅在MPI进行。他也是Meshcapde GmbH的投资者。后之前6203引用[1] Samuel R Bowman ， Luke Vilnis ， Oriol Vinyals ，Andrew M Dai，Rafal Jozefowicz，and Samy Bengio.从连续空间生成句子。在2016年第20届计算自然语言学习会议（SIGNLL）上。5[2] Christopher P Burgess 、Irina Higgins、Arka Pal、LoicMatthey、Nick Watters、Guillaume Desjardins和Alexander Lerchner。理解β-VAE中的解缠arXiv预印本arXiv：1804.03599，2018。15[3] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niessner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport 3D：从室内环境中的 RGB- D 数据中学习国际 3D 视觉会议（3DV），2017年。二五十二十三[4] Yu-Wei Chao ， Jimei Yang ， Weifeng Chen ， and JiaDeng.学会坐：通过分级控制合成人椅交互。arXiv预印本arXiv：1908.07423，2019。3[5] Yixin Chen ，Siyuan Huang ，Tao Yuan ， Siyuan Qi ，Yixin Zhu，and Song-Chun Zhu.整体++场景理解：单视图3D整体场景解析和人体姿态估计，具有人机交互和物理常识。在IEEE计算机视觉国际会议（ICCV）中，2019年。3[6] 弗朗索瓦·肖莱。Xception：使用深度可分离卷积的深度学习在 IEEE 计算机视觉和模式识别会议论文集（CVPR），2017年。7[7] Ching-Yao Chuang，Jiaman Li，Antonio Torralba，andSanja Fidler.学习正确的行为：从图像中预测和解释启示。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。3[8] Vincent Delaitre，David F Fouhey，Ivan Laptev，JosefSivic，Abhinav Gupta，and Alexei A Efros.场景语义来自对人的长期观察。在2012年欧洲计算机视觉会议（ECCV）的会议记录中。3[9] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. ImageNet：一个大规模的分层图像数据库。 IEEE 计算机视觉与模式识别会议论文集（CVPR），2009年。4[10] Theo Deprelle 、 Thibault Groueix 、 Matthew Fisher 、Vladimir G Kim、Bryan C Russell和Mathieu Aubry。学习3D形状生成和匹配的基本结构。在神经信息处理系统进展（NeurIPS）会议录中，2019年。5[11] 尼基塔·德沃尔尼克朱利安·麦拉尔和科迪莉亚·施密德视觉背景对场景理解中数据增强的重要性。 IEEETransactions on Pattern Analysis and Machine Intelligence（TPAMI），PP：1-1，12 2019。2[12] 方浩树，谢淑琴，戴玉荣，陆策武。RMPE：区域多人姿势估计。在 2017 年 IEEE 国际计算机视觉会议（ICCV）上。8[13] Stuart Geman和Donald E.麦克卢尔断层图像重建的统计方法国际统计学会第46届会议记录，《统计学会公报》，第52卷，1987年。4[14] 詹姆斯 · 吉布森视觉感知的生态学方法：经典版Psychology Press，2014. 3[15] Helmut Grabner，Juergen Gall，Luc Van Gool.是什么让椅子成为椅子？ IEEE Conference on Computer Visionand Pattern Recognition（CVPR），2011年。3[16] 放大图片作者：David G.金布莱恩·罗素马修·奥布里3D编码：通过深度变形实现的3D对应。在欧洲计算机视觉会议（ECCV）的论文集，2018。5[17] Abhinav Gupta ， Scott Satkin ， Alexei A Efros ， andMartial Hebert.从3D场景几何到人类工作空间。IEEE计算机视觉与模式识别会议（CVPR），2011年。3[18] MohamedHassan ， VasileiosChoutas ， DimitriosTzionas，and Michael J.黑色.利用3D场景约束解决3D人体姿势模糊。在IEEE计算机视觉国际会议（ICCV）的会议中，2019年。二、四、五、七、八、十二、十三、十五、十六[19] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年。4[20] IrinaHiggins 、 Loic Matthey 、 Arka Pal 、 ChristopherBurgess 、 Xavier Glorot 、 Matthew Botvinick 、 ShakirMohamed和Alexander Lerchner。β-VAE：使用约束变分框架学习基本视觉概念。在2017年国际学习表征会议（ICLR）的会议记录中。15[21] Vladimir G Kim ， Siddhartha Chaudhuri ， LeonidasGuibas，and Thomas Funkhouser.Shape2Pose：以人为中心的形状分析。 ACM Transactions on Graphics（TOG），33（4）：120，2014。3[22] Diederick P Kingma和Jimmy Ba。Adam：随机最佳化的方法。国际学习代表会议（ICLR），2015年。5[23] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。国际学习代表会议（ICLR），2014年。4[24] 赫马·斯韦塔·科普拉，鲁德希尔·古普塔，阿舒托什·萨克斯那.从RGBD视频中学习人类活动和对象启示。International Journal of Robotics Research，32（8）：951-970，2013. 3[25] Hema S Koppula和Ashutosh Saxena。物理接地的时空对象启示。欧洲计算机视觉会议（ECCV），2014年。3[26] Iro Laina、Christian Rupprecht、Vasileios Belagiann

下载后可阅读完整内容，剩余1页未读，立即下载