基于单色图像的被遮挡人体形状和姿态的估计方法

46 浏览量更新于2023-10-23 收藏 1.26MB PDF 举报

东南大学

网络架构

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7376基于单色图像中国东南大学摘要人与物体之间的遮挡现象在实际应用中非常普遍，尤其是在人与物体的交互活动中。然而，大多数现有的用于3D人体形状和姿态估计的方法要求人体被良好地捕获而没有遮挡或具有较小的自遮挡。本文主要研究从单色图像中直接估计被遮挡人体形状和姿态的问题。我们的核心思想是利用部分UV贴图来表示被物体遮挡的人体，并最终将完整的三维人体形状估计转化为图像修复问题。我们提出了一种新的双分支网络架构，通过潜在特征监督来训练端到端的回归器，其中还包括一个新的显着图子网，用于从对象遮挡的彩色图像中提取人体信息。为了监督网络训练，我们进一步建立了一个新的数据集3DOH50K。实验结果表明了该方法的有效性。实验结果表明，与已有的方法相比，该方法达到了最新水平。数据集代码可在https://www.yangangwang.com上公开获得。1. 介绍基于彩色图像的三维人体形状和姿态估计是计算机视觉领域的一个研究热点。它可以促进虚拟现实的几个有前景的应用，如人体形状动画、形状重定向、运动模拟等。传统上，全3D人体形状估计经历了复杂的硬件（例如，多视图照相机，IMU传感器）到单个设备（例如，彩色摄像机、Kinect）。近年来，基于深度学习的技术[17，33，51]已经见证了从单色图像恢复全身人体形状的快速进展，尽管大多数现有的方法都是针对人体的场景，*平等贡献。作者是由掷硬币决定的。†通讯作者。电子邮件：yangangwang@seu.edu.cn输入图像显著性图输出网格不同视图图1.我们的方法表现良好的人的形状和姿态估计从单一的目标遮挡的彩色图像。IE被很好地捕获而没有遮挡或具有较小的自遮挡。然而，在实际应用中，人与物之间的遮挡现象非常普遍，尤其是在人与物的交互活动中。在没有明确考虑遮挡的情况下，从被遮挡物体的彩色图像中恢复完整的三维人体形状是很难取得好的效果的本文主要研究从单色图像中估计被遮挡的完整三维人体形状和姿态的问题。从历史上看，从单色图像进行3D人体形状和姿态估计是在提出了蒙皮多人线性模型（SMPL）[27]之后进行的。它经历了几个阶段，包括通过拟合2D视觉线索[3，21]优化SMPL参数，使用卷积神经网络（CNN）[33，30]直接回归 SMPL参数，3D人体形状的体积表示[15，43]以及人体几何表面的2D UV图表示[51，54]。尽管深度学习由于其准确性和运行时效率而成为全3D人体估计的主流，但在不明确考虑遮挡的情况下，它不能直接转移到处理对象遮挡的主要有两个挑战。第一个是缺乏足够的数据进行网络训练。现有的数据集最初不是为被遮挡的人体形状估计而设计的另一个是对象遮挡会在网络训练中引入严重的模糊性，7377从而混淆全三维人体形状估计。为了解决这些障碍，我们研究了不同的人体表示，并采用最新的2D UV图[6，51]来描述3D人体形状。即便如此，由于遮挡引起的模糊性，仍然很难通过CNN直接回归完整的2D UV图。我们的核心思想是利用部分UV地图来描述物体遮挡的人体，并将完整的3D人体形状估计转换为UV地图修复问题，如图所示。二、我们提出了一种新的双分支编码器-解码器网络架构，其中第一个分支是UV映射inpainting，第二个分支保持输入彩色图像与其潜在特征空间中的部分UV映射一致。这两个分支共享相同的解码器，并且它们分别使用不同的数据集进行训练典型地，UV图修复分支，其可以被视为身体形状的先验，可以在没有彩色图像的情况下被训练。同样值得注意的是，彩色图像中不是身体一部分的像素可能会欺骗彩色图像编码器，然后我们引入显著图估计子网络来强调彩色图像中人类像素的重要性，如图所示。第2段（b）分段。虽然所提出的网络专注于对象遮挡的人体形状估计，但它不影响非遮挡人体形状估计的性能，并且还实现了最先进的，如图2所示。五、我们的网络可以有效地进行训练和推理。在训练阶段，采用两步训练策略优化网络参数。我们首先训练UV map inpainting分支，然后固定其参数以监督彩色图像编码器的训练（图1）。2（c）和（d））。在推理阶段，单个彩色图像通过显著图子网络、彩色图像编码器和UV图修复分支的解码器。然而，为了训练所提出的网络，我们发现人类物体遮挡数据集远远不够。我们首先将虚拟对象添加到现有数据集中（例如，Human3.6M [13]）合成occlusions。为了进一步促进网络培训，我们建立了一个新的数据集命名为3DOH50K。新数据集包含超过51600张图像，其中所有图像都是从6个视点的真实场景中捕获的，我们使用修改后的SMPLify-X[32]来拟合SMPL模型。最后，每个实例具有精确的2D姿态、3D姿态、SMPL参数和二进制掩码。据我们所知，3DOH50K是人类物体遮挡问题的第一个真实数据集。该数据集可以为遮挡场景下的人体重建和姿态估计提供一个新的挑战基准。本工作的主要贡献总结如下。• 我们对被物体遮挡的3D人体采用部分UV贴图表示，并描述了完整的3D人体。人的形状和姿态估计作为图像修复问题。• 我们提出了一种新的双分支网络架构来训练一个端到端的人体形状回归器，用于从单个人体模型彩色图像• 我们建立了一个新的对象遮挡的人的数据集，这是命名为3DOH50K，以减轻网络的训练。数据集和代码是公开的在https://www.yangangwang.com。2. 相关工作人体姿态和形状估计。传统的人体姿态和形状估计方法大多使用复杂的硬件来获取人体由于硬件的各种限制，它们不能容易地应用于现实世界的场景。为了从单个RGB相机准确估计人体的姿势和形状，[17，30，33，55]根据3D关节角度和低维线性形状空间对网格进行参数化。与以前的方法[48，3]不同，它们直接从图像特征推断3D网格参数，避免了两阶段训练，也避免了丢弃大量图像信息。为了避免复杂的非线性映射的参数预测方法，Venkat等。[44]提出了回归模板网格顶点的HumanMeshNet最近的一些工作[51，1，22]将一个困难的3D推理问题转化为图像到图像的转换，通过在公共SMPL UV空间上编码外观和几何布局，该转换适合CNN。闭塞。Huang等人. [11]提出了一种方法，能够恢复三维人体姿态时，一个人是部分或者在来自单目图像的场景中被严重遮挡。然而，遮挡仅限于两个矩形。[36]提出了一个系统的研究各种类型的合成遮挡在三维人体姿态估计从一个单一的RGB图像。由于合成数据不能完全描述真实的遮挡情况，Girshick等.[8]从真实数据中学习，并使用带有显式遮挡模板的语法模型来对被遮挡的人进行推理。为了避免对遮挡模式的特定设计，[7]提出了一种建模遮挡的方法，旨在明确学习遮挡模式的外观和统计数据。[34]将关于被遮挡对象的深度信息集成到3D姿态估计框架中。在面部去遮挡的范围内，[42]试图解决从遮挡图像中恢复详细面部的问题。[53]提出了一种新的深度人脸去遮挡框架，可以在具有挑战性的条件下处理人脸图像。在[46]中，提出了一种非常有效的遮挡人脸识别算法GD-HASLR 它对物体的形状和大小具有很强的鲁棒性。7378图2. 拟议的两个分支网络概述。在训练阶段，首先训练UV图修复分支（a）。然后，被遮挡的彩色图像与其显著图（B）连接并被馈送到彩色图像编码器（C）。相应的部分UV图由固定的修复网络编码，并用于监督潜在空间（d）中的彩色图像编码器在推理阶段，单色图像通过显著性图子网（b）和被遮挡的人体重建子网（c）。输出网格直接从UV位置贴图重新采样。遮挡对象。由于人类视觉系统明确地忽略遮挡并且只关注非遮挡区域的事实，[39]提出了一种具有成对差分连体网络（PDSN）的遮挡鲁棒图像修复。Pathak等人[31]提出的上下文编码器-第一项工作将深度神经网络应用于图像修复。它由一个编码器和一个解码器组成，编码器将图像的上下文捕获到一个紧凑的潜在特征表示中，解码器使用该表示来产生丢失的图像内容。[40]将这个任务分为推理和翻译两个独立的步骤，每个步骤都有一个深度神经网络。Xiong等[47]首先学习预测前景轮廓，然后使用预测的轮廓作为指导来修复丢失的区域。[52]提出了一种新的基于深度生成模型的方法，该方法不仅可以合成大小新颖的图像结构，还可以在网络训练期间显式地利用周围的图像特征作为参考，[50]提出了一种基于图像内容和纹理约束联合优化的多尺度神经块合成方法，该方法通过匹配和适应最相似的块来深层分类网络的中间层特征相关性。[49]提出了Shift-Net，它继承了基于样本和基于CNN的方法的优点，并且可以产生具有合理语义和精细细节纹理的修复结果3. 方法所提出的方法的概述示于图1中。二、我们使用一个部分的UV地图来表示对象遮挡的人体，和人体形状估计最终公式化为一个UV地图修复问题。3.1. 对象遮挡的人体表示我们使用3通道UV位置图的表示[6]来描述用于网络训练的人体UV位置贴图中的RGB值记录人体网格的3D位置，其中贴图编码人体表面的几何拓扑。基于UV位置图，我们进一步提出了一种三维物体遮挡人体形状的表示方法在我们的方法中，所有网格顶点的UV坐标由SMPL [27]提供。图图3显示了我们如何从人体网格和分割遮罩生成部分UV位置图我们通过弱透视投影将人体网格投影到图像平面在分割掩模之外的投影点被视为被遮挡顶点。否则(a)UV贴图修复编码器解码器›(d)潜在特征监督(c)人体重建(b)显著图估计编码器编码器解码器7379我i、j(a)RGB图像（b）闭塞分段（c）网格覆盖（d）堵塞补片（e）部分紫外线图图3. 物体遮挡的人的表征。给定被遮挡的人体图像（a）和相应的遮挡分割（b），我们将拟合的人体模型渲染到2D图像平面（c）上。对于可见部分，我们将顶点的归一化x，y，z坐标存储为UV贴图中的r，g，b颜色值对于遮挡部分，我们将UV贴图的r、g、b值设置为−0。5（e）.可见顶点的位置被归一化到每个身体部位的范围内，该范围具有以下形式，-0。五比零。5，它们的x、y、z坐标在UV贴图中存储为3通道（RGB）值。对于被遮挡的部分，我们将UV贴图的值设置为[−0]。5，-0。5，-0。5]。局部UV位置图可以准确地表示物体-Ltv= Σ Σk（i，j）∈Rk（|Pi +1，j − Pi，j|+的|Pi，j +1− Pi，j|）的情况下，（三）闭塞网格。应该注意的是，我们的部分UV贴图只考虑了对象遮挡。对于自遮挡，[51，1，44]已经证明，它可以通过身体的可见部分容易地估计，并且自遮挡的部分被编码为潜在空间中的监督注意，输出网格可以从完整的UV位置贴图重新采样3.2. UV贴图修复子网络从部分UV贴图估计完整UV贴图是其中Rk被定义为第k个身体部位。由于Ltv只保证了同一部位的平滑，无法保证车身连接部位的平滑。然后，我们提出了第三个术语，称为部分损失，Σ。gt.L p=. P（v i）−pi. 、（四）vi∈Vb其中V b是具有多个UV坐标的顶点集。 P<$（vi）表示顶点v i对应的UV坐标的平均RGB值。pgt是基本事实an image-to-image translation problem [14]. 所示图图2（b）中，部分到全部的过程不受被遮挡的彩色图像的背景的影响。因此，我们可以合成遮挡来训练修复网络，该网络对各种类型的遮挡都是鲁棒的。我们遵循工作[36]在Human3.6M数据集上执行合成遮挡数据合成。我们使用编码器-解码器结构来训练UV贴图修复子网络，我们的损失函数有三项L=L1+λLtv+μLp，（1）这与[51]略有不同。第一项L1在预测的UV图和地面真实UV图之间执行监督，即，你好。.. Σ顶点v3.3. 显著图估计子网络为了减少背景和遮挡等无效信息对人体形状和姿态恢复的影响，我们引入了一个子网络来估计人体显著图，如图所示。4.第一章我们使用不同规模的口罩作为中间监督。所提出的显著图，这可以被视为视觉注意力的表示，是不准确的分割。即使是最先进的实例分割方法[9，24]也很难在遮挡的情况下给出正确的分割。然而，不完美的显着图足以减少背景的干扰并避免先前方法所需的额外裁剪操作[17，19，20]。在第5节中，我们比较了有和没有显着图的结果，L1=j=1i=1βi，j. Pi，j−Pgt. 、（二）证明显着图的有效性。3.4. 潜在特征监督其中βi，j是权重掩码，权重与零件面积成反比W和H分别是宽度和P是像素RGB值。第二项Ltv确保了7380对于UV图修复任务，我们假设编码器部分中的高维特征具有一定程度的人体形状的先验知识。这促使我们利用从图像中提取的高维特征7381被遮挡的RGB图像编码器解码器中级监督显著性图图4. 显著图估计子网络概述。我们提出了一个子网络来估计人类显着图，其目的是以减少诸如背景和遮挡的无效信息我们使用不同规模的口罩作为中间监督。4.1. 注释在遮挡场景中获得准确的注释非常困难。我们尝试了各种最先进的实例分割和姿态估计方法[9，24，5，4]。结果表明，所有这些方法都没有达到预期的效果。因此，对于每个图像，我们首先使用 Mask-RCNN[9]和Alphapose[5]来自动分割掩模并估计2D关键点。对于不准确的部分，我们手动校正了遮罩和关键点。然后，RGB图像遮挡分割关键点SMPL网格我们通过在多视图策略中使用SMPLify-X[32图5. 3DOH50K的样品。我们数据集中的每个图像都包括分割，2D和3D骨架关键点注释和SMPL参数。UV map inpainting分支用于监督彩色图像编码器的训练第2段（d）分段）。我们发现，使用UV地图高维特征作为约束，可以加速E（β，θ，T）=EJ+λ θbE θb+λ α E α+ λ β E β（5）其中E θb，E α和E β与[32]相同。对于数据项，我们使用6视图重投影来约束SMPL产品型号：EJ（β，θ，T;K，Jest）=训练的收敛速度，比DI更准确Σ Σwj，iρ.<$Kj（Rθ（J（β）i）+T）−Jest，j，iΣ（6）从彩色图像如实验部分所示。4. 3D闭塞人体数据集大多数现有的三维人体数据集，[13，37]关注姿势的复杂性和多样性。然而，他们往往忽略了人与物体之间的相互作用所产生的遮挡因此，在这样的数据集上训练的人类姿势和形状估计方法对遮挡敏感。为了解决这个具有挑战性的问题，我们提出了我们的数据集3D遮挡人50K（3DOH50K）。它包含51600张图像，其中大部分是遮挡场景中的人类活动。图五是举几个例子。所有图像都是从六个视图的真实场景中捕获的。3DOH50K是第一个针对遮挡问题的真实3D人体数据集。我们的数据集可以为遮挡场景下的人体重建和姿态估计提供一个新的挑战基准。视图j关节i最后，3DOH50K具有6个视图的相机参数。每个图像都具有精确的2D姿态和3D姿态、SMPL参数和二进制掩码。4.2. 数据集统计数据我们比较了Tab中与3D姿态估计相关的不同公共数据集。1.一、虽然现有的数据集具有高质量的注释和大量的数据，但它们几乎不包含具有遮挡的示例。CMU Panoptic[16]和3DPW[45]中有一些遮挡序列，但它们对于整个遮挡序列具有相似的姿态。（例如，在CMU Panoptic Dataset中的乐器子集中，乐器产生大比例的遮挡，但是整个序列中的姿态和遮挡是相似的。在UP-3D数据集中也有少量被遮挡的样本然而，由于它是通过单目方法拟合的[3]，地面实况的深度信息没有得到很好的处理。[29]准确的7382数据集遮挡数据真实数据2D姿态3D姿态闭塞段网格摄像机参数[16]第十六话++CCC–CC3DPW[45]++CCC–CC[13]第十三话–CCC––C[21]第二十一话+CCC–C–[29]第二十九话+CCCC–C3DOH50K（我们的）++++CCCCCC表1.与3D姿态估计相关的不同公共数据集之间的比较。遮挡数据是指对象遮挡数据，+ 表示被遮挡样本的量。遮挡分割，但是它只包含非常少的遮挡类型。现有数据集的这些缺点导致它们无法在遮挡情况下执行3D姿态和形状5. 实验5.1. 数据集Human3.6M[13]是使用最广泛的3D人体数据集之一。它有11个主题，15种动作序列和150万张训练图像，具有准确的3D注释。由于Human3.6M数据集没有对象遮挡，我们采用[ 36 ]的方法在图像上添加合成遮挡，示例如图所示。6（第3行右）。与[17]类似，我们使用MoSH[26]来处理原始数据集中的标记数据，并获得真实SMPL参数。为了公平比较，我们在S1，S5，S6，S7，S8中使用30万数据进行网络训练，并在S9，S11中进行测试。3DOH50K是我们提出的第一个3D人体遮挡数据集。它包含50310张训练图像和1290张测试图像。它提供2D、3D注释和SMPL页-用于生成网格的参数。详细信息见第4.2节。3DPW[45]通过IMU捕获，包含室内和室外场景。它提供准确的SMPL参数和校准的相机参数。然而，数据集中的被遮挡样本很少，并且不能代表-tative.为了证明我们的方法的有效性，我们从整个数据集中选择了遮挡序列作为一个新的测试集。这些序列的名称见补充材料。5.2. 实现细节采用U-网结构[35]进行显着图估计，并使用人体分割来监督模型为了减少冗余的潜在特征并使其更容易保持一致，修改后的ResNet- 18 [10]和VGG-19 [38]分别用作部分UV映射和彩色图像的编码器。解码器部分简单地由6个后续上采样和卷积层组成。中UV贴图和彩色图像的大小本作品均按比例缩放至256×256。把地面-真实的UV位置图，我们通过弱透视投影将所有网格转换到同一个归一化的相机坐标系中。在测试方面，进行SMPL拟合以估计SMPL参数，用于不同算法之间的定量比较。采用非优化的L-BFGS算法进行拟合，拟合时间约为30 s。由于大多数UV图和显着图都有零值区域，因此我们使用leaky-ReLu[28]代替ReLu。我们使用Adam优化器[18]，批量大小为10，初始学习率设置为1e-3。我们的工作与2080Ti GPU的运行时间是13毫秒每幅图像，这是有效的实时。5.3. 定量评价与比较为了证明我们的方法的有效性，我们对Human3.6M，3DPW和3DOH50K进行了定量评估。与最先进的方法进行了大量的比较值得注意的是，以前的工作并没有专门针对对象遮挡问题，我们在遮挡数据集上重新测试了他们发布的模型图6和图7给出了一些结果，下面将描述更详细的比较。我们首先在原始Human3.6M的S9和S11上测试了我们的方法，验证了我们的方法也可以在没有遮挡的情况下实现表中的第3列. 图2显示了我们的方法在原始Human3.6M数据集上的性能。我们的方法可以得到与最近的工作[19]非常相似的结果。然后，我们在这些遮挡数据集上比较了我们的方法。在Synthetic Occlusion Human3.6M上，我们比较了基于SMPL模型的人体网格生成方法。详细结果见表4列。2，我们的方法优于所有其他方法。由于3DPW不适用于闭塞，因此我们仅选择闭塞序列进行评价。为了进行公平比较，评估的执行类似于[19]。第五列在Tab. 结果表明，该方法也能获得比其他方法更好的性能。值得注意的是，3DPW包含大量的户外场景，该数据集上的误差高于其他数据集。然后，我们对建议的3DOH50K进行了比较。Tab中的最后3列。2显示比较结果。从这些列中，我们可以发现我们的方法执行得更好7383输入图像结果不同视图输入图像结果不同视图图6.我们方法的定性结果左3列显示了我们的3DOH50K的结果右3列分别是3DPW[45]、UP-3D[21]和合成闭塞人体3.6M[13]上的更多未使用SMPL拟合的结果见Sup。Mat.方法运行时[13]第十三话（方案2）PA-MPJPE[13]第十三话（合成闭塞）PA-MPJPE3DPW [45]PA-MPJPE我们的3DOH50KPA-MPJPE表面误差SMPLify[3]100秒82.3159.4114.0156.4177.3SMPLify-X[32]30秒–145.6151.3117.2132.4HMR[17]0.420秒56.882.2103.883.292.9GraphCMR[20]0.033秒50.174.4104.876.384.0[19]第十九话0.016秒41.164.995.467.573.6我们0.013秒41.756.472.258.563.3表2.与Human3.6M、3DPW和我们的3DOH50K上的最先进方法进行比较。人工合成遮挡Human3.6M是指我们在图像上随机渲染合成遮挡，最小为30%的边界框像素被遮挡，细节可以在5.1中找到。数字为3D关节误差和表面误差，单位为mm。比所有以前的方法大约10毫米。此外，我们还研究了闭塞率对通过在Synthetic Occlusion Human3.6M上合成不同比率的遮挡来提高重建精度。结果如图所示。8.实验结果表明，该方法在遮挡率大于50%的情况下仍能保持良好的性能此外，由于所提出的UV修复分支的有效性，我们的方法对遮挡率的增加相对不敏感。5.4. 消融研究UV修复分支的重要性。在选项卡中。3、通过对不同模型结构的测试，验证了UV修复分支的重要性。结果表明很难从彩色图像中直接预测物体遮挡的人体形状和姿势。我们也试着估算一下价格--从被遮挡的彩色图像中绘制局部UV贴图，然后以级联方式对局部贴图进行修补。事实证明，潜在空间监督在我们的方法中表现得更好。显着图估计的重要性。由于彩色图像中含有大量的无效信息，我们对彩色图像进行显著性检测，以获得有效的人体特征。为了验证显着图估计网络的重要性，我们比较了被遮挡的彩色图像输入和结合显着图的彩色图像作为输入的结果如Tab.所示。3、额外的显著图输入提高了性能。此外，它使我们的方法也有一个很好的性能，在户外场景。拟议的部分损失的重要性。在UV贴图中，整个身体被分成几个部分，这意味着重新采样的网格之间可能有粗略的连接。7384输入图像我们的SPIN GraphCMR HMR图7.比较不同的方法。我们的方法可以获得更直观的结果。130120110100908070605040010 203040 50 6070方法MPJPEPA-MPJPEend-to-end73.167.3级联62.961.9（w/o）显着图60.857.9双分支58.256.4表3.在测试数据集上比较不同的网络结构端到端：无UV贴图修复网络。cas-cade：将UV贴图注入网络与彩色图像编码器级联。（w/o）显著图：没有显著图估计网络。两个分支：拟议的两个分支网络。更多细节见Sup。Mat.6. 结论闭塞率（%）图8.重建精度与遮挡率的关系。图9.部分损失的重要性。右边的子图显示了使用建议的部分损失的更平滑的结果。不同的部分。因此，我们对UV贴图上的连接顶点施加了额外的约束。图9显示了结果，我们可以发现部分损失对于提高平滑度至关重要。本文提出了一种从单色图像中估计被遮挡人体形状和姿态的新方法。我们的主要贡献是利用部分UV地图表示来描述人体遮挡，并将遮挡人体形状估计转化为UV地图修复问题。提出了一种新的双分支网络结构，通过潜在特征匹配来训练有效的回归器。我们还引入了一个显著图子网络来从被遮挡的彩色图像中提取人体信息。为了提高网络训练的效率，我们进一步建立了一个新的数据集3DOH50K。我们希望该数据集能促进未来目标遮挡人体形状和姿态估计的研究。致谢。这项工作得到了中国国家自然科学基金（No.61806054）、国家重点研发&计划（ No.2018YFB1403900 ）、江苏省自然科学基金（No.2018YFB1403900）等项目。BK20180355）及东南大学“至善青年学者”计划。我们的二分公司我们的端到端SPINGraphCMRPA-MPJPE（mm）7385引用[1] T. Alldieck ， G. 庞斯莫尔角 Theobalt 和 M. 玛格诺Tex2shape：从一个单一的图像详细的完整的人体几何形状。在ICCV，2019年。二、四[2] F. Bogo，M. J. Black，M. Loper和J.罗梅罗从单目rgb-d序列详细重建运动中的人的全身。在ICCV，2015年。2[3] F. Bogo、A.金泽角放大图片，P. Gehler，J. Romero和M.J.布莱克。保持它smpl：由单一影像自动估计三维人体位姿与形状。在ECCV，2016年。一、二、五、七[4] Z. Cao，T.Simon，S.-E. Wei和Y.酋长利用部分相似性场进行多人2D位姿实时估计。在CVPR，2017年。5[5] H.- S. Fang，S.谢玉W. Tai和C.陆RMPE：区域多人姿势估计。InICCV，2017. 5[6] Y. Feng，F. Wu，X.邵，Y. Wang和X.舟结合位置映射回归网络的三维人脸重建与密集对齐。在ECCV，2018。二、三[7] G. Ghiasi，Y.Yang，杨氏D.Ramanan和C.C. 福克斯解析闭塞的人。CVPR，2014。2[8] R.格希克山口Felzenszwalb和D.麦卡莱斯特使用语法模型进行对象检测。IEEE TPAMI，33，11，2010年。2[9] K.他，G.吉基奥萨里山口Dollar和R.娘娘腔。面具R-CNN。InICCV，2017. 四、五[10] K. 他，X。Zhang，S.Ren和S.俭. 用于图像识别的深度残差在CVPR，2016年。6[11] J. - B.黄和M.- H.杨从被遮挡图像估计人体姿态。在ACCV，2009年。2[12] Y. Huang，F.博戈角Classner，A.金泽山口盖勒，I. Akhter和M.黑色. 随着时间的推移，朝向精确的无标记在3DV，2017年。2[13] C.约内斯库D. Papava、V.Olaru和C.斯明奇塞斯库Hu-man 3. 6 m：大规模数据集和自然环境中三维人体感知的预测方法IEEE Transactions on Pattern Analysis andMachine Intelligence，36（7）：1325- 1339，2014年7月。二五六七[14] P. Isola，J. Zhu，T. Zhou和A. A.埃夫罗斯使用条件对抗网络的图像到图像翻译。在CVPR，2016年。4[15] A. S.杰克逊角Manafas和G.齐米罗普洛斯通过体积回归从单幅图像重建三维人体在ECCV，2018。1[16] H. Joo，T. Simon，X. Li，H.柳湖，加-地坦湖，澳-地Gui，S. Baner-jee，T. S.戈迪萨特湾纳贝岛马修斯，T.卡纳德S. Nobuhara和Y.酋长Panoptic Studio：一种用于社交互动捕捉的大规模多视图系统。IEEE Trans- actions onPattern Analysis and Machine Intelligence，2017。五、六[17] A. Kanazawa，M.J. Black，D.W. Jacobs和J.马利克端到端恢复人体形状和姿势。在CVPR，2018年。一二四六七[18] D. Kingma和J. BA. Adam：一种随机优化方法。2014年12月12日，国际学习代表会议。6[19] N.科洛图罗斯湾帕夫拉科斯湾J. Black和K.丹尼尔迪斯学习通过循环模型拟合重建三维人体姿势和形状在ICCV，2019年。四、六、七[20] N.科洛图罗斯湾Pavlakos和K.丹尼尔迪斯卷积网格回归用于单图像人体形状重建。在CVPR，2019年。四、七[21] C. Lassner，J.罗梅罗，M。基费尔F.Bogo，M.黑色和P.盖勒。团结人民：闭合3d和2d人类表征之间的循环。在CVPR，2017年。一、六、七[22] V. Lazova，E. Insafutdinov和G.庞莫尔360-从单个图像中获得穿着衣服的人的程度纹理。在3DV，2019年。2[23] K. Li，N.Jiao，Y.Liu，Y.Wang和J.杨使用多视角图像的紧密交互人的形状和姿态估计计算机图形论坛，2018年。2[24] R. Li ， X. 东，加 - 地 Cai ， C. Yang ， H. Huang ， S.Zhang，P. L. Rosin和S.胡Pose2seg：没有检测的人类实例分割。在CVPR，2019年。四、五[25] J.Liang和M. C.是林书使用多视图图像的形状感知人体姿势和在ICCV，2019年。2[26] M.洛珀，N. Mahmood和M.黑色. Mosh：从稀疏标记捕获运动和形状。第33卷，2014年12月。6[27] M. 洛珀，N.Mahmood，J.罗梅罗湾Pons-Moll和M.J.布莱克。SMPL：一个多人皮肤线性模型。ACM Trans.Graphics（Proc. SIGGRAPH Asia），34（6）：248：1-248：16，2015年10月。第1、3条[28] A. L.马斯整流器的非线性改善了神经网络声学模型。InICMLW，2013. 6[29] D. Mehta，H. Rhodin、D. Casas，P. Fua，O. 索特尼琴科W. Xu和C.希奥博尔特使用改进的cnn监督在野外进行单目3d人体姿态估计。在3DV，2017年。五、六[30] M. 奥姆兰，C. 拉斯纳G. 庞斯-莫尔P. Gehler，以及B.席勒神经体拟合：统一深度学习和基于模型的人体姿势和形状估计。在3DV，2018年。一、二[31] D. 帕塔克 P. Krahenbuhl，J.多纳休，T. Darrell和A.埃夫罗斯上下文编码器：通过图像修复进行特征学习。在CVPR，2016年。3[32] G.帕夫拉科斯河谷Choutas，N. Ghorbani，T.博尔卡特A.Os-man，D. Tzionas和M.黑色.表现性身体捕捉：从单个图像获得3D手、脸和身体。在CVPR，2019年。二、五、七[33] G. 帕夫拉科斯湖Zhu，X.Zhou和K.丹尼尔迪斯学习从单色图像估计三维人体姿态和形状在CVPR，2018年。一、二[34] 联合Rafi，J. Gall，and B. Leibe一种用于从单个深度图像估计人体姿势的语义遮挡模型。2015年。2[35] O.龙内贝格山口Fischer和T.布洛克斯U-net：用于生物医学图像分割的卷积网络在MIC-CAI，2015. 6[36] I. 是的，T。 Linde r，K. O. Arras和B. Leibe 三维人体姿态估计对遮挡的鲁棒性如何？ CoRR ，abs/1808.09316，2018。二、四、六[37] L. Sigal，A. Balan和M.黑色. Humaneva：同步视频和动7386作捕捉数据集和基线算法，7387评价关节式人体运动。国际计算机视觉杂志，87：4-27，2010年3月。5[38] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。2015年，国际会议。6[39] L. Song，D.贡，加-地Li，C. Liu和W.刘某基于成对差分连体网络模板学习的遮挡鲁棒人脸识别。在ICCV，2019年。3[40] Y.宋角，澳-地杨，Z. Lin，X.刘，智-地Huang，H. Li和C. C.郭敬明基于上下文的图像修复：推断、匹配和翻译。在ECCV，2018。3[41] Y. 陶，Z.Zheng，K.Guo，J.Zhao和Y.刘某双融合：从单个深度传感器实时捕获人体表现和内部身体形状。在CVPR，2018年。2[42] A. 特兰T. 哈斯纳，I. 马西E. 帕兹，Y. 尼尔金，G. 梅迪奥尼极端三维人脸重建：通过闭塞看到在CVPR，2018年。2[43] G. Varol，D.锡兰湾Russell，J.Yang，E.尤默岛Laptev和C.施密特Bodynet：3D人体形状的体积推断在ECCV，2018。1[44] A.文卡特角帕特尔湾，澳-地Agrawal，和A.夏尔马人类-网络：多金属网恢复人类。在ICCV，2019年。二、四[45] T.冯马尔卡河Henschel，M. J. Black，B. Rosenhahn和G.庞莫尔使用imus和移动摄像机在野外恢复精确的三维人体姿态。在ECCV，2018。二五六七[46] C. Wu和J. Ding.基于广义梯度方向低秩回归的遮挡人脸识别。模式识别，80，03 2018。2[47] W. Xiong，J. Yu，Z. Lin，J. Yang，X. Lu，C.巴恩斯和J. 罗前景感知图像修复。在CVPR，2019年。3[48] W. Xu ，中国春萤叶甲 A. Chatterjee ， M.Zollhoüfer，H. Rhodin、D. Mehta，H.- P. Seidel和C.希奥博尔特Monoperfcap：从单目视频中捕获人类表演ACMTransactions on Graphics，37，08 2017. 2[49] Z. Yan，X. Li，M. Li，W. Zuo和S.山. Shift-net：通过深度特征重排进行图像修复。在ECCV，2018。3[50] C. Yang，X. Lu，Z. Lin，E. Shechtman，O. Wang和H.李使用多尺度神经块合成的高分辨率图像修复。在CVPR，2017年。3[51] P. Yao，Z. Fang，F. Wu，Y. Feng和J.李Densebody：直接从单色图像回归密集的3D人体姿势和形状arXiv预印本arXiv：1903.10153，2019。一、二、四[52] J. Yu，Z. Lin，J. Yang，X. Shen，X. Lu和T.煌具有上下文注意的生成图像修复在CVPR，01 2018。3[53] X.我和袁。朴圭基于3d变形模型和生成对抗网络的人脸去遮挡。在ICCV，2019年。2[54] H. Zhang，J. Cao，G. Lu，W.欧阳和Z.太阳Danet：Decompose-and-aggregate network for 3d human shapeand pose estimation.在ACM MM，2019年。1[55] H. Zhu，X. Zuo，S. Wang，X. Cao和R.杨通过分层网格变形从单幅图像中估计出详细的人体形状。在CVPR，2019年。2

下载后可阅读完整内容，剩余1页未读，立即下载