3DPeople：一个模拟穿着衣服的人的大规模数据集和形状预测方法

54 浏览量更新于2023-10-12 收藏 2.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

22423DPeople：为穿着衣服的人A. Pumarola 1J. Sanchez-Riera 1G. P. T. Choi 2A. Sanfeliu 1F. Moreno-Noguer11InstitutdeRobo` ticaiInforma` ticaIndustrial，CSIC-UPC，Barcelona，Spain2约翰·A.美国哈佛大学保尔森工程与应用科学学院图1：3DPeople数据集。我们提出了一个合成数据集，其中包含80名受试者（40名女性/40名男性）执行70种不同动作的200万帧。该数据集包含大量不同的身体形状，肤色和服装，并提供不同视角下的640×480RGB图像，身体和服装的3D几何形状，3D骨架，深度图，光流和语义信息（身体部位和布料标签）。在本文中，我们使用3DPeople数据集来模拟穿着人类的几何形状摘要3D人体形状估计的最新进展建立在参数表示的基础上，该参数表示很好地模拟了裸体的形状，但不适合表示服装几何形状。在本文中，我们提出了一种方法来模拟穿着的人，并预测他们的几何形状从单一的图像。我们在三个基本方面的问题，即，一个新的数据集，一个新的形状参数化算法和一个端到端的深度生成网络预测形状。首先，我们展示了3DPeople，这是一个大规模的合成数据集，包含80个主题的200万张照片般逼真的图像，这些主题正在进行70种活动，并穿着不同的服装。除了为衣服和身体提供纹理化的3D网格外，我们还用分割掩模、纹理、深度、法线映射和光流对数据集进行了注释。所有这些都使3DPeople适合于大量的任务。然后，我们使用2D几何模型表示3D形状年龄为了建立这些图像，我们提出了一种新的球- cal面积保持参数化算法的基础上的最佳质量运输方法。我们展示了这种方法来改进现有的球形地图，这些地图倾向于缩小全身模型的细长部分，如手臂和腿，使几何图像不完整。最后，我们设计了一个多分辨率深度生成网络，给定一个穿着衣服的人的输入图像，以端到端的方式预测他/她的几何图像（以及穿着的我们在联合捕获人体姿势和服装形状方面获得了非常有希望的结果用于合成验证和野生图像。1. 介绍随着深度学习的出现，从单个图像预测人体几何形状的问题已经经历了巨大的推动。本文将卷积神经网络与大规模M-N网络相结合，2243Cap数据集[44，21]，产生了大量的作品，这些作品稳健地预测了身体关节的3D位置[29，30，32，36，40，49，52，56，64]。为了估计全身形状，[12，14，19，24，54，66]中采用的标准做法是回归低秩参数模型的参数[10，28]。尽管这些参数模型非常准确地描述了裸体的几何形状，但它们不适合捕捉穿着衣服的人的形状。目前的趋势集中在提出低秩模型的替代表示。Varol等人[55]提倡直接推断体积体型，尽管仍然没有考虑服装几何形状。最近，[35]使用2D轮廓和视觉外壳算法来恢复穿着衣服的人体的形状和纹理。尽管非常有希望的结果，该方法仍然需要没有背景的人的前视图输入图像，并且在相对简单的身体姿势下。在本文中，我们介绍了一个通用的管道来估计穿着的人的几何形状，这是能够应付各种各样的服装和纹理，复杂的身体姿势和形状，以及不断变化的背景和相机的观点。为此，我们在三个关键领域的问题，即，数据收集，形状表示和图像到形状的推理。具体地说，我们首先提出了一个新的大规模数据集3DPeople，其中包含200万张不同衣服和服装下的人的真实感合成图像。我们将数据集分为40名男性/40名女性，具有不同的身体形状和肤色，执行70个不同的动作（见图1）。①的人。该数据集包含裸体和穿着衣服的身体的3D几何形状，以及额外的注释，包括骨架，深度和法线图，光流和语义分割掩模。该额外数据确实与出于类似目的而构建的SUR- REAL [56]非常相似。SURREAL和3DPeople之间的主要区别在于，在SURREAL中，衣服直接映射为裸露身体上的纹理，而在3DPeople中，衣服确实有自己的几何形状。与收集丰富的数据集一样重要的是，什么是最适合深度网络的几何表示。在本文中，我们考虑了最初在[ 18 ]中提出并在[46，47]中最近用于编码刚性对象的几何图像的构造包括两个步骤，首先将亏格为0的曲面映射到球面域上，然后将图像重构为二维网格。我们在这里的贡献是关于球面映射的。我们发现现有的算法[13，46]并不准确，特别是对于身体的细长部分。为了解决这个问题，我们设计了一种新的球面面积保持参数化算法，该算法结合并扩展了FLASH [13]和最佳质量传输方法[33]。我们的最后贡献包括设计一个生成网络，将输入的RGB图像映射到他/她相应的几何图像。由于我们考虑128×128×3的几何图像，学习这样的映射是非常复杂的。我们通过一个由粗到细的策略，结合一系列几何感知损失。整个网络以端到端的方式进行训练，结果在各种输入数据中非常有希望，包括合成图像和真实图像。2. 相关工作3D人体形状估计。虽然已经广泛研究了从单个图像定位关节的3D位置的问题[29，30，32，36，40，45，49，52，56，64，67]，3D身体形状的估计已经受到相对较少的关注。这可能是由于存在完善的数据集[44，21]，唯一注释了骨骼关节。从单个视图估计人体形状的固有模糊性通常使用从SCAPE [10]和SMPL [28]等身体扫描存储库学习的形状嵌入来解决身体几何形状通过减少数量的姿势和形状参数来描述，这些参数经过优化以匹配图像特征[11，12，27]。Dibra等人[14]是第一个使用CNN馈送剪影图像来估计形状参数的人。在[50，54]中，SMPL身体参数是通过将差分渲染纳入深度网络来预测的，以直接估计和最小化图像特征的误差。最重要的是，[24]引入了一种对抗性损失，惩罚非现实的身体形状。最近[6，8]将SMPL参数表示扩展到模型布料，[7]使用阴影形状和更好的纹理合并来预测更高的细节。非参数表示为3D对象什么是训练深度网络的最合适的3D对象表示仍然是一个悬而未决的问题，特别是对于非刚体。刚性物体的标准非参数表示包括体素[16，63]，八叉树[51，59，60][53]云：云。[46，47]使用与几何图像[18]一起计算的2D嵌入来表示刚性对象。有趣的是，还报道了非刚性手DeformNet [38]提出了第一个从单个图像重建3D形状非刚性表面的深度模型。Bodynet [55]探索了一个预测体素化人体形状的网络。最近，[35]引入了一个管道，给定一个人在正面位置的单个图像，预测从不同视图看到的身体轮廓，然后使用视觉外壳算法来估计3D形状。生成对抗网络。 GAN最初由[17]引入，已被用于对人体分布进行建模，并在任意情况下生成一个人的新颖图像。2244图2. 3D人物数据集的注释。对于数据集的80个主题中的每一个，我们生成280个视频序列（从4个相机视图中看到的70个动作）。图的底部显示了运行序列的5个样本帧每个RGB帧都使用图顶部报告的信息进行注释3DPeople是第一个具有身体和衣服几何网格的大规模数据集[39]第三十九话Kanazawa等人[24]明确地学习了SMPL参数的分布。DVP [25]，paGAN [34]和GANimation[37]提出了连续面部动画和操纵的模型GAN也被应用于编辑[20，48，58]和生成[15]说话的面孔。用于体型分析的数据集。数据集是深度学习时代的基础。虽然获得注释对于2D姿势非常简单[43，9，23]，但对于3D情况，它需要使用复杂的MoCap系统。此外，以这种方式获取的数据集[44，21，21]大多在室内。更复杂的是获得3D身体形状的任务，这需要使用多相机或3D扫描仪的昂贵设置。Marcard等人[57]提出的解决方案基于IMU和移动相机，但仍然没有提供完美的地面实况注释。为了克服这种情况，具有合成但照片般逼真的图像的数据集已经成为生成大量训练数据的工具SURREAL [56]是迄今为止最大且更完整的数据集，通过将衣服的合成纹理投影到随机SMPL体型上生成了超过600万帧该数据集进一步用身体遮罩、光流和深度进行注释。但是，由于衣服只是作为纹理投影到裸SMPL形状上，因此无法显式建模。为了填补这一空白，我们提出了3D穿着运动的人类的3DPeople数据集。3. 3DPeople数据集接下来我们介绍3DPeople，这是第一个穿着衣服的人的数据集，具有特定的衣服几何表示。该数据集包含200万个逼真的640×480张图片分为40名男性/40名女性，执行70个动作。对于每个主体动作序列，我们随机改变衣服的纹理，照明方向和背景，并从4个相机视图中捕获它。每一帧都有注释（见图1）。2）：裸体和穿着衣服的身体的3D纹理网格; 3D骨架;法线;身体部位和布料分割蒙版;深度图;光流;和相机参数。在下文中，我们描述生成过程：身体模型：我们已经使用 Adobe Acrobat [ 1 ] 和MakeHuman [ 2 ]为80个人类角色生成了完全纹理化的三角形网格。受试者身体特征的分布涵盖了广泛的体型、肤色和头发几何形状（见图1）。①的人。服装模特：每个主题都穿着不同的服装，包括各种服装，结合紧身和宽松的衣服。额外的服装，如太阳镜，帽子和帽子也包括在内。身体和衣服的最终装配网格包含大约20K个顶点。Mocap序列：我们从Mixamo [ 3 ]中收集了70个逼真的运动序列。这些包括具有不同复杂性的人类动作，从产生小的身体动作的饮酒和打字动作到涉及非常复杂模式的霹雳舞或后空翻等动作。序列的平均长度为110帧。虽然这些序列相对较短，但它们具有很大的表现力，我们相信这使得3DPeople也适合探索动作识别任务。纹理、相机、灯光和背景：然后，我们使用Blender[4]将70个MoCap动画序列应用于2245(a)（b）（c）（d）（e）（f）图3. 参考网格的几何图像表示。 (a)使用颜色编码的主题配置中的参考网格xyz位置。（b）球面参数化;（c）八面体参数化;（d）将八面体展开为平面构型;（e）将八面体投影到平面上产生的几何图像;（f）从所述几何图像重建的网格。八面体和几何图像中的彩色边表示稍后由网格回归器Φ利用的对称性。图4. 球面映射方法的比较。利用三种不同算法得到的几何图像重建形状.左：FLASH [13];中：[46];右：我们提出的SAPP算法。请注意，SAPP是唯一可以有效恢复脚和手的方法。每个字符。每个序列从4个摄影机视图渲染，总共产生22，400个剪辑。我们使用的是焦距为700 mm、分辨率为640×480像素的投影相机. 这四个视角大致对应于或-与地面对齐的正交方向每个序列与主体的距离都会发生变化，以确保在所有帧中都能看到身体衣服的纹理是随机变化的每一个序列（见再次图。①的人。照明由环境光加上无限远的光源组成，其方向在每个序列中改变。与[56]一样，我们在静态背景图像上渲染人物，该图像随机取自LSUN数据集[65]。语义标签：对于每个渲染图像，我们提供衣服（8类）和身体（14个部分）的分割标签。观察图2-右上角，前者与穿着衣服的人对齐，而身体部位则与裸露的身体对齐。4. 问题公式化给定穿着任意服装的人的单个图像I∈RH×W×3，我们的目标是设计能够直接估计穿着的身体的3D形状的模型我们通过与具有N2个顶点X∈RN×N×3的几何图像相关联的网格来表示身体形状，其中xi=（xi，yi，zi）是第i个顶点的3D坐标，在相机坐标系中表示并且居中在根关节xr上。这种表示是我们设计的关键组成部分，因为它将3D网格映射到保留邻域关系的规则2D网格结构，从而充分填充CNN架构中所需的局部性假设。此外，几何图像表示允许通过简单地均匀地下采样/上采样来均匀地减小/增加网格分辨率。这将在我们设计由粗到细的形状估计方法的策略中发挥重要作用接下来，我们将描述我们的管道的两个主要步骤：1）构造几何图像的过程，以及2）我们提出的用于预测3D形状的深度生成模型。5. 服装人体几何图像我们稍后描述的深度网络将使用图像对{I，X}及其对应的几何图像进行训练为了创建几何图像，我们考虑两种不同的情况，一种是针对tpose建模中的参考网格，另一种是针对数据集的任何其他网格。5.1. 参考网格的几何图像我们的数据集在一个主题配置的主题之一被选为参考网格。将这个网格映射成平面规则网格的过程如图所示。3.第三章。它涉及以下步骤：修复补片设Rtopose∈RNR×3是一个topose构形中有NR 个顶点的参考网格（图1）。 3-a）。我们假设这个网格是流形网格，属0。然而，我们数据集中的大多数网格并不满足这些条件。为了固定网格，我们遵循[46]中描述的启发式方法，其中包括体素化，选择α形状的最大连接区域，以及随后使用中轴填充孔approach. 我们用R表示修复后的网格。球面参数化。给定修复后的亏格0网格R亏格，我们接下来计算球面参数化S：R亏格→S，将R亏格的每个顶点x映射到单位球面S上（图2）。3-b）。我们使用的算法的细节下面解释。2246(a)（b）（c）（d）（e）（f）图5. 任意网格的几何图像估计。(a)使用顶点的xyz位置进行颜色编码的任意姿势中的输入网格Q;（b）在tpose配置中的相同网格（Qtpose）。网格的颜色从Q映射;（c）参考tposeRtpose。这些颜色再次对应于通过Qtpose和Rtpose之间的非刚性映射从Q传递的那些颜色;（d）Q的球面映射;(e)Q的几何图像;（f）从几何图像重建的网格注意，虽然通过两个参考姿态之间的非刚性映射来计算，但恢复的形状是输入网格Q的非常好的近似。展开球体。球体S被映射到八面体上，然后沿着边缘切割以输出平坦的几何图像X。让我们正式表示为U：S→X，GR=US：Rpose→X是从参考-将网格添加到几何图像。出展开过程示于图3-（c，d，e）。几何图像中的颜色线对应于八面体中的相同边，并且在展开操作之后我们稍后将在预测几何图像时强制执行5.2. 球面面积保持参数化虽然存在几种球面参数化方案（例如， [13 ，46]），我们发现他们倾向于缩小全身模型的细长部分，如手臂和腿，使几何图像不完整（见图。4）.在这项工作中，我们通过组合和扩展FLASH方法[13]和最佳质量传输方法[33]，开发了一种用于亏格0全身模型的球面面积保持参数化算法我们的算法是particularly有利于处理模型与细长的部分。其关键思想是开始与一个初始的参数化到一个平面的三角形域与一个适当的rescaling纠正它的大小。初始参数化的面积失真，然后减少使用准保角合成。最后，球面面积保持参数化产生使用最佳的质量传输，其次是逆赤平投影。我们在补充材料中提供了进一步的细节。其中I是已知的双射函数1。然后，我们使用非刚性icp算法计算Qtopose和参考toposeRtopose 之间的密集对应[5]。我们将该映射表示为N：Q_tpose→R_tpose（参见图1B）。 5-c）。然后，我们可以Q通过连接映射：GQ=GR<$N <$I：Q →X（1）其中GR是从参考网格到在Sec.第5.1条值得指出主题对之间的非刚性ICP在计算上也要求很高，但是对于数据集的每个主题仅需要计算一次。一旦完成，可以在几秒钟内创建新输入网格Q这个过程的一个重要结果是数据集的所有几何图像将在语义上对齐，也就是说，X中的每个uv条目将对应于（近似）模型的相同语义部分。这将大大减轻深度网络的学习任务。6. GimNet接下来，我们将介绍GimNet，这是我们的深度生成网络，用于从单个图像中估计穿着衣服的人的几何图像（以及3D形状）。该模型的概述如图所示。六、给定输入图像，我们首先提取表示为热图[62，38]的2D关节位置p，然后将其馈送到经过训练的网格回归器Φ（I，p）5.3. 任意网格的几何图像来重建X射线的形状本人所雇用的人─描述了用于创建几何图像的方法，在前面的小节中，计算量很大（对于复杂的网格，最多15分钟）。为了计算几千个训练网格的几何图像，我们设计了一种替代方法。设Q ∈ RNQ×3是任意姿态下数据集的任何主题的网格（图1）。 5-a），设Qtopose∈ RNQ×3为其topose配置（图5-a）。5-b）。我们假设两个网格之间存在1对1的顶点对应关系，即，生成基于几何图像的表示。由于映射的高度复杂性（I和X的大小均为128×128×3），回归器以粗到细的方式操作，以更高的分辨率逐步重建网格。解决方案为了进一步加强重建，在拟人形状的流形中，应用具有两个鉴别器D的对抗方案。1这在我们的数据集中得到了保证，同一主题的所有网格都具有相同的顶点数。22472248L图7.测试集上的平均误差距离。我们绘制了15个最差和15个最佳操作的结果。除了GimNet的结果之外，我们还报告了由地面实况GIM获得的结果（回想一下，它是实际地面实况网格的近似我们还展示了通过[24]的最近参数方法获得的结果然而，这种方法的结果仅仅是指示性的，因为我们没有用我们的数据集重新训练网络。特征匹配损失。为了提高训练稳定性，我们惩罚了判别器上的更高级别的特征[61]。类似于感知损失，将估计的几何图像与鉴别器的多个特征水平处的地面实况进行比较。作为第k层的第l层，LF被定义为：在60个时期和S=4期间，128 × 128 × 3（具有16，384个顶点的网格）的几何图像。至于优化器，我们使用Adam [26]，学习率为2e-4，beta1 0。5，贝塔20。999和批量大小110。每40个epoch，我们将学习率衰减0倍。五、损失项的权重系数设置为λR=20，λP=0。1，λF=10且λdgp= 0。01.ΣK 第1页E<$Dk（XS）−Dk（XS）<$L、（四）X Pr， XPgk=1l=1克勒L7. 实验评价其中，Nk是权重正则化子，表示接下来，我们提出定量和定性的结果，L第l个第k鉴别器我们的数据集的合成图像和野生图像。合成结果。我们在25，000次测试全损。最后，我们来解决min-max问题：Φ= arg min maxLadv+λRLR+λPLP+λFLF（5）随机选择的8名受试者（4名男性/ 4名女性）的测试分割图像。对于每个测试样本，我们向GimNet提供ΦDRGB图像和地面实况2D姿态，被以下其中λR、λP和λF是控制高斯噪声与2像素标准。对于给定的测试样本，令每个损失项的相对重要性。6.3. 实现细节对于网格回归量Φ，我们建立在U-Net架构[41]上，该架构由编码器-解码器结构组成，具有相同分辨率下的特征之间的跳过连接，扩展为以多个尺度估计几何图像。其架构的详细解释可以在补充材料中找到。两种网络都以不同的网格分辨率运行[61]，但具有从几何图像X到矩阵的相同PatchGan [22]架构映射Y∈RH/8×W/8，其中Y[i，j]表示概率接近于真实几何图像分布，bition。全局插值计算尺度为S的最终网格分辨率，局部插值计算尺度为S-1的下采样网格。有关其架构的详细说明，请参阅补充材料。该模型使用170，000张裁剪过的穿着衣服的人的合成图像进行训练，大小为128 ×128像素，Y是N2×3估计网格，由其估计几何图像X的直接整形产生。另外，设Y是地面实况网格，它不需要具有与Y相同数量的顶点，也不一定具有相同的拓扑。因为没有直接的1对1映射-我们建议使用以下度量来对两个网格的顶点进行补间：dist（Y，Y）=1（KNN（Y→Y）+KNN（Y→Y））（6）2其中KNN（Y→Y）表示Y的所有顶点到它们在Y中的最近邻的平均欧氏距离。注意，KNN（·，·）不是真正的距离度量，因为它不是对称的。这就是为什么我们双向计算它定量结果总结于图1B中。7 .第一次会议。我们报告了30个动作（误差最高和最低的15个）的GimNet的平均误差（mm）请注意，GimNet的误差范围在15 mm到35 mm之间。回想一下，在我们的实验中，我们没有考虑异常的2D检测，而只是2D噪声。我们还评估了N2249图8. 定性结果。对于合成图像，我们绘制我们的估计结果和直接从地面真实几何图像重建的形状。在所有的情况下，我们展示了两种不同的观点。网格的颜色编码xyz顶点位置。地面实况几何图像，因为它是实际地面实况网格的近似。该误差低于5mm，表明几何图像表示确实非常准确地捕获了真实形状。最后，我们还提供了[24]的最新参数方法的误差，该方法将SMPL参数拟合到输入图像。尽管如此，这些结果只是指示性的，不能与我们的方法直接比较，因为我们没有重新训练[24]。我们在这里添加它们只是为了展示新的3DPeople数据集带来的挑战。事实上，[24]中的距离误差是在使用地面真实网格对估计网格执行刚性icp后计算的（GimNet不需要此定性结果。最后，我们在图中显示。8定性结果的合成图像从3DPeople和真正的时尚图像从互联网上下载。值得注意的是，请注意我们的方法如何能够重建长裙（顶行图像），这是一个重大挑战[35]。还请注意，某些重建的网格具有尖峰。这是非参数模型的局限性之一，即重建往往不如使用参数拟合时平滑。然而，非参数模型也有一个优点，如果经过适当的训练，可以跨越更大的配置空间。8. 结论在这篇论文中，我们对重建穿着衣服的人的形状的问题做出了三个贡献：1）我们已经提出了第一个大规模的3D人体数据集，其中明确建模了布料几何形状;2)我们已经提出了一种新的算法来执行细长的身体部位的球形参数化，以便稍后将人体的操纵网格建模为几何图像;以及3）我们已经引入了一种端到端网络来从单个图像估计人体和服装形状，而不依赖于参数模型。虽然结果非常有希望，但仍有几条途径需要探索。例如，将问题扩展到视频，在几何图像上探索新的正则化方案，或者将分割和3D重建相结合都是可以从所提出的3DPeople数据集中受益的开放问题。9. 确认这项工作得到了亚马逊研究奖，Croucher基金会和西班牙MiNeCo在项目HuMoUR TIN 2017 -90086-R，Col- RobTransp DPI 2016 -78957-R和Mar 'ıa de MaeztuSeal of Excellence MDM-2016-0656下的部分支持。我们还要感谢Nvidia在GPU赠款计划下的硬件捐赠。2250引用[1] https://www.adobe.com/es/products/fuse的网站。HTML. 3[2] http://www.makehumancommunity.org/。 3[3] https://www.mixamo.com/网站。3[4] Blender-一个3d建模和渲染软件包。https：//www.blender.org/网站。3[5] 非刚性 ICP ， MATLAB 中央文件交换， 2019 。https://www.mathworks.com/matlabcentral/fileexchange/41396-nonrigidicp/，2019.5[6] ThiemoAlldieck ， MarcusMagnor ， BharatLalBhatnagar，Christian Theobalt，and Gerard Pons-Moll.学习从一个RGB摄像机重建穿着衣服的人。在CVPR，2019年。2[7] Thiemo Alldieck ， Marcus Magnor ， Weipeng Xu ，Christian Theobalt，and Gerard Pons-Moll.从单目视频的详细的人类化身。在3DV，2018年。2[8] Thiemo Alldieck ， Marcus Magnor ， Weipeng Xu ，Christian Theobalt，and Gerard Pons-Moll.基于视频的三维人体模型重建。在CVPR，2018年。2[9] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele.2D人体姿态估计：新基准和最新分析。在CVPR，2014年6月。3[10] Dragomir Anguelov 、 Praveen Srinivasan 、 DaphneKoller、Se- bastian Thrun、Jim Rodgers和James Davis。SCAPE：形状完成和动画的人。 ACM，2005年。 2[11] Alexandru O Balan ， Leonid Sigal ， Michael J Black ，James E Davis，and Horst W Haussecker.从图像中获得详细的人体形状和姿势。CVPR，2007。2[12] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler 、 Javier Romero 和 Michael J. 黑色 . 保持SMPL：从单个图像自动估计3D人体姿势和形状。在ECCV，2016年。2[13] 贝通才、林家俊及骆明雷。FLASH：0类闭合脑表面的快速地标对齐球谐参数化。SIAM J. Imaging Sci. ，8（1）：67-94，2015. 二、四、五[14] Endri Dibra ， Himanshu Jain ， Cengiz ztireli ， RemoZiegler，and Markus Gross.使用生成HKS描述符和跨模态神经网络从剪影中提取人体形状。在CVPR，2017年。2[15] Amanda Duarte 、 Francisco Roldan 、 Miquel Tubau 、Janna Escur、 Santiago Pascual 、 Amaia Salvador 、 EvaMohedano 、 Kevin McGuinness 、 Jordi Torres 和 XavierGiro-i Nieto。Wav2pix：使用生成对抗网络的语音条件人脸生成在ICASSP，2019年。3[16] Rohit Girdhar，David F Fouhey，Mikel Rodriguez，andAb-hinav Gupta.学习对象的可预测和生成矢量表示。在ECCV，2016年。2[17] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成对抗网络。在NIPS，2014。二、六[18] Xianfeng Gu，Steven J Gortler，and Hugues Hoppe. 地理-试试图像。在TOG，第21卷，第355ACM，2002年。22251[19] 放大图片作者： Peng Guan ， Alexander Weiss ，Alexandru O.巴兰和迈克尔·布莱克从单个图像估计人体形状和姿势。ICCV，2009年。2[20] 刘萍、罗小刚、王航舟、刘宇。通过对立解纠缠的视听表征生成说话人脸在AAAI，2019年。3[21] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu. Human3.6M：大规模数据集和自然环境中三维人体感知的预测方法。PAMI，36（7）：1325-1339，2014. 二、三[22] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and AlexeiA Efros.使用条件对抗网络的图像到图像翻译。在CVPR，2017年。7[23] 山姆·约翰逊和马克·埃弗林汉姆用于人体姿态估计的修正姿态和非线性外观模型。在BMVC，2010年。3[24] 作者：Michael J.作者：David W.雅各布斯和吉坦德拉·马利克端到端恢复人体形状和姿势。在CVPR，2018年。二三七八[25] Hyeongwoo Kim ， Pablo Carrido ， Ayush Tewari ，Weipeng Xu ， JustusThies ， MatthiasNiessner ，PatrickPe'rez，Christian Richardt，MichaelZoll h？fe r和ChristianTheobalt。深度视频肖像。TOG，2018。3[26] 迪德里克·金马和吉米·巴。亚当：随机优化的一种方法。2015年，国际会议。7[27] Christoph Lassner 、 Javier Romero 、 Martin Kiefel 、Federica Bogo、Michael J Black和Peter V Gehler。团结人民：关闭3D和2D人体表示之间的循环。在CVPR，2017年。2[28] Matthew Loper，Naureen Mahmood，Javier Romero，Gerard Pons-Moll，and Michael J.黑色. SMPL：一个有皮肤的多人线性模型. TOG，34（6）：248：1-248：16，Oct. 2015. 2[29] Julieta Martinez 、 Rayat Hossain 、 Javier Romero 和James J Little。一种简单而有效的三维人体姿态估计基线。InICCV，2017. 2[30] DushyantMehta ， SrinathSridhar ， OleksandrSotnychenko ， Helge Rhodin ， Mohammad Shafiei ，Hans-Peter Seidel ， Weipeng Xu ， Dan Casas ， andChristian Theobalt. VNect：使用单个RGB相机进行实时3D人体姿势估计。TOG，36（4），2017. 2[31] 拉尔斯·梅谢德安德烈亚斯·盖格和塞巴斯蒂安·诺沃津。哪些GAN训练方法实际上是融合的？在ICML，2018。6[32] 弗朗切斯克·莫雷诺·诺格尔基于距离矩阵回归的单幅图像三维人体姿态估计在CVPR，2017年。2[33] Saad Nadeem ， Zhengyu Su ， Wei Zeng ， ArieKaufman，and Xianfeng Gu.球面参数化平衡角度和面积变形。TVCG，23（6）：1663-1676，2017。二、五[34] Koki Nagano，Jaewoo Seo，Jun Xing，Lingyu Wei，Zimo Li ， Shunsuke Saito ， Aviral Agarwal ， JensFursund，and Hao Li.pagan：使用动态纹理的实时化身在SIG中-《亚洲图表》，第258页。ACM，2018。3[35] Ryota Natsume，Shunsuke Saito，Zeng Huang，WeikaiChen ， ChongyangMa ， HaoLi ， andShigeoMorishima.SiCloPe：基于剪影的服装人。在CVPR，2019年。二、八2252[36] Georgios Pavlakos ， Xiaowei Zhou ， Konstantinos GDerpanis，and Kostas Daniilidis.粗到细的体积预测，为单一图像的三维人体姿势。在CVPR，2017年。2[37] Albert Pumarola、Antonio Agudo、Aleix M Martinez、AlbertoSanfeliu和FrancescMoreno-Noguer。Ganimation：从单个图像中获得解剖感知面部动画在ECCV，2018。3[38] Albert Pumarola 、 Antonio Agudo 、 Lorenzo Porzi 、Alberto Sanfeliu 、 Vincent Lepetit 和 Francesc Moreno-Noguer。几何感知网络，用于从单个视图预测非刚性形状。在CVPR，2018年。二、五[39] Albert Pumarola 、 Antonio Agudo 、 Alberto Sanfeliu 和Francesc Moreno-Noguer。任意姿态的无监督人物图像合成。在CVPR，2018年。3[40] 格里高利 · 罗杰斯和科迪莉亚 · 施密德。 MoCap-guidedDataAugmentation for 3D Pose Estimation in theWild.在NIPS，2016年。2[41] Olaf Ronneberger，Philipp Fischer，and Thomas Brox.U-网：用于生物医学图像分割的卷积网络在MICCAI，2015年。7[42] Kevin Roth，Aurelien Lucchi，Sebastian Nowozin，andThomas Hofmann.通过正则化稳定生成式对抗网络的训练。在NIPS，2017年。6[43] 本·萨普和本·塔卡Modec：用于人体姿态估计的多模态分解模型。CVPR，2013。 3[44] 作者：Leonid Sigal，Alexandru O Balan，and Michael J.黑色. HumanEva：同步视频和运动捕捉数据集和基线算法，用于评估关节化人体运动。IJCV，2010年。二、三[45] Edgar Simo-Serra ， Ariadna Quattoni ， Carme Torras ，and Francesc Moreno-Noguer.从单幅图像进行2d和3d姿态估计的联合模型CVPR，2013。2[46] Ayan Sinha，Jing Bai，and Karthik Ramani.使用几何图像深度学习3D形状表面在ECCV，2016年。二、四、五[47] Ayan Sinha，Asim Unmesh，Qixing Huang，and KarthikRa- mani.SurfNet：使用深度残差网络生成3D形状表面。在CVPR，2017年。2[48] Yang Song，Jingwen Zhu，Xiaolong Wang，and HairongQi.基于条件递归对抗网络的说话人脸生成。arXiv预印本arXiv：1804.04786，2018。3[49] 小孙，萧斌，梁爽，魏逸辰。整体人体姿势回归。在ECCV，2018。2[50] Vince Tan，Ignas Budvytis和Roberto Cipolla。用于3D人体形状和姿势预测的间接深度结构化学习。在BMVC，2017年。2[51] Maxim Tatarchenko 、 Alexey Dosovitskiy 和 ThomasBrox。八叉树生成网络：用于高分辨率3D输出的高效卷积InICCV，2017. 2[52] 丹尼斯·托姆克里斯·拉塞尔和卢尔德·阿加皮托从深处提升：从单个图像进行卷积3D姿态估计在CVPR，2017年。2[53] Shubham Tulsiani，Tinghui Zhou，Alexei A Efros，andJiten-dra Malik.一种用于从单幅图像重建三维物体的点集生成网络。在CVPR，2017年。22253[54] Hsiao-Yu Tung，Hsiao-Wei Tung，Ersin Yumer，andKaterina Fragkiadaki. 动作捕捉的自监督学习。在NIPS，2017年。2[55] Gul Varol ， Duygu Ceylan ， Bryan Russell ， JimeiYang ， Ersin Yumer ， Ivan Laptev ， and CordeliaSchmid.BodyNet ：三维人体形状的体积推断。在ECCV，2018。2[56] Gul Varol 、 Javier Romero 、 Xavier Martin 、 NaureenMah- m

下载后可阅读完整内容，剩余1页未读，立即下载