超密集的UltraPose：自由控制人体生成的新三维模型与基于变换的密集对应关系

2 浏览量更新于2023-10-13 收藏 3.21MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

10891UltraPose：通过人体解耦3D模型严浩南1 *，陈佳琪2*，张旭杰2，张胜凯1，焦念红1，梁晓丹2†，郑天祥1†1北京陌陌科技有限公司公司2中山大学yan. immomo.com，{jadgechen，xdliang328，zhengtianxiang1128}@ gmail.com，zhangxj59@mail2.sysu.edu.cn，songkey@pku.edu.cn，jnhrhythm@tju.edu.cn摘要从图像中恢复密集的人体姿态在RGB图像和人体3D表面之间建立图像到表面的对应关系中起着然而，流行的DensePose-COCO数据集依赖于复杂的手动注释系统，导致在获取更密集和更准确的注释姿态资源方面受到严重限制。在这项工作中，我们介绍了一个新的三维人体模型与一系列的解耦参数，可以自由地控制身体的生成。此外，我们建立了一个数据生成系统的基础上，这个解耦的3D模型，并构建了一个超密集的合成基准UltraPose，包含约13亿个相应的点。与现有的手动注释的 DensePose-COCO 数据集相比，合成UltraPose具有超密集的图像到表面的对应关系，而没有注释成本和错误。我们提出的UltraPose提供了最大的基准和数据资源，用于提升模型预测更准确的密集姿势的能力为了促进这一领域的未来研究，我们还提出了一种基于变换的方法来建模2D和3D世界之间的密集对应关系。在合成UltraPose上训练的模型可以应用于现实世界的场景，表明我们的基准和模型的有效性11. 介绍在计算机视觉中，建立从2D图像到3D人体模型的对应关系是用于分析人体动作的基本任务，这有助于几种应用场景，例如纹理转移[7，20，25]，虚拟试穿[15，19，33，34]和3D人体重建[8，32]。基于 Skinned Multi-Person Linear （ SMPL ）模型 [18] ，DensePose [9]将单个RGB图像作为输入，并将像素映射到SMPL模型上的相应表面点，通过这些预测的密集关系获得更准确的实例级人体分析。最近，已经提出了几种方法[22，23，35]用于密集姿态估计，而结果表明，这仍然是一个非常具有挑战性的问题。目前的DensePose系统的局限性之一是SMPL是学术研究的模型，在业界并没有得到作为一个可以表示各种体型的蒙皮模型，SMPL只有10个混合形状，这些形状没有明确的物理意义，可能会相互影响。因此，在应用SMPL模型时出现了一些问题，例如可控性差，这使得难以将人体调整为目标形状。流行的DensePose-COCO数据集也有一些限制[9]。一方面，它只收集了50K人，没有覆盖各种姿势和形状，这使得模型在侧身和遮挡等情况下表现不佳。另一方面，手动注释的质量本质上是有限的，如[22]中所述。在一些歧义和自遮挡的情况下，标注者需要标注精确的点对应关系，从而导致巨大的标注错误。在这项工作中，为了解决SMPL的局限性，我们采用了行业公认的Daz2模型作为基本人体模型。然后，我们提出了一个新的3D模型，DeepDaz，包含一组精心设计的解耦参数，可以控制各种人体的生成。这些参数具有特定的物理意义，并且相互解耦，使人类能够自由地调节人体而不是依赖于人体的运动。*同等贡献。 †通讯作者。1数据集和代码：https://github.com/MomoAILab/ultrapose2Daz：https://www.daz3d.com/10892图1. DensePose-COCO和我们提出的UltraPose基准上的注释的可视化比较。DensePose-COCO数据（上图）具有相对稀疏的点注释，而我们的UltraPose（下图）具有超密集注释，同时提供人体的深度图此外，我们还显示了他们的UV空间的注释比较的权利，其中DensePose-COCO数据有明显的注释错误。例如，有许多内部（蓝线）错误和内部（紫线）错误。然而，我们的UltraPose是用一个无错误的标签生成的，所有的注释点和地面实况点都完全一致。专业CG设计我们的DeepDaz模型也与CG行业兼容，可以在主流设计软件中自由编辑，因此具有出色的性能和应用价值。基于DeepDaz模型，我们构建了一个数据生成系统，并进一步提出了一个超密集的合成数据集UltraPose，它包含50万人和1.3B DeepDaz模型表面上的对应点注释图1显示了DensePose- COCO数据集和我们的UltraPose之间的比较，UltraPose具有几个吸引人的属性。首先，UltraPose具有一个人大约2.6K个点的超密集注释（大约是DensePose-COCO的25倍）用于姿势估计，这可以促进实例级人体分析的研究。第二，基于已建立的数据生成系统，可以获取大量的、多样性丰富的数据，且不需要人工标注成本。第三，生成的数据注释是没有任何误差的绝对真值，并且完美地表示了2D图像与人体表面之间的对应关系。第四，UltraPose还提供了人体的3D参数和深度信息，以供进一步研究。处理如此大规模和多样化的基准仍然具有受文献[3]的启发，我们设计了一种新的基于变换器的稠密位姿估计模型。它同时结合了Transformers [31]和U-Net [27]的优点，并且还使用了先验密钥-点知识以帮助预测。我们提出的模型在UltraPose基准测试中获得了最先进的精度，更重要的是，可以直接应用于现实世界的场景，实现了令人印象深刻的性能。总之，这项工作的主要贡献有三方面：• 我们用DeepDaz代替SMPL模型，DeepDaz是一种新的人体3D解耦模型，它可以用来轻松地生成各种姿势，并且与CG行业设计标准兼容。• 我们提出了一个真实感人体生成系统和一个新的大规模综合基准，Ul- traPose，其中包含13亿点注释没有任何注释成本或错误。• 一种基于变换器的方法，可以提取用于超密集姿态估计的信息视觉表示。在UltraPose数据集上进行训练后，我们提出的方法也可以应用于现实世界的密集姿态估计。2. 相关工作密集姿态估计皮肤多人线性模型（SMPL）[18]是人体的学习模型，包含由SMPL和DenseReg [1]，Guler等人激励的多个可控形状和姿态参数。 [9]在2D图像中对3D身体结构进行建模，并引入10893图2.（a）SMPL形状分量和DeepDaz形状分量之间的比较。（b）不同参数尺度对臂形的影响。（c）使用NICP点云配准后DeepDaz模型和SMPL模型之间的误差。（d）SMPL模型与合成图像之间的误差。新的基准DensePose-COCO，它呈现了图像和SMPL模型之间的密集对应关系。基于Mask-RCNN [12]，Guler等人。 [9]还提出了一种密集回归框架DensePose-RCNN，用于预测身体部位分割和UV坐标。提出了几种其他方法[21Yang等人提出了Parsing R-CNN [35]，这是一种采用FPN [16]主干和RoIAlign [12]操作的灵活高效的管道。解析R-CNN是COCO 2018挑战密集姿态估计任务的冠军，可应用于多个实例级人体分析任务，如人体部位分割。Neverova等人。 [22]注意到手动注释的质量限制。因此，他们提出了一种增强神经网络，可以预测标签数据的分布，从而更好地理解注释的不确定性并保持最先进的准确性。然而，受当前数据集标注质量和模型设计缺陷的限制，这些模型的性能并不令人满意。密集姿态估计仍然是一项具有挑战性的任务。合成数据集近年来，大规模数据集促进了计算机视觉的发展，如ImageNet [5]，MSCOCO [17]等。然而，手动标记这些数据集需要巨大的注释成本，错误不可避免。考虑到隐私问题和更复杂的标记过程，收集真实的人类数据集甚至更难[24]。幸运的是，我们有一个替代方案：合成数据集，是指建立一些专门的数据生成系统，以合成尽可能真实的数据。许多作品[2，6，26，29，30]已被提出用于合成人体。Varol等人介绍了SURREAL [30]，一种合成的大规模台式-标记3D姿态关键点、深度图和分割。SURREAL由包含超过600万帧的人体运动的3D序列渲染。为了解决人类跟踪、身体部位和遮挡注释的稀缺性，Fabbri等人提出了JTA数据集[6]，该数据集是通过利用高度逼真的视频游戏Grand Theft Auto V创建的。密集姿态估计也存在类似的问题。因此，在这些工作的推动下，我们提出了一个新的人体模型DeepDaz，进一步构建了一个大规模的合成基准UltraPose。3. UltraPose数据集大规模的高质量数据集在对2D图像和3D表面模型之间的对应关系进行建模中是至关重要的。为了解决以前的DensePose-COCO [9]的局限性，我们引入了一种新的人体模型（DeepDaz）并构建了具有13亿个点的UltraPose，这是第一个合成的，也是密集姿势估计中最大的基准。我们解释了DeepDaz模型，如何生成数据集，并在下面详细分析数据。3.1. DeepDaz模型在本节中，我们将详细介绍我们提出的人体解耦3D模型DeepDaz。DeepDaz的基础模型是Daz，这是一个被业界广泛认可的艺术设计人体，由16，556个顶点，32，736个表面和170个骨骼组成，包括表情，手指和脚趾关节。对于DeepDaz，我们进一步设计了一系列可自由调节的解耦参数，可以任意控制，并产生各种人体形状。骨架通过蒙皮算法驱动模型得到各种人体。Deep- daz符合人体驾驶标准10894形状数据库：70K+真实形状姿势数据库：70K+姿态序列肤色数据库渲染皮肤转换衣服驱动添加背景合成数据图3.数据生成系统。我们从数据库中随机选取各种基础材料，通过生成管道得到最终的合成图像数据。我们生成的数据是足够的保真度密集的姿态估计。表1. 我们的UltraPose和现有的DensePose-COCO之间的比较。数据集人点#平均密度掩模分辨率否误差深度3D参数[9]第九话UltraPose-5 K（我们的）49K5k5.2M13M1062.6K256×256512×512✓ ✓ ✓UltraPose（我们的）500K1.3B2.6K512×512✓ ✓ ✓CG 行业，并可以在设计软件中编辑，如 Maya ，Blender，3DMax等。虽然驱动算法类似于SMPL模型，但我们的DeepDaz具有几个显著的优点。首先，DeepDaz提供了可以自由控制的解耦形状组件如图在图2（a）中，SMPL模型包含来自大约4000次扫描的PCA的10个形状分量，而DeepDaz当前包含16个解耦的良好设计的形状分量。SMPL中的统计形状分量很难生成特定的体型，因为人们需要同时调整多个（通常3-7个在DeepDaz中，人们可以简单地调整相应的解耦形状参数以生成预期的身体形状，同时保持其他部分形状不变（如图1B所示）。第2段（b）分段）。其次，DeepDaz是可扩展的。人们可以在CG软件中设计新的形状组件，并将它们集成到DeepDaz中。第三，DeepDaz比SMPL模型具有更好的兼容性。在生成合成图像之后，我们可以使用NICP点云配准将DeepDaz参数转换为对应的SMPL形状和姿态参数。SMPL、DeepDaz和合成图像之间的误差如图所示。第2段（c）（d）分段。3.2. 生成系统我们建立了一个数据生成系统，可以快速产生大量的数据。如图月3系统包含了许多基本的素材库，如形状库、姿势库、服装库等。数据生成流水线对数据库中的材料进行逐步处理和合并，最终得到合成数据。3.2.1数据库准备具体地，基本材料数据库包括形状数据库、姿势数据库、面部数据库、肤色数据库、衣服数据库和背景数据库。对于身体形状，我们从真实的身体中抽取70K个形状来构建形状数据库。为了创建一个人体姿势数据库，我们首先从Xbot，H36M [13]和SFU [36]等开源数据库中收集了2，421个动作序列，从中分解了70K个姿势此外，人体将在一定范围内随机出现在3D空间中。人脸数据库包含36K高分辨率正面图像。服装数据库包括374件衣服、鞋子和帽子，它们覆盖在一个有皮肤的人类模型上。背景数据库有65K背景图像，将随机选择这些基本材料数据库确保了生成图像的多样性。3.2.2生成管线与SMPL模型[18]类似，我们的DeepDaz也可以从参数β和θ生成目标人体。这些参数是随机选择的DeepDaz模型形状驱动姿势驾驶脸数据库服装数据库后台数据库10895图4.来自我们的合成UltraPose基准的样本案例，具有各种姿势，体型，衣服，头部，肤色，视点和背景。从形状和姿态数据库中，通过蒙皮算法控制人体的生成。渲染渲染模块对生成的人体执行数据增强，包括HDR、光角度和光强度。受面部和GAN模型的3DDFA参数[10，11我们最终得到了一个有皮肤和脸的渲染人。这些渲染的人类数据仍然相对接近游戏中的虚拟角色参考pix2pix网络[14]，我们设计了肤色转换模块，专门对人体肤色进行处理，生成更加真实的人体。衣服驱动驱动衣服时，使用两种方法：一种是皮肤驱动，另一种是布料模拟驱动，模拟物理碰撞以获得更自然的顶点位置。我们对布料模拟的效果进行了优化，使服装更加逼真，并将这两部分集成到服装驱动模块中。添加背景我们已经实现了完整的合成人体数据。在这一步中，我们从背景数据库中随机选择一个图像作为背景，最终的合成图像。我们的管道可以快速生成大量的数据。3.3. 数据分析我们构建了两个版本的数据集：UltraPose-5 K和UltraPose，分别包括5 K和500 K图像。两个数据集都被分为训练、验证和测试部分，比例为80%：10%：10%。如Ta所示-表1，与DensePose-COCO相比，UltraPose具有更多的注释人。基于DeepDaz模型和数据生成系统，我们的UltraPose拥有超密集的对应点标注，总共包含1.3B点标注，一个人的平均点标注密度为2.6K，分别是DensePose的250倍和25倍。此外，UltraPose中的分割掩模分辨率为512×512（DensePose中为256×256），这导致了精细的密集姿态估计结果。更重要的是，与具有不可避免的错误的人类注释此外，我们还从数据生成系统中获得了人体的深度图和三维参数，为以后的研究奠定了基础。足够的保真度也是合成数据集的基本要求。图4显示了我们的10896ΣJ.ΣJ图5. TransUltra架构概述。TransUltra包含三个主要组件，包括关键点检测器，U-Net框架和用于表示图像特征的多个Transformer层。UltraPose基准测试。与用于姿势关键点估计的合成人体数据集SURREAL [30]相比，我们的UltraPose受益于精心设计的数据生成系统，获得更真实的人体数据。所有这些优点对提高密集姿态估计的性能具有显著影响。4. 方法在这项工作中，我们提出了一个基于变换的密集姿态估计框架。所提出的TransUltra的整体架构如图5所示。我们利用与原始图像连接的先前检测到的关键点来引导模型预测更完整的人体，这也有助于解决遮挡问题。受[3]的启发，我们采用一些Transformer [31]层来获取信息特征以进行进一步表示。在我们的框架中应用了U-Net架构[27]，因为密集姿态估计也是像素级预测。更具体地说，我们使用OpenPose3来获得17个密钥最后，我们应用一个密集的姿势头部预测身体部位分割和UV坐标。该模型在80个epoch内进行训练，并由Adam进行优化，在此期间，学习率设置为1 e-4，批量大小为48。基于具有完美地面真实的合成UltraPose，我们在训练期间添加一些遮挡以模拟具有强遮挡的受益于此，我们的模型可以解决遮挡的人体部位，如图6的第一行所示。然而，遮挡预测不受不为遮挡的人体部分提供地面实况的DensePose-COCO的支持5. 实验在本节中，我们首先描述一些相关的密集姿态估计基线和评估度量。我们比较他们的表现与我们提出的TransUltra模型，并讨论不同方法之间的差距最后，一个定性的结果显示，以评估在现实世界的场景中的泛化的5.1. 实验装置基线我们实现了几个现有的方法作为基线。它们的细节解释如下。Dense- Pose [9]：具有完全卷积头的原始DensePose-RCNN框架。DeepLabV3 Head [4]：一个功能强大的语义图像分割头，具有atrous卷积，用于预测2D图像和表面3D人体模型之间的超密集对应关系，因为密集姿态估计是一个像素级预测任务。置信度估计[22]：对用于密集姿态估计的相关误差场进行建模的网络在这项工作中发现了手动注释的质量限制，其中该模型在回归的UV坐标中执行额外的置信度估计，从而归档最先进的准确性。评估度量[9]之后，我们采用测地点相似性（GPS）来衡量点预测和地面实况标注的相似性。GPS度量定义如下：使用视觉后处理形成关键点图像的点。在与原始图像连接之后，GPS=1|P|exp−g（ip，ip）22k2（一）我们的网络输入是大小为512×512的6通道RGB关键点图像。我们使用ResNet50的前三个阶段来提取特征，然后将其编码为特征序列并馈送到12个Transformer层以进行进一步表示。几个反卷积层也被用于将特征图上采样回512×512的大小，并且其通道大小也从512逐渐减小到16Fi-3https://github.com/CMU-Perceptual-Computing-Lab/openposep∈Pj其中，Pj是第j个人的地面实况注释，ip和ip分别是预测的地面实况和地面实况。k是设置为0.255的归一化参数在获得GPS相似度后，我们将其作为阈值，并使用COCO挑战协议来计算平均精度（AP）和平均召回率（AR）。这些度量表征密集姿态估计算法的性能。10897表2.不同方法在拟议的UltraPose基准测试中的性能。请注意，我们使用两个版本（5K和所有数据）的UltraPose进行实验，这表明了大规模数据集的有效性。方法数据APAP@GPS50AP@GPS75ARAR@GPS50AR@GPS75[22]第二十二话5K38.066.263.641.769.947.4密集姿势[9]5K39.674.370.644.476.149.9DeepLabV3头[4]5K43.175.974.947.578.855.3TransUltra（我们的）5K49.189.588.358.094.669.5[22]第二十二话500K45.073.770.558.785.673.0密集姿势[9]500K46.172.471.159.284.175.9DeepLabV3头[4]500K52.381.980.963.390.180.8TransUltra（我们的）500K56.291.891.863.695.984.75.2. UltraPose结果我们在UltraPose基准上进行了广泛的实验。值得注意的是，我们采用了两个版本的数据集进行实验。一个是5K图像的小版本，另一个包含500K图像和1.3B注释点的所有数据。我们不提供对DensePose-COCO数据集的定量实验，因为我们提出的UltraPose是一个更高级的数据集，具有1.3B无错误的点注释和逼真的渲染。此外，我们在UltraPose上训练的模型将预测遮挡部分，这与不提供遮挡注释的DensePose-COCO不兼容。表2中的实验结果显示了方法的比较以及数据量对UltraPose数据集的影响在完整的UltraPose数据集上，置信度估计[22]将AP存档为45.0，而原始的DensePose-RCNN [9]在相同的度量中获得46.1。当应用DeepLabV3头[4]时，我们在AP指标中获得了52.3的性能。作为一个比较，我们提出的TransUltra通过引入Transformer层，U-Net框架和预先检测的关键点获得最佳性能AP=56.2。TransUltra在其他评估指标上也遥遥领先，在 AP@GPS50 、AP@GPS75、AR、AR@GPS50和AP@GPS75指标上分别获得91.8、91.8、63.6、95.9和84.7大规模数据集的有效性我们认为数据量对密集位姿估计的准确性至关重要。在UltraPose-5 K数据集上进行的实验表明，只有5 K数据时，性能会显著下降。例如，在AP度量上，TransUltra的性能为49.1，这仅是这个实验也证明了我们的合成数据的优势，因为我们可以生成大量的无错误数据，无需手动注释。我们发现，500K是一个更合适的生成数据量，并收集它作为UltraPose在这项工作中。5.3. 定性结果在本节中，我们展示了我们提出的数据集和方法的有效性。我们比较两种方法的结果：（ a ）在DensePose-COCO 数据集上训练和测试现有的DensePose-RCNN，（b）在合成基准上训练我们提出的模型，并在真实世界的DensePose-COCO数据集上测试。在图6中，我们示出了可视化比较结果。左边是原始输入图像，中间是DensPose-RCNN结果，右边是我们在DensPose-COCO数据集上的模型测试结果。基于具有完美地面真实的合成UltraPose，我们在训练期间添加一些遮挡，以模拟具有强遮挡的真实世界场景。受益于此，我们的模型可以解决遮挡的人体部位，如图 6 的第一行所示。然而，遮挡预测不受DensePose-COCO的支持，该DensePose-COCO第二排展示了在处理衣服问题上的突出表现。我们的数据生成系统首先创建具有完美地面真实的人类数据，然后用衣服覆盖它。因此，使用我们的合成数据进行训练，模型可以更准确地恢复衣服下的身体形状。然而，DensePose系统手动注释覆盖着衣服的身体图像，导致在DensePose-COCO上训练的模型不可避免地出现恢复错误。第三行示出了侧向人体的结果对于在DensePose-COCO上训练的DensePose-RCNN，侧移的结果相对较差，发生一些不完整的预测。受益于利用人体关键点的先验知识，所提出的Tran- sUltra很好地处理了侧向情况，使得预测结果完整且高质量。在第四行中，我们还演示了模型在一些复杂的多人场景中的性能。这些10898图6.在DensePose-COCO数据集上进行可视化比较。左：输入图像，中：DensePose-RCNN的结果，右：我们提出的TransUltra模型在合成UltraPose基准上训练的结果。这些实验证明，我们的合成基准具有足够的保真度，因此在UltraPose上训练的模型可以推广到复杂的现实世界场景。实验结果表明，Transformer模型具有较强的视觉语义表达能力，可以推广到真实场景中。6. 结论建立二维图像与三维人体的对应关系是计算机视觉中的一项重要任务，它可以启发大量的任务，如虚拟试穿、三维人体重建等。在这项工作中，我们注意到现有SMPL模型的局限性，并提出了一个新的人体解耦模型DeepDaz，它可以用来生成各种人体。然后，建立了一个数据生成系统，构造了第一个大规模超密集姿态基准.我们的UltraPose包含1.3 十亿点注释没有任何错误，也提供了人体的详细参数和深度图，以供进一步研究。最后，为了方便将来的再...搜索在这一领域，我们设计了一个基于transformer的模型transUltra，这是很好的训练我们的UltraPose。TransUltra不仅在我们的UltraPose基准测试中达到了最佳性能，而且还可以应用于现实世界的场景。致谢此工作是支持部分由国家重点研发计划资助der格兰特编号2020AAA0109700国家自然国家自然科学基金会中国（国家自然科学基金）项目编号：U19 A2073、61976233，广东省基础与应用基础研究（地区联合基金-重点）项目编号：2019B1515120039，广东省杰出青年基金项目编号：2021B1515020061 ，深圳市基础研究项目编号： RCYX20200714114642083，JCYJ 20190807154211365，浙江省实验10899引用[1] Riza Alp Guler ， George Trigeorgis ， EpameinondasAnton- akos ， Patrick Snape ， Stefanos Zafeiriou ， andIasonas Kokki- nos.Densereg：完全卷积的密集形状回归。在IEEE计算机视觉和模式识别会议论文集，第6799- 6808页，2017年。2[2] Slawomir Bak，Peter Carr，and Jean-Francois Lalonde.通过合成进行主适应，用于无监督的人重新识别。在欧洲计算机视觉会议论文集（ECCV）中，第189-205页，2018年。3[3] Jieneng Chen，Yongyi Lu，Qihang Yu，Xiangde Luo，Ehsan Adeli，Yan Wang，Le Lu，Alan L Yuille，andYuyin Zhou. Transunet：Transformers为医学图像分割提供了强大的编码器。arXiv预印本arXiv：2102.04306，2021。二、六[4] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017. 六、七[5] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。3[6] Matteo Fabbri、Fabio Lanzi、Simone Calderara、AndreaPalazzi、Roberto Vezzani和Rita Cucchiara。学习在虚拟世界中检测和跟踪可见和遮挡的身体关节。在欧洲计算机视觉会议（ECCV），2018。3[7] Artur Grigorev ， ArtemSevastopolsky ， AlexanderVakhitov和Victor Lempitsky。基于坐标的姿态引导人体图像生成的纹理修复。在IEEE/CVF计算机视觉和模式识别会议论文集，第12135-12144页，2019年。1[8] Riza Alp Guler和Iasonas Kokkinos。Holopose：Holis- tic3D human reconstruction in the wild.在IEEE/CVF计算机视觉和模式识别会议论文集，第10884-10894页，2019年。1[9] RızaAlpGuüler、N a taliaN ev er ov a和IasonasKokkinos。密度：野外密集的人体姿势估计。在IEEE计算机视觉和模式识别会议论文集，第7297-7306页，2018年。一二三四六七[10] 郭建柱、朱翔宇和雷震。 3ddfa。https：//github.com/cleardusk/3DDFA，2018年。5[11] Jianzhu Guo，Xiangyu Zhu，Yang Yang，Fan Yang，Zhen Lei，and Stan Z Li.面向快速、准确、稳定的3D密集人脸对齐。欧洲计算机视觉会议（ECCV），2020年。5[12] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页3[13] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu. Human3.6m：大规模数据集和预测方法，用于自然环境中的 3D 人体感知。 IEEETransactionsonPatternAnalysisandMachineIntelligence，36（7）：1325-1339，2014年7月。4[14] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集，第1125-1134页，2017年。5[15] 久保静，岩泽雄介，铃木正弘，松尾裕隆.Uvton：考虑基于图像的虚拟试穿网络中的人的3D结构的UV映射。在IEEE/CVF计算机视觉研讨会国际会议论文集，第0-0页，2019年。1[16] 林宗义、彼得·多尔、罗斯·格希克、何启明、巴拉特·哈里哈兰和塞尔日·贝隆吉. 用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第2117-2125页，2017年。3[17] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740Springer，2014. 3[18] Matthew Loper、 Naureen Mahmood 、Javier Romero 、Gerard Pons-Moll和Michael J Black。Smpl：一个有皮肤的多人线性模型。ACM图形交易（TOG），34（6）：1-16，2015。一、二、四[19] Assaf Neuberger，Eran Borenstein，Bar Hilleli，EduardOks，and Sharon Alpert.来自未配对数据的基于图像的虚拟试穿网络在IEEE/CVF计算机视觉和模式识别会议论文集，第5184- 5193页，2020年。1[20] Natalia Neverova，Riza Alp Guler，and Iasonas Kokkinos.密集姿势转移。在欧洲计算机视觉会议（ECCV）的会议记录中，第123-138页，2018年。1[21] Natalia Neverova ， David Novotny ， Marc Szafraniec ，Vasil Khalidov，Patrick Labatut，and Andrea Vedaldi.连续的表面嵌入。神经信息处理系统的进展，33，2020。3[22] 纳塔利娅·内韦洛娃大卫·诺沃特尼和安德里亚·维达尔迪从噪声标签中学习密集对应的Cor相关不确定性神经信息处理系统进展，2019。一、三、六、七[23] Natalia Neverova 、 James Thewlis 、 Riza Alp Guler 、Iasonas Kokkinos和Andrea Vedaldi。纤细致密：从稀疏注释和运动提示中进行节俭学习。在IEEE/CVF计算机视觉和模式识别会议的论文集，第10915-10923页，2019年。第1、3条[24] 谢尔盖·I·尼科连科。用于深度学习的合成数据。arXiv预印本arXiv：1909.11512，2019。3[25] Georgios Pavlakos Nikos Kolotouros和Kostas Daniilidis。纹理姿势：监督具有纹理一致性的人体网格估计。在IEEE/CVF国际计算机视觉会议论文集，第803-812页，2019年。1[26] Konstantinos Rematas ， Ira Kemelmacher-Shlizerman ，Brian Curless，and Steve Seitz.桌上的足球。在IEEE计算机视觉和模式识别会议的论文集，第4738-4747页，2018年。310900[27] Olaf Ronneberger，Philipp Fischer，and Thomas Brox. U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234施普林格，2015年。二、六[28] Artsiom Sanakoyeu 、 Vasil Khalidov 、 Maureen SMcCarthy、Andrea Vedaldi和Natalia Neverova。将密集姿势转移到近端动物类别。在IEEE/CVF计算机视觉和模式识别会议论文集，第5233-5242页，2020年。3[29] 孙笑笑和梁正。从视点的角度剖析人的再认同。在CVPR，2019年。3[30] 作者： Gu¨lVarol ， J a vierRomero ， X a vierMartin ，NaureenMah-mood，Michael J. Black，Ivan Laptev，andCordelia Schmid.向人造人学习。在CVPR，2017年。三、六[31] Ashish Vaswani， Noam Shazeer ， Niki Parmar ， JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， LukaszKaiser，and Il- lia Polosukhin.注意力是你所需要的。arXiv预印本arXiv：1706.03762，2017。二、六[32] Chung-Yi Weng，Brian Curless，and Ira Kemelmacher-Shlizerman. 照片唤醒：3d人物动画从一个单一的照片。在IEEE/CVF计算机视觉和模式识别会议集，第5908- 5917页，2019年。1[33] Zhonghua Wu，Guosheng Lin，Qingyi Tao，and JianfeiCai. M2e-try on net：从模特到每个人在第27届ACM多媒体国际会议的论文集，第293-301页，2019年。1[34] Zhenyu Xie，Xujie Zhang，Fuwei Zhao，Haoye Dong，Michael C Kampffmeyer ， Haonan Yan ， and XiaodanLiang. Was-vton：虚拟试穿网络的翘曲架构搜索arXiv预印本arXiv：2108.00386，2021。1[35] 陆洋，宋庆，王智辉，姜明。解析r-cnn用于实例级的人工分析。在IEEE/CVF计算机视觉和模式识别会议论文集，第364-373页，2019年。第1、3条[36] KangKang Yin 和Goh Jing Ying。动作捕捉数据库。http://mocap.cs.sfu.ca/网站。 4

下载后可阅读完整内容，剩余1页未读，立即下载