没有合适的资源?快使用搜索试试~ 我知道了~
人体密集对应图像的生成与应用
13286BodyMap:学习全身密集对应图Anastasia Ianina1岁,Nikolaos Sarafianos3岁,Yuanlu Xu3岁,Dracacio Rocco2岁,TonyTung3岁1莫斯科物理技术学院,2Meta AI,3Meta Reality Labs研究,索萨利托1yanina@phystech.edu,2,3{nsarafianos,yuanluxu,irocco,tonytung}@fb.com摘要人类之间的密集对应关系携带了强大的语义信息,这些信息可以用于解决全身理解的基本问题,例如野外表面匹配、跟踪和重建。在本文中,我们提出了BodyMap,一个新的框架,用于获得高清晰度的全身和连续的密集对应之间的野生图像的穿着的人和表面的3D模板模型。这些对应关系涵盖了手和头发等细节,同时捕捉了远离身体表面的区域,如宽松的衣服。用于估计这种密集表面对应的现有方法i)将3D身体切割成部分,这些部分被展开到2D UV空间,沿着部分接缝产生不连续性,或者ii)使用单个表面来表示整个身体,但是没有处理身体细节。在这里,我们介绍了一种新颖的网络架构,具有Vision Transformers,可以在连续的身体表面上学习精细级别的特征。BodyMap在各种指标和数据集上的表现优于之前的工作,包括DensePose-COCO。此外,我们展示了各种应用,从多层密布对应,神经渲染与新颖的视图合成和外观交换。1. 介绍通过对图像中覆盖人体的每个像素进行语义标注,可以解决与人类理解相关的几个基本问题。这使得许多应用程序,包括视频分析,图像编辑,纹理生成和风格转移。从人类的单个RGB图像,文献已经提出了提取诸如2D身体关键点(例如,脸、手、身体关节),或2D分割掩模(例如,用于全身、衣服、头发或皮肤),以及由模板体模型[6,8,13,33,35,44],而密集表面对应的工作通过建立独特的对应关系进一步实现了像素级的理解* 这项工作是在Meta RLR实习期间进行的。图1.我们介绍BodyMap-一种在2D图像和3D穿着衣服的人的表面之间建立精确的高精度密集对应的方法。我们的方法处理宽松的衣服,不同的发型和各种配件,如帽子和包,提供清晰的轮廓,并在多人的情况下与闭塞工作得很好。在覆盖人体的可见区域的2D像素和身体模板的表面上的3D点之间。在开创性的工作DensePose [26]中,估计属于人体的图像像素与使用UV坐标定位的人体模板的不相交部分中的点该方法在大型野外数据集DensePose-COCO上进行训练,对人体姿势变化、图像分辨率、服装多样性和遮挡具有鲁棒性然而,它具有一些固有的限制,这些限制影响依赖于它的方法(例如,对于穿着衣服的人应用)[1,21,46]。首先,由13287将身体分成不相交的部分会在它们之间产生清晰可见的接缝和不连续性,这对于学习模型来说不是第二,DensePose估计不准确,如先前工作中所报告的[26,28,39],主要是由于难以获得任务的地面实况注释[2,23]。后续的方法已经解决了它的一些缺点,最近的一些工作解决了UV图的不连续性[4,27,48]。HumanGPS [41]提出使用3D人体扫描表面上对应点之间的测地距离来预测每像素嵌入,并且不产生显式映射。所提出的方法都没有为具有更精细细节的区域建立高清晰度的对应关系,例如头发和手(手指),并推广到穿着衣服的人,特别是宽松的衣服。在这项工作中,我们介绍了一种新的技术,以建立高清晰度的全身和连续的密集correspondence- dence之间的图像穿着的人和人体表面。我们的方法,我们称之为BodyMap,将人的RGB图像作为输入,并输出每个前景像素(即,包括全身,包括衣服和头发)。我们设计了一个基于transformer的体系结构,该体系结构学习基于外观和基于连续表面嵌入的表示,以推断所描绘的人的准确密集表面对应。我们的VisionTransformer [11]变体作为编码器的计算块,为密集预测任务带来了有利的特性。矢量维度在所有处理阶段以及每个阶段的全局接收场中有了这些性质,我们的网络是很好的设计密集对应预测。此外,我们利用合成数据的力量。由于没有真实世界的数据集提供我们目标质量(手指,衣服,头发)的地面实况符号,我们创建了一个动画3D穿着人体扫描的合成数据集。通过这种方式,我们获得了大量不同服装、不同姿势和不同视角的人类的地面真实密集对应。我们的框架的一个区别因素是,它不依赖于具有拓扑约束的人体,并且可以处理分层表示,例如具有单独布料的几何学总而言之,我们的主要贡献是:• BodyMap是第一种为穿着衣服的人的每个前景像素建立密集连续对应的方法,无论是手指,头发还是以高精度从人体移位的衣服-这是所有先前的作品都无法实现的。• 一种专门为此任务设计的新型基于变压器的架构,当以多任务学习方式进行训练时,每个任务的每像素分类损失Channel在几个数据集和任务上显著优于先前的工作• 我们在DensePose COCO上实现了最先进的结果。我们表明,我们的方法可以应用到现实世界中的应用,如新的视图合成。我们的方法可以扩展到学习分层表示与穿衣服的人和预测每几何表面的对应关系。2. 相关工作密集表面对应。该主题中使用最广泛的方法之一是DensePose [26],其中训练分类和回归分支以获得每个像素的身体部位和UV估计。身体部位构成了I通道,其采用25个值之一(包括背景)和UV估计值,其是映射到[0,255]的连续数字。但是,它的输出是离散化的,导致身体部位之间的接缝。这个问题在连续表面嵌入(CSE)[27]中得到了缓解,它为每个像素学习对象网格中相应顶点的位置嵌入在CSE中,在不受特定几何类型约束的情况下学习对应关系(例如,人类),并显示了他们的方法在其他可变形对象类别上的有效性,如动物类别,该动物类别后来通过自动发现 不 同 对 象 类 别 之 间 的 对 应 关 系 而 扩 展 [29] 。HumanGPS [41]将每个像素映射到特征空间,其中特征距离反映了对应于每个像素的3D身体模型的顶点之间的测地线距离。类似于CSE,对于每个图像像素,它们产生能够区分视觉相似部分并将不同主题对齐到统一特征空间中的嵌入。Zeng等人[48]介绍了一种无模型的3D人体网格估计框架,该框架明确建立了UV空间中网格与局部图像特征他们解决人体估计问题依赖于密集的局部特征转移到UV空间。获得足够的标记数据(特别是非合成数据)来学习密集对应是一项具有挑战性的任务。SimPose [50]提出通过使用模拟的多人数据集和具有多任务目标的特定训练策略来学习密集UV坐标来缓解这个问题它们仅使用模拟的人类UV标记获得有利的结果在UltraPose中进一步探索了获得密集和准确注释的对应关系的复杂性[45]。他们提供了一个密集的合成基准集中在脸上,包含约1。30亿个对应点以及基于新型解耦3D模型的数据生成密集通信的架构设计。那里在网络架构方面有几种方法13288BodyMap解码器+Π重采样&项目外观编码器CSE通信编码器Transformer编码器Transformer编码器图2. BodyMap架构。给定一个RGB图像,我们首先获得它的CSE [27]估计值,并将两者馈送到相应的编码器。我们利用专门为此任务设计的视觉转换器来学习提取准确的高维表示,然后将其馈送到BodyMap解码器,预测每像素密集的对应关系。结构来提取密集的人类通信。在密集姿态[26]中,利用具有特征金字塔特征[22]的Mask-RCNN [15]来获得准确的图像特征。Sim- Pose [50]选择了一个ResNet-101骨干训练与损失调整到他们的每一个任务(例如,人体姿势、分割、法线、UV)。HumanGPS [41]采用的另一个简单而有效的选择是编码器-解码器架构,如U-Net [36]。我们的研究表明,虽然可以用上述方法获得令人满意的结果,但它们都不能捕获所描绘的人的更精细的细节,因为通常提取的特征太粗糙。为了缓解这一问题,我们转向了Transformer架构,因为它们能够学习这些下游计算机视觉任务或重建应用所需的区分特征。源于自然语言处理,Transformer架构[43]已在广泛的计算机视觉任务中显示出其有效性:图像识别和分类[11],图像检索[12],图像生成[31]和图像字幕[16]。我们利用了之前在密集预测任务中视觉转换器的工作[34](例如,深度估计),并引入了一种新的体系结构,该体系结构明确地设计用于预测人类的密集表面对应。3. 方法:BodyMap所提出的方法的主要目标是建立一个单一的RGB图像和三维人体模型之间的密集的表面对应。我们的方法将输入单个RGB图像、前景掩模和使用连续表面对应(CSE)检索的粗略对应[27]。CSE作为一个足够的初始化,我们的方法通过为覆盖宽松衣服,头发,手指等的区域提供更准确的估计来细化,因此,BodyMap为前地面图像提供每像素估计,从而产生更准确的表示。和清晰的轮廓。前景遮罩的必要性不仅源于我们的目标是完成我们的估计的前景轮廓,而且还源于我们在第4节中证明是必不可少的图像级特征。3.1. 连续对应连续对应比离散对应具有显著的首先,连续的表现在身体部位之间没有接缝。其次,它在概念上更简单,因为不需要解释性地编码和稍后预测身体部位。利用表面对应的连续表示的好处已经在一些先前的工作中讨论过[27,41,48]。我们遵循类似的方向[27]并设计一个连续的UV地图,然后将其扭曲到不同姿势的身体模型,为我们的方法提供地面真实本文中使用的对应色方案在颜色方面是唯一的:我们为参数化身体模型的每个顶点选择不同的颜色。给定着色的3D身体模型,我们将其表面转换成4K UV图,然后在以确定的姿势和从期望的视点在身体模型上渲染期间利用该4K UV图。通过这种方式,我们获得了用于训练的合成数据的基础事实。3.2. 表面嵌入式变压器用于从RGB图像预测密集对应的网络的经典体系结构是编码器-解码器(例如,U-net)。虽然编码器中的简单卷积骨干通常可以提供足够的结果,但我们观察到 , 编 码 器 架 构 的 正 确 选 择 与 卷 积 相 比 , 基 于transformer的架构不会受到有限的感受野的影响,从而获得更多的表现力。此外,变换器避免了输入图像嵌入的显式下采样,从而导致更多的交流。13289ΣD··∈conDσσ策划和完善最终的陈述。如图2所示,我们建立在Ran ftl等人的工作基础上。[34]用于单目深度估计,并介绍了一种简单而新颖的基于变换器的体系结构,该体系结构被明确设计用于预测人类的密集表面对应性的任务。我们将RGB图像及其CSE估计转换为令牌,通过提取非重叠补丁,然后线性投影得到的扁平表示。与文本转换器类似,我们向集合中添加一个特定的标记,它聚合了关于图像的全局知识。图像和CSE嵌入补充有位置嵌入,并被馈送到具有单独权重的分离视觉Transformer主干,以检索每个输入的密集特征。稍后我们将这些块称为外观和对应变换器(图2)。Visual Transformers中的位置编码对于捕获输入标记的序列排序至关重要,而不是将图像转换为该Transformer输出融合形成一个中间表示,首先重新采样,然后通过残留卷积单元投影。然后将其馈送到卷积解码器中,在卷积解码器中对表示进行上采样以生成细粒度的对应预测。最后,网络输出每个像素的RGB值,这些值根据我们在前一节中讨论的着色方案对对应关系进行编码。3.3. 图像空间空间,我们扩大我们的监督计划,以3D利用测地距离的身体模型的表面上。在文献中,测地线损失对于在3D空间中实施监督是有用的。我们设计了一个损失,推动非匹配像素之间的功能分开,取决于测地线距离。我们计算每个前景像素的对应关系预测的顶点之间的测地线距离和它们的地面真实值。从理论上讲,这样的监督消除了所提出的对应着色方案的不完善:远处的顶点可能具有相似的颜色(绿色的头和肩膀,蓝色的手臂和右大腿)。因此,测地线损失提供了关于3D几何学的额外知识,该3D几何学比较了预测顶点与地面实况顶点之间的距离。Lgeo(Ipred,Igt)=Dg(V(Ipred(x)),V(Igt(x),(1)X其中V(I(x))表示对应于图像I中的像素位置x的顶点,g(x)表示身体表面上的两个3D点之间的测地线距离。3.5.正则化和最终损失稠度损失Lcon.我们还添加了一个正则化项,以加强相邻区域预测的平滑性。具体地说,我们将来自相邻像素的预测约束为在测地线上彼此接近,即,对于前景图像中的每个像素p,我们预测3-通道(RGB)颜色p′它代表了正确的,∈Z 3L(I)=100log.1+实验Dg(pr,p)−,p∈Ispondence(这种表示中的颜色是唯一的这使得随后的翘曲容易)。因此,我们将整个问题视为一个多任务分类问题,其中每个任务(R,G和B通道的预测)都使用相同的损失集进行训练:每像素分类损失L cls。对于每个颜色通道,我们预测每个像素的分类标签l[0,255]。BodyMap提供原始的、未标准化的每像素分数对于三个颜色通道中的每一个中的每一个类别,并且Lcls测量预测和基础事实之间的交叉熵。由于我们注意到预测真实手势的对应关系我们为手和头设置了更高的权重,而为身体的其他部分设置了更低的权重,以鼓励细粒度的对应估计。轮廓损失L银。我们通过计算预测和地面真实前景掩模之间的IoU来惩罚模型的不准确轮廓预测。3.4. 3D几何测地线损耗虽然每像素交叉熵分类损失监督我们在2D图像(二)其中pr是前景轮廓内随机选择的像素,g(p1,p2)是对应于像素p1和p2的顶点之间的测地线距离,σgeo是测地线距离的归一化常数(身体模型中的点之间的最大可能距离),σcol分别是RGB颜色的归一化常数。在每次迭代中,我们为不同的随机选择的像素计算100次这种损失,然后对结果值进行平均。最后的损失。最终损失是所有项的加权和Ltrain=λclsLcls+λsilLsil+λgeoLgeo+λconLcon,(3)其中损失权重λ对应于每个损失项,以便平衡它们。3.6.培训详细信息BodyMap网络首先在合成数据上进行训练,以学习每个前景像素的表面对应关系给定RGB图像,我们获得前景掩模和CSE估计,其用作对应性的初始化。但是,如果我们要测试这个模型,predgeoCol13290Σ直接在包括多个人、严重遮挡和低分辨率图像的DensePose-COCO上,则结果将不令人满意。在这个数据集中提供的注释是稀疏和嘈杂的,图像中的每个人都 有 100 个 为 了 弥 合 这 一 领 域 的 差 距 , 我 们 在DensePose-COCO的训练集上微调了我们的模型,但其中一个关键的变化最终产生了重大影响。给定来自该数据集的图像,我们通过外推可用的地面实况注释以及CSE初始化来实时生成伪地面实况估计,使得它们覆盖人类的整个估计轮廓。通过这种方式,我们可以用更密集的监督来微调我们的真实数据模型,并利用2D和3D空间中的损失。为了进一步增强BodyMap的泛化能力,我们引入了几个增强。首先,我们做特定的作物,以获得上半身样本。其次,我们生成多个合成人的帧,以模拟人群,并缩小合成数据和真实数据之间的差距。第三,我们做一套标准的增强,像旋转,轻微的色调和饱和度的变化。4. 实验数据集。我们提出的方法主要是在合成数据上训练的,除了在DensePose-COCO上报告的实验,我们利用提供的训练集。我们选择了RenderPeople数据集[10],该数据集已在文献[1,5,7,17,18,19]中广泛使用21,30,32,37,41,51]各种人类重建和生成任务。我们使用了1000次扫描,这些扫描都是穿着各种服装的防水网,在某些情况下,方法APAP50AP75ARAR50AR75AMA-net [14]64.191.472.971.694.779.8DensePose [2]66.492.977.971.995.582.6DensePose-DeepLab [2]51.883.756.361.188.966.4SimPose-Rendppl. [50个]57.388.467.366.495.177.8SimPose-SMPL [50]56.287.965.365.295.175.2CSE [27]67.093.878.672.896.483.7[27]第二十七话68.094.180.074.397.185.5BodyMap仅RGB71.094.383.375.294.386.1BodyMap75.295.889.779.897.389.7表1. DensePose-COCO上的平均精确度(AP)和召回率(AR)。AP和AR是在范围从0.5到0.95的多个GPS阈值处计算的我们的方法超越了最先进的方法DensePose [26]和CSE[27]因为我们想评估我们的方法在多大程度上可以处理合成数据和真实数据之间的域差距这些真实的扫描不包括任何物体,但复杂的面部表情会产生更大的噪音,使我们能够对我们的方法是否能够处理如此复杂的输入进行压力测试。基线和指标。我们考虑两种不同的方法来测量对应关系的质量,在2D图像空间中通过比较对应像素的RGB值来评估,在3D空间中通过测量预测顶点和地面真实顶点之间的测地线距离来评估。首先,我们通过计算在指定阈值内正确着色的像素的百分比来计算2D图像空间其次,遵循文献[26,27,50]中广泛使用的DensePose评估方案,我们测量GPS分数的平均精度测地点相似性(GPS)分数是对应匹配分数:2拿着杯子或袋子之类的东西。由于扫描是静态的,我们希望引入额外的姿势变化,GPSj =1|PJ|p∈Pj exp−g(ip,ip),(4)2κ2结果,我们执行非刚性配准,操纵它们用于动画,并使用提供3D人类动画的运动收集,我们从该运动收集收集了一组2,446个3D动画序列,其覆盖了日常活动和运动的广泛动作类别通过大量的扫描和运动,我们随机采样扫描运动对,并使用Blender Cycles从不同的视图中使用均匀照明进行渲染,以获得RGB序列以及相应的UV地面实况。我们根据身份执行90/10的训练/测试分割。这个大规模的数据集代表了一个努力,以涵盖广泛的运动,姿势和身体形状,从多个视图中捕获,人们可以向相机移动,甚至在框架之外,并使我们能够训练我们的BodyMap网络,而无需做出任何明确的假设。在测试时,对来自COCO、时尚图像(DeepFashion[24]、Za-47])的合成数据和真实数据以及使用全身扫描仪捕获的真人3dMD扫描我们只是用它来测试-其中Pj是在人实例上注释的点的集合j,ip是模型在点p处估计的顶点x,ip是地面实况顶点p,并且κ是归一化参数。我们如果所述GPS分数高于阈值,则计算将顶点预测视为正确的平均精度(AP)和平均召回(AR)度量根据先前工作[26,27]建立的评估方案,GPS阈值范围为0.5至0.95。除了2D和3D空间中的度量之外,我们还评估了预测随时间的一致性,以便定量估计闪烁量。我们计算了同一视频中可见顶点的帧间正对应匹配的百分比。使用上述指标,我们将BodyMap与以前的作品进行定量比较:Dense- Pose [26],CSE [27],SimPose [50]以及其他几个基线。然而,计算HumanGPS的AP和AR度量是不可能的,这是由于HumanGPS仅预测每个前景像素的嵌入,其不提供关于UV坐标的信息或对应于13291CSE [27] 44.5267.5175.1358.1060.34 64.14BodyMap仅RGB66.1573.8179.8061.1865.32 68.52全球定位系统[41] 86.42 65.19 36.17BodyMap88.70 74.01 46.11BodyMap71.1279.7396.9265.3468.22 73.88表 2. 2D 空 间 的 精 确 度 。 我 们 显 示 了 在 合 成 数 据 集 和DensePose-COCO上建立的错误窗口内正确匹配我们的方法超越了最先进的方法DensePose和CSE。方法AP AP50AP75APMAPLAR AR50AR75ARMARLDP-DL [2] 55.3 85.660.148.3 58.2六十六点八90.168.250.166.1CSE-DL [27] 72.8 95.784.265.7 73.1七十八点二97.387.567.278.0表4. 时间一致性。我们估计了在18000帧的合成序列上具有不同间隔的合成数据集DensePose-COCO误差窗口(px)5 10 20 5 10 20ResNet45.12 60.82 79.12 30.41 55.67BodyMap仅RGB 75.3 96.189.269.3 75.2八十一点二 97.489.270.3八十二BodyMap79.5 97.890.572.3 79.4 85.3 98.192.573.4八十四点五表3.GPS上的平均精确度(AP)和召回率(AR)BodyMap(我们的)EffNet 51.22 65.77 82.19 40.25 61.17 70.22U-Net 68.42 75.13 94.19 60.82 65.74 70.12ViT71.12 79.73 96.92 65.34 68.22 73.88在3D空间中得分。我们在我们的合成数据集上计算了GPS阈值 范 围 从 0.5 到 0.95 的 AP 和 AR 。 我 们 的 方 法 明 显 优 于DensePose-DeepLab和CSE-DeepLab。对像素SMPL顶点执行。在他们的方法中,变形和外观交换是通过最近邻搜索嵌入来完成的,而不需要进入3D身体模型空间。因此,我们与HumanGPS相比,只有定性和使用时间一致性指标。4.1. 定量结果在表2和表3中,我们提供了BodyMap、DensePose、CSE和HumanGPS在上述合成数据集的测试集上的定量比较。在表1和表2中,我们在DensePose-COCO数据集上做了同样的事情,但也提供了与先前工作的额外比较。与合成数据集相反,对于合成数据集,我们对每个前景像素都有地面实况对应关系,对于DensePose-COCO,我们只依赖于可用的注释点来计算度量。BodyMap在我们的合成数据集和DensePose-COCO数据集的所有指标上都显示出比以前的工作有了实质性的改进这种改进背后的原因来自:i)专门设计的架构,其分离RGB和CSE输入并从中获得最佳效果; ii)在精心设计和渲染的合成数据上进行训练,然后使用第2节中讨论的附加技巧对专门适配的DensePose-COCO进行微调。3.6,这有助于弥合102实域差距; iii)建议的训练方案,包括监督在图像空间与每像素分类损失以及3D空间与测地线损失。时间一致性。在表4中,我们测试了不同方法的密集对应在时间上的一致性。我们之所以进行这个实验,是因为我们知道密集姿势预测在视频上的抖动程度。在度量方面,我们估计当前帧与表5. 不同的网络主干:消融研究在由18,000帧组成的合成序列上,间隔为1,12,120的未来BodyMap的性能大大优于先前的工作,即使2帧之间的时间间隔很大,也能建立准确的对应关系。作为补充,我们提供了演示视频,展示了我们的结果随时间的一致性。4.2. 消融研究不同的建筑。我们从一个简单的UNet与跳跃连接,然后进展到更复杂的基于变压器的解决方案,不同的骨干实验。在表5中,我们提供了所有架构中2D空间精度的比较。一个有趣的发现是,一个简单的UNet架构可以得到令人满意的结果时,训练与所有建议的监督描 述 在 节 。 3.3 和 3.4 。 然 而 , 我 们 提 出 的 VisionTransformer(ViT)能够在颈部、腋窝、手指和头发等具有挑战性的区域中学习更准确的对应关系,使预测的轮廓清晰明快。这些差异在硬的DensePose-COCO示例(多人和遮挡)中最明显,而在简单的合成数据案例中,UNet的表现几乎与ViT一样好。我们进一步实验的网络设计,饲料,ING只有RGB输入到网络和省略的核心响应Transformer。虽然仅RGB方法表现相对较差,但其仍优于现有方法,例如,DensePose、CSE或HumanGPS(表1、2)。不同的损失。我们还调查了表6中拟议损失的影响。虽然最好的分数是实现了整个建议的损失,每像素的交叉熵分类损失的颜色通道贡献最大。轮廓损失使最终预测的边缘更准确,手部和头部区域的额外监督改善了这些区域的对应性合成数据集DensepPose-COCO帧间隔112120错误窗口(px)5 10 205 10 20[26]第二十六话77.7940.8616.32DensePose [2]25.93 46.10 69.9149.2355.75 59.71CSE [27]85.5555.8518.9313292合成数据集DensePose-COCO 5 1020 5 10 20Lcls65.16 71.52 85.12 49.37Lcls+L sil69.18 75.32 92.31 54.12Lcls+L sil+L geo70.23 78.71 95.80 61.83 64.32Lcls+L sil+L geo+L con71.12 79.73 96.92 65.34 68.22 73.88表6. 2D空间中不同损失对准确度影响的消融研究(在确定的误差窗口内正确着色的像素百分比)等。测地线损失仅在DensePose-COCO上给出了切实的改进,这表明仅使用图像空间监督就可以充分处理简单的合成每帧一个人的情况。因此,即使在前两个损失的情况下,模型也可以学习细粒度的身体模型细节(两者都在2D图像空间中监督)。然而,更复杂的情况下,包括几个人在一个框架和重大闭塞需要额外的监督在3D空间,以获得满意的结果。不同的微调方案:我们对真实数据进行了两种微调方式的实验:(1)仅使用可用的稀疏注释(稀疏微调);(2)使用在第12节中描述的生成的密集伪地面实况估计3.6(密集微调)。我们观察到,在飞行中密集地面实况导致优越的性能,无论是没有微调或仅依赖于稀疏注释。更多结果见补充资料。模型复杂性:我们模型的推理需要100。1秒-在单个Tesla V100-SXM 2上运行1024×1024m-年龄 该模型具有600M的可训练参数。4.3. 定性结果在图1和图3中,我们显示了从Zalando [47]获得的时尚数据中的一些图像的对应关系,这些图像是高分辨率 的 , DeepFashion [24] 具 有 较 低 质 量 的 输 入 ,RenderPeople,DensePose-COCO和来自3dMD系统捕获的真人扫描的最终图像。输入的轮廓被我们的估计很好地覆盖,手和手指被准确地捕捉到,面部也被很好地对齐。宽松的衣服,即使是复杂的情况下,如长袍在很好的处理。在图3中,我们展示了BodyMap和竞争对手之间的定 性 比 较 : HumanGPS , DensePose 和 CSE , 来 自DensePose-COCO,Render- People和我们的合成数据集的几个例子虽然DensePose和CSE预测是平滑和一致的,但它们并不覆盖整个轮廓,完全忽略了头发和宽松的衣服。HumanGPS更好地处理轮廓,但在具有遮挡的挑战性场景中仍然难以准确对应,或者在后视图中产生模糊的补丁(图3中的第4行)。我们还在《圣经》中展示人类GPS预测并不总是暂时的,左右手臂一致的混乱的对应图3.与竞争对手在DensePose上的定性比较- COCO,我们的合成数据集和RenderPeople。和腿,而人是旋转。4.4. 应用讨论神经重建一个可能的应用是从另一个视点和/或以另一个姿势重新渲染来自源帧的人。我们介绍了一个模型的神经重新渲染,其目的是学习一个函数,给定完整的纹理映射和估计的BodyMap correspondences生成一个真实感渲染的图像空间。在神经重新渲染之前,需要获得一个完整的纹理图,我们以下面的方式完成。给 定 人 的 源 视 图 和 目 标 视 图 , 我 们 利 用 预 测 的BodyMap估计并定义了在目标视点处输出高质量神经重新渲染的扭曲函数W 我们用一个神经网络来表示W,i)将输入源RGB图像扭曲到UV空间以获得部分纹理,ii)学习完成它以获得完整的给定一个源图像和一个目标图像,我们的神经渲染器生成的细节比之前的工作要高,如图所示4(左),也在脸上误差窗口损失13293图4. 应用.神经重新渲染(左)和预测穿着衣服的人(右)的分层对应。和手部区域,并且不遭受颜色出血。在补充材料中,我们详细描述了这一应用以及建筑图,并提出了一个应用到布料交换和运动重定位。分层密集对应。在所有先前的工作中,仅对身体表面估计密集的人类对应这是因为身体模板(例如,SMPL[25])和COCO的稀疏注释可完成此任务。然而,当处理穿着衣服的人(特别是穿着宽松的衣服)时,像DensePose或我们提出的BodyMap那样在单层中估计身体对应关系可能是一项具有挑战性的任务。然而,细粒度的衣服细节,如皱纹和纺织品褶皱,可以更好地表示与解耦身体和衣服的对应,以单独的表示。 在第一次尝试这样做,我们提出了一个应用程序与轻微的BodyMap的变化预测三个单独的表示为裸体,上每衣服 和 下 衣 服 。 我 们 将 这 种 变 化 命 名 为 Layered-BodyMap。除了三个输出头而不是一个输出头之外,架构保持不变。为gener-吃地面实况数据这样一个任务,我们运行布模拟的两个服装给予各种行走,手部运动动作导致12个序列的人穿着我们的3D衣服。与BodyMap相反,我们使用RGB和CSE初始化-作为输入,这里我们没有对衣服对应进行任何初始化,并且因此我们仅用RGB输入来馈送该网络,但是以语义分割掩码为条件进行估计。预测的分层对应是准确的,并且覆盖了整个轮廓(图4(右)),这是一个有希望的结果,我们相信随着更多的3D服装库变得可用,未来的工作将得到改进[3,38,42,49]。局限性。我们的方法依赖于前景人类分割,这使得它容易受到该步骤的性能影响。我们测试了不同的分割和抠图方法,[9,19,20,40],并选择了MM分割图5. 故障案例。大多数故障情况发生在具有遮挡和/或不良闪电的低分辨率图像中。因为它能够保留手指和发型等细节。BodyMap是在高分辨率的全身图像上训练的这部分是通过施加大量的增强来解决的,但来自物体的遮挡仍然是一个挑战。此外,由于任务的性质,大多数训练数据是合成的,这使得对真实数据的推断具有挑战性。我们的地址与微调计划中描述的。四点二。我们在图5中显示了一些故障情况,这些故障大多是由于恶劣的闪电或严重的遮挡而发生的,并在补充资料中提供了其他示例。5. 结论我们提出了一个新的框架,用于建立准确的密集的图像和表面之间的对应关系的3D穿着的人。我们的主要贡献是BodyMap ,它是一个基 于transformer的架构,当使用2D和3D监督进行训练时,它的性能显着优于以前的工作。BodyMap解决了当前方法的关键局限性,例如无法处理宽松的衣服,身体和服装被表示为单个表面,不同身体部位的对应关系不连续我们在合成数据集和DensePose-COCO数据集上的表现远远超过了先前的工作,最后,我们提供了应用程序的例子,如重新渲染在不同的姿态和扩展BodyMap的衣服与多层几何的人与有前途的结果。致谢。我们感谢Tuur Stuyck和Vasil Khalidov分别为运行布料模拟器和CSE代码提供的宝贵帮助。13294引用[1] ThiemoAlldieck , GerardPons-Moll , ChristianTheobalt,and Marcus Magnor. Tex2shape:从单个图像中获得详细的完整人体几何形状。在ICCV,2019年。一、五[2] RızaAlpGuüler、Nat a liaN ev er ov a和IasonasKokkinos。密度:野外密集的人体姿势估计。在CVPR,2018年。二、五、六[3] 雨果·贝尔蒂奇,Meysam Madadi, 和塞尔吉奥·埃斯卡雷拉Cloth3d:穿着衣服的3d人类。在ECCV。Springer,2020年。8[4] Bharat Lal Bhatnagar,Cristian Sminchisescu,ChristianTheobalt,and Gerard Pons-Moll. Loopreg:用于3D人体网格配准的隐式表面对应、姿势和在NeurIPS,2020年。2[5] BharatLalBhatnagar , GarvitaTiwari , ChristianTheobalt,and Gerard Pons-Moll.Multi-garment net:学习从图像中为3D人物穿衣。在ICCV,2019年。5[6] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。Keep itsmpl:从单个图像自动估计3D人体姿势和形状。在ECCV,2016年。1[7] Bindita Chaudhuri、Nikolaos Sarafianos、Linda Shapiro和Tony Tung。3d人体高分辨率可编辑纹理的半监督合成在CVPR,2021年。5[8] Vasileios Choutas,Georgios Pavlakos,Timo Bolkart,Dimitrios Tzionas,and Michael J. Black.通过身体驱动注意力的单眼表达性身体回归。在ECCV,2020年。1[9] MMSegmentation贡献者。MMDegmentation:开放的-mmlab语义分割工具箱和基准。8[10] RenderPeople数据集。http://renderpeople.com/网站。 5[11] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Syl- vain Gelly,et al. An image is worth16x16 words : Trans- formers for image recognition atscale. arXiv预印本arXiv:2010.11929,2020。二、三[12] Alaaeldin El-Nouby,Natalia Neverova ,Ivan Laptev和Herv e'J e' gou。 训练视觉变换器进行图像检索。arXiv预印本arXiv:2102.05644,2021。3[13] Yao Feng,Vasileios Choutas,Timo Bolkart,DimitriosTzionas,and Michael J Black.使用适度的表达体的协作回归。在3DV,2021。1[14] Yuyu Guo,Lianli Gao,Jingkuan Song,Peng Wang,Wuyuan Xie,and Heng Tao Shen.自适应多路径聚合用于野外人体密度估计。在第27届ACM国际多媒体会议论文集,第356-364页,2019年。5[15] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集,2017。3[16] Sen He ,Wentong Liao ,Hamed R Tavakoli, MichaelYang,Bodo Rosenhahn,and Nicolas Pugeault.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功