没有合适的资源?快使用搜索试试~ 我知道了~
BodyNet:三维人体形状Gu¨lVarol1,*DuyguCeylan2BryanRussell2JimeiYang2Ersin Yumer2,‡IvanLaptev1,*Cordelia Schmid1,†1 2Inria,法国Adobe Research,美国抽象。 人体形状估计是视频编辑、动画制作和服装行业的一项重要任务。然而,由于人体、服装和视点的变化等因素,从自然图像预测3D人体形状是非常具有挑战性的解决该问题的现有方法通常尝试用姿势和形状的某些先验来拟合参数化身体模型。在这项工作中,我们认为一种替代的表示,并提出BodyNet,一个神经网络的体积体型从一个单一的图像直接推理BodyNet是端到端可训练网络,其受益于(i)体积3D损失,(ii)多视图重新投影损失,以及(iii)2D姿态、2D身体部位分割和3D姿态的中间监督。我们的实验证明,它们中的每一个都导致了性能的提高为了评估该方法,我们将SMPL模型拟合到我们的网络输出,并在SURREAL和Unite the People数据集上显示了最先进的结果,优于最近的方法。除了实现最先进的性能,我们的方法还可以实现体积的身体部位分割。1介绍解析视觉数据中的人是许多应用的核心,包括混合现实界面、动画、视频编辑和人类动作识别。为了实现这一目标,人类2D姿态估计已经通过最近的努力得到了显著的进步[1这样的方法旨在恢复身体关节的2D位置并且提供人体的简化几何表示。在3D人体姿态估计方面也取得了重大进展[5然而,许多应用,如虚拟衣服试穿,视频编辑和重演需要准确估计的三维人体姿势和形状。3D人体形状估计主要在使用特定传感器的受控设置中进行研究,所述特定传感器包括多视图捕获[9]、运动捕获标记器[10]、惯性传感器[11]和3D扫描仪[12]。然而,在不受控制的挑战包括缺乏大规模训练数据、输出空间的高维性以及选择合适的3D表示*E´colenormalesup´erieure,inria,CNRS,P SLResearchU niver ity,Paris,Fran ce†大学Grenoble Alpes,Inria,CNRS,INPG,LJK,Grenoble,法国‡目前在Argo AI,美国。这项工作是安永在Adobe工作期间完成的2瓦罗尔,锡兰,拉塞尔,杨,尤默,拉普捷夫,施密德图1:我们的BodyNet从单个图像预测体积3D人体形状和3D身体部位。我们示出了输入图像,预测的人体体素,和预测的部分体素。人形Bogo等人[13]提出了第一个自动方法,以适应可变形的身体模型的图像,但依赖于准确的2D姿态估计,并引入手工设计的约束,强制肘部和膝盖自然弯曲。其他最近的方法[14在这项工作中,我们比较这样的方法,并显示优势。神经网络的3D表示的最佳选择仍然是一个开放的问题。 最近的工作探索了体素[20-23]、八叉树[ 24-27]、点云[ 28-30]和曲面[ 31]表示,用于建模通用3D对象。在人体的情况下,常见的方法是回归预定义的人体形状模型的参数[14然而,3D形状和可变形体模型的参数之间的映射是高度非线性的,并且目前难以学习。此外,回归到单个参数集不能代表多个假设,并且在模糊的情况下可能是有问题的。值得注意的是,用于2D人体姿态估计的骨架回归方法,例如,[32],最近已经被基于热图的方法[1,2]所取代,使得能够表示多个假设。在这项工作中,我们提出并调查了一个体积表示的体型估计,如图所示1.一、 我们的网络,称为BodyNet,生成一个人的3D占用网格的可能性。为了有效地训练我们的网络,我们建议正则化BodyNet与一组辅助损失。除了主要的体积3D损失外,BodyNet还包括多视图重投影损失和多任务损失。在体素空间上有效地近似的多视图重投影损失(参见第2节)。3.第三章。2),增加了边界体素的重要性。多任务损失基于在2D姿态、2D身体部位分割和3D姿态方面的附加中间网络监督。BodyNet的整体架构如图所示。二 、为了评估我们的方法,我们将SMPL模型[13]拟合到BodyNet输出,并在 重 新 评 估 中 测 量 单 视 图 3D 人 体 形 状 估 计 性 能 。[ 33][34][35][36][37][38][39][3所提出的BodyNet方法展示了最先进的性能,并提高了最近方法的准确性。我们展示了显着的改进提供的端到端的培训和辅助损失BodyNet。此外,我们的方法能够实现体积的身体部位分割。BodyNet是完全可微的,可以是BodyNet:三维人体形状3end-to-endLs+L2D+L3D+L v+LF V+LSVJ Jp p优化图2:BodyNet:用于3D人体形状估计的端到端可训练网络。输入RGB图像首先通过子网络以进行2D姿态估计和2D身体部位分割。这些预测与RGB特征相结合,被馈送到预测3D姿态的另一网络。所有的子网工程结合到一个最终的网络,以推断体积形状。首先对2D姿态、2D分割和3D姿态网络进行预训练,然后对使用多视图重投影损失的体积形状估计的任务进行联合微调为了评估的目的,我们将SMPL模型拟合到体积预测用作未来面向应用的方法中的子网络,虚拟的布料变化或重演。总之,这项工作作出了几个贡献。首先,我们解决单视图三维人体形状估计,并提出了一个体积表示这项任务。其次,我们研究了几种网络架构,并提出了一个端到端可训练网络BodyNet结合了多视图重投影损失与中间网络监督方面的2D姿态,2D身体部位分割和3D姿态。第三,我们优于以前的基于回归的方法,并证明了两个数据集的最先进的性能,人类形状估计。此外,我们的网络是完全可区分的,可以提供体积的身体部位分割。2相关工作3D人体形状虽然在过去[5-8,35-38]中已经很好地探索了早期的工作[39,40]提出优化3D可变形体模型SCAPE [41]的姿势和形状参数。最近的方法使用SMPL [17]身体模型,该模型再次将3D形状表示为姿势和形状参数的函数。给定这样的模型和输入图像,Bogoet al. [13]提出了优化方法SMPLify,根据对2D关节位置的拟合来估计模型参数。Lassner等人[34]通过将sil-houette信息作为额外的指导来扩展该方法,并改进每个二维姿态损失J3D3D姿态损失Lj体积损失LvzX体积形状SMPL配合重投影损失2D分割损失LsLF Vp左SVpy4瓦罗尔,锡兰,拉塞尔,杨,尤默,拉普捷夫,施密德通过密集采样的2D点的性能。Huang等人. [42]扩展SMPLify用于具有时间先验的多视图视频序列。[43]中使用了类似的时间约束。Rhodin等人[44]使用高斯和体积表示以及基于轮廓的细化,并利用优化技术成功地演示了从多视图视频中恢复人体形状。即使这样的方法显示出令人信服的结果,但是它们固有地受到它们使用的2D检测的质量的限制,并且依赖于先验两者。对姿态和形状参数进行调整,以使高度复杂和昂贵的优化过程规则化。深度神经网络提供了一种可以期待的替代方法从数据中自动学习适当的先验知识。Dibra等人[45]提出了这个方向的第一种方法之一,并训练CNN从轮廓估计3D形状参数,但假设正面输入视图。最近的方法[14Tan等人[14]设计编码器-解码器架构,该架构在轮廓预测上进行训练,并间接回归模型参数瓶颈层。Tung等人[15]对两个连续的视频帧进行操作,并通过对光流、细孔和2D接头上的重投影损失进行积分来学习参数。类似地,Kanazawaet al. [16]预测2D关节上具有重投影损失的参数,并引入目标是区分不现实的人体形状的对手。即使可变形体模型的参数提供了3D形状的低维嵌入,但是用网络预测这样的参数需要学习高度非线性映射。在我们的工作中,我们选择了一种替代的体积表示,该表示已被证明对通用3D对象[21]和面部[46]有效。[21]的方法对一些刚性对象类别(如椅子和桌子)的低分辨率灰度图像进行操作。我们认为,人体更具有挑战性,由于显着的非刚性变形。为了适应这种变形,除了2D姿态之外,我们还使用分割和3D姿态作为3D形状的代理[46]。在给定的3D姿态上调节我们的3D形状估计,网络专注于形状变形的更复杂的问题。此外,我们用额外的重投影损失来正则化我们的体素预测,用中间超视执行端到端的多任务训练,并获得体积身体部位分割。其他人已经研究了预测人体的2.5D投影。DenseReg [47]和DensePose [48]估计图像到表面的对应关系,而[33]输出SMPL主体的量化深度图。 与这些方法不同,我们的方法生成一个完整的3D身体重建。多任务神经网络多任务网络已经得到了很好的研究。一种常见的方法是在神经网络架构的最末端输出多个相关任务另一种最近探索的替代方案是堆叠多个子网络并提供具有中间监督的指导。在这里,我们只涵盖采用后一种方法的相关作品。用相关线索指导CNN已经显示出许多任务的改进例如,2D面部标志已经显示出对3D面部重建的有用指导[46]以及类似的动作识别光流[49]。然而,这些方法不执行联合训练。[50]的最新工作联合学习2D/3D姿态BodyNet:三维人体形状5以及动作识别。类似地,[51]训练3D姿态,中间任务是2D姿态和分割。有了这个动机,我们利用2D姿态,2D人体部分分割,和3D姿态,提供线索的3D人体形状估计。与[51]不同,3D姿势成为我们最终3D形状任务的辅助在我们的实验中,我们证明了在所有这些任务上进行联 合损失的训 练可以提高 我们所有子网 络的性能( 见附录C.1)。3BodyNetBodyNet从单个图像预测3D人体形状,由四个子网络组成,首先独立训练,然后联合预测2D姿势,2D身体部位分割,3D姿势和3D形状(见图1)。2)的情况。在这里,我们首先讨论身体形状的体积表示的细节(第二节)。3. ①的人。然后,我们描述了多视图重投影损失(Sec.3.第三章。2)和具有中间表示的多任务训练(Sec. 3. (3)第三章。最后,我们制定我们的模型拟合程序(第二节)。3.第三章。4).3.1三维人体形状对于三维人体形状,我们建议使用基于体素的表示。我们的形状估计子网络输出表示为在固定分辨率体素网格上定义的占用图的3D形状具体地,给定3D身体,我们定义大致以根关节为中心的3D体素网格(即,髋关节),其中身体内的每个体素被标记为被占用。我们对地面实况网格进行体素化(即,SMPL)使用binvox [52,53]转换成固定分辨率网格。我们假设正交投影并重新缩放体积,使得xy平面与2D分割掩模对齐,以确保与输入图像的空间对应性。缩放后,主体以z轴为中心,其余区域用零填充。我们的网络在网络输出上应用sig-moid函数后,最大限度地减少了二进制交叉熵损失,类似于[46]:ΣW ΣHLv=ΣDVxyzlogVxyz+(1−Vxyz) log(1−Vxyz),(1)x=1 y=1 z=1其中Vxyz和Vxyzd e分别不具有针对体素的几何图形值和预处理的镜像输出。在我们的实验中,宽度(W)、高度(H)和深度(D)为128。我们注意到,该决议包含了足够的细节。损失Lv用于执行体素网格的前景-背景分割。我们进一步扩展该公式以执行3D身体部位分割。具有多类交叉熵损失的分段。我们定义了6个部分(头部,躯干,左/右腿,左/右臂),并学习包括背景在内的7类分类。该网络的权重由形状网络通过复制每个类的输出层权重这种简单的扩展允许网络直接推断3D身体部位,而无需通过昂贵的SMPL模型拟合。6瓦罗尔,锡兰,拉塞尔,杨,尤默,拉普捷夫,施密德pp3.2轮廓上的多视图重投影损失由于人体的复杂关节,推断体积体型的一个主要挑战是确保整个身体上的高置信度预测。 我们经常观察到,远离身体中心的肢体的自信度往往较低(见图1)。(五)。为了解决这个问题,我们采用额外的2D重投影损失,增加边界体素的重要性。在没有3D标签的情况下[54,55]和[21]作为额外的正则化对刚性对象采用了类似的损失在我们的情况下,我们表明,多视图重投影项是至关重要的,特别是要获得肢体重建质量好。假设正投影,则通过将垂直坐标系投影到具有最大操作或沿z轴的图像上来获得前视视图投影,S FV[54]。类似地,我们将S=SV定义为沿X轴的最大值SFV(x,y)=maxVxyzanddzSSV(y,z)=maxVxyz。(二)X真实轮廓SFV由数据集提供的地面真实2D身体部位分割来定义我们从我们从地面实况3D网格计算的体素表示获得地面实况侧视图轮廓:SSV(y,z)= maxxVxyz。 我们注意到,由于体素化步骤将与面相交的每个体素标记为被占用,因此我们的体素保持略大于原始网格。我们将每个视图的二进制交叉熵损失定义如下:ΣWΣHLFV=S(x,y)logSFV(x,y)+(1−S(x,y))log(1−SFV(x,y)),(3)x=1y =1ΣHLSV=ΣDS(y,z)logSSV(y,z)+(1−S(y,z))log(1−SSV(y,z)).(四)y=1z =1我们最初用Lv训练形状估计网络。然后我们继续综合损失的训练:λvLv+ λFVLFV+ λSVLSV,Sec. 3.3给出de-啪啪啪啪如何设定损失的相对权重秒4.3演示在实验上,多视图重投影损失的益处。3.3中间监督下的多任务学习3D形状估计子网络的输入由RGB、2D姿态、分割和3D姿态预测组合而成。在这里,我们提出了用于预测这些中间表示和详细我们的多任务学习过程的子网络。每个子网络的架构都基于堆叠的沙漏网络[1],其中输出是在空间网格上的,因此,对于像素级和体素级任务来说很方便,就像我们的例子一样。2D姿势。根据Newellet al.[1]中,我们使用2D姿态的热图我们为每个身体关节预测一个热图,其中具有固定方差的高斯以关节的相应图像位置为中心。最终关节位置被识别为在每个输出通道上具有最大值的像素索引。我们使用沙漏网络的前两个堆栈将RGB特征3× 256× 256映射到2D联合热图16× 64× 64,如BodyNet:三维人体形状7JJ在[1]中预测了16个人体关节。地面实况和预测的2D热图之间的均方误差是L2D。2D零件分割。我们的身体部位分割网络采用[33],并在[33]定义的SMPL [17]解剖部位上进行训练。该架构类似于2D姿态网络,并且再次使用前两个堆栈给定输入RGB图像,网络预测每个身体部位一个热图,这导致15个身体部位的输出分辨率为15× 64× 64空间交叉熵损失用Ls表示。3D姿势。从单个图像估计3D关节位置是一个固有的模糊问题。为了减轻一些不确定性,我们假设相机的内在函数是已知的,并预测相机坐标系中的3D姿态。将2D热图的概念扩展到3D,我们用在体素网格上定义的3D高斯来表示3D关节位置,如[6]中所示。对于每个关节,网络预测具有以关节位置为中心的单个3D高斯的固定分辨率体积该网格的xy-维度与图像坐标对齐,因此与2D关节位置对齐,而z维度表示深度。我们假设该体素网格与3D身体对齐,使得根关节对应于3D体积的中心。我们确定了一个合理的深度范围,其中人体可以适应(在我们的实验中大约85厘米),并将此范围量化为19箱。我们将3D网格的总分辨率定义为64× 64× 19,即:与2D姿态和分割网络的情况相比,空间分辨率小四倍我们定义一个这样的网格每个身体关节和回归均方误差L3D。3D姿态估计网络由另外两个堆栈组成与2D在3D姿态和分割的基础上,3D姿态网络将多个模态作为输入,所有模态在空间上与网络的输出对齐具体来说,我们将RGB通道与对应于2D关节和身体部位的热图我们对热图进行上采样以匹配RGB分辨率,因此输入分辨率变为(3 + 16 + 15)×256× 256。虽然2D姿态提供了x、y关节位置的重要线索,但一些深度信息隐含地包含在身体部位分割中,因为与剪影不同,各个身体部位之间的遮挡关系提供了强3D线索。例如,由遮挡手臂段引起的躯干段上的不连续性意味着手臂在躯干的前面在附录C.4中,我们提供了使用和不使用此附加信息的3D姿态预测的比较综合损失和训练细节。子网络最初使用单独的损失进行独立训练,然后使用组合损失进行联合微调L= λ2DL2D+ λsLs+ λ3DL3D+ λvLv+ λFVLFV+ λSVLSV.(五)j j j j pp p p加权系数被设置为使得跨参数的每个损失的平均梯度在微调开始时处于相同的尺度。与此规则,我们设置(λ2D,λs,λ3D,λv,λFV,λSV)∝(107, 103, 106, 101,1, 1),并使j jp p权重之和等于1。我们在SURREAL数据集上设置这些权重并在所有实验中使用相同的值。我们发现应用这种平衡很重要,这样网络就不会忘记中间任务,而是同时提高所有任务的性能。8瓦罗尔,锡兰,拉塞尔,杨,尤默,拉普捷夫,施密德2当训练我们的整个网络时,请参见图。2、我们进行如下:(i)我们训练2D姿态和分割;(ii)我们用固定的2D姿态和分割网络权重训练3D姿态;(iii)我们训练3D形状网络,其中所有前面的网络权重固定;(iv)然后,我们继续训练具有额外重投影损失的形状网络;(v)最后,我们对具有组合损失的所有网络权重执行端到端微调。实作详细数据。我们的每个子网络由两个堆栈组成,以保持合理的计算成本。我们采用在MPII数据集[56]上训练的2D姿态网络的前两个堆栈 , 其 中 有 8 个 堆 栈 [1] 。 类 似 地 , 分 割 网 络 在 具 有 8 个 堆 栈 的SURREAL数据集上进行训练[33],并且使用前两个堆栈由于堆叠的沙漏网络涉及中间监督[1],我们可以通过牺牲轻微的性能来只使用网络的一部分3D姿态和3D形状网络的权重随机初始化并在具有两个堆栈的SURREAL上训练。结构详情见附录B。SURREAL [33]是一个大规模数据集,为UP数据集[34]提供预训练,其中网络收敛相对更快。因此,我们从SURREAL上预先训练的那些网络我们使用RMSprop [57]算法,小批量大小为6,固定学习率为10- 3。颜色抖动增强应用于RGB数据。对于所有的网络,我们假设人的边界框是给定的,因此我们裁剪图像以使人居中。代码在项目页面上公开[58]。3.4拟合参数化人体模型虽然BodyNet的体积输出可以产生高质量的结果,但对于某些应用程序,重要的是要产生3D表面网格,甚至是可以操纵的参数化模型。此外,我们使用SMPL模型进行评估。为此,我们分两步处理网络输出:(i)我们首先从预测的占用图中提取等值面。(ii)接下来,我们优化可变形体模型(在我们的实验中为SMPL模型)的参数,其拟合等值面以及预测的3D关节位置。形式上,我们定义从网络输出中提取的等值面网格中的3D顶点集[59]为Vn。SMPL [17]是一种统计模型,其中每个顶点的位置由一个集合Vs(θ,β)给出,该集合被公式化为姿态(θ)和形状(β)参数的函数[17]。给定Vn,我们的目标是找到{θ,β},使得加权倒角距离,即,最小化Vn和Vs(θ,β)之间的最近点对应之间的距离Σ{θ,β}= argmin{θ,β}pn∈VnΣminps∈Vs(θ,β)minwnpn−ps2 +Jwnpn−ps2 +λjn− j s(θ,β)(六)ps∈Vs(θ,β)pn∈Vn2ii2i=1我们发现通过等值面中对应点的置信度来加权最近点距离是有效的,该置信度取决于BodyNet:三维人体形状9我们的网络我们将与点pn相关联的权重表示为wn。我们定义了一个额外的术语来测量预测的3D关节之间的距离位置,{jn}J,其中J表示接头的数量,并且对应的i i=1在SMPL模型中的关节中,由{js(θ,β)}确定.我们称i i=1由于J非常小(例如,16)与顶点的数量相比(例如,6890)。节中4,我们显示了拟合体素预测的好处,与我们拟合2D和3D关节以及2D分割的基线相比,即,到形状网络的输入。我们优化Eq。(6)以迭代的方式,其中我们更新相应的数据。我们使用与[ 13]类似的Powell的 当重建等值面时,我们首先应用阈值(0。5)的体素预测,并应用行军立方体算法[59]。我们将SMPL姿态参数初始化为与我们的3D姿态预测对齐,并设置β= 0(其中0表示零向量)。4实验本节介绍BodyNet的评估。我们首先描述评估数据集(Sec.4.第一章1)和其他方法用于比较本文(第二节)。4.第一章2)的情况。然后,我们评估额外输入的贡献(第二节)。4.第一章3)和损失(Sec. 4.第一章4).接下来,我们报告UP数据集上的性能(Sec. 4. (五)。最后,我们演示了3D身体部位分割的结果(第2节)。4 .第一章(六)。4.1数据集和评价措施SURREAL数据集[33]是用于3D人体形状的大规模合成数据集,具有用于分割、2D/3D姿势和SMPL身体参数的地面真实标签鉴于其规模和丰富的地面事实,我们在这项工作中使用SURREAL进行训练和测试。先前展示成功使用人的合成图像来训练视觉模型的工作包括[62-64]。 给定SMPL形状和姿态参数,我们计算地面真实3D网格。我们使用标准的列车分裂[33]。为了进行测试,我们使用每个测试序列的中间剪辑的中间帧,总共有507张图像。我们观察到,在12528张图像的完整测试集上进行的测试产生了类似的结果。为了评估我们对困难情况的形状预测的质量,我们定义了两个具有极端身体形状的子集,类似于光流[65]中所做的。我们计算给定地面真实姿态的平均形状(β= 0)与真实形状之间的表面距离我们取该距离分布的第10(s10)和第20(s20)百分位数,它们表示具有极端体型的网格Unite the People数据集(UP)[34]是多个数据集的最近集合(例如,MPII [56],LSP [66]),为每个图像提供附加注释注释包括具有91个关键点的2D姿势、31个身体部位段和3D SMPL模型。地面实况以半自动的方式获取,因此是不精确的。我们在这个数据集上评估我们的3D体型估计我们报告错误的两个不同的子集的测试集,其中2D分割10瓦罗尔,锡兰,拉塞尔,杨,尤默,拉普捷夫,施密德以及伪3D地面实况是可用的。我们对来自LSP子集[34]的图像使用标记T1,对[14]使用的图像使用标记T2。3D形状评估。我们用不同的测量方法来评估体型估计。给定地面实况和我们预测的体积表示,我们直接在体素网格上测量并集上的交集,即,体素IOU。我们进一步评估投影轮廓的质量,以便与[14,16,34]进行比较。我们报告了交集(轮廓IOU),为前景像素计算的F1分数,以及全局精度(正确预测的前景和背景像素的我们通过测量拟合和地面实况网格中的对应顶点之间的平均误差(以毫米为单位)来评估拟合SMPL模型的质量(表面误差)。我们还报告了为UP数据集定义的相应91个标志之间的平均误差[34]。我们假设根关节的深度和焦距是已知的,以将体积表示变换成度量空间。4.2替代方法我们展示了BodyNet的优势,通过比较它的替代方法。BodyNet使用2D/3D姿态估计和2D分割。我们根据不同组合的相同组件来定义替代方法。SMPLify++。Lassner等人[34]扩展了SMPLify [13],增加了2D轮廓的附加项。在这里,我们进一步扩展它,以便与BodyNet进行公平的比较。我们使用[13]中的代码,并实现了一个拟合目标,其中除了2D姿态之外,还包括2D轮廓和3D姿态的附加项(参见附录D)。如Tab.所示。2,SMPLify++的结果仍然不如BodyNet,尽管它们都使用2D/3D姿势和分割输入(见图2)。(3)第三章。形状参数回归为了验证我们的体积表示,我们还通过替换图1中的3D形状估计网络来实现回归方法。2由另一个子网直接回归10维。使用L2损失的形状参数向量β。网络架构对应于沙漏的编码器部分,后面是3个额外的全连接层(请参见形状输入参数回归SMPLify++BodyNet接地真相输入形状参数回归SMPLify++BodyNet地面实况图3:与其他方法相比,BodyNet预测的SMPL拟合。虽然形状参数回归和仅拟合BodyNet输入(SM-PLify ++)产生接近平均值的形状,但BodyNet学习图像中观察到的真实形状如何偏离平均可变形形状模型。从具有极端形状的SURREAL数据集的测试子集SlOBodyNet:三维人体形状11表1:在输入处使用中间表示的替代组合的SURREAL数据集上的性能。体素IOU(%)SMPL表面误差(mm)2D姿态47.780.9RGB51.879.1Segm54.679.13D姿态56.374.5分段+3D姿势56.474.0RGB +2D姿势+分段+3D姿势58.173.6输入2D 3D姿态3D体素SMPL接地图像预测 预测预报符合事实输入2D 3D姿态3D体素SMPL接地图像预测预测 预测符合事实图4:我们预测的2D姿态、分割、3D姿态、3D体积形状和SMPL模型对齐。我们的3D形状预测与姿势和分割一致,表明形状网络依赖于中间表示。当其中一个辅助任务失败时(右侧的2D姿势),仍然可以在其他提示的帮助下恢复3D形状。详情见附录B)。我们从我们的3D姿态预测中恢复姿态参数θ(初始尝试将θ与β一起回归得到更差的结果)。选项卡. 图2显示了β回归网络的较差性能,其通常产生平均体型(参见图2)。(3)第三章。相比之下,BodyNet由于准确的体积表示而导致4.3额外投入我们首先通过使用替代输入评估SURREAL数据集中的3D形状估计的性能来激励我们提出的架构(参见表1)。①的人。当仅使用一个输入时,已经用附加的2D姿势和分割输入训练的3D姿势网络表现最佳。我们观察到更多的线索,特别是3D线索的改进。我们还注意到,在3D姿态和2D分割方面的中间表示优于形式RGB。将RGB添加到中间表示进一步改进了SURREAL上的形状结果。图4示出了中间预测以及最终3D形状输出。基于Tab中的结果。1,我们选择使用所有中间表示作为我们称为BodyNet的完整网络的一部分。4.4重投射误差和端到端多任务训练的影响我们评估SEC的额外监督所提供的贡献3.第三章。2- 3.3 重新预测损失的影响。选项卡. 图2(第4-10行)提供了当在具有和不具有重新投影损失的情况下训练形状网络时的结果(也参见图2)。(五)。12瓦罗尔,锡兰,拉塞尔,杨,尤默,拉普捷夫,施密德表2:与替代方法相比,使用我们的模型的不同版本对SURREAL的体积预测注意,第2-10行使用相同的模态(即,2D/3D姿态、2D分割)。的SMPL模型拟合到我们的体素输出的评价。SMPL表面误差的平均值随着所提出的组件的增加而减小。充分S20S101.Tung等人[15](使用GT 2D姿势和分割)74.5--替代方法:2.SMPLify++(θ、β优化)75.379.786.13.形状参数回归(β回归,θ固定)74.382.188.7BodyNet:4.体素网络73.681.186.35.具有[FV]轮廓重投影的69.976.381.36.具有[FV+SV]轮廓重投影的68.274.479.37.没有中间任务的端到端[FV]72.778.983.28.端到端,无中间任务[FV+SV]70.576.981.39.具有中间任务的端到端[FV]67.774.781.010.具有中间任务的端到端[FV+SV]65.872.276.6没有任何额外损失的体素网络已经优于第2节中描述的基线。4.2. 当用重投影损失训练时,我们观察到在单视图约束下性能都在提高,即,前视图(FV)和多视图,即,前视图和侧视图(FV+SV)。多视图重投影损失将更重要性放在身体表面上,导致更好的SMPL拟合。中间损失的影响选项卡. 2(第7-10行)提出了拟议的中间监督的实验评估在这里,我们首先将与辅助任务联合微调的端到端网络(第9-10行)与独立于固定表示训练的网络(第4-6行)进行比较。第6行和第10行的结果的比较表明,多任务训练使所有子网工作规则化,并为3D形状提供更好的性能我们参考附录C.1了解辅助任务的性能改进为了评估2D姿态、分割和3D姿态上的中间损失的贡献,我们实现了额外的基线,其中我们再次端到端地微调,但是去除了中间任务上的损失(第7-8行)。这里,我们仅保留体素和重新投影损失。这些网络不仅忘记了中间任务,而且在没有端到端细化的情况下也被我们的基础网络超越(比较第8行和第6行)。在所有测试子集上(即,Full、S20和S10),我们观察到所提出的组件相对于基线的一致改进图3给出了定性结果,并说明了BodyNet如何在极端情况下成功学习与最先进技术的比较。Tab. 2(第1、10行)证明了与Tung等人的最近方法相比BodyNet的显著改进。[15]第10段。请注意,[15]依赖于测试集上的地面真实2D姿态和分割,而我们的方法是全自动的。其他作品没有报告最近的SURREAL数据集的结果。BodyNet:三维人体形状13T2表3:体型性能和与现有技术的比较UP数据集。与SURREAL不同,该数据集中的3D地面实况是不精确的。1该结果在[34]中报道。[2]这一结果在[14]中报道。2D指标3D指标(mm)Acc. (%)IOU F1标志表面3D地面实况[34]92.17 - 0.88 0 0决策森林[34]86.60 - 0.80--HMR [16]91.30 - 0.86--SMPLify,UP-P91 [34]90.99 - 0.86--1[13]第十三话91.89-0.88BodyNet(端到端多任务)92.750.73 0.8483.3 102.523D地面实况[34]间接学习[14]95.0095.000.820.83--0190.00-直接学习[14]91.000.71-105.0-BodyNet(端到端多任务)92.970.750.8669.680.14.5《团结人民》对于在UP数据集上训练的网络,我们初始化在SURREAL上预训练的权重,并使用UP-3D的完整训练集进行微调,其中2D分割是从提供的3D SMPL拟合中获得的[34]。我们展示了BodyNet端到端训练的结果,其中包含多视图重投影损失。我们提供了我们的方法的定量评估表。3并与最近的方法进行比较[14,16,34]。我们注意到,一些作品仅报告了测量3D形状与手动注释的分割对齐程度的2D度量。地面实况是以半自动方式获得的噪声估计[34],其投影大部分是准确的,但不是其深度。虽然我们的结果与以前的2D指标方法相当,但我们注意到所提供的手动分割和3D SMPL拟合[34]是有噪声的,并且影响训练和评估[48]。因此,我们还在附录A、E中提供了大量的在3D指标上,我们的方法显着优于[14]的直接和间接学习。我们还提供了定性结果图。其中我们示出了通过我们的方法预测的中间输出和最终3D形状。我们观察到体素预测与3D姿态预测对齐,并提供了鲁棒的SMPL拟合。我们参考附录E对用作重投影监督的分割类型的分析。4.63D身体部位分割如第3.1中,我们扩展我们的方法,不仅产生人体的前期体素,而且产生3D部分标记。我们在表中报告了SURREAL的定量结果4、准确的真实情况。当部件组合时,前景IOU变为58.9,与表1中报告的58.1可比较1.一、 我们在图中提供了定性结果。6,其中零件网络仅在SURREAL上训练。据我们所知,我们提出了第一种方法,从一个单一的图像与端到端的方法的3D身体部位标记。我们推断身体部位的体积T114瓦罗尔,锡兰,拉塞尔,杨,尤默,拉普捷夫,施密德LvLv+LFV+LSVLvLv+LFV+LSVpppp输入图像原始视图其他视图图5:基于置信度值进行颜色编码的体素预测。值得注意的是,我们的组合3D和重新投影损失使我们的网络能够在整个身体上做出 更 自 信 的 预 测 。 例 子 取 自SURREAL。图6:BodyNet能够直接从UP示例的单 个图像 中回 归体积 身体部位。表4:在SUR- REAL上测量的每个部位的3D身体部位分割性能。有关节的和小的肢体看起来比躯干更难。头躯干左臂右臂左腿右腿背景前景体素IOU(%)49.867.929.628.346.346.399.158.9直接用网络进行,而不需要可变形模型的迭代拟合,并获得成功的结果。性能方面的BodyNet可以使用现代GPU分别在0.28秒和0.58秒内生成前景和每肢体体素5结论我们介绍了BodyNet,这是一个全自动的端到端多任务网络架构,可以从单个图像预测3D人体形状。我们已经表明,联合训练与中间任务显着改善的结果。我们还证明了体积回归与多视图重投影损失一起对于表示人体是有效的更多的,这种灵活的表示,我们的框架允许我们扩展我们的方法,以展示令人印象深刻的结果,从一个单一的图像的三维身体部位分割。我们相信BodyNet可以为未来利用三维身体信息的方法提供一个可训练的构建块,例如虚拟换布。此外,我们相信探索仅使用中间表示的限制是3D任务的一个有趣的研究方向,在这些任务中获取训练数据是不切实际的。另一个未来的方向是研究服装下的3D身体形状。如果提供训练数据,则体积表示可以潜在地捕获这样的附加几何形状。鸣 谢 。 这 项 工 作 得 到 了 Adobe Research 、 ERC 赠 款 ACTIVIA 和ALLEGRO、MSR-Inria联合实验室、Alexander von Humbolt基金会、Louis Vuitton ENS人工智能主席、DGA项目DRAAF、亚马逊学术研究奖和英特尔礼物的部分支持。BodyNet:三维人体形状15引用1. Newell,A.,杨,K.,Deng,J.:用于人体姿态估计的堆叠沙漏网络。In:ECCV. (2016年)2. Wei,S.E.,Ramakrishna,V.,Kanade,T.,Sheikh,Y.:卷积姿势机器。在:CVPR中。(2016年)3. Pishchulin,L. Insafutdinov,E.,唐,S.,Andres,B.,Andriluka,M.,Gehler,P. Schiele,B.:DeepCut:联合子集分割和标记用于多人姿势估计。在:CVPR中。(2016年)4. Cao,Z.,Simon,T.Wei,S.E.,Sheikh,Y.:实时多人2D姿态估计使用部分亲和场。在:CVPR中。(2017年)5. Martinez,J.侯赛因河Romero,J. Little,J.J.:一个简单而有效的三维人体姿态估计基线。In:ICCV. (2017年)6. Pavlakos,G.,Zhou,X.,中国科学院,Derpanis,K.G.,Daniilidis,K.:用于单幅图像3D人体姿势的从粗到细的体积预测。在:CVPR中。(2017年)7. Rogez,G.,Weinzaepfel,P.,Schmid,C.:LCR-Net:人体姿势的定位-分类-回归。在:CVPR中。(2017年)8. Zhou,X.,中国科学院,黄,Q,太阳,X.,Xue,X.,中国科学院,魏云:朝向野外的3D人体姿势估计:一种弱监督的方法。In:ICCV. (2017年)9. Leroy,V. Franco,J.S.,Boyer,E.:使用局部时间积分的多视图动态形状细化。In:ICCV. (2017年)10. 洛珀女士Mahmood,N.,布莱克,M.J.:MoSh:从稀疏标记捕获运动和形状02 The Dog(2014)11. von Marcard,T.,Rosenhahn,B.,布莱克,M.,Pons-Moll,G.:稀疏惯性姿态:从稀疏IMU自动3D人体姿态估计。Eurographics(2017)12. 是的,J., Franco,J. 美国, H'etro y-Wheeler,F., 是啊S :在运动中的人的身体形状与宽的衣服的关系。In:ECCV. (2016年)13. Bogo,F.,Kanazawa,A.,Lassner,C.Gehler,P.Romero,J.布莱克,M.J.:SMPL:从单个图像自动估计3D人体姿势和形状。In:ECCV.(2016年)14. Tan,V.布德维蒂斯岛Cipolla,R.:用于3D人体形状和姿势预测的间接深度结构化学习在:BMVC
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功