没有合适的资源?快使用搜索试试~ 我知道了~
20533LISA:内隐手形和手形的Enric Corona1† Tomas Hodan2 Minh Vo2Francesc Moreno-Noguer1 Chris Sweeney2Richard Newcombe2Lingni Ma21InstitutdeRobo` ticaiInforma` ticaIndustrial,CSIC-UPC,Barcelona,Spain2RealityLabs,Meta图1. LISA手部模型由从多视图RGB视频中学习的铰接式隐式表示定义,该视频注释有粗略的3D手部姿势(左)。形状、颜色和姿态参数通过设计在模型中被分离,从而能够对模型的选定方面进行精细控制在此图中,我们对学习的LISA模型的姿势进行动画处理,同时保持形状和颜色参数固定。这三行分别显示由曲面法线着色的形状、外观和颜色编码的蒙皮权重。蒙皮权重是显式预测的,并用于组合有符号距离场(SDF)和表面颜色的逐骨骼预测摘要本文提出了一个无所不能的人手神经模型,命名为LISA。该模型能够准确地捕捉手的形状和外观,推广到任意的手部子模型,提供密集的表面对应,可以从野外图像中重建,并且可以很容易地进行模拟。我们训练LISA的形状和外观损失最小化的一个大的多视图RGB图像序列与粗糙的3D姿态的手的手,吨注释。对于局部手部坐标中的3D点,我们的模型独立地预测相对于每个手部骨骼的颜色和有符号距离,然后使用预测的蒙皮权重组合每个骨骼的预测。形状、颜色和姿势表示通过设计被解开,从而实现对所选手部参数的精细控制。我们的实验表明,LISA可以准确地重建一个动态的手从单目或多视图序列,实现了显着更高的质量重建的手的形状相比,基线approaches。项目页面:https:www.iri.upc.edu/people/ ecorona/lisa/.†在现实实验室实习期间完成的工作,Meta。1. 介绍由于大约200万年前,拇指对掌使人类能够抓握,因此人类主要通过手与物理世界互动。因此,建模和跟踪人手的问题自然在计算机视觉中受到了相当大的关注[43]。这些问题的精确和鲁棒的解决方案将开启广泛的应用,例如,人机交互、假体设计或虚拟和增强现实。大多数研究工作与建模和跟踪人手有关,例如,[8,20,21,29,38,70],依赖于MANO手部模型[53],该模型由多边形网格定义,可以通过一组形状和姿势参数进行控制。尽管被广泛使用,但MANO模型具有低分辨率,并且没有纹理坐标,这使得表示表面颜色变得困难。建模和跟踪人体的相关领域也一直依赖于参数网格,其中最流行的模型是SMPL [31],其具有与MANO模型类似的限制最近用于人体建模的方法,[1,4,10,15,34,54,61],依赖于基于隐式表示的铰接模型,例如神经辐射场[35]或符号距离场(SDF)[46]。这样的表示能够表示形状和外观,并且能够捕获20534与基于参数网格的方法相比具有更精细的几何形状。然而,它还有待探讨如何以及隐式表示适用于关节的对象,如人手,以及他们如何推广到看不见的姿态。我们探索了用于建模人手的清晰的隐式表示,并做出了以下贡献:1. 我们介绍了LISA,第一个人类手部神经模型,它可以捕捉准确的手部形状和外观,推广到任意手部主题,提供密集的表面对应(通过预测蒙皮权重),从野外图像中重建,并且很容易动画。2. 我们展示了如何训练LISA,通过最大限度地减少形状和外观损失的一个大的多视图RGB图像序列注释与粗糙的3D姿势的手骨架。3. LISA中的形状、颜色和姿态表示通过设计进行了分解,从而能够对模型的选定方面进行精细控制。4. 我们的实验评估表明,LISA超越基线的手重建从三维点云和手重建从RGB图像。2. 相关工作参数化网格。由于它们的简单性和高效性,参数网格在建模铰接对象(如身体)方面非常受欢迎[24,31,44,49],[53]手,脸[28]和动物[71]。 MANO手部模型[53]是从大量仔细配准的手部扫描中学习的,并捕获形状相关和姿势相关的混合形状,用于手部个性化。尽管广泛用于手部跟踪和形状估计[6,8,13,20网格是有限的低分辨率根源于解决一个大型的优化问题与经典技术。为了重建更精细的手部几何形状,在[12,16,57]中探索了图形卷积网络,在[26]中探索了螺 旋 滤 波 器 。 基 于 专 业 设 计 的 网 格 模 板 , Deep-HandMesh [37]通过神经网络学习姿势和形状校正Chen等 人 例 如 , [9] 通 过 开 发 基 于 UV 的 表 示 来 改 进MANO。GHUM [64]介绍了一种生成参数网格,其中形状校正参数、骨架和混合蒙皮权重由神经网络预测。隐式形状表示。 许多作品采用神经网络通过学习隐函数来建模几何形状,该隐函数是连续和可微的,例如符号距离场(SDF)[2,3,11,14,19,46]或占用场[33]。为了提高学习效率,[7,17,18,59]研究了基于部分的隐式模板来建模中级对象不可知的形状特征。隐式代表在LoopReg [4]中,通过学习逆皮肤,使用循环一致性进行弱监督训练,将表面点映射到SMPL人体模型[31], 将 sentations 扩 展 到 关 节 变 形 。 基 于 SMPL ,NASA [15]为每千吨骨骼训练一个OccNet [33],以近似形状混合形状和姿势混合形状。PTF [61]扩展了NASA并将点云注册到SMPL。本着类似的精神,imGHUM[1]训练了四个DeepSDF网络[46],这些网络的预测被一个额外的轻量级网络融合。为了消除在NASA训练中使用地面实况SMPL的需要,SNARF [10]利用迭代求根技术将姿态空间中的每个查询点链接到规范空间中的LEAP [34]和SCANimate [54]还通过神经网络对正向和反向蒙皮进行建模,并使用循环一致性来监督转换到规范空间的训练。LEAP还通过将骨骼变换映射到形状特征来将框架扩展到多学科学习,SCANimate构建可动画化的定制服装化身。我们从NASA获得灵感来约束手部变形,但明确建模混合形状和颜色的蒙皮权重隐式外观表示。已经提出了许多方法来从多视图图像学习场景的外观这个想法是通过使用光线投射渲染神经体积来对图像形成过程进行建模[30,40,55,66]。特别是NeRF [35]以一种有效的辐射场建模公式而受到欢迎。 后续研究表明,如果通过占用率[42]或SDF [60,65]调节密度,则可以改善几何形状。在这项工作中,我们使用VolSDF [65]作为主干渲染器。对于动态场景,[47,52,58]将NeRF与学习变形场相结合。为了对动态人体建模,Neural Body [51]将可学习的顶点特征附加到SMPL,并使用稀疏卷积扩散特征A-NeRF [56]用SMPL骨骼变换来调节NeRF,以学习可动画化的化身。类似的想法在[50]和NARF [41]中提出。H-NeRF [63]将imGHUM与NeRF相结合,以实现外观学习并训练单独的网络来预测SDF。在我们的工作中,表观和SDF的预测在每个骨骼内是独立的,然后由相应的蒙皮权重进行加权。分解的表象。 解缠某些性质如姿态、形状或颜色的参数是期望的,因为它允许处理(例如,估计或动画化)这些属性。受参数网格模型的启发,Zhou等人,[69]训练了一个网格自动编码器来解开人类和动物的形状和姿势。他们开发了一种无监督学习技术20535我我从多视图序列预测每个骨骼的颜色和符号距离局部骨坐标三维查询点组合每骨预测边距颜色用户ID图2. LISA手部模型的训练和架构。 左:LISA通过最小化多视图RGB图像序列数据集的形状和外观损失进行训练。假设序列用在训练期间细化的手骨架的粗略3D姿势注释。训练序列显示多个人的手,并用于学习姿势,形状和颜色的分解表示。中:LISA通过手部骨骼定义的刚性部件集合来近似手部。将3D查询点变换到与独立神经网络相关联的骨骼的局部坐标系,该独立神经网络预测与骨骼的有符号距离。手的表面和颜色。注意,Gj由两个独立的MLP实现,一个预测有符号距离,另一个预测颜色(见4.1节)。右图:使用由其他网络预测的蒙皮权重组合每个骨骼的预测。基于交叉一致性损失。DiForm [62]在学习基于SDF的形状嵌入时采用解码器网络来解开身份和变形。A-SDF [39]因子化了形状嵌入和关节角度,以建模关节化对象。NPM [45]提出在正则摆位扫描上训练形状嵌入,然后用另一个网络学习具有密集监督的变形场。i3DMM [67]采用了与变形场类似的想法来学习人类头部模型。该方法解开身份,发型和表达,并与密集的彩色SDF监督训练。在这项工作中,我们提出了一个生成的手表示解开形状,姿态和外观参数。3. 背景MANO[53]将人手表示为姿态参数θ和形状参数β的函数:M:(θ,β)›→V,(1)其中,手由具有n j= 16个关节的骨架rig定义,并且姿态参数θ ∈Rnj×3表示骨架的骨骼之间的相对旋转的轴角表示。β是一个10维向量,V∈Rnv×3是三角形网格的顶点。通过线性混合蒙皮(LBS)变换对标准手Vr进行变形来估计映射M,权重W ∈ Rnb ×nv,其中nb是骨骼的数量。具体地,给定规范形状上的顶点vr,LBS如下变换顶点Σnbvi=wi,jTjv<$r,(2)j=1其中,Tj∈R3×4是应用于骨骼j的静止姿态的刚性变换,wi,j是W的(i,j)项,v<$表示v的齐次坐标。LISA通过使用相同的姿势参数θ和骨骼变换建立在MANONeRF/VolSDF。NeRF [35]是用于新颖视图合成的最先进的渲染算法。该算法通过学习以下函数来对静态场景的连续辐射场进行建模F:(x,d)<$→(c,σ),(3)其将3D位置x∈R3和通过x的观看方向d∈R2映射到颜色值c∈R3及其密度σ∈R。函数F由多层感知器(MLP)网络建模,该网络从单个静态场景的一组密集的多视图构成的RGB图像训练。虽然NeRF已经展示了令人印象深刻的新颖视图合成结果,但是估计的体积密度对于推断准确的几何形状是无效的。一些最近的作品研究了这个问题[42,60,65],并建议通过纳入SDF [46]来扩展NeRF。在本文中,我们调整了VolSDF [65]的公式,该公式将体积密度定义为应用于SDF表示的拉普拉斯累积分布函数(CDF)。VolSDF还解开了几何和外观学习使用两个MLP SDF和颜色估计,分别。4. LISA:提议的手部模型本节提供了对所提出的手模型的详细描述,我们称之为LISA用于学习隐式形状和外观模型。问题设置。考虑具有已知相机校准的多视图RGB视频序列的数据集。每一个序列捕捉一个随机的人从一个单一的手构成随机运动。目标是学习一个手模型,GB构成形彩色蓝色是可以学习的的g0MLP剥皮权重签署20536j=1Jj=1Jj=1J该方法重建手的几何形状、变形和外观,同时还推广到重建看不见的手。未定位的(即,变换到处于静止姿势测试图像中的手和动作相比于现有骨头,{Tj}nb:xj=R−1(x−tj),其中Rj和手部建模工作,这往往需要大量的高质量的3D手部扫描,我们考虑的设置,降低了数据收集的要求,但增加了挑战,tj是变换Tj的旋转和平移分量。有了这个公式,我们收集了一组独立的SDF预测和颜色预测,对算法的挑战。灵感来自于古典手工造型查询点{sj,cj}nb,其中:方法中,我们假设运动骨架与手相关联,其中通过用最先进的手跟踪预处理训练序列来产生粗略的3D姿态使用骨架的动机是调节手的变形与关节,并使所获得的模型的动画。为了将深度网络集中在手上,我们通过假设前景遮罩是已知的来进一步简化输入。4.1. 模型定义我们的目标是学习一个从参数骨架到形状和外观的完整手模型的映射函数。在这项工作中,我们选择要由MANO参数化的骨架,并将学习公式化为:M+:(θ,β+,γ)›→θ,(4)其将姿态参数θ、形状参数β+和颜色参数γ映射到隐式表示γ。在这里,我们使用上标+表示形状参数与MANO的形状参数不同。隐式表示是几何和外观的连续函数。与辐射场定义类似,其定义为:: ( x , d ) ›→ ( s , c ) ,(5)返回SDF值s∈R和颜色值c对于查询3D点x和视图方向d。使用隐式表示,学习的模型不依赖于具有固定分辨率的模板网格,因此可以更有效地编码详细的变形。手表面由s的0级集合表示,其中可以通过对3D空间进行均匀采样并应用Marching Cubes [32]来提取3D网格V。将方程(4)和等式(5)一起,并且去除用于简化符号的观察方向,产生我们旨在学习的映射:G:(x,θ,β+,γ)<$→(s,c).(六)在本节的其余部分,我们将解释如何建模Eq。(6)配合网络培训。使用蒙皮进行独立的逐骨预测。 接下来[15,48],我们通过刚性部分的集合来近似整个手形,在我们的情况下,这些刚性部分由n块骨头定义。具体地,网络G被分成n个MLPGs:(xj,θ,β+,γ)<$→sj, (7)G c:(xj,θ,β+,γ)<$→ cj.(八)为了将每个骨骼的输出组合到单个SDF和颜色添加中,我们引入了一个额外的MLP来学习权重。权重MLP将输入作为每个MLP的n b个未置位的xj和预测的SDF s j的级联,以输出加权向量w =[w1,. - 是的- 是的 ,w nb]。的softmax层用于将w的值约束为概率相似,即,w i≥0,iwi=1。的最终输出然后通过以下方式计算查询点:bs=wjsj,c=wjcj.(九)j=1j =1注意,权重向量w类似于经典的基于LBS的模型中的蒙皮权重。类似的设计也被NASA [15]和NARF [41]探索不同之处在于,NASA选择一个MLP输出,这是由预测的占用率的最大值决定的。NARF建议使用MLP学习权重,但仅使用规范化点来训练此模块。在我们的设计中,网络可以看到规范化点和每骨SDF。SDF是学习蒙皮权重的重要指南更重要的是,梯度现在可以通过权重反向传播,以训练每个骨骼的MLP。这意味着MLP可以利用w来避免学习遥远点的SDF。我们在实验中表明,这种设计大大改善了几何形状。模型渲染。与[65]一样,我们首先需要在渲染之前从预测的有符号距离场获得体密度。我们从预测的有符号距离间接推断出它:σ(x)=α<$β(−s),(10)其中s是x的有符号距离,αβ(·)是拉普拉斯分布的CDF,α和β是两个可学习的参数(更多细节请参见[65])。然后,通过沿着其对应的相机射线d累积颜色和体积密度,经由体积绘制积分来估计特定图像像素的颜色。特别是,像素像素的颜色近似为近、远界离散积分预测符号距离,{Gj}b,和nb个MLP,j=1Cn对于原点为o的摄像机光线r(t)=o+td:颜色,{Gj}b,每个MLP产生一个输入,∫t关于一个骨骼的依赖预测作为在-把图像对应于摆姿势的手,点x是第一个ck=FT(t)σ(r(t))c(r(t),)dt,tn(十一)20537+其中:. ∫tT(t)=exp−tnΣσ(r(s))ds.(十二)为了解决仅依赖于一个或几个骨骼的区域中的局部极小值问题,我们使用伪地面真值姿态和形状参数来获得近似的3D网格及其相应的4.2. 培训如图2所示,需要学习的LISA的参数是:(1)用于预测n b个骨骼的带符号距离和颜色的MLP,(2)估计蒙皮权重的MLP,以及(3)用于控制生成过程的形状β+和颜色γ潜在代码。注意,姿势θ不是学习的,而是假设在训练期间给定的。接下来,我们将解释如何从InterHand2.6M数据集的多视图图像序列中学习这些参数[38]。解开形状,颜色和姿势。LISA旨在完全解开姿势,形状和颜色的表示。形状β+和颜色γ参数是完全可学习的潜在向量。由于两者都是用户特定的,我们为相同个人的所有图像分配相同的潜在代码。在这两种情况下,它们被表示为128维向量,从具有球形协方差的零均值多变量高斯分布初始化,并在训练期间按照[46]的自动解码器公式进行优化姿态参数θ由MANO的48维表示定义。当在InterHand2.6M上训练时,我们在最初的10%训练步骤中保持提供的地面实况姿态参数不变,然后我们开始优化参数,以考虑地面实况注释色彩校准。为了允许训练图像的强度略有差异,我们遵循神经网络[30]并引入每个相机和每个通道的增益g和偏差b,在训练时应用于渲染图像在推断时,我们使用这些校准参数的平均值。损失函数。为了学习LISA,我们最小化损失的组合,旨在确保准确表示手的颜色,同时适当地正则化学习的几何。具体来说,我们通过随机采样一批观看方向dk并通过体绘制估计相应的像素颜色来优化网络设ck为估计像素颜色,ck为地面真实值。我们考虑的第一个损失是:Lcol=ck−ck1,( 13)其中,n·nj表示j-范数。我们还用Eikonal损失正则化G(·)的SDF [19],以确保它近似于有符号距离函数:Σ剥皮重量w是我们用来监督指定蒙皮权重w:Lw=w−w1。(15)最后,我们还正则化了潜在向量β+和γ:Lreg= λβ+λ2+ λγλ2。(十六)完全损失是前面四个损失项的线性组合(具有超参数λcol、λEik、λw和λreg):L=λ col L col +λ Eik L Eik +λ w L w + λ reg L reg.(十七)学习人手SDF的先验知识。 当最小化Eq.(17)我们面临两个主要挑战。首先,由于我们只监督图像,形状和纹理参数的同时优化可能会导致局部最小值与良好的渲染,但错误的几何形状。其次,我们用于训练的Inter- Hand2.6M数据集[38]具有大量图像(约130k),但它们仅对应于27个不同的用户,从而影响了模型的泛化为了缓解这些问题,我们使用3DH数据集[62]构建了一个形状先验,其中包含183个不同用户的扫描用于预训练G(·)中的几何MLP,我们将其表示为Gβ+(·),并且它们负责预测带符号距离s:G β+ :(x,θ,β+)›→s。(十八)我们用两个额外的损失来预训练Gβ+。首先,假设xsurf是3D扫描的一个点,我们强制Gβ+预测该点上的距离为0Lsurf=<$G β+(xsurf,θ,β)<$1。 (十九)我们还用xsurf处的地面真实法线N(xsurf)来监督符号距离的梯度:LN=N(xsurf)-N(xsurf)N(x surf)其中N(x)是x处的3D法线方向。有了这两个损失,再加上损失LEik、Lw和正则化函数β+β2,我们就可以学习β+上的先验,用于初始化方程中的模型的完全优化。(17)。正如我们在实验部分所示,这种先验可以显着提高LISA的性能。205384.3. 推理LEik=x∈Ω(xG(x)2−1)2,(14)在实验部分中,我们将学习的模型应用于点云的3D重建和3D重建。其中,采样点是在表面上采样并从整个场景中均匀获取的一组点。为了防止从图像的结构。这两种应用都涉及我们在下面描述的优化方案。20539i=1从点云重建。 设P={xi}n为重建到扫描扫描到重建具有n个3D点的点云。 让我们的训练模型适应对于这些数据,我们遵循与用于学习先验的管道非常相似的管道。具体来说,我们最小化以下目标函数:L(θ,β+)=Σx∈Pβ+(x,θ,β)1+β+ 2.(二十一)从单目或多视图图像重建。给定输入图像I,我们假设我们有一个粗略的前景掩模,并且n j个手关节的2D位置(表示为J2D)是可用的。 这些位置可以使用例如,OpenPose [5].为了让丽莎符合这些数据,我们最小化以下目标:L(θ,β+)=Σd∈ILcol(d)+Lreg+Ljoints,(22)表1. 从点云重建形状。 3D形状其中前两项对应于当量(13)(扩展到与输入图像的像素相交的所有观看方向(十六)、最后一项是基于关节的数据项,其惩罚所估计的2D关节与从所估计的姿态参数θ计算的投影的3D关节J3DL关节=<$J<$2D−π(J3D)<$1,(23)其中π(·)是3D到2D投影。我们还使用外部相机参数的情况下,多视图重建。5. 实验在本节中,我们评估了LISA在从点云进行手部重建和从RGB图像进行手部重建的任务中的表现,并证明它在相当大的程度上优于现有技术。5.1. 数据集和基线数据集。我们在InterHand2.6M数据集的非发布版本上训练LISA [38],该数据集包含显示27个用户的手的多视图序列。总共有5804个多视图帧和131k图像,分辨率为1024×667px。每帧平均有1022个视图,其中两个未用于训练,而是用于验证。该数据集还提供了3D关节的伪地面真值,并且我们使用由数据集作者提供的Mask R-CNN模型[23几何先验是在3DH数据集[62]上学习的,该数据集包含183个用户的3D扫描序列(我们使用作者提出的150/33用户的相同训练/测试为了评估点云的手部重建,我们使用MANO数据集的测试分割[53],其中包括50个3D扫描,通过顶点到顶点和顶点到表面的距离(以mm为单位)来评估重建。LISA-im在仅基于图像训练的方法使用几何先验(LISA-geom,LISA-full)可以显著提高性能。单个用户,以及3DH的测试集,其中包括33个用户的扫描。对于图像的手部重建,我们使用DeepHandMesh数据集[37],该数据集使用地面真实3D手部扫描进行注释。评估手部模型。由于LISA是第一个能够同时表示手部几何形状和纹理的神经模型,因此没有公开的方法可以直接比较。为了定义基线,我们因此重新实现了几个最近的方法,这些方法基于来自人体建模相关领域的铰接式隐式表示。我们调整NASA [15]和NARF [41]以适应我们的设置,将其几何表示更改为有符号距离场,为NASA添加位置编码,并复制其几何MLP以预测颜色。我们在InterHand2.6M数据集[38]上训练这些方法,并监督蒙皮权重。我们没有设法扩展SNARF[10],因为它依赖于前向传递期间的中间不可微优化,这妨碍了计算相对于输入点的输出梯度,这对于应用Eikonal 损失是必要的。我们还比 较了原始的MANO模型和我们的实现VolSDF参数化的姿态,形状和颜色向量,但不考虑每骨推理。此外,我们消融了以下版本的模型:完整的模型时,训练与图像和几何先 验 ( LISA- 完 整 ) , 一 个 版 本 的 训 练 只 与 图 像( LISA-im ) , 和 一 个 版 本 的 训 练 只 与 几 何 先 验(LISA-geom)。+方法V2V [mm]V2S [mm]V2V [mm]V2S [mm]3DH数据集[62]:MANO [53]3.272.113.443.23VolSDF [46]3.691.265.335.23美国航天局[15]3.051.143.693.66NARF [41]4.692.192.052.01LISA-im2.930.931.901.87丽莎琴0.830.430.630.54LISA-full1.930.631.501.43MANO数据集[53]:MANO [53]3.142.923.901.57VolSDF [46]3.692.222.372.23美国航天局[15]5.313.802.572.33NARF [41]4.022.692.112.06LISA-im3.091.961.191.13丽莎琴0.360.160.810.26205401视图2视图4视图方法V2V V2S PSNR V2V V2SPSNR V2V V2S PSNR表2. DHM图像的形状和颜色重建[37]。 通过顶点到顶点和顶点到表面距离(mm)评估3D形状重建,并通过PSNR度量 评 估 新 视 图 中 手 部 模 型 的 彩 色 渲 染 [35] 。 MANO 和DeepHandMesh(DHM)的评分取自[37]。我们还报告了[37]中5个可用图像中的1、2或4个视图的指标。在相同的条件下,LISA- im优于仅在图像上训练的所有其他方法。当也用几何先验(LISA-full)训练时,它实现了在单视图设置中最明显的自适应提升。5.2. 基于点云数据的形状重建表1总结了来自3DH和MANO数据集的点云的手部重建结果。作为评估指标,我们报告顶点到顶点(V2V)和顶点到表面(V2S)距离(以毫米为单位)。我们在两个方向上计算这些度量,即。从重建到扫描,再到扫描。为了进行公平的比较,所有基于隐式表示的方法的所有重建都是以相同的MarchingCubes分辨率(256×256×256)获得的。由于MANO使用只有778个顶点的网格,我们将其重建的表面细分为100k个顶点。结果表明,LISA-im始终优于其他方法时,只有图像用于训练。添加几何先验(LISA-full)可以显著提高性能。当模型仅使用几何先验(LISA-geom)进行训练时,它产生的错误甚至比使用几何先验和图像(LISA-full)进行训练时这是因为我们在训练图像中分割出了手,因此LISA-full和LISA-im学会了在手腕之后关闭表面。这种寄生表面增加了测量误差。图3显示了重建的示例。在大多数隐式模型中可以看到清晰的伪影,除了LISA-full和参数MANO模型。5.3. 图像的形状和颜色重建表2评估了Deep-HandMesh数据集上单个和多个视图的3D重建任务中的手部模型[37]。在仅在图像上训练的方法中,LISA-im在3D形状重建方面始终是优越的,并且当采用几何先验(LISA-full)时,其性能进一步提高。图3. 从MANO点云进行形状重建[53]。VolSDF、NASA、NARF和LISA-im仅在Inter- Hand2.6M [38]上进行训练,并在MANO上进行测试。没有基于皮肤的正则化的隐式模型(VolSDF,NASA,NARF)通常会生成连接区域。LISA-full从3DH [62]中预先学习几何形状,并实现更平滑的重建。1次浏览2次浏览4次浏览PSNR↑ SSIM↑ LPIPS↓PSNR↑ SSIM↑ LPIPS↓PSNR↑ SSIM↑ LPIPS↓VolSDF23.010.920.1223.360.870.1123.890.930.11NASA26.900.950.0728.160.960.0628.440.960.06NARF28.420.950.0928.490.960.7228.590.960.08LISA-im 27.450.950.0828.400.950.0728.270.950.07LISA-full 27.070.950.0627.690.960.0628.270.960.05表3. 彩色重建。 来自InterHand2.6M图像[38]。所有模型在PSNR和SSIM(测量像素误差;越高越好)和LPIPS(测量整体感知相似性;越低越好)方面都实现了相当的性能[35]。在表2中,通过对来自新视图的手部模型的渲染计算的PSNR度量[35],对来自DeepHandMesh图像[37]的颜色重建进行了评估。LISA- im在该度量中稍有优势,除了使用单个图像进行重建的情况,点云NARF [41][65]第65话我的世界 MANO [53]LISA-full马诺[53] 13.81 8.93-------DHM [37]9.866.55-------VolSDF [65] 7.157.06 23.19 7.157.10 22.63 7.277.18 25.05美国航天局[15]5.895.79 25.20 5.114.99 25.17 5.044.91 25.18NARF [41]7.447.35 24.11 7.457.36 28.48 7.937.85 29.89LISA-im5.485.36 25.04 3.863.72 29.84 3.623.47 30.21LISA-full3.843.68 25.43 3.703.56 29.40 3.533.38 29.69LISA-im20541图4. 由LISA-full制作的InterHand2.6M [38]图像重建。最上面一行显示的是RGB图像的地面实况。我们只使用第一个RGB进行单目重建,而其他两个图像作为新视图渲染的基础事实。其他三行分别显示颜色重建、形状重建和预测蒙皮权重图5. 由LISA-full制作的野外重建。对于每个示例,我们从左到右显示:(a)输入RGB图像,(b)再现到输入图像的重建形状,(c)参考视图中的重建形状,(d)重建颜色。LISA-IM的性能与NASA相当。表3通过PSNR、SSIM和LPIPS [35]指标评价了InterHand2.6M图像[38]的彩色重建。在这种情况下,所有方法在渲染质量方面都相当相似,我们怀疑这可能是由于训练中使用的嘈杂的手部遮罩。定性结果如图4所示。此外,我们在图5中证明了LISA可以从野外图像中重建我们建议读者参考补充材料以获得更多的定性结果。5.4. 推理速度为了从一个或多个视图重建LISA手部模型,我们首先优化1k次迭代的姿势参数,然后我们联合优化另外5k次迭代的形状、姿势和这个过程大约需要5分钟。收敛后,我们重建网格的分辨率为1283,这需要大约5秒,或在大约一分钟内渲染新的视图。这些测量是在1024×667px图像上使用单个Nvidia Tesla P100 GPU进行的。NASA和NARF模型的推理速度相似,它们也执行逐骨预测。VolSDF的速度快了20%,因为它只使用一个MLP。6. 结论我们已经介绍了LISA,一种新的神经表示纹理的手,我们学习相结合的体积渲染方法与手的几何先验。结果模型是第一个允许完全和独立控制的姿态,形状和颜色域。我们展示了LISA在两个具有挑战性的问题中的实用性,即从点云的手部重建和从图像的手部重建。在这两种应用中,我们获得了高度精确的3D形状重建,在点云拟合中实现了使用低分辨率参数网格 ( 如 MANO [53] ) 或 表 示 单 个 人 的 模 型 ( 如DeepHandMesh [37])无法实现这种精度水平。未来的研究方向包括探索跟踪应用的时间一致性,在推理时消除对粗糙的2D/3D手部骨骼姿态和前景遮罩的需要,提高运行时效率,或在保持泛化能力的同时增强高频纹理细节的表达能力。致谢:这项工作得到了西班牙政府的部分支持,项目MoHuCo PID 2020 - 120049 RB-I 00。20542引用[1] Thiemo Alldieck , Hongyi Xu , Cristian Sminchisescu.imGHUM:3D人体形状和关节姿势的隐式生成模型。在2021年国际计算机视觉会议(ICCV)的会议记录中。一、二[2] Matan Atzmon和Yaron Lipman。SAL:从原始数据中学习形状的符号不可知论。在IEEE计算机视觉和模式识别会议(CVPR)上,2020年。2[3] Matan Atzmon和Yaron Lipman。SALD:Sign agnosticlearning with derivatives。在2021年的国际学习代表会议(ICLR)上2[4] Bharat Lal Bhatnagar,Cristian Sminchisescu,ChristianTheobalt,and Gerard Pons-Moll. Loopreg:用于3D人体网格配准的隐式表面对应、姿势和在神经信息处理系统(NeurIPS),2020年12月。一、二[5] 曹哲、吉内斯·伊达尔戈、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分亲和场的实时多人2d姿态估计。PAMI,43(1):172-186,2019. 6[6] Zhe Cao , Ilija Radosavovic , Angjoo Kanazawa , andJitendra Malik.在野外重建手与物体的互动。在计算机视觉国际会议(ICCV)的会议记录中,第12417-12426页2[7] 作 者 : Rohan Chabra Lenssen , Eddy Ilg , TannerSchmidt,Julian Straub,Steven Lovegrove,and RichardNewcombe.深度局部形状:学习局部sdf先验,用于详细的3d重建。在欧洲计算机视觉会议(ECCV)的会议记录中,第608-625页,2020年。2[8] Yu-WeiChao , WeiYang , YuXiang , PavloMolchanov,Ankur Handa,Jonathan Tremblay,YashrajS Narang , Karl Van Wyk , Umar Iqbal , StanBirchfield,et al. DexYCB:A benchmark for capturinghand graving of objects.在IEEE计算机视觉和模式识别会议(CVPR)的Proceedings中,第9044-9053页,2021年。一、二[9] 陈平,陈玉锦,杨东,吴方音,李琴,夏庆培,谭勇。I2 uv-handnet:图像到紫外线预测网络,用于精确和高保真的3D手部网格建模。在计算机视觉国际会议(ICCV)的会议记录中,第12929-12938页,2021年10月。2[10] Xu Chen , Yufeng Zheng , Michael J Black , OtmarHilliges,and Andreas Geiger. SNARF:用于动画非刚性神经隐式形状的可区分向前蒙皮。在2021年国际计算机视觉会议(ICCV)的开幕式上。一、二、六[11] 陈志勤和张浩。学习生成式形状建模的隐式字段。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第5932-5941页,2019年。2[12] Hongsuk Choi,Gyeongsik Moon,and Kyoung Mu Lee.Pose2Mesh:用于3D人体姿势和从2D人体姿势恢复网格的图形卷积网络。在2020年欧洲计算机视觉会议(ECCV)上。2[13] Enric Corona , Albert Pumarola , Guillem Alenya ,Francesc Moreno-Nogue r和 G re'goryRogez 。 Ganhand :Predictinghumangraspaffordancesinmulti-objectscenarios.在CVPR中,第5031-5041页,2020年。2[14] Enric Corona 、 Albert Pumarola 、 Guillem Alenya 、Gerard Pons-Moll和Francesc Moreno-Noguer。Smplicit:Topology-aware generative model for clothed people. 在CVPR中,第11875-11885页,2021年。2[15] Boyang Deng , John P Lewis , Timothy Jeruzalski ,GerardPons-Moll , GeoffreyHinton , MohammadNorouzi,and Andrea Tagliasacchi. Nasa神经关节形状近似。在欧洲计算机视觉会议(ECCV)的会议记录中,第612-628页。Springer,2020年。一二四六七[16] Liuhao Ge , Zhou Ren , Yuncheng Li , Zehao Xue ,Yingying Wang,Jianfei Cai,and Junsong Yuan.根据单个RGB图像的3D手的形状和姿态估计。 在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第10833-10842页,2019年。2[17] Kyle Genova 、 Forrester Cole 、 Avneesh Sud 、 AaronSarna和Thomas Funkhouser。三维形状的局部深度隐式函数。在IEEE计算机视觉和模式识别会议(CVPR)上,2020年6月。2[18] Kyle Genova , Forrester Cole , Daniel Vlasic , AaronSarna,Willi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功