没有合适的资源?快使用搜索试试~ 我知道了~
2304PIFu单视图多视图PIFuPIFu:像素对齐隐式函数用于高分辨率服装人体数字化Shunsuke Saito1,2Zeng Huang1,2Ryota Natalia3Shigeo Morishima3 Angjoo Kanazawa4 Hao Li1,2,51南加州大学2南加州大学创意技术3早稻田大学4加州大学伯克利分校5Pinscreen图1:像素对齐隐式函数(PIFu):我们提出了像素对齐隐式函数(PIFu),它允许恢复从单个输入图像(顶行)中获得的穿着衣服的人的高分辨率3D纹理表面我们的方法可以服装的复杂变化,如起皱的裙子和高跟鞋,包括复杂的发型。可以完全恢复形状和纹理,包括看不见的区域,诸如对象的背部PIFu还可以扩展到多视图输入图像(底行)。摘要我们引入像素对齐隐式函数(PIFu),这是一种隐式表示,它将2D图像的像素与其对应的3D对象的全局上下文局部对齐。使用PIFu,我们提出了一种端到端深度学习方法,用于数字化高度详细的穿着人类,可以从单个图像和可选的多个输入图像中推断3D表面和纹理。高度复杂的形状,如发型,服装,以及它们的变化和变形可以以统一的方式数字化。与用于3D深度学习的现有表示相比,PIFu可以生成高分辨率的表面,包括大部分看不见的区域,例如人的背部。 特别是与体素表示不同,它是内存高效的,可以处理任意拓扑,并且生成的曲面* - 表示平等贡献在空间上与输入图像对准。此外,虽然先前的技术被设计为处理单个图像或多个视图,但PIFu自然地扩展到任意数量的视图。我们在DeepFashion数据集的真实世界图像上展示了高分辨率和强大的重建,其中包含各种具有我们的方法在公共基准上实现了最先进的性能,并优于先前的工作,从一个单一的图像的穿着人体数字化 该项目的网站可以在https://shunsukesaito找到。github.io/PIFu/1. 介绍在一个沉浸式技术和传感器封装的自主系统越来越普遍的时代,我们大规模创建虚拟3D内容的能力2305与我们在野外数字化和理解3D物体的能力密切相关如果数字化整个对象,3D将像拍照一样简单,不需要复杂的3D扫描设备,多视图立体算法或繁琐的捕获过程,其中传感器需要四处移动。对于某些特定领域的对象,如人脸、人体或已知的人造对象,已经可以在参数模型、数据驱动技术或深度神经网络的帮助下从图像中推断出相对准确的3D表面。最近的3D深度学习进展表明,可以从很少的图像中推断出一般形状,有时甚至是单个输入。然而,由于无效的模型表示,即使对于特定领域的建模任务,所得到的分辨率和准确性通常也是有限的。我们提出了一种新的像素对齐隐式函数(PIFu)表示3D深度学习的具有挑战性的问题,从一个或多个输入图像的穿着3D人类的纹理表面推断虽然用于2D图像处理的最成功的深度学习方法(例如,语义分割[47]、2D联合检测[51]等)利用保留图像和输出之间的空间对准的“全卷积”网络架构,这在3D域中特别具有挑战性。 虽然体素表示[53]可以以完全卷积的方式应用,但表示的内存密集型本质固有地限制了其产生精细尺度详细表面的能力。基于全局表示的推理技术[17,27,1]更节省内存,但不能保证保留输入图像的细节。类似地,基于隐式函数的方法[10,41,35]依赖于全局上下文 来推断整体形状,这可能不会与输入图像准确对齐。另一方面,PIFu以完全卷积的方式将像素级的单个局部特征与整个对象的全局上下文对齐,并且不需要像基于体素的表示那样这对于穿着衣服的对象的3D重建特别相关,其形状可以是任意拓扑、高度可变形和高度详细的。虽然[23]也利用了局部特征,但由于缺乏3D感知的特征融合机制,他们的方法无法从单个视图中推理出3D形状在这项工作中,我们表明,局部特征和3D感知隐式表面表示的组合使得显着的差异,包括高度详细的重建,即使从一个单一的视图。具体来说,我们训练编码器来学习图像中每个像素的各个特征向量,这些特征向量考虑了相对于其位置的全局上下文给定每个像素的特征向量和从该像素发出的相机射线的指定z深度,我们学习一个隐式函数,该函数可以分类对应于该z深度的3D点特别是我们的特征向量在空间上将全局3D表面形状与像素对齐,这使我们能够保留输入图像中存在的局部细节,同时在看不见的区域中推断出合理的细节。我们的端到端和统一的数字化方法可以直接预测具有复杂发型和穿着任意服装的人的高分辨率3D形状。尽管看不见的区域的量,特别是对于单视图输入,我们的方法可以生成一个完整的模型,类似于从多视图立体摄影测量或其他3D扫描技术获得的模型。如图1所示,我们的算法可以处理各种复杂的服装,如裙子,围巾,甚至高跟鞋,同时捕捉高频细节,如皱纹,在像素级匹配的通过简单地采用隐式函数来回归沿着射线的每个查询点处的RGB值,PIFu可以自然地扩展以推断每个顶点的颜色。因此,我们的数字化框架还生成了表面的完整纹理,同时预测看不见的区域中看似合理的外观细节。通过附加的多视图立体约束,PIFu还可以被自然地扩展以处理多个输入图像,这通常是实际人类捕获设置所期望的。由于从单个输入图像生成完整的纹理网格已经是可能的,因此添加更多视图只会通过为未看到的区域提供额外信息来进一步改进我们的结果。我们证明了我们的方法的有效性和准确性,在广泛的挑战性的现实世界和不受约束的服装主题的图像。我们还首次展示了从视频序列重建的动态穿着人体的单眼和纹理3D重建的高分辨率示例。我们提供了我们的方法使用地面实况三维扫描数据集,使用高端摄影测量获得的全面评估我们比较我们的方法与以前的工作,并展示了国家的最先进的性能在一个公共基准数字化穿着的人。2. 相关工作单视图三维人体数字化。由于问题的模糊性,单视图数字化技术需要强先验因此,人体和形状的参数模型[4,32]被广泛用于从输入图像数字化人。 剪影和其他类型手动注释[18,62]通常用于初始化统计身体模型与图像的拟合。Bogo等人[8]提出了一种用于无约束输入数据的全自动管道最近的方法涉及深度神经网络,以提高高度挑战性图像的姿态和形状参数估计的鲁棒性[27,43]。涉及部分分割作为输入的方法[30,39]可以产生更准确的拟合。尽管它们能够捕获人体测量和运动,但参数模型2306只会产生一个裸体的人体衣服、头发和其他配饰的3D曲面将被完全忽略。对于紧身服装,每个顶点的位移向量有时用于对某些级别的服装进行建模,如[2,58,1]所示。然而,这些技术对于更复杂的拓扑结构(诸如连衣裙、裙子和长发)失败。为了解决这个问题,可以使用无模板方法,如BodyNet[53]学习直接生成使用深度神经网络的人。由于体素表示的高存储器要求,输出中经常丢失精细尺度细节。最近,[36]通过从单个图像合成新颖的轮廓视图引入了多视图推理方法虽然多视图轮廓的内存效率更高,但凹区域难以推断以及一致生成的视图。因此,不能可靠地产生精细尺度细节。相比之下,PIFu是内存高效的,并且能够捕获图像中存在的精细尺度细节,以及预测每个顶点的颜色。多视图三维人体数字化。多视图采集方法被设计为产生人的完整模型并简化重建问题,但通常限于工作室设置和校准的传感器。早期的尝试是基于视觉外壳[34,54,13,12],其使用来自多个视图的轮廓来雕刻捕获体积的可见区域。当使用大量相机时,可以获得合理的重建,但凹面本质上是具有挑战性的。可以使用多视图立体约束[49,65,57,14]或使用受控照明(如多视图光度立体技术[55,59])获得更精确的几何形状有几种方法使用参数化身体模型来进一步指导数字化过程[48,15,5,22,3,1]。 的运动提示的使用也被引入作为附加的先验[44,60]。虽然多视图捕获技术明显优于单视图捕获技术,但它们的灵活性和可部署性明显较差。一个中间解决方案包括使用深度学习框架从非常稀疏的视图生成合理的3D表面。[11]训练3D卷积LSTM来预测来自任意视图的对象的3D体素表示[29]使用可微非投影操作组合来自任意视图的信息[25]也使用类似的方法,但需要至少两个视图。所有这些技术都依赖于体素的使用,这是内存密集型的,并防止捕捉高频细节。[23,16]介绍了一种基于体积占用场的深度学习方法,该方法可以使用稀疏视点作为输入来捕获动态这些方法至少需要三个视图才能产生合理的输出。纹理推断。 当从单个图像重建3D模型时,可以很容易地从输入中采样纹理。然而,在闭塞区域的外观需要推断,以获得一个完整的纹理。相关3D纹理推断的问题是视图合成方法,从单个图像[63,40]或多个图像[50]预测新视图在穿着人体的纹理网格推断的背景下,[36]介绍了一种视图合成技术,可以从前面预测后面的视图。然后,前视图和后视图都用于纹理最终的3D网格,但是不能处理自遮挡区域和侧视图类似于图像修复问题[42],[37]对从检测到的表面点的输出中采样的UV图像进行修复,[52,20]推断每个体素的颜色,但输出分辨率非常有限。 [28]直接预测UV参数化的RGB值,但他们的技术只能处理具有已知拓扑的形状,因此不适合服装推理。我们提出的方法可以预测每顶点颜色在一个端到端的方式,可以处理任意拓扑结构的表面。3. PIFU:像素对齐的隐式函数给定单视图或多视图图像,我们的目标是在保留图像中存在的细节的同时重建穿着衣服的人的下划线3D几何形状和纹理。为此,我们引入像素对齐的隐式函数(PIFu),这是一种高效的内存和空间对齐的3D表示的3D表面。隐函数将曲面定义为函数f的水平集,e.G. f(X)= 0[46]。这导致表面的存储器高效表示,其中不需要显式地存储嵌入表面的空间。所提出的像素对齐隐式函数由以下组成:全卷积图像编码器g和由多层感知器(MLP)表示的连续隐式函数f,其中表面被定义为f(F(x),z(X))=s:s∈R,(1)其中对于3D点X,x=π(X)是其2D投影,z(X)是相机坐标空间中的深度值,F(x)=g(I(x))是x处的图像特征。 我们假设一个弱透视相机,但扩展到透视相机是简单的。注意,我们使用双线性采样来获得像素对齐的特征F(x),因为X的2D投影是在连续空间中定义的,而不是离散空间(即,像素)。关键的观察结果是,我们在3D空间上学习了一个隐式函数,它具有像素对齐的图像特征,而不是全局特征,这使得学习的函数能够保留图像中的局部细节PIFu的连续性使我们能够以内存高效的方式生成具有任意拓扑结构的详细几何图形此外,PIFU可以作为一个通用框架,可以扩展到各种共域,如RGB颜色。数字化管道。图2展示了我们框架的概述。给定输入图像,曲面的PIFU2307PIFuv1输入图像曲面重构PIFU(,������)V1995、内部/外面图像编码器纹理推断Tex-Pifu(中国,台CQCC++、 )=RGB培训测试图像编码器行军立方体Tex-Pifu视图输入( ≥1)三维占位场重建几何纹理重建图2:我们的服装人体数字化流程概述:给定输入图像,像素对齐的隐式函数(PIFu)预测穿着衣服的人的连续的内部/外部概率场。类似地,用于纹理推断的PIFu(Tex-PIFu)推断具有任意拓扑的表面几何的给定3D位置处的RGB值重建预测穿着衣服的人的连续的内部/外部概率场,其中可以容易地提取等值面(Sec. 第3.1节)。类似地,用于纹理推断的PIFu(Tex-PIFu)在表面几何形状的3D位置处输出RGB值3.2)。此外,我们表明,所提出的方法可以处理单视图和多视图输入自然,这使我们能够产生更高的保真度的结果时,更多的意见是可用的(第二。3.3)。3.1. 单视图曲面重建对于曲面重建,我们将地面实况曲面表示为0。连续3D占用场的5个水平集.与利用所有像素进行训练相比,像素不会损害收敛。在推理过程中,我们在3D空间上对概率场进行密集采样 , 并 在 阈 值 0 处 提 取 概 率 场 的 等 值 面 。 5 使 用Marching Cube算法[33]。这种隐式曲面表示方法适用于具有任意拓扑结构的详细对象。除了PIFU空间采样。训练数据的分辨率在实现隐函数的表达性和准确性方面起着核心作用。与基于体素的方法不同,我们的方法不需要离散化f(X)=1、 如果X在网格曲面内,则为。(二)0,否则地面真实3D网格。 相反,我们可以直接采样使用有效的光线跟踪算法[56],在原始分辨率下从地面真实网格动态生成3D点。请注意,此操作需要水密网格。在我们通过以下方式训练像素对齐的隐式函数(PIFu)fv:最小化均方误差的平均值:ΣnL=|f(F(x),z(X))−f<$(X)|第二条、第三条在非水密网格的情况下,可以使用现成的解决方案来使网格水密[7]。此外,我们观察到,采样策略可以在很大程度上影响最终的重建质量。如果一个均匀采样ni=1Ivi3D空间中的点,大多数点远离等值面,这将不必要地加权其中,Xi∈R3,FV(x)=g(I(x))是来自图像编码器g的在x=π(X)处的图像特征,并且n是采样点的数量。给定一对输入图像和与输入图像空间对准的对应3D网格,通过最小化等式(1)来联合更新图像编码器g和PIFufv的参数。3 .第三章。正如Bansal et al.[6]演示语义分割,训练图像编码器的子集,网络对外界的预测。另一方面,仅在等值面周围采样会导致过拟合。因此,我们建议结合均匀采样和自适应采样的基础上的表面几何。我们首先在表面几何形状上随机采样点,并添加具有正态分布N(0,σ)(σ= 5. 在我们的实验中为0cm),以扰动它们在表面周围的我们把这些样本VvV我2308塞吉我Σ其中在边界框内使用16:1的比率均匀采样点。我们在补充材料中提供了关于我们采样策略的消融研究。中文(简体)PIFu,/(0))=+多视图PIFU=f2(Φ,,/(0))3.2. 纹理推断虽然纹理推断通常在表面的2D参数化上执行[28,19]或在视图空间中执行[36],但PIFu使我们能够通过在等式中定义s来直接预测表面几何形状1作为RGB矢量场而不是标量场。这支持任意拓扑和自遮挡形状的纹理。然而,将PIFU扩展到颜色预测是一项重要的任务,因为RGB颜色仅在表面上定义,而3D颜色仅在表面上定义。2016年10月21日(0/(01(0)FI1我我0在整个3D空间上定义占用字段。在这里,我们强调的修改PIFU的训练过程和网络架构。给定表面上的采样3D点X∈X,纹理推断的目标函数是采样颜色的L1误差的平均值,如下所示:nL=1|f(F(x),z(X))−C(X)|、(四)图3:多视图PIFU:通过将隐函数f分解为特征嵌入函数f1和多视图推理函数f2,可以扩展PIFu以支持多视图输入。f1从3D世界坐标系中的每个视图计算特征嵌入,这允许从任意视图聚合 f2采用聚合的特征向量来进行更明智的3D表面和纹理预测。C i i ii=1其中C(Xi)是表面点Xi∈N上的地面真实RGB值,n是采样点的数量。我们发现,天真地训练fc与上述损失函数严重遭受过拟合。问题是,fc不仅要学习表面上的RGB颜色,此外,对对象的3D表面加下划线,使得fc可以在推断期间推断具有不同姿态和形状的不可见表面的纹理我们通过以下修改来解决这个问题首先,我们用为表面重建FV学习的图像特征来调节图像编码器的纹理推断。这样,即使看不见的对象具有不同的形状、姿势或拓扑,图像编码器也可以专注于给定几何形状的颜色推断。 此外,我们还介绍了一个沿表面法线N向表面点偏移N(0,d),使得颜色不仅可以在精确的表面,而且在它周围的3D空间上。通过以上修改,训练目标函数可以重写为:推论我们通过使用PIFu来学习空间中每个3D点的特征嵌入来实现这一点具体地,Eq. 1现在是n维向量空间s∈Rn,其表示与指定的3D坐标和图像相关联的潜在特征从每一个角度来看。由于此嵌入是在3D世界坐标空间中定义的,因此我们可以从共享相同3D点的所有可用视图中聚合嵌入。聚合的特征向量可以用于对表面和纹理进行更可靠的预测。具体来说,我们将像素对齐函数f分解为特征嵌入网络f1和多视图推理网络f2,即f:=f2<$f1。有关说明,请参见图3。第一个函数f1将图像特征Fi(xi):xi=πi(X)和来自每个视点i的深度值zi(X)编码为潜在特征嵌入Φi。这使我们能够从所有像素中聚合相应的像素特征意见. 现在,对应的3D点X由不同视图共享,每个图像可以将X投影到其自己的图像上1ΣnL=.. f(F(x′,F),X′.)−C(X). 、(五)坐标系πi(X)和zi(X)。然后,我们通过平均池化操作聚合潜在特征Φi,CiVi=1i,zi得到融合嵌入Φ<$=mean({Φi})。第二函数f2从聚合嵌入Φ<$映射到我们的其中X′=Xi+N·Ni。我们使用d= 1。0cm,用于所有实验。请参考纹理推断网络架构的补充材料3.3. 多视图立体额外的视图提供了更多关于人的覆盖范围我们的PIFu公式提供了一个选项,可以将来自更多视图的信息用于表面重建和纹理目标隐式字段S(即,用于表面重建内部/外部概率和用于纹理推断的RGB值潜在嵌入的附加性质允许我们包含任意数量的输入。注意,单视图输入也可以在相同的框架中处理而无需修改,因为平均操作简单地返回原始潜在嵌入。对于训练,我们使用与上述单视图情况相同的训练过程,包括损失函数和点采样方案。/1(0/((01=11(0)F1⋯1(0)F(CCnCnC2309虽然我们使用三个随机视图进行训练,但我们的实验表明,该模型可以包含来自三个以上视图的信息4).4. 实验我们在各种数据集上评估了我们提出的方法,包括RenderPeople [45]和BUFF [61],它具有地面真实测量,以及DeepFashion [31],它包含各种复杂的服装。实施细节。自PIFU框架不限于特定的网络架构,技术上可以使用任何完全卷积神经网络作为图像编码器。对于表面重建,我们发现堆叠的沙漏[38]架构在真实图像上具有更好的泛化效果。纹理推理的图像编码器采用CycleGAN[64]由残差块组成[26]。隐式函数基于多层感知器,其层具有来自图像特征F(x)和深度z的跳跃连接,以有效地传播深度信息。Tex-PIFU将FC(x)与用于表面重建的图像特征 FV(x)一起作为输入。对于多视图PIFu,我们简单地将中间层输出作为特征嵌入,并应用平均池化来聚合来自不同视图的嵌入。有关网络架构和培训程序的更多详细信息,请4.1. 定量结果我们定量评估我们的重建精度与三个指标。在模型空间中,我们测量从重建表面上的顶点到地面实况的平 均 点 到 表 面 欧 几 里 得 距 离 ( P2S ) ( 以 cm 为 单位)。我们还测量重建曲面和地面真实曲面之间的倒角距离。此外,我们引入了正常的重投影误差来衡量重建的局部细节的精细度,以及从输入图像的投影一致性。对于重建和地面实况表面,我们分别从输入视点在图像空间中渲染它们的法线映射。然后我们计算这两个法线映射之间的L2单 视图 重 建 。 在 表1 和 图5 中 ,我 们 评 估了 Buff 和RenderPeople测试集上每种方法的重建误差。请注意,虽然体素回归网络(VRN)[24],IM-GAN [10]和我们使用我们用于我们的方法的相同高保真穿着人类数据集进行重新训练,但[36,53]的重建是从他们的训练模型中获得的现成解决方案。由于单视图输入使比例因子模糊不清,因此使用隐式函数(IM-GAN)[9]从每个图像一个全局特征重建表面,我们的方法输出像素对齐的高分辨率表面重建,捕获发型和衣服的皱纹我们还展示了我们的PIFU表示与体素相比的表现力虽然VRN和我们的共享相同的网络架构的图像编码器,更高的表现力的隐式表示允许我们实现更高的保真度。在图6中,我们还将我们的单视图纹理推断与最先进的穿着衣服的人的纹理推断方法SiCloPe [ 36 ]进行了比较,SiCloPe [36]从后视图推断2D图像并将其与输入的前视图图像缝合在一起以获得纹理网格。虽然SiCloPe遭受投影失真和轮廓边界周围的伪影,但我们的方法预测了表面网格直接,消除投影文物。多视图重建。在表2和图7中,我们将我们的多视图重建与其他基于深度学习的多视图方法进行了比较,包括LSM [29]和Huang等人提出的深度视觉外壳方法。[21 ]第20段。所有方法都是使用三视图输入图像在相同的高保真穿着衣服的人类数据集注意,Huang et al.可以被看作是我们的方法的退化,其中多视图特征融合过程仅依赖于图像特征,而没有对3D坐标信息的显式调节。为了评估深度调节的重要性,我们将我们的网络架构从PIFu的输入中移除z表示为Huang等人。在我们的实验中。我们证明,PIFU实现了国家的最先进的重建定性和定量在我们的指标。我们还表明,我们的多视图PIFU允许我们通过将任意数量的视图纳入图8中来不断完善几何形状和纹理。4.2. 定性结果在图4中,我们使用来自DeepFashion数据集[31]的真实世界输入图像展示了我们的数字化结果。我们展示了我们的PIFU可以处理各种各样的服装,包括裙子,夹克和连衣裙。我们的方法可以产生高分辨率的局部细节,同时推断出看不见的区域中的合理的3D表面。完整的纹理也成功地从单个输入图像中推断出来,这允许我们从360度查看我们的3D模型。我们参考补充视频2了解更多静态和动态结果。特别是,我们展示了如何动态穿着的人类表演和复杂的变形可以从一个单一的2D输入视频在3D数字化。5. 讨论我们引入了一种新的像素对齐隐函数,该函数将输入图像的像素级信息与3D对象的形状空间对齐,用于深度匹配。所有方法的已知比例因子相比最先进的单视图重建方法使用2https://youtu.be/S1FpjwKqtPs2310输入重建几何纹理重建图4:DeepFashion数据集真实图像的定性单视图结果[31]。建议的像素对齐隐式函数,PIFu,实现了拓扑自由,内存效率,空间对齐的三维重建的几何形状和纹理的衣服的人。我们的VRN IM-GAN SiClope BodyNet图5:与其他人类数字化方法的比较。对于左边的每个输入图像,我们显示了预测的表面(顶行),表面法线(中间行)和点到表面的误差(底行)。方法RenderPeople正常P2S倒角正常缓冲器P2s倒角LSM0.2514.403.930.2723.583.30深V型船体0.0930.6390.6320.1190.6980.709我们0.0940.5540.5670.1070.6650.641表1:针对单视图重建的RenderPeople和BUFF数据集的定量评估根据单个输入图像对穿着衣服的人进行基于学习的3D形状和纹理推断。我们的实验表2:使用3个视图的多视图重建算法之间的定量比较。这表明可以推断出高度合理的几何形状,包括很大程度上看不见的区域,例如人的背部,同时保留存在方法RenderPeople正常 P2S倒角正常缓冲器P2s倒角BodyNet0.2625.725.640.3084.944.52SiClope0.2163.814.020.2224.063.99IM-GAN0.2582.873.140.3375.115.32VRN0.1161.421.560.1302.332.48我们0.0841.521.500.09281.151.142311输入SiClope我们的图6:与SiCloPe [36]在纹理推断上的比较。虽然通过视图合成方法进行纹理推断会受到投影伪影的影响,但所提出的方法并不直接1视图3查看6次浏览9次浏览在曲面几何体上内画纹理。图8:我们的表面和纹理预测越来越多随着更多视图的添加而改进。使用稀疏视图的设置,传统的多视图立体或运动恢复结构将失败。输入LSM[Huang等人]我们未来的工作。虽然我们的纹理预测是合理的,并且不受推断的3D表面的拓扑或参数化的限制,但我们相信可以推断出更高分辨率的外观,可能使用生成对抗网络或增加输入图像分辨率。在这项工作中,重建发生在像素坐标空间,对齐的主题的规模作为预处理。与其他单视图方法一样,推断比例因子仍然是图7:与基于学习的多视图方法的比较。我们的方法在定性和定量上都优于其他基于学习的多视图方法。请注意,所有方法都是使用来自相同训练数据的三个视图输入进行训练的。图像中与基于体素的表示,我们的方法可以产生高分辨率的输出,因为我们不受体积表示的高内存要求此外,我们还演示了如何自然地扩展这种方法来推断一个人的部分观察的整个纹理。与现有的方法不同,该方法基于图像空间中的正面视图合成背部区域,我们的方法可以直接在表面上预测看不见的,凹的和侧面区域的颜色特别是,我们的方法是第一种方法,可以inpaint纹理的任意拓扑结构的形状。由于我们能够从单个RGB相机生成穿着衣服的人的纹理3D表面,因此我们正在向从视频中进行动态场景的单眼重建迈进一步,而无需模板模型。我们处理任意附加视图的能力也使得我们的方法特别适合于实际和高效的3D建模这是一个开放的问题,未来的工作可以解决。最后,在我们的所有示例中,没有分割的主体被任何其他对象或场景元素遮挡。在现实世界的设置中,遮挡经常发生,并且可能只有身体的一部分被框在相机中。能够在部分可见的设置中数字化和预测完整的对象对于在不受约束的设置中分析人类来说是致谢Hao Li隶属于南加州大学、南加州大学创意技术研究所和Pinscreen。 这项研究是在南加州大学进行的,部分由ONRYIP资助N 00014 -17-S-FO 14提供资金,CONIX研究中心是JUMP的六个中心之一,这是由DARPA赞助的半导体研究公司项目,Andrew and Erna Viterbi早期职业主席,美国。陆军研究实验室合同号W 911 NF-14-D-0005,Adobe和Sony。这个项目不是由Pinscreen资助的,也没有它是在Pinscreen或与Pinscreen相关的任何其他人进行的。Shigeo Morishima由JST ACCEL 资 助 号 JPMJAC1602 , JSPS KAKENHI 资 助 号JP17H06101,JP19H01129支持。Angjoo Kanazawa由BAIR赞助商支持。资料的内容并不一定反映政府的立场或政策,亦不应推断政府对此表示认可。2312引用[1] ThiemoAlldieck , MarcusMagnor , BharatLalBhatnagar,Christian Theobalt,and Gerard Pons-Moll.学习从一个RGB摄像机重建穿着衣服的人在IEEE计算机视觉和模式识别会议上,第1175-1186页[2] Thiemo Alldieck , Marcus Magnor , Weipeng Xu ,Christian Theobalt,and Gerard Pons-Moll.从单目视频的详细的人类化身。在3D视觉国际会议上,第98-109页[3] Thiemo Alldieck , Marcus A Magnor , Weipeng Xu ,Christian Theobalt,and Gerard Pons-Moll.基于视频的三维人体模型重建。在IEEE计算机视觉和模式识别会议上,第8387-8397页[4] DragomirAnguelov 、 PraveenSrinivasan 、 DaphneKoller、Sebastian Thrun、Jim Rodgers和James Davis。SCAPE : 人 的 形 状 完 成 和 动 画 ACM Transactions onGraphics,24(3):408[5] Alexandru O Balan , Leonid Sigal , Michael J Black ,James E Davis,and Horst W Haussecker.从图像中获得详细的人体形状和姿势。在IEEE计算机视觉和模式识别会议上,第1-8页[6] Aayush Bansal,Xinlei Chen,Bryan Russell,AbhinavGupta,and Deva Ramanan.Pixelnet:像素的表示,由像素表示,并为像素表示。arXiv:1702.06506,2017年。[7] Gavin Barill , Neil Dickson , Ryan Schmidt , David I.W.Levin和Alec Jacobson。汤和云的快速缠绕数字。ACM Transactions on Graphics,37(4):43,2018。[8] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。SMPL:从单个图像自动估计3D人体姿势和形状。欧洲计算机视觉会议,第561-578页[9] Liang-Chieh Chen , Yukun Zhu , George Papandreou ,Florian Schroff,and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。欧洲计算机视觉会议,第801-818页,2018年。[10] 陈志勤和张浩。学习生成式形状建模的隐式字段。在IEEE计算机视觉和模式识别会议上,第5939-5948页[11] Christopher B Choy , Danfei Xu , JunYoung Gwak ,Kevin Chen,and Silvio Savarese. 3d-r2 n2:用于单视图和多视图3D对象重建的统一方法。欧洲计算机视觉会议,第628-644页[12] CarlosHer na'ndezEsteban和FrancisSchmitt。三维物体建模中的轮廓计算机视觉与图像理解,96(3):367[13] 古川康孝和让·庞塞。用于基于图像的建模的雕刻可视外壳。欧洲计算机视觉会议,第564-577页[14] 古川康孝和让·庞塞。精确、密集和强大的多视图立体视 觉 。 IEEE Transactions on Pattern Analysis andMachine Intelligence,32(8):1362[15] Juergen Gall , Carsten Stoll , Edilson De Aguiar ,Christian Theobalt , Bodo Rosenhahn , and Hans-PeterSeidel.使用关节骨架跟踪和表面估计的运动捕获。在IEEE计算机视觉和模式识别会议上,第1746-1753页[16] 安德鲁·吉尔伯特、马可·沃利诺、约翰·科洛莫斯和阿德里安·希尔顿。从最小的摄像机视角捕捉体积性能欧洲计算机视觉会议,第566-581页[17] ThibaultGroueix , Matthew Fisher , Vladimir G Kim ,Bryan C Russell,andMathieuAubry.Atlasnet:Apapier-mche´ approachto learning 3d surface generation.在IEEE计算机视觉和模式识别会议上,2018。[18] Peng Guan,Alexander Weiss,Alexandru O Balan,andMichael J Black. 从单个图像估计人体形状和姿势。IEEEInternational Conference on Computer Vision , 第1381-1388页[19] RızaAlpGuüler、NataliaN ev er ov a 和IasonasKokkinos。密度:野外密集的人体姿势估计。在IEEE计算机视觉和模式识别会议上,第7297-7306页[20] 克里斯蒂安·哈恩,舒巴姆·图尔西亚尼,吉滕德拉·马利克。用于三维物体重建的分层表面预测。在arXiv预印本arXiv:1704.00710中。2017年。[21] Haibin Huang , Evangelos Kalogerakis , SiddharthaChaudhuri,Duygu Ceylan,Vladimir G Kim,and ErsinYumer.从多视图卷积网络的部分对应中学习局部形状描述符。ACM Transactions on Graphics,37(1):6,2018。[22] Yinghao Huang , Federica Bogo , Christoph Lassner ,Angjoo Kanazawa,Peter V Gehler,Javier Romero,IjazAkhter,and Michael J Black.随着时间的推移,朝向准确的无标记人体在3D视觉国际会议上,第421-430页[23] Zeng Huang,Tianye Li,Weikai Chen,Yajie Zhao,JunXing,Chloe LeGendre,Linjie Luo,Chongyang Ma,and Hao Li.从非常稀疏的多视图性能捕获的深度体积视频。欧洲计算机视觉会议,第336-354页[24] 亚伦·S·杰克逊,克里斯·马纳法斯,乔治斯·齐米罗普罗斯。基于体积回归的单幅图像三维人体重建。在ECCV研讨会论文集,PeopleCap 2018,第0-0页[25] Mengqi Ji,Juergen Gall,Haitian Zheng,Yebin Liu,and Lu Fang. Surfacenet:一个用于多视图立体视觉的端到端3D神经网络。在IEEE计算机视觉和模式识别会议上,第2307-2315页[26] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议,第694-711页。施普林格,2016年。[27] 作者:Michael J.作者:David W.雅各布斯和吉坦德拉·马利克端到端恢复人体形状和姿势。在IEEE计算机视觉和模式识别会议上,第7122-7131页[28] 放大图片作者:Angjoo Kanazawa,Shubham Tulsiani,Alexei A.埃弗罗斯和吉坦德拉·马利克从图像集合学习特定类别的网格重建。欧洲计算机视觉会议,第371-386页[29] AbhishekKa r,ChristianHaene,andJitendraMalik. 学习多视角立体机。神经信息处理系统的进展,第364-375页,2017年2313[30] Christoph Lassner 、 Javier Romero 、 Martin Kiefel 、Federica Bogo、Michael J Black和Peter V Gehler。团结人民:关闭3D和2D人类表现之间的循环。在IEEE计算机视觉和模式识别会议上,第6050-6059页[31] Ziwei Liu,Ping Luo,Shi Qiu,Xiaogang Wang,andXiaoou Tang. Deepfashion:支持强大的服装识别和检索与丰富的注释。在IEEE计算机视觉和模式识别上,第1096[32] Matthew Loper 、 Naureen Mahmood 、 Javier Romero 、Gerard Pons-Moll和Michael J Black。SMPL:一个有皮肤的多人线性模型. ACM Transactions on Graphics,34(6):248,2015.[33] 威廉·E·洛伦森和哈维·E·克莱恩。Marching Cubes:一个高分辨率的3D表面构造算法。在ACM siggraph计算机图形,第21卷,第163-169页。ACM,1987年。[34] Wojciech Matusik , Chris Buehler , Ramesh Raskar ,Steven J Gortler,and Leonard McMillan.基于图像的可视外壳。在ACM SIGGRAPH,第369-374页[35] Lars Mescheder,Michael Oechsle,Michael Niemeyer,Se- bastian Nowozin , and Andreas Gei
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功