没有合适的资源?快使用搜索试试~ 我知道了~
多视角神经人体渲染技术
1682多视角神经人体渲染吴敏烨1,3,4王跃浩1胡强1俞静怡1,21上海科技大学2DGene Inc.3中国科学4上海微系统与信息技术{wumy,wangyh3,huqiang,yujingyi}@ shanghaitech.edu.cn摘要我们提出了一个端到端的神经人类渲染器(NHR)的 动 态 人 体 捕 捉 下 的 多 视 图 设 置 。 NHR 采 用PointNet++进行特征提取(FE),以在低质量动态3D重建中实现强大的3D对应匹配为了渲染新视图,我们将3D特征映射到目标相机上作为2D特征映射,并采用抗锯齿CNN来处理孔和噪声。来自NHR的新合成视图可以进一步用于构建视觉外壳以处理无纹理和/或暗区域,例如黑色衣服。综合实验表明,NHR显著优于最先进的神经和基于图像的渲染技术,特别是在手,头发,鼻子,脚等。1. 介绍生成高质量的运动中的人体3D模型已经有了巨大的需求应用程序有很多,从在虚拟和增强现实中产生超现实的化身[18,40],到最新数据传输网络支持的全息和沉浸式电信[15]。到目前为止,大多数现有方法依赖于传统的建模和渲染管道:表演者的3D几何形状首先使用活动的(例如,诸如微软Kinect的深度相机)[31,40]或无源(例如,多摄像头圆顶)[22,28]系统,并以3D点云的形式存储;然后在观看设备处对点云进行三角测量、纹理映射、压缩、流式传输和渲染。为了实现高保真重建,基于圆顶的系统需要大量密集采样的相机来处理遮挡[42]、无纹理区域[29]和详细的几何形状(例如,手)。基于深度相机的解决方案(如Holoportation [33])仍然受到有限分辨率的限制。通常,需要大量的手工工作来产生商业质量的结果。基于图像的建模和渲染(IBMR)[11,32]试图从采样的图像中插入新的视图(光线)。图1.我们的神经人类渲染器(NHR)从多视图动态人类捕获产生照片般逼真的自由视图视频(FVV)。一是以低质量重建为导向。早期的技术,如lumigraph[17]使用粗糙的几何代理,如平面或视觉外壳来选择,然后混合采样的光线(图像)。然而,质量在很大程度上取决基于图像的视觉外壳[29]使用图像空间光线排序绕过3D代理生成。实际上,以前的IBMR方法容易受到遮挡的影响,并且不能保留精细的细节。为了改善代理几何形状,还可以拟合可调节的3D模型[5,19]。Skinned Multi-Person Linear(SMPL)模型[27]的开创性工作预先扫描了1786个人体形状,然后从中学习人体模型。然后估计恢复的点云的形状参数。然而,SMPL假设“裸露的皮肤”模型,并且不能直接处理复杂姿势下的服装或强烈的形状变形[31,40]可以部分缓解问题,但对重建噪声和孔敏感。在本文中,我们求助于神经渲染(NR)来改善IBMR。NR探索深度网络来[30,3]利用嵌入在捕获的图像数据中的语义信息来改进渲染。然而,现有的方法需要使用大量的训练数据,即,密集采样的输入视图。还可以在经典图形渲染流水线的几何级处应用NR通过直接细化输入的3D和纹理数据。[37]提出了一种神经纹理技术来处理嘈杂的3D几何形状。然而,它不能处理严重的缺陷,如由闭塞引起的孔1683此外,几乎所有现有的NR技术旨在处理静态而不是动态模型。在各个时间实例单独训练的暴力方法既不高效也不实用。我 们 提 出 了 一 个 端 到 端 的 神 经 人 体 渲 染 器(NHR),它可以从动态人体模型的低逼真度3D点云生成高质量的渲染。NHR在多视图视频上进行培训,由三个模块组成:特征提取(FE)、投影和光栅化(PR)以及渲染(RE)。FE采用PointNet++ [34],即使在基于结构和语义的强拓扑/重建不一致的情况下,也可以随着时间的推移从重建模型中提取特征。更重要的是,所提取的特征通过利用时间相干性消除了对密集视图样本的PR模块将3D特征映射到目标相机上以形成2D特征图,其中可以在3D点云上直接进行2D图上的梯度的反向传播最后,RE在新视点处从特征图渲染最终图像具体来说,RE旨在通过采用具有门控卷积层[39]的抗锯齿CNN[41]来处理不完整和有噪声的几何结构,来自NHR的新合成视图可以进一步改善3D重建。具体来说,我们修改了我们的管道,以输出一个额外的前景人类遮罩。渲染一组密集的新视图可以实现高保真的视觉外壳重建。特别是,从NHR构建的视觉外壳补充了MVS点云,并有效地解决了无纹理和/或黑暗的区域,如黑色衣服。综合实验表明,NHR显著优于最先进的IBR技术,并且可以可靠地处理即使在密集捕获设置下也难以重建的手、头发、鼻子、脚等。2. 相关工作在过去的十年中,3D扫描和重建技术的快速发展为真实人类的3D建模和最近的渲染奠定了基础重建被动人体重建方案通过使用面向角色的大量相机来遵循传统的重建管道。运动恢复结构法可用于首先估计相机参数和稀疏点云。然后可以应用多视图立体(MVS)来提取人类主体的点云。值得注意的是,点云的密度和质量在很大程度上取决于纹理的可用性:丰富的纹理通常导致更密集的重建,而无纹理或暗区域可能导致稀疏和不可靠的重建。最近有几种方法使用由立体声对形成的圆顶,图2.我们的NHR管道在时空、低质量3D点云上采用神经渲染,用于多视图渲染。§4介绍了渲染部分。 我们的渲染结果可以用于通过修补孔和纹理来进一步改进多视图重建。关于细化部分的更多细节见§5。pair可以通过立体匹配获得更可靠的估计然后对点云进行三角测量以形成网格,例如,通过泊松曲面完成,以实现高效的纹理映射。实际上,人体除了无纹理外,还面临着其他挑战:人体具有复杂的拓扑结构,因此会出现遮挡现象.因此,重建包含孔,其中蛮力表面完成产生粘合人工制品,例如, 手臂被缝到躯干上,手指被“粘”成斑点,等等。到目前为止,即使是商业解决方案(例如,8i [1],DGene [2])无法产生高质量的3D重建,即使有数百个相机。参数化建模替代建模方案试图将参数模型拟合到所获取的图像或点云。许多这样的模型[5,19,27]利用形状,姿势和外观的先验来估计最佳的一个强有力的假设是“裸露皮肤”模型:由于人的衣服具有很强的变化,不能容易地简化为简单的参数模型,因此这些模型一致地要求对象穿紧身衣服。例如,SMPL的显著工作[4]。结果是合理的,即使使用视频或单个图像。然而,服装限制显著限制了参数模型的适用性:通常希望对象穿着花哨的衣服。1684渲染。 人们可以潜在地绕过3D反射c-每个相机c处的内部和外部被称为如果目标是使主题像真实的一样,{Kc}nc和 {T c}nc . 我们还提取了人类的前-c=1c=1 C nc,nt可能在新的观点,例如,通过基于图像的建模和渲染(IBMR)。这些类别中的方法利用通过多视图立体或通过甚至更简单的方法(例如从剪影形状)获得的粗糙几何形状,用于从采样视图中插入新视图。几何代理可以像平面一样简单,也可以像平面一样复杂因为参数化的人体形状[12,29,6,20,7,43,45]和视图插值可以通过视图相关的纹理映射或通过非结构化的lumigraph着色器[6]有效地实现在早期的日子里,显示器的分辨率相对较低,渲染工件可以基于光流[8,13]的最新渲染技术可以部分提高渲染质量,但在遮挡边界附近仍会产生明显的视觉我们的方法利用神经渲染[3,30],在图像合成上显示出有希望的结果与IBMR不同的是基于GAN [16]的方法学习图像的分布,并在几个图像生成任务上产生令人印象深刻的结果,例如去噪,去模糊[24,35],超分辨率等。我们开始使用NR来弥合低质量3D重建和高质量动态3D人体图像合成之间的差距。对于静态场景,NR还可以与经典IBR结合使用,以实现视图相关渲染[10,38,37],基于图像的重新照明[30],网格去噪[37]以及体素级别[36]和点级别[3]的对应匹配。与我们的方法密切相关的是最近的生成CNN模型,旨在合成身体外观[14,26],身体关节[9]或两者[44,25]。他们的技术可以修复捕获的3D性能中的伪影[28]并增强低质量的3D面部重建[23]。我们的技术的一个主要区别是,我们通过利用时间形状变化来补偿视点采样中的稀疏性来处理动态模型:随着时间的推移,丰富的身体形状和我们还演示了如何使用渲染结果,以进一步提高重建。3. 方法概述在继续之前,我们解释一下我们的符号。虽然主动3D感测也可以通过绕过重建过程而自然地适应流水线,但我们仍然支持多视图立体(MVS)输入。我们的NHR管道的输入包括同步的多视图视频序列,在所有帧的接地掩模Mt={Mt}c=1,t=1,训练 在MVS设置下,我们可以构造一个点,云在每帧P={Pt}。我们还假设点云中的每个点都有颜色,通过在输入视图的图像上重新投影计算NHR的首要任务是合成高质量的新通过渲染过程查看(§4)。除了RGB颜色渲染之外,我们还生成了一个前景蒙版,稍后有助于模型细化(§5)。具体地,初始点云序列P不仅是有噪声的,而且由于遮挡而包含许多孔。模型优化过程可以有效地填充合成大小的新视图中的这些漏洞,这些新视图可用于进一步改进渲染。图2介绍了我们的迭代渲染模型技术的完整流水线,包括渲染和几何细化模块,前者在图中详细说明。3和后者在§5。4. NHR渲染4.1. 渲染过程NHR渲染过程由三个模块组成:特征提取(FE)、投影和光栅化(PR)以及渲染(RE)。特征提取。以前在点云上进行神经渲染需要在每个3D点上学习一个特征描述符,与静态3D模型不同,我们观察到在我们的动态人体捕获设置下,由于重建由MVS技术决定,因此每个时刻的恢复点云在点数量和密度上都不同。因此,这种学习引入了额外的挑战:在每个时间实例的每个点学习特征描述符在计算上是昂贵的,并且需要大量的存储。此外,视图相机的数量相对较小,因此用于学习描述符的样本有限。相反,我们开始在所有时间实例中使用所有图像。特别是,我们利用语义特征的人的形状和他们的连贯性随着时间的推移。这些功能是从端到端监管中学习到的。具体而言,PointNet++可以有效地用作特征提取器。 我们观察到,在多视图设置下,由于照明方向、布料材料、皮肤反射率等,不同视点处的外观可以表现出变化。因此,我们还考虑在FE过程中的视图方向,以减轻视图依赖性的影响。同时,我们将恢复的3D点的颜色作为先验。等式1示出了FE过程:序列It={Ic}nc,nt,其中c是t c=1,t =1摄像机索引,nc是摄像机的总数,t是帧索引,nt是帧的总数。 我们假设Dt=Dlfe(Dlnorm(Pt),{Yt,V}) (1)其中,PointFe对应于PointNet++。在我们的实施方案中-1685pi−o不图3.我们的NHR由三个模块组成:基于PointNet++的特征提取(FE)用于处理时空点云序列,投影和光栅化(PR)用于特征投影,基于U-Net的渲染器用于特征解码。它们一起形成了一个可微分的渲染器。在这种情况下,我们删除了原始网络中的分类器分支,只保留分割分支作为FE分支。它以点云及其在每个时刻的特征作为输入,以获得特征描述符Dt。V={v i}表示朝向点的(归一化)视图方向,我v i=pt−o ,其中o是的投影中心(CoP),不目标视图摄像机。 {·}表示串联,将点的颜色和规范化视图方向连接为输入到对象的初始点属性(或特征)。点坐标通过使用numnorm(·)进行标准归一化。投影和光栅化。 一旦我们获得了点云的特征描述符D,我们就开始合成新的视图。 给定一个具有内、外K_∞和T_∞的目标摄像机,将点云投影到摄像机上,并将点云投影成像平面上的像素坐标。此步骤将点栅格化为像素正方形。 我们使用Z缓冲区来保持正确的深度顺序,从而保持遮挡。 这产生了投影的2D特征图S:Sx,y=di,其中di是i的点的特征描述符失踪了我们将这些伪影视为语义噪声。当使用NR时,我们的目标是去除这些不正确的像素,因此我们采用门控卷积[39]代替U-Net中的卷积层。具体来说,我们的目标是让网络通过训练来识别这些语义噪声的位置回想一下,从PR生成的深度图E包含场景的丰富几何信息。特别地,深度值的突然变化是语义噪声的强指示,特别是对于低深度值。因此,我们认为,我们使用S和标准归一化深度图E输入到RE网络,以减少语义噪声。重要的是要注意,我们的NHR旨在从任何视图方向呈现人类主体,即,人类主体可以出现在图像内的任何位置。这意味着神经渲染应该保持特征图S的翻译等价性。在我们的实现中,我们使用MaxBlurPool和ConvBlurPool [41]来替换原始U-Net中的下采样操作(包括t tPt中的pi,在z缓冲器深度排序到像素上之后保留(x,y)。我们为每个背景像素分配一个可学习的默认特征向量θd用于产生2D特征图S的完整PR过程Ripr可以被描述为:其中E是当前视图中的深度图。渲染。上面产生的特征图S提供目标新视图的在最后的渲染阶段(RE),我们使用卷积神经网络(CNN)将S解码为其对应的RGB图像和前景蒙版。我们受益于最近的U-Net架构,该架构在图像去噪、去模糊和风格转移应用方面取得了巨大成功。在我们的应用中,我们使用U-Net来解码S. 请注意,来自MVS的点云是稀疏的,投影的特征图包含洞,甚至在前景点所在的地方显示出可见性。池化层和具有步幅的卷积层),以减轻由目标相机的平移引起的不相干性。Rollender代表我们修订后的U-Net。最后一层的渲染器输出一个有四个通道的图像,前三个通道产生一个RGB图像I,最后在Sigmoid下产生一个前期的人类面具MI,M=render(S,E)(3)4.2. 网络训练为了获取训练数据,我们使用了由多达80个同步工业高分辨率摄像机组成的多摄像机圆顶系统。我们将这些相机称为样本相机,与传统的基于图像的渲染相同。圆顶使用绿色屏幕,以方便前景分割。所有摄像机都向内朝向表演者,尽管大多数捕捉只能捕捉表演者的一部分而不是完整的图像,如§6所述。所有1686不不我我摄像头是预先校准的为了训练,我们将其中一个样本相机设置为目标相机。这允许我们使用地面实况Ic和Mc来进行监督训练。 中所述§4.1,我们的端到端网络通过将损失函数的梯度从2D图像反向传播到3D点云来更新参数。回想一下,我们的目标是尽可能地渲染目标视图,因此我们采用感知损失[21]和L1损失作为损失函数:L(θpn,θrender,θd)=Σnb [λ·(I−Ii1+M−Mi1)+我我i=1(四)(1−λ)·(vgg(I)−vgg(Ii)2+vgg(M其中n b是批量大小;I和M是第i个呈现的我我在小批量中输出图像和蒙版;vgg(·)提取VGG-19网络第2层和第4层的特征图在ImageNet数据集上进行预训练。因为圆顶系统由相当有限的采样摄像机组成。为了训练网络以更好地适应任意视点,我们通过2D图像变换进一步增强训练数据。具体来说,我们采用三种类型的变换,随机平移,随机缩放,和随机旋转,可以很容易地通过修改相机的内部/外部参数,然后重新渲染的3D点云实现。从概念上讲,基于输入数据的类型,可以采用两种训练方法,单独训练和共享训练。前者对每个表演者进行训练。当只捕获了少量的表演者或者当我们需要针对特定的表演者对网络进行微调时,这种方法是合适的。后者训练大量的表演者,训练过程共享相同的网络权重,但产生FE中的单独重量。这允许FE模块学习独特的几何和外观特征的个体表演者,同时保持一个统一的功能嵌入空间。共享渲染模块进一步将特征描述符解码到目标图像上。在我们的实现中,我们使用共享训练引导我们的网络,然后使用单独的训练为每个表演者微调网络对于一个新的执行者,我们首先修复渲染器,并使用共享训练从头开始训练FE。 经过5个阶段,我们进行个人训练。这一战略大大加快了培训进程。5. 几何细化即使是密集的MVS设置也会在无纹理或遮挡区域上产生孔补丁我们的NHR几乎可以修补这些漏洞,并在任何时候都产生令人满意的结果图4.使用NHR进行几何细化。(a)显示了使用NHR从密集渲染的视图中获得的可视外壳结果(使用“从侧面影像生成形状”)。(b)示出了使用SfM的原始3D重建(c)示出了视觉外壳结果和SfM几何学的高相干性(d)使用(a)修补(b)中的漏洞。底行显示了有和没有几何细化的NHR结果的特写视图。instance. 然而,我们观察到,当渲染视频序列时,即使每个单独的帧产生合理的结果,结果也会在最初对应于孔的合成大小的区域处产生闪烁伪影在之前的NR技术中观察到类似的伪影[3]。我们通过几何细化减少孔洞来缓解问题。回想一下,我们的NHR也会在每个新视图上生成一个辅助的人类遮罩,因此我们采用视觉外壳方法。我们观察到,与包含丰富细节和噪声的RGB图像相比,我们的网络生成的掩模要干净得多为了优化几何形状,我们渲染了一组密集的新视图,并使用由此产生的掩模作为轮廓,并基于空间雕刻或轮廓形状(SfS)进行视觉船体重建。然后,我们可以使用近似的视觉外壳来修补漏洞。面具和形状生成。简单重申一下,我们使用MVS点云来训练渲染模块输出类似于RGB图像的蒙版。然后,我们在朝向表演者的一组均匀采样的新视点处渲染遮罩,每个视点具有已知的相机参数。具体来说,我们以800 × 600的分辨率渲染遮罩。接下来,我们进行基于体素的SfS重建人体网格。点采样和着色。请注意,SfS结果Pt仅包含几何图形,而不包含颜色。F或每个1687不不不不t t t t t t点pi在Pt中,我们可以通过使用其在MVS点云P t中的最近点来进一步计算其颜色。因此,我们得到对应于Pt的Y t。补洞。虽然我们可以直接使用SfS结果作为精化几何,但众所周知,体积重建受到其分辨率和输入视图数量的限制。此外,从轮廓恢复的形状通常呈现多边形。因此,我们只从P t补上P t中的孔Ut,即, 你不知道。具体-通常,假设φ(·,·)表示两个3D点之间的欧几里得距离。 我们的漏洞修补方案是基于对于每个点ui∈Ut,φ(ui,pj), tt不它在P t中的最近点p j通常大于Pt−Ut中的点。因此,我们采用统计方法来找到Ut。令bi=min{φ(p∈i,pj)},我们将阈值τ1设置为:tt不τ1=λt·max(bi)+(1−λt)·median(bi)(5)t t其中λt是加权因子,在我们的所有公式中均设置为0.2实验Figure 5. 我们的统计漏洞修补技术探索使用接下来,我们计算Pt中的点的数量,对p j的距离小于τ1,其中si=#{bi|bi<τ1}。从概念上讲,s i与点属于U t的概率成反比。接下来,我们计算所有点的si直方图可视外壳导致根据如§ 5中所讨论的它们的距离分布来修补孔。提取所有视图的地面实况掩码三维重建-注意力不是本文的主要焦点,我们使用其中一个在集合Pt中,使用15个bin,由最大值均匀分隔距离值。我们观察到,在所有情况下,第一个bin包含的点明显多于第二个bin,因此可以直接帮助识别最近的点。因此,我们使用第一个bin中的最大距离作为阈值τ2,用于选择Ut为:最好的商业SfM软件Metashape来计算所有帧的初始3D点云。在我们的网络训练和前向预测步骤中,我们将目标渲染分辨率设置为800×600。FE模块提取24维的特征向量。Ut={p<$tj|sj<τ2,p<$tj∈P<$t}(6)图4示出了使用我们的基于SfS的孔修补技术的精细几何结构在改变视点时大大减少了闪烁。值得注意的是,最终的几何形状可能仍会出现伪影,因为其质量取决于τ1和τ2的可靠性。6. 实验结果所有实验都是在多摄像头圆顶系统收集的3D动态人体数据上进行的,该系统具有布置在圆柱体上的多达80个摄像头。所有摄像机都是同步的,并以2048×1536的分辨率以每秒25帧的速度捕获。在本文中,我们使用了5组数据集,其中表演者穿着不同的衣服并执行不同的动作。所有序列的长度都在8到24秒之间。具体地,运动1、运动2、运动3对应于穿着相对紧身的衣服的哑铃举,舞蹈包含复杂且高度可变形的衣服,而篮球涉及运动员和球之间的相互作用。我们使用基于铬键的抠图,然后手动修复,比较。我们比较我们的NHR与一些传统的和NR的方法。地面实况(GT)。我们将捕获的图像数据调整为800×600的分辨率,这与我们网络的输出分辨率相同点云渲染(PCR)。我们直接将重新覆盖的彩色点云投影到目标相机上,然后使用我们的PR模块渲染投影像素,形成最终的RGB图像序列。纹理网格(TM)。我们使用Metashape对点云进行三角剖分,并为所有帧构建纹理图。结果通过标准光栅化呈现在图像上PCR + U-net(PCR-U)。我们将RGB点云投影到目标视图中,并将其直接馈送到U-Net中以优化渲染结果。NHR with Geometry Refinement(NHR w GR)我们首先按照第5节所述的方法优化几何结构,然后使用优化后的点云重新训练3个epoch的网络。为了验证所提出的方法的有效性,我们比较了各种算法的渲染结果,1688图6.使用不同方法的渲染质量比较我们的NHR能够处理3D重建方法失败的具有挑战性的情况,如头发,其他结果可以在补充材料和视频中找到。sport1sport2体育3舞蹈篮球PCR17.458 / 0.827 /0.02520.002 / 0.855 /0.01319.760 / 0.849 /0.01520.664 / 0.890 /0.01419.463 / 0.839 /0.015PCR-U25.104 / 0.963 /0.00325.654 / 0.968 /0.00326.006 / 0.969 /0.00322.796 / 0.967 /0.00924.130/0.964/0.004TM22.419 / 0.957 /0.00722.103 / 0.954 /0.00722.318 / 0.956 /0.00720.749 / 0.957 /0.01121.947 / 0.955 /0.007IBR22.632 / 0.960 /0.00622.369 / 0.958 /0.00622.644 / 0.961 /0.00620.269 / 0.961 /0.01422.120 / 0.961 /0.007NHR w/o GR26.951 / 0.975 /0.00226.713 / 0.975 /0.00227.218/0.976/0.00222.602 / 0.969 /0.00924.660 / 0.969 /0.004NHR w GR27.385/0.977/0.00226.925/0.979/0.00226.889 / 0.975 /0.00223.367/0.973/0.00725.138/0.971/0.004表1.定量比较。本表中列出了每种方法在不同数据集上与地面实况相比的PSNR/SSIM/MSE。GT 为了公平起见,我们只比较前台的效果由于NHR已经预测了每个目标视图的遮罩,我们可以简单地使用结果来分割NHR渲染的前景。对于诸如PCR和IBR的其他技术,前景可以使用网格直接与背景分离。图6比较了使用不同方法的丰富纹理和形状(轮廓)的渲染外观。与PCR和PCR-U相比,使用相同的点云作为输入,NHR能够纠正许多视觉伪像,同时保留精细的纹理和几何细节。在PCR-U中使用U-Net可以在最终渲染中部分降低噪声和修补漏洞,但其结果在这些区域表现出过度的模糊。相比之下,NHR表现出少得多的模糊。这是因为我们的网络是专门为提取跨时间序列一致的空间特征而定制的,而大多数现有的U-Net解决方案是为静态网格设计的。换句话说,我们的技术可以从动态序列中的其它帧推断特定帧处丢失的我们的方法的优点是特别明显的严重损坏的3D几何形状,如丢失的鼻子,手指,身体上的洞等,通常在TM中观察到,如图所示。6.事实上,即使GT掩码包含错误,例如边缘不清晰或破损,我们的网络也能设法修复掩码并生成质量更好的掩码。图6显示了定量比较。NHR在PSNR和SSIM方面一致优于其他方法表1列出了其他方法(包括PCR、TM、PCR-U和基于图像的渲染(IBR)[6])的定量使用几何细化(GR)程序进一步提高了模型和渲染质量,通过填充由遮挡引起的洞,如图所示4.第一章这对于避免基于NR的渲染中的闪烁尤为重要:在填充了孔的情况下,渲染器可以正确地处理深度排序,从而避免不期望的透视伪像。前几1689图7.免费查看视频结果在一个具有挑战性的舞蹈现场使用NHR。红色上衣在3D重建中提出了重大挑战。我们的NHR可以从较差的重建中产生高质量的FVVNR,在图像空间中防止透视,因此当视点改变时,“修补”部分可以表现出强烈的通过填充孔,这种闪烁显著减少。其他应用。动态人体的视图合成可以导致一系列新的渲染技术。例如,子弹时间效应,这是一个惊人的停止时间错觉。然而,目前可用的穹顶系统不能满足电影质量生产的需要由于我们的NHR能够减少甚至消除强烈的视觉伪影,因此可以用于产生子弹时间效果。除了常规的子弹时间,即,固定时间但改变视点,我们可以使用NHR同时改变时间和视点,即,当观众改变视角时,表演者继续他/她的运动。演示如图所示。7.第一次会议。由于我们使用FE模块提取的特征保留了序列的时空相干性,因此它们可以潜在地用于从点云序列生成动画网格(AM)。图8示出了序列内不同帧处的颜色编码特征这些特征表现出很强的语义一致性,尽管点云是在没有一致性的情况下在每帧单独重建的这意味着FE模块用于对应匹配的有效性和潜在有用性。由于NHR只绘制单个人体图像,因此我们可以通过集成NHR的结果来合成多用户场景图像。为此,我们为每个人训练单独的NHR模型接下来,我们在同一个目标视图中渲染每个人类实例。然后,我们可以使用深度图和人类面具来推断最终结果图像中RGB图像的可见性并混合在一起。局限性。用于GT掩模生成的色度分割很容易导致过度分割或欠分割。这样的伪影会导致网络训练错误地将绿色背景假设为前景,并产生绿色视觉伪影。为了渲染一个新的视图,我们的技术将恢复的噪声点云投影到图像上图8.我们可视化的FE功能,从点云序列的颜色。它们表现出高度的语义一致性,可用于对应匹配和随后构建动画网格。因此,如果我们将相机移动到非常靠近对象,则投影点可能相当稀疏,即,在点之间具有然后,问题变得非常不适定,具有很强的模糊性,我们的技术可能会失败。7. 结论和未来工作我们提出了一种新的神经人体渲染器(NHR)的高品质的动态三维人体模型下捕获的多视点圆顶系统。虽然大多数现有的神经渲染(NR)技术都集中在静态场景或对象上,但NHR明确地寻求时间对应以补偿空间/角度采样中的稀疏性。通过利用PointNet++ [34]随着时间的推移学习,我们的方法设法建立并随后使用时空3D对应关系,即使在3D重建较差的情况下也能显着提高渲染质量。特别是,NHR在头发、手、鼻子、脚等方面表现出了优异的性能,即使使用非常密集的样本相机或使用有源3D传感器也很我们已经进一步证明了使用NHR合成大小的新视图通过轮廓恢复形状来进一步改善3D重建。未来,我们计划探索通过深度学习使用时空序列直接固定点云几何形状的可能性,以便建模器和渲染器可以无缝集成到统一的端到端解决方案中。确认本工作得到了国家重点研究发展计划(2018 YFB2100500 ) 、 国 家 自 然 科 学 基 金 ( 61976138 和61977047)、国家科技攻关计划(2015 F0203 -000-06)和上海医学工程中心(2019-01-07-00-01- 07)的我们衷心感谢DGene Inc.的支持。借助人类的3D捕捉1690引用[1] 8i. https://www.8i.com/网站。[2] Dgene. https://www.dgene.com/cn/网站。[3] Kara-Ali Aliev , Dmitry Ulyanov , and Victor S.Lempitsky基于神经点的图形。CoRR,abs/1906.08240,2019。[4] Thiemo Alldieck , Marcus Magnor , Weipeng Xu ,Christian Theobalt,and Gerard Pons-Moll.基于视频的三维人体模型重建。在IEEE计算机视觉和模式识别会议论文集,第8387- 8397页[5] Dragomir Anguelov 、 Praveen Srinivasan 、 DaphneKoller、Se- bastian Thrun、Jim Rodgers和James Davis。景观:人的形体完成与动画InAcm Siggraph,2005.[6] Chris Buehler 、 Michael Bosse 、 Leonard McMillan 、Steven Gortler和Michael Cohen。非结构化发光图绘制。第28届计算机图形和交互技术年会论文集,第425- 432页。ACM,2001年。[7] Joel Carranza,Christian Theobalt,Marcus A Magnor,and Hans-Peter Seidel. 人类演员的自由视点视频,第22卷。ACM,2003年。[8] 丹·卡萨斯,克里斯蒂安·理查德,约翰·科洛莫斯,克里斯蒂安·西奥博尔特和阿德里安·希尔顿。4D模型流程:用于实时4d视频插值的预先计算的外观对齐。《计算机图 形论 坛》 , 第34卷 ,第 173-182页 。 Wiley OnlineLibrary,2015.[9] Caroline Chan , Shiry Ginosar , Tinghui Zhou , andAlexei A Efros. 大 家 跳 舞 吧 arXiv 预 印 本 arXiv :1808.07371,2018。[10] Anpei Chen,Minye Wu,Yingliang Zhang,Nianyi Li,Jie Lu,Shenghua Gao,and Jingyi Yu.深层表面光场。ACM计算机图形学和交互技术会议,1(1):14,2018。[11] Paul Debevec,Yizhou Yu和George Borshukov。基于投影 纹 理 映 射 的 高 效 视 相 关 图 像 绘 制 在 RenderingTechniques 98,第105- 109116. Springer,1998年。[12] 保罗·欧内斯特·德贝维克,卡米洛·J·泰勒,吉坦德拉·马利克. 从照片。加州大学伯克利分校,1996年。[13] Ruofei Du , Ming Chuang , Wayne Chang , HuguesHoppe,and Amitabh Varshney.Montage4d:多视图视频纹理的交互式无缝2018年。[14] Patr i ckEsse r,EkaterinaSutte r,andBjo nOmme r. 用于条件外观和形状生成的可变u-网在IEEE计算机视觉和模式识别会议论文集,第8857-8866页[15] IngoFeldmann , WolfgangWaizenegger , NicoleAtzpadin,and Oliver Schreer.用于沉浸式3d视频会议的实时深度估计。2010年3DTV大会:真正的视觉捕捉,3D视频的传输和显示,第1-4页。IEEE,2010。[16] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。 在神经信息处理系统的进展,第2672[17] Steven J Gortler、Radek Grzeszczuk、Richard Szeliski和Michael F Cohen。光显仪。在Siggraph,第96卷,第43-54页[18] Marc Habermann ,Weipeng Xu ,Michael Zollhoefer ,Ger- ard Pons-Moll,and Christian Theobalt. Livecap:从单目视频中实时捕捉人类行为。ACM Transactions onGraphics(TOG),38(2):14,2019。[19] N Hasler,C Stoll,M Sunkel,B Rosenhahn和H. P赛德尔。人体姿势和体型的统计模型Computer GraphicsForum,28(2):337[20] 本诺·海格尔,莱因哈德·科赫,马克·波勒费斯,约阿希姆·登兹勒,吕克·范古尔。从手持相机拍摄的图像序列进行全光建模和渲染在Musterekennung 1999,第94-101页中施普林格,1999年。[21] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议,第694-711页。施普林格,2016年。[22] 金出武夫,彼得·兰德,PJ·纳拉亚南。虚拟现实:从真实场景构建虚拟世界。IEEE多媒体,4(1):34[23] Hyeongwoo Kim 、 Pablo Carrido 、 Ayush Tewari 、Weipeng Xu、JustusThies、MatthiasNiessne r、Pa t rickPe´rez 、 Chris- tianRichardt 、 MichaelZollho ¨fe r 和ChristianTheobalt。深度视频肖像。ACM Transactions onGraphics(TOG),37(4):163,2018。[24] OrestKupyn、VolodymyrBudzan、MykolaMykhailych 、 DmytroMishkin 和 Jiˇr´ıMatas 。Deblurgan:使用条件对抗网络进行盲运动去模糊。在IEEE计算机视觉和模式识别会议的论文集,第8183-8192页[25] Lingjie Liu , Weipeng Xu , Michael Zollhoefer ,Hyeongwoo Kim,Florian Bernard,Marc Habermann,Wenping Wang,and Christian Theobalt.人类演员视频的神 经 渲 染 和 重 演 ACM Transactions on Graphics(TOG),38(5):1[26] Stephen Lombardi 、 Tomas Simon 、 Jason Saragih 、Gabriel Schwartz、Andreas Lehrmann和Yaser Sheikh。Neural volume- umes : Learning dynamic renderablevolumes from images.ACM Transactions on Graphics(TOG),38(4):65,2019。[27] Matthew Loper, Naureen Mahmood ,Javier Romero ,Gerard Ponsmoll,and Michael J Black. Smpl:一个皮肤的多人线性模型。Acm Transactions on Graphics,34(6):248,2015。[28] Ricardo Martin-Brualla,Rohit Pandey,Shuoran Yang,Pavel Pidlypenskyi,Jonathan Taylor,Julien Valentin,Sameh Khamis , Philip Davidson , Anastasia Tkach ,Peter Lincoln,et al.Lookingood:通过实时神经重渲染增强性能捕获ACM Transactions on Graphics(TOG),37(6):1[29] Wojciech Matusik , Chris Buehler , Ramesh Raskar ,Steven J Gortler,and Leonard McMillan.基于图像的可视外壳。第27届计算机图形和交互技术年会论文集,第369-374页。ACM出版社/Addison-We
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功