没有合适的资源?快使用搜索试试~ 我知道了~
14528EgoRenderer:从以自我为中心的相机图像中渲染人类化身胡涛1*,克里帕辛杜·萨尔卡r2,李玲杰u2,马蒂亚斯·兹维克ker1,克里斯蒂安·西奥巴尔t21马里兰大学帕克学院计算机科学系2马克斯·普朗克信息学研究所,萨尔信息学校区摘要我们提出了EgoRenderer,这是一种用于渲染由安装在帽子或VR耳机上的可穿戴、以自我为中心的鱼眼相机捕获的人的全身神经化身的系统。我们的系统呈现逼真的新观点的演员和她的运动从任意的虚拟摄像机位置。由于自顶向下视图和大失真,从这样的自我中心图像渲染全身化身带来独特的挑战。我们通过将渲染过程分解为几个步骤来解决这些对于纹理合成,我们提出了自我DPNet,神经网络,推断输入鱼眼图像和一个底层的参数-度量身体模型之间的密集此外,为了对动态外观进行编码,我们的方法还学习了一个隐式纹理堆栈,该堆栈可以捕获姿势和视点之间的详细外观变化对于正确的姿势生成,我们首先估计身体姿势从自我中心的观点使用参数模型。然后,我们通过将参数模型投影到用户指定的目标视点来合成外部自由视点姿态图像接下来,我们将目标姿态图像和纹理组合成组合特征图像,使用神经图像转换网络将其转换成输出彩色图像实验评估表明,EgoRenderer是能够产生现实的自由视点化身的人穿着以自我为中心的相机。与几个基线的比较证明了我们方法的优势1. 介绍这项工作的目标是从任意外部相机视点呈现具有佩戴自我中心鱼眼相机的人的逼真外观和运动的全身化身(图1)。这种以自我为中心的捕捉和渲染*TH在MPI-INF实习期间进行的部分工作图1:基于可穿戴鱼眼相机设置(a),我们提出了EgoRenderer,它是针对单个人进行训练的,可以通过将鱼眼相机捕获的自我中心图像(b)作为输入,从新的视角和新的姿势(c)(d)生成人的全身化身。在运动表现分析或健康护理中实现新的应用。自体现化身的实时自由视点渲染在虚拟现实(VR)和增强现实(AR)应用中也是重要的,特别是远程呈现。我们的方法的一个关键优势是,它使用了一个轻巧紧凑的传感器,可以安装到眼镜,耳机或帽子,它是完全移动的。因此,演员可以自由漫游,并且不限于停留在外部多相机设置可见的受限空间中。我们从自我中心的角度出发,通过结合自我中心姿态估计、外观转移和自由视点神经绘制的新解决方案来实现自由视点神经化身绘制;这些中的每一个都需要针对具有强扭曲和自遮挡的具有挑战性的自我中心的自上而下的鱼眼视角进行调整。大多数已建立的姿态估计方法采用外部由外向内的相机视图[27,28,37,7,9],并且不直接适用于我们的设置。一些最近的方法被设计为估计来自头戴式鱼眼相机的3D骨架姿势[54,49]。然而,我们的设置需要对自我中心的姿势和形状进行更密集的像素估计,因为密集的对应关系是将人的纹理外观从自我中心转移到外部视图的先决条件(图3)。同样地,再-14529基于神经渲染的姿势转移方法使得能够在用户指定的目标运动下创建高度逼真的人类动画视频[4,1,19,51]。然而,所有这些都是针对外部外向内视图定制的,使得目标运动已经需要被指定为来自外部相机视图的骨架姿势或模板网格序列。我们还面临着一个额外的挑战,那就是将外表和姿势从扭曲的自我中心视角转移到外部视角。为了实现佩戴相机的演员的高度逼真的外观和姿势转移到任意外部视图,即使在更一般的场景条件下,EgoRenderer将渲染流水线分解为纹理合成,姿势构建和神经图像转换,如图4所示。纹理合成。与大多数上述基于图像的由外向内视图的姿势转移方法[4,38]相比,EgoRenderer明确地在参数化身体模型之上构建对人的表面纹理的估计。具体来说,我们从以自我为中心的图像中提取显式(颜色)纹理,并在训练阶段从多视图数据集中学习隐式纹理然后,我们将它们组合起来,形成我们对人的完整纹理表示。与静态颜色纹理图相比,学习的隐式纹理更好地捕获跨姿势和视点的详细外观变化。为了从以自我为中心的图像中提取可见身体部位的(部分)纹理,我们创建了一个大型合成数据集(见图2),并训练了一个与我们的设置相关联的Ego-DPNet网络,以推断输入的以自我为中心的图像与底层参数身体模型之间的密集对应关系,如图3所示。姿势构建。与期望目标姿势作为输入的早期神经人类 渲 染 方 法 不 同 , 无 论 这 些 目 标 来 自 何 处 [38] ,EgoRenderer都是端到端工作的。我们必须准确地再现姿态和外观看到的自我中心的形象从任何外部的观点。我们通过将3D参数模型从自我中心相机空间投影到目标视点来支持目标视图的神经渲染,从而使我们也能够转移部分可见的纹理外观。神经图像翻译。姿势构造使我们能够使用隐式纹理和颜色纹理在所需的外部视图中渲染3D模型。我们将这些图像转换成最终的彩色图像的神经图像翻译网络的装置。实验表明,这种隐式显式渲染方法优于直接的姿势到图像的翻译。我们的定性和定量评估表明,我们的EgoRenderer系统更好地概括了新的观点和构成比基线方法在我们的测试集。概括起来,我们的贡献如下:1) 自上而下的鱼眼图像的大型合成地面实况训练数据集和为我们的鱼眼相机设置量身定制的Ego-DPNet网络,以预测与图2:来自我们合成渲染的鱼眼训练数据集的示例(右上角:地面实况DensePose)。我们的数据集具有各种各样的姿势,人体外观和逼真的背景。图3:DensePose [9]在我们的设置捕获的图像上表现不佳,有时无法检测到人(第二行)。我们的密集姿势预测在右边。从自我中心的图像参数化的身体模型。2) 一个端到端的自我渲染器系统,以单个自我为中心的图像作为输入,并从外部用户定义的视点生成全身化身渲染。2. 相关工作我们的方法与视觉计算的许多子领域密切相关,下面我们讨论这些连接的一个小子集。神经渲染。神经渲染是一类深度图像和视频生成方法,其将生成的机器学习技术与来自计算机图形学的物理知识相结合以获得可控输出。许多神经渲染方法[43,44,29,16,47]学习场景的隐式表示,而不是显式建模几何,例如DeepVoxels [43],SRN [44],NeRF [[29]和NSVF [16]。然而,只有少数神经场景表示处理动态场景[12,22]。我们的神经渲染方法的灵感来自上述场景的具体方法。为了处理场景的动态特性,我们在人类的参数模型该学习的隐式纹理堆栈连同来自以自我为中心的相机的依赖于姿态的外观一起被高保真度生成器用于产生人的逼真渲染。姿势转换和人体再现。 姿势反-14530图4:管道概述。给定人的以自我为中心的图像Ie和用户定义的视点V,EgoRenderer从视点V合成全身化身Ie-t。EgoRenderer是根据我们的摄像头安装鱼眼相机设置定制的,并将渲染过程分解为纹理合成,姿势构建和神经图像转换。对于纹理合成,给定以自我为中心的相机空间中的人的输入图像Ie,我们首先使用Ego-DPNet预测输入图像Ie与底层参数网格模型之间的密集对应(Pe),这允许针对图像中可见的身体区域提取部分UV纹理映射Te我们还在训练期间学习隐式纹理堆栈(Tm),并且将Te和Tm连接为全局纹理表示Tg。对于姿势构造,给定用户定义的视点V,我们通过将参数模型从自我中心空间投影到目标视点来合成目标姿势图像Pt在特征渲染步骤中,用全局纹理堆栈Tg对参数化人体网格进行纹理化,以产生中间特征图像Re-t。图像转换网络RenderNet将特征图像转换为最终的真实图像Ie→t。首先由[24]引入的FER是指从不同的视点重新渲染人的问题,并且从单个图像的外观重新渲染人的姿势。大多数方法将该问题公式化为图像到图像映射问题,即给定目标人的参考图像,以骨架[4,39,33,14,58]、密集网格[18,51,17,35,31,8]或关节位置热图[24,1,25],到真实图像。为了更好地将参考的外观映射到所生成的图像,一些方法[17,35]首先将屏幕空间中的人的然而,这些方法通常在具有规则视点的外部相机设置中起作用我们提出了一种新的方法,从自上而下的自我中心的鱼眼相机使用一种新的网络提取外观,并将其与一个学习的人特定的神经纹理高保真的一代。自我中心系统。由于自我中心系统的机动性和灵活性,近年来自我中心系统取得了重大进展。自我中心系统的应用可以分为面部、手势和全身。[6,5,48,21,3,46,15]研究使用头戴式摄像机的面部估计。[41,45,26,2,30,32,42]通过使用头戴式或胸戴式凸轮执行手势和活动识别。时代在全身的情况下,大多数方法要么选择由内而外的配置[36,10,55,56],要么采用鱼眼相机来获得大视场[54,34]。Rhodin等人[34]提出了第一个使用头盔式立体鱼眼相机对的全身捕捉方法Xu等人[54]和Tome等人[49]使用更紧凑和灵活的单目设置来进行全身姿态估计。然而,我们的设置学习对自我中心姿态和形状的更密集的像素方式估计(参见图3)。3. 方法我们的EgoRenderer系统建立在一个安装在帽子上的鱼眼相机上(类似于[54]),它在运行时捕获以给定一个以自我为中心的图像Ie的人,我们从用户定义的观点,我们称之为外部的自由视点空间在本文中的人的全身化身。我们的系统将渲染过程分解为纹理合成,姿势构建和神经图像翻译,如图4所示。首先,对于纹理合成,我们构建了一个全局纹理堆栈Tg,其将来自以自我为中心的图像的显式纹理Te和在训练阶段学习的隐式纹理堆栈Tm组合为人的纹理表示我们的系统将身体姿势和形状表示为14531参数网格[23]。对于姿态构建,给定用户定义的目标视点,我们通过将参数模型从自我中心相机空间投影到目标视点来合成目标姿态第三步骤利用全局纹理栈渲染3D模型并生成人的隐式特征图像Re-t,然后在第四步骤中通过神经图像转换网络RenderNet将其转换为最终渲染的彩色图像Re-t3.1. 输入和输出我们的输入是人和目标视点V的自我中心图像Ie,并且输出是来自目标视点的人的照片级真实感图像Ie-t。在我们的训练阶段,我们将同一个人的成对图像(Ie,It在本文中,我们称Ie图像从自我中心空间,和It图像从外部自由视点空间。3.2. 纹理合成从自我中心空间提取部分UV纹理图。通过输入图像和底层SMPL [23]模型之间的密集对应性,将输入自我中心图像的像素转换到UV纹理空间。DensePose [9](在COCO-DensePose数据集上预训练)可以预测24个身体段及其在用常规相机捕获的图像上的部分特定UV坐标,并且主要来自胸部高视点。然而,在我们的设置中,DensePose [9]在自我中心的图像上失败,如图3所示。为以自我为中心的数据捕获大量带注释的DensePose数据是一项庞大的任务,需要大量的人力。 为了解决这个问题,我们渲染了一个大型的、合成的以自我为中心的鱼眼训练数据集,该数据集使得能够训练深度神经网络来预测我们的硬件设置上的密集对应。我们的数据集包含178,800个合成图像,具有地面真实UV坐标图,并具有各种姿势,身体外观和背景,如图2所示。利用这个合成数据集,我们训练了一个Ego-DPNet(f)网络以预测密集姿态Pe,即Pe=f(Ie)。数据集的更多细节可在补充材料中找到。Ego-DPNet构建在DensePose-RCNN架构上,我们使用 迁 移 学 习 在 多 阶 段 中 对 其 进 行 训 练 与 原 始 的DensePose-RCNN不同,它采用稀疏注释的地面实况点并依赖于inpainting教师网络来插值密集的地面实况,我们的Ego-DPNet直接将合成图像作为密集的地面实况,而无需教师网络。此外,另一个区别是,由于我们特定的鱼眼相机设置,Ego-DPNet的输入图像大小在训练和测试中是固定的。Ego-DPNet的性能如图3. 利用密集姿态预测Pe和输入图像Ie,我们通过UV纹理提取模块u提取部分UV纹理图Te,即Te=u(Ie,Pe)。图5:学习对隐式纹理堆栈Tm的影响。左:初始状态;右:最终状态。在训练中学习内隐纹理。除了从自我中心的空间纹理,我们还学习了d维隐式纹理堆栈(TM)从训练图像捕捉详细的外观变化的姿态和观点。请注意,我们初始化Tm与明确的纹理映射,这是训练图像的平均纹理训练期间Tm的初始和最终状态如图5所示。我们提供了我们的实验与3个渠道在Tm。全局纹理堆栈。 我们将显式纹理T e和隐式纹理T m连接到全局纹理堆栈T g= [T e,T m]中以表示人的动态纹理。在本文中,Tg有6个通道,其中3个来自Te,3个来自Tm。3.3. 姿势构造给定以自我为中心的图像Ie和目标用户定义的视点V,第二步骤是合成人在视点下的目标姿态,其由图4中的密集姿态图像Pt表示。首先,姿态估计模块(在我们的实验中为Mo2Cap2 [54])用于提取人的3D关节姿态,其用于通过逆运动学驱动3D SMPL模型。然后通过将3D模型投影到视点V来渲染目标姿态。3.4. 中间特征图像渲染使用全局纹理栈Tg= [Te,Tm]和目标姿态图像Pt,我们使用特征渲染操作r来产生6维特征图像Re-t,即Re-t=r(Te,Tm,Pt)。运算r由dif-可参考的双线性采样。3.5. 神经图像翻译在最后一步中,使用平移网络g将特征图像Re→t平移为 真 实 图 像 Ie→t , 我 们 称 之 为 RenderNet , Ie→t=g(Re→t)。RenderNet建立在Pix2PixHD [52]架构上。RenderNet的对抗训练鉴别器也采用了多尺度设计的Pix2PixHD,并且我们使用三尺度鉴别器网络进行对抗训练。3.6. 训练细节和损失函数我们分两个阶段训练EgoRenderer。我们首先在我们的合成数据集上训练Ego-DPNet,然后在真实数据上训练注意RenderNet是person specific。14532◦→·1jj·×个×个D·其中,|转--|NEgo-DPNet为了更好地泛化真实世界的图像,我们使用迁移学习在多个阶段训练Ego-DPNet它首先在COCO-DensePose数据集[9]上进行了预训练,以使用常用的相机光学器件从真实图像中学习良好的低级特征然后,我们在我们的合成数据集上对其进行微调,以预测以自我为中心的图像上的DensePose。RenderNet。在训练中,我们的系统将以自我为中心的输入和同一个人的地面真实图像(Ie,It)作为输入。RenderNet的输出可以表示为Iet=gr(u(Ie, f(Ie)),Tm,Pt),其中所有运算g、 r、 f、 u都是可微的。为速度,我们预先计算自我姿态Pe=f(Ie)和Pt,并直接读取它们作为训练中的输入。我们优化了RenderNetg和隐式纹理堆栈Tm的参数。损失函数。 我们应用以下损失函数的组合来训练RenderNet:感知损失。我们使用基于VGG网络[11]的感知损失,其测量应用于生成的图像Ie-t和地面实况目标图像It的预训练VGG网络[40]的不同层上的激活之间的差异。Lp= Σ。p(I e→t)−p(I t)。、图6:通过我们的方法产生的渲染(对于我们研究中的所有所有渲染都是从新的视角和训练中看不见的姿势产生的。4.1. 基线我们将我们的方法表示为Im-Tex,并将Im-Tex与其他5个系统Pix 2 PixHD [52],Fea-Net [35]以及三个变体Ex-Tex,Only-Ego和Only-MV进行比较。所有这些基线方法都有与我们类似的架构,我们为它们提供了相同的输入和损失函数所以所有这些方法都是直接可比的。1) Pix2PixHD 我们使用了Pix2PixHD其中pjNJ是激活,Nj的元素修改,以获得更好的性能。Pix 2 PixHD直接将目标姿态Pt转换为所生成的图像Ie-t。在预训练的VGG网络中的第j对抗性损失。我们使用Pix2PixHD [52]的多尺度鉴别器来利用我们系统中的对抗性损失Ladv。D是以生成的图像和渲染的特征图像。面对身份的丧失。我们使用预训练的网络来确保RenderNet和隐式纹理堆栈在生成的和地面实况图像的裁剪的面部上保留面部身份。Lface=Nface(Iet)Nface(It),face是预训练的SphereFaceNet [20]。最后的损失是L G =λ p L p +λ f ace L f ace + λ GAN L adv.使用Adam优化器[13]训练网络,初始学习率为2 10−4, β1= 0 。5. 损 失 权 重 根 据 经 验 设 置 为λGAN=1 ,λp=10,λface=5。注意,Tm的初始学习率为2 10−3,10倍RenderNet的学习率4. 实验数据集。由于没有适合我们项目的公共数据集,我们自己捕获了4个数据集,我们研究中渲染的人类头像如图6所示。我们将它们称为H1、H2、H3和H4。H1和H2是在户外拍摄的,而H3和H4是在摄影棚拍摄的。H1和H2数据集有11个多视图相机,H3和H4有8个多视图相机,并使用80%/20%的训练/测试分割来训练和评估我们的方法。2) 羽网 我们参考了人类重新渲染的方法[35]作为Fea-Net(FeatureNet的缩写),这是该项目开发时人类再现和新颖视图渲染的最新技术。与我们的方法不同,该方法维护一个全局隐式纹理堆栈,Fea-Net使用网络从作为隐式纹理的自我中心图像虽然Fea-Net最初是在多个身份上进行训练以进行服装和运动转移,但它也可以直接应用于我们的个人特定任务。3)Ex-Tex。 作为我们的隐式纹理方法的一个变体,Ex-Tex使用显式和静态纹理堆栈。与Im-Tex相比,图4中的纹理栈(Tm)在训练期间不更新。 因此,我们称之为显式纹理堆栈,如图5-左侧。4)唯我我们还考虑不具有纹理堆栈Tm的变体,这意味着Tg=Te,并且在特征渲染中,我们仅从以自我为中心的图像中采样纹理我们称这种方法为唯我。5)只有MV。与Only-Ego相反,另一变体是Only-MV,其不从自我中心的图像中获取纹理,而是仅从训练图像It中获取纹理。在这种情况下,Tg=Tm。只有- MV可以被视为延迟神经渲染的扩展[47]。4.2. 测试数据集我们考虑两种制度:在单摄像机或多摄像机视频序列上训练。评估是在保持相机和序列的保持部分上进行的。的14533|- -|图7:六种方法的比较所有化身都是从新的视角生成的,并且在训练中看不到姿势H1表1:不同数据集上的单视频训练的定量结果(乘以10)以及相对改进。在相机或身体姿势方面,训练集和测试集之间没有重叠。为了在不同方法之间进行公平比较,我们使用在目标帧上计算的DensePose结果作为训练和评估中的输入,如其他人类渲染论文[38,4]。指 标 . 以 下 三 个 度 量 用 于 比 较 , 结 构 相 似 性 指 数(SSIM)[53]和学习感知图像块相似性(LPIPS)[57],以及峰值信噪比(PSNR)。最近的LPIPS声称比现有的手工设计的度量更好地捕获人类判断,而PSNR或SSIM通常在捕获视觉感知方面不准确,并且在纹理/皱纹的轻微变化下会明显不同[57]。单视频实验。我们首先评估我们的系统在一个单一的视频的情况下。我们使用来自我们的钻机中的相机之一的单相机视频,并评估在保持相机和序列的保持部分上的6种方法定性结果示于图7中。可以观察到,我们的结果显示出更好的真实性,并保留更多的去尾,并且定量结果提供于表1中。我们还计算了所有数据集的度量m上每种方法(x)相对于最差方法(y,由-表示)的平均相对改进(RI):RI m(x,y)=m(y)m(x)/m(y),其中m(x)是x在度量m上的结果。 RI以百分比示出。我们的Im-Tex在11项指标中有8项优于其他产品,并且我们在所有数据集上获得了最好的LPIPS分数。一般来说,我们的系统能够从单眼视频学习化身,并且可以应用于日常活动中,其中设置具有多视图相机的工作室来捕获训练数据将是非常具有挑战性的。多视频比较。我们还进行了多视频实验,其中每个方法都在表2中来自不同视点的多个视频上进行了训练。我们用Hl的9个多视图相机和H4的4个多视图相机训练6种方法。当训练中加入更多的视频序列时,每种方法都表现得更好,特别是我们的方法可以重建更多的细节,如图所示9 .第九条。 提供了更多关于多视频训练的比较方法H2H3H4平均相对改善(%)SSIM↑LPIPS↓SSIMLPIPSSSIMLPIPSSSIMLPIPSRISSIM↑RILPIPS↑RIPSNR↑伊姆特克斯7.5291.6236.8401.6176.4691.5697.5351.5711.2687.562.748Pix2PixHD7.3951.7136.7981.7136.3421.6407.4281.615-2.427.404前特克斯7.4311.6916.7781.6836.3261.6767.4351.6290.0893.630.555唯我7.4371.7696.7821.7046.3611.6607.5861.5780.240-.467仅MV7.5431.7386.8281.6266.3601.5857.5051.5871.1904.263-Fea-Net7.4441.6956.8231.6876.3501.6307.4491.6160.4873.600.91214534图8:与纹理神经化身的比较[38]。我们的方法(左)产生逼真的时间和姿态相关的外观细节,如服装中的姿态相关皱纹,或衬衫的移位。相比之下,纹理神经化身不能产生相同级别的真实感,因为具有固定衣服褶皱的静态纹理被扭曲成新的姿势。图9:单视频和多视频训练之间的渲染从左至右:自我中心图像和估计的密集姿态、单视频结果、多视频结果、地面实况。通过多视频训练,可以恢复更多细节,例如右手。H1H4SSIMLPIPSPSNRSSIMLPIPSPSNRIMT8.1341.1742.1047.8931.2461.780P2p8.0381.2182.0777.8231.3011.753ExT7.9931.2582.0597.7161.3741.722自我8.0381.2282.0757.8251.2871.763MV8.1741.2172.1407.7701.3431.732FNET 8.0221.2202.0957.7441.3721.736表2:Hl室外和H4室内数据集上的多视频训练的定量比较。SSIM和LPIPS乘以10,PSNR乘以0.1。方法如下:Im-Tex,Pix2PixHD,Ex-Tex,Only-Ego,Only-MV,Fea-Net.图13和补充材料。4.3. 纹理神经化身(TNA)我们将我们的方法与图8中基于静态纹理的方法TNA进行比较,其中我们的方法可以产生时间和姿势相关的外观细节,而TNA不能。4.4. 消融研究我们研究了学习的神经纹理与第4.1节中介绍的其他人类渲染方法相比的优势,包括Pix 2 PixHD [52],Fea-Net [35],Ex-Tex,Only-Ego和Only-MV。注意主要区别图10:与Only-MV相比,使用我们的Im-Tex的自我中心纹理导致面部、颈部和衣领中可见的改善。我们甚至恢复小衣服,但-吨可见的自我形象。图11:在应用中,给定以自我为中心的相机图像(左),我们的方法可以从不同的视点生成合理的化身,即使具有在训练中未见过的高仰角(最后四个)。我们展示了与图4相同的示例框架。在这些方法中有纹理合成模块。根据表1、图7-13和我们的补充资料中的定量和定性结果,我们通过比较不同的方法得出以下结论我们使用a> b来表示方法a优于方法b。1) 纹理合成方法(例如Im-Tex,Only-MV)优于直接姿势到图像平移方法(Pix 2 PixHD),这由Only-MV>Pix 2 PixHD暗示,其中唯一的区别是Only-MV具有隐式纹理堆栈Tm。2)从自我中心的图像纹理有助于提高14535图12:闭塞部分与仅MV的比较。图13:应用程序中不同视图的渲染。由Im-Tex>Only-MV暗示的渲染质量。3)隐式纹理堆栈Tm很重要,由Im-Tex“只有自我。4)隐式纹理堆栈捕获详细的ap-通过Im-Tex>Ex-Tex暗示,在姿势和视点之间的透明度变化优于显式颜色纹理堆栈。5)对于我们的人类特定任务,维护全局共享的纹理堆栈比从每个帧的以自我 为 中 心 的 图 像 中 提 取 临 时 特 征 更 好 , 这 由 Im-Tex>Fea-Net[35]暗示与Im-Tex不同,Fea-Net具有特殊的FeatureNet,可以从以自我为中心的输入中提取高维特征。虽然Fea-Net的参数几乎是我们的两倍,但在这个特定于人的任务上,它的性能不如我们。为什么所提出的方法优于其他方法?首先,我们将这种改进归因于显式织构合成。与Pix2PixHD相比,Pix2PixHD学习目标姿势和RGB化身之间的隐式相关性,我们的方法通过特征渲染显式地利用目标姿势的语义,并将渲染公式化为从隐式纹理到化身的更容易的转换。第二,我们利用自我纹理作为输入优于仅MV,如图7、10所示,其中我们的显示出更好的真实感(例如:脸和衣服),甚至重新构建了以自我为中心的图像中可见的微小按钮在图10中。我们还看到,即使在遮挡部分(例如,图7的第1行中的人的头部,图13的第二行中的人的背部,以及图12),其中不直接使用来自自我纹理的RGB纹理。然而,包含在自我纹理中的额外监督使得Render-Net能够更好地学习被遮挡部分和可见纹理区域之间的相关性,并且可能有助于学习对更准确的渲染有用的隐式形状讨论:自我中心设置。为什么不首先将鱼眼图像转换为正常图像,然后执行传统的人工合成?由于我们使用的是具有180◦视场(FOV)的鱼眼相机虽然裁剪的鱼眼图像(通过减小FOV)可以是不失真的,但是我们通过这样做而失去了使用鱼眼图像的主要优点一一在宽范围的运动下的全身捕获,包括完全伸展的手臂等。这也是许多现有的以自我为中心的方法直接处理鱼眼图像的原因[54,50]。4.5. 应用在实际应用中,如图4和第3.3节所述,EgoRenderer使用Mo2Cap2 [54]提取3D姿态并合成目标姿态。在图13中针对图4中的示例帧提供了六种方法的合成目标姿态和比较。我们的方法比其他方法生成更高质量的化身。在图11中,我们展示了更多的视点。可以观察到,EgoRenderer从新颖的视点合成合理的化身,此外,EgoRenderer可以在本地(以人为中心)和全局坐标系中使用相机跟踪。更多详情请参见补充材料。5.总结和讨论我们提出了自我渲染合成自由视点化身从一个单一的自我中心的鱼眼相机,我们的系统是一个重要的一步,实际的日常全身重建。我们将我们的方法视为各个领域许多令人兴奋的应用的基础,例如性能分析以及AR和VR中的人体重建。然而,我们的系统受到某些限制,主要是由Mo2Cap2 [54]的不准确性引起的:1) Mo2Cap2可以估计15个关节(例如,颈部、肩部、肘部、手腕、臀部、膝盖、脚踝和脚趾),而需要24个关节来驱动SMPL模型,这可能导致反向运动学的不准确性和不自然的运动。2) Mo2Cap2每帧预测在运行时表现出一些时间不稳定性,这导致渲染中的时间抖动。我们相信这些问题可以通过优化姿态估计模块来解决。鸣谢。 MZ由NSF#1813583支持。14536引用[1] Kfir Aberman,M. Shi,Jing Liao,Dani Lischinski,B.Chen和D.科恩-奥基于深度视频的性能克隆。计算机图形论坛,38,2019。二、三[2] Congqi Cao,Yifan Zhang,Yi Wu,Hanqing Lu,andJian Cheng.使用具有时空变换器模块的循环3d卷积神经网 络 进行 自 我 中 心手 势 识 别 。在 IEEE InternationalConference on Computer Vision,第3783-3791页中IEEE计算机学会,2017年。三个[3] Y. Cha,T. Price,Z. Wei,X. Lu,N.鲁科夫斯基河查布拉Z. Qin,H.金,Z.Su,Y.Liu,中国粘蝇A.Ilie,A.State,Z.许、J. Frahm和H.福克斯朝向仅使用头戴式摄像机的完全移动的3D面部、身体和环境捕获。IEEE Transactions onVisualization and Computer Graphics,24(11):2993-3004,2018。三个[4] C. Chan,Shiry Ginosar,Tinghui Zhou,and Alexei A.埃夫罗斯大家跳舞吧2019年IEEE/CVF计算机视觉国际会议(ICCV),第5932-5941页,2019年。二、三、六[5] Mohamed Elgharib , Mallikarjun BR , Ayush Tewari ,Hyeongwoo Kim,Wentao Liu,Hans-Peter Seidel,andChris-tian Theobalt.自我脸:以自我为中心的面部表现捕捉和视频逼真的重演,2019年。三个[6] Mohamed Elgharib , Mohit Mendiratta , Justus Thies ,Matthias Nießner, Hans-Peter Seidel,Ayush Tewari,Vladislav Golyanik,and Christian Theobalt.以自我为中心 的 视 频 会 议 ACM Transactions on Graphics , 39(6),2020年12月。三个[7] A. Elhayek、E.de Aguiar,A.Jain,J.汤普森湖皮舒林M.安德里卢卡角布雷格勒湾Schiele和C.希奥博尔特高效的基于convnet的无标记运动捕捉,在一般场景中使用少量相机。在2015年IEEE计算机视觉和模式识别会议(CVPR),第3810-3818页一个[8] A. K. GrigorLempitsky基于坐标的姿态引导人体图像生成的纹理修补。计算机视觉和模式识别(CVPR),第12127-12136页,2019年。三个[9] R. A. Güler,N. 内韦罗娃和我 Kokkinos 密集姿势:野外密集人体姿态估计。2018年IEEE/CVF计算机视觉和模式识别会议,第7297-7306页,2018年。一、二、四、五[10] Hao Jiang和Kristen Grauman。看不见的姿势:从自我中心的视频中估计3D身体姿势。在IEEE Conference onComputer Vision and Pattern Recognition,第3501-3509页中IEEE计算机学会,2017年。三个[11] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。第9906卷,第694-711页,2016年10月。五个[12] Hyeongwoo Kim , Pablo Garrido , Ayush Tewari ,Weipeng Xu,Justus Thies,Matthias Nießner,PatrickPérez , Christian Richardt , Michael Zollöfer , andChristian Theobalt. 深 度 视 频 肖 像 。 ACM Transactions onGraphics(TOG),37,2018。二个14537[13] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。CoRR,abs/1412.6980,2015。五个[14] Bernhard Kratzwald , Zhiwu Huang , Danda PaniPaudel,and Luc Van Gool.通过在野外GANing视频来了解我们的世界。arXiv:1711.11453,2017。三个[15] 放 大 图片 作 者 : Hao Li , Laura C.Trutoiu , KyleOlszewski,Lingyu Wei,Tris-tan Trutna,Pei-LunHsieh,Aaron Nicholls,and Chongyang Ma.脸部表现感测头戴式显示器。ACM事务处理图表,34(4):47:1-47:9,2015. 三个[16] Lingjie Liu,Jiatao Gu,Kyaw Zaw Lin,Tat-SengChua,and C.希奥博尔特神经稀疏体素场。ArXiv,abs/2007.11571,2020。二个[17] Lingjie Liu , Weipeng Xu , Marc Habermann ,Michael Zoll- höfer , Florian Bernard , HyeongwooKim,Wenping Wang,and Christian Theobalt.通过学习动态纹理和渲染到视频的翻译来进行神经人类视频渲染。IEEE Transactions on Visualization andComputer Graphics,PP:1-1,2020年5月。三个[18] Lingjie Liu , Weipeng Xu , Michael Zollhoefer ,HyeongwooKim,FlorianBernard,MarcHabermann,Wenping Wang,and Christian Theobalt.人类演员视频的神经渲染和重演ACM Transactionson Graphics(TOG),2019年。三个[19] 刘玲杰,徐伟鹏,M.Zollhöfer,H.Kim,F.放大图片作者:Bernard,W. Wang和C.希奥博尔特人类演员 视 频 的 神 经 模 拟 和 重 演 。 ArXiv ,abs/1809.03658,2018。二个[20] 刘维扬,Y. Wen,Zhiding Yu,Ming Li,B.拉吉和勒松。Sphereface:用于人脸识别的深度超球面嵌入。2017年IEEE计算机视觉和模式识别会议,第6738-6746页,2017年。五个[21] 斯蒂芬·隆巴迪、杰森·萨拉吉、托马斯·西蒙和亚瑟·谢赫。用于面部渲染的深层外观模型。ACM事务处理图表,37(4),2018年7月。三个[22] Stephen Lombardi、Tomas Simon、Jason Saragih、GabrielSchwartz 、 AndreasLehrmann 和 YaserSheikh 。 Neural volume- umes : Learning dynamicrenderable volumes from images.ACM事务处理图表(SIGGRAPH),38(4),2019年。二个[23] M.放大图片作者:J. Romero,Gerard Pons- Moll,and Michael J.黑色.一个多人皮肤线性模型。ACM事务处理图表,34:248:1-248:16,2015. 4[24] 马 丽 倩 、 徐 佳 、 孙 倩 茹 、 Bernt Schiele 、 TinneTuyte- laars和Luc Van Gool。姿势引导的人物图像生成。神经信息处理系统进展,第405-415页,2017年三个[25] Liqian Ma,Qianru Sun,Stamatios Georgoulis,Lucvan Gool,Bernt Schiele,and Mario Fritz.分解的人物形象生成。计算机视觉与模式识别(CVPR),2018年。三个[26] Minghuang Ma,Haoqi Fan,and Kris M.喜谷深入了解第一人称活动识别。在IEEE Conference on ComputerVision and Pattern Recognition,第1894-1903页中IEEE计算机学会,2016年。三个[27] Dushyant Mehta , H. Rhodin 、 D. Casas , P. Fua ,Oleksan
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AA4MM开源软件:多建模与模拟耦合工具介绍
- Swagger实时生成器的探索与应用
- Swagger UI:Trunkit API 文档生成与交互指南
- 粉红色留言表单网页模板,简洁美观的HTML模板下载
- OWIN中间件集成BioID OAuth 2.0客户端指南
- 响应式黑色博客CSS模板及前端源码介绍
- Eclipse下使用AVR Dragon调试Arduino Uno ATmega328P项目
- UrlPerf-开源:简明性能测试器
- ConEmuPack 190623:Windows下的Linux Terminator式分屏工具
- 安卓系统工具:易语言开发的卸载预装软件工具更新
- Node.js 示例库:概念证明、测试与演示
- Wi-Fi红外发射器:NodeMCU版Alexa控制与实时反馈
- 易语言实现高效大文件字符串替换方法
- MATLAB光学仿真分析:波的干涉现象深入研究
- stdError中间件:简化服务器错误处理的工具
- Ruby环境下的Dynamiq客户端使用指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功