没有合适的资源?快使用搜索试试~ 我知道了~
基于坐标的姿态引导图像纹理修复
1基于坐标的姿态引导人体图像纹理修复Artur Grigorev1,2Artem Sevastopolsky1,2Alexander Vakhitov1Victor Lempitsky1,21 Samsung AI Center,莫斯科,俄罗斯联邦2俄罗斯莫斯科斯科尔科沃科技学院{a.grigorev,a.sevastopol,a.vakhitov,v.lempitsky}@ samsung.com摘要我们提出了一种新的深度学习方法,用于姿势引导的人体照片再合成。新方法的核心是基于一张照片估计完整的身体表面由于输入的照片总是只观察到表面的一部分,我们提出了一种新的修复方法,完成了人体的纹理。修复网络不是直接处理纹理元素的颜色,而是为身体表面的每个元素估计输入图像和纹理之间的该对应字段然后基于期望的姿态被进一步扭曲到目标图像坐标系中,从而即使在姿态变化剧烈时也有效地建立源视图和目标视图然后,最终的卷积网络使用建立的对应关系和所有其他可用信息来合成输出图像。使用具有由估计的对应字段引导的可变形跳跃连接的全卷积架构。我们展示了姿态引导图像合成的最新结果此外,我们展示了我们的系统的性能服装转移和姿势引导的人脸重新合成。1. 介绍从单个图像学习人类外观(一次性人类建模)最近已经成为高度研究兴趣的领域。一种有趣的问题,在增强现实和零售中有许多潜在的应用,是姿势引导的图像生成[20]。在这里,任务是从一个新的视角和一个新的姿势,给定一个单一的输入图像重新合成一个人的视图。该问题的进展得益于人体姿态估计和深度生成卷积网络(ConvNets)的最新进展。一个特定的chal-在这项工作中,我们提出了一种新的方法,姿势指导人 物 形 象 生 成 。 该 方 法 基 于 包 含 两 个 深 度 生 成ConvNets的管道。第一个卷积网络,从人体表面纹理的一小部分(纹理完成/修复)来估计人体表面的纹理然后,该纹理被扭曲到新的姿势,以作为生成新视图的第二卷积网络的输入。该方法的一个新颖之处在于纹理估计部分(图1),其中的挑战是利用人体的自然对称性。这个任务是不平凡的,因为已知的纹理部分从一个输入图像到另一个输入图像发生变化。结果,直接的图像到图像转换方法导致非常模糊的纹理,其中在未知位置处预测的颜色在非常大量的输入位置上被有效地平均。为了解决这个问题,我们提出了一种新的方法,纹理完成,我们称之为基于坐标的纹理在绘画,并导致在一个显着的提升视觉质量输出的整个管道。该方法基于一个简单的想法。修复网络不是直接处理纹理元素的颜色,而是处理源视图中纹理元素的坐标这些值由修复网络分析,然后扩展到纹理的未知部分,以便每个未知纹理元素在源视图中分配一个坐标。因此,估计源像素与身体表面上的所有点之间的对应关系。使用估计的对应关系,每个纹理元素的颜色可以从源视图中转移。因此,修复发生在坐标空间中,而从源图像中提取颜色(生成最终纹理)发生在修复之后因此,修复后的纹理保留了源图像中的高频细节给定由基于坐标的修复过程生成的详细纹理,流水线 的 下 一 步 骤 根 据 目 标 姿 态 ( 类 似 于 [22] , 由DensePose [11]描述符定义)扭曲颜色纹理和源图像坐标的最后阶段1213512136身体纹理坐标源位姿源坐标源图像S变形震源坐标E目标姿态MN扭曲颜色W彩色纹理T不完全织构C(coordrepresentation)输入纹理D(coord 代表)图1.基于坐标的纹理修复。该计划描述了我们管道的第一部分(两部分中的第一部分)。给定源姿态(由DensePose估计并转换为SMPL格式),我们将已知纹理元素的源坐标(例如,通过扭曲源坐标网格)。使用深度卷积网络(灰色)将生成的映射完成为完整的身体纹理,其中为每个纹素分配源图像中的相应像素坐标。然后,使用该对应图来估计颜色纹理。 第二次变形使用目标姿态将估计的纹理图变换到目标坐标系中,再合成以该目标姿态为条件(在测试时已知的数据被加下划线。在图中定义色图的2D网格阵列以斜体显示。扭曲变换使用绿色箭头显示,其中侧连接对应于扭曲坐标,直箭头指向被扭曲的数据。流水线采用变形图像以及姿态信息,并使用具有跳跃连接的深度全卷积编码器-解码器架构将其映射到目标图像。输入图像用于该转换网络,而在纹理修复过程中获得的扭曲源图像坐标用于路由可变形跳过连接[28]。因此,我们的贡献是双重的。首先,我们提出了一种新的纹理补全方法,即使在很大的不确定性下也能保留高层次的纹理细节其次,我们提出了一个姿态引导的人的图像生成管道,利用这种方法在两个方面(修补纹理和引导可变形的跳跃连接),以产生新的视图具有高真实感和丰富的纹理细节。我们的方法在流行的Deep Fashion数据集上进行了评估[18],在那里它获得了优于现有技术的良好结果。此外,我们还使用300-VW数据集[26]证明了基于坐标的纹理修复思想对面部纹理修复任务的有效性,用于面部的野外新视图合成作为一个尾声,我们表明,我们的方法的一个小的修改,可以成功地用于执行服装转移(虚拟试穿)具有令人信服的结果。2. 相关工作基于变形的再合成人们对使用深度卷积网络来生成逼真的图像[10,4]。在重新合成的情况下,当通过输入图像的几何形状和外观的变化生成新图像时,已经表明使用扭曲模块大大提高了重新合成图像的质量[7,38]。在这种情况下,扭曲模块基于可微分(后向)网格采样 器 层 , 该 层 最 初 作 为 空 间 变 换 器 网 络(SpaceTransformer Net- works,缩写为STN)的一部分引入[14]。大量的后续工作的再合成下面回顾依赖于后向采样器。在这里,我们重新审视这个构建块,并提倡使用前向扭曲模块。神经人类再合成。最近已经提出了用于将人的输入视图转换成具有修改的姿势的新视图的基于神经的系统。最初的作品[20,21,5]使用编码器-解码器类型的架构来执行再合成。最近的作品使用扭曲模型,重定向原始像素或源视图的中间激活[30,28,36,22]。我们的方法属于这一类,并且与[22]最相关,因为它在网络中使用了DensePose参数化[11],并且与[30]最相关,因为我们使用了[30]中的可变形跳跃连接的想法。我们将我们的结果与[22,30]以及[5]进行了广泛的比较。纹理完成。基于深度卷积网络的图像修复正引起越来越多的关注,12137SSNN此刻适应输入数据中存在间隙的卷积架构的特殊变体包括Sheppard网络[24],稀疏不变CNN [31],部分卷积网络[17],门控卷积网络[35]。我们将后一种变体用于我们的纹理修复网络。学习身体纹理修补有两个特定的部分,区别于一般的图像修补。首先,完整的纹理可能不容易获得,并且期望设计一种可以从部分图像训练的方法。其次,纹理在空间上是对齐的,并且具有可利用的对称结构,这需要专用的算法。我们知道只有少数作品专门处理这些挑战。因此,UV-GAN [3]通过将图像及其翻转副本传递到图像修复ConvNet来利用面部的主轴[36]中的系统估计与SMPL模型顶点具有相似颜色的概率相对应的概率,并使用它来用未观察到的颜色对顶点进行着色。服装转移。 我们还表明,我们的方法的一个小的修改,可以用来转移衣服从一个人的照片,以不同的姿势不同的人的照片。大多数现有的工作,uti-神经网络只能处理非常有限的变形量之间的源图像和目标视图[12,15,32]。我们所知道的唯一可以处理类似数量的姿势变化的工作是SwapNet [23],然而它只在低分辨率下呈现结果。我们在实验部分与[23面部再合成我们的方法涉及到一些最近的人脸再合成工程,通过扭曲输入图像到输出图像。这些作品包括图2.使用基于颜色的补绘(中)和基于坐标的补绘(右)对保留集(左)上的输入估计的身体表面纹理。这两种修复都是使用深度网络生成的,这些深度网络是用各种标准损失进行端到端训练的。基于坐标的修补生成具有更多细节的纹理,从而获得更好的最终重新合成结果。真实的位置是已知的。因此,我们假设对于源图像中(相应地在新图像中)的每个像素[x,y],存在与[x,y]相关联的映射MS[x,y](相应地MN[x,y]),位置[u,v]=[M1[x,y],M2[x,y]](分别地,[u,v]=[M1[x,y],M2[x,y]])在tex上[27]和X2Face [34]。一个较老的工作可以追溯到开创性的Blanz和Vetter变形模型[1],使用参数模型从其片段中估计面部纹理3. 方法问题表述。我们的目标是从源视图S合成人N的新视图。通过估计纹理T来进行再合成。下面,我们使用索引[x ,y]来表示图像帧中的位 置(源视图和新视图),并使用索引[u,v]来表示纹理中的位置。我们将源和目标图像元素和位置称为像素,并将纹理元素和位置称为纹素。纹理与源和新视图相关联,并且下面[22]我们假设对于源和新视图,从覆盖身体的像素子集(不包括头发和宽松的衣服)到身体纹理的映射是的。对于不落在投影内的像素[x,y],对于人体,映射MN和MS是未定义的。我们假设MS[x,y]和MN[x,y]被给出,并且我们的目标因此是在给定其主体纹理映射MN[x,y]以及已知源视图S及其主体纹理映射MS的情况下估计新的未知视图N。纹理贴图格式和输出条件。我们使用SMPL纹理格式[19]。为了使我们的方法与[22]相比较,我们基于DensePose [11]估计映射MS和MN,然后使用预定义的映射(与DensePose一起提供)将它们转换为SMPL坐标。因此,与[22]不同的是,我们在转移过程中使用单个身体然而,用于对源和目标姿态进行编码的信息是完全相同的(密集姿态编码),使得方法直接可比较。12138可变形跳跃连接地面实况损结果跳过连接ΣΣ基于坐标的纹理修复。 我们的流水线的第一步从源图像S估计完整的身体表面纹理,并且映射MS。我们首先使用warp- ing在纹理上光栅化源图像坐标更详细地,我们使用具有双线性内核的散射插值,使得每个源像素[x,y]在位置[M1[x,y],M2[x,y]]处被光栅化。[22]我不信。S S颜色值,但值x和y本身(在其他我们将离散插值应用于网格阵列)。该扭曲步骤的结果是源坐标映射C,其对于每个纹理元素(纹素)[u,v]定义源图像中的对应位置[x,y]=[C1[u,v],C2[u,v]]由于在源照片中只能看到人体的一部分,因此对于大部分纹素,源图像位置是不确定的。当将C传入网络时,我们将未知值设置为负常数(-10),并为网络提供已知t个exels的掩码C′[u,v]。我们的流水线的第一个可学习模块是具有可学习参数φ的修补网络f(C,C′;φ),其采用纹理空间中的不完整坐标映射C以及已知纹素的掩码,并输出完整和校正的源对应映射D,其中对于每个[u,v],定义了源图像中的对应位置D=f(C,C′;φ).(一)映射f具有全卷积结构。该网络的任务是学习人体和人类服装的典型对称性,例如身体部位之间的左右对称性以及不太明显的对称性。例如,网络有机会了解到许多衣服都有重复的纹理,因此如果需要从正面来猜测后面的纹理,网络所能做的最好由于网络f处理修复任务,我们利用最近提出的门控卷积层[35]而不是标准卷积层。我们使用一个沙漏(没有跳过连接)架构,有14个卷积层,2.8数百万个参数给定估计的源对应图D,我们可以通过使用由D规定的位置对原始图像进行采样来获得完整的纹理:T[u,v]= S[D1[u,v],D2[u,v]]。(二)图3.最终再合成。管道的第二部分(两部分中的第二部分),它获取由修复阶段计算的映射,并将其映射到最终输出图像。两个单独的编码器被用于与源姿态(源姿态、源图像、网格)对准的图以及用于与目标姿态(目标姿态、扭曲的颜色纹理、扭曲的源坐标图、网格)对准的图该网络具有U-Net型架构(具有中间残留块)。可变形跳过连接用于将源坐标编码器的激活传递到联合解码器。目标和源图像之间的估计的对应映射被用于引导可变形跳跃连接。在每一对中的管线的输出与地面实况目标图像之间计算的标准损失函数用于学习。首先从源图像采样到纹理,导致不完整的颜色纹理,然后使用可学习的卷积体系结构来修补不完整的颜色纹理当我们比较这两种方法时,我们发现,由于纹理修复任务的非常高的不确定性和多模态,与基于坐标的修复相比,基于颜色的修复产生具有非常模糊的细节的纹理(参见图2)。(六)。如将在实验中所示,当嵌入到端到端再合成流水线中时,使用基于坐标的修复获得了相当好的结果。新视图重新合成。类似于[22],为了重新合成目标视图,我们使用后向双线性扭曲将获得的颜色纹理T以及基于坐标的纹理映射DΣ1 2Σ其中双线性采样算子[14]用于在分数位置对源图像进行采样。W[x,y]=T MN[x,y],MN[x,y],(3)E[x,y]=D M1[x,y],M2[x,y],(4)N N比较我们的方法是很有趣的(基于坐标的修复)以通过其他纹理修复方法(基于颜色的修复)获得纹理的方式获得完整的纹理,例如[22,3,36]。在基于颜色的修补的情况下,采样(2)和修补操作(1)被交换,即,颜色其中,W和E是包含RGB颜色和目标视图的每个主体像素的源视图位置的新映射。非主体像素的值是未定义的(实际上设置为零)。扭曲(4)有效地估计目标视图和源视图之间的对应性12139我们的流水线的最后一级是单个卷积网络g,它将映射W、E以及输入映射S、MS和MN转换(转换)为输出图像N。我们首先考虑一个简单的架构,该架构将所有五个映射以及在图像帧上定义的网格作为输入,并使用[16]的架构添加跳过连接来合成输出图像。一个警告是,输入地图S、MS不以任何方式与目标新图像对准,这已知会引起问题。作为一个更高级的变体(图3),我们使用了可变形跳跃连接[28]的想法。为此,我们使用单独的编码器部分用于与单独的网格-网格连接的两个映射S和MS。当将该编码器的激活传递到解码器时,我们使用扭曲域E及其下采样版本来对激活进行双线性重采样在实验中,我们比较了两种变体的架构,发现可变形的跳跃连接大大提高了我们管道的性能。培训程序。我们完整的管道包括两个卷积网络,即执行基于坐标的纹理完成的修复网络f和最终网络g。这两个网络都是在四元组{S,MS,N,MN}。我们首先通过最小化包括两项的损失来训练网络f:(1)输入不完整纹理C与经修复纹理D之间的差值,其中该差值是在C中观察到的纹素上计算的;(2)经修复纹理D与通过使用映射M N将目标图像N扭曲到纹理空间中而获得的不完整输出纹理之间的差值,其中该差值是在M N中观察到的纹素上计算的。输出图像。在此之后,我们固定f并优化网络g的权重,其中我们最小化预测的N和真实新视图N之间的损失。在这里, 我们 结合 了基 于 VGG-19 网络 [29]的感 知损 失[16],基于同一网络的风格损失[8],基于补丁GAN的对抗性损失[10][13]和[28]中引入的最近邻损失(这被证明是[22]中使用的l1虽然第一个网络f可以在第二阶段进行微调,但我们没有发现它对最终的图像质量有益服装转移。对我们的架构进行轻微修改,使其能够执行服装转移[12,15,32,23]。在这里,给定两个视图A和B,我们想要合成一个新视图,其中姿势和人物身份取自视图B,而服装取自视图A。我们通过采用上面概述的架构,并且另外在目标视图的掩蔽图像N'上调节网络g来实现这一点,其中我们掩蔽除了头部(包括面部、头发、帽子和眼镜)和手之外的所有区域(包括手套)。网络g在同一个人的成对视图上进行训练,并有效地学习从N′到N复制头部和手部。在测试时,我们向网络提供身份特定图像N′和身体纹理映射MN,它们都是从输入视图中描绘的不同人的图像中获得的。我们表明,我们的架构成功地概括到这个设置,从而完成了虚拟重新打扮的任务。4. 应用和实验4.1. 姿态引导图像生成对于主要实验,我们使用DeepFashion数据集(店内服装部分)[18]。一般来说,我们遵循与[28,22]中使用的相同的分割,其中包括140,110个训练对和8,670个测试对,其中服装和模型在训练集和测试集之间不重叠。网络架构。对于纹理修复网络f,我们采用了[ 35 ]中的具有门控卷积的沙漏架构,这在具有大隐藏区域的图像重建任务中被证明是有效的。细化网络g也是一个沙漏网络,它有两个编码器,通过一系列门控卷积映射图像,这些卷积与三个下采样层交织,产生256 × 64 × 64个特征张量。这之后是连续的残差块,并由解码器得出结论编码器和解码器也通过三个跳跃连接(三种分辨率中的每一种)连接与S和MS一起工作的编码器通过由变形字段E引导的可变形跳跃连接连接到解码器。 网络f有2,824,866个参数,网络g有11,382,984个参数。与最新技术水平的比较。我们将我们的方法(全管道)的结果与三个最先进的作品[22,28,5]进行了比较。我们再次密切关注以前的工作[22],使用结构自相似性(SSIM)及其我们还使用了最近引入的感知距离度量(LPIPS)[37],该度量使用根据人类判断训练的网络来测量图像之间的距离(表1)。此外,我们还进行了一项用户研究,根据来自测试集的80个图像对将我们的结果与最先进的结果进行比较(图像对的索引以及[22,28,5]的结果由[22]的作者提供)。 在用户研究中,我们将结果与[22,28,5]一起显示,并要求选择最适合地面真实(目标)图像的变体源图像未显示。介绍的顺序是正常的。5012140SRC GT [28][22][5] Ours-D Ours-K SRC GT [28][22][5] Ours-D Ours-K图4.与最新技术水平的并排比较(测试集中的前8个样本)。我们显示了源图像(SRC),目标姿态(GT)中的地面实况,可变形GAN [28],我们的方法以密集姿态(Ours-D)为条件,我们的方法以关键点(Ours-K)为条件与更广泛集合上的用户研究一致,我们的方法更稳健,并且在该子集上具有比最新技术水平更少的伪影[28,22]。推荐使用电子放大人们参与了用户研究。他们每个人都要在80对中选择更真实的图像。在90%的情况下,我们的重建优于[22],76.7%的情况下优于[28],而与[5]相比,我们的结果在71.6%的情况下被认为更真实(在三种情况下,分别比较了大约4000对)。消融研究。我们评估了上述方法的完整变体以及以下消融。在Ours-NoDeform消融中,我们不使用网络f中的可变形跳跃连接,导致W,E,S,MS,MN的单个编码器,即使它们中的一些(S,MS)与源视图对齐,而其他(W,E,MN)与目标视图对齐。在RGB修复消融中,我们另外用颜色空间修复替换基于坐标的修复,使得纹理修复阶段的输出仅是颜色纹理T,其根据MN被扭曲成与目标视图对齐的扭曲纹理W由于地图E在这种情况下不可用,因此在这种情况下不使用可变形的跳过连接。最后,无纹理消融简单地使用映射S、MS和MN作为平移网络的输入,完全忽略纹理估计步骤。我们在相同的四个指标方面比较算法的完整版本:SSIM、MS-SSIM、IS和LPIPS。到SSIM↑MS-SSIM↑IS↑LPIPS↓我们0.7910.8104.460.169DPT [22]0.7850.8073.61-DSC [28]0.761-3.39-VUnet [5]0.7530.7574.550.196表1.与最新技术水平的比较。我们的方法在四个使用的指标中的三个中超过了其他三个,尽管我们发现SSIM、MS-SSIM和IS对视觉保真度的判断远不如用户判断。箭头↑、↓分别表示分数越大或越小,哪个值越好。由于我们无法访问完整的测试集和某些方法的代码为了确保基于坐标的修复优于基于颜色的修复,我们还进行了一项用户研究,比较了我们的全修复和RGB修复方法。在本评价期间,62.7%的病例首选Ours-Full。关键点引导再合成可以认为,我们的方法(以及[22])与[28,5]和其他关键点条件方法相比具有不公平 的 优 势 , 因 为 与 关 键 点 ( 骨 架 ) 相 比 , 基 于DensePose的条件提供了更多关于目标姿势的信息。为了解决这个问题,我们训练了一个全卷积网络,该网络在一组地图上光栅化OpenPose [2]检测到的骨架(每个地图一个骨骼)并训练网络12141人布试穿图5.服装转移程序的例子得到使用我们的方法的一个简单的修改。在每一个三联体中,第三个图像显示了第一个图像中的人穿着第二个图像中的衣服。[22 ]第22话:我们对整个网络进行微调,同时为目标图像显示这种我们添加此变体进行比较,并观察到我们的网络在此模式下的性能与具有DensePose条件的模式非常相似(图4)。服装转移。 我们还展示了一些定性的结果的服装转移(虚拟试穿)。服装转移网络是通过在训练过程中克隆我们的完整管道并将掩蔽的目标图像(具有暴露的面部和头发)添加到网络的输入来获得的。在训练过程中,地面真实目标的背景被预训练的网络分割出来[9],导致试穿图像上的白色背景。我们使用Dense-Pose坐标来找到面部部分,并且我们还使用相同的分割网络[9]来检测头发。随着训练的进行,网络很快学会了通过跳跃连接复制显示的部分,达到了预期的效果。我们在图5中显示了服装转移的示例。我们使用[23]作者提供的73件参与者被给予四个图像-布料图像 , 人 物 图 像 , 我 们 的 由 于 [ 23 ] 的 工 作 仅 产 生128×128图像,因此我们的结果被降采样。每个样本由50人进行评估,共3650例,其中我们的方法在57.1%的首选。4.2. 姿势引导的面部再合成为了证明我们的想法的一般性纹理在绘画,我们也将其应用到额外的任务,面对重新合成。在这里,重用用于全身重新合成的流水线,我们提供了一对不同的面部图像构成了一个源头和一个新的看不见的视角。为了估计映射MS和MN,我们使用PRNet [6] -一种最先进的3D面部重建算法,其提供具有固定数量的顶点(在公开可用版本中为43867)和三角形(86906)的完整3D网格。一个固定的预先计算的映射,从顶点数到他们的(u,v)纹理坐标也提供了PRNet implementation。通过使用PRNet处理源图像和目标图像,我们获得了依赖于图像的3D人脸网格的估计(x,y,z)坐标,使得(x,y)轴与图像轴对齐。我们将每个顶点的(u,v,1)纹理坐标设置为它的(R,G,B)颜色,并通过Z缓冲区将网格渲染到图像上,这使得像素仅在相机视图上可见(那些未被网格的不同面遮挡的像素)。类似于全身场景,所获得的源视图的渲染反映MS[x,y]映射,并且新视图的渲染反映MN[x,y]。流水线由两个网络f和g组成,这两个网络f和g遵循与用于全身视图再合成相同的架构。在提供源视图图像和新视图图像的情况下,系统将面部纹理从源图像转移到新视图图像的姿态上。对于这个子任务,我们使用300-VW [26]数据集,其中包含114人在野外拍摄的连续采访式视频每个视频的持续时间通常约为1分钟,空间分辨率从480 x 360到1280 x 720不等尽管原始视频的拍摄速度为25-30 fps,但我们将视频的每六帧以加快数据准备。图像预先通过PRNet找到的3D人脸的边界框进行裁剪,边缘为10像素,并将尺寸调整为128 x 128的分辨率。将数据12142集分为训练和验证,分别为91和23名受试者12143全身脸SSIM↑MS-SSIM↑IS↑LPIPS↓SSIM↑MS-SSIM↑IS↑LPIPS↓Ours-Full0.7910.8104.460.1690.6130.7641.8340.203Ours-NoDeform0.7970.8153.230.1980.6090.7581.8190.203RGB图像修复0.7970.8183.020.1980.5950.7451.8210.221无纹理0.7960.8123.2950.202表2. 全身和面部再合成的消融研究。对于所有算法,基于同一组验证图像执行评估。箭头↑、↓分别表示哪个值对分数更好-较大或较小。最近目标位姿最远目标位姿最近目标位姿最远目标位姿最近目标位姿最远目标位姿图6.几个测试样本的预测对于每种方法,我们随机选取3个受试者,第一个视频帧作为源帧,并根据姿态差异分布的4分位数对4个目标视图进行采样(参见第4.2小节中的测试协议)。对于每个受试者,源帧与所示的最左侧目标帧相同。在图中,渲染纹理是指将修复的纹理扭曲到新视图坐标上的结果,预测视图是包含纹理转移结果的最终算法输出。请注意我们的纹理和RGB修补中的纹理之间的锐度差异以及它们预测视图的视觉质量。推荐使用电子放大。新视图重新合成。表2包含消融研究的结果,我们在其中比较了该方法的三个研究版本(见第4.1小节)。报告的值是针对通过以下程序收集的1356张保留图像的子集计算的。对于验证集中的23个视频中的每一个,视频的每个第120然后,采集PRNet提供的所有视频帧的3D模型的姿态方向,并计算源帧3D模型的姿态矢量与其他所有帧的3D模型的姿态矢量之间的夹角为每个源帧选择4个目标帧作为最接近角度余弦分布的所有4分位数。通过这种方式,我们测试了模型在距离源姿势近和远的目标姿势上进行泛化的能力(六)。5. 结论我们提出了一种新的深度学习方法来进行姿势引导的图像合成。该方法通过估计人体的纹理来工作,而基于坐标的纹理修复的新方法允许重建细节丰富的纹理。重建的纹理,然后使用最终的再合成。 用户研究表明,该方法表现良好,并且优于现有技术的方法[28,22,5]。我们注意到,对于姿态的较小变化,完整纹理的映射和估计可能是不必要的,因此更直接的扭曲方法(如[28])在有限的变化下可能更合适。引用[1] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模型。第26届计算机图形和交互技术年会集,第187-194页。ACM出版社/Addison-Wesley出版公司1999. 3[2] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在CVPR,2017年。6[3] Jiankang Deng,Shiyang Cheng,Niannan Xue,YuxiangZhou,and Stefanos Zafeiriou.用于姿态不变人脸识别的对抗性面部uv图完成在Proc. CVPR,第7093-7102页三、四目标帧渲染纹理预测的视图渲染纹理预测的视图RGB我们12144[4] Alexey Dosovitskiy 、Jost Tobias Springenberg 、MaximTatarchenko和Thomas Brox。学习用卷积网络生成椅子、桌子和汽车。IEEE transactions on pattern analysisand machine intelligence,39(4):692-705,2017。2[5] 帕特里克·埃塞尔,叶卡捷琳娜·萨特,和比约恩·奥默。用于条件外观和形状生成的变分u-网在IEEE计算机视觉和模式识别会议(CVPR),2018年6月。二五六八[6] Yao Feng,Fan Wu,Xiaohu Shao,Yafeng Wang,andXi Zhou. 结合位置映射回归网络的三维人脸重建与密集对齐在ECCV,2018。7[7] 雅罗斯拉夫·甘宁,丹尼尔·科诺年科,戴安娜·桑加图利娜,维克多·伦皮茨基。Deepwarp:用于凝视操作的真实感图像重新合成。欧洲计算机视觉会议,第311-326页。施普林格,2016年。2[8] Leon A Gatys,Alexander S Ecker,and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议论文集,第2414-2423页,2016年。5[9] Ke Gong,Xiaodan Liang,Yicheng Li,Yimin Chen,Ming Yang,and Liang Lin.通过部件分组网络的实例级人工解析。arXiv预印本arXiv:1808.00157,2018。7[10] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。 在神经信息处理系统的进展,第2672二、五[11] RizaA l pGuéler,Na taliaN ev er ov a,andIasonasKokkinos.DensePose:在野外进行密集的人体姿势估计在IEEE计算机视觉和模式识别会议上,2018年6月。一、二、三[12] Xintong Han,Zuxuan Wu,Zhe Wu,Ruichi Yu,andLarry S Davis.Viton:一个基于图像的虚拟试穿网络。在CVPR,2018年。三、五[13] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei A.埃夫罗斯使用条件对抗网络的图像到图像翻译。在Proc.CVPR,第5967-5976页,2017年。 5[14] Max Jaderberg,Karen Simonyan,Andrew Zisserman,Koray Kavukcuoglu.空间Transformer网络。在procNIPS,第2017-2025页,2015年。二、四[15] 尼古拉·杰切夫和乌尔斯·伯格曼 条件类比GAN:在人物图像上交换时尚物品。在2017年IEEE国际计算机视觉研讨会上,ICCV研讨会2017年,意大利威尼斯,2017年10月22日至29日,第2287-2292页,2017年。三、五[16] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。在Proc. ECCV,第694-711页,2016年。5[17] Guilin Liu,Fitsum A Reda,Kevin J Shih,Ting-ChunWang,Andrew Tao,and Bryan Catanzaro.使用部分卷积 的 不 规 则 孔 图 像 修 复 。 arXiv 预 印 本 arXiv :1804.07723,2018。3[18] Ziwei Liu,Ping Luo,Shi Qiu,Xiaogang Wang,andXiaoou Tang. Deepfashion:为强大的服装识别和具有丰富注释的检索。在Proc. CVPR,第1096二、五[19] Matthew Loper、 Naureen Mahmood 、Javier Romero 、Gerard Pons-Moll和Michael J Black。Smpl:一个有皮肤的 多 人 线 性 模 型 。 ACM Transactions on Graphics(TOG),34(6):248,2015。3[20] 马丽倩、徐佳、孙倩茹、Bernt Schiele、Tinne Tuyte-laars和Luc Van Gool。姿势引导的人物图像生成。神经信息处理系统进展,第405-415页,2017年一、二[21] Liqian Ma,Qianru Sun,Stamatios Georgoulis,Luc VanGool,Bernt Schiele,and Mario Fritz.解纠缠的个人图像生成。在IEEE计算机视觉和模式识别会议,2018年6月。2[22] Nat a liaN ev er ov a , RizaAlpGuéler , andIason asKokkinos. 密 集 姿 势 转 移 。 欧 洲 计 算 机 视 觉 会 议(ECCV),2018年9月。 一二三四五六七 8[23] Amit Raj,Patsorn Sangkloy,Huiwen Chang,JingwanLu , Duygu Ceylan , and James Hays. Swapnet : 服 装transfer 在 单 视 图 图 像 . 在 欧 洲 计 算 机 视 觉 会 议(ECCV),2018年9月。三、五、七[24] Jimmy SJ Ren , Li Xu , Qiong Yan , and WenxiuSun.Shepard卷积神经网络在Proc. NIPS,第901- 909页,2015中。3[25] Tim Salimans 、 Ian Goodfellow 、 Wojciech Zaremba 、Vicki Cheung、Alec Radford和Xi Chen。改进的gans训练技术。神经信息处理系统的进展,第2234-2242页,2016年。5[26] Jie Shen,Stefanos Zafeiriou,Grigoris G Chrysos,JeanKossaifi,Georgios Tzimiropoulos,and Maja Pantic.第一个面 部标 志跟 踪在 野外 的挑战 :基 准和 结果 。在Proceedings of the IEEE International Conference onComputer Vision Workshops,第50二、七[27] Zhixin Shu , Mihir Sahasrabudhe , Riza Alp Guler ,Dimitris Samaras,Nikos Paragios,and Iasonas Kokkinos.变形自动编码器:形状和外观的无监督解缠。在欧洲计算机视觉会议(ECCV),2018年9月。3[28] AliaksandrSiarohin , EnverSangineto , StphaneLathuilire和Nicu Sebe。用于基于姿势的人类图像生成的可变形gans。在IEEE计算机视觉和模式识别会议,2018年6月。二五六八[29] Karen Simonyan和Andrew Zisserman用于大规模图像识别 的 非 常 深 的 卷 积 网 络 。 arXiv 预 印 本 arXiv :1409.1556,2014。5[30] Sergey Tulyakov,Ming-Yu Liu,Xiaodong Yang,andJan Kautz. Mocogan:分解运动和内容以生成视频。在IEEE计算机视觉和模式识别会议(CVPR)上,2018年6月。2[31] Jonas Uhrig , Nick Schneider , Lukas Schneider , UweFranke,Thomas Brox,and Andreas Geiger. 稀疏不变cnn。在3D视觉国际会议(3DV)中,第11- 20页。IEEE,2017年。3[32] Ting-Chun Wang,Ming-Yu Liu,Jun-Yan Zhu,GuilinLiu,Andrew Tao,Jan Kautz,and Bryan Catanzaro. 视12145频转12146视频合成arXiv预印本arXiv:1808.06601,2018。三、五[33] Zhou Wang,Alan C Bovik,Hamid R Sheikh,and EeroP Si-moncelli.图像质量评估:从错误可见性到结构相似性。IEEE图像处理学报,13(4):600-612,2004。5[34] Olivia Wiles , A. 索 菲 娅 · 科 普 克 和 安 德 鲁 · 齐 瑟 曼X2face:一个网络,用于控制面部生成使用图像,音频和姿势代码。在欧洲计算机视觉会议(ECCV),2018年9月。3[35] Jiahui Yu,Zhe Lin,Jimei Yang,Xiaohui Shen,XinLu,and Thomas S Huang.利用门控卷积进行自由形式图像修复。arXiv预印本arXiv:1806.03589。三、四、五[36] Mihai Zanfir、Alin-Ionut Popa、Andrei Zanfir和CristianSminchisescu。人类外貌转移。在IEEE计算机视觉和模式识别会议(CVPR),2018年6月。二、三、四[37] Richard Zhang 、 Ph
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新型智能电加热器:触摸感应与自动温控技术
- 社区物流信息管理系统的毕业设计实现
- VB门诊管理系统设计与实现(附论文与源代码)
- 剪叉式高空作业平台稳定性研究与创新设计
- DAMA CDGA考试必备:真题模拟及章节重点解析
- TaskExplorer:全新升级的系统监控与任务管理工具
- 新型碎纸机进纸间隙调整技术解析
- 有腿移动机器人动作教学与技术存储介质的研究
- 基于遗传算法优化的RBF神经网络分析工具
- Visual Basic入门教程完整版PDF下载
- 海洋岸滩保洁与垃圾清运服务招标文件公示
- 触摸屏测量仪器与粘度测定方法
- PSO多目标优化问题求解代码详解
- 有机硅组合物及差异剥离纸或膜技术分析
- Win10快速关机技巧:去除关机阻止功能
- 创新打印机设计:速释打印头与压纸辊安装拆卸便捷性
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功