如何将图像嵌入StyleGAN潜在空间的有效算法

163 浏览量更新于2023-10-12 收藏 5.07MB PDF 举报

图像编辑

图像修改

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1Image2StyleGAN：如何将图像嵌入StyleGAN潜在空间？RameenAbdalKAUSTrameen. kaust.edu.sa秦一鹏yipeng. kaust.edu.saPeterWonkaKAUSTpwonka@gmail.com摘要我们提出了一个有效的算法来嵌入一个给定的图像到StyleGAN的潜在空间。这种嵌入使语义图像编辑操作能够应用于现有的照片。以在FFHD数据集上训练的StyleGAN为例，我们展示了图像变形、风格转移和表情转移的结果研究嵌入算法的结果为StyleGAN潜在空间的结构提供了有价值的我们提出了一组实验来测试什么样的图像可以被嵌入，它们是如何被嵌入的，什么样的潜在空间适合嵌入，以及嵌入是否具有语义意义。1. 介绍生成式串行网络（GAN）在各种计算机视觉应用中得到了非常广泛的应用e.G. 纹理合成[18，33，28]、视频生成[31，30]、图像到图像转换[11，36，1，24]和对象检测[19]。在过去的几年中，由GAN合成的图像质量迅速提高。与2015年开创性的DCGAN框架[25]相比，目前最先进的GAN[13，3，14，36，37]可以以更高的分辨率进行合成其中，StyleGAN [14]利用了一个中间的W潜在空间，该空间有望实现一些受控的图像修改。我们相信，图像修改是一个更令人兴奋的，当它是-来可能修改一个给定的图像，而不是一个随机生成的GAN。这就引出了一个自然的问题，即是否有可能将给定的照片嵌入GAN潜在空间。为了解决这个问题，我们构建了一个嵌入算法，可以将给定的图像I映射到在FFHQ数据集上预训练的StyleGAN的潜在空间中。我们的一个重要见解是，当使用扩展的潜在空间W+时，预训练的StyleGAN的泛化能力显着增强（参见第二节）。3.3）。因此，有点令人惊讶的是，我们的嵌入算法不仅可以嵌入人脸图像，而且可以嵌入不同类别的非人脸图像。因此，我们通过分析嵌入的质量来继续我们的调查，以查看嵌入是否具有语义意义。为此，我们建议对潜在空间中的向量使用三个基本操作：线性内插、交叉、以及添加矢量和缩放差矢量。这些操作对应于三个语义图像处理应用：变形、风格转移和表情转移。因此，我们可以更深入地了解潜在空间的结构，并可以解决为什么甚至可以嵌入汽车等非人脸图像的实例。我们的贡献包括：• 一种高效的嵌入算法，可以将给定的图像映射到预先训练的StyleGAN的扩展潜在空间W+中• 我们研究了多个问题，以深入了解StyleGAN潜在空间的结构，例如：什么类型图片可以嵌入吗？可以嵌入哪些类型的面？什么样的潜在空间可以用于嵌入？• 我们建议使用三个基本的向量运算来研究嵌入的质量。因此，我们可以更好地了解潜在的空间，以及如何区分-嵌入了不同类别的图像。作为一个副产品，我们在多个人脸图像编辑应用程序，包括变形，风格转移，和表情转移获得了良好的效果2. 相关工作从Goodfellow等人的开创性工作开始。[8] 2014年，整个计算机视觉社区都见证了GAN在过去几年中的快速发展。对于图像生成任务，DCGAN [25]是第一个里程碑，奠定了GAN架构作为全卷积神经网络的基础。此后，各方作出了各种努力44324433图1：顶行：输入图像。底行：将图像嵌入StyleGAN潜在空间的结果。从不同的方面提高GAN的性能，例如，损失函数[21，2]，正则化或归一化[9，23]和架构[9]。然而，由于计算能力的限制和高质量训练数据的短时间，这些工作仅用为分类/识别任务收集的低分辨率和低质量数据集进行测试。为了解决这个问题，Karraset al.收集了第一个高质量的人脸数据集CelebA-HQ，并提出了一种渐进的策略来训练GAN用于高分辨率图像生成任务[13]。他们的ProGAN 是第一个可以生成真实感的GAN。人脸图像分辨率高达1024×1024。然而，从复杂的图像中生成高质量的图像数据集（例如，ImageNet）仍然是一个挑战。为此，Brocket al.他提出了BigGAN，并认为GAN的训练从大批量中受益匪浅[3]。他们的BigGAN可以生成真实的样本和跨越不同类别的平滑插值。最近，Karraset al.收集了更多样化和更高质量的人脸数据集FFHQ，并提出了一种受神经风格转移思想启发的新生成器架构[10]，进一步提高了GAN在人脸生成任务上的性能[14]。然而，由于神经网络的可解释性，对图像修改缺乏控制仍然是一个悬而未决的在本文中，我们通过将用户指定的图像嵌入到GAN潜在空间来解决可解释性问题，这导致了各种潜在的应用。潜在空间嵌入通常，存在两种将实例从图像空间嵌入到潜在空间的现有方法：i）学习将给定图像映射到潜在空间的编码器（例如，变分自动编码器[15]）;ii）选择一个随机的初始潜在代码，并使用梯度下降[35，4]对其进行优化。在它们之间，第一种方法通过执行通过编码器神经网络的前向传递来提供图像嵌入的快速解决方案然而，它通常在泛化训练数据集之外存在问题在本文中，我们决定建立在第二种方法的基础上，作为更普遍和稳定的解决方案。感知损失与风格转换传统上，两幅图像之间的低水平相似性是在像素空间中用L1/L2损失函数来度量的而在过去的几年里，受复杂图像分类成功的启发[17，20]，Gatys等人。[6，7]观察到VGG图像分类模型[20]的学习滤波器是优秀的通用特征提取器，并建议使用提取特征的协方差统计来感知图像之间的高级相似性，然后将其形式化为感知损失[12，5]。为了证明他们的方法的力量，他们在风格转移方面展示了有希望的结果[7]。具体来说，他们认为VGG神经网络的不同层以不同的尺度提取图像特征，并可以分离为内容和风格。为了加速初始算法，Johnsonet al.[12]提出训练一个神经网络来解决[7]的优化问题，它可以实时地将给定图像的风格转移到任何其他图像上。他们的方法唯一的限制是他们需要为不同风格的图像训练单独的神经网络。最后，Huang和Belongie [10]通过自适应实例规范化解决了这个问题。因此，它们可以实时传输任意风格。4434(a)（b）（c）（d）（e）（f）（g）图2：顶行：输入图像。底行：嵌入的结果。(a)标准包埋结果。(b)向右平移140像素。(c)向左平移160像素。(d)缩小2倍。(e)放大2倍。(f)90度旋转。(g)180度旋转3. 什么样的图像可以嵌入到StyleGAN潜空间中？我们开始研究这个问题，将图像嵌入到StyleGAN潜在空间中。这个问题并不是微不足道的，因为我们最初的人脸嵌入实验和其他GAN的结果是人脸已经无法辨认出是同一个人由于FFHQ数据集的改进的可变性和StyleGAN体系结构的卓越质量，重新燃起了将现有图像嵌入潜在空间的3.1. 各种图像类的嵌入结果为了测试我们的方法，我们收集了一个小规模的数据集的25个不同的图像跨越5个类别（即。脸，猫，狗，汽车和绘画）。数据集的详细情况见补充材料。我们使用StyleGAN [14]提供的代码来预处理人脸图像。该预处理包括到规范面部位置的配准。为了更好地理解潜在空间的结构和属性，研究更大种类的图像类的嵌入是有益的。我们选择猫，狗和绘画的面孔，因为它们与人脸共享整体结构，但以非常不同的风格描绘选择汽车是因为它们与人脸没有结构相似性。图1显示了嵌入结果，其中包含收集的测试数据集中每个图像类的一个示例。可以观察到，嵌入的奥巴马面部具有非常高的感知质量，并且忠实地再现了输入。然而，值得注意的是，嵌入的面是稍微平滑的，并且不存在微小的细节。有趣的是，除了人脸，我们发现尽管StyleGAN生成器是在人脸数据集上训练的，但嵌入算法的能力远远超过了人脸。表1：变换图像的嵌入结果 L是损失（方程式）。1）优化后。 w男人的脸如图1所示，虽然比人脸的嵌入效果略差，但我们可以获得合理且相对高质量的猫、狗甚至绘画和汽车的嵌入。这揭示了算法的有效嵌入能力和生成器学习滤波器的通用性。另一个有趣的问题是预训练的潜在空间的质量如何影响嵌入。为了进行这些测试，我们还使用了在汽车、猫等上训练的StyleGAN。如补充材料所示，这些结果的质量明显较低。3.2. 人脸图像嵌入的鲁棒性如何？仿射变换如图2和表1所示，StyleGAN嵌入的性能对仿射变换（平移、平移和旋转）非常敏感。其中，翻译似乎具有最差的性能，因为它不能产生有效的人脸嵌入。对于缩放和旋转，结果是有效的面。然而，他们是模糊的，失去了许多细节，这仍然是更糟糕的转型L（×105）ǁw∗−W¯ ǁ平移（右140像素）0.78248.56平移（左160像素）0.40644.12缩小（2X）0.22538.04放大（2X）0.71840.5590度旋转0.62247.214435比普通的嵌入。根据这些观察，我们认为GAN的泛化能力对仿射变换敏感图3：有缺陷的图像嵌入的压力测试结果。顶行：输入图像。底行：嵌入的结果。如图3所示，StyleGAN嵌入的性能对图像中的缺陷非常鲁棒可以观察到，不同面部特征的嵌入彼此独立。例如，去除鼻子对眼睛和嘴的嵌入没有明显的一方面，这种现象对于一般的图像编辑应用是好的。另一方面，它表明，潜在的空间并不强迫嵌入图像是一个完整的脸，即。它不修补丢失的信息。3.3. 选择哪种潜在空间StyleGAN [14]中有多个潜在空间可用于嵌入。两个明显的候选者是初始潜在空间Z和中间潜在空间W。512维向量w∈W是ob-从512维向量z∈Z通过传递通过一个完全连接的神经网络。一个重要的-我们工作的一个重要见解是，它不容易直接嵌入到W或Z中。因此，我们建议嵌入到一个扩展的潜空间W+中. W+是18个不同的512维w向量的组合，StyleGAN架构的每一层都有一个，可以通过AdaIn接收输入。如图5（c）（d）所示，直接嵌入W并不能给出合理的结果。另一个有趣的问题是学习的网络权重对结果有多重要。我们在图5（b）（e）中回答了这个问题，展示了一个嵌入到一个简单地用随机权重初始化的网络4. 嵌入有多大意义我们提出了三个测试来评估嵌入是否在语义上有意义。这些测试中的每一个都可以通过向量wi的简单潜在代码操作来图4：两个嵌入图像（最左边和最右边的）之间的变形。并且这些测试对应于计算机视觉和计算机图形中的语义图像编辑应用：变形、表情转移和风格转移。我们认为测试成功，如果得到的操纵结果在高质量的图像。4.1. 变形图像变形是计算机图形学和计算机视觉中一个长期的研究课题，例如：[32、26、27、29、34、16]）。给定两个嵌入图像及其相应的潜在向量w1和w2，通过线性插值，w = λw1+（1-λ）w2，λ ∈（0，1），以及使用新代码w的子图像生成。如图4显示，我们的方法在人脸图像（行1，2，3）之间生成高质量的变形，但在类内（行4）和类间（行5）变形中对非人脸图像都失败。有趣的是，可以观察到类间变形的中间图像中有人脸的轮廓，这表明这个StyleGAN的潜在空间结构是专门针对人脸的。因此，我们推测非人脸图像实际上是以以下方式嵌入的。最初的图层创建了一个类似人脸的结构，但后面的图层会覆盖这个结构，使其不再可识别。虽然对变形本身的广泛研究超出了本文的范围，但我们相信面部变形的结果非常出色，可能优于当前的最新技术水平。我们把这个调查留给以后的工作。4436(a)（b）（c）（d）（e）（f）（g）图5：（a）原始图像。将结果嵌入到原始空间W中：（b）在网络层中使用随机权重（c）W′初始化;（d）随机初始化。将结果嵌入到W+空间中：（e）在网络层中使用随机权重;（f）W初始化;（g）随机初始化。图6：第一列：风格形象;第二列：对VGG-16的卷积4 ~2层进行风格丢失的嵌入式风格化图像;第三至第六列：风格转移是通过用嵌入的风格图像替换基础图像的最后9层的潜码来实现的。4.2. 风格迁移给定两个潜在代码w1和w2，风格转移通过交叉操作计算[14]。我们展示了嵌入式风格化图像与其他人脸图像之间的风格转换结果（图6）以及来自不同类别的嵌入式图像之间的风格转换结果（图8）。更具体地说，在图8中，我们保留了前9层的嵌入内容图像的潜码（对应于空间分辨率42-642），并用最后一层的样式图像的潜码覆盖潜码。9层（对应于空间分辨率642-10242）。我们的方法是能够转移的低级别功能（如。但他没有忠实地维护自己的信仰。帐篷结构的非人脸图像（第二列图8），特别是绘画。这一现象表明，StyleGAN的泛化能力和表达能力更可能存在于与更高空间分辨率相对应的样式层中。4.3. 表情迁移与面孔再现给定三个输入向量w1、w2、w3，表达式transfer计算为w=w1+λ（w3-w2），其中w1是目标图像的潜码，w2对应于源图像的中性表达式，w3对应于一个更独特的表达。例如，w3可以对应于同一个人的笑脸，w2可以对应于同一个人的无表情的脸。为了消除噪音（例如背景噪声），我们在L2−范数的差异潜在代码的通道，是-低，该通道被替换为零向量。为在上述实验中，阈值的选择值为1.我们将结果向量归一化以控制表达式在特定方向上的强度。这样的代码相对独立于源Faces，可以用来传输表达式（图7）。我们相信这些表达转移结果也是非常高质量的。广告结果可在补充材料和随附的视频。4437′∗图7：表达转移的结果第一行显示IMPA-FACES 3D [22]数据集的参考图像在下面的行中，每个示例中的中间图像是嵌入图像，其表达分别逐渐转移到参考表达（在右侧）和相反方向（在左侧）更多结果见补充材料。预训练的生成器。从一个合适的初始化w开始，我们搜索一个优化的向量w，它使损失函数最小化，该损失函数测量给定图像和从w生成的图像之间的相似性。算法1显示了我们的方法的伪代码。这项工作的一个有趣的方面是，并不是所有的设计选择都能带来好的结果，并且对设计选择的实验提供了对嵌入的进一步见解。算法1：GAN的潜在空间嵌入输入：要嵌入的图像I∈Rn×m×3;预训练的生成器G（·）。输出：通过F′优化的嵌入的潜在代码w和嵌入的图像G（w）。∗1 初始化潜在代码w =w;2 而不收敛3L<$Lept（G（w），I）+λ<$G（w）−I<$2;4w←wN2-ηF（ωwωL）;图8：嵌入样式图像（第一列）和嵌入内容图像（第一行）。5. 嵌入算法我们的方法遵循一个简单的优化框架[4]，将给定的图像嵌入到流形上5端5.1. 初始化我们调查两个设计选择的初始化。第一个选择是随机初始化。在这种情况下，每个变量都是独立于均匀分布进行采样的。4438数据类w初始化。L（×105）ǁw∗−W¯ ǁFacew=W<$0.30930.67随机0.35135.60Catw=W<$0.75270.86随机0.74070.97狗w=W<$0.92274.78随机0.84575.14油漆w=W<$3.530103.61随机3.451105.29汽车w=W<$1.39082.53随机1.26982.60表2：潜在代码初始化的语法选择理由。w初始化。是潜在代码w的初始化方法。L是损失的平均值（等式2）。1）opti后mization w[1][2][3][4][5][6][7][8][9][10][11]U[-1，1]。第二种选择是由于观察到平均潜在向量W'的距离可用于识别低质量人脸[14]。因此，我们建议使用W'作为初始化，并期望优化以将其转换为更接近W'的向量w'。为了评估这两种设计选择，我们比较了优化后的潜在代码w和W<$之间的损耗值和距离w−W<$$>。如表2所示，初始化面部图像嵌入的w=W<$不仅使优化的w更接近W<$，而且还实现了更低的损失值。然而，对于其他类（例如，狗），随机初始化被证明是更好的选择。直观地说，这种现象表明，分布只有一个集群的面孔，其他情况下（例如，狗、猫）是没有明显图案的围绕簇的分散点定性结果见图5（f）（g）。5.2. 损失函数为了在优化过程中测量输入图像和嵌入图像之间的相似性，我们采用了一个损失函数，该损失函数是VGG-16感知损失[12]和像素MSE损失的加权组合图9：损失函数的数学选择理由。每一行分别显示了测试数据集中五个不同类别的图像结果。从左到右，每列显示：（1）原始图像;（2）仅逐像素MSE损失;（3）仅在VGG-16 conv3 2层上的感知损失;（4）逐像素MSE损失和VGG-16 conv3 2;（5）感知损失（等式（1））2）只有;（6）我们的损失函数（方程。①的人。更多结果见补充材料。其中I1，I2∈ Rn×n×3是输入图像，Fj分别是VGG-16层conv11，conv12，conv32和conv42的特征输出，Nj是第j层输出中标量的数量，λ j= 1，对于所有js都是经验获得的，以获得良好的性能。我们选择感知损失与逐像素MSE损失一起，是因为单独的逐像素MSE损失无法找到高质量嵌入。因此，感知损失充当某种正则化器，以将优化引导到潜在空间的正确区域。我们进行了消融研究，以证明我们在方程中选择的1.一、如图9所示，使用像素级w= min L（G（w），I）+λmse<$G（w）−I<$2（一）MSE损失项单独（第2列）嵌入一般颜色w接受N2很好，但未能捕捉到非人脸图像的特征在ad-其中I∈Rn×n×3是输入图像，G（·）是预训练的生成器，N是图像中标量的数量（即，N=n×n×3），w是要优化的潜在代码，λ mse=1是根据经验获得的良好性能。F或等式（1）中的感知损失项1、我们用途：版本，它具有平滑效果，不保留甚至是人脸的细节。有趣的是，由于像素MSE损失在像素空间中起作用，并且忽略了特征空间中的差异，因此其嵌入结果是非人脸图像（例如，汽车和绘画）有一种倾向于预训练风格的平均面孔-Σ4L_（I1，I 2）=j<$Fj（I1）−Fj（I2）<$2（二）GAN [14].这个问题是由感性的损失（列3，5），衡量图像相似性，j=1Nj2特征空间既然我们的嵌入任务需要-λ4439图10：损失值与优化步骤的数量为了使分层图像在所有尺度上都接近输入，我们发现匹配VGG-16网络的多层特征这进一步促使我们将逐像素MSE损失与感知损失（列4、6）组合，由此逐像素MSE损失可以被视为像素尺度下的最低水平感知损失图9的第6列显示了我们最终选择的嵌入结果（逐像素MSE+多层感知损失），它在不同的算法选择中实现了5.3. 其他参数我们使用Adam优化器，学习率为0。01，β1=0。9，β2=0。999，并且在我们所有的实验中，ε=1e−8我们使用5000 个梯度下降步骤进行优化，在32GBNvidia TITAN V100 GPU上每张图像花费不到7分钟为了证明我们选择5000个优化步骤的合理性，我们研究了作为迭代次数如图10所示，人脸图像的损失值下降最快，并在1000个优化步骤左右收敛;猫、狗和汽车图像的那些在大约3000个优化步骤处收敛较慢;而涂漆曲线是最慢的，并且收敛于大约5000个优化步骤。我们选择在所有实验中优化5000步的损失函数。迭代嵌入我们测试了所提出的方法对迭代嵌入的鲁棒性，即。我们迭代地将嵌入结果作为新的输入图像并再次进行嵌入。这个过程重复了七次。如图11所示，虽然可以保证输入图像在第一次嵌入后存在于模型分布中，但所提出的方法的性能缓慢地图11：迭代嵌入的压力测试结果。最左边的列显示原始图像，随后的列是迭代嵌入的结果。退化（更多细节丢失）与迭代嵌入的数量。这种观察的原因可能是所采用的优化方法在局部最优值附近收敛缓慢。对于人脸以外的嵌入，随机初始潜码也可能是退化的一个因素总之，这些观察结果表明，我们的嵌入方法可以很容易地在模型分布上实现合理的6. 结论我们提出了一个有效的算法来嵌入一个给定的图像到StyleGAN的潜在空间。该算法实现了图像变形、风格转换和表情转换等语义图像编辑操作。我们还使用该算法来研究多个方面的风格GAN潜在空间。我们提出了实验来分析什么类型的图像可以嵌入，他们是如何嵌入，以及如何有意义的嵌入。我们的工作的重要结论是，嵌入到扩展的潜在空间W+的效果最好，任何类型的图像可以被嵌入。然而，只有面部的嵌入在语义上有意义。我们的框架仍然有一些局限性。首先，我们继承了预训练的StyleGAN中存在的图像伪影，我们在补充材料中说明了这些伪影。其次，优化需要几分钟的时间，而一个可以在一秒钟内工作的嵌入算法对于交互式编辑来说更有吸引力。在未来的工作中，我们希望将我们的框架扩展到处理静态图像之外的视频。此外，我们希望探索嵌入到基于三维数据（如点云或网格）训练的GAN中。致谢这项工作得到了KAUST赞助研究办公室（OSR）的支持，OSR-CRG2017-3426。引用[1] 亚泽德·阿尔哈比，尼尔·史密斯，彼得·旺卡.多模态无监督图像到图像翻译的潜在滤波器缩放。arXiv预印本arXiv：1812.09877，2018。14440[2] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein生成对抗网络第34届机器学习国际会议论文集，第70卷，第214-223页，2017年2[3] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练。在学习代表国际会议上，2019年。一、二[4] Antonia Creswell和Anil Anthony Bharath。反生成对抗网络的生成器。IEEE Trans- actions on Neural Networksand Learning Systems，2018。二、六[5] Alexey Dosovitskiy和Thomas Brox基于深度网络生成具有感知相似性度量的图像。神经信息处理系统的进展，第658-666页，2016年2[6] Leon Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络进行纹理合成。在第28届神经信息处理系统国际会议上，第1卷，NIPS'15，2015年。2[7] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.艺术风格的神经算法。arXiv，2015年8月。2[8] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，2014年。1[9] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。神经信息处理系统进展，第5767-5777页，2017年。2[10] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。InICCV，2017. 2[11] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。CVPR，2017年。1[12] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。2016年欧洲计算机视觉会议。二、七[13] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.GANs的逐步增长，以提高质量，稳定性和变化。在2018年国际学习代表会议上。一、二[14] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。arXiv预印本arXiv：1812.04948，2018。一、二、三、四、五、七[15] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。2[16] 帕维尔·科舒诺夫和图拉吉·易卜拉欣。利用脸部变形来保护隐私。2013年第10届IEEE高级视频和信号监控国际会议，第208-213页IEEE，2013。4[17] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。在神经信息处理系统的进展25。2012. 2[18] Chuan Li和Michael Wand。利用马尔可夫生成对抗网络进行预计算实时InComputer Vision - ECCV 2016 - 14thEuropean Conference ， Amsterdam，The Netherlands，October 11-14，2016，第三部分，2016年。1[19] 李嘉楠、梁晓丹、魏云超、徐廷发、冯嘉世、颜水成。用于小物体检测的感知生成对抗网络在IEEE计算机视觉和模式识别会议（CVPR），2017年7月。1[20] Shuying Liu and Dongfeng.基于非常深卷积神经网络的图像分类，使用小训练样本大小。2015年第三届IAPR亚洲模式识别会议（ACPR），2015年11月。2[21] 毛旭东，李庆，谢浩然，Raymond Y.K. Lau ，ZhenWang，and Stephen Paul Smolley.最小二乘生成对抗网络。在IEEE计算机视觉国际会议（ICCV）上，2017年10月。2[22] Je su'sPMena-Chalco，LuizVelho和RMCesarJunio r。基于主成分空间的三维人脸重建。WTD SIBGRAPI图形、图案和图像会议论文集，2011年。6[23] Takeru Miyato，Toshiki Kataoka，Masanori Koyama，and Yuichi Yoshida.生成式对抗网络的谱归一化。在2018年国际学习代表会议上2[24] Taesung Park ， Ming-Yu Liu ， Ting-Chun Wang ， Jun-Yan Zhu.具有空间自适应归一化的语义图像合成。在IEEE计算机视觉和模式识别会议论文集，2019年。1[25] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉深度卷积生成对抗网络的无监督表示学习。arXiv预印本arXiv：1511.06434，2015。1[26] Ulrich Scherhag，Christian Rathgeb，Johannes Merkle，Ralph Breithaupt，and Christoph Busch.变形攻击下的人脸识别系统：一个调查。IEEE Access，2019年7月。4[27] Clemens Seibold，Wojciech Samek ，Anna Hilsmann ，and Pe- ter Schuert.基于深度学习的人脸变形攻击检测数字水印国际研讨会，第107-120页。Springer，2017. 4[28] Ron Slossberg Gil Shamai和Ron Kimmel高品质的面部表面和纹理合成通过生成adversar- ial网络。欧洲计算机视觉会议，第498-513页。Springer，2018. 1[29] Mark Steyvers用于操作人脸图像的变形技术。行为研究方法，仪器，计算机，31（2）：359-369，1999。4[30] Sergey Tulyakov，Ming-Yu Liu，Xiaodong Yang，andJan Kautz. Mocogan：分解运动和内容以生成视频。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年6月。1[31] Carl Vondrick Hamed Pirsiavash和Antonio Torralba生成具有场景动态的视频在神经信息处理系统的进展。2016.1[32] 乔治·沃尔伯格图像变形：调查。计算机视觉，14（8），1998年。44441[33] Wenqi Xian，Patsorn Sangkloy，Varun Agrawal，AmitRaj，Jingwan Lu，Chen Fang，Fisher Yu，and JamesHays. Tex- turegan：使用纹理块控制深度图像合成。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。1[34] Fei Yang ， Eli Shechtman ， Jue Wang ， LubomirBourdev，and Dimitris Metaxas.使用3d感知外观优化的人脸变形。在 Proceedings of Graphics Interface 2012中，第93-99页。加拿大信息处理协会，2012年。4[35] Jun-Yan Zhu，Philipp Kebhl，Eli Shechtman，and AlexeiA.埃夫罗斯自然图像流形上的生成视觉操作。计算机科学讲义，第597613页，2016年。2[36] Jun-Yan Zhu ， Taesung Park ， Phillip Isola ， Alexei AEfros.使用循环一致对抗网络的不成对图像到图像翻译。在计算机视觉（ICCV），2017年IEEE国际会议上，2017年。1[37] Jun-Yan Zhu、Richard Zhang、Deepak Pathak、TrevorDarrell、Alexei A Efros、Oliver Wang和Eli Shechtman。向多模态图像到图像翻译。在重症盖永联合V. Luxburg，S. Bengio，H.瓦拉赫河Fergus，S.Vish-wanathan和R.Garnett，编辑，Advances in NeuralInformation Processing Systems 30，第465-476页CurranAs-Sociates，Inc. 2017. 1

下载后可阅读完整内容，剩余1页未读，立即下载