基于深度生成模型的大缺失区域语义图像修复方法

16 浏览量更新于2023-10-15 收藏 948KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15485我们基于深度生成模型雷蒙德A.叶俊，陈晨，林德彦，Alexander G.放大图片作者：Mark Hasegawa-Johnson，Minh N.做伊利诺伊大学香槟分校{yeh17，cchen156，tlim11，aschwing，jhasegaw，minhdo}@ illinois.edu摘要语义图像修复是一个具有挑战性的任务，其中大的缺失区域必须根据可用的视觉数据进行填充。现有的从单个图像中提取信息的方法由于缺乏高层次的上下文而通常产生在本文中，我们提出了一种新的语义图像修补方法给定一个经过训练的生成模型，我们使用我们的上下文和先验损失在潜像流形中搜索损坏图像的最接近编码。然后，该编码通过生成模型来推断缺失的内容。在我们的方法中，无论缺失的内容是如何结构化的，推断都是可能的，而最先进的基于学习的方法需要关于训练阶段中的漏洞的特定信息在三个数据集上的实验表明，我们的方法成功地预测了大的缺失区域中的信息，并实现了像素级的照片真实感，显着优于形成的最先进的方法。1. 介绍语义修复[30]是指基于图像语义推断图像中任意大的缺失区域的任务由于需要预测高级上下文，因此该任务比经典的修补或图像完成要困难得多，经典的修补或图像完成通常更关心纠正虚假数据损坏或删除整个对象。许多应用程序，如损坏的绘画或图像编辑[3]的恢复受益于准确的语义修复方法，如果大区域丢失。然而，如果大区域丢失或场景复杂，则修复变得越来越困难经典的修复方法通常是基于局部或非局部信息来恢复图像。现有的大多数方法都是针对单张图像的修复。*作者贡献均等。输入电视LRPM图1. 通过TV、LR、PM和我们的方法得到语义修复结果。孔用黑色标记。因此，它们基于输入图像中可用的信息，并利用图像先验来解决不适定性。例如，基于全变分（TV）的方法[34，1]考虑了自然图像的平滑特性，这对于填充小的缺失区域或去除杂散噪声非常有用。纹理图像中的洞可以通过从同一图像中找到类似的纹理来填充[6]。先验知识，例如贴片偏移量[11]、平面性[13]或低秩（LR）[12]的统计也可以大大改善结果。PatchMatch（PM）[2]在图像的可用部分中搜索相似的补丁，并迅速成为最成功的修复方法之一，然而，所有单个图像修补方法都需要在输入图像中包含适当的信息，类似的像素、结构或块。如果缺失区域很大并且可能具有任意形状，则难以满足该假设。因此，在这种情况下，这些方法无法重新覆盖缺失的信息。图1显示了一些具有较大缺失区域的chal-challening示例，其中局部15486方法无法恢复鼻子和眼睛。为了解决大缺失区域情况下的修复，非局部方法尝试使用外部数据预测缺失Hays和Efros[10]建议从一个巨大的数据库中剪切并粘贴一个语义相似的补丁基于互联网的检索可用于替换场景的目标区域[37]。这两种方法都需要从数据库或互联网上进行精确匹配，并且当测试场景与任何数据库图像明显不同时容易失败。与以前手工制作的匹配和编辑不同，基于学习的方法已经显示出有希望的结果[27，38，33，22]。在学习了图像字典或神经网络之后，不再需要训练集来进行推理。通常，这些基于学习的方法是为图像中的小孔或小文本而设计的。而不是填补图像中的小洞，我们感兴趣的是语义修复的更困难的任务[30]。它的目标是根据周围像素的上下文来预测大区域的详细内容一种开创性的语义修复方法，最接近我们的工作是上下文编码器（CE）由Pathak等人。[30]第30段。给定指示缺失区域的掩码，训练神经网络来编码上下文信息并预测不可用的内容。然而，CE仅在训练期间而不是在推理期间利用孔的结构因此，它会导致模糊或不真实的图像，特别是当丢失的区域具有任意形状时。图2. 由VAE和DCGAN生成的图像。第一行：来自VAE的样品。第二行：来自DCGAN的样本。回顾以下与技术相关的基于学习的工作。生成对抗网络（GAN）是用于训练生成参数模型的框架，并且已被证明可以产生高质量的图像[9，4，32]。该框架训练两个网络，生成器G和判别器D。G将从先验分布pZ采样的随机向量z映射到图像空间，而D将输入图像映射到似然。G的目的是生成逼真的图像，而D扮演对抗角色，区分从G生成的图像和从数据分布p数据采样的真实图像。G和D网络通过优化损失来训练作用：最小值最大值V（G，D）=Ehp 数据（h）[log（D（h））]+G D在本文中，我们提出了一种新的方法，语义，tic图像修复我们认为语义修复是EzpZ（z）[log（1-D（G（z）]，（1）一个约束图像生成问题，并采取优势的最新进展生成建模。在一个深层的生成模型之后，在我们的情况下，训练对抗网络[9，32]，我们搜索与潜在空间中的图像“最接近”的损坏图像的编码然后使用编码来使用生成器重建图像。我们定义与CE相比，我们的方法的主要优点之一是它不需要用于训练的掩模，并且可以在推理过程中应用于任意结构的缺失区域。我们在三个数据集上评估了我们的方法：CelebA[23]， SVHN[29]和斯坦福汽车[17]，具有不同形式的缺失区域。结果表明，在具有挑战性的语义修复任务，我们的方法可以获得更逼真的图像比最先进的技术。2. 相关工作大量的文献存在的图像修复，由于空间的限制，我们无法详细讨论所有的。这方面的初步工作包括上述著作和其中的参考文献.由于我们的方法是基于生成模型和深度神经网络，我们将其中h是来自p数据分布的样本;z是潜在空间上的随机编码。通过一些用户交互，GAN已应用于交互式图像编辑[40]。然而，GANs不能直接应用于修复任务，因为它们以很高的概率产生完全不相关的图像，除非受到所提供的损坏图像的约束。自动编码器和变分自动编码器（VAE）[16]已经成为在无监督环境中学习复杂分布的流行方法。存在多种VAE香料，扩展到基于属性的图像编辑任务[39]。与GAN相比，VAE往往会生成过于平滑的图像，这对于修复任务来说并不是首选图 2显示了由VAE和深度卷积GAN（DCGAN ）生成的一些示例[32]。注意，DCGAN生成更清晰的图像。联合训练具有adveserial损失的VAE会阻止平滑度[18]，但可能导致伪影。上下文编码器（CE）[30]也可以被视为以损坏的图像为条件的自动编码器。它产生令人印象深刻的重建结果时，孔的结构是固定的训练和推理，例如。固定在中心，但是对于任意结构的区域不太有效。15487−zpzGD房还是（zz−zo =p+，）y输入（z（0））（z（1））（z）共混(a)（b）第（1）款图3.建议的修复框架（a）给定一个在真实图像上训练的GAN模型，我们迭代地更新z，以根据设计的损失函数找到潜像流形上最接近的(b)使用反向传播迭代更新z时的流形遍历。 z（0）是随机初始化的;z（k）表示第k次迭代的结果;z（k）表示最终解。在我们的方法中，采用反向传播的输入数据，以找到接近所提供的，但损坏的图像的编码在早期的工作中，反向传播来增强数据已被用于纹理合成和风格转移[8，7，20]。谷歌的DeepDream使用反向传播来创建梦幻般的图像[28]。此外，反向传播也被用于可视化和理解训练网络中的学习特征，通过更新输入层的梯度来“反转”网络[26，5，35，21]。与我们的方法类似，所有这些基于反向传播的方法都需要针对特定任务专门设计的损失函数。3. 基于约束图像生成的为了填充图像中的大的缺失区域，我们的图像修复方法利用生成器G和判别器D，这两者都是用未损坏的数据训练的。在训练之后，生成器G能够从pZ中提取点z，并从p数据中生成模仿样本的图像。我们假设，如果G在其表示中是有效的，则不是来自p数据的图像（例如，损坏的数据）不应该位于学习的编码流形Z上。因此，我们的目标是将编码z“最小”重新编码到损坏的图像，同时约束到流形，如图所示。3;我们在2维空间上使用t-SNE [25]可视化潜在流形，以及找到z的优化步骤中的中间结果。在得到z_i之后，我们可以通过使用训练好的生成模型G来生成缺失的内容。更具体地说，我们制定的过程中找到z的最优化问题。设y是损坏的图像，M是大小等于图像的二进制掩码，以显示缺失的部分。y和M的示例在图1中示出。第3（a）段。使用这个符号，我们定义了“最接近”的z=argmzin{Lc（z|y，M）+Lp（z）}，（2）其中Lc表示上下文损失，其在给定输入损坏图像y和孔掩模M的情况下约束所生成的图像;Lp表示先验损失，其惩罚不切实际的图像。建议的亏损函数的详情如下将在以下部分中讨论。除了所提出的方法之外，还可以考虑使用D通过最大化D（y）来更新y，类似于DeepDream [28]或神经风格转移[8]中的反向传播。然而，损坏的数据y既不是从真实图像分布中提取的，也不是从生成的图像分布中提取的。因此，最大化D（y）可能导致远离潜像流形的解，这可能因此导致具有差质量的结果。3.1. 重要性加权上下文丢失为了填充大的缺失区域，我们的方法利用了剩余的可用数据。我们设计了上下文丢失来捕获这些信息。上下文丢失的方便选择简单地是生成的样本G（z）与输入图像y的未损坏部分之间的N2范数。然而，这样的损失平等地对待每个像素，这是不期望的。考虑中心z15488块丢失：大部分损失将来自远离孔的像素位置，例如脸部后面的背景。因此，为了找到正确的编码，我们应该更加注意接近孔的缺失区域。为了实现这一目标，我们提出了一个上下文损失的假设，即一个未损坏的像素的重要性是正相关的损坏的像素周围的数量。一个像素，是非常远离任何洞发挥非常小的作用，在修补过程中。我们用重要性加权项W来捕捉这种直觉，实数输入我们的w/oLp我们的wLp图4. 修复有和没有先前的损失。Wi=Σj∈N（i）（1−Mj）|N（i）|如果Mi/=0、（3）3.3. 修复有了已定义的先验损失和上下文损失，如果Mi=0，其中，i是像素索引，Wi表示像素位置i处的重要性权重，N（i）指的是局部窗口中像素i的邻近者的集合，并且|N（i）|表示N（i）的基数。在所有实验中，我们使用7的窗口大小从经验上讲，我们还发现在我们的框架中， 101-norm的表现略好于102-norm综上所述，我们将上下文损失定义为恢复的图像与未损坏部分之间的加权n1范数差，定义如下，L（z|y，M）=<$W<$（G（z）− y）<$。（四）被破坏的图像可以被映射到潜在表示空间中最接近的z，我们将其表示为z。z是随机初始化的，并使用等式中给出的总损耗的反向传播进行更新。（二）、图3（b）示出了z接近潜像流形上的期望解的一个示例。在生成G（z）之后，可以通过覆盖来自输入的未损坏的像素来容易地获得修复结果然而，我们发现预测的像素可能不会完全保持周围像素的相同强度，尽管内容是正确的Pois-son混合[31]用于重建我们的最终结果。k∈y的思想是保持G（z∈）的梯度，c1图像细节同时偏移颜色以匹配颜色在这里，表示逐元素乘法。3.2. 先前损失输入图像y. 我们的最终解，x，可以通过以下公式获得x=argminx−G（z）2，X2先前损失是指基于以下因素的一类处罚：高级图像特征表示而不是逐像素差异。在这项工作中，先验损失促使恢复的图像与从训练集中提取的样本相似。我们的先验损失与[14]中定义的损失不同，后者使用来自预训练神经网络的特征。我们之前的损失惩罚不切实际的图像。回想一下，在GANs中，训练的是将生成的图像与真实图像区分开来。因此，我们选择与GAN损失相同的先验损失来训练CJD，即，Lp（z）=λlog（1 − D（G（z）。（五）这里，λ是用于在两个损失之间进行平衡的参数。更新z以欺骗D并使相应的生成图像更逼真。如果没有Lp，从y到z的映射可能会收敛到感知上难以置信的结果。我们通过展示不稳定的例子来说明这一点，我们在图中使用和不使用Lp进行了优化。4.第一章S.T. xi= yi，其中Mi=1，（6）其中是梯度算子。最小化问题包含一个二次项，该二次项具有唯一解[31]第30段。图5显示了两个例子，我们可以在没有混合的情况下找到可见的接缝。叠加混合叠加混合图5. 使用和不使用混合进行修复。3.4.实现细节一般来说，我们的贡献与特定的GAN架构正交，我15489们的方法可以利用任何生成模型G。我们在实验中使用了Radford等人的DCGAN模型架构。[32]。的15490生成模型G从[-1，1]之间的均匀分布中随机抽取100维向量，并生成64×64×3图像。模型D的结构基本上是以相反的顺序。输入层是尺寸为64×64×3的图像，随后是图像尺寸为一半的一系列卷积层，通道的数量是前一层大小的两倍，并且输出层是两类softmax。为了训练DCGAN模型，我们遵循[32]中的训练过程，并使用Adam[15]进行优化。我们选择λ=0。003在所有的实验中我们还进行了随机水平翻转的数据增强，房输入电视LROurs训练图像。在修复阶段，我们需要使用反向传播在潜在空间中找到z。我们使用Adam进行优化，并在每次迭代中将z限制为[-1，1]我们决定-在1500次迭代之后终止反向传播。我们对所有测试数据集和掩码使用相同的设置。4. 实验在以下章节中，我们对结果进行了定性和定量评价，补充材料中提供了更多比较。4.1. 数据集和掩码我们在三个数据集上评估了我们的方法：CelebFaces属性数据集（CelebA）[2 3]，街景门牌号（SVHN）[29]和斯坦福汽车数据集[17]。CelebA包含202，599张粗略对齐的人脸图像[23]。我们从数据集中删除了大约2000张图像进行测试。这些图像在中心被裁剪为64×64，其中包含具有各种视图的面孔。点和表达式。SVHN数据集包含总共99，289个裁剪房屋号码的RGB图像。图像的大小调整为64×64，以适应DCGAN模型架构。我们使用提供的培训和测试分割。图像中的数字没有对齐，并且具有不同的背景。斯坦福汽车数据集包含196种汽车的16，185张图像与CelebA数据集类似，我们不使用任何属性或标签进行训练和测试。的根据提供的边界框裁剪汽车，并将其大小调整为64×64。和前面一样，我们使用提供的训练集和测试集分区。我们测试了四种不同形状的面具：1）中心块掩模;2）图1中的随机模式掩模[30]，大约25%缺失; 3）80%缺失完全随机掩模; 4）半缺失掩模（随机水平或垂直）。4.2. 视觉比较与TV和LR图像修复的比较。我们比较我们的方法与本地修复方法。正如我们已经图6. 与局部修复方法TV和LR修复在随机80%缺失的例子上的比较。实输入我们的NN图7. 与最近的补丁检索比较。如图所示。1、局部方法通常不能用于大的缺失区域。我们将我们的方法与 TV inpainting[1] 和 LRinpainting[24，12]在具有小随机孔的图像测试图像和结果如图所示。六、由于大量的缺失点，基于TV和LR的方法不能恢复足够的图像细节，导致非常模糊和嘈杂的图像。由于可用补丁不足，PM[2]与NN Inpainting的比较接下来，我们将我们的方法与训练数据集的最近邻（NN）填充进行比较，这是基于检索的方法中的关键组成部分[10，37]。示例如图所示。7，其中可以通过使用欧几里德距离中的最近块来清楚地观察皮肤纹理、眉毛、眼睛和头发的误对齐。尽管人们可以使用不同的特性进行检索，但继承不对齐问题并不容易解决[30]。相反，我们的结果是自动获得的，无需任何注册。15491表1. 测试集上的PSNR值（dB）。左/右结果由CE[30]/我们的。掩模/数据集CelebASVHN汽车中心21.3/19.422.3/19.014.1/13.5图案19.2/17.422.3/19.814.0/14.1随机20.6/22.824.1/33.016.1/18.9一半15.5/13.719.1/14.612.6/11.1与CE比较。在其余部分中，我们将我们的结果与CE[30]中获得的结果进行比较，CE是最先进的语义修复方法。重要的是要注意，需要面具来训练CE。为了公平比较，我们在CE的训练阶段使用所有测试掩码。然而，对于修复任务，存在无限的形状和缺失率。为了取得令人满意的结果，可能需要重新培训CE。相比之下，我们的方法可以应用于任意掩码，而无需重新训练网络，根据我们的观点，这在考虑修复应用时是一个巨大的优势。图图8和图9显示了CelebA数据集上使用四种类型掩码的结果尽管存在一些小的伪影，但CE在使用中央掩模的情况下表现最好这是因为在这种情况下，在训练和测试期间，漏洞总是固定的，CE可以很容易地从上下文中学习填充漏洞然而，随机缺失数据对于CE学习来说要困难得多。此外，CE不使用掩码进行推断，而是用平均颜色预先填充孔。它可能会错误地将一些具有相似颜色的未损坏像素视为未知。我们可以观察到，当孔处于随机位置时，CE具有更多的伪影和模糊的结果在许多情况下，我们的结果与真实图像一样逼真。SVHN和car数据集的结果如图1A和1B所示。图10和11，并且我们的方法通常产生比CE在视觉上更吸引人的结果，因为图像更清晰并且包含更少的伪影。4.3. 定量比较重要的是要注意，语义修复不是试图重建地面实况图像。我们的目标是用现实的内容来甚至地面实况图像也是许多可能性之一。然而，读者可能对定量结果感兴趣，这些结果通常由经典修复方法报告在前人工作的基础上，我们比较了我们的结果和CE的PSNR值。来自数据集的真实图像被用作地面实况参考。表1提供了三个数据集的结果CE在大多数情况下具有更高的PSNR值，除了随机掩码，因为它们被训练以最小化均方误差。使用SSIM[36]而不是PSNR获得了类似的结果。这些结果与前面提到的视觉比较相冲突，我们的结果通常产生更好的感知质量。我们通过仔细调查实输入CE Ours图8. 与CelebA数据集上的CE进行比较。结果的错误。图12示出了一个示例的结果和相应的误差图像。从图中判断，我们的结果看起来没有伪影并且非常逼真，而从CE获得的结果在重建区域中具有可见的伪影。然而，CE的PSNR值比我们的高1.73dB。误差图像表明，我们的结果在头发区域有很大的误差，因为我们生成了一个15492实输入CE Ours图9. 与CelebA数据集上的CE进行比较。与真实形象不同的发型。这表明，当地面真值不唯一时，定量结果不能很好地代表不同方法的真实性能。在最近的超分辨率作品中可以找到类似的观察结果[14，19]，其中更好的视觉结果对应于较低的PSNR值。对于随机孔，这两种方法都实现了更高的实输入CE Ours图10. 在SVHN数据集上与CE进行比较。PSNR，即使有80%的像素丢失。在这种情况下，我们的方法优于CE。这是因为未损坏的像素分布在整个图像上，并且重建的灵活性受到强烈限制;因此，PSNR在该设置中更有意义，该设置更类似于在经典修复工作中考虑的设置。15493实输入CE Ours图11. 在汽车数据集上与CE进行比较。4.4. 讨论虽然结果是有希望的，我们的方法的局限性也是显而易见的。事实上，它的预测性能强烈依赖于生成模型和训练过程。一些失败的例子如图所示。13，其中我们的方法无法在潜像中找到正确的z输入CE Ours实际CE误差×2我们的误差×2图12. 错误图像就是一个例子。实验结果表明，本文编码器的PSNR为24.71dB，而本文编码器的PSNR为22.98dB.为了显示的目的，误差被放大。房输入我们的图13. 一些失败的例子。歧管本文中当前的GAN模型适用于相对简单的结构，如人脸，但太小，无法表示世界上的复杂场景。方便地，更强大的生成模型，以直接的方式改进我们的方法5. 结论在本文中，我们提出了一种新的语义修复方法。与现有的基于局部图像先验或补丁的方法相比，该方法学习训练数据的表示，因此可以预测损坏图像的有意义的内容。与CE相比，我们的方法通常获得具有更清晰边缘的图像，这些图像看起来更真实。实验结果表明，该算法在具有挑战性的图像修复示例上具有优异的性能。致谢：这项工作得到了IBM-ILLINOIS认知计算系统研究中心（C3 SR）的部分支持-这是IBM认知地平线网络的一部分。这项工作得到了NVIDIA公司的支持，并15494捐赠了一块GPU。15495引用[1] M. 诉Afonso，J.M. Bioucas-Dias和M.A. 菲格雷多成像逆问题约束优化公式的增广拉格朗日方法IEEE TIP，2011年。[2] C. Barnes ， E. Shechtman ， A. Finkelstein 和 D. 戈德曼PatchMatch：一种用于结构图像编辑的随机对应算法。ACM TOG，2009年。[3] M. Bertalmio，G.萨皮罗河谷Caselles和C.巴列斯特图像修复。2000年第27届计算机图形学和交互技术集[4] E. L. Denton，S.钦塔拉河Fergus等人使用对抗网络的拉普拉斯金字塔的深度生成图像模型。2015年，在NIPS[5] A. Dosovitskiy和T.布洛克斯使用卷积网络反转视觉表示。arXiv预印本arXiv：1506.02753，2015年。[6] A. A. Efros和T. K.梁非参数采样纹理合成。载于ICCV，1999年。[7] L. Gatys，A. S. Ecker和M.贝丝使用卷积神经网络进行纹理合成。2015年，在NIPS[8] L. A. Gatys，A.S. Ecker和M.贝丝使用卷积神经网络的图像风格转换在CVPR，2016年。[9] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在NIPS，2014。[10] J. Hays和A.A. 埃夫罗斯使用数百万张照片完成场景ACM TOG，2007年。[11] K.他和J. Sun。图像补片偏移量的统计。在ECCV。2012年。[12] Y. Hu，D. Zhang，J. Ye，X. Li和X.他外通过截断核范数正则化快速准确的矩阵完成IEEE PAMI，2013年。[13] J. - B. Huang，S.B. Kang，N.Ahuja和J.科普夫利用平面结构制导实现图像的自动完成。ACM TOG，2014年。[14] J. Johnson，A. Alahi和L.飞飞实时风格转换和超分辨率的感知损失在ECCV，2016年。[15] D. Kingma和J. BA. Adam：一种随机优化方法。2015年，国际会议[16] D. Kingma和M.威林自动编码变分贝叶斯。见ICLR，2014年。[17] J. Krause，M. Stark、J.Deng和L.飞飞用于细粒度分类的3D对象表示。在ICCV工作室，2013年。[18] A. B. L. Larsen，S. K. Sønderby和O.温瑟使用学习到的相似性度量来自动编码超出像素。InICML，2016.[19] C. 莱迪格湖的i s，F。 Hus za'r，J. Cabal lero，A. Ait ken，A. Te-jani，J.Totz，Z.Wang和W.石使用生成对抗网络的照片般逼真的单幅 arXiv 预印本 arXiv ：1609.04802，2016。[20] C. Li和M.魔杖结合马尔可夫随机场和卷积神经网络进行图像合成。在CVPR，2016年。[21] A. Linden等人多层网的反演。IJCNN，1989年。[22] S. Liu，J. Pan和M.- H.杨通过混合神经网络学习低级视觉的递归滤波器。在ECCV，2016年。[23] Z. Liu，P. Luo，X. Wang和X.唐在野外深度学习人脸属性。在ICCV，2015年。[24] C. Lu，J. Tang，S. Yan和Z.是林书广义非凸非光滑低秩极小化。CVPR，2014。[25] L. 诉D. Maaten和G.辛顿使用t-SNE可视化数据机器学习研究杂志，2008。[26] A. Mahendran和A.维达尔迪通过反转它们来理解深度图像表示。CVPR，2015。[27] J. Mairal，M. Elad和G.萨皮罗用于彩色图像恢复的稀疏表示。IEEE TIP，2008年。[28] A.莫尔德温采夫角Olah和M.泰卡猜想主义：更深入地研究神经网络。Google Research Blog. 2015年6月20日重新测试。[29] Y. Netzer，T.Wang，中国山核桃A.Coates，A.比萨科湾Wu，和A.Y. Ng.使用无监督特征学习读取自然图像中的数字。NIPS研讨会，2011年。[30] D. Pathak，P. Kr aehenbuhl，J. 多纳休，T. Darrell和A.埃夫罗斯上下文编码器：通过图像修复进行特征学习。2016.[31] P. 我是佩雷斯先生。Gangnet和A. Bla k e. 泊松图像编辑。In ACM TOG，2003.[32] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习arXiv预印本arXiv：1511.06434，2015。[33] J. S. 伦湖，澳-地徐，智-地Yan和W.太阳Shepard卷积神经网络2015年，在NIPS[34] J. Shen和T. F.陈局部非纹理修复的数学模型。SIAMJournal on Applied Mathematics，2002.[35] K. Simonyan、A. Vedaldi和A.齐瑟曼。卷积网络内部：可视化图像分类模型和显着图。arXiv预印本arXiv：1312.6034，2013。[36] Z. Wang，中国山核桃A. C. Bovik，H. R. Sheikh和E.西蒙切利图像质量评估：从错误可见性到结构相似性。IEEE TIP，2004年。[37] O. 怀特，J。Sivic和A.齐瑟曼。从我的照片里滚开基于互联网的修复在BMVC，2009年。[38] 谢杰湖，加-地Xu和E.尘使用深度神经网络进行图像去噪和修复。NIPS，2012年。[39] X. Yan，J. Yang，K. Sohn和H.李你属性2图像：从视觉属性生成条件图像。arXiv预印本arXiv：1512.00570，2015年。[40] J. - Y. Zhu ，P. K r¨ henb ¨ hl，E. Shechtman 和A. A.埃夫罗斯自然图像流形上的生成式视觉操作。在ECCV，2016年。

下载后可阅读完整内容，剩余1页未读，立即下载