UCTGAN：无监督跨空间平移的多样图像修复

133 浏览量更新于2023-10-23 收藏 1.71MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5741UCTGAN：基于无监督跨空间平移的Lei Zhao*，Qihang Mo，Sihuan Lin，ZhizhongWang，Zhiwen Zuo，Haibo Chen，Wei Xing，Dongming Lu浙江大学计算机科学与技术学院{cszhl，moqihang，linsh，endywon，zzwcs，feng123，wxing，ldm}@ zju.edu.cn图1：我们的方法在人脸图像（来自CelebA-HQ [9]），建筑物（来自巴黎[4]）和自然场景（来自Places 2 [30]）上的示例修复结果缺失区域以灰色显示。从左到右，我们展示了被屏蔽的输入图像，我们的模型的多样化和合理的输出，没有任何后处理（放大查看细节）。摘要虽然现有的图像修复方法已经能够产生视觉上逼真和语义上正确的结果，但它们对于每个掩蔽的输入仅产生一个结果。为了产生多种多样的合理解决方案，我们提出了无监督跨空间翻译生成对抗网络（UCTGAN），它主要由三个网络模块组成：条件编码器模块、流形投影模块和生成模块。流形投影模块和生成模块相结合，通过将实例图像空间和条件完备图像空间投影到公共低维流形空间，以无监督的方式学习两个空间之间的一对一图像映射，极大地提高了重构图像的多样性* 通讯作者配对样本为了理解全局信息，我们还引入了一个新的跨语义注意层，该层利用已知零件和已完成零件之间的长程依赖关系，可以提高修复样本的真实性和外观一致性。在CelebA-HQ、Places 2、Paris Street View和ImageNet等数据集上进行的大量实验表明，该方法不仅可以从同一幅待修复图像中生成多种修复方案，而且具有较高的图像质量。1. 介绍图像修复（也称为图像补洞或图像补洞）是指利用图像的已知信息其填充5742为了使图像看起来自然而丢失图像的一部分（即，，visually realistic and semantically correct）根据一些规则[1，21，2，15，20，25，13]。该任务是图像处理领域中的基本问题，并且几十年来引起了极大的关注，因为图像修复可以用于各种应用，例如对象去除、图像编辑和旧照片恢复等。其关键问题是如何生成缺失内容，以保持恢复图像的完整性和一致性，避免填充内容与已知可见内容的不完全融合图像修复是一个欠定逆问题，其中大量的合理解可以满足图像恢复的约束条件。在本文中，我们的主要目标是产生多个和不同的合理的结果时，给定一个掩蔽的图像，所以我们称之为多样性的图像修复任务。早期的图像修复方法在假设待填充的内容来自背景区域的前提下，通过在背景区域中搜索并粘贴最相似的图像块来逐步填充缺失区域[1，21，2]。这一假设并不总是与实际情况相符。虽然这些方法在某些情况下工作得很好，但它们不能生成语义上有意义的内容。最近，已经提出了一些基于深度学习的图像修复方法来学习训练数据的基本分布，其用于修复被掩蔽的图像。然而，这些方法只能产生一个最优结果，而不能产生多种语义上有意义的解。如今，典型的基于GAN的图像生成方法，如[6，19，9，3]，已经能够通过将正态分布的噪声映射到图像来生成新颖且多样化的图像样本。然而，由于以下原因，它们不能直接应用于不同的图像修复：1）在不同的图像修复场景中，条件标签是被掩蔽的图像本身，并且只有一个实例（即被掩蔽的图像）。对应于掩蔽图像的地面实况图像）。也就是说，不存在显式表达条件分布的条件训练2）不同的图像修复场景具有很强的约束条件（修复后的图像应与被掩盖图像保持颜色和纹理的完整性和一致性），因此比典型的图像生成更容易遭受模式崩溃。我们知道，对于给定的掩蔽图像，所有可能的修复结果的集合表示条件概率分布，掩蔽图像的集合表示边缘概率分布，并且训练数据集表示联合概率分布。因此，不同的图像处理可以看作是寻找条件该方法具有已知边缘概率和联合概率的特点，这意味着在遍历条件完备图像空间时可以从训练数据中借用一些信息。受上述分析的启发，我们提出了一个有条件的图像到图像的翻译网络的实例引导的不同的图像修复，条件上的掩蔽图像。我们工作的主要贡献是：• 一个实例引导的条件图像到图像翻译框架，用于各种图像修复，能够在以下情况下学习条件完成分布一个被屏蔽的图像。• 一种新的具有两个分支的网络结构，它学习实例图像空间和条件完备图像空间在无人监督的情况下。与现有方法相比，我们的方法具有更高的采样多样性。• 一种新的跨语义注意层，利用远程全局信息来确保图像域中的外观和结构一致性。• 我们证明，我们的方法是能够产生多个合理的解决方案，有显着的差异，多样性的掩蔽图像输入，如图所示。1.一、2. 相关工作基于非深度学习的修复基于非深度学习的修复方法主要利用非学习先验知识（即，手工制作的特征），诸如修补偏移和低秩的统计以恢复图像。其中，基于补丁的方法[5]和基于扩散的方法[11]是最典型的。基于块的方法首先被引入用于纹理合成[5]。然后将它们应用于图像修复，以在像素级填充缺失部分[21]。他们通常从图像数据集或未被修改的图像背景中搜索和借用相似的补丁，以基于补丁之间的距离度量生成缺失部分[14]。用于图像修复的非深度学习方法能够生成类似于上下文的清晰结果。然而，由于缺乏对图像的高层次语义基于深度学习的修复基于深度学习的修复方法通常使用深度神经网络和GAN来逆向生成缺失部分的像素[6，15，20，25，13]。现有基于深度学习的修复方法主要分为两类：单溶液修复方法和多溶液修复方法。5743cCIm单解决方案修复方法只产生一个结果，每个掩蔽输入，虽然可能有许多合理的可能性。这些方法，如[28，8，15，20，24]，通常会生成与可见区域不一致的扭曲结构和模糊纹理。为了克服这些问题，研究者们做了大量的工作，如[27，23，26，22，13，16，12，25]。多解决方案修复方法可以为每个掩蔽输入产生多个合理的结果。Zheng等[29]提出了具有两个并行路径的概率原则框架，其利用先验条件下界耦合来生成具有针对单个屏蔽输入的合理内容的我们的方法与[29]的目标相似，两者都是为被掩蔽的图像输入生成多种多样且合理的结果，但我们的方法使用不同的路线来提高恢复图像的多样性和真实感。多样化的图像生成图像生成方法产生新颖多样的sam，根据从图像数据集学习的高维数据分布来进行预测。目前，最典型的方法是变分自编码器（VAE）[19]和生成对抗网络（GAN）[6]。跨域图像平移还可以生成不同的图像，例如BicycleGAN（BG）[31]，MUNIT[7]，DR [10]等。cycleGAN（BG）[31]明确鼓励输出和潜在代码之间的连接是可逆的，这有助于防止潜在代码在训练过程中的输出，并产生更多样化的重新，目标是为掩模图像Im产生多个不同的语义上合理的和视觉上真实的完成图像Ic。所有这些完全像Ic的集合称为给定掩码像I m的条件完全像空间Scc。用于引导的实例图像Ii来自训练数据集，并且所有实例图像Ii的集合被称为实例图像空间Si。网络模型在不同的图像修复场景下容易发生模式崩溃，导致修复后图像的多样性较差。为了提高修复后图像的方差，该网络通过将实例图像空间Si和条件完备图像空间Scc投影到公共的低维流形空间Sm，以无监督的方式（无监督跨空间平移）学习实例图像空间Si和条件完备图像空间Scc之间的一对一映射. 特定结构的深度神经网络被设计为学习映射MAP：Si→Scc，E1（Ii）=E1（Ic），其中E1（·）是多元函数它将Ii或 Ic投影到低维流形空间中， Ic=U （Ii ，Im），U（·）是我们的UCTGAN网络所表示的函数。3.1. 概率分析我们的网络框架将最大化训练实例的条件对数似然，这涉及变量下限：结果。MUNIT [7]和DR [10]使用一个图像的内容（或样式）作为指导，并结合样式（或con）。logp（Ic|Im）≥−KL（f<$（Zc|Ii，Im）f（Zc|（m））+EZf（Z|I，I）[loggθ（Ic|Zc，Im）]（一）tent) of another image to achieve diverse image-to-imagetranslation.受其启发，我们还采用训练数据集的实例图像作为指导，进行不同的图像修复。然而，我们的方法与MUNIT [7]和DR [10]有根本的不同我们的方法不会将图像分解为内容代码和样式代码.内容和风格的分解表示是MUNIT执行的各种图像到图像翻译的基础[7]。两个不同领域的交叉对抗训练是必要的，以便在MUNIT [7]中解耦图像的内容和风格。然而，在多种图像修复场景中，待修复图像、作为指导的实例图像和相应的完成图像都属于同一个域，因此MUNIT [7]无法实现单一域中内容和风格的分离学习3. 我们的方法假设我们有一个来自训练数据集的图像，最初是Ig，但被掩模M降级为Im（掩模图像），包括观察到的/可见的像素。我们其中Ii、Ic和Im分别是实例图像、修复图像和掩蔽图像。 Zc是空间Sm中Ii的潜向量. fθ、fθ和gθ分别是后验抽样函数、条件先验函数和似然函数，其中fθ、f θ和g θ分别是其对应函数的深度网络参数。条件先验被设置为f∈（Zc|Im）=N（0，I）。第一阶段主要项目实例图像Ii转化为低维流形向量Zc其由对应于实例图像的完成图像共享。3.2. 网络结构我们的网络以端到端的方式进行训练，它由两个分支组成，如图所示。2，主要由三个网络模块组成：流形投影模块E1、条件编码器模块E2和生成模块G。主分支由流形投影模块E1和生成模块G组成，生成模块G负责将实例图像空间Si和条件完备图像空间Scc投影到一个公共的隐流形空间Sm中，以无监督的方式学习两个空间之间的一对一图像映射.第二5744CCLCCLCCL=L+LKLKLKLKL图2：我们的架构概述，包含两个分支。主分支由流形投影模块和生成模块组成，生成模块负责将实例图像空间映射到条件完备图像空间。二级分支由条件编码器模块组成，其充当条件标签。在外观和感知特征方面的损失。Lccl=Lafccl=EIipdata（MU（Ii，Im））−Im1+EIip数据（MU（Ii，Im））−（Im）1（二）其中M是掩码，U（·）是我们的网络所表达的函数，pdata是训练数据集的分布，k是预训练的特征提取器，例如VGG16，LaLf是外观约束损失和感知约束，图3：我们的跨语义注意层。在瓶颈层上的掩码图像特征和实例图像特征上计算注意力图。分别为亏损KL发散损失。KL发散损失LKL定义为：LKLi m分支由条件编码器模块E2组成，充当类似于条件标签的条件约束。对于掩码图像Im，只有一个原始I m-=KL（E1（Zc|Ii）N（0，I））+KL（E2（Zm|Im）N（0，I））（三）可以用作训练数据以最大化类似物的年龄Ig其中L是Lm负责投射实例等式（1）中的等式（2）。也就是说，实例图像和完成图像只能以无监督的方式获得，这通常导致模式崩溃。为了通过一对一映射将两个空间（实例图像空间和条件完备图像空间）关联起来，实例图像Ii和它们对应的映射恢复图像Ic在低维流形空间Sm中应该具有相同的表示。3.3. 训练损失条件约束丢失。多样性和多样性imagesand masked imagesintomultivariatenormaldistri-bution space, E1 and E2 are functions represented by mani-fold projection module and conditional encoder module, re-spectively. Zc和Zm分别是多元正态分布空间中Ii和Im的特征向量。重建损失。我们的网络以无监督的方式将实例图像转换为完成图像。然而，实例图像在像素级上不同于相应的完成图像。在低维流形空间中，期望实例图像与相应的完备图像相同.所以低维流形损失定义为我们的网络产生的结果需要与掩蔽图像，它要求修复图像的外观和感知特征与lrec =EIiP数据 E1（Ii）−E1（G（E1（Ii），E2（Im）<$1（四）可能的是已知像素区域中的对应掩蔽图像的那些。我们定义条件约束其中Im是掩码图像，Ii是从训练数据集中随机采样的实例图像，P数据是距离。+LL5745recCCLKL +LCCLCCLrecrecrecFKLG图4：Paris [4]测试集中心区域完成的比较。对于每组，从左到右图像分别是蓝色框中的掩码图像，CE [15]，CA[26]，CSA [13]，SF [16]，SN [23]，PN [29]和红色框中的我们的方法训练数据集的映射，E1是流形投影模块，E2是条件编码模块，G是生成模块。对于每个掩码图像Im，只有一个基全面目标。我们的网络（UCTGAN）的总损耗函数Ltotal由四组组件损耗组成：真实图像Ig对应于它。当它对应-ing地面实况图像Ig被用作引导实例Ltotal=λrec（Lglrec）+λccl（Laccl）（七）图像，生成模块的输出为Ig。因此，需要相同的重建约束，其定义如下：+λadvLadv+λKL（Li m其中LKL组根据KL发散度来测量两个概率分布的匹配程度，Lg=<$Ig −G（E1（Ig），E2（Im））<$1（5）条件约束损失La和Lf鼓励一致性，rec其中Im是掩蔽图像，Ig是Im的地面实况图像，E1是流形投影模块，E2是相干编码器模块，并且G是生成模块。完成内容与已知内容之间的连贯性和完整性内容，重建损失Lg和Ll鼓励实例图像和修复图像之间的一对一映射，并避免陷入模式崩溃，以及总重建损失Lrec=Llrec.对抗性损失Ladv使得修复的图像适合于训练数据集的分布超参数λrec，对抗性损失。我们的对抗性损失被定义为Ladv= min max（EIi）p数据日志D（Ii）D（6）+EIip数据日志（1−D（U（Ii，Im）其中p数据是训练数据集的分布，D是判别式，U（·）是我们的网络（UCTGAN）。λccl、λadv和λKL控制每组元件损耗的相对重要性。3.4. 跨语义注意我们提出的跨语义注意模块如图所示。3.第三章。它被添加到瓶颈层的最大池化层之后.掩码图像Im的特征图Fm，以及+L+L+L）5746imjm我n图5：中心区域完成的CelebA-HQ [9]测试集的比较。对于每组，从左到右图像分别是蓝色框中的掩码图像，CE[15]，CA [26]，CSA [13]，SF [16]，SN [23]，PN [29]和红色框中的我们的方法。图6：Places2 [30]测试集上的比较。对于每组，从左到右的图像分别是屏蔽图像，PN [29]在蓝色框中，我们的方法在红色框中。通过1x1卷积滤波器将实例图像Ii的Fi其中Fm=WfFm，Fi=Wk（Fi），d（Fi）=Wd（Fi）.该方程由因子M（F）归一化：语义注意力FnFm和Fi之间的关系。Σexp（（Fn）T（F j））。这里j是枚举1ΣF=e×p（（Fn）T（Fj）d（Fj））所有可能的位置，n是输出位置index，Wf，Wk、Wd是学习的权重矩阵。则输出imM（ F）日5747米伊伊（八）5748rec，Lrec我算法1我们框架1：当G，E1，E2没有收敛时，2：样本批量图像x来自训练数据3：来自训练数据的x的样本实例图像y4：将y的前3个图像替换为x的地面实况图像Ig，批量大小为85：生成x的随机掩码M6：构造输入x←xM7：生成输出x←G（E1（y），E2（x））8.计算所有损失实例数据。我们的模型也可以训练为任意区域完成。4.2. 定量比较我们定量比较我们的模型与现有的单解决方案修复方法和多解决方案修复方法，分别。与单溶液修复方法的比较。给定一个掩码图像输入，我们的模型可以生成多个和多样化的合理解决方案，而单一的-9：用Lg更新G、E1、E2M iKL KL，Ladv解决方案修复方法只能生成一个结果。10：用L1更新G固定11：用Ladv更新D12：结束whileFO是：阿共fccl保持E1，E2为了公平比较，我们选择了前5个样本（按）来评估平均度量值。为了更好地衡量恢复图像的质量，我们引入了改良的初始评分（MIS），该评分是在初始评分（IS）的基础上进行修改的[18]。正如我们从[18]中所知道的，IS被定义为FO=Γ F+ F（九）IS=exp（H（p（y））−ExH（p（y|（10）我的我的其中，rd是用于平衡Fim和Fi之间的权重的尺度参数。4. 实验结果我们现在通过在包括Paris [4]，CelebA-HQ [9]，Places 2 [30]，和ImageNet [17]。基线。我们与以下基线进行比较：上下文编码器（CE）[15]，上下文注意力（CA）[26]，相干语义注意力（CSA）[13]，结构流（SF）[16]，移位网络（SN）[23]，CVAE [19]，BicycleGAN（BG）[31], and PICNet (PN) [29].实作详细数据。我们的模型是使用训练集学习的，并在测试集上进行测试，遵循基线用于公平比较的实验设置。我们使用分辨率为256 × 256的图像，在随机位置有规则孔或不规则孔。我们使用Adam优化器训练我们的网络，β1= 0.5，β2= 0.99，所有网络都使用正交优化初始化。的学习率初始化为0.0001，每1K次迭代乘以我们训练网络进行50万次迭代。批量大小为8。我们选择低维流形向量|Z|= 512在所有的数据集。在算法1中可以看到训练过程的概述。4.1. 定性比较我们将我们的方法与Paris [4]，CelebA-HQ [9]，Places 2 [30]和ImageNet [17]上的现有方法进行了比较。如图图4、5和6中，我们的模型通过从潜在空间其中H（·）是熵p y函数，p（y）表示图像类别分布的边缘概率函数，p（y|x）表示给定图像x的类别分布的概率函数。H（p（y））用于度量生成的图像类别的多样性。然而，在这方面，在图像修复的场景中，只有一种图像。此外，p（y）通常需要大量的图像才有意义。所以我们去掉项H（p（y））。MIS定义为 ΣMIS=exp（Expg（p（yi|x）logp（yi|（11）我其中Pg是图像x的模型分布。y是由预先训练的分类模型预测的标签。MIS值越大，图像质量越好。MIS的最大值为1。与IS [18]相比，MIS更适合在图像修复场景中评估图像质量在CelebA-HQ 1000测试图像上进行比较，其中平均I1损失、峰值信噪比（PSNR）、结构相似性（SSIM）、IS和MIS的定量测量如表1所示。我们用的是128第128章面具在中间与多解决方案修复方法的比较。我们使用[31]中报告的LPIPS度量来评估多样性得分。计算平均分在从1K中心掩蔽图像的采样生成的5K对之间。Iout和Iout（m）分别是全输出和掩模区域输出。如表2所示，我们的方法获得了比其他现有方法相对更高的多样性得分。用户研究。为了更好地评估和与其他方法进行比较，我们从CelebA-HQ [9]测试集中随机选择600张图像，并将这些图像随机分配到20张，L，L，L5749recrecrecrec表1：与CelebA-HQ数据集上最先进方法的定量比较。我们的模型是在规则的洞上训练的。* 越低越好。越高越好。方法峰值信噪比SSIM卡是的，管理信息系统l1损失（%）†旧金山[16]25.97940.88352.88500.01561.69加拿大[26]24.23770.86712.86740.01512.35CE [15]26.16340.89102.88510.014925.20CSA [13]26.19200.90212.79970.01631.68SN [23]26.07320.86712.99810.01701.81PN [29]24.42290.86923.00970.01702.17带噪声的25.97000.87522.90120.01741.61UCTGAN不受关注26.02230.87323.00110.01741.65关注UCTGAN26.38330.88623.01270.01781.51表2：多样性与现有技术方法的定量比较和相应的修复图像投影到同一个低维流形上，实现了实例图像空间和条件完备图像空间的一一映射为了测量损失L在所产生的修复的IM的多样性上，年龄，我们在没有Ll的情况下训练模型（UCTGAN无recLLrec）在CelebA-HQ数据集上评价结果如表2所示，我们可以看到，损失Ll大大提高了图像的多样性。用户. 每个用户都会得到30张带有孔洞的图像，以及PICNet（PN）[29]和我们的修复结果。他们每个人都被要求以非递增的顺序对结果进行排名（这意味着他们可以说两个结果具有相似的质量）。统计数据显示，我们的模型在大多数情况下（ 71.15% ）优于PICNet（PN）[29]。4.3.消融研究有无交叉语义注意模块。我们在CelebA-HQ数据集上训练了一个完整的UCTGAN，该数据集具有跨语义注意层（称为UCTGAN with attention）和一个不涉及跨语义注意层的模型（称为 UCTGAN withoutattention）。表1列出了评价结果。从表1中的结果，我们可以看到，交叉语义注意力层（具有注意力的UCTGAN）在诸如MIS、IS和PSNR的若干度量中改善了图像质量。有无引导实例。为了检验流形投影模块的效果，我们用标准正态分布采样的噪声代替流形投影模块的输出。我们在CelebA-HQ数据集上训练这个评价结果如表1和表2所示，我们可以看到，实例引导的方法（带有注意力的UCTGAN）提高了图像质量和多样性。5. 结论在本文中，我们提出了一个有条件的图像到图像翻译网络（UCTGAN），以产生多个和不同的语义合理和视觉上逼真的图像修复结果。我们的方法通过无监督的跨空间翻译来学习条件该网络实现了实例图像空间与条件完备图像空间的一一映射，有效降低了模式崩溃的可能性，提高了恢复图像的多样性.我们还引入了一个新的跨语义注意层，利用已知部分和已完成部分之间的远程依赖关系至于未来的工作，我们计划将我们的方法扩展到其他任务，如基于实例图像的不同域内图像生成，不同的图像超分辨率和不同的文本到图像的生成。致谢。这工作是浙江省科技计划项目（编号：2019C03137）、浙江省基金项目（编号：LGF18F020006、LY19F020049）、石窟寺数字化保护重点科研基地等具有和不具有低尺寸损失Ll. 低的D-在浙江大学，国家文化应力损失Ll用于确保实例映像中国的遗产方法LPIPS（I输出）LPIPS（I输出（m））CVAE [19]0.0040.014保加利亚[31]0.0270.060PN [29]0.0290.088UCTGAN无Llrec0.0170.032带噪声的0.0290.062UCTGAN0.0300.0925750引用[1] Connelly Barnes ， Eli Shechtman ， Adam Finkelstein ，andDanBGoldman.Patchmatch ： Arandomizedcorrespondence algorithm for structural image editing. 在ACM Transactions on Graphics（ToG），第28卷，第24页中。ACM，2009年。[2] Marcelo Bertalmio，Luminita Vese，Guillermo Sapiro，and Stanley Osher.同时结构和纹理图像修复。IEEE图像处理学报，12（8）：882[3] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。在2019年国际学习代表会议上。[4] Carl Doersch 、 Saurabh Singh 、 Abhinav Gupta 、 JosefSivic和Alexei A.埃夫罗斯是什么让巴黎看起来像巴黎？Acm Transactions on Graphics，31（4）：1[5] 一个埃弗罗斯和W弗里曼。图像绗缝纹理合成。在Proceedings of SIGGRAPH 2001，第341卷，第346页，2001年。[6] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第2672[7] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz.多模态无监督图像到图像翻译。在欧洲计算机视觉会议（ECCV）的会议记录中，第172-189页[8] Satoshi Iizuka，Edgar Simo-Serra，and Hiroshi Ishikawa.全局和局部一致的图像完成。ACM Transactions onGraphics（ToG），36（4）：107，2017。[9] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。在IEEE学习代表上，2018年。[10] 李欣英、曾鸿宇、黄佳斌、曼尼什·辛格和杨明轩。通过解纠缠的表示进行不同的图像到图像的翻译。在欧洲计算机视觉会议（ECCV）的会议记录中，第35-51页[11] Anat Levin，Assaf Zomet和Yair Weiss。学习如何从全局图像统计中进行图像修补。在null中，第305页。IEEE，2003年。[12] Guilin Liu，Fitsum A Reda，Kevin J Shih，Ting-ChunWang，Andrew Tao，and Bryan Catanzaro.使用部分卷积的不规则孔图像修复。在欧洲计算机视觉会议（ECCV）的会议记录中，第85-100页[13] Hongyu Liu，Bin Jiang，Yi Xiao，and Chao Yang.图像修复中的一致语义注意。国际计算机视觉会议，2019年。[14] David G Lowe等.基于局部尺度不变特征的目标识别。在iccv，第99卷，第1150-1157页，1999中。[15] Deepak Pathak 、 Philipp Krahenbuhl 、 Jeff Donahue 、Trevor Darrell和Alexei A Efros。上下文编码器：特征通过修复来学习。在Proceedings of the IEEE conferenceon computer vision and pattern recognition，pages 2536[16] Yurui Ren，Xiaoming Yu，Ruonan Zhang，Thomas HLi，Shan Liu，and Ge Li.结构回流：基于结构感知外观流的图像修复。在IEEE计算机视觉国际会议论文集，第181- 190页[17] Olga Russakovsky ， Jia Deng ， Hao Su ， JonathanKrause，San-jeev Satheesh，Sean Ma，Zhiheng Huang，Andrej Karpathy，Aditya Khosla，and Michael Bernstein.图像网大规模视觉识别挑战。International Journal ofComputer Vision，115（3）：211[18] Tim Salimans 、 Ian Goodfellow 、 Wojciech Zaremba 、Vicki Cheung、Alec Radford和Xi Chen。改进的gans训练技术。神经信息处理系统的进展，第2234-2242页，2016年[19] Kihyuk Sohn，Honglak Lee，and Xinchen Yan.使用深度条件生成模型学习结构化输出表示。神经信息处理系统的进展，第3483-3491页，2015年[20] Yuhang Song，Chao Yang，Yeji Shen，Peng Wang，Qin Huang，and C-C Jay Kuo. Spg-net：图像修复的分割预测和指导网络。在2018年英国机器视觉会议[21] 亚历山德鲁·泰莱亚一种基于快速行进法图形工具杂志，9（1）：23[22] Yi Wang，Xin Tao，Xiaojuan Qi，Xiaoyong Shen，andJiaya Jia.通过生成式多列卷积神经网络进行图像修复。神经信息处理系统的进展，第331-340页，2018年[23] 燕昭仪、李晓明、慕丽、左王梦、石光山。Shift-net：通过深度特征重排进行图像修复。在欧洲计算机视觉会议（ECCV）的会议记录中，第1-17页[24] Raymond A Yeh ， Chen Chen ， Teck Yian Lim ，Alexander G Schwing ， Mark Hasegawa-Johnson ， andMinh N Do.语义图像修复与深生成模型。在IEEE计算机视觉和模式识别会议上，第5485-5493页，2017年[25] Jiahui Yu，Zhe Lin，Jimei Yang，Xiaohui Shen，XinLu，and Thomas S Huang.利用门控卷积进行自由形式图像修复。arXiv预印本arXiv：1806.03589，2018。[26] Jiahui Yu，Zhe Lin，Jimei Yang，Xiaohui Shen，XinLu，and Thomas S Huang.具有上下文关注的生成式图像修复。在IEEE计算机视觉和模式识别会议论文集，第5505- 5514页[27] Yanhong Zeng ， Jianlong Fu ， Hongyang Chao ， andBaining Guo.学习金字塔上下文编码器网络用于高质量图像修复。在IEEE计算机视觉和模式识别会议论文集，第1486-1494页[28] Haoran Zhang ， Zhenzhen Hu ， Changzhi Luo ，Wangmeng Zuo，and Meng Wang.渐进式生成网络的语义图像修复。2018年ACM多媒体5751多媒体会议，1939-1947页。ACM，2018。[29] Chuxia Zheng，Tat-Jen Cham，and Jianfei Cai.多元形象的完成。在IEEE计算机视觉和模式识别会议论文集，第1438- 1447页[30] Bolei Zhou ， Agata Lapedriza ， Aditya Khosla ， AudeOliva，and Antonio Torralba.地点：一个用于场景识别的1000万图像数据库。IEEE关于模式分析和机器智能的交易，40（6）：1452[31] Jun-Yan Zhu、Richard Zhang、Deepak Pathak、TrevorDarrell、Alexei A Efros、Oliver Wang和Eli Shechtman。向多模态图像到图像翻译。神经信息处理系统进展，第465-476页，2017年。

下载后可阅读完整内容，剩余1页未读，立即下载