没有合适的资源?快使用搜索试试~ 我知道了~
多元图像补全:基于学习的多样化结果生成方法
4321多元图像补全Chuanxia Zheng Tat-Jen Cham Jianfei Cai新加坡{chuanxia001,astjcham,asjfcai}@ ntu.edu.sg图1.我们的方法在人脸、建筑物和自然风景的图像上的示例完成结果,具有各种掩模(缺失区域以白色显示)。对于每个组,左侧显示的是屏蔽的输入图像,后面是我们模型的采样结果,没有任何后处理。结果是多样的和合理的。(Zoom查看详情)。摘要大多数图像补全方法对每个掩码输入只产生一个结果,尽管可能存在许多合理的可能性。在本文中,我们提出了一种方法,多元图像完成-基于学习的方法面临的主要挑战是,通常每个标签只有一个地面实况训练实例。因此,从条件性VAE采样仍然导致最小的多样性。为了克服这一点,我们提出了一个新的和probabilistically原则性的框架,两个平行的路径。一种是重构路径,其利用唯一一个给定的地面真相来获得丢失部分的先验分布,并从该分布重建原始图像。另一种是生成路径,其中条件先验与重构路径中获得的分布相耦合。两者都由GAN支持。我们还引入了一个新的短期+长期注意层,利用解码器和编码器功能之间的距离关系,提高外观一致性。当在具有建筑物( Paris ) 、 人 脸 ( CelebA-HQ ) 和 自 然 图 像(ImageNet)的数据集上进行测试时,我们的方法不仅生成了更高质量的完成结果,而且还生成了多个不同的合理输出。1. 介绍图像补全是一个高度主观的过程。假设你看到了图中缺失区域的各种图像。1、你会想象是什么占据了这些洞?Bertalmio等人[4]有关如何保护专家将修补损坏的艺术品:1)基于整体场景想象要填充的语义内容;2)确保掩蔽区域和未掩蔽区域之间的结构连续性;以及3)为缺失区域填充视觉上真实的内容。尽管如此,每个专家最终会独立地创造出截然不同的细节,即使他们可能在高级语义上达成一致,例如眼睛在受损肖像上的一般位置。基于这一观察,我们的主要目标是在呈现掩蔽图像时生成多种多样的合理结果-在本文中,我们将此任务称为多元图像完成(如图所示)。①的人。 这与试图仅生成一个早期的图像补全工作[4,7,5,8,3,13]仅关注上述步骤2和3,假设间隙应填充与背景相似的内容。尽管这些方法产生了高质量的纹理一致的图像,但是它们不能捕获全局语义并且不能为大孔产生新内容。最近,提出了一些基于学习的图像完成方法[29,14,39,40,42,24,38],其推断语义,14381439TIC内容(如步骤1)。这些工作将完成视为条件生成问题,其中输入到输出映射是一对多的。然而,这些先前的工作仅限于生成一个为了获得不同的结果集,一些方法利用条件变分自编码器(CVAE)[34,37,2,10],VAE [19]的条件扩展,其显式编码可以采样的分布。然而,特别是对于图像完成场景,标准的单路径公式通常会导致严重低估方差。这是因为当条件标签本身是掩蔽图像时,训练数据中与每个标签匹配的实例的数量通常仅为一个。因此,估计的条件分布往往具有非常有限的变化,因为它们被训练来重建单一的地面实况。第3.1节对此作了进一步阐述。我们将使用的一个重要见解是,部分图像作为完整图像的超集,也可以被认为是从具有平滑先验分布的潜在空间生成的。这提供了一种用于缓解每个条件部分图像具有稀缺样本的问题的机制。为此,我们引入了一个新的图像补全网络,它具有两个并行但链接的训练管道。第一个管道是一个基于VAE的重构路径,它不仅利用了完整的实例基础事实(即,可见部分图像及其补充部分-隐藏部分图像),而且还为补充区域的潜在空间施加平滑先验。第二个流水线是一个生成路径,预测潜在的先验分布的缺失区域的条件下,可见像素,从中可以被采样,以产生不同的结果。后一种路径的训练过程根本不试图将输出转向重建实例特定的隐藏像素,而是允许由辅助神经网络驱动结果的合理性[11]。这导致内容生成中的实质上很大的可变性。我们还引入了增强的短期+长期注意力层,显著提高了结果的质量。我们将我们的方法与现有的最先进的方法在多个数据集上进行了比较。使用我们的方法不仅可以生成更高质量的完成结果,还可以提供多种多样的解决方案。这项工作的主要贡献是:1. 与现有方法相比,能够保持高得多的样本多样性的图像完成的概率原则框架;2. 一种新的具有两条并行训练路径的网络结构,在重建原始训练数据(损失多样性)和保持条件分布的方差之间进行权衡;3. 一种新的自我注意层,利用短期+长期上下文信息来确保图像域中的外观一致性,其方式优于纯粹使用GAN;以及4. 我们证明了我们的方法能够完成相同的掩码,具有多个合理的结果,具有很大的多样性,如图1所示2. 相关工作现有的图像完成工作要么使用来自输入图像内的信息[4,5,3],要么使用来自大型图像数据集的信息[12,29,42]。大多数方法将为每个掩码图像仅生成一个结果。图像内完成传统的图像内完成,例如基于扩散的方法[4,1,22]和基于补丁的方法[5,7,8,3],假设图像孔与可见区域共享相似的内容;因此,它们将直接匹配、复制和重新排列背景片以完成孔。这些方法对于背景复杂性,例如,用于对象去除,但不能使输入图像中不存在的唯一内容产生幻觉。为了生成语义上的新内容,图像间补全从大型数据集中借用信息。Hays和Efros [12]提出了一种使用数百万幅图像的图像完成方法,其中检索与掩蔽输入最相似的图像,并转移相应的区域。然而,这需要高度的上下文匹配,这并不总是可用的。最近,提出了基于学习的方法。最初的作品[20,30]集中在小而薄的孔。上下文en-编码器(CE)[29]使用GAN处理64×64大小的孔[11]。随后是几种基于CNN的方法,其中包括将全局和局部鉴别器组合为对抗性损失[14],在掩蔽图像的潜在空间中识别最接近的特征[40],利用语义标签来引导完成网络[36],引入用于面部完成的广告面部解析损失[23],以及设计特定的卷积来解决不规则的孔[24,41]。这些方法的一个共同的缺点是,它们通常会产生与可见区域不一致的扭曲结构和模糊纹理,特别是对于大孔。组合的图像内和图像间完成为了克服上述问题,Yang等人。[39]提出了多尺度神经元片合成方法,该方法通过从中间层特征复制片来生成高频细节。然而,这种优化是计算昂贵的。最近,一些作品[42,38,35]利用空间注意力[16,46]来获得高频细节。Yu等人[42]提出了一个上下文关注层,将相似的特征从可见区域复制到孔洞。Yan等人[38]和Songet al.[35]提出了特征域上的PatchMatch类思想 然而,这些方法识别类似的fea-1440φC m通过比较孔的特征和可见区域的特征来确定,这有点矛盾,因为当两个特征非常相似时,特征转移是不必要的,但是当需要时,特征差异太大而不能容易地匹配。此外,远距离信息不用于与可见区域不同的新内容 。 我 们 的 模 型 将 通 过 将 自 我 注 意 力 [43]扩 展 到harness丰富的上下文来解决这个问题。图像生成图像生成使用VAE [19]和GAN [11]等方法这些已应用于条件图像生成任务,例如图像转换[15],合成到现实[44],未来预测[27]和3D模型[28]。每-重建目标输出解码器Concat/添加样品推理编码器输入确定性CVAE实例盲态最相关的是条件性VAE(CVAE)[34,37]和CVAE-GAN [2],但这些并非专门针对图像完成。基于CVAE的方法在条件标签较少且离散,并且每个标签有足够的训练实例时最有用。一些最近的工作利用这些在图像翻译可以产生不同的输出[47,21],但在这种情况下,条件到样本的映射是更本地的(例如。pixel-to-pixel),并且仅改变视觉外观。这对于图像补全来说是不正确的,其中条件标签本身就是掩蔽图像,只有一个原始孔的训练实例在[6]中,通过指定面部属性(例如,smile),但是这种方法是非常特定于域的,需要目标属性。图2.给定掩码输入的完成策略。(确定-tic)结构直接预测地面实况实例。(CVAE)增加了随机采样以使输出多样化。(实例盲)只匹配可见部分,但训练不稳定。(我们的)在测试期间使用生成路径,但在训练期间由并行重建路径引导。黄色通道用于训练。pθ(·|·)li k θ,其中θ、φ和θ是其对应函数的深度网络参数。该下限被最大化。所有参数。就我们的目的而言,直接使用CVAE [34]的主要困难在于,|·)和pφ(·|·)在(1)中不容易分离,KL距离容易被驱动到零,并且近似等价于最大化Ep(z|我)[logp θ(Ic|zc,Im)](“GSNN”3. 方法[34]中的变体)。 因此,它学习了类似于delta的先验知识,关于p φ(zc|Im) →δ(zc−z),其中z是最大值C c假设我们有一个图像,最初是Ig,但是退化了通过丢失像素的数量来变成包括观察到的/可见的像素的Im(掩蔽的部分图像)我们还定义Ic作为其补充部分图像,包括原始丢失的像素。经典的图像完成方法试图从Im以确定性方式重建原始的未掩蔽图像Ig(见图2这导致只有一个解决方案。相比之下,我们的目标是从p(Ic)采样|Im)。3.1. 概率框架为了有一个分布来采样,目前的方法是采用CVAE[34],它估计潜在空间上的参数分布,从中采样是可能的(见图3)。2“CVAE”)。这涉及观察训练实例的条件对数似然的变分下界logp(Ic|Im)≥ − KL(q <$(zc|Ic,Im)||p φ(zc|(m))pθ(Ic) 的 潜 点|·,Im)。虽然该低方差先验在估计单个解时可能是有用的从其采样将导致图像完成结果中的可忽略的差异(如图2所示)第9段)。当使用[37]的CVAE变量(具有固定的潜在先验)时,网络学会忽略潜在采样并直接从Im估计Ic,也导致单一解决方案。这是由于当每个条件标签仅存在一个训练实例(其是部分图像Im)时的图像完成场景。详情请参阅补充部分??.使输出多样化的一种可能的方式是简单地不激励输出在训练期间重建实例特定的Ig,仅需要它符合由学习的对抗性判别器所认为的训练集分布(参见图2)。2“实例盲”)。然而,这种方法是不稳定的,特别是对于大型和复杂的场景[35]。在我们的方法中,我们要求缺失的部分图像作为完整图像的超集,也来自于具有平滑先验+Eq (z|我-我)[log p θ(Ic|zc,Im)](1)的p(zc)。 变分下界为:ψCC m其中z是潜在向量,q(·|·)后肌-logp(Ic)≥ − KL(q <$(zc|Ic)||p(zc))c+E[logp(I |z)](2)重要采样函数,pφ(·|·)条件优先级,q(zc|Ic)θC C我们1441θθ鉴别器网络图3.概述我们的架构与两个并行流水线。重建管道(黄线)结合了来自Im和Ic的信息,仅用于训练。生成流水线(蓝线)推断隐藏区域的条件分布,可以在测试期间进行采样。表示网络和生成网络共享相同的权重。其中在[19]中先验被设置为p(zc)=N(0,I)。然而,当涉及到部分图像时,我们可以更有辨别力,因为它们具有不同的像素数量具有更多像素(较大孔)的缺失部分图像Ic应具有比具有更少像素(较小孔)的缺失部分图像Ic更大的潜在先验方差。因此,我们推广先验p(zc)=Nm(0,σ2(n)I)以适应像素;像素其中0≤λ≤1由3.3节中的训练损失系数隐式设置。当从重要函数q(·)采样时,|Ic),则完整的训练实例是可用的,并且我们用公式表示似然p r(Ic|zc,Im),以专注于重构Ic。相反,当从学习的条件i对先验pφ(·)进行采样时,|Im),它不包含Ic,我们通过具有类似的-发动机罩型号pg(Ic|zc,Im)=g(zc,Im)独立于θ θ先验-条件耦合接下来,我们将潜在先验组合成(1)的条件下界。这可以通过假设zc与Ic的关系比与Im的 关 系 更 密 切 来 实 现 , 因 此 q <$ ( zc|Ic , Im )<$q<$(zc|一c)。更新(1):logp(Ic|Im)≥ − KL(q <$(zc|Ic)||p φ(zc|(m))+Eq(zc|Ic)[log p θ(Ic|zc,Im)](3)然而,与(1)不同的是,请注意q <$(zc|Ic)不再是在训练中自由学习的,而是与它在(2)中的存在联系在一起。直觉上,q的学习(zc|Ic)由(2)中的先验p(zc)正则化,而条件先验p φ(zc)的学习|Im)又被q(zc)正则化|(c)在⑶中。重建与创造性的一代的一个问题(3)是从q ∈(zc)中取样|Ic),但在测试期间不可用,因此采样必须来自p φ(zc|Im)可能没有充分学习这个角色。 为了解决这个问题,我们修改(3),使其具有有重要性抽样和无重要性抽样的混合公式。所以,用简化的符号:C的原始实例。 相反,它只会鼓励性别-对样本进行验证,以适应整体训练分布。我们的总体培训目标可以表示为:联合最大化(2)和(4)中的下界,其中(2)中的li k ∈ P 统 一 到 ( 4 ) 中 的 li k∈Pθ ( Ic|zc ) n=p r(Ic|zc,Im)。见补充部分?.3.2. 双管网结构该公式被实现为我们的双流水线框架,如图2所示。3.它由两条路径组成:上部重建路径使用来自整体的信息图像,即,Ig={Ic,Im},而下部生成路径仅使用来自可见区域Im的信息。 表示网络和生成网络共享相同的 权重。具体而言:• 对于上重建路径,利用补部分图像Ic来推导重要性函数q∈(·|在训练期间,Ic)=N(·)。采样的潜在向量zc因此包含丢失区域的信息,而条件特征fm编码可见区域的既然有这么多的-生成1442样品+鉴别符1样品+残差编码器启动短期+长期关注残差编码器Inf1残差块残差解码器Inf2残差块配送环节培训和测试培训鉴别器2表示网络推理网络一代网络INF2INF1θθψlogp(I c| Im)≥λ.Σq[logp r(Ic|zc,Im)] −KL(q||pφ)如果信息足够,则该路径中的损失函数为用于重建原始图像1g。+(1−λ)Epφ[logp g(Ic|zc,Im)](4)• 对于较低的生成路径,这也是测试重建E1443θc代McKLcm路径,仅基于可见Im来推断孔Ic的潜在分布。这将是显着不如准确的推理在上面的路径。因此,重建损失仅针对可见区域Im(经由fm)。• 此外,我们还在两条路径上利用了对抗性学习网络,这在理想情况下确保了完整的合成数据符合训练集分布,并且经验上导致更高质量的图像。3.3. 训练损失(2)和(4)中的各种项可以更常规地联合最大化下限然后最小化总损失L,其包括:1x1ConvSoftmax(Q)Encoderd'Escheriche地图C2xHxW情境流查询特征地图C1/4xHxW注意力地图解码器功能地图C1xHxW自我关注图4.我们的短期+长期关注层。直接在解码器特征上计算注意力图。在获得自注意分数之后,我们使用这些来计算解码器特征上的自注意,以及编码器特征上的上下文流。三组元件损耗:L =α(Lr+Lg)+α(Lr+Lg )+α(Lr+Lg)其中I(i)=G(z,f)是从z生成的图像,KLKLKLappappapp阿德阿德ad(五)样本,并且M是选择可见像素的二进制掩码。其中,LKL群正则化对对抗性损失Pr(Ic)的公式|zc,Im)和L群gθapp鼓励外观匹配保真度,而Lad组则强制采样图像符合训练集分布。每一组都有一个单独的术语,重建和生成路径。分布正则化的典型解释实例盲pθ(Ic|c,Im)还结合了使用D1和D2的对立学习鉴别器来判断所生成的图像是否适合训练集分布。受[2]的启发,我们在生成器的重建路径中使用平均特征匹配损失Lr,(i)=||fD(I(i))−fD(I(i))||2 (10)ad1记录1GVAE中的KL发散项是它正则化了学习的重要性采样函数|Ic)到一个固定的潜在先验p(zc)。定义为高斯,我们得到:Lr,(i)= − KL(q)(z|(一))||Nm(0,σ2(n)I))(6)其中fD1(·)是D 1的最后一层的 特 征 输 出。这鼓励了原始特征和重建特征在地图中靠近在一起。相反,AD-发电机的生成路径中的对抗损失为:KLc对于生成路径,适当的解释Lg,(i)= [D2(I(i))-1]2(11)广告代是reve r se d:学习的条件先验pφ(·|Im),也是高斯的,被正则化为q(·|一c)。Lg,(i)= −KL(q)(z|(一))||p φ(z|(一))(7)注意,条件先验只使用Im,而importance函数可以访问隐藏的Ic。外观匹配损失可能性项p r(Ic|zc,Im)可以被解释为概率上鼓励与隐藏的I c相匹配的外观。然而,我们的框架还自动编码可见的Im,并且损失函数需要满足这一点重建因此,这里的每个实例损失是:Lr,(i)=||I(i)− I(i)||1(8)这是基于LSGAN [26]中的发电机损耗,其性能优于我们的场景中的原始GAN损耗[11]。D1和D2的平均损耗也基于LSGAN。3.4. 短期+长期关注扩展到自注意GAN [43]之外,我们提出不仅使用解码器层内的自注意图来利用远距离空间上下文,而且还进一步捕获编码器层和解码器层之间的特征-特征上下文我们的关键新见解是:这样做将允许网络根据情况选择关注编码器中的细粒度特征或解码器中的语义生成特征。1444apprecg我们提出的结构如图所示4.第一章我们首先计算-其中I(i)=G(z,f),I(i)是重建的,从解码器的特征f_dreccMG完整的原始图像。相反,对于生成路径,我们忽略了特定于实例的外观匹配中间层,使用注意力分数:exp(sij)T对于Ic,只关注重构Im(通过fm):Lg,(i)=||M(I(i)− I(i))||第一章(九)βj,i=Ni=1exp(sij),其中sij=Q(fdi)Q(fdj),(十二)app geng1445N是像素数,Q(fd)=Wqfd,Wq是1x1卷积滤波器。这导致了短期层内注意力特征(图1中的自我注意力)4)和输出yd:ΣNcdj=βj,i fdi, yd=γdcd+fd(13)i=1其中,在[43]之后,我们使用尺度参数γd来平衡cd和fd之间的权重。γd的初始值设为零。此外,为了关注来自编码器层的特征fe,我们具有长期层间关注特征(图4中的上下文流)和输出ye:ΣN为一幅被掩盖的图像得到多种但合理的解决方案。原始图像只是许多解决方案中的一个,不应仅基于此图像进行比较。然而,为了获得定量测量结果,我们将假设前10个样本(按权重排序)中有一个接近原始真实值,并选择定量测量结果平衡最好的单个样本进行比较。com-在ImageNet20,000张测试图像上进行了测试,定量测量了平均SNR1损失,峰值信噪比(PSNR),总变差(TV)和Inception Score(IS)[32]。我们在中间使用了128×128的面罩。cej=i=1βj,i fei, ye=γe(1−M)ce+ Mfe (14)如前所述,尺度参数γe用于组合编码器特征fe和注意力特征Ce。然而,与具有用于生成完整图像的信息的解码器特征fd不同,编码器特征fe仅表示可见部分Im。因此,使用二进制掩模M(孔=0)。最后,短期和长期注意力特征都被聚合并馈送到进一步的解码器层中。4. 实验结果我们在四个数据集上评估了我们提出的模型,包括Paris [9] , CelebA-HQ [25 , 17] , Places 2 [45] 和ImageNet [31],使用这些数据集的原始训练和测试分割。由于我们的模型可以生成多个输出,因此我们为每个掩码图像采样了50个图像,并根据搜索结果得分选择了前10个结果。我们训练我们的模型用于规则和不规则的孔。为了简洁起见,我们将我们的方法称为PICNet。我们提供PyTorch实现和交互式演示。4.1. 实现细节我 们 的 生 成 器 和 神 经 网 络 的 灵 感 来 自 SA-GAN[43],但有几个重要的修改,包括短期+长期注意力层。此外,受增长GAN [17]的启发,应用多尺度输出以使训练更快。在Pytorch v0.4.0中实现的图像完成网络在优化过程中,将不同损耗的权重设置为αKL=αrec=20,αad=1。我们使用了正交矩阵[33]和亚当解算器[18]。所有网络都经过培训,scratch,固定学习率为λ=10- 4。详情请参阅补充部分??.4.2. 与现有工作的比较定量评价努力为多元形象完成任务,作为我们的目标是表1.与最新技术水平的定量比较。对于中心遮罩,我们的模型是在常规孔上训练的。首先,我们在图中显示了结果。5巴黎数据集[9]。为了公平地比较基于学习的方法,我们只与在这个数据集上训练的方法进行比较。PatchMatch [3]通过从可见区域复制相似的补丁来工作,并在具有重复结构的数据集上下文编码器(CE)[29]生成了具有模糊纹理的合理结构Shift-Net [38]通过特征复制进行了改进。相比之下,我们的模型不仅生成了更自然的图像,而且具有多种解决方案,例如。不同数量的窗户和不同大小的门。接下来,我们在CelebA-HQ人脸数据集上评估了我们的方法,图为。图6显示了具有大的规则孔的示例,以突出我们输出的多样性。 上下文注意(CA)[42]为许多情况生成了合理的完成,但对于每个屏蔽输入,它们只能生成一个结果;此外,在某些情况下,单一解决方案可能不佳。我们的模型产生了各种似是而非的结果,从潜在的空间条件的先验采样。最 后 , 我 们 通 过 与 之 前 的 Patch- Match [3], CE[29],GL [14]和CA [42]进行比较,报告了ImageNet数据集的性能与在ImageNet的100k训练图像子集上训练的CE和GL模型不同,我们的模型直接在原始ImageNet训练数据集上训练,所有图像都调整为256×256。验证集的各种观测结果如图所示。7.我们的模型能够非常有效地推断内容。4.3. 消融研究我们的PICNet vs CVAE vs方法1损失PSNR电视损耗是[14]第十四话15.3219.3613.9724.31加拿大[42]13.5719.2219.5528.80PICNet-regular12.9120.1012.1824.901446(a)输入(b)CA(c)PICNet随机(a) 输入(b)PM(c)CE(d)Shift-Net(e)PICNet-regular图5.我们的模型与PatchMatch(PM)[3],Context Encoder(CE)[29]和Shift-Net [38]在从Paris [9]测试集拍摄的图像上进行比较,以完成中心区域。最好放大观看。图6.我们的模型与CelebA-HQ上的上下文注意力(CA)[42]的比较最好放大观看。(a)投入(b)PM(c)CE(d)GL(e)CA(f)PICNet-regular图7.定性结果以及与PM,CE,Global和Local(GL)[14]和CA在ImageNet验证集上的比较1447(a)投入(b)BicycleGAN(c)PICNet图8.我们的多元模型与BicycleGAN的比较。表2.多样性的定量比较图9.不同策略训练的比较:我们的(上)、CVAE(中)、实例盲(下)。训练结构与其他变体相比,如CVAE [34]和图中的“实例盲”结构。2.我们使用共同的参数训练了三个模型。如图9,对于CVAE,即使在从潜在先验分布采样之后,输出也几乎相同,因为条件先验学习仅集中在最大潜在似然解处。至于如果我们在完整生成的图像上使用重构损失,则还存在微小的变化,因为框架可能已经学会忽略采样并且纯粹从Im预测确定性结果。我们还训练和测试了BicycleGAN [47]的中心面具。如图所示。8、BicycleGAN不直接适用,导致结果不佳或变化极小。多样性度量我们使用[47]中报告的LPIPS度量平均分数是在从1K中心掩蔽图像的采样生成的50K对之间计算的。Iout和Iout(m)分别是全输出和掩模区域输出。虽然[47]获得了相对较高的多样性分数(仍然低于我们的分数),但他们生成的大多数图像看起来都不自然(图1)。(八)。短期+长期注意力vs上下文关注我们将注意力地图可视化为[43]。为了与上下文注意力(CA)层[42]进行比较,我们通过作者的代码在Paris数据集上重新训练CACA注意力地图以其颜色方向格式呈现。如图10、我们的短期+长期注意力层从不同位置借用了不同注意力权重的特征,图10. 使用不同注意力模块的注意力地图可视化:我们的(上),情境注意力(下)。我们突出显示查询位置的最受关注的区域(红点)。而不是直接从一个可见位置复制相似的特征。对于建筑场景,由于存在重复的结构,CA的结果与我们的结果具有相似的高质量。然而,对于具有大掩模的面部,CA无法借用隐藏内容的特征(例如,嘴,眼睛)从可见区域,具有差的输出。我们的注意力地图能够适当地利用解码器特征(没有掩蔽部分)和编码器特征。5. 结论我们提出了一种新的双管道训练架构的多元图像完成。与现有的方法,ODS,我们的框架可以生成多个不同的解决方案,合理的内容为一个单一的屏蔽输入。实验结果表明,这种先验-条件下界耦合对条件图像生成具有重要意义我们还引入了一个增强的短期+长期注意力层,提高了现实主义。在多种数据集上的实验表明,我们的多个解决方案是多样的,高质量的,特别是对于大孔。鸣谢本研究由新加坡南洋理工大学(NTU)和北卡罗来纳大学教堂山分校(UNC)合作的BeingTogether中心提供支持。该中心由新加坡总理办公室国家研究基金会在其新加坡国际研究中心资助计划下资助。这项研究也是与新加坡电信有限公司合作进行的,并得到了新加坡政府通过产业联盟基金-产业合作项目赠款的部分支持。多样性(LPIPS)方法我昏迷Iout(m)CVAE0.0040.014实例盲态0.0150.049BicycleGAN [46]0.0270.060PICNet-多元0.0290.0881448引用[1] Coloma Ballester、Marcelo Bertalmio、Vicent Caselles、Guillermo Sapiro和Joan Verdera。通过矢量场和灰度级的联合插值来填充IEEE图像处理学报,10(8):1200[2] Jianmin Bao,Dong Chen,Fang Wen,Houqiang Li,and Gang Hua.Cvae-gan:通过非对称训练生成细粒度图像。在2017年IEEE国际计算机视觉会议(ICCV),第2764-2773页。IEEE,2017年。[3] Connelly Barnes , Eli Shechtman , Adam Finkelstein ,andDanBGoldman.Patchmatch : Arandomizedcorrespondence algorithm for structural image editing.ACM图形转换(ToG),28:24,2009。[4] Marcelo Bertalmio、Guillermo Sapiro、Vincent Caselles和Coloma Ballester。 图像修复。 第27届计算机图形和交 互 技 术 年 会 论 文 集 , 第 417-424 页 。 ACMPress/Addison- Wesley Publishing Co.,两千[5] Marcelo Bertalmio,Luminita Vese,Guillermo Sapiro,and Stanley Osher.同时结构和纹理图像修复。IEEE图像处理学报,12(8):882[6] Zeyuan Chen , Shaoliang Nie , Tianfu Wu , andChristopher G Healey.通过完全端到端渐进生成对抗网络实现具有多个可控属性的高分辨率人脸补全。arXiv预印本arXiv:1801.07632,2018。[7] Antonio Criminisi Patrick Perez和Kentaro Toyama。通过基于样本的修复去除对象。计算机视觉与模式识别,2003年。诉讼2003年IEEE计算机协会会议,第2卷,第II-二. IEEE,2003年。[8] AntonioCriminisi,PatrickP e'rez,和KentaroToyama. 基于样 本 的 图 像 修 补 的 区 域 填 充 和 对 象 去 除 。 IEEETransactions on Image Processing,13(9):1200[9] Carl Doersch 、 Saurabh Singh 、 Abhinav Gupta 、 JosefSivic和Alexei Efros。是什么让巴黎看起来像巴黎?ACM Transactions on Graphics,31(4),2012。[10] S. M. Ali Eslami , Danilo Jimenez Rezende , FredericBesse,Fabio Viola,Ari S.放大图片创作者:MarcoC.Rusu , Ivo Danihelka , Karol Gregor , David P.Reichert , Lars Buesing , Theophane Weber , OriolVinyals , Dan Rosenbaum , Neil Rabinowitz , HelenKing,Chloe Hillier,Matt Botvinick,Daan Wierstra,Koray Kavukcuoglu,and Demis Hassabis.神经场景表示和渲染。Science,360(6394):1204[11] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。 在神经信息处理系统的进展,第2672[12] James Hays和Alexei A Efros。使用数百万张照片完成场景。ACMTransactions on Graphics(TOG),第26卷,第4页。ACM,2007年。[13] Jia-Bin Huang,Sing Bing Kang,Narendra Ahuja,andJo- hannes Kopf.使用平面结构引导的图像完成。ACM图形交易(TOG),33(4):129,2014。[14] Satoshi Iizuka,Edgar Simo-Serra,and Hiroshi Ishikawa.全局和局部 一致的图像完成。ACM Transactions onGraphics(TOG),36(4):107,2017。[15] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros. 使用条件对抗网络进行图像到图像翻译2017年IEEE计算机视觉和模式识别会议(CVPR),第5967-5976页。IEEE,2017年。[16] Max Jaderberg,Karen Simonyan,Andrew Zisserman,等.空间Transformer网络。神经信息处理系统的进展,第2017-2025页,2015年[17] Tero Karras , Timo Aila , Samuli Laine , and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv:1710.10196,2017。[18] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[19] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv:1312.6114,2013。[20] RolfK? hler,ChristianSchuler,BernhardSch? lk opf,andStefan Harmeling.使用深层神经网络进行特定于掩码的修复。德国模式识别会议,第523-534页。Springer,2014.[21] 李欣英、曾鸿宇、黄佳斌、曼尼什·辛格和杨明轩。通过解纠缠的表示进行不同的图像到图像的翻译。在欧洲计算机视觉会议(ECCV),2018。[22] Anat Levin,Assaf Zomet和Yair Weiss。学习如何从全局图像统计中进行图像修补。在null中,第305页。IEEE,2003年。[23] Yijun Li,Sifei Liu,Jimei Yang,and Ming-Hsuan Yang.生成面完成。在计算机视觉和模式识别(CVPR),2017 IEEE会议上,第5892-5900页。IEEE,2017年。[24] Liu Guilin , Fitsum A. 凯 文 · 瑞 达 Shih , Ting-ChunWang,Andrew Tao,and Bryan Catanzaro.使用部分卷积的 不规 则孔 图像 修复 。在欧洲 计算 机视 觉会 议(ECCV)的会议记录中,2018年9月。[25] Ziwei Liu , Ping Luo , Xiaogang Wang , and XiaoouTang.在野外深度学习人脸属性。 在IEEE计算机视觉国际会议论文集,第3730-3738页[26] Xudong Mao , Qing Li , Haoran Xie , Raymond YKLau,Zhen Wang,and Stephen Paul Smolley.最小二乘生成对抗网络。计算机视觉(ICCV),2017年IEEE国际会议,第2813IEEE,2017年。[27] Michael Mathieu,Camille Couprie,and Yann LeCun.超越均方 误差的深度多 尺度视频预 测。arXiv预印本arXiv:1511.05440,2015。[28] Eunbyung Park , Jimei Yang , Ersin Yumer , DuyguCeylan,and Alexander C Berg.变换接地图像1449用于新颖的3D视图合成的生成网络。在2017年IEEE计算机视觉和模式识别会议上,第702-711页。IEEE,2017年。[29] Deepak Pathak 、 Philipp Krahenbuhl 、 Jeff Donahue 、Trevor Darrell和Alexei A Efros。上下文编码器:通过图像 修 复 进 行 特 征 学 习 。 在 Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,第2536-2544页[30] Jimmy SJ Ren,Li Xu,Qiong Yan,and Wenxiu Sun.谢帕德卷积神经网络。神经信息处理系统的进展,第901-909页,2015年[31] OlgaRussakovsky , Jia Deng , Hao Su , JonathanKrause , San- jeev Satheesh , Sean Ma , ZhihengHuang , Andrej Karpathy , Aditya Khosla , MichaelBernstein , et al. 图 像 网 大 规 模 视 觉 识 别 挑 战 。International Journal of Computer Vision,115(3):211[32] Tim Salimans 、 Ian Goodfellow 、 Wojciech Zaremba 、Vicki Cheung、Alec Radford和Xi Chen。改进的gans训练技术。神经信息处理系统的进展,第2234-2242页,2016年[33]
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功