没有合适的资源?快使用搜索试试~ 我知道了~
基于堆叠循环一致对抗网络的Minjun Li1,2,Haozhi Huang2,Lin Ma2,Wei Liu2,Tong Zhang2,Yugang Jiang11复旦大学2腾讯AI实验室me@minjun.li,{huanghz08,forest.linma}@ gmail.com,wl2223@columbia.edu,tongzhang@tongzhang-ml.org,ygj@fudan.edu.cn抽象。最近关于无监督图像到图像翻译的研究通过训练一对具有周期一致性损失的生成式对抗网络取得了显着进展。然而,当图像分辨率高或两个图像域具有显著的外观差异时,诸如Cityscapes数据集中的语义布局和自然图像之间的转换,这样的无监督方法可能生成较差的在本文中,我们提出了一种新的堆叠循环一致性对抗网络(SCANs),通过将一个单一的翻译分解为多个阶段的变换,这不仅提高了图像翻译质量,而且还能够以粗到细的方式实现更高分辨率的图像到图像的翻译。此外,为了适当地利用来自前一级的信息,设计自适应融合块在多个数据集上的实验表明,与以前的单阶段无监督方法相比,我们提出的方法可以提高翻译质量。关 键 词 : 图 像 到 图 像 翻 译 · 无 监 督 学 习 · 生 成 Adverserial 网 络(GAN)1介绍图像到图像转换试图将图像外观从一个域转换到另一个域,同时保留固有的图像内容。许多计算机视觉问题可以形式化为图像到图像的转换问题,例如超分辨率[14,20],图像着色[30,31,6],图像分割[30,31,6]。[17,4]和图像合成[1,21,26,13,33]。然而,常规的图像到图像转换方法都是任务特定的。一个通用的图像到图像翻译的共同框架仍然是一个新兴的研究课题,在文献中,这在最近的研究中获得了相当大的关注[7,34,10,16,27]。通讯作者2M. Li等人CycleGANFig. 1. 给定来自两个域的未配对图像,我们提出的SCAN通过堆栈结构以粗到细的方式学习图像到图像的翻译。对于分辨率为512 × 512的CityscapesLabels→Photo任务,与Cycle- GAN [34](右)的结果相比,SCAN(左)的结果看起来更真实,并且包括更精细的细节。Isola等人[7]利用生成对抗网络(GANs)的力量[5,28,18,32],鼓励翻译结果与目标域中的真实图像无法区分,以从图像对学习监督图像到图像的翻译。然而,获得成对训练数据是耗时的并且严重依赖于人力。最近的工作[34,10,16,27]探索在不使用成对数据的情况下解决图像到图像的转换问题。在无监督设置中,除了在有监督的图像到图像转换中使用的传统对抗损失之外,还引入循环一致性损失以将两个跨域变换G和F约束为彼此(i. 例如,G(F(x))≈x和G(F(y))≈y)。通过限制对抗性损失和周期一致性损失,网络学习如何实现跨域变换,而不使用成对训练数据。尽管取得了上述进展,但当两个图像域具有显著的外观差异或图像分辨率很高时,现有的无监督图像到图像翻译方法可能生成较差的结果如图1所示,CycleGAN [34]将Cityscapes语义布局转换为现实图片的结果缺乏细节,并且在视觉上仍然不令人满意。这种现象的原因在于两个不同的图像域之间的显着的视觉间隙,这使得跨域变换太复杂,无法通过使用单阶段无监督方法来学习跳出无监督图像到图像转换的范围,许多方法利用多阶段细化的能力来解决从潜在向量[3,9],字幕到图像[29]和有监督的图像到图像转换[1,4,23]的图像生成通过以从粗到细的方式生成图像,复杂的变换被分解成易于解决的部分。Wang等人[23]利用多尺度鉴别器以这种由粗到细的方式成功地解决了高分辨率图像到图像的转换然而,他们的方法依赖于成对训练图像,因此不能直接应用于我们的无监督图像到图像翻译任务。据我们所2x下采样2x上采样扫描使用SCAN的3知识,不存在利用堆叠网络来克服学习无监督图像到图像翻译的困难的尝试在本文中,我们提出了堆叠的循环一致性对抗网络(SCANs),用于图像到图像翻译的无监督学习。我们将复杂的图像翻译分解为多阶段的转换,包括一个粗略的翻译,然后是多个细化过程。粗平移学习以低分辨率绘制主要结果。细化过程通过将细节添加到先前的结果中以产生更高分辨率的输出来改进翻译。我们在所有阶段使用对抗性损失和周期一致性损失的结合来从未配对的图像数据中学习翻译为了从多阶段学习中受益更多,我们还在细化过程中引入了自适应融合块,以学习当前阶段的输出和前一阶段的输出的动态整合大量的实验表明,我们提出的模型不仅可以生成具有真实细节的结果,而且可以在更高的分辨率下学习无监督的图像到图像的翻译总之,我们的贡献主要有两方面。首先,我们提出了SCANs模型的无监督图像到图像的翻译问题,以粗到细的其次,我们引入了一种新的自适应融合模块来动态地整合当前级2相关工作图像到图像转换。GANs [5]在各种图像到图像转换任务中表现出令人印象深刻的结果,包括超分辨率[14,20],图像着色[7]和图像风格转换[34]。GANs的基本部分是使用对抗性损失的想法,鼓励翻译的结果与真实的目标图像无法区分在现有的使用GAN的图像到图像翻译作品中,也许最知名的是Pix2Pix [7],其中Isola等人。应用具有回归损失的GANs来学习成对的图像到图像的翻译。由于成对图像数据难以获得的事实,使用非成对数据的图像到图像的翻译在最近的研究中引起了越来越多的关注Zhuet al的近期作品。[34],Yiet al.[27]和Kim等人。[10]已经使用对抗性损失和周期一致性损失的组合来解决图像转换问题。Taigman等人[22]在具有对抗性损失的特征级中应用循环一致性,以从未配对的图像中学习单侧Liu等[16]使用GAN结合变分自动编码器(VAE)来学习两个给定图像域的共享潜在空间。Liang等人[15]结合了对抗性和对比性损失的思想,使用具有循环一致性的对比性GAN来学习两个给定图像域的标签语义变换。而不是试图将一个图像直接转换到另一个域,我们提出的方法侧重于使用4M. Li等人通过使用未配对的图像数据来细化多个步骤的过程以生成具有更精细细节的更真实的输出多阶段学习。大量的工作提出了使用多个阶段来解决复杂的生成或转换问题。Eigen等人[4]提出了一种多尺度网络来预测深度、表面和分割,该网络学习从粗到细细化预测结果。由Wang等人引入的S2GAN。[24]利用两个依序排列的网路,先产生一结构影像,再将其转换成一自然场景。Zhang等人[29]提出了StackGAN从文本生成高分辨率图像,它包括两个阶段:第一阶段网络生成粗糙的低分辨率结果,而第二阶段网络将结果细化为高分辨率,逼真的图像。 Chen等人[1]应用堆叠细化网络从分割布局。为了实现从潜在向量生成高分辨率图像,Kerras等人。[9]从生成一个4×4分辨率的输出开始,然后逐步叠加生成器和鉴别器,生成一个1024×1024的逼真图像。Wang等人[23]一个由粗到细的生成器,具有多个尺度鉴别器来解决监督式图像到图像转换问题。不同于现有的作品,这项工作利用堆叠的图像到图像的翻译网络结合一种新的自适应融合块来解决无监督的图像到图像的翻译问题。3该方法3.1制剂给定两个图像域X和Y,它们之间的相互平移可以表示为两个映射G:X→Y和F:Y→X,每个映射从一个域获取图像并将其平移到相应的表示。在另一个领域。现有的无监督图像到图像翻译方法[34,27,10,16,22]在单个阶段完成G和F的学习,其生成缺乏细节的结果并且无法处理复杂的翻译。本文将平移G和F分解为多级映射。为了简单起见,现在我们在两阶段设置中描述我们的方法。具体来说,我们分解G=G2◦G1和F=F2◦F1。G1和F1(第1阶段)执行跨域翻译在一个粗略的规模,而G2和F2(阶段-2)作为在来自前一阶段的输出的顶部上的细化我们首先在低分辨率下完成第1阶段的训练,然后训练第2阶段以基于固定的第1阶段学习更高分辨率的细化。以相同的分辨率训练两个阶段将使阶段2难以带来进一步的改进,因为阶段1已经用相同的目标函数进行了优化(参见第4.5节)。另一方面,我们发现在一个较低的分辨率允许模型生成视觉上更自然的结果,因为低分辨率图像下的流形更容易建模。因此,首先,我们将第1阶段限制为在2x下采样图像样本上进行训练,用X↓和Y↓表示,以学习基本变换。第二,根据使用SCAN的5G11号线L循环DY11域X↓F1Ladv结构域Y↓图二. 在无监督设置下以低分辨率学习粗略翻译的阶段1的概述的图示。实线箭头表示输入-输出,虚线箭头表示损失。阶段1,我们用原始分辨率的图像样本X和Y训练阶段2这样的公式利用了第一阶段的初步低分辨率结果,并指导第二阶段专注于上采样和添加更精细的细节,这有助于提高整体翻译质量。总之,为了学习给定域X和Y上的跨域平移G:X-Y和F:Y-X,我们首先学习2x下采样尺度下的初步平移G1:X↓-Y↓和F1:Y↓-X↓然后我们使用G2:X↓→X和F2:Y↓→Y来获得在原始分辨率下具有更精细细节的最终输出注意,我们可以迭代地将G2和F2分解成更多的阶段.3.2第一阶段:基础翻译一般来说,我们的Stage-1模块采用与CycleGAN [34]类似的架构,它由两个图像转换网络G1和F1以及两个判别器DX1、DY1组成。请注意,阶段1是在低分辨率图像域X↓和Y↓中训练的。图2显示了阶段1架构的概述Givenasamplex1∈X↓,G1将其转换为另一个域Y↓中的样本y1=G1(x1)。一方面,鉴别器DY1学习将生成的样本y(1)分类为类别0并且将真实图像y分类为类别1。另一方面,G1通过生成越来越真实的样本来学习欺骗DY1这可以表述为对抗性损失:Ladv(G1,DY1,X↓,Y↓)=EyY↓[log(DY1(y))]+ExX↓ [log(1 − DY1(G1(x)]。(一)当DY1试图最大化Ladv时,G1试图最小化它.然后,我们使用F1将y1ba c k转换到域X↓,并将F1(G1(x))约束为接近输入x。这可以用公式表示为周期一致性损耗:Lcycle(G1,F1,X↓)=ExX↓ x −F1(G1(x))1。(二)类似地,对于样本y1∈Y↓,我们使用F1执行平移,使用DX1计算对抗损失,然后使用G1向后平移以计算循环一致性损失。阶段1的完整目标函数是6M. Li等人2222G2y21G11号线GT2y2GF2融合块L循环FFFT2F1DY22融合块F221y12域XLadv域Y图三. 在第1阶段输出的基础上学习精炼过程的第2阶段概述的图示。G1和F1是在第一阶段学习的翻译网络。在训练过程中,我们保持G1和F1的权重固定。实线箭头表示输入-输出,虚线箭头表示损失。对抗性损失和周期一致性损失的区别L阶段1= Ladv(G1,DY1,X↓,Y↓)+ Ladv(F1,DX1,Y↓,X↓)+λ[L循环(G1,F1,X↓)+L循环(F1,G1,Y↓)],(三)其中λ表示周期一致性损失的权重。我们通过优化以下目标函数来获得平移G1和F1G1,F1=arg minG1, F1MaxDX1,DY1L阶段1,⑷这鼓励这些转换将结果变换到另一个域,同时保留固有的图像内容。结果,优化的平移G1和F1可以在低分辨率下执行基本的跨域平移3.3第二阶段:精炼由于一个阶段的能力有限,很难学习复杂的翻译,第一阶段的翻译输出似乎是合理的,但仍然给我们留下了很大的改进空间为了改进第1阶段的输出,我们使用第2阶段,在训练的第1阶段的顶部构建堆叠结构,以完成完整的翻译,从而生成具有更精细细节的更高分辨率结果。阶段2由两个平移网络G2、F2和两个鉴别器网络DX2、DY2组成,如图3所示。我们只描述G2的架构,因为F2共享相同的设计(见图3)。G2由两部分组成:新初始化的图像平移网络GT和自适应融合块GF. 对于阶段1的输出(y(1=G1(x1)),我们使用最近的上采样来调整其大小以匹配原始分辨率。 与阶段1中的图像平移网络不同,它只将x ∈ X作为输入,在阶段2中,我们使用当前阶段的输入x和前一阶段的输出y 1。特别是y,我们沿着通道维度连接y1和x,并利用GT获得细化结果y2=GT(y1,x)。使用SCAN的722y1y2y2⊗见图4。自适应融合块中线性组合的图示。融合块应用融合加权映射α以找到先前结果y(1)中的缺陷,并使用y(2)精确地校正它以产生细化的输出y(2)。除了简单地使用y2作为最终输出之外,我们还引入自适应融合块GF来学习y2和y1的动态组合,以充分利用整个两阶段结构。具体地,自适应融合块学习先前结果的逐像素线性组合:GF(y(1,y(2))=y(1⊙(1−αx)+y(2⊙αx,(5))其中,⊙表示逐元素乘积,α∈(0,1)H×W表示融合权重图,其由卷积网络hx预测:αx=hx(x,y(1,y(2)).(六)图4显示了自适应合并两级输出的示例与阶段1类似,我们使用对抗性损失和周期一致性损失的组合来制定阶段2的目标函数:L阶段2= Ladv(G2 ◦G1,DY2,X,Y)+ Ladv(F2 ◦F1,DX2,Y,X)+λ[L圈(G2<$G1,F2<$F1,X)+L圈(F2<$F1,G2<$G1,Y)].(七)优化此目标类似于求解方程4。学习翻译网络G2和F2,通过纠正缺陷和添加细节来改进以前的结果。最后,我们通过结合阶段1和阶段2中的变换来完成我们所需的翻译G和F,这能够在无监督设置下解决4实验如果所提出的方法在以下实验中具有N个阶段,则将其命名为SCAN或SCAN阶段N我们在4.7节中探索了我们模型的几个变体,以在所有实验中,我们将目标翻译分解为两个阶段,除了在第4.5节中探索三阶段架构在高分辨率任务我们使用官方发布的CycleGAN [34]和Pix2Pix [7]模型进行256×256图像翻译比较。对于512×512任务,我们使用官方代码训练CycleGAN,因为没有可用的预训练模型。8M. Li等人4.1网络架构对于图像翻译网络,我们遵循[34,15]的设置,采用Johnson等人的编码器-解码器架构。[8]的一项建议。该网络由通过步幅-2卷积实现的两个下采样层、六个残差块和通过子像素卷积实现的两个上采样层组成[20]。注意,与使用分数步幅卷积作为上采样块的[34]不同,我们使用子像素卷积[20],以避免棋盘伪影[19]。自适应融合块是一个简单的3层卷积网络,它使用两个卷积-实例范数-ReLU块,然后是卷积-S形块来计算融合权重图α对于这个问题,我们使用[7]中介绍的PatchGAN结构4.2数据集为了证明我们提出的方法在无监督设置下解决复杂的图像到图像翻译问题的能力,我们首先在Cityscapes数据集上进行实验[2]。我们在256×256分辨率的标签照片任务中与最先进的方法进行了比较为了进一步证明我们的方法学习复杂翻译的有效性,我们还 将 输 入 尺 寸 扩 展 到 具 有 挑 战 性 的 512×512 分 辨 率 , 即 高 分 辨 率CityscapesLabels→Photo任务。除了标签照片任务,我们还从[34]中选择了八个图像到图像的翻译任务,包括MapAerial,FacadesLabels和HorseZebra。我们将我们的方法与CycleGAN [34]在这些任务中以256×256分辨率进行比较。4.3培训详细信息阶段-1中的网络从头开始训练,而阶段-N中的网络用{阶段-1,···,阶段-(N-1)}网络训练。 对于GAN损失,与以前的工作[34,7]不同,我们采用梯度惩罚项λgp(||D(x)||2- 1)2在鉴别器损失中实现更稳定的训练过程[12]。对于所有数据集,第一阶段网络在128×128分辨率下训练,第二阶段网络在256×256分辨率下训练对于第4.5节中的三级架构,第3阶段网络以512×512分辨率进行训练。在所有实验中,我们将批量设置为1,λ=10且λgp=10对于所有数据集,所有阶段都使用100个epoch进行训练 我们使用Adam [11]来优化我们的网络,初始学习率为0。0002,并且在最后50个时期中将其线性减小到零。4.4评估指标FCN分数和分割分数。 对于Cityscapes数据集,我们分别采用FCN分数和分割分数作为Labels→Photo任务和Photo→Labels任务的评估指标。关于FCN使用SCAN的9输入CycleGAN扫描Pix2Pix地面实况输入CycleGAN扫描Pix2Pix地面实况图五. 在分辨率为256 × 256的Cityscapes数据集上进行比较。左侧子图为标签→照片结果,右侧子图为照片→标签结果。在Labels→Photo任务中,我们提出的SCAN生成的照片比CycleGAN更自然;在Photo → Labels任务中,SCAN生成准确的分割图而CycleGAN的结果是模糊的,并且由于变形而变得模糊。SCAN还生成比CycleGAN的结果在视觉上更接近监督方法Pix2Pix的结果。放大以获得更好的视图。Score采用现成的FCN分割网络[17]来估计翻译图像的真实性。分割分数包括三个标准分割指标,即每像素准确度、每类准确度和平均类准确度,如[17]中所定义PSNR和SSIM。除了使用FCN分数和分割分数之外,我们还计算了PSNR和SSIM[25] 以 进 行 定 量 评 估 。 我 们 将 上 述 指 标 应 用 于 MapAerial 任 务 和FacadesLabels任务来测量颜色相似性和结构相似性转换的输出和地面实况图像。用户首选项。我们在高分辨率Cityscapes Labels→ Photos任务和Horse→Zebra任务中运行用户偏好测试,以评估生成的照片的真实性。在用户偏好测试中,每次向用户呈现使用我们提出的SCAN和CycleGAN [34]的一对结果,并询问哪一个更现实。每一对结果都是从同一图像转换图像全部以随机顺序示出在用户偏好测试中,总共使用了来自Cityscapes测试集的30个图像和来自Horse2Zebra测试集的10个结果,20个参与者分别做出总共600个和200个偏好选择4.5比较CityscapesLabels Photo. 表 1显示了我们 提出 的方 法SCAN及其 变体 与Cityscapes Labels Photo任务中最先进方法的比较。除了Pix2Pix之外的所有方法都采用相同的无监督设置,Pix2Pix是在监督设置下训练的在FCN分数上,我们提出的SCAN第2阶段128-256在考虑像素准确度的情况下优于现有技术的方法,同时在考虑类别准确度和类别IoU的情况下是有竞争力的对分割10M. Li等人表1. 标签中的FCN分数→照片任务和照片→ Cityscapes数据集上的标签任务。 所提出的方法以SCAN(第1阶段分辨率)-(第2阶段分辨率)。FT意味着我们还可以对舞台进行微调-1模型,而不是固定其重量。FS意味着直接从头开始培训第2阶段没有训练阶段-1模型。标签→照片照片→标签方法像素(根据类别)IoU类像素acc.类acc. IoU类CycleGAN [34]对比度-GAN [15]0.520.580.170.210.110.160.580.610.220.230.160.18SCAN Stage-1 1280.460.190.120.710.240.20扫描阶段-1 2560.570.150.110.630.180.14SCAN Stage-2 256-2560.520.150.110.640.180.14SCAN Stage-2 128-256FS0.590.150.100.360.100.05SCAN Stage-2 128-256FT0.610.180.130.620.190.13SCAN Stage-2 128-2560.640.200.160.720.250.20Pix2Pix [7]0.710.250.180.850.400.32分数,SCAN第2阶段128-256在所有度量中优于最先进的方法。将SCAN第1阶段256与CycleGAN进行比较,我们的修改后的网络产生了改进的结果,然而,其仍然表现不如SCAN第2阶段128-256。此外,我们可以发现,SCAN阶段-2128-256实现了比其他方法更接近监督方法Pix 2 Pix [7]的我们还将我们的SCAN第2阶段128-256与SCAN的不同变体进行将SCAN第2阶段128-256与SCAN第1阶段方法进行比较,我们可以发现FCN分数的实质性改进,这表明添加第2阶段细化有助于提高输出图像的真实性。关于分段分数,SCAN阶段-1 128和SCAN阶段-1256的比较示出了从低分辨率学习产生更好的性能。SCAN阶段-2 128-256与SCAN阶段-1128之间的比较示出了添加阶段-2可以进一步改善阶段-1的结果。为了在实验上证明性能增益不是仅仅来自于增加模型容量,我们进行了SCAN第2阶段256-256实验,其性能劣于SCAN第2阶段128-256。为了进一步分析各种实验设置,我们还在两个附加设置中进行了我们的SCAN第2阶段128-256,包括从头开始倾斜两个和在线调谐第1阶段。我们为这两个设置向两个阶段添加监督信号从头开始学习两个阶段在两个任务中都显示出较差的其原因可能在于直接训练一台大容量的发电机是困难的.此外,微调级-1没有解决这个问题,并且与固定级-1的权重相比具有较小的改进为了检查所提出的融合块的有效性,我们将其与几种变体进行比较:1)学习像素权重(LPW),这是我们提出的融合块; 2)均匀权重(UW),其中两个阶段在不同的像素l 〇阳离子y(l(1-w)+y(2w)处以相同的权重t融合,并且在训练期间w从0逐渐增加到1; 3)学习均匀权重(LUW),其为类似于UW,但w是可学习参数; 4)残差融合(RF),使用SCAN的11表2. Cityscapes数据集上融合块的几个变体的FCN分数和分割分数。标签→照片→标签方法像素acc. 类acc. IoU类 像素加速 类acc. IoU类CycleGAN 0.52 0.17 0.11 0.58 0.22 0.16扫描128-256 RF 0.60 0.19 0.13 0.68 0.23 0.18输入CycleGAN SCAN地面实况见图6。转换结果在512 × 512分辨率的Cityscapes数据集上的Labels → Photo任务中显示。我们提出的扫描产生逼真的图像,甚至看一眼就像地面真理。放大以获得最佳视图。其中h使用简单的残差融合y(1+y(2 )。 结果示于表2中。可以观察到,我们提出的LPW融合在所有备选方案中产生最好的性能,这表明LPW方法可以比具有均匀权重的方法更好地融合两个阶段的输出。在图5中,我们直观地将我们的结果与CycleGAN和Pix2Pix的结果进行了在标签→照片任务中,与CycleGAN相比,SCAN可以生成更逼真、更生动的照片。此外,我们的结果中的细节似乎更接近监督方法Pix2Pix的细节在照片→标签任务中地面实况,结果的CycleGAN sufer从失真和模糊。高分辨率城市景观标签→照片。 CycleGAN只考虑256×256分辨率的图像,直接在512×512分辨率下训练CycleGAN的结果并不令人满意,如图1和图6所示。通过迭代地将阶段-2分解为阶段-2和阶段-3,我们获得三阶段SCAN。在转换过程中,输出的分辨率从128×128增加到256×256和512×512,如图1所示。图6显示了我们的SCAN和CycleGAN在高分辨率CityscapesLabels→Photo任务中的比较我们可以清楚地看到,我们提出的扫描生成更逼真的照片相比,结果扫描128-256 LPW0.640.200.160.720.250.20扫描128-256 UW0.590.190.140.660.220.17扫描128-256 LUW0.590.180.120.700.240.1912M. Li等人表3. 地图空中和立面标签任务中的PSNR和SSIM值。航拍→地图地图→航拍立面→标签标签→立面方法PSNRSSIMPSNR SSIMPSNR SSIMPSNR SSIMCycleGAN[34]21.590.5012.67零点零六6.68 0.08 7.61 0.11扫描25.150.6714.93零点二三8.28 0.2910.67零点一七标签→立面地图→空中输入CycleGAN SCAN地面实况见图7。平移将导致“标签→立面”任务和“航拍→贴图”任务。我们提出的SCAN的结果显示更精细的细节,在这两个任务相比,Cy- cleGANCycleGAN和SCAN的输出在视觉上更接近地面实况图像。第一行显示,我们的结果包含具有大量细节的真实树,而CycleGAN只生成重复的对于第二行,我们可以观察到CycleGAN倾向于简单地忽略汽车,将其填充为纯灰色,而我们的结果中的汽车具有更多细节。此外,我们运行了一项用户偏好研究,将SCAN与CycleGAN进行比较,设置如第4.4节所述。因此,74.9%的查询偏好我们的SCAN结果,10.9%偏好CycleGAN结果,14.9%建议这两种方法是相等的。这一结果表明,我们的SCAN可以在高分辨率翻译任务中生成比CycleGAN更真实的翻译结果。MapParticipAerial and FacadesParticipLabels.表 3 报 告 了 关 于PSNR/SSIM度量的性能。我们可以看到我们的方法优于CycleGAN在这两个指标中,这表明我们的翻译结果在颜色和结构方面与地面实况更相似图7显示了Aerial→Map任务和Labels→Facades任务中的一些示例结果。我们可以观察到,我们的结果包含更精细的细节,而CycleGAN结果往往是模糊的。马参与斑马。图8比较了SCAN与CycleGAN在Horse Zebra任务中我们可以观察到,SCAN和使用SCAN的13斑马→马马→斑马输入CycleGANCycleGAN+idt扫描输入CycleGANCycleGAN+idt扫描见图8。翻译结果在马参与斑马任务。CycleGAN改变所需的对象和背景。添加身份丢失可以解决这个问题,但与不使用身份丢失的SCAN相比,往往是模糊的。0.30.250.20.150.10.0500.10.20.30.40.50.60.70.80.91.0见图9。不同时期所有像素上的融合权重分布。每个分布是来自Cityscapes数据集的1000个样本图像的平均结果。虚线箭头指示融合图的平均权重CycleGAN成功地将输入图像转换到其他域。如图8所示,CycleGAN不仅改变输入图像中的所需对象,而且改变图像的背景。添加身份损失[34]可以解决这个问题,但结果与那些从我们的建议扫描。使用第4.4节中描述的设置执行关于Horse→Zebra转换的用户偏好研究因此,76.3%的受试者更喜欢我们的SCAN4.6融合权重分布的可视化为了说明自适应融合块的作用,我们可视化了在时期1、10和100中来自Cityscapes数据集的1000个样本上的融合权重(等式5中的αx我们观察到,融合权重的分布逐渐从左向右移动。这表明融合图中权重值的一致增加,这意味着越来越多的第二阶段的细节被购买到最终输出。4.7消融研究在第4.5节中,我们报告了SCAN及其变体的评估结果,在这里,我们通过从其中删除模块来进一步探索SCAN-SCAN w/o Skip100纪元10时代1个时期14M. Li等人表4.消融研究Cityscapes数据集中的FCN评分,在标签→照片任务与建议的扫描的不同变体。方法像素与类别IoU类第一阶段扫描128 0.457 0.188 0.124SCAN Stage-2 128-256 w/o Skip,Fusion 0.513 0.186 0.125SCAN Stage-2 128-256 w/o Skip 0.593 0.184 0.136扫描阶段-2 128-256 w/o融合0.613 0.194 0.137SCAN Stage-2 128-2560.637 0.201 0.157– SCAN w/o自适应融合块:移除阶段2模型中的最终自适应融合块,由SCANw/o融合表示。– SCAN w/oSkip Connection和AdaptiveFusion Block:移除- 从输入到第2阶段模型中的转换网络和自适应融合块的跳过连接,由SCANw/o Skip,Fusion表示。表4示出了消融研究的结果,其中我们可以观察到去除自适应融合块以及去除跳过连接都降低了性能。与第1阶段相比,在移除这两个组件的情况下,堆叠网络获得边际性能增益。请注意,融合块仅由三个卷积层组成,与整个网络相比,它们的参见表1,在SCAN阶段-2256 -256实验中,我们将网络参数相比SCAN增加了阶段-1 256,导致标签→照片任务没有改进。因此,融合块的改进不仅仅来自于增加的容量。因此,我们可以得出结论,使用我们提出的SCAN结构,其中包括跳过连接和自适应融合块,是提高整体翻译性能的关键。5结论在本文中,我们提出了一种新的方法来解决无监督的图像到图像的翻译问题,使用堆叠网络结构与循环一致性,即扫描。该算法将复杂的图像平移过程分解为一个粗平移步骤和多个细化步骤,然后利用循环一致性从不成对的图像数据中学习目标平移在多个数据集上进行的大量实验表明,我们提出的SCAN在定量指标上优于现有方法,并且与现有方法相比,可以生成具有更精细细节的视觉上更令人愉快的翻译结果确认本研究得到了国家自然科学基金项目(#61622204和#61572134)和国家科技部资助项目(#16JC1420401和#16QA1400500)的资助使用SCAN的15引用1. 陈昆,Koltun,V.:基于级联细化网络的摄影图像合成。In:Proceedings of ICCV(2017)2. Cordts , M. , Omran , M. , Ramos , S. , Rehfeld , T. , Enzweiler , M. ,Benenson河弗兰克,美国,Roth,S.,Schiele,B.:用于语义城市场景理解的cityscapes数据集。In:Proceedings of CVPR(2016)3. Denton,E.L.,Chintala,S.,费格斯河等:深度生成图像模型使用 对抗网络的拉普拉斯金字塔在:NIPS会议记录(2015)4. Eigen,D. Fergus,R.:使用通用的多尺度卷积架构预测深度、表面法线和语义标签。In:Proceedings of ICCV(2015)5. 古德费洛岛Pouget-Abadie,J.Mirza,M.,徐,B.,沃德-法利,D.,Ozair,S.,Courville,A. Bengio,Y.:生成性对抗网。在:NIPS会议记录(2014)6. Iizuka,S.,Simo-Serra,E.,Ishikawa,H.:要有颜色!:联合端到端学习全局和局部图像先验,用于自动图像着色和同时分类。ACM Transactions on Graphics(TOG)(2016)7. Isola,P.,Zhu,J.Y.,周,T.,Efros,A.A.:使用条件对抗网络的图像到图像翻译In:Proceedings of CVPR(2017)8. Johnson,J.,Alahi,A.,李菲菲:实时风格转换和超分辨率的感知损失在:ECCV的诉讼。pp. 694-711. Springer(2016)9. Karras,T.,Aila,T. Laine,S.,Lehtinen,J.:GAN的逐步增长,以提高质量,稳定性和变化。arXiv预印本arXiv:1710.10196(2017)10. 金,T.,Cha,M.,Kim,H.李,J.,Kim,J.:学习发现跨域关系与生成对抗网络。ICML会议记录(2017)11. Kingma,D.Ba,J.:Adam:随机最佳化的方法ICLR Proceedings(2014)12. Kodali,N.,Abernetthy,J.,Hays,J.,Kira,Z.:gans的收敛性和稳定性arXiv预印本arXiv:1705.07215(2017)13. Lafont,P.Y.,Ren,Z.,陶X钱,C.,Hays,J.:瞬态属性用于户外场景的高级理解和编辑。ACM Transactions on Graphics(TOG)(2014)14. 莱 迪 格 角 泰 斯 湖 Huszár , F. , 卡 瓦 列 罗 , J. , Cunningham , A.Acosta ,A.Aitken,A.,Tejani,A.,托茨,J.,王志,等:使用生成对抗网络的照片级真实感单幅图像超分辨率CVPR会议记录(2017)15. 梁湘,张洪,Xing,E.P.:生成语义操作与对比。NIPS会议记录(2017)16. Liu,M.Y.Breuel,T.,Kautz,J.:无监督图像到图像翻译网络。NIPS会议记录(2017)17. 朗JShelhamer,E.,达雷尔,T.:用于语义分段的全卷积网络在:CVPR会议记录(2015)18. Mirza,M.,Osindero,S.:条件生成对抗网。ArXiv预印本arXiv:1411.1784(2014)19. Odena,A.,Dumoulin,V.,Olah,C.:反卷积和棋盘式伪影。Distill1(10),e3(2016)20. 施伟,卡瓦列罗,J.,Huszár,F.,托茨,J.,Aitken,A.P.,毕晓普河,巴西-地吕克特,D.,Wang,Z.:使用有效的子像素卷积神经网络实现实时单幅图像和视频超分辨率In:Proceedings of CVPR(2016)21. Simo-Serra,E.,Iizuka,S.,Sasaki,K. Ishikawa,H.:学习简化:用于粗略草图清 理的 全 卷积 网络 。 ACM Transactions on Graphics (TOG ) 35( 4 ) ,121(2016)16M. Li等人22. Taigman,Y.,Polyak,A.,沃尔夫湖:无监督跨域图像生成。ICLR会议记录(2016年)23. Wang T.C. Liu,M.Y. Zhu,J.Y.,Tao,A.,Kautz,J.,Catanzaro,B.:用条件gans进行高分辨率图像合成和语义操作。In:Proceedings of CVPR(2018)24. 王,X.,Gupta,A.:使用风格和结构对抗网络的生成图像建模。In:Proceedingsof ECCV(2016)25. 王志,Bovik,A.C.,Sheikh,H. R.,Simoncelli,E.P.:图像质量评估:从错误可见性到结构相似性。IEEE Transactions on Image Processing(TIP)13(4),60026. Xie,S.,图,Z.:整体嵌套边缘检测。In:Proceedings of ICCV(2015)27. Yi,Z.,张洪,龚医生等:Dualgan:图像到图像翻译的无监督双重学习。ICCV会议记录(2017)28. Xiong,Z.,罗,W.,马,L.,刘伟,罗杰:学习使用多阶段动态生成对抗网络生成延时视频。CVPR会议记录(2018)29. 张洪,徐,T.,Li,H.,Zhang,S.,(1991),中国农业科学院,黄,X.,王,X.,Metaxas,D.:Stack- gan:使用堆叠生成对抗网络进行文本到照片级逼真图像合成ICCV会议记录(2016)30. 张 , R. Isola , P. , Efros, A.A. : 彩 色 图 像 着 色 。 In : Proceedings of ECCV(2016)31. 张,R. Zhu,J.Y.,Isola,P.,耿X,Lin,A.S.,余,T.,Efros,A.A.:实时用户 引 导 的 图 像 着
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功