没有合适的资源?快使用搜索试试~ 我知道了~
基于Attention-GAN的野生图像陈新元1、 2、 3,常旭3,杨小康1,陶大成31上海交通大学人工智能研究所MoE部人工智能重点实验室{xychen91,xkyang}@ sjtu.edu.cn2悉尼科技大学人工智能研究中心3UBTECH Sydney AI Centre,SIT,FEIT,悉尼大学{c.xu,dacheng.tao}@ sydney.edu.au抽象。 研究了野外图像中的目标变形问题。用于对象变换的经典GAN中的生成网络通常承担双重责任:检测感兴趣的对象并将对象从源域转换到另一个域。相比之下,我们将生成网络分解为两个单独的网络,每个网络仅专用于一个特定的子任务。注意网络预测图像的空间注意图,而转换网络专注于翻译对象。注意力网络产生的注意力地图被鼓励是稀疏的,以便可以将主要注意力集中在感兴趣的对象上。无论在物体变形之前还是之后,注意地图都应该保持不变。此外,学习注意力网络可以接收更多的指令,给定可用的图像分割注释。实验结果表明,在物体变形过程中研究注意力的必要性,该算法能够准确地学习注意力,从而提高生成图像的质量。关键词:生成对抗网络,注意机制1介绍图像到图像翻译的任务旨在将图像从源域翻译到另一个目标域,例如,灰度到颜色和图像到语义标签。大量的图像到图像的翻译的研究已经产生了监督设置,在目标域中的地面真值是可用的。[1]通过最小化生成图像与相应目标图像之间的差异,使用CNN学习参数化平移函数[2]使用条件GAN来学习从输入到输出图像的映射类似的想法已经应用于各种任务,例如从草图或语义布局生成照片[3,4]和图像超分辨率[5]。为了在没有配对例子的情况下实现图像到图像的翻译,一系列的作品已经出现了结合经典的对抗训练[6]具有不同的精心设计的约束,例如,圆度约束[7-虽然没有2X. Chen等人x∈{X}x∈{X}A(x)一个D真/假马→斑马稀疏损失/MSET(x)y∈{Y}不斑马→马(一)(b)第(1)款Fig. 1. (a):马斑马的物体变形。(b)注意力- GAN的说明。A、T、D分别表示注意网络、转换网络和辨别网络。稀疏损失表示预测注意力图的稀疏正则化。MSE表示监督学习的均方误差损失。A(x)表示由注意力网络预测的注意力图。T(x)表示变换后的图像。⊙表示分层操作。通过配对数据,这些约束能够建立两个结构域之间的连接,从而获得有意义的类似物。圆形约束[7f-一致性要求在神经网络的中间空间中,每个域中的输入和输出都应该彼此一致。[11]通过在源域和目标域中计算的匹配成对距离之间实施高跨域相关性,以单侧无监督方式学习图像平移映射。对象变形是图像到图像翻译问题中的一个特殊任务。对象变形不是将图像作为整体来完成变换,而是旨在将图像中的特定类型的对象变换为另一类型的对象而不影响背景区域。例如,在图1(a)的顶行中,图像中的马被变换为斑马,并且斑马被变换为马,但是草地和树木被期望为恒定的。现有的方法[7,11]用于将对象变形作为一般的图像到图像任务来处理,而没有调查问题的 在这种一次性生成中,生成网络实际上扮演两个不同的角色:检测感兴趣区域并将目标从源域转换到目标域。然而,将这两个功能合并在单个网络中会混淆生成网络的目标在迭代中,可能不清楚生成网络是否应该改进其对感兴趣对象的检测或提高其对对象的变形因此,生成图像的质量经常受到严重影响例如,一些背景区域可能被错误地纳入变换。斑马马基于Attention-GAN的野生图像目标变形3在本文中,我们提出了一个注意力GAN算法的对象变形问题。经典GAN中的生成网络被分解为两个独立的网络:预测注意力应该放在哪里的注意力网络,以及实际执行对象变换的变换网络。在注意力图上应用稀疏约束,使得有限的注意力能量可以集中在优先区域上,而不是随机地散布在整个图像上。采用分层操作,通过结合变换后的对象和原始背景区域的帮助下,学习稀疏注意掩模最终生成的图像。一个判别网络被用来区分真实图像和这些合成图像,而注意力网络和转换网络合作生成合成图像,可以欺骗判别网络。采用循环一致性损失[7此外,如果有图像分割结果,可以有监督地学习注意力网络,从而提高算法的性能。三个物体变形任务的实验结果即马斑马、老虎豹和苹果橙[12],表明了在对象变形中调查注意力的优势,以及所提出的算法相对于最先进方法的定量和定性性能改进。2相关工作生成对抗网络(GANs)[6]通过一个两人极大极小游戏,在图像生成[13 -15]方面取得了令人印象深刻的结果:鉴别器旨在将所生成的图像与真实图像区分开,而生成器旨在生成真实图像以欺骗鉴别器。已经提出了一系列多阶段生成模型来生 成 更 逼 真 的 图 像 [16-18] 。 [17] 提 出 了 一 种 复 合 生 成 式 对 抗 网 络(CGAN),它通过使用多个生成器生成图像的不同部分来分解图像的复杂因素。分层递归GANs [18]学习分别递归地生成图像背景和前景。GANs在各种条件图像生成应用中取得了巨大成功,例如,图像到图像转换[7-9,19],文本到图像生成[20,21]。与从噪声变量生成图像的原始GAN不同,条件GAN基于输入信息(例如,类别、图像和文本)。[22]提出了一种掩码条件对比度GAN架构,通过利用两个训练中的语义注释,将图像背景与对象语义变化分开和测试阶段。然而,对于大量的图像,尤其是在测试阶段,很难收集到分割模板。受人类注意力机制理论[23]的启发,注意力机制已成功地引入计算机视觉和自然语言处理任务中,例如。图像分类[244X. Chen等人Y2X2图像字幕[27],视觉问答[28],图像分割[29]。而不是压缩整个图像或序列到一个静态表示,注意力允许模型集中在图像的最相关的部分或者根据需要的特征。Mnih等人[24]提出了一种递归网络模型,该模型仅能够处理图像或视频的一系列区域或位置。Bahdanau等人[30]提出一种注意力模型,在预测目标词时,该模型对源句子中输入词的重要性进行软加权机器翻译。随后,Xu等。[27] Yao et al.[31]分别对图像字幕和视频字幕使用注意力模型。该模型自动学习将其注视固定在显著对象上,同时生成输出序列中的相应单词在视觉问答中,[28]使用问题来选择图像的相关区域以计算答案。在图像生成中,Gregor et al.[32]提出了一种具有顺序变分自动编码框架的生成网络组合注意机制。生成器关注由地面实况图像引导的输入图像的较小区域,并且一次为图像生成几个像素不同的是,我们的方法将注意力机制与GANs框架相结合,并在目标域中没有地面真实图像的情况下产生感兴趣区域。3预赛在图像到图像翻译的任务中,我们有两个域X和Y,其中训练样本{xi}N∈X和{yi}N∈Y。我们的目标是从我我一个结构域到另一个G:X-Y,(例如马→斑马)。鉴别器DY目的是将真实图像y与平移图像G(x)区分开。相反,映射函数G试图生成看起来类似于Y域中的图像的图像G(x)以欺骗鉴别器。LSGAN[33]中对抗性损失的目标表示为:LGAN(G,DY,X,Y)=Ey∈YΣD2(y)Σ+Ex∈XΣΣ(DY(G(x))−1)、(1)映射函数F:Y→X,以同样的方式,试图欺骗判别器DX:LGAN(F,DX,X,Y)=Ex∈XΣD2(x)Σ+Ey∈YΣΣ(DX(F(y))−1).(二)鉴别器D X和D Y试图最大化损失,而映射函数G和F试图最小化损失。然而,具有足够容量的网络可以将输入图像集合映射到目标域中的图像的任何随机排列。为了保证学习的函数映射单个输入x对于期望的输出y,提出循环一致性损失来测量当平移图像被带回到原始图像空间时发生的差异:Lcyc(G,F)= Ex∈X[F(G(x))− x1]+ Ey∈Y[G(F(y))− y1]。(三)基于Attention-GAN的野生图像目标变形5利用对抗性损失和循环一致性损失,该模型实现了一对一的对应映射,并发现了跨域关系[8]。其全部目标是:L(G,F,DX,DY)=LGAN(G,DY,X,Y)+LGAN(F,DX,Y,X)+λLcyc(G,F),(四)其中λ控制两个目标的相对重要性。然而,生成映射函数G和F实际上对对象变形承担双重责任:以检测感兴趣的对象并对对象进行变形,这混淆了生成网络的目的。在另一方面,我们不认为模型可以被看作是两个独立的编码:F ◦G:X → X和G ◦ F:Y → Y,其中,可以将转换的图像G(x)和F(y)看作是通过对抗性损失训练的中间表示。在对象变形任务中,生成映射G和F被训练以生成对象来欺骗鉴别器。因此,图像背景可以被编码为任何表示,只要它可以被解码回原始的,这不保证变换之前和之后的背景一致性。因此,所提出的Attention-GAN将生成网络分解为两个独立的网络:注意力网络来预测物体而转换网络则以转换对象为中心4模型拟议的模式包括三个参与者:注意力网络、变换网络和辨别网络。注意力网络从原始图像x预测感兴趣区域。变换网络集中于将对象从一个域变换到另一个域。因此,所得到的图像是变换后的对象和具有分层算子的原始图像最后,鉴别器旨在区分真实图像y∈Y和生成图像。所提出的模型的概述如图1(b)所示。为了符号简单,我们仅示出了将图像从域X变换到域Y的正向过程,并且可以以类似的方法容易地获得从域Y回到域X4.1制剂所提出的模型的架构如图2所示。给定域X中的输入图像X,注意力网络AX输出空间得分图AX(X),其大小与原始图像X相同。得分图的元素值从0到1。注意力网络在抑制背景的同时向感兴趣区域分配较高的视觉注意力分数在另一分支中,变换网络T输出看起来与目标域Y中的变换图像相似的变换图像T(x)。然后采用分层操作构造6X. Chen等人注意网络变换网络图二.建议Attention-GAN对象变形从一个类到另一个。注意力网络预测注意力地图。变换网络合成目标对象。对背景和变换图像应用分层操作以输出结果图像。最后的形象。给定变换区域AX(X),变换图像TX(X)和来自原始图像X的图像背景被组合为:G(x)≡AX(x)⊙TX(x)+(1−AX(x))⊙x, (5)其中⊙表示逐元素乘法运算符。引入另一个映射函数F,以将变换后的图像G(x)带回到原始空间F(G(x))≈x。从目标域Y中的图像y到源域的映射如下:F(y)≡ A Y(y)⊙ T Y(y)+(1 − A Y(y))⊙ y。 (六)接下来是第3节,引入对抗性损失(等式(1)和(2))和循环一致性损失(等式(3))来学习整体映射G和F。在经典的GANs[7以使变换后的图像回到原始图像F(G(x))≈x。然而,在实践中,所生成的图像的背景看起来是不真实的并且与原始图像背景显著不同,使得周期一致性损失几乎不能达到0。在我们的方法中,注意力网络输出将图像分为感兴趣区域和背景的掩模。背景部分不会被变换,使循环一致性损失在背景达到0。4.2注意力损失与循环一致性相似,注意网络AX预测的域X中对象X的注意图应与注意图一致注意网络AY的变换对象。例如,如果马被变换成斑马,则斑马的区域应当作为循环被带回到马。也就是说,原始图像中的感兴趣区域基于Attention-GAN的野生图像目标变形7并且变换后的图像应该是相同的:A X(x)≈A Y(G(x))。类似地,对于来自域Y的每个图像y,注意力网络A Y和A X应满足一致性:A Y(y)≈A X(F(y))。为此,我们提出了一个注意力周期-一致性损失:LAcyc ( AX , AY ) =Ex∈X[AX ( x ) −AY ( G( x ) ) 1]+Ey∈Y[AY ( y ) −AX( F(y))1](七)此外,我们引入了稀疏损失,以鼓励注意力网络关注与对象相关的小区域,而不是整个图像:Lsparse(A X,A Y)= Ex∈X[A X(x)1]+ Ey∈Y[||A Y(y)||1]中。(八)考虑等式(7),AX(F(y))和AY(G(x))的注意力图应该与AY(y)和AX(x)一致,因此它们不包括AX(F(y))和AY(G(x))上的附加因此,通过组合等式(1-3)、(7)和(8),我们的全部目标是:L(TX,TY,DX,DY,AX,AY)=LGAN(G,DY,X,Y)+LGAN(F,DX,X,Y)+λcycLcyc(G,F)+λAcycLAcyc(AX,AY)+λsparseLsparse(AX,AY),(九)其中λsparse和λcyc平衡不同项的相对重要性。X域和Y域中的注意网络、变换网络和判别网络可以在以下最小-最大博弈中求解:arg minMaxL(TX,TY,DX,DY,AX,AY),(10)TX,TY,AX,AY DX,DY在补充材料中描述了优化算法。4.3额外监督在一些情况下,可以收集分割注释并将其用作注意力图。例如,我们的马→斑马图像分割的马正是感兴趣的区域。因此,我们监督的注意网络的训练分割标签。给定N个示例的训练集{(x1,m1),...,(xN,mN)},其中m1指示分割的二进制标签,我们最小化预测的注意力图A(x1)和分割标签m1之间的差异。为了学习X域和Y域的注意力地图,总注意力损失可以写为:LAsup(AX,AY)=X系列i=1mi−AX(xi) ΣNYj=1m j− A Y(y j)(十一)因此,全部目标变为:L(TX,TY,DX,DY,AX,AY)=LGAN(G,DY,X,Y)+LGAN(F,DX,X,Y)+λcycLcyc(G,F)+λAsupLAsup(AX,AY),(十二)其中λcyc和λAsup控制目标的相对重要性。由于注意力图由语义注释监督,因此我们不结合等式(7)和(8)的约束。8X. Chen等人5实验在本节中,我们首先介绍两个度量来评估生成图像的质量。然后,我们将无监督Attention-GAN与CycleGAN进行比较[7]。接下来,我们研究了注意稀疏损失的重要性,并将我们的方法与一些变体进行比较。最后,我们展示了监督Attention-GAN的实证结果。我们首先在三个任务上评估了所提出的Attention-GAN:马参与-胸罩,老虎参与豹和苹果参与橙。马、斑马、苹果和橙色的图像由CycleGAN提供[7]。老虎和豹子的图像来自ImageNet [12],其中包括1,444张老虎图像,1,396张狮子图像。我们随机选择了60张图像进行测试,其余的作为训练集。在监督实验中,我们执行了马斑马任务,其中可以从MSCOCO数据集获得图像和注释[34]。对于每个对象类别,MSCOCO训练集中的图像用于训练,MSCOCO val集中的图像用于测试。对于所有实验,训练样本首先缩放为286 ×286,然后随机翻转并裁剪为256 ×256。在测试阶段,我们将输入图像缩放到256 × 256的大小。对于所有实验,网络在前100个epoch中的初始学习率为0.0002,在接下来的100个epoch中线性衰减率为零。我们使用Adam求解器[35],批量大小为1。我们使用从先前生成的图像缓冲区中随机选择的样本更新了判别网络,然后[36]。培训过程见补充材料。转换网络和注意力网络的架构基于Johnson等人。 [37]。鉴别器改编自马尔可夫Patch-GAN [38,2,7,9]。详情见补充材料。5.1图像质量由于需要对象变换来预测感兴趣区域并在保留背景的情况下变换对象,因此我们引入度量来估计变换图像的质量。为了评估变换的背景一致性,我们计算生成的图像背景和原始图像背景之间的PSNR和SSIM。PSNR是人类对重建质量的感知的近似,其通过均方误差(MSE)来定义。给定测试样本{(x1,m1),· · ·,(xN,mN)},我们使用逐像素乘以⊙分割掩码来计算图像背景PSNR:1ΣNNi=1PSNR(xi⊙(1−mi),G(xi)⊙(1−mi)),(13)其中,xi表示原始图像,G(xi)表示结果图像,(1-mi)表示图像背景,逐像素乘法xi⊙(1-mi)表示原始图像的背景,G(xi)⊙(1-mi)表示生成图像的背景同样,我们使用SSIM来评估结构基于Attention-GAN的野生图像目标变形9输入输出注意力图输入输出注意力图斑马→马虎→豹苹果→橙橙→苹果图三.不同任务的对象变形结果:马和斑马,豹和老虎,苹果和橘子。在每种情况下,第一图像是原始图像,第二图像是合成图像,并且第三图像是预测关注图。我们提出的模型只处理图像的注意部分,并保持背景的一致性。表1.不同对象变形任务对背景PSNR和SSIM的背景一致性性能任务周期GAN距离GAN我们的我们(无监督)(有监督)PSNR马→斑马18.187511.189622.262924.589斑马→马18.102110.115321.536023.9330SSIM马→斑马0.67250.26300.90030.9482斑马→马0.71550.36270.89880.9534通过使用逐像素乘法在原始图像的背景与合成输出之间的相似性1ΣNNi=1SSIM(x i⊙(1 − m i),y i⊙(1 − m i)). (十四)在实验中,我们使用MSCOCO[34]数据作 为 图 像 质 量 和 图 像 掩 模 来评 估 所 生 成 图 像 的 背 景 质 量 。5.2无监督结果与最新技术水平的比较定量比较。我们通过计算图像背景PSNR和SSIM(等式(13)和(14))将我们的方法与CycleGAN [7]和DistanceGAN[11]进行测试数据集来自MSCOCO数据集[34]。作为MSCOCO马→斑马豹→虎10X. Chen等人输入CycleGAN Ours输入CycleGAN Ours斑马→马见图4。与CycleGAN在马斑马上的比较。在每种情况下,第一个图像是输入图像,第二个是CycleGAN [7]的结果,第三个是结果我们的注意力输入CycleGAN Ours输入CycleGAN Ours苹果→橘子虎→豹橘子→苹果豹→虎图五.与CycleGAN在苹果-橙子和老虎-豹子上的比较。在每种情况下:输入图像(左)、CycleGAN [7]的结果(中)和我们的Attention- GAN 的结果(右)。数据集没有老虎或豹子的类别,图像中的苹果和橘子太小,我们只比较马Participzebra的结果。结果示于表1中。可以看出,对于PSNR和SSIM,我们的方法在无监督方式下优于CycleGAN和DistanceGAN,这表明所提出的模型预测准确的注意力图,并实现更好的转换质量性能 。 由 于 我 们 的 方 法 远 远 优 于 DistanceGAN , 因 此 我 们 只 使 用CycleGAN探索定性质量和马斑马的定性比较结果见图。4.我们观察到,与CycleGAN相比,我们的方法在测试数据上提供了更高视觉质量的翻译结果例如,在马→斑马任务中,CycleGAN将背景的某些部分误认为目标,并将其转换为目标。基于Attention-GAN的野生图像目标变形11我们平等CycleGAN[6]ho rs@-> z @ b rp927 1t?g @ r-> l@ o pprd7013 17pp p l@-> o rpng @601228图六、与CycleGAN [21]相比,参与者对我们方法的偏好的堆叠条形图蓝色条表示更多参与者喜欢我们结果的图像数量。灰色条指示更多参与者所呈现的图像的数量随机选择的两种方法从10名参与者中获得相同数量的选票。形成黑白条纹。在图4的第二列中,CycleGAN在斑马→马任务中将绿色的草和树翻译成棕色。相比之下,我们的方法在正确的位置生成斑马,并保留背景的一致性。图5显示了虎与豹和苹果与橙的比较结果Attention-GAN的结果比CycleGAN的结果在视觉上更令人在大多数情况下,CycleGAN不能保持背景一致性,例如,第一幅图像中的蓝色牛仔裤被变换为黄色,第三幅图像中的蓝色水被变换为黄色,最后一幅图像中的黄色杂草一个可能的原因是,我们的Attention-GAN通过注意力网络解开了感兴趣的背景和对象,并且只变换了对象,而比较的方法只使用了一个生成网络来操作整个图像。人类感知研究我们通过人类研究进一步评估我们的算法。我们在Amazon Mechanical Turk平台上执行成对A/B测试我们遵循[39,40]中的相同实验程序参与者被要求从每一对中选择更真实的图像每一对包含通过两种方法从同一源图像翻译的两个图像我们测试了马和斑马、老虎和豹子以及苹果和橘子的任务。在每个任务中,我们从测试集中随机选择100张图像每个图像由10名参与者进行比较图6显示了100个示例中的参与者偏好我们观察到,我们的方法的92个结果优于CycleGAN在马斑马任务中的结果在tigerParticipleopard中,仍然只有17%的结果优于我们的方法,这表明我们提出的方法获得的定性评估优于现有方法。我们还注意到,在苹果-橘子任务中,只有60个结果,我们的方法优于比较的方法。我们认为原因是苹果和橙色数据集中的大部分图像是特写图像,其背景简单,以便CycleGAN可以达到有竞争力的结果。5.3模型分析我们对马→斑马任务进行模型分析图7显示了生成的图像以及模型的中间生成结果在12X. Chen等人见图7。我们的马→斑马模型的生成结果。从左至右:输入、注意力图、转换网络的输出、被注意力图分解的背景图像、被注意力图分解的图像的对象、最终的合成图像。表2.马→斑马的表现不同的损失。λattn= 0λattn = 1λattn = 5峰值信噪比(PSNR)19.8621 22.2629 24.21730.8291 0.9003 0.9367第二列,显示了注意力地图可以看出,在完全无监督的情况下,模型的注意力网络能够成功地从输入图像中分离出我们感兴趣的对象和背景。第三列是变换网络的输出,其中变换后的斑马在视觉上是令人愉悦的,而图像的背景部分是无意义的。论证了转化网络只关注利益对象的转化。此外,图7示出了最后一列中的最终输出图像由第四列中的背景部分和第五列中的感兴趣对象组合。图8示出了我们的模型在马→斑马上的变体的定性结果。可以看出,在没有稀疏损失的情况下(在等式(8)中λsparse= 0),注意力网络将图像背景的一些部分预测为感兴趣区域。当λsparse设置为5时,注意力掩模收缩得太多,无法覆盖整个感兴趣对象这是因为,如果我们过于强调稀疏损失的相对重要性,注意力网络不能全面预测对象的位置。我们发现λsparse= 1是一个合适的选择,它很好地平衡了对感兴趣对象的足够关注在表2中,我们观察到随着λsparse的值变得更大,背景一致性的性能更好。然而,如果λsparse设置得太大,则变换对象的质量这表明λsparse可以被视为平衡背景一致性和变换质量的性能的参数。基于Attention-GAN的野生图像目标变形13输入λattn= 0 λ attn= 1(我们的)λattn= 5图8. 不同参数λsparse对映射马→斑马的稀疏损失的影响。从左至右:稀疏损失下的输入、输出和注意力映射,λ sparse = 1时的输入和注意力映射,λ sparse =5时的输入和注意力映射。输入CycleGANAttention-GAN(无监督)Attention-GAN(监督)见图9。CycleGAN [7]、无监督Attention-GAN和受监督的Attention GAN。5.4监督结果在马的Participizebra任务中,我们计算了生成图像和原始图像之间背景区域的PSRN、SSIM在表1中,从背景一致性的角度来看,具有监督的Attention-GAN优于无监督Attention-GAN和CycleGAN这表明,注意力网络预测的兴趣对象更准确的分割掩模。在图9中,CycleGAN和无监督Attention-GAN将人的某些部分预测为感兴趣区域,并将其转换为斑马的纹理(参见图9的第一行)。我们还注意到,有监督的注意力地图往往是暗红色或深蓝色,这表明有监督的注意力网络预测的置信度更高,对感兴趣的背景和对象的分离更清晰。我们根据UoI和mAPr@0.5评估马的前景掩模。无监督Attention-GAN获 得 了 28.1% 的 UoI 和 20.3% 的 mAPr@0.5 。 另 一 方 面 , 有 监 督 的Attention-GAN获得了37.8%的UoI得分和37.8%的UoI得分。14X. Chen等人输入周期GAN注意GAN图10个。夏季→冬季的结果与CycleGAN比较mAPr@0.5的30.5%。虽然我们的算法不是专门为语义分割而设计的,但所提出的注意力网络能够以无监督的方式学习感兴趣的对象,并实现合理的性能。5.5全局图像变换局部和全局图像变换都很重要。我们研究了物体变形,并在马、苹果和虎身上进行了评价。更多的应用包括关于人的期望的衣服项目的虚拟试穿[41],以及面部属性(例如,面部特征)。[2019 - 04 - 14][2019 - 04 -14][2019 - 04 - 14]所提出的注意力GAN是有效的,以确定重要区域的对象变形问题,它也可以导致一些有趣的观察,在全球的图像变换。在夏季和冬季,没有明确的感兴趣对象,但算法确实识别出一些具有更多关注度的区域,例如。图中的草和树。10,通常夏天是绿色的,冬天是棕色的。同时,没有显著特征的区域,例如,蓝色的天空不会被注意到。6结论本文将注意力机制引入到生成式对抗网络中,考虑到对象变形任务的图像上下文和结构信息。我们开发了一个三人模型,包括一个注意力网络,变换网络和判别网络。注意力网络预测感兴趣的区域,而转换网络将对象从一个类转换到另一个类。我们表明,我们的模型在保持背景一致性和变换质量方面优于一次性生成方法[7]。鸣谢本工作部分得到国家重点研究支持国家自然科学基金项目( 61527804 , 61521062 ) , 部 分 由 澳 大 利 亚 研 究 委 员 会 项 目 FL-170100117 , DE-180101438 , DP-180103424 和 LP-150100671 , 部 分 由USyd-SJTU合作合作项目奖。基于Attention-GAN的野生图像目标变形15引用1. 朗J Shelhamer,E.,达雷尔,T.:用于语义分段的全卷积网络。在:IEEE计算机视觉和图像处理会议论文集中。(2015)34312. Isola,P.,Zhu,J.Y.,周,T.,Efros,A.A.:使用条件对抗网络的图像到图像翻译。arXiv预印本arXiv:1611.07004(2016)3. 卡拉坎湖Akata,Z.,Erdem,A.,Erdem,E.:学习从属性和语义布局生成户外场景的图像arXiv预印本arXiv:1612.00215(2016)4. Sangkloy,P.,卢,J,方角余,F.,Hays,J.:Scribbler:使用草图和颜色控制深度图像合成。arXiv预印本arXiv:1612.00835(2016)5. 董,C.,Loy,C.C.,他,K.,唐X:使用深度卷积网络的图像超分辨率。IEEE模式分析和机器智能汇刊38(2)(2016)2956. 古德费洛岛Pouget-Abadie,J.Mirza,M.,徐,B.,沃德-法利,D.,Ozair,S.,Courville,A. Bengio,Y.:生成性对抗网。In:Advances inneuralin Formal inProocessSystems.(2014年)26727. Zhu,J.Y.,Park,T. Isola,P.,Efros,A.A.:使用周期一致对抗网络的不成 对 图 像 到 图 像 翻 译 。 IEEE International Conference on Computer Vision(ICCV)(Oct(2017年)8. 金,T.,Cha,M.,Kim,H. Lee,J.K.,Kim,J.:学习发现跨域关系与生成对抗网络。In:Proceedings of the 34th International Conference on MachineLearning , ICML 2017 , Sydney , NSW , Australia , 6-11August2017.(2017)18579. Yi,Z.,张洪,Tan,P.,龚,M.:Dualgan:图像到图像翻译的无监督双重 学 习 。 IEEE International Conference on Computer Vision ( ICCV ) (Oct(2017年)10. Taigman,Y.,Polyak,A.,沃尔夫湖:无监督跨域图像生成。CoRRabs/1611.02200(2016)11. Benaim,S.,沃尔夫湖:单侧无监督域映射。在:神经信息处理系统的进展30:2017年神经信息处理系统年会,2017年12月4日至9日,美国加利福尼亚州长滩。(2017年)75212. Deng,J.,Dong,W.,索赫尔河Li,L.J.,Li,K.,李菲菲:Imagenet:一个大规模的分层图像数据库。在:计算机视觉和模式识别,2009年。CVPR2009。IEEEC〇nference〇n,IEEE(2009)24813. Denton,E.L.,Chintala,S.,费格斯河等:使用对抗网络的拉普拉斯金字塔的深度生成图像模型。在:神经信息处理系统的进展。(2015)148614. Radford,A. 梅斯湖 Chintala,S.: 使用深度卷积生成对抗网络进行无监督表示学习。arXiv预印本arXiv:1511.06434(2015)15. Wang,C.,中国地质大学,Wang,C.,中国地质大学,徐,C.,Tao,D.:用于对象图像重渲染的标签解缠生成对抗网络。在:Proceedings ofthe Twenty-Sixth Inter-natialJointConférenceonArtificialntellige , IJCAI-17中。(2017)290116. Im,D.J.,Kim,C.D.,江,H.,Memisevic,R.:使用循环对抗网络生成图像。arXiv预印本arXiv:1602.05110(2016)17. Kwak,H.,Zhang,B.T.:使用复合生成对抗网络逐部分生成图像arXiv预印本arXiv:1607.05387(2016)16X. Chen等人18. 杨杰,Kannan,A.,Batra,D.,Parikh,D.:Lr-gan:用于图像生成的分层递归第五届国际学习表征会议(ICLR)(2017年)19. Wang,C.,中国地质大学,徐,C.,Wang,C.,中国地质大学,Tao,D.:用于图像到图像转换的感知对抗网络IEEE Transactions onImage Processing 27(8)(2018)406620. Balcan,M.,Weinberger,K.Q.,编辑:Proceedings of the 33nd InternationalConference on Machine Learning,ICML 2016,New York City,NY,USA,June 19-24,2016. JMLR研讨会和会议记录第48卷。JMLR.org(2016)21. 张洪,徐,T.,Li,H.,Zhang,S.,(1991),中国农业科学院,王,X.,黄,X.,Metaxas,D.N.:Stack- gan:使用堆叠生成对抗网络进 行 文 本 到 照 片 级 逼 真 图 像 合 成 。 IEEE International Conference onComputer Vision(ICCV)(Oct(2017年)22. 梁湘,张洪,Xing,E.P.:生成语义操作与对比。arXiv预印本arXiv:1708.00315(2017)23. Rensink,R.A.:场景的动态表示。视觉认知7(1-3)(2000)1724. Mnih,V.,Heess,N.格雷夫斯,A.,等:视觉注意的循环模型。在:Avancesineuralinfr matonpocess ysys (2014)220425. Zhou,B.,(1991年),中国地质大学,Khosla,A. Lapedriza,A. Oliva,A.,Torralba,A.:学习深度特征以用于区分性定位。In:Proceedings ofthe IEEE Conference on C 〇 mputerVis i sinandPater nRec 〇gnit i tin.(2016)292126. Xiao,T.,徐,Y.,杨,K.,张杰,彭,Y.,张志:两级注意力模型在深度卷积神经网络中的应用,用于细粒度图像分类。In:Proceedings of theIEEE Conference on Computer Vision andPatternRecognition. (2015)84227. 徐,K.,Ba,J.,基罗斯河周,K.,Courville,A. Salakhudinov河泽梅尔河Bengio,Y.:显示、出席和讲述:神经图像字幕生成与视觉的一个尝试。 In:I nter natina (2015)204828. 徐,H.,Saenko,K.:提问、出席并回答:探索视觉问答的问题引导空间注意。In:European Conference on ComputerVision,Springer(2016)45 129. Chen,L.C.,杨,Y.,王杰,徐伟,Yuille,A.L.:注意秤:尺度感知的 语 义 图 像 分 割 。 In : Proceedings of the IEEE Conference onC 〇 mputerVisi s i n andPater n Rec 〇 g nit i ti n.(2016)364030. Bahdanau,D.,周,K.,Bengio,Y.:通过联合学习对齐和翻译的神经机器翻译第三届学习表征国际会议(ICLR)。(2015年4月)31. 姚湖Torabi,A.,周,K.,北卡罗来纳州巴拉斯帕尔角Larochelle,H.Courville , A. : 利 用 时 间 结 构 描 述 视 频 。 In : Proceedings of the IEEEiintérnationalconferenceoncommputeri sision. (2015)450732. Gregor,K.,达尼赫尔卡岛格雷夫斯,A.,Rezende,D.,Wierstra,D.:Draw:用于图像生成的递归神经网络。在Bach,F. Blei,D.,编辑:第32届机器学习国际会议论文集。Proceedings of MachineLearningReser ch.第37卷,Lille,France,PMLR(2015年7月7日33. 毛泽东,李,Q.,谢,H.,Lau,R.Y.,王志,Paul Smolley,S.:最小二乘生成对抗网络。IEEE International Conference on Computer Vision(ICCV)(Oct(2017年)基于Attention-GAN的野生图像目标变形1734. 林,T. 是的, 我是M Belongie,S., 嗨,J., Perona,P., Ramanan,D. ,Dolla'r,P.,Zitnick,C.L.:微软coco:上下文中的公用对象。In:Europeanconferenceoncomputervision,Springer(2014)740-75535. Kingma,D. Ba,J.:Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980(2014)36. Shrivastava,A.,Pfister,T.,Tuzel,O.,Susskind,J.,王伟,Webb,R.:通过对抗训练从模拟和无监督图像中学习。IEEE计算机视觉与模式识别会议(CVPR)(July(2017年)37. Johnson,J.,Alahi,A.,李菲菲:实时风格转换和超分辨率的感知损失。参见:欧洲计算机视觉会议,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功