没有合适的资源?快使用搜索试试~ 我知道了~
15914RelGAN:通过相对属性实现吴伯伟1林玉静1张哲汉2爱德华. Chang 2,3Lih-Wei Liao11国立台湾大学2 HTC Research &Healthcare3斯坦福大学maya6282@gmail.comr06922068@ntu. edu. tw chehan chang@htc.comechang@cs.stanford.eduliao@csie.ntu.edu.tw摘要多领域图像到图像的翻译近年来得到以前的方法将图像和一些目标属性作为输入,并生成具有所需属性的输出图像。然而,这种方法有两个局限性。首先,这些方法假设输入图像0 0 1 0 0 1目标属性(a) StarGAN(b) RelGAN二进制值属性,因此不能产生令人满意的发色年龄相对属性精细控制的结果。 第二,这些方法重新-性别微笑指定整个目标属性集的查询,即使大多数属性不会改变。为了解决这些限制,我们提出了RelGAN,一种用于多域图像到图像翻译的新方法。关键思想是使用相对属性,它描述了所选属性的期望更改。我们的方法是能够修改- ING图像通过改变特定的属性的兴趣在一个连续的方式,同时保留其他属性。实验结果表明,我们的方法在定量和定性的面部任务的有效性属性转换和插值。1. 介绍多域图像到图像翻译的目的是将图像从一个域翻译到另一个域。域的特征在于一组属性,其中每个属性是图像的有意义的属性。最近,随着生成对抗网络(GAN)[5]及其条件变体[20]的出现,这种图像到图像的翻译问题受到了相当大的关注。虽然大多数现有的方法[10,27,31,16]专注于两个域之间的图像到图像的转换,但最近提出了几种多域方法[4,7,30],这些方法能够同时改变多个属性例如,在面部属性编辑的应用中,可以同时改变头发颜色和表情。尽管最近的多域方法[4,7]的结果令人印象深刻,但它们有两个局限性。首先,这些方法假定二进制属性,因此不是为属性插值而设计的。尽管我们可以将实值属性输入到它们的生成器中,图1. 上图:通过相对属性和目标属性比较面部属性转移。(a)现有的基于目标属性的方法不知道每个属性是否需要改变,因此可能会过度强调某些属性。在这个例子中,StarGAN改变了头发的颜色,但加强了微笑的程度。(b)RelGAN只修改头发颜色并保留其他属性(包括微笑),因为它们的相对属性为零。底部:通过以连续的方式调整相对属性,RelGAN在属性转移之前和之后提供了一个真实的插值内插质量不令人满意,因为它们的模型是在二进制值属性上训练的。(Our模型通过用附加鉴别器训练实值相对属性来弥补这一缺点。在编辑之前和之后之间的平滑和真实的插值是重要的,因为它使得能够对每个属性的强度进行细粒度控制棕色与棕色的百分比金发的颜色,或微笑/幸福的程度)。其次,这些方法需要完整的属性表示来指定目标域,即使只操作属性的子集换句话说,用户必须0 1 0 0 0 10 1 -1 0 0 00 0¼ 00 0½ 00 0¾ 00 01 01 000头发 微笑年龄0 0 0¼0 0 0½0 0 0¾0 0 0115915--属性:B lac k / B lond / B row n /性别/年龄1 0 0 0 00 0 1 0 0相对属性10-10010-100要素属性转换10-100要素属性插值或或10-100或或图2. RelGAN。我们的模型由单个生成器G和三个鉴别器D=D实数、D匹配、D插值 . G条件 输入图像和相关属性(左上),并执行面部属性转移或插值(右上)。在训练过程中,G的目标是欺骗以下三个鉴别器(底部):DReal试图区分真实图像和生成图像。DMatch旨在区分真正的三元组和生成/错误的三元组。DInterp试图预测插值的程度。不仅将感兴趣的属性设置为期望值,而且还从输入图像中识别未改变的属性的值这对细粒度控制提出了挑战,因为用户不知道每个未更改属性的底层实际为了克服这些限制,我们的关键思想是,不像以前的方法那样,将原始图像x和目标属性a的一对(x,a_x)作为输入,我们将(x,v)作为输入,其中v是定义为原始属性a和目标属性a_x之间的差的相对属性,即,v,a−a. 关系的价值直接影响着编码每个属性需要改变多少在特别地,非零值对应于感兴趣的属性图1用面部特征转移和插值的例子说明了我们的方法。在本文中,我们提出了一种基于相对属性的方法,称为RelGAN,多域图像到图像的翻译。RelGAN由单个生成器G和三个鉴别器D组成={D实数,D匹配,D插值},分别负责引导G学习以产生(1)真实图像,(2)根据相对属性的精确平移,以及(3)真实插值。图2提供了RelGAN的概述。我们的贡献可归纳如下:1. 我们提出了RelGAN,一种基于相对属性的多域图像到图像翻译方法。RelGAN基于每个属性的变化,并且避免了需要知道输入图像的全部属性。2. 要学习以相对属性为条件的生成器我们提出了一种匹配感知的方法,它确定输入输出对是否匹配相对属性。3. 我们提出了一种插值算法来提高插值质量。4.我们实证证明了Rel- GAN在面部属性传输和插值上的有效性。实验结果表明,RelGAN方法比现有方法具有更好的效果。2. 相关工作我们回顾了与我们相关的工作,并专注于对比图像生成和面部属性转移。生成对抗网络(GANs)[5]是功能强大的无监督生成模型,近年来条件生成对抗网络(cGAN)[20]通过调节生成器和附加信息来扩展GAN文本到图像的合成和图像到图像的转换可以被视为分别以文本和图像为条件的cGAN对于文本到图像合成,Reed et al.[24]提出了一种匹配感知的方法来提高生成图像的质量。受这项工作的启发,我们提出了一个匹配感知的条件搜索。Stack- GAN++ [29]使用无条件和条件损失的组合作为其对抗损失。对于图像到图像的转换,pix2pix [10]是一种基于cGAN的监督方法。为了缓解监督学习中获取成对数据的问题,提出了一种非成对图像到图像的转换方法。15916测量方法[27,31,16,9]最近受到越来越多的关注。CycleGAN [31]是最具代表性的方法,它学习了两个生成模型,并通过循环一致性损失对其进行正则化最近的面部属性转移方法[22,15,4,7,30,23]将问题公式化为不成对的多域图像到图像的转换。IcGAN [22]训练一个cGAN和一个编码器,并将 它 们 组 合 成 一 个 允 许 操 作 多 个 属 性 的 模 型 。StarGAN [4]使用单个生成器,该生成器将图像和目标属性作为输入来执行多域图像转换。AttGAN [7]类似于StarGAN,基于目标属性执行面部属性传输。然而,AttGAN使用编码器-解码器架构,并将属性信息视 为 潜 在 表 示 的 一 部 分 , 这 与 IcGAN 类 似 。ModularGAN [30]提出了一种由多个可重用和可组合模块组成的模块化架构。GANimation [23]在具有实值属性标签的面部图像上训练其模型,因此可以在面部表情插值上取得令人印象深刻的结果。StarGAN [4]和AttGAN [7]是多域图像到图像翻译中的两种代表性方法。Rel- GAN在三个方面与它们有着根本的不同首先,RelGAN采用基于相对属性的公式而不是基于目标属性的公式。其次,StarGAN和AttGAN都采用了辅助分类器域 a和a都是n维向量。我们定义了a和a的相对属性向量v,a−a,(1)其自然地表示在将输入图像X修改为输出图像Y时期望的属性改变。我们认为,表达用户通过相对属性表示是直接和直观的。例如,如果图像属性是二进制值(0或1),则对应的相对属性表示sentation是三值的(-1,0,1),其中每个值对应于将用户的操作响应到二进制属性:打开(+1)、关闭(-1)或不变(0)。从这个例子中,我们可以看到相对属性编码了用户需求,有一个直观的含义。接下来,通过相对属性进行面部属性插值相当简单:为了在x和G(x,v)之间进行插值,我们简单地应用G(x,αv),其中α∈[0,1]是插值系数。3.2. 对抗性损失我们应用对抗损失[5]来使生成的图像与真实图像无法区分。不利损失可以写为:min maxLReal =Ex[logDReal(x)]来指导图像翻译的学习,而RelGANGD现实+Ex,v[log(1−DReal(G(x,v)],(二)[20]而这是一个相对的属性。第三,我们通过在我们的框架中添加一个插值函数,向连续操纵迈出了一步3. 方法本文考虑一个域由一个n维属性向量a =[a(1),a(2),. . .其中每个属性a(i)是面部图像的有意义的属性,诸如年龄、性别或头发颜色。 我们的目标是将输入图像x转换为输出图像y,使得y看起来逼真并且具有目标属性,其中一些用户指定的属性与原始属性不同,而其他属性保持不变。其中生成器G试图生成看起来现实该算法是无条件的,旨在区分真实图像和生成图像。3.3. 条件对抗损失我们不仅要求输出图像G(x,v)看起来真实,而且要求x和G(x,v)之间的差与相对属性v相匹配。为了实现这一要求,我们采用了条件GAN的概念[20],并引入了一个条件判别器DMatch,它将图像和条件变量(即对(x,v))作为输入。条件对抗性损失可以写为:一样的 为此,我们建议学习一个映射函数最小最大L匹配 =Ex,v,xΣ′logD匹配 (x,v,x′)(x,v)→y,其中v是表示-厌恶所期望的属性改变。 图2给出了G D匹配+Ex,v [log(1 − DMatch(x,v,G(x,v)))].(三)RelGAN概述在下面的小节中,我们首先介绍相对属性,然后描述RelGAN模型的组成部分。3.1.相对属性考虑图像x,其属性向量a作为原始域,并且目标属性向量a作为目标从这个等式中,我们可以看到DMatch将一个三元组作为输入。特别地,DMatch旨在区分两种类型的三元组:真实三元组(x,v,x′)和假三元组(x,v,G(x,v))。实数三元组(x,v,x′)由两个实数图像(x,x′)和相对属性向量组成v= a′−a,其中a′和a是x′x分别。 在此,我们要强调的是15917匹配Interp1最小L我们的训练数据是未配对的,即,x和x′是不同的具有不同属性的身份。受匹配感知的三元组[24]的启发,我们提出了第三种类型的三元组:错误的三元组,它由两个具有不匹配的相对属性的真实图像组成通过添加错误的三元组,DMatch试图将真实的三元组分类为+1(真实和匹配),而假的三元组和匹配的三元组都是假的。而错误的三胞胎为-1(假的或不匹配的)。 按面值-我们使用以下简单程序创建错误的三元组:给定一个由(x,a′-a,x′)表示的实数三元组,我们用一个新的变量替换这四个变量中的一个,以创建一个错误的三元组。通过这样做,我们得到四个不同的错误的三胞胎算法1显示了我们的条件对抗损失的伪代码。算法1条件对抗损失1:函数MATCH LOSS(x1,x2,x3,a1,a2,a3)2: v12,v32,v13<$a2−a1,a2−a3,a3−a13:sr<$DMatch(x1,v12,x2){real triplet}第四章:sf←DMatch(x1,v12,G(x1,v12)){fak etriplet}5:sw1←D匹配(x3,v12,x2){错误的三元组}6:sw2←D匹配(x1,v32,x2){错误的三元 组 }7 :sw3←DMatch( x1, v13, x2){wrong triplet}第 八 章 :sw4←DMatch( x1 , v12 , x3 ) {wrongtriplet}其中G退化为自动编码器,并试图重新构造x本身。我们使用L1范数在两个重建损失。3.5. 插值损失我们的生成器通过G(x,αv)在图像x和其平移图像G(x,v)之间进行插值,其中α是插值系数。为了实现高质量的插值,我们鼓励插值图像G(x,αv)看起来逼真。具体来说,受[1]的启发,我们提出了一个正则化器,其目的是使G(x,αv)与非插值输出图像不可区分,即,G(x,0)和G(x,v)。为此,我们引入了第三个CNODInterp来与我们的生成器G竞争。D Interp的目标是将生成的图像作为输入,并预测其插值度α,定义为α=min(α,1−α),其中α=0表示没有插值,α=0。5意味最大插值通过预测α,我们解决了α和1 −α之间的模糊性。内插CIDDInterp可最大限度地减少以下损失:D22429:L匹配←(sr−1)G2 +sf+i=1swi最小LD=Ex,v,α[<$DInterp(G(x,αv))−α<$$>210:L匹配←(sf−1)DInterpInterp11:返回LDG匹配+D Interp (G(x,0))(六)3.4.重构损失通过最小化无条件和有条件对抗损失,G被训练以生成输出图像G(x,v),使得G(x,v)看起来真实并且x和G(x,v)之间的差匹配相对属性v。然而,不能保证G只修改那些与属性相关的内容,而保留所有其他内容,+DInterp(G(x,v))2],其中第一项的目的是从G(x,αv)中重新获得一个矩阵。第二项和第三项鼓励DInterp对非插值图像输出零。通过增加以下损失来修改G的目标函数从低级别(例如背景外观)到高级别(例如面部图像的身份)的视角。为了解决这个问题,我们提出了一个循环重构损失和一个自重构损失来正则化我们的生成器。minLG=Ex,v,αGΣΣ[001 pdf1st-31files] DInterp(G(x,αv))<$2、(7)循环重建损失。我们采用循环一致性的概念[31],并要求G(:,v)和G(:,-v)应该是彼此的逆。我们的周期-重建损失写为其中G试图欺骗DInterp,使其认为G(x,αv)是非-插补。 在实践中,我们发现经验,以下-降低修正损失可以稳定对抗训练过程:minLCycle= Ex,v[<$G(G(x,v),−v)−xth].(四)GDInterpInterp=Ex,v,α[D,LD15918Interp1GInterp(G(x,αv))−α2(八)自我重建损失。当相对属性向量是零向量0时,这意味着没有属性被改变,输出图像G(x,0)应该尽可能接近+D Interp (G(x,I[α> 0. 5]v))12],X.为此,我们将自我重建损失定义为:其中I[·]是指示函数,如果其参数为true,否则为0算法2显示了minLSelf=Ex[G(x,0)−x],(5)GLD伪码Interp.和L1591901αInterp输入黑色头发金发棕色头发性别胡子苍白的皮肤微笑刘海眼镜年龄图3. RelGAN在CelebA-HQ数据集上的面部属性转移结果。算法2插值损失一曰: 函数INTERP 损失(x,v)第二章:αU(0,1)第三章:y0←DInterp(G(x,0)){非内插图像}4:y1←DInterp(G(x,v)){非插值图像}5:yα←DInterp(G(x,αv)){插值图像}第六章:如果α≤0. 5那时属性转换(第4.4节)、面部图像重建(第4.5节)和面部属性插值(第4.6节)。最后,我们介绍了用户研究的结果(第4.7节)。4.1. 数据集CelebA CelebFaces属性数据集(CelebA)[17]DInterp8:其他DInterp←y2+(yα−α)2←y2+(yα−(1−α))2包含了202599张名人的脸部图像,用40个二进制属性进行了注释,如头发颜色,性别,年龄。我们将这些图像居中裁剪为178×178,并将其大小调整为GInterp ←y2256 ×256。11:返回LD3.6.全部失败GInterpCelebA-HQ Karras等人[12]高质量的产品,CelebA数据集的一个实例,该数据集由30,000幅图像组成,这些图像是通过使用adversarially训练的超分辨率模型对CelebA图像进行上采样而总部。Flickr-Faces-HQ数据集(FFHQ)[13]包括为了稳定训练过程,我们添加了正交reg.[2]我们的损失函数。最后,D={DReal,DMatch,DInterp}和G的全损失函数分别表示为:70,000张1024 ×1024分辨率的高质量面部图像。这个数据集比CelebA-HQ数据集有更大的变化4.2. 实现细节minLD =−LReal+λ1LD+λ2LD(九)三个数据集的图像被中心裁剪,和DminLG =LReal+λ1LG匹配+λ2LGInterp大小为256×256。我们的生成器网络改编自StarGAN[4],由两个卷积层组成,用于下采样的步长为2,六个残差块,以及用于下采样的步长为2的两个转置卷积层。G匹配Interp(十)上采样。 我们使用可切换的归一化[18]在+λ3L循环+λ4L自身+λ5LOrtho,其中λ1、λ2、λ3、λ4和λ5是控制每个损失的相对重要性的超参数4. 实验在本节中,我们进行了大量的实验来证明RelGAN的有效性我们首先描述实验设置(第4.1、4.2和4.3节)。然后,我们展示了实验结果的任务,面部7:L9:L10:L,L15920生成器.我们的鉴别器D={DReal,DMatch,DInterp}具有由步长为2的六个卷积层组成的共享特征子网络。每个图层都将其输出图层添加到要素子网络中。有关网络架构的更多详细信息,请参阅补充材料。对于LReal(公式2)和LMatch(公式3),我们使用LSGANs-GP [19]来稳定训练过程。 对于方程9和10中的超参数,我们使用λ1=1,λ2=λ3=λ4=10,λ5=10−6。公司现采用国际15921StarGANAttGANRelGAN输入黑发金发棕发性别年龄H+G H+A G+A H+G+A图4.CelebA-HQ数据集上StarGAN、AttGAN和RelGAN的面部属性传输结果请放大以了解更多详情。CelebA-HQ913. history of life 十八十一736. 9949. 第 四十九章 大 结局28134510. 35CelebA-HQ第三十四章. 8025. 5317. 5169.第六十九章. 74 27. 二十五二十二74表1. 视觉质量比较。我们使用Fre'chet起始距离(FID)来评估视觉质量(越小越好)。n是训练中使用的属性数。RelGAN在所有五种设置中实现了三种方法中最低的FID分数亚 当 优 化 器 [14] , β1=0 。 5 和 β2=0 。 999 我 们 在CelebA-HQ数据集上从头开始训练RelGAN,学习率为5×10−5,批量大小为4 我们训练了100 K次迭代,大约是13。三个时代。在GTX1080 Ti GPU上训练RelGAN大约需要60小时。4.3. 基线我们将RelGAN与StarGAN [4]和AttGAN [7]进行了比较,这是多域图像到图像翻译中的两种代表性方法。对于这两种方法,我们使用作者发布的代码,并使用默认的超参数在CelebA-HQ数据集上训练他们的模型。4.4. 面部属性转移视 觉 质 量 比 较 。 我 们 使 用 Fre'chetInceptionDistance(FID)[8](越低越好)作为评估指标来衡量视觉质量。我们用三个不同的训练集进行了实验:CelebA有9个属性,CelebA- HQ有9个属性,CelebA-HQ有17个属性。表1显示了StarGAN、AttGAN和RelGAN的FID比较。我们可以看到,RelGAN在所有三个训练集上的表现始终此外,我们在CelebA-HQ数据集上进行了训练实验,同时在FFHQ数据集上进行了测试,以评估泛化能力。尽管如此,RelGAN还是比其他方法获得了更好的FID分数。95. hello 4890.21960097. 0889. honor 4394. 4492. 4998. 2691. baby baby 0896. 3694. 9699。20图像胡子微笑苍白的皮肤平均CelebA-HQ九十七9094 20九十六。70九十六。47StarGAN89岁。87九十56九十六。56九十三68AttGAN九十五35九十30九十八2394 07RelGAN94 5792.93九十六。79九十五13表2. CelebA-HQ图像和StarGAN、AttGAN和RelGAN生成图像的分类准确度(百分比,越高越好)对于每个属性,三种方法中准确度最高的以粗体突出显示。分类精度。为了定量评估图像翻译的质量,我们使用Resnet-18架构在CelebA-HQ数据集上训练了面部属性分类器[6]。我们使用90/10的比例进行训练和测试。在表2中,我们报告了测试集图像和由Star-GAN、AttGAN和RelGAN生成的图像的分类准确性CelebA-HQ图像的准确性RelGAN实现了最高的平均准确度,并在7个属性中的3个中排名第一。定性结果。图3和图4示出了关于面部属性转移的定性结果。图3显示了代表性示例,以证明RelGAN能够生成高质量和真实的属性转换结果。图4显示了三种方法的视觉比较StarGAN的结果包含值得注意的伪影。与RelGAN相比,AttGAN产生模糊且不太详细的结果相反,RelGAN能够保持不变的属性。在改变头发颜色的情 况 下 , RelGAN 保 留 微 笑 属 性 , 而 StarGAN 和AttGAN由于其基于目标属性的配方而使女性更多定性结果可参见训练集n测试集StarGANAttGANRelGAN图像头发性别刘海眼镜CelebA910. history 1510个。744.第一章68CelebA-HQ92.52九十八37九十五83九十九。8015922LReal√L匹配√L循环+L自身结果√√√√√√√表3. 消融研究。从左至右:输入、黑发、金发、棕发、性别、胡子、苍白皮肤和微笑。StarGANAttGANRelGAN输入电压=0.1V=0.2V=0.3V=0.4V=0.5V=0.6V=0.7V=0.8V=0.9V=1.0图5.CelebA-HQ数据集上StarGAN、AttGAN和RelGAN的面部属性插值结果方法L循环L自身L1L2SSIMStarGAN2000。11360的情况。0239810的情况。567AttGAN2000. 06400的情况。0087240的情况。722RelGAN2000. 11160的情况。0197210的情况。731RelGAN2000. 01790的情况。0006490的情况。939RelGAN中国 0. 01350的情况。0004630的情况。947表4. 面部图像重建我们使用L1和L2距离(越低越好)和SSIM(越高越好)来测量重建误差。方法头发年龄性别AttGAN0的情况。04910的情况。04490的情况。0426StarGAN0的情况。03790的情况。03840的情况。0375RelGAN,不含0的情0的情0的情LInterp况。0363况。0308况。0375RelGAN0的情况。01700的情况。02780的情况。0167表5. 面部属性插值。我们使用SSIM的标准差(公式11,越低越好)来测量插值质量15923补充材料。在表3中,我们显示了损失函数的消融研究。我们可以看出:(1)没有L循环+L自我(第一行)的训练不能保持身份。(2)没有L匹配的训练(第二行)只学习重建输入图像。(3)没有LReal(第三行)的训练给出了合理的结果。(4)完全损失(第4行)的训练产生最好的结果。4.5. 人脸图像重建RelGAN的一个重要优点是保持不变的属性,这是一个理想的属性,为facial属性编辑。当所有属性都不改变时,即,当目标属性向量与原始属性向量相等时,人脸属性转换任务就简化为一个重构任务。在这里,我们评估了面部图像重建作为代理度量的性能,以证明Rel- GAN更好地保留了不变的属性。为了进行人脸图像重建,我们分别应用StarGAN和AttGAN , 将 原 始 属 性 作 为 目 标 属 性 , 并 应 用RelGAN,将零向量作为相对属性。我们测量输入和输出之间的L1,L2范数和SSIM相似性[26]15924方法头发刘海眼镜性别苍白的皮肤微笑年龄胡子重建 插值StarGAN 0的情况。000的情况。741 .一、111 .一、110的情况。74二、211 .一、110的情况。741 .一、77六、05AttGAN二十七岁71三十四3219号。1928岁7820块6652岁76四十二44三十二847 .第一次会议。82五十四98RelGAN七十二29六十四9479岁。70六十四6578岁60四十五02五十六4666岁。42九十七1266岁。42表6. 用户研究的投票结果(百分比,越高越好)。年龄{x1,···,xm−1},高质量和平滑变化的插值意味着外观从x0到xm稳定地变化。为此,我们计算xi−1和xi之间SSIM分数的标准偏差,即,σ({SSIM(xi−1,xi)|i = 1,···,m}),(11)图6. 我们使用热图来可视化两个相邻图像之间的差异。顶部两行:由于α = 0之间的突然变化,不使用LInterp的插值会产生较差的插值。7,α=0。8. 底部两行:使用LInterp进行插值可提供更好的结果,因为外观变化在图像序列中分布得更均匀输出图像。如表4所示,StarGAN仅使用循环重构损失,而AttGAN仅使用自重构损失。我们评估了Rel-GAN的三个变体,以揭示L循环和L自我的贡献。的结果表明,没有L循环的RelGAN已经超过了在所有三个方面形成StarGAN和AttGAN,歌词RelGAN进一步改善了结果。4.6. 面部属性插值接 下 来 , 我 们 在 面 部 属 性 插 值 任 务 上 评 估RelGAN对于StarGAN和AttGAN,它们的插值图像由G(x,αa+(1−α)a)生成,其中a和a是原始的,并且tar get attrib utev ec-,分别。 我们的插值图像是由G(x,αv).定性结果。从图5中可以看出,Star-GAN生成非平滑插值,其外观变化主要发生在α = 0之间。4,α =0。六、StarGAN和AttGAN在α = 0时,输入和结果之间都有突变。1 .一、特别是,这两种方法都不能很好地保留金发属性RelGAN实现了最平滑变化的插值。定量评价。我们使用以下度量来评估插值质量。给定输入图像x 0、输出图像xm和一组内插的im,15925其中,σ(·)计算标准d e。我们在这个实验中使用m=10较小的标准差表示插值质量较好。如表5所示,StarGAN与没有LInterp的RelGAN相当。带有LInterp的Rel- GAN有效地降低了标准差,表明我们的插值不仅真实,而且平滑变化图6示出了具有和不具有LInterp的RelGAN的视觉比较。4.7. 用户研究我们进行了一项用户研究,以评估RelGAN的图像质量我们考虑10个任务,其中八个是面部属性转移任务(第4.4节),一个是面部图像重建(第4.5节),一个是面部属性插值(第4.6节)。302名用户参与了这项研究。每个用户被要求回答40个问题,每个问题都是从Celeba-HQ图像和任务中随机抽样生成的,然后分别应用StarGAN,AttGAN和RelGAN来获得他们的结果。对于任务的贡献转移,用户被要求在三种方法中选择最佳的结果。对于其他两个任务,我们允许用户投票选择多个看起来令人满意的结果。用户研究结果总结见表6。Rel- GAN在除了微笑任务之外的所有任务中获得大多数选票。5. 结论本文提出了一种新的基于相关属性的多域图像到图像翻译模型。通过将相对属性作为输入,我们的生成器学习根据感兴趣的属性修改图像,同时保留其他不变的属性。我们的模型在视觉质量和插值方面都优于最先进的方法。我们未来的工作包括使用更先进的对抗学习方法[11,21,3]和掩码机制[23,30,28,25]进行进一步改进。15926引用[1] 大卫·贝特洛,科林·拉菲尔,奥科·罗伊,伊恩·古德菲尔洛.通过对抗正则化器理解和改进自动编码器中的插值。2019年,在ICLR。4[2] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练2019年,在ICLR。5[3] 张哲汉、于俊贤、陈思颖、陈志华。昌KG-GAN:知识引 导 的 生 成 对 抗 网 络 。 arXiv 预 印 本 arXiv :1905.12261,2019。8[4] Yunjey Choi,Minje Choi,Munyoung Kim,Jung-WooHa,Sunghun Kim,and Jaegul Choo. StarGAN:用于多域图像到图像翻译的统一生成对抗网络在CVPR,2018年。一二三五六[5] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS,2014。一、二、三[6] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。6[7] Zhenliang He,Wangmeng Zuo,Meina Kan,ShiguangShan,and Xilin Chen.AttGAN:通过只更改您想要的内容 来 编 辑 面 部 属 性 。 IEEE Transactions on ImageProcessing,2019。一、三、六[8] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。 通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。在NIPS,2017年。6[9] Xun Huang , Ming-Yu Liu , Serge Belongie , and JanKautz. 多 模 态 无 监 督 图 像 到 图 像 翻 译 。 在 ECCV ,2018。3[10] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在CVPR,2017年。一、二[11] 阿莱克西亚·乔利库-马蒂诺。相对论鉴别器:标准GAN中缺少的关键元素。2019年,在ICLR。8[12] Tero Karras , Timo Aila , Samuli Laine , and JaakkoLehtinen.GAN的逐步增长,以提高质量,稳定性和变化。在ICLR,2018年。5[13] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构,用于生成对抗网络。在CVPR,2019年。5[14] Diederick P Kingma和Jimmy Ba。Adam:随机最佳化的方法。2015年,国际会议。6[15] Guillaume Lample,Neil Zeghidour,Nicolas Usunier,Antoine Bordes,Ludovic Denoyer,et al.衰减器网络:通过滑动属性对图像进行管理。在NIPS,2017年。3[16] Ming-Yu Liu,Thomas Breuel,and Jan Kautz.无监督图像到图像翻译网络。在NIPS,2017年。第1、3条[17] Ziwei Liu , Ping Luo , Xiaogang Wang , and XiaoouTang.在野外深度学习人脸属性。 在ICCV,2015年。5[18] Ping Luo,Jiamin Ren,Zhanglin Peng,Ruimao Zhang,and Jingyu Li.通过可切换的归一化进行可区分的学习归一化。2019年,在ICLR。515927[19] 毛旭东,李庆,谢浩然,刘耀强,王震,斯蒂芬·保罗·斯摩利。最小二乘生成对抗网络的有效性。PAMI,2018年。5[20] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv预印本arXiv:1411.1784,2014。一、二、三[21] 宫人武和小山正则。带有投影鉴别器的cGAN。在ICLR,2018年。8[22] GuimPerarnau、Joost van de Weijer、Bogdan Raducanu和JoseM. A'l v arez.用于图像编辑的可验证条件GAN在NIPS对抗训练研讨会,2016年。3[23] Albert Pumarola、Antonio Agudo、Aleix M Martinez、AlbertoSanfeliu和FrancescMoreno-Noguer。GANimation:从单个图像中获得解剖学感知的面部动画在ECCV,2018。三、八[24] Scott Reed,Zeynep Akata,Xinchen Yan,LajanugenLo- geswaran,Bernt Schiele,and Honglak Lee.生成对抗性文本到图像合成。InICML,2016. 二、四[25] 孙若琪,黄晨,石建平,马丽庄。遮罩感知真实感人脸属性操作。arXiv预印本arXiv:1804.08882,2018。8[26] ZhouWang,Alan C Bovik,Hamid R Sheikh,Eero PSimon- celli,et al.图像质量评估:从错误可见性到结构相似性。IEEE图像处理学报,2004年。7[27] 自立一、张浩、谭平、龚明伦。Dual-GAN:用于图像到图像翻译的无监督双重学习InICCV,2017. 第1、3条[28] 张刚、坎美娜、Shiguang Shan和Xilin Chen。用于人脸属性编辑的具有空间注意力的生成对抗网络在ECCV,2018。8[29] 张涵,徐涛,李洪生,张少庭,王晓刚,黄晓磊,和Dimitris N Metaxas.堆栈- GAN++:使用堆叠生成对抗网络的真实图像合成。IEEE Transactions on PatternAnalysis and Machine Intelligence,2018。2[30] 赵波,常波,杰泽群,和Leonid Sigal。模块化生成对抗网络。在ECCV,2018。一、三、八[31] Jun-Yan Zhu,Taesung Park,Phillip Isola,Alexei AEfros.使用循环一致对抗网络的不成对图像到图像翻译。InICCV,2017. 一、三、四
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功