没有合适的资源?快使用搜索试试~ 我知道了~
1域自适应图像到图像翻译陈颖聪1徐晓刚1贾佳雅1,21香港中文大学2SmartMoreyingcong.ian. gmail.com,{xgxu,leojia}@ cse.cuhk.edu.hk摘要非配对图像到图像翻译(I2I)在各种应用中取得了巨大的成功。然而,其泛化能力仍然是一个悬而未决的问题。在本文中,我们表明,现有的I2I模型不能很好地推广训练域以外的样本。原因是双重的。首先,当测试样本超出其有效输入域时,I2I模型可能无法很好地工作其次,如果预期输出与模型训练的结果相差甚远,结果可能不可靠为了处理这些问题,我们提出了Do- main自适应图像到图像转换(DAI 2 I)框架,该框架针对域外样本调整I2 I模型。我们的框架引入了两个子模块大量的实验表明,我们的框架提高了现有I2I模型的能力,使它们能够处理与其主要目标截然不同的样本。1. 介绍近年来,不成对图像到图像翻译(I2I)[44,8,21,23]在计算机视觉,图形学和机器学习中引起了相当大的兴趣。(a) I2I(b)I2I(猫)(c)DAI2I图1。将中性→微笑I2I模型应用于人类和猫的面部。I2I模型是在人脸上训练的。第一行和第二行分别是输入和输出(a)在人脸上的结果(b)将模型直接应用于猫的脸上。(c)我们的结果。想象一下这是如何发生在一只猫脸上的,即使他/她以前从未见过这样一只微笑的猫然而,如图1(b)所示当图像在域A−之外时,模型不能正确地将其属性从“−”修改因此生成工件并且几乎不改变目标属性。在本文中,我们提出了域自适应图像到图像的翻译(DAI2I)框架,使I2I模型处理域外样本。这里的out-of-domain有两个含义。首先,输入样本来自给定某个域A−的图像,它学习一个映射新的域B−而不是A−。 作为FA−›→A+(1)受过训练FA−<$→A+(·)到另一个域A+,而不需要ny配对信息。它可以提供广泛的应用,包括图像属性操作[8],样式传输[44],数据增强[11],域适应[14],仅举几例。尽管取得了巨大的成功,但当测试图像与训练集不在 同 一 域 时 , 这 些 方 法 可 能 不 太 有 效 。 当 模 型FA−<$→A+(·)时,用域A(A=A−A+)训练,它可能不符合-当应用于另一个域B时形成良好。图1显示了将在人脸上训练的中性→微笑模型应用于猫脸的示例直觉上,这个过程-微笑应该包括提高嘴角和改变其他与微笑有关的肌肉。 人类可以轻易地对于A-,它可能无法正确解析B-其次,在实践中,预期的输出域B+在训练期间可能不可用带上菲格。 1为例。拍很多猫咪微笑的照片并不容易。因此,我们缺乏必要的信息来定义预期的输出域。与现有的I2I任务不同,用GAN对输出域进行建模是不可行的,因为不存在真实数据(B+)来训练器。从上面的讨论中,很明显,域外图像到图像的翻译仍然是一个悬而未决的问题。在本文中,我们采用了两个假设,使其易于处理。第一个假设是A和B可以双向翻译。这意味着A和B在语义上是相关的;否则,翻译,如椅子映射到猫,52745275要么毫无意义,要么看起来难以置信另一个假设是A−和A+之间的关系可以推广到B−。因此,即使在训练期间没有B+存在,也存在基于其他样本的可想象的在此基础上,我们在DAI 2 I框架中引入了两个映射函数:FB<$→A(·)和FA<$→B(·),它们在域A和域B之间进行转换. FB<$→A(·)充当适配器,将图像映射到基本I2 I模型FA−<$→A+( ·)的有效输入域 。 FA<$→B ( ·) 作 为 一 个 r构 造 器 , 将 I2 I 模 型FA−<$→A+(·)的输出映射到期望的目标域。此外,我们引入了一个感知类比损失,使我们的模型能够利用A−和A+之间的关系来定义预期的输出域B+。这允许在没有任何B+样本的情况下进行训练。最后,我们提出了一个风格特征提取和适应方案的重建处理输入图像的高度多样化的风格。我们的总贡献如下。• 我们首次尝试解决域外图像到图像的翻译。• 我们提出了域自适应图像到图像翻译(DAI2I)框架。我们的模型概括了一个基本的图像到图像的翻译模型,以处理IM,不同风格的时代。• 我们进行了大量的实验,以证明我们的模型的有效性。2. 相关工作图像到图像转换(I2 I)[44,8,21,23]旨在将图像从域 A-转 换 为 A+。 CycleGAN [44] 、 DualGAN [42] 和DiscoGAN [19]都是开创性的方法。以下方法提高了质量和可扩展性,包括解决域可扩展性问题[8,43],多模态问题[21,17],离散性问题[6,31]等。几乎所有的方法,如自适应测试和训练样本是在同一个领域。我们的框架是这些方法的补充,通过处理域外样本。最近,OST [2]和FUNIT [24]被提出来解决图像到图像 翻 译 中 的 通 用 性 问 题 。 Speci cally , OST[2]allowslearningFA−›→A+(·)whenA-包含很少的样本。这和我们的方法,因为我们的目标是学习在新的域中进行翻译的FB−<$→B+(·)FUNIT [24]学习将源图像映射到未知目标类通过在测试期间呈现很少的目标样本它学习因为我们并不认为B+在训练或测试期间是可用的。领域自适应(DA)旨在将知识从标签丰富的源领域转移到标签稀缺的目标领域。已经提出了大量的方法,包括实例重新加权[15,9],协方差对齐[35,36],最大均值离散[30,26],像素级自适应[14,29]等。我们的方法可以归类于其中,因为它将从源域A训练的模型适应于目标域B. 然而,它与现有方法不同,因为它专注于生成任务,而其他人则将理解任务用于图像分类,分割等。图像类比给定一对图像A-和A+以及目标B-,图像类比[12,22,7,32,1,40]旨在合成一个新的图像B+,使得B+与B-的关系与A+与A-的关系相同。这个基本思想激发了我们模型的感知类比损失。然而,我们的工作从根本上不同于图像类比,原因有二。首先,大多数现有方法都需要配对数据[12,7,32,1,40],而我们的模型不需要。其次,我们的工作可以处理高层变化,而大多数现有的工作都集中在风格转换,图像过滤,纹理合成等的低级修改[12,22,7,1,403. 该方法给定一个训练的图像到图像转换模型FA−<$→A+(·),它修改了 某些属性(例如, 微笑)对于域A(例如,人脸),我们的目标是将FA-→A+(·)变换为FB-→B+(·),以便处理另一个域B的样本(例如, 猫脸)。 FB−<$→B+(·)被期望平移B−(例如,常见的猫脸)到B+(e.g.、微笑的猫脸)而不引入其他不相关的变化。我们假设A−、A+和B−的图像在训练过程中是可用的。B+不用于培训,因为在实践中很难获得。本文用卷积神经网络实现了所有映射函数,包括FA-<$→A+(·),FA<$→B(·)和FB<$→A(·)。我们使用粗体,如A-和A+,表示某些域的图像集合。正常字体的A-和A+,相反,表示相应集合的样本下标“-”和“+”指的是属性标签。 为了简单起见,我们假设基础I2 I模型FA−<$→A+(·)在本节中仅更改一个属性实验结果表明,该模型能够处理多属性同时与多域翻译模型,如StarGAN [8]。3.1. 分析F+(·)使得F+(A;B+,B+· · ·,B+)∈A›→BA›→B1 2nB+,其中B+、B+··、B+是在给定时间内B+的样本我们把一张中性的猫脸变成1 2N测试。这种方法也与一 微笑 一个用于说明。的 没有 的B+5276是B-而不是B+。如图所示。第2行中的2,即使人脸的表情被修改,猫脸的表情也是不变的。用其他I2I方法取代CycleGAN并不能解决这个问题。这是因为赛的对抗性损失-cleGAN[44]强加FA<$→B(·)以生成与B的样本不可区分的样本。注意B+(猫的笑脸)在我们的环境中是遥不可及的。这−(a)B−(b)A−(c)A+(d)B+图2.说明训练我们的DAI 2I模型的困难。(a)显示了输入图像。(b)和(c)是FB <$→A(·)和FA−<$→A+(·)的输出。(d)是最终输出。1日损失将促使FA<$→B(·)在B中产生样本(中性猫脸),这阻碍了模型的修改-设置目标属性。去除B的对抗性损失也没有解决这个问题。在没有看到任何同类例子的情况下生成新颖的图像在下文中,我们提出了我们的解决方案,这导致了有趣和鼓舞人心的结果,如图所示。2(第三行)。3.2. 域自适应图像平移模型为了解决上述问题,我们引入ro w说明了FA−<$→A+(·)无法平移标签的情况从A-到A+ 第2行示出了FB<$→A(·)训练适配器网络F的几个损失函数B›→A(·)无法将A+转换为B+。第3行说明了我们提出的方法的结果 结果表明,猫经过FB<$→A(·)、FA−<$→A+(·)和FA<$→B(·)的加工后,会笑。 注意到我们只关心最终结果(d)的质量,而不是中间结果(b)和(c),因为用户看不到(b)和(c)。(i.e.、微笑的猫)阻止我们直接学习重建器网络FA→B(·)。请注意,我们作为-A−→A+(·)已经训练好了,它的权重在整个优化过程中都是固定对抗性损失我们使用对抗性损失来强制FB<$→A(·)将域B的图像转换到域A。这里采用LSGAN[27],其公式为:FB−›→B+(·)。然而,我们学习了一对映射,最小L=E(||D(A)||) +E(||D(A)−1||),(1)函数FB <$→A(·)和FA<$→B(·)进行transla-D甘D2 2A(人的脸)和B(猫的 脸)之间的关系。在这种情况下,我们最终通过序列获得FB−<$→B+(·),minFB›→A LGAN=E(||D(A)−1||(2)、(2)FB <$→A(·)、FA−<$→A+(·)和FA<$→B(·)的叠加,即,FB−<$→B+(·)=FA<$→B(FA−<$→A+FB <$→A(·))。其中A∈A−,B∈B,A∈=FB›→A(B),E(·)表示这首先将一张中性的猫脸变成了一张人类的脸,然后用基本模型FA−<$→A+改变它的表达式,最后把它变换回猫面。这里,FB<$→A(·)可以被视为像[14]那样的像素级自适应它将无效的输入样本转换为有效的输入样本,使得y可以 由 FA−<$→A+ ( · ) 处 理 。 另 一 方 面 , FA<$→B(·)将FA−<$→A+(·)产生的非tar g et输出转换为targ et输出。FB <$→A( ·)和FA<$→B ( ·)的 训 练 不是简单的。我们的第一次尝试是使用CycleGAN[4 4]来训练FB<$→A(·)和FA<$→B(·)。但由 于 种 种 原 因 , 其效果并不令人满意. 首先,FB <$→A(·)可能无法将B−(中性猫脸)的样本转换为完全匹配A−(中性猫脸)。tral humanfaces)。 在这种情况下,FA−→A+(·)不能很好地工作,因为FB→ A(B)在其有效输入域之外。这示于图 第1行中的2-人脸的表情没有改变。第二,即使当FA−<$$> →A+(FB<$→A(·))为corr-5277计算一个批次的平均值,D(·)是由神经网络参数化的参数。谱归一化[28]的结论在D ( ·)中得到了采纳。这使A变为FA−<$→A+(·)的有效输入。人们可能会担心,需要另一个对抗性损失来训练FA<$→B(·),以便其输出域被约束为B。虽然这是双向通信中的常见做法,I2I模型[44,21,23],我们不包括这种损失,因为缺乏B+。我们发现这种损失阻碍了我们的模型修改目标属性。在实践中,由于最小最大公式,优化对抗损失(1)并不容易。 当FB<$→A(·)没有被完全优化时,它可能不会产生到FA−<$→A+(·)的有效输入。为了解决这个问题,我们提出了一个示例,强制执行FB <$→A( ·)来生成可以由FA−<$→A+( ·)有效处理的样本,公式为:正确地,我们发现FA›→B(·)awaysproducessamplesminFB›→A LADA=E[−log(C(A+))],(3)5278−ˆ其 中 A+=FA−<$→A+ ( A) =FA−<$→A+ ( FB <$→A(B)),C(·)是一个将A−映射到0,A+映射到1的分类网。 与FA−<$→A+(·)类似,C(·)使用A进行预训练,并在优化过程中保持固定。这里的想法是强制FB<$→A ( ·)以产生其tar get属性可以被FA−<$→A+(·)成功转换的样本。请注意,LGAN和LADA协同工作,以鼓励FB <$→A( ·) 映 射 到 FA−<$→A+( ·) 的 有效 输 入域 。LGAN在样本层指导训练,鼓励FB<$→ A(B)与A的样本无法区分;而LADA在模型层监督FB<$→ A(B),使其自适应地适应预先训练的网络FA−<$→A+(·)。因此,FA−<$→A+(·)可以将FB <$→ A(B)的属性从“−”转换为“+“。重构损失由于FA<$→B ( ·)被期望为FB <$→A(·)的逆函数,因此我们将重构损失表示为cop y(A+−A−)到B,这可能看起来是人为的,因为大多数语义属性的变化在这个空间中实际上是非线性的。Bengio等人 [3]表明,经过良好训练的CNN可以将自然图像展开到语义变化变为线性的空间。以下工作[5,39]还表明,可以通过在ImageNet预训练的深度特征空间中进行线性插值来实现高级属性更改。这表明,通过查看大量图像,深度神经网络可以将自然图像展开到一个空间中,在这个空间中,许多语义变化是线性的,并且Eq.(5)基本上是真的。我们遵循[5 ,39]的设置并使用 VGG-19 [ 34 ]的ReLU 3 1,ReLU 4 1和ReLU 5 1特征来形成Φ(·)。在我们的实验中效果很好。我们亦相信有可能为若干特定专长寻找╱学习其他空间,并将于未来工作中探索。由于A和B具有不同的在某些情况下,Φ(B)和Φ(A)也可以从分布域中得到。minFB›→A,FA ›→BLrec=E[||FA<$→B(A<$)−B||1]、(4)动作移位。我们通过引入特定于域的批处理规范化来解决这个问题[4],即,其 中 A<$=FB<$→A ( B ) 。This loss enforcesFB›→A(B) to be invertible with FA›→B(·), as required inour model. 它还提供了FB <$→A( ·)的正则化,使FB<$→A(B)Φ(B)i=Φ(B)B我i,Φ(B+)i=Φ(B+)i乙、我(六)语义上与B相关。感知类比损失注意Lrec 只是,并不意味着,Φ(A)i=Φ(A)i一我、Φ(A)+)i=Φ(A+)iA、我FB <$→A(·)和FA<$→B(·)的关系模型。其中Φ(·)i表示Φ(·)的第i个通道。σA和σB它只会鼓励F我我(A)=B,这并不意味着A›→B层FA<$→B(A<$+) =B+,其中B+表示期望的B的翻译版本。因此,有必要明确地建模A<$+和B+之间的关系,以确保FA<$→B(A<$+)导致正确的结果。这是具有挑战性的,因为B+在培训期间不可用。受图像类比的启发[12],我们提出了一种虚拟类比损失分别是Φ(A)i和Φ(B)i它们是通过移动平均方案计算的注意我们不对平均值进行归一化,因为它们可以在等式中删除。(五)、尽管它的简单性,这种归一化方案可以在很大程度上提高我们的模型的质量。我们还尝试了其他标准化,包括批次美白[33]和珊瑚[35]。它们不会导致显著的改进,尽管需要花费大量的计算。FB <$→A和FA <$→B的最终损失函数为minFB›→A,FA ›→BLP A=E|| VB−αVA||1]、(5)LFB<$→A =λGAN LGAN+ LADA+ Lrec+ LPA,其中VB=Φ(B<$+)−Φ(B<$),VA=Φ(A<$+)−Φ(A<$),B<$+=FB <$→A(A<$+)。Φ(·)是编码图像语义信息的 潜 在空 间,α 是放大或 缩 小 ( Φ(A+)-Φ(A))尺度的标量。合理的是下面这张。A在B上,B+和B之间的关系被认为类似于A+和A之间的关系。请注意,重新-这里的Lation表示为潜在空间Φ(·)中的线性差。基本假设是Φ(·)将图像展开到一个目标流形上,其中目标属性的变化变为线性。选择Φ(·)隐空间Φ(·)在我们的模型中起着重要的作用。在极端情况下,如果Φ(·)是RGB空间,则优化LPA鼓励我们的模型简单地σσσσ5279LFA›→ B=Lrec+LPA,(7)其中λGAN设置为0.1,交叉验证。3.3. 处理多个目标域注意,当目标图像来自一个域时,上述解决方案效果最好。如果目标图像来自具有高度不同外观的不同域(例如,油画、素描和猫,如图3(a)所示,以上模型可能会失败。这是因为FB›→A(·)可以将不同风格的目标图像映射到一个酉域上A,它倾向于抑制原始样式信息。这就给重建FA→B(·)造成了困难,因为这一阶段需要风格信息5280我我我风格特征(b)风格网(a) 输入(c)适配器(d)I2I模型(e)重构器(f)输出图3.我们的框架的说明。(a)是输入图像。(b)是风格网络S(·)。它提取样式特征,控制重建器网络FA→B(·)中AdaIN层的afne参数。(c)是适配器网络FB <$→ A(·),其将目标图像适配到基础I2 I模型的有效输入域。(d)是基本I2 I模型FA−<$→A+(·),它将神经表达图像映射到(e)是重建网络FA<$→B(·)。(f)包含通过转换目标图像的属性得到的结果。请注意,即使四个输入图像具有不同的风格/类别,目标属性仍然被成功修改。为 了 解决 这 个 问 题, 我 们 还 结 合了 样 式 网 络 S(·),它将输入的图像映射到样式特征,这是一个1×1×c向量。然后,我们在FA<$→B(·)的每个卷积层之后添加一个自适应实例归一化(AdaIN)[16]层(输出层除外)。控制这些AdaIN层的aff参数这一风格特征。具体来说,对于第i个卷积层,AdaIN层的工作原理如下:xi−µ(xi)Separation of training and testing sets follows the settingof [25].对于风格化领域,训练过程中只涉及具有负标签的样本;而对于原始图像域A,所有训练样本都被合并。因此,模型在训练过程中看不到任何积极标签的风格化图像。在我们的实验中,我们使用属性评价我们介绍翻译的准确性(1)A(1)A(2)A(σ(x))+βS(xi),(8)(ACC)来量化模型将目标样本的标签从“-”修改为“+"的有效性其中xi和yi表示AdaIN的输入和输出层,µ(xi)和σ(xi)表示xi1ΣN在空间维度上,γS(xi)和βS(xi)参数-ACC= NCB(B+),(9)的AdaIN层,这是实现线性投影S(xi)以匹配xi的通道号。这种风格特征提取-自适应方案为FA→B(·)提供了一条 访问风格信息的跳过路径。这样,就可以实现体面的重建。在我们的补充材料中,我们将学习的风格特征可视化,这表明它捕获了输入图像。整个框架如图所示。3 .第三章。4. 实验4.1. 消融研究我们首先对框架中的每个组成部分进行定量评估。CelebA [25]包含20万个名人图像,每个图像有40个属性标签。我们使用这些图像来形成域A。每个属性都可以用来将A分为A-和A+。为了形成域B,我们使用[18]1的方法生成四个程式化版本。1我们使用来自https://github.com/pytorch/examples/tree/master/fast_neural_style的实现,它为不同的风格提供了4个预训练模型,包括candy,mosaic,udnie和rain-princess。i=1其中N是测试样本的数量,B+是第i个生成的样本。 CB( ·)是一个 在风格化图像上训练的分类器,对于“+“输出1,对于“−"输出0。除了修改目标属性之外,模型还应该不会对输入样本引入太多干扰。因此,我们还使用Frchet Inception Distance(FID)[13]来衡量生成图像的质量。FID评分区分生成的样品和真实样品。它们对各种干扰都很敏感,如噪声、模糊环和漩涡.每个组件的有效性我们使用上述程式化的CelebA数据集方程中的α(5)被设置为1,其影响将在后面讨论。表1通过消融我们模型中的每个组件比较ACC和FID。第1列(这不会产生高质量的结果。我们的方法(5281属性度量碱I2I不含LADA无L记录不含LPA不含BN不含AdaINDAI2I微笑ACC(%)15.30.287.915.392.495.396.1FID56.610.841.956.641.418.514.9小眼睛的ACC(%)53.42.677.277.247.780.580.1FID130.77.372.850.17.911.38.6胡子ACC(%)12.11.675.968.452.596.296.9FID178.916.726.488.114.615.214.2张着嘴ACC(%)88.31.831.737.451.090.190.3FID65.78.425.949.96.07.46.2表1.用程式化的CelebA数据评估我们的方法“Base I2I”意味着将StarGAN应用于风格化图像,这是基线。第2列(“w/o LADA“)-第6列(“DAI 2 I“)报告了我们的框架在域B上的变体的性能。“w/o L ADA“、“w/o L rec“和“w/o L PA“表示消融方程 (3)、(4)和(5),同时保持其他部分完整。“无BN”意味着去除等式中的分布校准。(六)、 最后,DAI2I表示我们的最终完整模型。对于每一行,最佳结果用红色标记。我们的模型,因为它提供了有用的正则化FA›→B(·)和FB <$→A(·)。丢弃第节中介绍的AdaIN3.3降低性能。最后,去除LGAN使得这个模型完全失败了。在方程中α的影响(5),α用于控制(Φ(A+)−Φ(A))的标度。 较大的α放大了Φ(A+)和Φ(A)的差异,并使效应更强。 然而,由于FA−<$→A+(·)可能不是完美的,它可能会引入细微的伪影,当α增加时,伪影可能会放大。这示于图4.第一章当α太大时,可能出现不期望的结构。4.2. 与其他方法4.2.1跨域表达式操作(a) 输入(b)α= 1(c)α= 2(d)α= 3图4.对程式化CelebA数据使用不同α的结果。1-4对应于微笑,小眼睛,胡子和嘴巴张开。更高的ACC和更低的FID分数。请注意,LADA、Lrec、LPA和分布校准(公式(6))在我们的DAI 2 I模型中都很重要;禁用每一个都会导致性能下降。例如,没有LADA,ACC显著降低,DAI2I模型无法改变任何东西,因为FB<$→A(·)没有将输入图像映射到I2 I模型的有效集合。因此这目标属性不能被成功地翻译移除LPA会导致FID和ACC下降。这表明感知类比损失不仅引导模型修改B的目标属性,而且防止了错 误 的 改 变 。 我 们 还 烧 蚀 了 分 布 校 准 ( “w/oBN”),这也会导致性能下降。 这表明感知类比损失在对齐良好的深度特征上效果更好。Lrec也适用于5282在本节中,我们将展示我们的框架可以处理不同真实世界数据上的跨域表达式操作。RaFD [20]是一个人脸数据集,包含67个人,显示8种表情,包括一种“中性”表情和7种其他情绪表情。该数据集用作源域A。The “neutral” expression forms 另外三个数据集用作主数据集B,包括草图数据集、油画数据集和猫脸数据集。草图数据集[41]包含187张图像(128张用于训练,59张用于测试)。油画数据集[21]包含1,664张图像(1,572张用于训练,92张用于测试)。猫脸数据集[21]包含870张图像(770张用于训练,100张用于测试)。这三个目标数据集的表达没有偏差,因此被视为我们使用RaFD [20]训练的StarGAN模型[8]作为我们的基础I2I模型。然后,我们训练一个统一的DAI2I,它将基础I2I模型用于素描、油画和猫脸。结果和分析我们首先将我们的DAI2I与基础I2I模型StarGAN进行比较。如图5.直接应用在RaFD上训练的StarGAN不会导致域外样本的满意结果。在大多数情况下,StarGAN无法正确修改目标属性,5283数据集方法快乐生气伤心轻蔑厌恶恐惧惊讶整体草图碱I2I(%)63.621.921.428.99.014.33.826.3DAI2I(%)99.382.259.277.272.237.353.068.7绘画碱I2I(%)48.726.530.130.321.915.534.530.7DAI2I(%)93.533.854.055.049.631.265.455.1猫碱I2I(%)7.216.616.422.04.510.912.722.9DAI2I(%)74.844.932.227.528.021.958.343.0表2.对每个属性进行表情识别测试。每列对应一个目标属性。每个条目报告所选属性与目标属性一致的百分比。更好的一个用红色标记。数据集快乐生气伤心轻蔑厌恶恐惧惊讶整体草图92.994.488.586.389.688.387.589.8绘画84.376.882.677.678.380.376.779.7猫69.986.592.484.074.182.079.381.0表3.各属性的质量比较试验每列对应一个目标属性。每个条目报告了受试者首选我们方法的百分比所有条目均大于50%,表明我们的结果始终受到受试者的青睐但引入了强伪像。相比之下,我们的DAI2I模型成功地修改了目标属性,而没有带来太多无关的变化。更多的结果在我们的补充材料中提供。除了视觉对比,我们还对亚马逊土耳其机器人进行了用户研究,包括表情识别和质量对比测试。表2-3中的每一组都是通过2,500次比较计算出来的。在表情识别测试中,给定一个编辑过的图像,要求受试者从7个可能的候选表情中选择最匹配的表情在表2中,我们报告了所选表达式与预期相同的百分比。在质量比较测试中,受试者将获得一张原始图像和两张编辑后的图像(我们的图像与StarGAN)的相同身份和相同的目标表达,并被要求选择一个具有更好的质量。表3报告了我们的方法被选择的百分比。它表明,我们的方法在很大程度上优于基本的I2I模型(StarGAN),并体现了我们的模型在此任务中的有用性。4.2.2跨领域新视图合成给定单个2D图像,新视图合成的目标最近的工作[37]表明它可以被公式化为I2I问题。在本节中,我们将展示我们的框架也可以处理跨域样本。数据集和设置Multi-PIE [10]包含13个水平相机姿势下的337个个人,间隔为15毫秒该数据集用作A。我们将正面视图视为A−,将-30、-15、15和30视 图视为A+。为了评估跨域性能,我们使用上面描述的草图[41]和油画[21]数据集作为B。注意只有正面视图中的图像用于训练和测试。使用Multi-PIE训练的CRGAN [37]用作我们的基本I2I模型。我们将我们的DAI2I与两种相关方法进行比较,即,[37]第38话,结果与分析如图所示。6(第2行和第3行),CRGAN[37]和DRGAN [38]在直接应用于素描和油画图像时表现不佳。虽然他们成功地合成了目标视图的人脸照片,但颜色,照明和风格与输入图像不同相比之下,我们的模型合成草图和油画照片,而不会错误地改变其他因素。这体现了我们的方法在以素描的形式创造新的观点,即使没有看到任何非正面的素描/油画图像的强大能力。5. 局限性和结论我们在引言中已经说明,我们的框架是基于这样的假设,即源域和目标域的图像可以双向转换,并且源域中的属性变化可以在特定的潜在空间中转移违反它可能会产生不太令人满意的结果。例如,不建议在第4.2.2节中用猫脸数据集替换草图数据集,因为2D人脸的视点变化不能很好地推广猫脸。给出了一个在特定领域训练的图像到图像的翻译模型,提出了一个通用的框架,使其适应新的领域。一方面,这扩展了现有模型的适用性,允许许多有趣的应用。另一方面,它也展示了神经网络生成看起来不像训练数据的新图像的方法。这是通过将一个领域与另一个领域的关系进行概括来实现的,它模拟了人类如何通过类比来创造新的艺术大量的实验表明,我们的框架与不同的I2I模型,在很大程度上提高了他们的性能看不见的目标域。5284输入快乐愤怒悲伤轻蔑第1113章惊慌害怕惊讶图5.跨域表达操作的结果第1行示出了将StarGAN应用于RaFD图像以供参考的域内示例第2 - 3、4 - 5和6 - 7节分别介绍了草图[41]、油画[21]和猫脸[21]上的跨域表达操纵。Input−30<$−15<$0<$15 <$30<$Input−30<$−15 <$0 <$15<$30<$Figure 6. 草图图像(左)和油画图像(右)上的跨域新视图合成结果第一行是我们的结果。第二行和第三行是将在Multi-PIE [10]上训练的CRGAN和DRGAN直接应用于目标图像的结果。DRGANCRGAN我们StarGAN我们StarGAN我们StarGAN我们StarGAN5285引用[1] Connelly Barnes,Fang-Lue Zhang,Liming Lou,XianWu,and Shi-Min Hu.Patchtable:针对大型数据集和应用程序的高效补丁查询Siggraph,2015. 2[2] Sagie Benaim和Lior Wolf。一次性无监督跨域翻译。在神经信息处理系统,2018年。2[3] YoshuaBengio , Gre'goireMesnil , YannDauphin 和SalahRifai。通过深度表示更好地混合。在2013年国际机器学习会议上。4[4] 法比奥·玛丽亚·卡卢奇,洛伦佐·波尔齐,芭芭拉·卡普托,埃莉萨·里奇和塞缪尔·罗塔·布尔。Justdial:用于无监督域自适应的域对齐图像分析与处理国际会议,2017年。4[5] Ying-Cong Chen , Huijia Lin , Ruiyu Li , Xin Tao ,Michelle Shu,Yanang Ye,Xiaoyong Shen,and JiayaJia. Facelet-银行快速人像处理。在IEEE计算机视觉和模式识别会议上,2018。4[6] Ying-Cong Chen , Xiaogang Xu , Zhuotao Tian , andJiaya Jia.用于不成对图像到图像平移的同态潜空间插值在CVPR,2019年。2[7] 李成,SV N Vishwanathan,张新华。使用半监督学习的一致图像类比。在IEEE计算机视觉和模式识别会议上,2008年。2[8] Yunjey Choi , Minje Choi , and Munyoung Kim.Stargan:用于多域图像到图像翻译的统一生成对抗网络。在IEEE计算机视觉和模式识别会议上,2018年。一、二、六[9] 龚伯青,克里斯汀·格劳曼,费莎。用地标连接点:判别式学习领域不变特征,用于无监督领域自适应。在2013年国际机器学习会议上。2[10] Ralph Gross 、 Iain Matthews 、 Jeffrey Cohn 、 TakeoKanade和Simon Baker。多派图像和视觉计算,2010年。七、八[11] Anant Gupta , Srivas Venkatesh , Sumit Chopra 和Christian Ledig。用于骨病变病理学数据增强的生成图像翻译arXiv电子印刷品,2019年。1[12] Aaron Hertzmann 、 Charles E Jacobs 、 Nuria Oliver 、Brian Curless和David H Salesin。形象类比。2001年第28届计算机图形学与交互技术年会论文集。二、四[13] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。在神经信息处理系统的进展,2017年。5[14] Judy Hoffman 、 Eric Tzeng 、 Taesung Park 、 Jun-YanZhu、Phillip Isola、Kate Saenko、Alexei Efros和TrevorDarrell。苏铁:周期一致的对抗域适应。2018年国际机器学习会议。一、二、三[15] 黄嘉源,阿瑟·格雷顿,卡斯滕·博格沃特,伯恩-哈德·肖尔克奥普夫,和艾尔·斯莫拉. 用未标记数据校正样本选择神经信息处理系统的进展,2007年。2[16] Xun Huang和Serge Belongie。 任意风格转换 以自适应实例规范化实时执行。2017年在IEEE计算机视觉和模式识别会议上发表。5[17] Xun Huang , Ming-Yu Liu , Serge Belongie , and JanKautz.多模态无监督图像到图像翻译。2018年欧洲计算机视觉会议。2[18] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。2016年欧洲计算机视觉会议。5[19] Taeksoo Kim、Moonsu Cha、Hyunsoo Kim、Jung KwonLee和Jiwon Kim。学习发现跨域关系与生成对抗网络。在2017年的机器学习国际会议上。2[20] Oliver Langner、Ron Dotsch、Gijsbert Bijlstra、DanielHJ Wigboldus、Skyler T Hawk和AD Van Knippenberg。Radboud人脸数据库的实现与验证。认知与情感,2010年。6[21] 李欣英、曾鸿宇、黄佳斌、曼尼什·辛格和杨明轩。通过解纠缠的表示进行不同的图像到图像的翻译。在欧洲计算机视觉会议(ECCV)的会议记录中,第35-51页,2018年。一二三六七八[22] Jing Liao,Yuan Yao,Lu Yuan,Gang Hua,and SingBing Kang.通过深层意象类比实现视觉属性转移。ACM Transactions on Graphics,2017。2[23] Ming-Yu Liu,Thomas Breuel,and Jan Kautz.无监督图像到图像翻译网络。神经信息处理系统进展,第700-708页,2017年一、二、三[24] Ming-Yu Liu,Xun Huang,Arun Mallya,Tero Karras,Timo Aila,Jaakko Lehtinen,and Jan Kautz.很少拍摄的无监督图像到图像的转换。arXiv电子印刷品,2019年。2[25] Ziwei Liu , Ping Luo , Xiaogang Wang , and XiaoouTang.在野外深度学习人脸属性。在2015年IEEE国际计算机视觉会议上。5[26] Mingsheng Long , Yue Cao , Jianmin Wang , andMichael I Jordan.使用深度适应网络学习可转移特征。在2015年的国际机器学习会议上。2[27] Xudong Mao , Qing Li , Haoran Xie , Raymond YKLau,Zhen Wang,and Stephen Paul Smolley.最小二乘生成对抗网络。IEEE计算机视觉和模式识别会议,2017年。3[28] Takeru Miyato,Toshiki Kataoka,Masanori Koyama,and Yuichi Yoshida.生成式对抗网络的谱归一化。在2018年国际学习代表会议上3[29] Zak Murez、Soheil Kolouri、David Kriegman、Ravi Ra-mamoorth
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功