没有合适的资源?快使用搜索试试~ 我知道了~
1语义统计不匹配数据的语义鲁棒不成对图像翻译贾志伟1* 袁博娣2* 王康康2吴红2大卫·克利福德2袁志强2郝苏11UC San Diego{zjia,haosu}@ eng.ucsd.edu2X{bodiyuan,kangkang,wuh,davidclifford,zyuan}@ google.com摘要非成对图像到图像翻译的许多应用要求在翻译期间在语义上保留输入内容由于不知道源域和目标域之间固有地不匹配的语义分布基于GAN的)可以给出不期望的解决方案。特别是,虽然产生视觉上合理的输出,学习模型通常翻转输入的语义。为了在不使用额外监督的情况下解决这个问题,我们建议强制翻译输出在语义上是不变的。输入的小的感知变化,我们称之为“语义鲁棒性”的特性通过优化鲁棒性损失w.r.t.多尺度特征空间扰动的输入,我们的方法有效地减少语义翻转,并产生翻译,优于现有的方法在定量和定性。1. 介绍最近,不成对的图像到图像翻译[11]在计算机视觉社区中非常流行。由于其对输入(从不同域收集的未标记图像)的一般假设和训练数据的容易获得性(不使用配对图像),它被广泛地用于诸如图像处理、样式转移、域适应、数据增强等领域。[13、58、43、22、28、9、30、41、45、2]。另一方面,在一项研究中,不成对图像翻译由于其无监督学习性质而仍然是非常具有挑战性的任务。在没有指定精确域映射的成对图像的情况下,必须依赖于视觉线索来执行分布匹配(即,via GANs [16])。 现有的基于GAN的方法都依赖于对抗性损失,旨在最佳地对齐翻译图像和目标图像之间的图像统计(在* 共同第一作者;在X实习期间完成的部分工作。代码可在https://github.com/SeanJia/SRUNIT获得。图1:GTA与城市景观。在不成对的图像翻译期间,生成器必须翻转输入的语义以匹配目标分布。来自源域中过度表示的语义类的实例天空)可以被翻转为来自代表不足类的那些(例如,植被)。图2:(顶部)从概念上讲,强制翻译图像的分布与目标图像匹配会导致输入图像的语义(不同颜色的形状)被翻转。(底部)从GTA到Cityscapes任务的语义翻转(在红色框中突出显示)的示例。边际意义)。但是,如果这两个分布不应该是相同的呢?事实上,这两个领域的语义分布通常是不同的,更不用说翻译图像和目标图像的图像分布了。我们称之为不匹配的语义统计问题,这是根据探索,但关键和共同的不成对的图像翻译任务。1427314274与语言翻译类似,图像的语义应该在翻译期间被保留。例如,在GTA到Cityscapes数据集[12]中,虽然树在不同领域中看起来不同,但它们的身份/语义保持相同。在马到斑马的任务[11]中,马或斑马仍然是马类,而不是变成棚屋。将翻译视为两个阶段的过程:首先将图像从一个域投影到共享语义空间,然后将其投影到另一个域。当源图像和目标图像被投影到相同的语义空间并且在该空间中具有不同的分布时,我们说数据具有不匹配的语义统计。来自不同领域的不成对数据通常具有不匹配的语义统计,除非它们被非常仔细地构造。例如,在Horse to Zebra数据集中,斑马比马多;在GTA to Cityscapes数据集中,Cityscapes中的树比GTA中的树多(见图1)。①的人。给定不匹配的语义统计,强制匹配翻译图像和目标图像之间的分布只能给出虚假的解决方案,其中语义被翻转仅以匹配目标语义统计(参见图2的示例)。节中5,我们证明了语义翻转是各种基于GAN的不成对图像翻译框架中的关键和常见问题。有一些直接的尝试在翻译过程中保留语义,从而减少翻转。然而,它们要么需要额外的监督或预先训练的模型[22,51],要么限制太多(特定于数据集)并且容易产生伪影[7,60,56]。 本文提出 通过鼓励在图像翻译期间,感知上相似的内容应当被映射到具有高语义相似性的内容来解决该问题。 我们称这种映射的属性为语义鲁棒性。本质上,语义鲁棒性确保了一致的映射,防止输入的语义被轻易地翻转。具体地,基于最近提出的框架CUT [40],我们提出了语义鲁棒性损失w.r. t。输入图像的多尺度特征空间扰动。我们称我们的方法SRUNIT(Semantically鲁棒不成对图像翻译)和经验证明其有效性,减少语义翻转。SRUNIT在几个常见数据集上的定性和定量性能2. 相关工作尽管缺乏逐像素的监督,但通过利用生成对抗网络(GAN),在不成对的图像到图像翻译方面已经取得了进展[16]。中心思想是通过更新生成器来最小化生成图像和目标图像之间的统计差异(使用判别器测量)。这些方法大致可以分为双侧方法,如[32,62,29]和单侧方法。如[24,34,35]。在图像翻译中保持语义最近,已经在不成对图像翻译期间保持源图像的语义内容方面做出了努力。存在几种现有的方法。循环一致性[62]被提出来强制域之间的双射映射,使得语义信息在翻译过程中不会丢失。几何一致性[15]强制关于几何变换的生成器的等变性。DistanceGAN [7]和HarmonicGAN [60]鼓励源域内的视觉相似性在目标域中反映。在[56]中提出了基于输入图像的傅里叶变换的频谱约束。基于注意力的方法[37,52]用于在翻译期间保留背景。此外,多项工作[51,8,46,33,40]采用了输入和输出图像应该相似的想法,通过预定义或对比学习的函数进行测量DNN的鲁棒性泛化本文讨论的语义鲁棒性和语义翻转与对抗鲁棒性和泛化能力有关。一些工作已经解决了GANs的对抗鲁棒性[11,6,54]。[59,53,3]中的一些研究了它们的推广性质。在更广泛的背景下,对抗性攻击和防御都已被广泛研究[48,19,23,50,49,42,17,1],并且最近在理解DNN的可推广性方面取得了许多进展[38,47,55,5,61,14,4,27,26]。3. 语义鲁棒性非配对图像翻译的许多应用(风格转移,域适应,数据增强[22,28,2])需要在翻译期间保留输入的语义。在本节中,我们将讨论语义翻转问题和语义鲁棒性的概念。3.1. 不匹配语义统计信息大多数现有的方法不成对的图像到图像的翻译没有明确地研究跨源和目标域的语义的不匹配的分布。这种在非配对翻译任务中普遍存在的现象通常会导致严重的伪像(见图11)。2底行)。首先,让我们定义一下术语。当将图像从一个域翻译到另一个域时,很自然地假设中间语义空间,其中驻留有在翻译期间要保留的信息。当将图像从域转换到共享语义空间时,我们将该空间中的结果分布称为语义分布。由于未配对图像翻译任务的性质,其中缺少对配对关系的直接监督,我们应该假设未配对数据14275来自不同域的文本具有不同的语义分布(即,不匹配的语义统计)。大多数广泛可用的数据集都属于这一类别(例如,GTA [44]和Cityscapes [12]之间不匹配的语义统计见图1少数例外是那些最初被构造用于成对翻译的(例如,地图到照片[25])。3.2. 语义翻转问题我们认为,提供了不匹配的语义统计之间的源和目标域,一个固有的问题,基于GAN的不成对的图像翻译框架是语义翻转问题。基于GAN的方法的中心思想是尽可能多地匹配翻译图像和目标图像之间的图像统计。用于评估翻译性能的多个度量遵循这一原则,即:它们测量生成图像和目标图像之间的某种统计距离(FID、MMD等)。[21、18])。这实际上是有问题的,因为所生成的和目标分布不应该是相同的,假设源和目标域在语义统计中具有差异。我们观察到,通过现有方法学习的翻译模型通常是不期望的解决方案(例如,图2底行),其虽然产生视觉上合理的输出,但系统地将内容翻转成其它语义。这是因为只有通过语义翻转,生成器才能产生与目标域的统计数据相匹配的图像(见图11)。1作为该过程的说明)。3.3. 现有方法大多数现有的未配对图像翻译框架没有明确地解决语义翻转问题,并且事实上,遭受语义翻转问题(在第12节中以经验证明)。(五)。对于双边域映射方法,循环一致性[62]是建议使用双射(并且因此信息保留)映射的最流行的技术。然而,正如[11]中所指出的,CycleGAN可以学习在显而易见的情况下隐藏信息,使得语义翻转仍然发生,同时在翻译期间保留信息。单侧域映射方法直接对生成器构成约束以保留有意义的信息。GcGAN [15]提出了几何一致性,以强制平移函数与相对于常见的几何变换然而,具有语义翻转的伪解也可以是等变的。另一种工作是在输入和输出图像(或图像块)之间强制某种关系,例如,通过感知相似性或统计依赖性[33,40]。由于这些方法具有无监督地学习的它们的对应性(例如,相反地),其不准确性可能导致具有更多语义翻转(或伪像)的虚假实施。或者,[56]使用频谱约束来维护语义。的方法一般来说可能失败,并且仅在视觉上相似的域中的翻译任务中显示出成功虽然具有真实感知相似性的方法可以减少语义翻转[22,51],但它们需要额外的监督或预训练模型,这些模型不适用于一般的未配对图像翻译任务。3.4. 语义鲁棒性的拯救除了直接执行输入和输出图像之间的关系之外,我们建议鼓励输入图像(或补丁)的小感知变化不应改变对应的变换图像(或补丁)的语义我们称这种属性的生成器作为语义鲁棒性。注意,图像(或块)之间的感知相似性是指在特征空间中测量的距离图像的CNN特征),而不是在原始像素空间中我们认为,增加生成器的语义鲁棒性可以有效地减少翻译过程中的语义翻转。直观地,输入图像(或补丁)应该在小的感知扰动下具有其语义不变,并且因此,对应的翻译图像(或补丁)的语义也应该是不变的。请记住,语义翻转发生在生成器被迫通过将语义上过度表示的内容从源域转换为较少表示的内容来匹配目标统计数据时(见图11)。①的人。语义鲁棒性鼓励一致的翻译,使得相同语义的内容不会转换成若干不同语义的内容。因此,它防止了强有力的分布匹配,并减轻了翻转问题。我们首先如何从图像中获得语义在不依赖于额外监督或预训练模型的情况下,对比学习方法(例如,[40])可以学习提取域不变的特征,我们将其视为输入的语义。人们可能会发现直接强制转换不应改变输入的这些“语义”以减少语义翻转是直观的然而,这种直接方法效果不佳(参见我们的消融研究,第2节)。(六)。有趣的是,这些提取的语义可以用于通过替代地实施语义鲁棒性(即,翻译图像的语义对于输入的感知变化是不变的这部分地是因为后一间接约束是前一直接约束的所提取的语义的不准确性是通过对比学习的。4. 方法4.1. 初步:切割不成对图像到图像翻译的目标是在给定训练的情况下学习两个域X和Y14276i=1j=11转联系我们L联系我们11GGL我--11Kk=1KXK||τk||21对比学习 它利用InfoNCE损失[39]来学习exp(v·v+/τ)+ΣNexp.v·v−n/τΣL111X1K1ΣGGΣLΣ¨G−GG1K11K12从pX(x)采样的样本{xi}N,{yj}M(j − i)G的分量。例如,G(x)= GK+1(x)。pY(y)。最近,提出了几种单侧方法,其基本上学习生成器G:X Y和鉴别器DY,其旨在区分图像x和平移图像F(y)。 通常,训练目标由多个部分组成第一个是对抗性损失[16],方程。1,用于将生成图像的边缘分布与目标图像的边缘分布相LGAN(G,DY,X,Y)=EypY(y)[logDY(y)]+ExpX(x)[log(1−DY(G(x))](1)第二部分通常是限制一般的损失在翻译过程中使G颠倒所需的内容。为在CUT培训期间,在每个标度k一...... K(就像在CUT中一样,总共有K个尺度),消耗G k(生成器中的层)的输出的特征提取器F k由等式(1)学习。其中v、v−和v+是Fk的输出。优化Eqn. 2鼓励特征Fk(k(G(x)保持接近Fk(k(x))。我们考虑在我们的将语义鲁棒性概念视为G k的输出空间中的随机扰动,并且将F k的输出视为语义(通过等式2Fk提取域不变特征)。然后,我们提出通过最小化损失L 鲁 棒 性=1KLk来提高语义鲁棒性,其中例如,最近的国家的最先进的方法对比联合国配对翻译(CUT)[40]试图最大化mu-L=EΣ1 ¨F(Gk(x))−(3)输入和生成的输出之间的实际信息Fk(Gk(GK+1(Gk(x)+τk)))¨Σ嵌入,其将对应的片(在-放置和翻译的图像),同时如果不是这样则解除它们的关联。通过这样做,它学习编码器,提取输入图像在多个尺度上的域不变特征在每个尺度下,来自输入图像的一个位置处的特征(R256来自输入图像的是形式上,The对比损耗被设置为如下的(N+1)L. v,v+,v−Σ=(2)exp(v·v+/τ)τk指的是某种随机扰动。如图3,k测量在特征空间扰动下从输入图像提取的在尺度k处的语义与对应的翻译图像的语义之间的距离。我们可以看到,最小化k间接地加强了语义鲁棒性,这是“变换后的图像应该具有其语义对输入的小特征空间变化不变”的条件形式上,该条件可以通过以下方式测量:E1F(k(G(x)(4)||2||2Σ ΣFk(Gk(GK+1(Gk(x)+τk)¨n=1K 和方程四是密切相关的三角形-虽然鼓励语义对应之间的输入和输出图像,CUT仍然遭受语义翻转时,两个域具有不匹配的语义统计。这是因为对比学习的语义不够准确以确保跨域的成功然而,当与其他技术结合以提高语义鲁棒性时,这些语义提取器可以用于成功地减少语义翻转。4.2. 语义鲁棒的不成对图像翻译平等,因为通过对比学习(Eqn. (2)我们有Fk(k(G(x)保持接近Fk(k(x))。事实上,我们的方法比直接优化Eqn产生更好的翻译结果。4,因为后者可能损害平移的多样性(模式崩溃问题)。优化k可以被视为优化方程(1)的自适应版本。4,由Fk(k(G(x)和Fk(k(x))之间的距离调整。参见第6中的经验证据,详细讨论见附录。有人可能会问一个问题:为什么不直接最小化Fk(Gk(G(x)和Fk(Gk(x))之间的距离来强制操作(SRUNIT)我们的方法基于CUT [40]和我们在Sec. 三点四分。如示于图3中,在CUT中,从生成器G的前半部分中选择K个层(表示为G k),包括输入层 G1(单位函数)。加上网络的其余部分,记为GK+1,我们有一个G=GK+1◦GK◦···◦G1。我们...因此,定义Gj=Gj◦···◦Gi+1作为通过2-日志14277{L}语义保持翻译。这将使副本类似的,也有类似的,也有类似的,也有类似的。2)用于切割。我们在消融研究中显示(Sec. 6)这样做实际上会损害性能。此外,我们采用了基于补丁的方法,使x是指输入图像补丁。在实践中,可以选择在每次训练迭代中仅包括k的随机子集,以降低优化L鲁棒的计算复杂度。参见第5.3更多详情14278L图3:我们的方法通过使翻译输出的语义对输入的小特征空间变化保持不变来提高语义鲁棒性。绿色框中的内容举例说明了在一个特定尺度k下k的数据流。总共有K个这样的损失;每个层分别对应于生成器中的K个所选层之一。4.3. 相对于距离保持方法的优势我们的语义鲁棒性方法比距离保持方法(例如,DistanceGAN HarmonicGAN [7,60]),其旨在通过在变换期间保持相同样本的不同部分之间的距离来参见第6为实证结果。首先,假设不访问额外的监督或预训练的模型,在这一工作线中使用的距离基于图像像素,例如,原始像素或颜色直方图之间的(标准化)L1距离。与语义鲁棒性概念中使用的基于CNN特征的感知相似性相比,像素空间相似性度量对几何变换、光照条件的变化等更加敏感因此,它们通常不能捕获图像中的基本信息HarmonicGAN的作者提供了一个选项,可以使用来自预训练模型的CNN特征来测量视觉距离,这是特定于领域的,需要先验知识,使得这种方法具有限制性。我们的方法利用了对比学习的特点,既通用又有效。其次,距离保持方法的基本原理通常被违反,即,源域中的内容之间的可视距离在被翻译到目标域时改变。例如,在Cityscapes [12]的Label to Image任务中(即,将语义标签作为输入翻译到街景图像),相同语义的两个相同图像块不应被映射到视觉上相同的输出。强行保持这样的视觉距离会导致严重的人工制品,并损害翻译的多样性。相反,我们的方法鼓励输出在语义上相同,这仍然可以是多样化和高质量的。第三,我们的方法侧重于提高从源域w.r. t的翻译的鲁棒性。在所有方向上的特征空间扰动。然而,距离保持方法仅在w.r.t.在其它源图像的方向上(或者实际上,在来自相同源图像的其它块的方向上)的像素空间扰动。这使得我们的方法在减少语义翻转方面更加高效和有效。5. 实验在 本 节 中 , 我 们 演 示 了 我 们 的 方 法 ( 表 示 为SRUNIT)如何有效地减少语义翻转,并产生优于现有方法的翻译,定量和定性的几个流行的不成对的图像翻译任务。具体来说,我们将SRUNIT与CycleGAN[62],GcGAN [15],DRIT [31]和CUT进行了[40]。请注意,一些流行的数据集是为配对翻译任务而设计的,对于未配对的图像翻译并不太现实(它们允许跨域的完全对齐的语义统计)。因此,我们对它们进行子采样(这会加剧翻转问题),以便设置变得更加真实。5.1. 定量评价选择正确的度量标准来定量评估翻译性能是至关重要的,因为本文的重点FID和MMD [21,18]等流行指标3.2);因此,它们不合适,甚至可能在这里产生误导。而是14279×个×个×个×个图4:Label to Image和GTA to Cityscapes任务的可视化结果(分别为第一列和第二列)。列2的行2示出了真实值掩模,因为不存在这样的真实值图像。虽然没有完美地解决,语义翻转有效地减少了我们的方法(一些改进突出显示在红框中)。使用其中可获得地面实况转换结果的(部分)信息的数据集,并使用相应的度量进行评估。一些数据集(例如,航空照片到谷歌地图)直接提供地面实况对应,简化了翻译质量的评估。其他(La- bel to Image,GTA to Cityscapes等)没有这样的在这些数据集上,我们遵循常见的做法,根据预先训练的模型计算指标[11,15,40]。直觉是,模型(在源图像上训练)对目标图像的分类越准确,这些生成的图像就越好[25]。5.1.1Cityscapes标签→图像Cityscapes [12]是一个真实世界的图像数据集,用于对语义分割和图像翻译进行基准测试。数据集最初是为成对翻译而构建的。为了确保两个域之间的不匹配语义统计的合理水平,我们从RGB语义标签图像和街景图像中根据基于语义标签直方图的K-均值聚类结果对大约1500个图像进行每个图像的大小调整为512 256,在训练过程中,我们随机裁剪256 256块。结果,两个域具有不匹配的语义统计。我们使用Cityscapes中的我们使用三个指标(如[40])来提供对翻译质量的全面评估。它们是平均像素精度、类别精度(即,类别加权像素精度)和平均IoU(语义分割的默认度量)。这些指标是通过使用在Cityscapes语义分割任务上预训练的轻量级公开可用DeepLab V3 [10]模型计算的(有关详细信息,请参阅附录我们注意到,对于这些数据集,没有标准的预训练模型用于评估现有的工作(例如,CUT使用DRN [57],CycleGAN GcGAN使用FCN[36])。我们选择DeepLab V3是因为它的预训练模型是公开可用的,并且它通常是用于语义分割的更好模型。表1和图4表明,SRUNIT产生的结果比现有的方法更好的大幅度。所有详细信息见附录。5.1.2GTA →城市景观GTA5 [44]是另一个流行的数据集,包含来自游戏Grand Theft Auto 5的24966张合成图像。我们从GTA5中留出500张图像进行评估,并将剩余的图像与所有2975张Cityscapes图像(来自Cityscapes的精细标记训练集)一起与标签到图像任务类似,我们将所有图像调整为512 256,并随机裁剪256 256个补丁进行训练。的两个数据集具有完全不同的语义统计(如图2所示)。①的人。同样,我们使用DeepLab模型来计算这三个指标。表1中的定量结果和图2中的定性结果4证明了我们提出的SRUNIT的有效性。5.1.3谷歌地图→航拍照片Google Maps数据集[25]包含纽约市周围总共2194对(地图,航拍照片)图像,并广泛用于配对和未配对图像翻译[25,62,15]。该数据集分为1096对和1098对,分别用于训练集和测试集由于它最初是为成对图像平移而构建的,因此我们进行子采样14280×个|- - ||- - ||- -|×个L标签→图像GTA →城市景观地图→照片照片→地图方法pxAccclsAccMioupxAccclsAccMiouDist累积(δ1)Acc(δ2)Dist累积(δ1)累积(δ2)CycleGAN66.3627.2421.3166.3332.5323.8470.1628.6743.8823.0216.1132.65GcGAN65.3027.7821.4165.6232.3822.6471.4728.8743.4823.6215.0030.65DRIT72.7428.1322.0664.2832.1720.9970.8728.9743.5624.1913.9429.01切割75.0929.7023.4364.5932.1920.3570.2828.8644.0723.4416.2531.34SRUNIT(我们的)80.7033.9527.2367.2132.9722.6968.5530.4145.9123.0017.6732.78表1:针对任务测量的平均像素预测准确度(pxAcc)、平均类别预测准确度(clsAcc)、平均IoU(mIoU)、平均L2距离(Dist)和具有阈值的像素准确度(Acc)最佳参赛作品以粗体突出显示图5:在Photo to Map任务中,我们的方法有效地减少了语义翻转(在红框中突出显示)。地图图像和航空照片从训练集(约600从每个域),使有一个合理的数额之间的差异语义统计从两个集。我们通过对图像的颜色直方图进行K均值聚类来实现这一点(详见附录)。我们使用所有的1098测试集对进行评估。图像大小调整为256 - 256,以适应我们的比较中的所有方法。我们按照[15]通过平均像素L2距离(Dist)和像素准确度(%)来测量平移的质量,其中,gi是真实值piX elpi=(ri,gi,bi),并且预测p′i=(ri′,gi′,b′i),如果max(riri′,gigi′,bib′i)<δ和0:我们使用δ= 30,50作为航空照片的域具有大的多样性。表1和图5、表现清楚我们的方法优于现有的方法。5.1.4航拍→谷歌地图评估协议与上述类似,除了我们使用较小的δ=3,5,因为谷歌地图的域具有比其他域少得多的多样性。同样,表1和图5显示了我们方法的优势。5.2. 定性评价除了上述任务之外,我们还在以下三个流行的数据集上显示了更多的视觉结果(所有训练图像都调整为256 256)。 在图6中,我们证明了SRUNIT产生更好或相当的质量图像与其他人相比。由于缺乏真实翻译信息,无法定量测量我们的模型如何减少语义翻转。马→斑马一个著名的数据集分别由1067和1334张马和斑马的训练图像组成。这两个域具有不同的语义统计。夏季→冬季由CycleGAN的作者构建的优胜美地照片数据集。训练集由1231张夏季图像和962张冬季图像组成。同样,这两个域具有不同的语义统计。白天→夜晚[25,15]中使用的户外场景数据集。虽然原始数据集由成对图像组成,但我们对1418张白天图像和391张夜间图像进行了子采样,因此语义统计数据不同(详见附录)。5.3. 实现细节我们遵循CUT [40]选择网络架构和训练设置(学习率,epochs数量等)。 在Eqn. 3被独立地采样为由Gk产生的特征图的每个坐标的向量。我们首先将标准的多元高斯随机变量投影到单位球中,然后用它的在[10−7,T]中均匀采样的幅度,其中我们选择的默认值T为0。1(我们在[0. 010 2])。我们将鲁棒损失项的默认系数设置为10−4,并在[10−5,10−3]中对其 进 行微调。 默认情况下我们计算14281LL4LLL联系我们图6:三个数据集的视觉比较(马到斑马,夏季到冬季,白天到夜晚)。语义翻转(或者,一般来说,我们的方法比其他方法改进的地方)在红色框中突出显示更多样本见附录k(参见等式3)对于CUT论文中使用的所有5个特征提取器Fk。我们通过为每个变量保留一个k来我们发现所有这些超参数都相对稳健。优化鲁棒性可能会在对抗训练开始时导致训练不稳定;因此我们仅在完成总时期的1个有关完整的实施细节,请参见附录。6. 消融研究在这里,我们证明了我们提出的设计选择的se-mantic鲁棒性损失鲁棒性。我们在Label to Image数据集上执行所有以下实验,因为这是一项相对具有挑战性的任务。我们使用CUT作为主干(如SRUNIT中所用)。结果示于表2中。首先,我们展示了我们的方法的优势,距离保持方法(也见第二节)。4.3用于讨论)。我们通过将来自DistanceGAN [7]的自距离约束添加到CUT主干来训练表示为E1的模型,并通过以HarmonicGAN [60]的风格添加基于补丁的距离保持约束来训练表示为E2的模型(尽管不完全相同)。为了验证在鲁棒性中使用特征提取器Fk的必要性,我们通过移除对Eqn中的Fk的函数调用来3 .第三章。为了表明Eqn.3是方程n的更好的代理。4(如图所示)4.2),我们通过使用Eqn. 4而不是Eqn。3优化时的鲁棒性。我们训练模型E5以说明直接最小化输入的语义(由Fk提取)和输出的语义之间的距离不起作用(也参见第2节)。4.2讨论)。我们进一步表明,应用约束的鉴别器,而不是发电机是不是一个更好的方法来提高模型的语义鲁棒性我们通过在WGAN [20]的精神下在鉴别器上训练具有Lipschitz惩罚[20]的模型E6来做到这一点我们在附录中提供了全部细节。E1E2E3E4E5E6SRUNIT像素访问74.4675.3175.4276.3874.8676.2580.70clsAcc29.8430.1330.4331.1329.7930.9233.95Miou23.5223.8623.8924.7123.2223.5127.23表2:为我们在SRUNIT中的选择辩护的标签到图像任务的7. 结论在本文中,我们解决的语义翻转问题,不成对的图像翻译,这是其许多应用程序的关键。我们认为,固有的不匹配的语义分布在不同的领域应作出反应,提高语义的生成器的鲁棒性。我们这样做,提出了一个语义鲁棒性损失,强制翻译图像的语义是不变的感知扰动(特别是多尺度特征空间扰动)的输入。对多个数据集的定量和定性评估表明,我们的方法可以有效地减少现有基于GAN的方法所遭受的语义翻转。引用[1] Naveed Akhtar和Ajmal Mian。对抗性攻击对计算机视觉中深度学习的威胁:一个调查。IEEE Access,6:14410-14430,2018。二个14282[2] Antreas Antoniou,Amos Storkey,and Harrison Edwards.数 据 增 强 生 成 对 抗 网 络 。 arXiv 预 印 本 arXiv :1711.04340,2017。一、二[3] Sanjeev Arora,Rong Ge,Yingyu Liang,Tengyu Ma,and Yi Zhang.生成对抗网(GAN)中的泛化与均衡。arXiv预印本arXiv:1703.00573,2017。2[4] Sanjeev Arora 、 Rong Ge 、 Behnam Neyshabur 和 YiZhang。通过压缩方法获得深度网络的更强泛化界。在国际机器学习会议上,第254-263页,2018年。二个[5] Peter L Bartlett,Dylan J Foster,and Matus J Telgarsky.神经网络的谱归一化边界。神经信息处理系统进展,第6240-6249页,2017年。二个[6] Dina Bashkirova,Ben Usman,and Kate Saenko.周期一致gans的对抗性自我防御在神经信息处理系统的进展,第637-647页2[7] Sagie Benaim和Lior Wolf。单侧无监督的域映射。神经信息处理系统的进展,第752-762页,2017年。二、五、八[8] Konstantinos Bousmalis 、 Nathan Silberman 、 DavidDohan、Dumitru Erhan和Dilip Krishnan。无监督像素级域自适应生成对抗网络。在IEEE计算机视觉和模式识别会议论文集,第3722-3731页,2017年。二个[9] Konstantinos Bousmalis , George Trigeorgis , NathanSilber-man,Dilip Krishnan,and Dumitru Erhan.域分离网络。神经信息处理系统的进展,第343-351页,2016年一个[10] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv:1706.05587,2017. 六个[11] Casey Chu,Andrey Zhmoginov,and Mark Sandler. Cy-clegan隐写术大师。arXiv预印本arXiv:1712.02950,2017。一、二、三、六[12] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition,pages 3213二三五六[13] 克里斯·多纳休朱利安·麦考利和米勒·帕克特广告音频合成。arXiv预印本arXiv:1802.04208,2018。一个[14] Gintare Karolina Dziugaite和Daniel M Roy。计算参数比训练数据多得多的深度(随机)神经网络的非空泛化界arXiv预印本arXiv:1703.11008,2017。二个[15] Huan Fu , Mingming Gong , Chaohui Wang , KayhanBat- manghelich,KunZhang,and Dacheng Tao.用于单侧无监督域映射的几何一致生成对抗网络。在IEEE计算机视觉和模式识别会议论文集,第2427-2436页,2019年。二三五六七[16] Ian Goodfellow 、 Jean Pouget-Abadie 、 Mehdi Mirza 、Bing Xu 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio生成性对抗网。 在神经信息处理系统的进展,第2672一、二、四[17] Ian J Goodfellow,Jonathon Shlens,Christian Szegedy.解释 和 利 用 对 抗 性 的 例 子 。 arXiv 预 印 本 arXiv :1412.6572,2014。二个[18] ArthurGretton,Karsten M Borgwardt,Malte J Rasch,Bern-hardSchoülk opf,andAl e xanderSmola. 一个核双样本检验。The Journal of Machine Learning Research,13(1):723三、五[19] 作 者 : Yu Yu , Brendan Dolan-Gavitt , and SiddharthGarg.坏网:识别机器学习模型供应链中的漏洞。arXiv预印本arXiv:1708.06733,2017.2[20] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。神经信息处理系统的进展,第5767-5777页,2017年。八个[21] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。arXiv预印本arXiv:1706.08500,2017。三、五[22] Judy Hoffman 、 Eric Tzeng 、 Taesung Park 、 Jun-YanZhu、Phillip Isola、Kate Saenko、Alexei Efros和TrevorDarrell。苏铁:周期一致的对抗域适应。在机器学习国际会议上,1989- 1998页。PMLR,2018。一、二、三[23] Shanjiaoyang Huang , Weiqi Peng , Zhiwei Jia , andZhuowen Tu.单像素签名:用于后门检测的cnn模型的特征化。arXiv预印本arXiv:2008.07711,2020。2[24] Xun Huang , Ming-Yu Liu , Serge Belongie , and JanKautz.多模态无监督图像到图像翻译。在欧洲计算机视觉会议(ECCV)的会议记录中,第172-189页,2018年。二个[25] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集,第1125-1134页,2017年。三六七[26] 贾志伟和苏浩。信息论局部最小图像特征和正则化。arXiv预印本arXiv:1911.08192,2019。二个[27] Yiding Jiang , Dilip Krishnan , Hossein Mobahi , andSamy Bengio.用边缘分布预测深度网络中的泛化间隙。在2019年国际学习代表会议上。二个[28] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议,第694施普林格,2016年。一、二[29] Taeksoo Kim、Moonsu Cha、Hyunsoo Kim、Jung KwonLee和Jiwon Kim。学习发现与生成对抗网络的跨域关系。arXiv预印本arXiv:1703.05192,2017。二个[30] Chris tianLedig , LucasTheis , FerencHusza´r , JoseCaballero , Andrew Cunningham , Alejandro Acosta ,Andrew Aitken,14283Alykhan Tejani,Johannes Totz,Zehan Wang,et al.使用生成式对抗网络的照片级真实感单幅图像超分辨率。在IEEE计算机视觉和模式识别会议论文集,第4681-4690页一个[31] 李欣英、曾鸿宇、黄佳斌、曼尼什·辛格和杨明轩。通过解纠缠的表示进行不同的图像到图像的翻译。在欧洲计算机视觉会议(ECCV)的会议记录中,第35-51页,2018年。五个[32] Minjun Li ,Haozhi Huang, Lin Ma ,Wei Liu ,TongZhang,and Yugang Jiang.无监督的图像到图像的翻译与堆叠的周期一致的对抗网络。在欧洲计算机视觉会议(ECCV)的会议记录中,第
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功