没有合适的资源?快使用搜索试试~ 我知道了~
14174通过学习重新加权的非对齐图像到图像翻译谢少安1、龚明明2、徐炎武3、张坤11卡内基梅隆大学2墨尔本大学3匹兹堡大学摘要无监督图像到图像翻译旨在学习从源域到目标域的映射,而不使用成对的图像进行训练。无监督图像平移的基本但限制性的假设是两个域是对齐的,例如,对于selfie2anime任务,anime(selfie)域必须仅包含可以被转换为其它域中的一些图像的anime(selfie)面部图像。收集对齐的域可能是费力的并且需要大量的注意力。在本文中,我们考虑两个未对齐的域之间的图像翻译的任务,这可能会出现各种可能的原因。为了解决这个问题,我们提出了选择图像的重要性重新加权的基础上,并开发了一种方法来学习的权重,并同时自动执行翻译。我们比较了所提出的方法与国家的最先进的图像翻译方法,并提出定性和定量的结果与不对齐域的不同任务。大量的经验证据表明,所提出的问题的制定和我们的方法的优越性的有用性。1. 介绍近年来,图像到图像(I2I)翻译在跨域传输复杂的外观变化方面取得了显着的成功[61,34]。此外,许多相关的任务也可以被公式化为I2I问题,例如图像超分辨率[57,11]和域自适应[23,42]。在监督图像翻译中,我们从源和目标域获得配对Pix2pix [28]应用条件生成对抗网络[17,40]将源图像映射到目标域,同时在翻译图像和目标图像之间实施Pix2pix可以用足够的配对训练数据生成清晰的目标图像。然而,配对数据非常难以收集或甚至不存在(例如,梵高在没有配对数据的情况下,无监督I2I、、、图1:对齐和未对齐结构域的实例。左:自拍图像作为域X和动漫脸图像作为域Y。两个域中的图像被仔细选择和处理。右:由于许多可能的原因,许多不想要的动画图像可能出现在域Y中,例如,缺乏人的监督。通过将GAN与适当的约束相结合,例如循环一致性[61]和共享潜在空间假设[34],翻译方法取得了令人印象深刻的无监督图像翻译的基本假设是用于训练的域是对齐的,这意味着一个域中的每个图像可以以有意义的方式翻译成另一个域中的某个图像;换句话说,域之间存在某种潜在的关系[61]。例如,selfie2anime任务中的两个域中的每一个都仅包括类似风格的女性面部图像(图1,左)。然而,收集保证对齐的两个域的图像需要大量的注意力。例如,为了收集动画域,Kim等人[29]首先构建了由69,926个动漫角色图像组成的初始数据集。然后,他们应用预先训练好的动漫人脸检测器提取了27,073张人脸图像,然后手动选择了3500张女性人脸图像作为训练集。为了收集动物面部数据集,Liu etal.[35]手动标记图像中10,000个食肉动物面部的边界框以及具有高检测分数的选定图像14175⊆⊆i=1j=1--{}∈{}∈(13)图像为了节省努力,可以考虑具有未对齐域的设置,因为它们获得起来便宜得多。例如,为了获得动漫人脸域,我们还可以应用如Kim等人的动漫人脸检测器。做了,然后只将检测结果视为所需域中的图像。在没有任何人类监督的情况下,所构造的域可能包含许多不想要的动画图像,例如,动画体或甚至动画书图像,如图1(右)所示。这些未对准的图像可能损害图像转换质量并且甚至可能导致一些图像转换方法(例如,参见图4)。因此,我们寻求一种可以学习在未对齐域之间进行翻译的算法,其中任一域中的一些图像可能与主要任务无关(图1,右),因此不应考虑进行翻译。为了简洁起见,我们将这些图像表示为未对齐的图像。我们进一步假设存在未知的对齐子集Xa X和Ya Y,并且我们的任务是自动地发现这样的未知子集并且同时学习它们之间的映射。推断未知子集Xa和Ya似乎是具有挑战性的,因为我们只给出两个未对齐的域X和Y。为了解决这个问题,我们提议在对抗分布匹配过程期间用重要性β重新加权(或理想地,如果β几乎为0,则图像不在对齐的子集中,因此不考虑平移。因此,问题归结为学习适当的重要性权重为每个样本的目的,合理的翻译。为了解决重要性权重估计问题,我们分析了图像的因果生成过程,并假设Xa和Ya中的图像可以比未对齐子集中的图像更快地被翻译到另一个域,因为Xa和Ya共享相同的内容类别。然后,我们提出了重新加权的adversar-ial损失,这使我们能够近似的密度比,以及执行两个未知的对齐子集之间的图像转换Xa,Ya。此外,我们还提出了一个有效的样本大小损失,以避免重要性网络给出平凡的解决方案。我们将所提出的方法应用于各种图像到图像的翻译问题,并且在未对齐数据集上的强基线上的大幅改进证明了我们提出的翻译方法的有效性代码和数据可在https://github.com/Mid-Push/IrwGAN上获得。2. 相关作品图像翻译当代的图像到图像翻译方法利用生成对抗网络(GAN)[17]的强大功能来生成高保真图像。成对的图像到图像转换方法采用结果和目标之间的重建损失来保留输入图像的内容[28]。在相比之下,在无监督图像翻译的任务中不存在可用的配对数据。为了解决这个问题,提出了循环一致性,以减少在函数空间中的可能的映射的数量。它在源域和目标域之间强制执行一对一映射,并显示出令人印象深刻的视觉性能[30,61,54];然而,一对一的对应关系可能不足以保留内容,并且提出了许多方法来促进更好的图像翻译[47,29,39,49]。可选择地,共享潜在空间假设[27,33,32,34,35]和重新-关系保存[4,60,15,44,2]也证明了它们在图像平移中的功效。最近,多模态和多域翻译越来越受欢迎[41,37,8,27,33,32,55,12,62,1,45,43]。然而,在这方面,与上述现有工作不同,我们的目标是学习具有未对齐域的映射。重要性重新加权重要性重新加权是各个领域中的重要技术,包括域自适应[26,59,18,46,56,16,53]和标签噪声学习[36,52,58]。它们的设置与我们旨在解决的问题非常不同。我们没有给出两组数据点,从这两组数据点可以估计密度比。我们使用重要性重新加权作为一种学习选择合适的图像进行翻译的方法。此外,在我们的任务中,我们需要同时在两个域中重新加权样本。这种处理连同对齐的图像子集更容易彼此转换的特性一起帮助实现自动化图像选择和转换。如果没有这个性质,要解决的问题可能是不适定的。在生成模型上也有一些重要的重新加权应用[50,48,19,14,51,9,24,22]。在这一系列研究中,[51]通过递归输出的指数得分来重新加权生成器的假样本,以帮助递归训练。[24]提出为样本分配归一化鉴别器得分,以在重要性重新加权可变自动编码器之后实现GAN的更严格下限[7]。[9]提出在发生器的延迟副本上用鉴别器输出的归一化比率对每个样本重新加权,这些模型[24,51,9]应用已知的统计数据来重新加权样本,以获得更好的GAN训练。相反,我们的重要性权重是未知的,我们的目标是学习这样的重要性权重。3. 非对齐域给定收集的但未对齐的域X和Y与训练样本X和yjMY,我们的目标是将正确的图像从一个域翻译到另一个域,同时减轻两个域中的未对齐图像带来的不利影响。我们分别用Xa和Ya表示两个域的对齐子集另一方面,Xu=XXa和Yu=YYa对应于在两个域中未对齐的子集。14176→→----→L[(1−DY∈XPX(x)PY(y)−LGDYPX(x)PY(y)PX(x)PY(y)∫∫P(y)[DY(y)]dy我们的模型包括两个映射G:XY和F:Y X和两个鉴别器DY和DX。此外,我们还引入了两个重要权网络β X和β Y,其中β X是应用于xi的权,β Y是应用于yj的权。自然地,我们的对象ive包括四种类型的项:重新加权的对抗损失以学习重要性权重并执行图像转换,有效样本大小损失以控制通过重要性权重选择多少图像(以软方式),重新加权的循环一致性损失以保持两个域之间的一对一映射,以及重新加权的身份损失以保持网络保守。为了简洁起见,我们将我们的方法称为重要性重新加权生成对抗网络(IrwGAN)。3.1. 对齐翻译与非对齐翻译的关系如果给定的域X和Y对齐(在我们的设置中不是这种情况),为了将图像从X转移到Y,可以直接应用最小二乘对抗损失[38]来匹配PY和PG(X)之间的分布与映射函数G:X Y及其鉴别器DY,通过求解:min maxLGAN(X,Y)(1)3.2. 学习选择图像和翻译如上所示,我们的目标是找到重要性网络βX和βY的密度比,而无需访问对齐的子集。然而,尽管我们可以将βX和βY的输出限制为有效的密度比,但仍然可能存在许多不需要的解。例如,不在对齐的子集中的图像可以用高容量和足够长的训练的神经网络彼此转换;则所估计的重要性权重对于所有图像可能只是一个,而不能选择正确的对齐子集。因此,我们需要对对齐子集的性质制定和利用适当的约束,以找到βX,βY的有意义解,并实现成功的翻译。为此,我们制定了以下快速翻译-假设:Xa和Ya中的图像可以比Xu和Yu中的图像更快地被转换到另一个域。在这个假设下,对齐集中的图像将首先被选择在两个域中进行匹配,而未对齐子集中的图像将具有相对较大的对抗性损失,因此实现非常小的重要性权重。更具体地说,我们提出了以下重新加权的对抗损失来估计密度比以及匹配分布:=ExPX[(1−DY(G(x)2]+Ey<$P[DY(y)2]。minmaxLGAN(X,Y)(3)然而,在这方面, X和Y未对齐。匹配未对齐的图像会损害翻译性能G,βXDY=ExPXβX(x)[(1−DY(G(x)2]+我们只想匹配未知对齐子集的分布,换句话说,我们想优化EyPYβY(y)[DY(y)2],LGAN(Xa,Ya). 我们可以观察到LGAN(Xa,Ya)(2)其中βX(x)和βY(y)表示重要性权重分配给每个样本。 我们为映射函数F:Y→X,即,=ExPXa[(1−DY(G(x))2]+EyPYa[DY (y)2]GAN(Y,X). 请注意,βY在此损耗中未优化功能=PXX(x)PXa(x)PX(x)Y(G(x)2]dx+在每次迭代中,更新鉴别器后,我们最小化损失函数LGAN(X,Y),在等式中给出P(x)PYa(y)2YP(y)y2(3),在βX和G上。直觉上,根据我们的假设,图像x aX a更快地转换到域Y,并且因此鉴别器将分配更高的=ExPXa[(1 − D Y(G(x)]+对G(xa)的得分大于G(xu)的情况。则[(1 −DY(G(xa)2]≤EyPYPYa(y)[D Y(y)2]。[(1 D Y(G(x u)2]。 如果我们假设更高的损失-通过现有SGD优化,它表明,即使给定的区域X,Y是不对齐的,如果我们用相应的密度比PXa(x)和PYa(y)分别对每个样本x ∈X和y ∈ Y进行加权,则实际上,我们正在优化GAN(Xa,Ya).然而,密度比是未知的。鉴于此为了观察,我们应用两个网络βX,βY,并使用它们的输出来重新加权每个样本。 如果我们能够学习β X(x)≈ PXa(x),β Y(y)≈ PYa(y),优化生成器G,F和鉴别器D Y,D X等价于在未知对齐子集X a,Y a之间执行图像平移。Y14177Yu−算法,则结果是随着优化过程(3)的进行,与βX(Xα)相比,βX(Xα)将以与[(1D(G(X)2]成然后βX(xu)将变得更小,最终预计接近0。在实验部分5.5中,我们将学习的重要性权重可视化,并观察到未对齐图像的重要性权重接近于0。3.3. 假设分析虽然更快翻译假说是直观的,人们可能会想知道它是如何明智的,它如何帮助形象14178--−−→--LC1、S2XPX(x)PX(x)重要性网络βX、βY的输出具有经验1nΣi=1--||||图3:任务AU的(1DX(F(y)2的趋势其中X = S是自拍面部域,Y = A U是包含动画面部(对齐子集)和非面部动画图像(未对齐子集)的动画域。选择翻译。在本节中,我们将研究图像的生成过程,并对假设进行分析说明性的实验也提供了支持我们的假设。类似于[27,32]中的部分共享潜在空间假设,我们假设内容类别C,样式S和随机输入E(因果地)生成最终图像I,如图2所示。自然地,对齐的子使用现有的对齐的人脸selfie2anime数据集作为对齐的子集,并且我们使用非人脸动画图像构建未对齐的子集。我们在未对齐的数据集上应用CycleGAN [61](我们用我们改进的鉴别器替换鉴别器(参见第4节))。如图3所示,对于那些未对准的图像Yu,项(IDX(F(y)))2始终较大。我们的假设的一个重要结果是,对于未对准的图像,(IDX(F(y)2经验证据很好地与这一结论相一致。有关此说明的更多详细信息,请参阅补充材料。3.4. 翻译的有效样本量密度比约束。先前的分析表明,βX和βY应该近似于密度比。因此,我们正则化我们的重要性网络输出,使它们成为有效的密度比。下面我们讨论对βX的约束,这也适用于βY。第一个约束是它必须是非负的,第二个约束是L1范数是固定的。第一个约束的原因是显而易见的,至于第二个约束,我们有ExP不同之处仅在于风格的影响让我们考虑PXa(x)= ∫ P X(x)PXa(x)dx = 1. 因此我们要求由C表示的相同内容类别,其对应于对齐的子集。根据I=FC1,S(E)生成对应的图像,其中F是生成函数,S是样式指示符,并且E是随机输入。(E引入了具有相同内容类别和相同风格的图像中的随机性,预计在翻译过程中保持不变。因果过程是CI并且这两个域具有不同的风格。因果系统的最小变化原则[25],以及更快的适应站1.根据经验,对于一批图像x1,…,其中n是批量大小。一同样的约束也适用于βY。有效样本量损失。重新加权的adversar-ial损失有效地丢弃未对齐的图像,通过分配给它们低的重要性权重。但是对于对齐图像的重要性权重没有约束。最后可能会出现一种简单的情况,即网络为几乎所有图像(包括对齐的图像)分配较低的值,也就是说,只有少数图像被选择用于翻译。在第5.5节中也观察到了这一点为了解决这个问题,我们提出了有效的样本大小损失,以允许更多的对齐图像用于学习因果关系的方法图2:因果关系被选中进行翻译:数据 与 变化分布[5]表明FC1,S2与图像的生成minβXESS(X)=||β X||2.(四)另一个,假设原因C1不变。因此,从风格S1到S2的 转 换 函 数 , 可 以 写 成 I Y=F C1 , S2 ( F−1 ( IX)),相当简单,也很容易学习。如果除了样式的改变之外,我们还从C1和C2改变内容类别,则(未对齐的)图像子集分别由源域和目标域中的函数FC1,S1和FC2,S2由于内容类别的附加变化,这两个功能可能会有很大的不同 非自然(Unnatural)翻译函数,可以写成FC,S(F−1(IX)),是在重要网络βY上引入了一个等损失ESS(Y)。 为了理解为什么最小化上述函数将最大化用于平移的成对子集的大小,可以看到,仅在β X上的固定L1范数约束下,当对于域X中的每个图像X,β X(x)=1时,上述项被最小化,这意味着所有图像被选择用于平移。相反,如果我们只选择一个图像进行翻译,即,对于一个图像xi,β X(xi)=n,而对于其余图像xi,βX(xi)= 0,β X2达到其最大值。因此,我们可以通过对样本的权重分配不同的权重来控制有效样本量2 2C1,S2预期比对应于相同内容类别的内容类别更复杂和更难学习现在让我们用真实的图像来说明这个假设我们在等式(4)中的目标。我们的有效样本量损失受到[18]的启发,[18]证明了域自适应中的有效样本量可以定义为n/||β X||2CSE我L集合Xa,Ya被期望共享相同的内容类别14179G、F×G、F×LLLL↔↔↔↔↔在某些条件下。因此,我们通过惩罚重要性权重向量的L23.5. 其他规范等式(3)中的对抗损失可以帮助匹配PYa和PG(Xa)之间的分布。然而,如果容量足够大,网络可以将同一组输入图像映射到目标域中的任何随机图像排列[61],因此我们需要额外的约束来避免它。为了进一步正则化映射网络G和F,我们还应用重新加权的循环一致性损失来实施重要性重新加权域分布之间的一对一映射:minLcyc ( X , Y ) =ExPXβX ( x ) x−F ( G(x))1+Ey<$PYβY(y)<$y−G(F(y))<$1,(5)以及重新加权的身份损失,以保持网络保守[61]:minLidt(X,Y)=ExPXβX(x)x−F(x)1+EyPY β Y(y)y − G(y)1。(六)3.6. 完整目标我们的目标是对于重要性网络βX和βY,我们首先将图像下采样到64× 64,以节省内存。然后我们应用4个卷积网络,内核大小为4,步幅为2,填充为1。然后,我们将一个全连接网络附加到输出,并使用Softmax层对输出进行归一化,使其总和为1且非负。最后,我们将输出乘以批量大小,以使β满足固定和约束。对 于 所 有 实 验 , 我 们 在 等 式 ( 7 ) 中 设 置λidt=λcyc=10。我们发现λESS=1对我们所有的实验都很有效。我们用亚当解算器[31]学习率为0.0001。我们从头开始训练网络,并在前50个epoch中保持相同的学习率,并在接下来的50个epoch中将学习率线性衰减到零。我们在每个时期使用10,000张图像。由于我们需要同时向网络中输入一批图像,而输入图像的分辨率很高,例如,256 256,我们使用梯度累积技巧来避免GPU内存爆炸。在所有实验中,我们将批量大小设置为20。5. 实验首先,我们将我们的方法与最近在不同数据集上进行无监督图像翻译然后,我们给出学习的重要性权重βX,βY的评估结果。最后,我们通过改变λESS来研究所提出的有效样本量损失的影响。min maxG,FDX,DYLGAN(X,Y)+LGAN(Y,X)+λcycLcyc(X,Y)+λidtLidt(X,Y),5.1. 数据集为了简单起见,我们使用数据集的缩写:(S)elfie、(A)nime、(H)orse、(Z)ebra、(C)at、(D)og、danb(U)roo、(T)iger、tiger(B)eetle、(L)ion和s(E)aminGAN(X,Y)+λESSESS(Y),βXminGAN(Y,X)+λESSESS(Y),(7)βY其中λcyc、λidt和λESS控制不同损耗的相对重要性。此外,重要性权重向量βX和βY需要是非负的并且具有固定的L1范数,如第4节中的参数化所解决的。4. 执行映射和鉴别器网络架构我们采用CycleGAN [61]中使用的生成器架构,其包含9个残差块[20]。 为了捕获全局结构和局部区域,我们对每个映射方向应用两个鉴别器;一个由3个下采样卷积层组成,而另一个由5个下采样卷积层组成。重要性权重网络架构输出必须满足非负性和固定和约束,我们通过重新参数化来解决这两个约束狮子. PQ表示将Q中的图像添加到原始域P之后的域。HSZD和CHDA.由于大多数现有的图像翻译数据集都是精心构建的,为了评估我们的方法,我们首先使用三个图像翻译数据集构建两个未对齐的数据集:horse 2zebra[61],selfie2anime [29]和cat2dog [32]。对于构造的数据集H SZ D,主要任务是horse 2 zebra; 我们将selfie域添加到马域,并将狗域添加到斑马域。对于C HDA,主要任务是cat2dog,我们在猫域中添加马域,在狗域中添加动漫域。S AU。为了收集selfie2anime数据集,Kim等人[29]使用预训练的人脸检测器来收集动画人脸。这在很大程度上取决于人脸检测器的精度。因此,考虑没有预先训练的面部检测器或检测器准确度低的情况是有趣的。为此,我们将来自Danbooru动漫数据集[3]的2869个动漫图像添加到动漫人脸域。Danbooru数据集涵盖了动漫脸、身体、书籍以及许多相关的14180↔任务输入Cyclegan [61] MUNIT[27] GcGAN [15] NICE-GAN [11] BaselineIrwGAN(我们的)HS→ZDZD→HSS→AUAU→SCH→DADA→CHB→ELE→TB图4::不同算法(见顶行)在不同数据集(在左侧给出)上的结果的视觉比较。缩略语:(S)elfie,(A)nime,(H)orse,(Z)ebra,(C)at,(D)og,danb(U)roo,(T)iger,tiger(B)eetle,(L)ion,s(E)a lion,le(O)pard. PQ表示将Q中的图像添加到原始域P之后的域。图像.由于只有一个域是未对齐的,我们只学习βY用于此任务。TBLE。我们还考虑一个更现实的情况下,使用搜索引擎来获取图像:当搜索狮子时,我们可能得到的不仅仅是与狮子相关的图像,还有海狮图像。鉴于此观察,我们使用Imagenet [13]中的老虎类(1300个图像)和虎甲虫类(1300个图像)作为TB域,使用狮子类(1300个图像)和海狮类(1300个图像)作为LE域。我们选择了100张老虎和100张狮子的图像作为测试集。5.2. 基线和指标我们将我们的方法与CycleGAN [61],MUNIT[27],GcGAN [15]和NiceGAN [10]进行比较。与CycleGAN,我们对每个翻译映射使用一个全局和局部鉴别器为了排除这些差异的可能影响并全面检查我们提出的方法的影响,我们对所有样本运行我们的方法,βX(x)=βY(y)=1,并将其表示为基线。对于性能评估,我们采用图像翻译文献中常用的两个指标:[21]和KID评分[6]。它们测量生成的图像和目标图像之间的分布差异。5.3. 与基线的如图4所示,我们的方法可以在未对齐域的情况下产生良好的翻译结果。相反,现有的方法不能检测未对齐的141815.93.52.81.41.41.31.01.00.70.50.00.00.00.00.00.00.00.0×↔→→表1:不同算法的FID和KID(100)。越低越好。缩写:(S)elfie,(A)nime,(H)orse,(Z)ebra,(C)at,(D)og,danb(U)roo,(T)iger,tiger(B)eetle,s(E)a lion。Q表示将Q中的图像添加到原始域P之后的未对齐域。方法HS→Z DS →AUCH→D AB→ EFID↓KID↓FID↓KID↓FID↓KID↓FID↓KID↓CycleGAN [61]87.282.74100.431.9868.972.03112.416.95MUNIT [27]287.7922.19180.958.10132.215.77335.5225.35GcGAN [15]174.3811.32267.7320.9273.592.47110.766.48NICE-GAN [1]166.613.79124.114.51229.0018.80147.3211.99基线106.844.01123.354.0964.791.8997.823.05IrwGAN79.401.8393.752.5860.972.0784.912.34方法ZD→H SAU→SDA→C HLE→T BFID↓KID↓FID↓KID↓FID↓KID↓FID↓KID↓CycleGAN [61]151.944.63124.462.2996.943.43101.324.75MUNIT [27]245.9710.59127.143.66174.327.11304.8026.33GcGAN [15]161.753.45133.583.77153.838.71130.918.83NICE-GAN [1]166.543.52128.442.45194.9611.42135.526.98基线162.323.73115.392.2461.282.06112.774.82IrwGAN142.983.74119.862.0753.461.8477.472.44表2:不同领域中学习的β的精确度、召回率和准确度得分基线表示我们的方法,其中我们为每个样本分配1;它召回率总是1.00。重要性权重下降图5:任务S AU中的域AU的学习重要性权重的示例。图像,并倾向于生成不相关的图像。考试-例如,在第三行中给出的任务 SAU中,主要任务是selfie2anime,但是大多数现有方法受到Danbooru动画图像的严重影响,因此产生混乱的结果。特别是,Baseline将女性自拍图像转换为动漫角色图像,而不是想要的动漫人脸图像。表1报告了不同图像翻译任务的FID和KID值。我们的方法在大多数数据集上都优于这些强基线。Irw-GAN与基线方法相比的明显改进表明,当域未对齐时,重要性重新加权方案在获得良好的图像翻译结果5.4. 重要性重赋权图5可视化了任务S中域A U的学习权重一位联合正如我们所看到的,我们的方法IrwGAN能够区分未对齐的图像和对齐子集中的图像。许多不需要的动画图像,例如,第三行中的全身动画人物图像被指定为重要性权重的非常低的值作为一个骗子-序列,这些不需要的图像不会影响我们的图像翻译过程,因此我们获得了最好的结果相比,由其他方法。表2示出了学习的βX和βY在不同未对齐域上的性能。对于未对齐的域P_Q,我们将域P中的图像的标签设置为1,并且将域Q的标签设置为0。由于我们学习的β是连续的,因此出于评估目的,如果它高于预定义阈值0,则我们将其预测视为1。五、我们的方法IrwGAN在精度和准确性方面远远优于Basline方法。请注意,Baseline达到了完美的召回分数,因为它的预测总是1,因此假阴性为0。重要性重新加权有助于从两个未对齐的域中恢复对齐的子集会很有趣的-重要性权重向上域方法精度召回精度HS基线IrwGAN0.551.001.000.930.550.96ZD基线IrwGAN0.581.001.000.640.580.79一个U基线IrwGAN0.500.991.000.970.500.98CH基线IrwGAN0.450.991.000.970.450.98DA基线IrwGAN0.501.001.001.000.501.00TB基线IrwGAN0.500.801.000.890.500.83LE基线IrwGAN0.500.781.000.850.500.8114182β分布对齐未对齐β分布对齐未对齐β分布对齐未对齐β分布对准的β分布对齐未对齐↔→↔0的情况。40的情况。40的情况。40的情况。30的情况。20的情况。40的情况。20的情况。20的情况。20的情况。10的情况。20的情况。0 0 100200β值0的情况。00 100200β值0的情况。0 0 24β值0的情况。0 0 24β值0的情况。00 2 4β值λESS= 0。0λESS= 0。1λESS= 1。0λESS= 3。0λESS= 10。0图6:针对任务CΗ DΑ中的域CΗ具有不同λESS的重要性权重βΧ的分布。我们使用红色表示对齐子集C中的图像的重要性权重,使用绿色表示未对齐子集H中的图像的重要性权重。表3:在未对准样品与对准样品的不同比率下的SAU结果比FID↓比FID↓0%的百分比95.25百分百93.73百分之十95.58百分之一百五十92.74百分之三十90.54百分之二百91.25百分之五十93.05百分之三百95.44输入我们的CycleGAN输入我们的CycleGANZD→ HSLE→TBTB→LE图7:IrwGAN的一些失败案例。来测试我们的方法可以处理多少未对齐的样本。我们首先使用现有的数据集selfie2anime作为对齐的子集,然后将Danbooru数据集中的N个动漫图像添加到动漫域。我们将N设置为原始动漫域中图像数量(3400)的10、30、50、100、150、200、300%表3中的结果表明,我们的方法能够处理不同水平的未对齐样本下的未对齐翻译问题我们还在补充材料中提供了学习权重的可视化。5.5. 有效样本量权重λESSλESS设计用于控制有效样本量。图6显示了任务CH中具有不同λ ESS的域CH的估计重要性权重β X的分布D A. 如我们所见,如果λESS设置为0或非常低,则向量非常稀疏,这意味着我们的方法只能从整个域中选择少数图像随着λESS值的增加,未知对齐子集中更多图像的重要性权重逐渐增大,而未对齐图像的重要性权重仍然很小。如果我们将λESS设置为一个非常大的值,例如:10,所有图像的重要性权重集中在1.0左右,这非常接近基线,为每个样本分配1。概率概率概率概率概率141836. 结论和局限性讨论在本文中,我们提出了一种新的,更现实的设置为图像到图像的翻译,其中两个域是不对齐的,因此必须选择合适的图像进行有意义的翻译。为了表明,公式化的问题不仅是更实际的,而且是可解决的,我们开发了一种基于重要性重新加权的学习方法,自动选择图像,同时执行翻译。我们的实证结果表明,它实现了大的改进,现有的方法。值得注意的是,我们的方法依赖于对齐的图像更容易相互转换我们观察到,这一假设是普遍支持的真实图像,虽然它可能会违反一些复杂的图像和特定的网络结构。换句话说,也可能难以将对齐的子集中的一些图像这种违反可能导致这些样本上的低重要性权重,并且它们将在训练期间被丢弃。图7显示了我们的方法的一些失败案例。在第一行中,我们要将斑马图像转换为马图像。然而,马域中的马头图像很少,这使得将斑马头图像翻译到马域中变得困难因此,我们的模型对这些图像的重要性较低,并且在训练期间将其我们的方法和CycleGAN都在这个任务上失败了。CycleGAN对输入图像做了很小的更改,而我们的方法输出的图像几乎与输入相同。第二排也出现了类似的现象。解决这个问题可能需要一些弱监督或额外的信息表示学习,我们把它作为未来的工作。此外,对齐和未对齐子集之间的畴间隙也可能是性能的重要因素。我们计划在未来的工作中探索具有更多样化领域差距的数据集。致谢我们感谢美国空军根据第1001号合同提供的支持。FA 8650 -17-C-7715,由美国国立卫生研究院根据合同号R 01 HL 159805,并由Ap-ple授予。美国空军或国立卫生研究院不对本文中报告的观点负责。龚明明获得了澳大利亚研究理事会项目DE210101624的支持14184引用[1] Amjad Almahairi、Sai Rajeswar、Alessandro Sordoni、Philip Bachman和Aaron Courville。增强的循环根:从非配 对 数 据 学 习 多 对 多 映 射 。 arXiv 预 印 本 arXiv :1802.10151,2018。[2] Matthew Amodio和Smita Krishnaswamy Travelgan:通过变换向量学习实现图像到图像的翻译。在IEEE计算机视觉和模式识别会议论文集,第8983-8992页[3] 匿 名 者 , 丹 布 鲁 社 区 , 和 格 温 · 布 兰 文 。Danbooru2019:一个大规模的众包和标记的动漫插图数据集。https://www.gwern.net/Danbooru2019 , 2020年1月。访问:日期。[4] Sagie Benaim和Lior Wolf。单侧无监督的域映射。神经信息处理系统的进展,第752-762页,2017年[5] Yoshua Bengio、Tristan Deleu、Nasim Rahaman、Rose-maryKe 、 Se´bastienLachapelle 、 OlexaBilaniuk 、AnirudhGoyal和Christopher Pal。学习解开因果机制的元迁移目标。arXiv预印本arXiv:1901.10912,2019。[6] Mik ołajBin´o wski,Doug alJSutherland,MichaelArbel,and Arthur Gretton.揭秘mmd甘斯。arXiv预印本arXiv:1801.01401,2018.[7] 尤里·布尔达罗杰·格罗斯和鲁斯兰 Salakhutdi- nov.重要性加权自动编码器。arXiv预印本arXiv:1509.00519,2015。[8] Jiezhang Cao,Langyuan Mo,Yifan Zhang,Kui Jia,Chunhua Shen,and Mingkui Tan.多边缘沃瑟斯坦干神经信息处理系统的进展,第1774-1784页,2019年[9] Tong Che , Yanzhan Li , Ruixiang Zhang , R DevonHjelm,Wenjie Li,Yangqiu Song,and Yoonge Bengio.最大似然增强离散生成对抗网络. arXiv预印本arXiv:1702.07983,2017。[10] Runfa Chen,Wenbing Huang,Binghui Huang,FuchunSun,and Bin Fang.重用鉴别器进行编码:走向无监督的图像到图像翻译。在IEEE/CVF计算机视觉和模式识别会议论文集,第8168-8177页[11] Shuaijun Chen,Zhen Han,Enyan Dai,Xu Jia,ZiluanLiu,Liu Xing,Xueyi Zou,Chunjing Xu,JianzhuangLiu,and Qi Tian.具有直接监督路径的无监督图像超分辨率。在IEEE/CVF计算机视觉和模式识别研讨会论文集,第468-469页,2020年。[12] Yunjey Choi,Minje Choi,Munyoung Kim,Jung-WooHa,Sunghun Kim,and Jaegul Choo. Stargan:用于多域图像到图像翻译的统一生成对抗网络。在IEEE计算机视觉和模式识别会议论文集,第8789-8797页,2018年。[13] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。[14] Maurice Diesendruck 、 Ethan R Elenberg 、 Rajat Sen 、Guy W Cole、Sanjay Shakkottai和Sinead A Williamson。重要加权生成网络。在Joint European Conference onMachineLearningandKnowledgeDiscoveryinDatabases,第249-265页Springer,2019年。[15] Huan Fu , Mingming Gong , Chaohui Wang , KayhanBat- manghelich,KunZhang,and Dacheng Tao.用于单侧无监督域映射的几何一致生成对抗网络。在IEEE计算机视觉和模式识别会议论文集,第2427-2436页[16] Mingming Gong , Kun Zhang , Tongliang Liu ,DachengTao,ClarkGlymou r,andBernhardScho¨ l k opf.具有条件可转移组件的域自适应在机器学习国际会议上,第2839-2848页,2016年。[17] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。 在神经信息处理系统的进展,第2672[18] ArthurGretton , Alex Smola , Jiayuan Huang , MarcelSchmit-tfull,KarstenBo r g wardt,andBernhardScho¨ l kopf. 通过核均值匹配的变异移位。机器学习中的数据集转移,3(4):5,2009。[19] Aditya Grover、Jiaming Song、Ashish Kapoor、KennethTran、Alekh Agarwal、Eric J Horvitz和Stefano Ermon。使用无似然重要性加权的
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功