没有合适的资源?快使用搜索试试~ 我知道了~
15018ReMix:用有限的数据实现图像到图像的翻译曹杰1,2,侯銮轩1,2,杨明轩3,4,5,何冉1,2,孙振安1,21NLPR,CRIPAC CEBSIT,CASIA2 AIR,UCAS3加州大学默塞德分校4谷歌研究5延世大学{jie.cao,luanxuan.hou}@ cripac.ia.ac.cn,mhyang@ucmerced.edu{rhe,znsun}@ nlpr.ia.ac.cn摘要基于生成对抗网络(GAN)的图像到图像(I2I)翻译方法通常在有限的训练数据可用时会出现过度拟合在 这 项 工 作 中 , 我 们 提 出 了 一 种 数 据 增 强 方 法(ReMix)来解决这个问题。我们在特征级对训练样本进行插值,并提出了一种基于样本间感知关系的内容丢失算法生成器学习翻译中间的样本,而不是记忆训练集,从而迫使训练器泛化。该方法有效地减少了生成的歧义,并呈现内容保持的结果。ReMix方法可以很容易地结合到现有的GAN模型中,只需进行微小的修改。大量任务的实验结果表明,配备ReMix方法的GAN模型实现了显著的改进。1. 介绍近年来,生成对抗网络(GANs)[11]在包括图像到图像翻译在内的许多任务中取得了很大进展。精心设计的对抗性损失[11,27,25,1,12,26]提供了有效的领域级监督,使翻译结果与真实样本不可区分。基于GAN的方法严重依赖于大量的训练示例。 例如,Karras等人,[19,20]使用70K高质量的人脸图像来训练他们的模型。然而,收集大量的图像数据可能过于昂贵或不合理(例如,艺术家的杰作这个问题突出了用有限数据训练GAN的重要性不幸的是,减少训练数据量往往会导致严重的模型过度拟合。最近的发现[18,42]表明,GAN很容易记住一个小的训练集,然后在测试集中呈现严重退化的结果通讯作者图1.拟议数据扩充方法概述我们使用图像重建任务作为一个例子。输入x首先被编码为表示e,然后解码为输出y,上标表示样本的索引内插数据e′是e1和e2的凸组合。 在这种情况下,我们有d(e′,e1)s(y′,x2),其中s是相似性度量。为了清楚起见,这里我们省略了x 1和x 2的输出。最近已作出一些努力来解决这个问题。 基于自适应的方法[24,30]使用外部数据集作为替代方案。他们首先学习语义相关的翻译,然后将其适应感兴趣的翻译尽管有效,但这些方法需要额外的图像收集。已经开发了几种为GAN量身定制的数据增强方案[40,18,35,42,43],以减轻对额外数据集的需求。 它们使用图像变换组(例如,裁剪、裁剪和剪切[10])以增加判别器的输入 即使在有限的数据下,这些方法也可以防止过度拟合,从而实现有效的对抗性监督。然而,由于泄漏问题,增加发生器的数据是不可行的[18]。 对于图像到图像的翻译任务,这些方法不能阻止生成器记住如何翻译,15019----∈›→晚给出的源图像。为了便于在图像到图像转换中使用有限数据训练GAN,我们提出了一种名为ReMix的数据增强策略。 我们使用凸组合在特征空间中混合源图像。生成器学习将混合样本映射到目标空间以防止过度拟合。此外,在对增广伪样本的识别过程中,改进了算法。 我们提出了一种新的内容损失,保持样本之间的感知关系。所提出的损失避免了模型从增强的数据产生模糊的结果。 在图1中,图像重建任务被示出为示例。 我们的目标是重建两个样本x1和x2,并通过插值中间特征e1和e2来合成虚拟输入e ′。然而,输入e ′的重构目标是未知的,因此相应的输出y ′需要对图像内容的附加约束。 为此,我们建议基于e1,e2,e ′之间的关系来约束x1,x2,y ′之间的感知关系。具体地说,如果e′更接近e1(或e2),那么我们强制输出y′比另一个更接近x1(或x2)以这种方式,我们提供了有效的监督和巧妙地回避估计目标的内插输入。ReMix方法可以很容易地结合到现有的方法中。只需要几行代码就可以修改原始的损失函数。 在实验中,我们在几个任务上评估了所提出的方法,包括CASIA数据集上的跨谱人脸翻译[23],AFHQ数据集上的动物人脸翻译[7],以及Cityscapes数据集上的语义标签地图的图像合成[8]。我们在这些任务中使用最先进的模型[37,28,7,20]作为基线。 实验结果表明,采用ReMix方法后的模型性能得到了显著改善。 我们还使用10%的可用数据训练这些模型,并且仍然获得可比较的性能。主要贡献概述如下:我们提出了一种基于特征级插值的数据增强策略 我们的方法减少了GAN的过度拟合问题,特别是对于图像到图像的翻译任务。我们建议保持样本之间的感知关系,以优化插值翻译。我们的方案减少了生成的歧义,并迫使模型学习内容保留的翻译。我们在多个图像合成任务中取得了重大改进。此外,我们仅用10%的训练数据就产生了合理的结果。2. 相关工作无监督图像到图像(I2I)翻译。这些方法的目的是从源域中学习映射没有配对数据的目标域 由于这个问题本质上是不适定的,因此在没有额外约束的情况下,转换后的结果将是可解的。为了解决这个问题,现有的I2I方法被限制为基于像素级值[4,31]、语义特征[34,15,22]或属性标签[4]来保留图像内容。提出的损失函数,重构损失和循环一致性损失[44]作为内容保持翻译的目标现有的I2I方法严重依赖于高质量图像的大量收集 在这项工作中,我们提出了一种基于插值的增强方案,图像到图像的有限数据下。 为了避免从插值输入的二义性代,我们开发了一个新的损失函数,以保持图像内容。数据扩充。 已经开发了许多方法来增加用于训练深度学习模型的数据量,而不会过度拟合。 应用某些内容保留操作(例如,压缩、旋转和裁剪)已成为常规的数据预处理步骤。 为了增加GAN的数据,最近的一些方法使用自适应[18,40]或自动[42]策略来组合这些操作。然而,这些方案只能应用于发电机,不能解决发电机的过拟合问题。基于插值的增强方法[5,9,39,2,3]专注于在特征级或图像级混合训练样本。线性插值方法简单,但具有很强的泛化能力对于图像合成,生成合理的插值结果也是期望的属性。然而,确定插值输入的超验信号仍然很困难 混合方法[39]假设训练数据和监控信号之间的关系是线性的。KNN插值算法[5,36]仅选择来自同一类的邻居进行插值。正则化[33]和惩罚[29]方法也可以用于估计超声波信号。 对于监控信号是高维数据的图像到图像转换问题,这些估计可能易于出错。相比之下,我们的方法保持了样本之间的感知关系,这不需要估计的监督信号。3. 该方法我们的目标是学习从源域X到目标域Y的映射函数。首先,我们为这个任务训练一个生成器G:XY。 我们的目标是双重的:1)给定xX,G(x)应该与Y中的样本不可区分,2)G(x)应该保留某些内容信息。为此,我们优化了对抗损失Lgan和内容损失Lcon。我们制定目标函数,···15020∈L--.Σ.- 是的ΣΣΣLL内容保持结果,项Lcon我我 i=1我我 i=1◦◦图2.建议的ReMix方法的图示我们用颜色来表示不同的样品。(a)对于从真实输入x提取的每个特征e,我们最小化输出s和对应的内容目标t之间的距离。(b)对于插值特征e ′=λ·e 1+(1−λ)·e 2,我们约束其中e1=G1(x1)和e2=G1(x2)。这里,x 1和x 2是来自源域的两个随机样本,λ[0,1]是插值权重。请注意,直接对原始输入x进行插值是我们方法中的一种特殊情况。为了使插值输入对训练有用,我们需要将它们转换为内容保留的结果。 但是计算内插输入e ′的内容损失con需要未知的内容目标t ′。 我们只知道t 1和t 2,它们是e 1和e2 的 相 应 内 容 目 标 , 关 于 ivel y 。 相 反 , 令 s′=G2 ( G1(e′)),我们在度量空间中约束t1,t2,s′之间的感知关系。 不失一般性,我们假设e1在等式3中权重更大。然后,我们强制结果s′满足以下约束:Lconφ(s′),φ(t1) N其中Beta(α,α)表示由α参数化的beta分布。然后,我们获得增广输入{e′}n算法1ReMix方法的伪代码通过公式3中的插值方案。注意在插值中,e1总是更重要,因为我们λ≥0.5。#G:发电机,由G1和G2组成#G1:(N* C* H* W)->(N* C#G2:(N* C#gan:对抗性损失,N-> N我们计算对抗损失Lgan 使用aug-#phi:提取内容,(N*C*H*W)->(N*E)#con:内容损失,(N*E)->N用于域级监督的分段批处理 对于等式4和5中描述的内容监督,我们有:- 是的.1991年。′2ΣΣ对于data_loader中的batch1、batch2#如果p> rand(0,1),则增加的概率为p#x,t:输入和目标,(N* C* H* W)Lp=Max我0,Lconφ(si),φ(ti)-Lconφ(si),φ(ti),(八)x1,t1=批次1x2,t2=批次2e1,e2 = G1.forward(x1),G1.forward(x2)#插入输入Ln=最大值0,Lco n.φ(s′i),φ(t2)<$−a<$}.(九)我对于内插输入,我们最小化'con=p+n,这被称为con的相对形式。 我们将a初始化为0,并在训练过程中动态更新。具体地,我们首先计算:- 是的′2Σ我mu=beta.draw()#beta分布lambda=max(mu,1-mu)e_prime = lambda* e1+(1-lambda)*e2#计算对抗损失s_prime = G2.forward(e_prime)prediction = D.forward(s_prime)loss_gan = gan(prediction).mean()#计算相对含量损失d1 = con(phi(s_prime),phi(t1))d2 = con(phi(s_prime),phi(t2))#clamp:将所有元素夹在[0,Infinity]l_p =钳制(d1-d2).mean()l_n = clamp(d2-a_mean).mean()loss_con = l_p + l_n其中,ji,所以e2对插值没有贡献#更新Generator的E′i。因此,我们认为,Ja表示unre的平均距离loss=loss_gan+loss_conloss.backward()在训练批内的lated输出目标对然后,我们采用a的动量更新:a<$<$m·a<$+(1−m)·(a−a<$),(11)其中我们将动量系数m设置为0.99。 算法1显示了使用ReMix数据增强方法训练生成器的主要步骤。对于印度人来说,这个过程是类似的。我们以相对形式计算单个内容丢失,而ReMix方法也可以应用于多个内容丢失的情况每个损失可以独立地以相对形式计算。3.3. 与现有方法的比较与现有方法相比,ReMix方法不依赖于估计每个内插输入e '的对应目标t'。例如,Zhang et al. [39]假设训练数据和监控信号之间的关系是线性的。因此,给定输入的插值权重λ,该方案[39]计算:t ′=λ·t 1+(1− λ)·t 2。(十二)此外,该方法提出直接使用重量更大的样品的超声波信号,其中:更新(G.参数)#a_mean的动量更新#shuf:沿批量轴混洗数据a = con(phi(s_prime),phi(shuf(t2).mean()a_mean = m* a_mean+(1-m)*(a-a_mean)方法[33]中,我们可以将权重λ箝位到预定义范围[λmin,λmax]中以插值内容目标。也可以使用其他技巧,如噪声注入,最近邻插值[5,36]上述方法使用估计的输入-目标对来增强训练数据。 对于目标t ′是标签的分类任务,它们被证明是有效的。然而,在图像到图像的翻译任务中,我们使用原始图像或高维特征作为监督信号,这实际上更难以估计。不准确的估计可能会对增强训练数据的质量产生负面影响。 我们评估的ReMix方法对这些计划的多个图像到图像的翻译任务。4. 实验和分析我们考虑三个实际任务,即,近红外-可见光谱面t′ =t1,如果λ≥0.5,(13)T2,否则。.a=L孔15023翻译、动物面部翻译和来自语义标签映射的图像合成 我们首先介绍数据集和实现细节。此外,正则化可以用于估计内容目标。例如,基于LSRAnimal Faces-HQ数据集(AFHQ)[7]提供了三个领域的人脸:猫,狗和野生动物。每个15024××图3.通过不同方法合成的可视化示例,AFHQ数据集上有10%的训练数据[7]。左半部分是指涉引导翻译的结果,右半部分是潜指引导翻译的结果结果列为(a)StarGAN v2 [6](基线),(b)基线+WM(公式13),(c)基线+混合[39]和(d)基线+ReMix(我们的)。类别包含约5,000张图片。 我们的目标是训练一个单一的模型来学习这些领域之间的翻译。 StarGAN v2 [7]被用作此任务的基线。 我们在基线模型中插入样式编码器的输出[7]。在我们的ReMix方法中,我们将风格重建损失修改为相对形式。CASIA NIR-VIS 2.0人脸数据集[23]包含725个亚微米的近红外(NIR)和可见光(VIS)图像同一个身份有很大的变化,包括灯光,表情,姿势和配件。 对于NIR到VIS的人脸翻译,我们使用LightCNN-29 v2 [37]和 StyleGAN 2 [20] 来 构 建 编 码 器 - 解 码 器 网 络 。LightCNN 1是经过预训练的,我们选择对其输出进行插值。 我们使用默认设置从头开始训练StyleGAN [20]。此外,我们在像素空间中添加L1距离损失[16]作为内容监督。 当使用插值数据学习GAN模型时,我们使用L1距离损失的相对形式。Cityscapes数据集[8]包含3,500张街景图像和相应的语义标签地图。 我们使用SPADE Net [28]将标签映射转换为场景。我们在这个任务中直接插入原始输入 基线模型使用VGGNet[32]指导的感知损失[17]。对于ReMix,我们将此损失修改为相关损失。第1https://github.com/AlfredXiangWu/LightCNN的形式。我们只修改了ReMix方法的上述损失,其他损失保持不变。对于每次迭代,我们将增强的概率设置为0.25 类似于混合方法[39],我们为beta分布设置超参数α=0.2。我们使用已发布的源代码实现这些基线。Cityscapes数据集的输入分辨率为512256[8],其他数据集的输入分辨率为256 256。我们将StyleGAN 2 [20]中输入latent的维度更改为256。 除此之外,我们不对网络架构进行任何修改。 我们在每个基线模型的原始工作中使用推荐的训练设置,包括批量大小,优化器,训练迭代和损失权重。 为了确定我们的ReMix方法中的增强概率值,我们对AFHQ数据集进行网格搜索,并使用FID得分作为度量。 我们使用的所有实验中发现的值没有超参数调整。4.1. 动物脸翻译第一个任务是改变给定动物面孔的种类 如果参考图像可用,则编码器从其提取样式表示。然后,生成器将样式与输入的内容混合,生成15025→→表1. 不同方法在AFHQ数据集上的Fre'chet起始距离(FID,越低越好)和学习感知图像块相似性(LPIPS,越高越好)[7]。WM方法在公式13中描述。方法潜在引导的翻译参考引导的翻译100%数据10%数据10%数据10%数据FID↓LPIPS↑FID↓LPIPS↑FID↓LPIPS↑FID↓LPIPS↑基线:StarGAN v2 [7]16.180.45046.020.43119.780.43238.420.402基线+WM20.030.48441.360.47723.640.47545.880.455[39]第39话15.910.45328.150.46618.670.45327.340.451基线+混音(我们的)15.220.49121.820.47115.560.48122.920.460图4.AFHQ数据集上的各种翻译结果[7]。 我们的模型可以学习使用训练集中仅10%的数据生成各种高质量的结果。翻译结果否则,给定一个独热类标签,生成器从先验分布中提取一个潜在代码作为样式表示。 这两种类型的任务分别被称为参考引导翻译和潜在引导翻译。我们为每个类随机选择500张图像,约占整个训练集的10%然后,我们在10%的数据设置下训练模型我们评估我们的方法对现有的插值方法,包括混合[39]和WM(方程13)计划。 图3显示了通过评估方法合成的一些图像。基线模型受到过拟合问题的困扰,并生成一些不真实的纹理细节。总体而言,该方法合成的图像具有较高的视觉质量比其他方案。图4显示了我们的方法的不同翻译结果 给定一个源图像,我们通过随机采样多个参考图像来生成不同的结果。 这些结果表明,我们的方法可以生成独特的风格,同时保留内容信息。我们还使用Fre'chet起始距离(FID)[14]和学习感知图像块相似性(LPIPS)[41]评估合成图像的质量。调查部遇到了ric[14]测量两个图像集之间的Wasserstein距离。 我们从Inception-v3模型[33]的最后一个平均池层中提取特征,以计算FID分数。 LPIPS得分[41]使用特征空间中的L1距离来衡量图像的多样性,并且使用预训练的AlexNet [21]作为特征提取器。 我们计算每对图像域的FID和LPIPS分数(例如,猫,猫野生动物),并报告平均值。表1显示了FID和LPIPS评分。 我们在10%和100%数据设置下评估了方法。 我们的方法在这些定量指标方面优于现有的增强方法。FID分数表明我们的结果更接近真实数据。我们的方法的LPIPS得分与10%的数据是高于基线训练与全训练集。 实验结果表明,该方法对不同的真实感图像的翻译是有效的.4.2. 互谱人脸平移第二个任务是将输入的NIR面转换到VIS域,并保留身份(内容)信息。15026表2.不同方法在CASIA NIR-VIS 2.0数据集上的秩1准确度(%)和验证率(%,VR)(第一次)。 FAR表示错误接受率。根据“通过生成识别”方案[ 13 ]评价性能我们使用LightCNN-29 v2 [37]和StyleGAN 2 [20]来构建一个编码器-解码器网络作为基线。 WM方法在公式13中描述。方法秩-1VR@FAR=1%VR@FAR=0.1%原始输入96.8499.1094.68基线[37、19]93.1394.2288.79基线+WM91.3292.5781.27[39]第39话97.6699.3897.59基线+混音(我们的)98.1899.6398.11图5.来自CASIA NIR-VIS 2.0数据集测试集的人脸互谱转换结果[13]。我们只使用357对NIR-VIS图像来训练模型结果列是(a)基线(LightCNN [37]+ StyleGAN [20]),(b)基线+WM(公式13),(c)基线+mixup [39]和(d)基线+ReMix(我们的)。mation。先前的工作基于“通过生成识别”协议评估图像生成方法 也就是说,给定一个近红外人脸图像,我们使用翻译的结果进行识别。 使用相同的协议,我们使用第一个折叠2的训练集中的357个身份来训练我们的模型。其余图像用于测试。 表2显示了不同方法的秩1准确度和验证率。 竞争数据增强方法是mixup [39]和WM(公式13)方法。 我们的方法在秩精度和验证率方面优于其他方案。实验结果表明,该方法有效地减小了近红外人脸图像与可见光人脸图像之间的距离。 我们还考虑了一个极端的情况下,每个身份只有一个NIR-VIS图像对用于训练。 也就是说,训练集仅由357对图像组成。我们在图5中显示了从测试集中生成的样本。我们观察到,ReMix方法合成了Plau-2在CASIA NIR-VIS 2.0人脸数据集上进行了10倍实验。图像生成方法通常是在第一次评估。即使数据有限,也能得到可靠的结果由于模型过度拟合,基准模型及WM无法产生令人满意的结果 通过混合方法合成的外观是真实的,但身份看起来与输入的近红外图像不同。4.3. 基于语义标签映射的图像合成给定语义布局,我们训练翻译模型来合成真实感图像。Cityscapes数据集的官方训练分割[8]由3000对图像和语义标签映射组成 我们在10%和100%的数据设置下训练模型。 我们使用FID来测量真实图像的分布与合成结果的分布之间的距离。此外,我们对合成图像进行语义分割,然后评估预测结果与输入标签图的匹配程度。 与之前的工作[28]类似,我们使用DRN-D-105 [38]来测量分割精度。表3报告了FID评分和不同方法的预测分割准确度在15027表3. Cityscapes数据集上不同方法的语义分割分数(越高越好)和Fre'chet初始距离(FID,越低越好)[8]。 “真实数据”表示在真实图像上评估的结果,这是我们可以实现的理论上界。100%训练数据10%训练数据方法mIoU↑accu↑FID↓mIoU↑accu↑FID↓真实数据75.684.8----基线:SPADE Net [28]62.381.971.848.368.285.9基线+WM51.180.295.545.457.3108.8[39]第39话65.582.364.759.772.171.5基线+混音(我们的)70.382.750.162.174.468.0图6.在Cityscapes数据集上使用10%的训练数据通过不同方法合成的可视化示例结果列为(a)SPADE Net [6](基线),(b)基线+WM(公式13),(c)基线+mixup [39]和(d)基线+ReMix(我们的)。图6中,我们提供了10%数据设置下的翻译结果示例。表中的竞争方法也是mixup和WM方法。 我们观察到,ReMix方法在定量指标方面优于最先进的方法。 我们的方法产生的结果具有更好的视觉质量和更少的文物。相比之下,其他方法在10%数据设置下的性能显著降低。5. 结论我们引入了一种基于插值的数据增强方法来解决GAN的过拟合问题此外,我们目前保持知觉相似-样本之间的一致性,以减少生成的歧义所提出的方法从插值输入中呈现内容保持的结果,从而促进图像到图像翻译中的模型训练。 我们证明了我们的方法在许多任务中大大提高了图像质量和定量指标,特别是在训练数据有限的情况下。6. 确认本工作得到了国家自然科学基金(批准号:U1836217)和北京市自然科学基金(批准号:JQ18017)。M.- H.Yang部分由NSF CAREER 1149783支持15028引用[1] 马丁·阿吉奥对凯,苏米特·钦塔拉和莱·安·博图。沃瑟斯坦根在ICML,2017年。[2] 克里斯托弗·贝克汉姆,西娜·霍纳里,亚历克斯·兰姆,维卡斯·维尔马,法努什·加迪里,R·德文·耶尔姆和克里斯托弗·埃弗里。对抗性混淆再合成器。在ICLRW,2019年。[3] David Berthelot ,Nicholas Carlini,Ian Goodfellow ,Nicolas Papernot , Avital Oliver 和 Colin A Raffel 。Mixmatch:半监督学习的整体方法2019年在NeurIPS上发表。[4] KonstantinosBousmalis , NathanSilberman , DavidDohan,Dumitru Erhan,and Dilip Krishnan. 无监督像素级域自适应生成对抗网络。在CVPR,2017年。[5] Nitesh V Chawla , Kevin W Bowyer , Lawrence OHall,andW Philip Kegelmeyer.Smote:合成少数过采样技术。JAIR,2002年。[6] Yunjey Choi,Minje Choi,Munyoung Kim,Jung-WooHa,Sunghun Kim,and Jaegul Choo.StarGAN :用于多域图像到图像翻译的统一生成对抗网络。在CVPR,2018年。[7] Yunjey Choi,Youngjung Uh,Jaejun Yoo,and Jung-Woo Ha. StarGAN v2 : 多 领 域 的 多 样 化 图 像 合 成。 在CVPR中,第8188-8197页,2020年。[8] Marius Cordts,Mohamed Omran,Sebastian Ramos,TimoRupfeld,MarkusEnzweiler,RodrigoBenenson , Uwe Franke , Stefan Roth , and BerntSchiele. 用于语义城市场景理解的cityscapes数据集。 在CVPR,2016年。[9] 作者声明:John W.特征空间中的数据集扩充。在ICLRW,2017年。[10] 作者声明:John W. 改进的卷积神经网络的正则化。 arXiv预印本arXiv:1708.04552,2017。[11] IanGoodfellow ,Jean Pouget-Abadie ,Mehdi Mirza ,Bing Xu , David Warde-Farley , Sherjil Ozair , AaronCourville , and Yoonne Bengio. 生 成 对 抗 网 。InNeurIPS,2014.[12] Ishaan Gulrajani , Faruk Ahmed , Martin Arjovsky ,Vincent Dumoulin,and Aaron C Courville. 改进瓦瑟斯坦甘斯的训练。在NeurIPS,2017年。[13] 何冉,曹杰,宋凌霄,孙哲南,谭铁牛。用于nir-vis人脸识别的对抗性交叉谱人脸补全。IEEE TPAMI,2019年。[14] MartinHeusel,HubertRamsauer,ThomasUnterthiner ,Bernhard Nessler,and Sepp Hochreiter.通过两个时间尺度更新规则训练的GAN收敛到局部Nash方程。在NeurIPS,2017年。[15] Xun Huang ,Ming-Yu Liu , Serge Belongie ,and JanKautz.多模态无监督图像到图像翻译。 在ECCV,2018年。[16] PhillipIsola , Jun-Yan Zhu , Tinghui Zhou , andAlexei A Efros. 使用条件对抗网络进行图像到图像的翻译。在CVPR,2017年。[17] 贾斯汀·约翰逊亚历山大·阿拉希和李飞飞。实时风格转换和超分辨率的感知损失 在ECCV,2016年。[18] TeroKarras , Miika Aittala , Janne Hellsten , SamuliLaine,Jaakko Lehtinen,and Timo Aila. 用有限的数据训练生成式对抗网络。在NeurIPS,2020年。[19] Tero Karras Samuli Laine和Timo Aila 一种用于生成对抗网络的基于风格的生成器体系结构。 在CVPR,2019年。[20] 泰罗·卡拉斯、萨穆利·莱恩、米卡·艾塔拉、詹娜·赫尔斯滕、亚科·莱赫蒂宁和蒂莫·艾拉。stylegan图像质量的分析与改进。在CVPR,2020年。[21] Alex Krizhevsky , Ilya Sutskever , and Geoffrey EHinton. 使 用 深 度 卷 积 神 经 网 络 进 行 Imagenet 分 类 。InNeurIPS,2012.[22] 李欣英、曾宏宇、黄嘉斌、Maneesh Singh、杨铭轩 通过解纠缠的表征实现不同的图像到图像的翻译。在ECCV,2018年。[23] Stan Li , Dong Yi , Zhen Lei , and ShengcaiLiao.casia nir-vis 2.0人脸数据库。载于CVPRW,2013年。[24] Ming-Yu Liu , Xun Huang , Arun Mallya , TeroKarras,Timo Aila,Jaakko Lehtinen,and Jan Kautz.很少的镜头无监督的图像到图像的翻译。在CVPR,2019年。[25] 毛旭东,李庆,谢浩然,刘玉刚,王震,斯蒂芬·保罗·斯摩利。 最小二乘生成对抗网络。在ICCV,2017年。[26] Lars Mescheder , Andreas Geiger , and SebastianNowozin.gans的哪些训练方法实际上是趋同的?arXiv预印本arXiv:1801.04406,2018。[27] 迈赫迪·米尔扎和西蒙·奥辛德罗 条件生成对抗网。arXiv预印本arXiv:1411.1784,2014年。[28] Taesung Park,Ming-Yu Liu,Ting-Chun Wang,Jun-YanZhu. 具有空间自适应归一化的语义图像合成。在CVPR,2019年。[29] GabrielPereyra,George Tucker,Jan Chorowski,Mr.Kaiser,and Geoffrey Hinton. 通过惩罚置信输出分布来正则化神经网络。 在ICLRW,2017年。[30] Kuniaki Saito , Kate Saenko , 和 Ming-Yu Liu 。COCO-FUNIT:使用内容调节风格编码器的少量无监督图像翻译。在ECCV,2020年。[31] Ashish Shrivastava,Tomas P fister,Oncel Tuzel,Joshua Susskind,Wenda Wang,and Russell Webb.通过对抗训练从模拟和无监督图像中学习在CVPR,2017年。[32] 凯伦·西蒙尼扬和安德鲁·齐瑟曼用于大规模图像识别的深度卷积网络。arXiv预印本arXiv:1409.1556,2014年。[33] Christian Szegedy,Vincent Vanhoucke,Sergey Ioffe,Jon Shlens和Zbigniew Wojna。重新思考计算机视觉的初始架构。在CVPR,2016年。[34] Yaniv Taigman,Adam Polyak,and Lior Wolf.无监督跨域图像生成。在ICLR,2017年。[35] Ngoc-TrungTran,Viet-HungTran,Ngoc-BaoNguyen,Trung-Kien Nguyen,and Ngai-Man Cheung. 全球行动网络培训中数据扩充的良好做法。arXiv预印本arXiv:2006.05338,2020。[36] JiWan , Sheng Tang , Yongdong Zhang , Jintao Li ,Pengcheng Wu,and Steven CH Hoi. HDIdx:高效近似最近邻搜索的高维索引。 神经计算,2017年。15029[37] 向武,冉鹤,孙哲南,谭铁牛。一种用于带噪声标签的深度人脸表示的轻型cnn IEEE TIFS,2018年。[38] Fisher Yu,Vladlen Koltun,and Thomas Funkhouser. 扩张的残余网络。在CVPR,2017年。[39] Hongyi Zhang,Moustapha Cisse,Yann N Dauphin,and David Lopez-Paz.mixup:超越经验风险最小化。在ICLR,2018年。[40] Han Zhang , Zizhao Zhang , Augustus Odena , andHonglak Lee.生成对抗网络的一致性正则化。2019年,在ICLR[41] Richard Zhang , Phillip Isola , Alexei A Efros , EliShechtman,and Oliver Wang.深度特征作为感知度量的不合理有效性。在CVPR,2018年。[42] Shengyu Zhao,Zhijian Liu,Ji Lin,Jun-Yan Zhu,andSong Han. 微 分 增 强 用 于 数 据 有 效 的 gan 训 练 。 在NeurIPS,2020年。[43] Zhengli Zhao , Zizhao Zhang , Ting Chen , SameerSingh,and Han Zhang.用于gan训练的图像增强 arXiv预印本arXiv:2006.02595,2020。[44] 朱俊彦,朴大成,菲利普·伊索拉,阿列克谢·埃夫罗斯。使用循环一致对抗网络的不成对图像到图像翻译。在ICCV,2017年。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功