没有合适的资源?快使用搜索试试~ 我知道了~
1TraVeLGAN:通过变换向量学习实现耶鲁大学matthew. yale.edu耶鲁大学smita. yale.edu摘要近年来,随着基于循环一致性假设的无监督模型的成功,对图像到图像翻译的兴趣大幅增长。这些模型的成就仅限于一个特定的域子集,在此假设产生良好的结果,即同质域的风格或纹理差异的特点。我们解决了图像到图像翻译的挑战问题,其中域由高级形状和上下文定义,以及包括显着的混乱和异质性。为此,我们引入了一种新的GAN,其基于在由连体网络学习的潜在空间中对域内向量变换进行迭代。传统的GAN系统引入了一个自适应网络来引导生成器生成目标域中的图像。在这个双网络系统中,我们添加了第三个:一个指导生成器的连体网络,这样每个原始图像都可以与其生成的版本共享语义。有了这个新的三网络系统,我们不再需要用无处不在的循环一致性约束来约束生成器。因此,生成器可以学习更复杂的域之间的映射,这些域之间的差异很大-不仅仅是风格或纹理。1. 介绍近年来,学习将图像从一个域转换到另一个域一直是一项研究较多的任务[36, 17、15、38、13]。当我们在每个域中有配对的图像示例时,任务被直观地定义,但不幸的是,在许多有趣的情况下,这些都不可用。随着该领域转向无监督方法,将这两个域的分布与生成对抗网络(GAN)相匹配,人们的热情也在增长[18,11,32,35,26]。然而,在两个域之间存在无限多个映射[24],并且不能保证一个域中的单个图像在映射后将与其在另一个域中的表示共享任何特征。图1:TraVeLGAN架构,它将连体网络S添加到传统的生成器G和RND中,并进行训练以保留S的潜在空间中的点之间的向量运算。其他方法通过以各种方式正则化生成器族来解决这种不可识别性问题,包括在一些层中采用跨域权重耦合[26]和从共享嵌入空间解码[25]。到目前为止,最常见的正则化,首先是由CycleGAN和DiscoGAN引入的,已经迫使生成器成为彼此89838984图2:TraVeLGAN在Imagenet域上生成的输出示例,这些域太过不同和多样化,无法在周期一致性GAN之间进行映射。TraVeLGAN成功地生成了在输出域(对象形状,颜色,背景)中完全真实的图像,并保留了暹罗网络学习的语义。作为循环一致性属性[16,39,20,31,27,2,9,4,37]。最近的研究结果表明,能够在整个数据集级别反转映射并不一定会导致生成相关的真实生成图像对[23,3,11]。生成器上的这些子集级正则化不仅不提供单独的图像级匹配,而且通过限制生成器,它们还阻止我们学习某些域可能需要的映射。以前的工作继续在正则化之后堆积正则化,在需要彼此反转这些在-包括迫使生成器接近身份函数[39],匹配多个激活的人口统计[20],权重共享[26],惩罚潜在空间中的距离[31],先前训练模型上的感知损失[25],或者更常见的是,这些的多个。我们引入了一种全新的方法来完成无监督域映射的任务,而不是在生成器本身上搜索另一个正则化:转换矢量L-学习GAN(TraveLGAN)。除了生成器和搜索器之外,TraVeLGAN还使用第三个网络,即连体网络,以产生数据的潜在空间来捕获高级语义。8985i=1i=1表征域的Tics。该空间通过强制生成器在该空间中的点之间保留向量运算来在训练期间引导生成器。在原始域中将一个图像变换为另一个图像的向量受自然语言空间中的word2vec嵌入[14]的启发,如果我们需要通过将前景对象从左上角移动到右下角来将一个原始图像转换为另一个原始图像,则生成器必须在目标域中生成由相同变换向量分隔的两个点。在word2vec中,语义向量转换是从已知的单词上下文学习潜在空间的一种方法在TraveLGAN中,我们在学习空间的同时训练生成这些向量域映射包括两个方面:(a)将给定的图像转换到另一个域;(b)使翻译后的图像在某种程度上与原始图像相似。以前的工作已经实现了(a)与一个单独的对抗判别器网络,但试图(b)只限制类的生成器函数。我们提出了自然扩展,以实现(b)与一个单独的网络,太。的TraveLGAN不同于以前的工作在几个实质性的方式。1. 它完全消除了对周期一致性或耦合生成器权重或以任何方式限制生成器架构的其他方面的培训的需要2. 它引入了一个单独的网络,其输出空间用于对原始图像和生成图像之间的相似性进行评分。其他工作使用了共享的潜在嵌入空间,但在两个基本方面有所不同:(a)它们的表示被迫重叠(而不是保留向量算术)和(b)解码器必须能够以自动编码器的方式解码出嵌入空间[25,31]([25]显示这实际上等同于循环一致性约束。3. 它完全由神经网络参数化:图像之间的欧几里德距离在任何地方都不能通过使用均方误差而被认为是有意义的。4. 它通过其潜在空间为无监督域转移任务增加了可解释性,这解释了任何特定图像的哪些方面用于生成其配对图像。作为这些差异的结果,TraVeLGAN能够更好地处理需要显著且多样的形状改变的复杂、异构域之间的映射。通过避免生成器的直接正则化,TraVeLGAN还避免了这些正则化从映射到域,如果逆很难学习的话)。不仅每个生成器必须学习可逆映射,而且还要求两个可逆映射是彼此此外,利用原始图像和重建图像之间的逐像素MSE来增强循环一致性:其他工作已经确定了由使用逐像素MSE引起的问题,例如偏向平均图像的趋势[7]。我们的方法与Dis- tanceGAN[6]的方法相似,Dis-tanceGAN[ 6]在映射后保留图像之间的成对距离然而,它们直接在像素空间上计算距离在本文中,我们证明了不执行此算法在像素空间的重要性。这些先前的尝试中有许多是专门为风格转换的任务而开发的,明确地假设域的特征在于低级别的像素差异(颜色,分辨率,线条),而不是高级别的语义差异(特定对象的形状和类型,组成)[7,37,13]。我们证明,这些模型不执行以及在后一种情况下,而TraVeLGAN。2. 模型我们表示两个数据域X和Y,分别由有限(不成对)训练点{xi}Nx ∈ X和{yi}Ny ∈Y组成。 我们试图学习两个映射,G XY:X→Y和GYX:Y→X,这是域之间的映射。此外,我们希望发电机做的不仅仅是只是在一个聚合的层次上模仿域我们希望在每个点的两个表示之间存在有意义且可识别的关系我们声称,这个任务的无监督域映射由两个组成部分:域成员和个性。在不失一般性的情况下,我们在这里相对于GXY定义这些项,其中GYX在任何地方都相同,但具有相反的域。域成员资格生成器应输出目标域中的点,即GXY(X)∈Y. 为了实现这一点,我们使用标准的GAN框架,试图将生成器的合成输出与Y中的实际样本区分开来这产生了典型的对抗性损失项Ladv:Ladv=EX[DY(GXY(X))]此外,我们的任务还有一个更进一步的要求,而不仅仅是X中的两个不同点,每个点看起来像事业 例如,周期一致性可以不必要地它们属于Y。给定x i,x j∈X,ij我们要在那里我更喜欢一个容易可逆的函数,而不是一个可能更复杂的函数。这里有一个稍微难以逆转(或阻止我们是xi和GXY(xi)之间的某种关系,证明了为什么GXY(xi)是域Y中的表示,8986图3:TraVeLGAN在传统数据集上生成的输出示例,用于使用周期一致性GAN进行无监督域转移。在这些问题中,对原始图像的微小改变是必要的,并且TraVeLGAN在其他域中生成期望的、最小改变的图像。而不是xj。如果没有这个要求,生成器可以通过忽略关于其输入的任何实质性内容并生成其他域的任意成员来虽然其他方法试图通过正则化GXY(通过迫使它接近恒等式或由GYX反转)来解决这个问题,但这限制了在差异太大的域之间映射的能力因此,我们不是直接以这种方式强制点xi和点GXY(xi)之间的相似性,而是通过匹配xi之间的关系和相应的GXY(xi)之间的关系来隐式地这样做我们引入了两点之间的变换向量的概念。在以前的自然语言处理应用中,有一个空间,其中将单词man转换为单词woman的向量与将king转换为queen的向量相似。在我们的应用程序中,而不是改变这个词的性别,变换向量可以改变图像的背景颜色、大小或形状。然而,关键的想法是,无论将一个原始图像转换为另一个原始图像所需的变换是什么,类似的变换必须将这些图像的两个生成版本分开。形式上,给定xi,xj∈X,定义它们之间的变换向量ν(xi,xj)=xj−xi。生成器必须学习一个映射,使得ν(xi,xj)=v(G XY(x i),G XY(x j)).这是一个比保持点之间的距离更强大的属性,因为它需要组织空间,以便保持矢量的方向以及幅度。该性质要求将xi取为xj的向量与将GXY(xi)取为GXY(xj)的向量相同。如前所述,这个框架只能定义简单的转换,因为它直接查看输入空间。以此类推,这个词-性别变化矢量-8987IJIJTOR变换并不保持单词的原始独热编码,而是保持在某个缩减的语义潜在空间中。因此,我们改为将变换向量重新定义为ν(xi,xj)=S(xj)−S(xi),其中S是一个函数,它给出了某些情况下每个点的表示。潜在空间给定一个学习每个图像的高级语义表示的S,我们可以使用我们的概念来指导生成。我们建议从传统的GAN框架中学习这样一个空间,它类似于对抗性的ARMD:协作连体网络S。S的目标是将图像映射到某个空间,其中原始图像之间的关系与它们在目标域中生成的版本之间的关系相同:LT raVeL=i/=jDist(νij,ν′)νij=S(xi)−S(xj)′=S(GXY(xi))−S(GXY(xj))其中Dist是距离度量,例如余弦相似性。注意这个项涉及G的参数,但G首先需要这个空间来学习它的生成函数。因此,这两个网络相互依赖以实现其目标。然而,与G和D的情况不同,G和S的目标不是对立的,而是合作的。他们都希望LTraVeL最小化,但G不会学习一个微不足道的函数来满足这个目标,因为它也试图欺骗机器人。S仍然可以学习一个平凡的函数(例如总是输出零),所以为了避免这种情况,我们增加了一个额外的要求,并使其目标多任务。它必须满足标准的基于暹罗边缘的对比目标[28,29] L Sc,即每个点与潜在空间中的每个其他点至少相距δ:图4:很难学习域之间的映射,当域不对称时(例如,纵横字谜配置比算盘配置更复杂)。(a) G1可以改变背景(红色选区)或黑色珠子(橙色圆圈)在难以逆转的方式。(2)循环一致性假设迫使每一个黑色的珠子变成一个白色的十字形方块,每一个空格变成一个黑色的填字方块,即使结果不是一个现实的填字图案。背景也没有完全改变,因为它不能学习更复杂的逆函数。比风格或纹理转换问题困难得多,其中域变换可以被简化为在没有更高级别的语义信息(例如,将图片变成卡通)[31,19]。 相反,我们选择的领域的差异是更高层次和语义。例如,当从马映射到LSc=0.001jmax(0,(δ−||j||(2))鸟,任何给定的马的图片可能只包括该项激励S学习识别图像之间的某些差异的潜在空间,而LTraVeL激励S组织它。因此,S和G的最终客观项为:LS=LSc+LTraV eLLG=L adv+L TraV eLG和S是合作的,因为每个人都试图最小化LTraVeL,但每个人都有一个特定于其任务的额外目标。我们共同训练这些网络,使得G一起学习生成S可以查看的图像,并映射到保留原始图像和生成图像之间关系的某个空间3. 实验我们的实验是围绕有意困难的图像到图像翻译任务设计的。这些翻译样式,纹理和补丁,出现在其他图片的真正的鸟(像蓝天,绿草,尖锐的黑色轮廓和棕色外观)。只有图像的更高层次的形状和背景最终才能揭示它属于哪个领域此外,由于我们使用的数据集是为分类任务而设计的,因此域包含显著的异质性,这使得在域中找到共性非常困难。我们将TraveLGAN与之前的几种方法进行了比较,这些方法首先通过强制循环一致性来正则化生成器,然后使用进一步的正则化来增强生成器[39,20,3,31,27,2,9,4]。 也就是说,我们将GAN与仅具有循环一致性损失(循环GAN)[39]、具有循环一致性损失加上身份正则化(循环+身份GAN)[39]、具有循环一致性损失加上对应性损失(循环+corr GAN)[3]、具有循环一致性损失加上特征匹配正则化(循环+特征匹配GAN)[20]以及具有ν8988循环一致性损失加上共享潜在空间正则化(循环+潜在GAN)[25]。TraVeLGAN利用U型网络架构,具有用于生成器的跳过连接[30]该网络是一个标准的步幅-2卷积分类器网络,它将每层的过滤器数量加倍,直到该层为4x4,并输出一个单S形概率。暹罗网络是相同的,除了输出一个节点,而不是像判别器一样,它输出的节点数是潜在空间的大小,没有任何非线性激活。对于我们比较的周期一致性GAN,我们优化了超参数以获得我们所能获得的最佳成就,因为我们的重点是测试我们不同的损失公式。这涉及到为[39]中的模型尝试Resnet和U-Net架构:U-Net在这些任务中的表现比Resnet好得多,所以我们在这里使用它。我们还必须选择一个周期一致性系数的值,在很大程度上削弱它,以便让他们改变输入图像(0。①的人。即便如此,我们还是无法像TraVeLGAN那样获得令人信服的结果3.1. 相似结构域我们首先考虑的数据集是具有周期一致性网络的无监督域映射的传统情况,其中几乎不需要改变。这些是:从苹果到橙子[39]中苹果和橙子的照片(图3a)。TraVeLGAN不仅成功地改变了水果的颜色,还改变了水果的形状和质地。例如,苹果的茎被去掉,橙子的内部不仅仅是红色的在最后一行中,TraveLGAN将橙子的形状更改为苹果,并相应地在帧中向下移动其阴影以进行对应。梵高的风景照片梵高的肖像画和风景照片,也来自[39](图3b)。在这里,典型的梵高笔触和颜色被随意地应用或删除。值得注意的是,在最后一排,该男子的肖像被改变为岩石露头的照片,其中该男子的蓝色衣服变成蓝天,椅子变成岩石,而不是成为该男子的照片逼真版本,这将不属于风景的目标领域。浮世绘到风景照片[39]的另一个数据集,浮世绘的绘画和风景照片(图3c)。有趣的是,在生成的浮世绘图像中,TraVeLGAN正确匹配了水中山脉的反射,为山顶和反射的相应底部添加了颜色CelebA眼镜CelebA数据集过滤了戴眼镜和不戴眼镜的男性[8](图3d)。正如预期的那样,TraV-eLGAN产生了最小的改变,将图像传递到另一个域,即,在保留图像的其它方面的同时添加或移除眼镜。由于TraVeLGAN学习语义而不是逐像素的信息保留惩罚,因此在某些情况下,与域不相关的方面也被改变(如头发颜色或背景)。 在每种情况下,所得到的图像仍然是目标域中令人信服的真实图像,与原始图像具有很强的相似性。CelebA hatsCelebA数据集过滤了戴帽子和不戴帽子的男性[8](图3e)。像以前一样,TraveL-GAN添加或删除帽子,同时保留图像中的其他语义。鞋的草图图像及其草图轮廓,来自[33](图3f)。因为这个数据集是配对的(尽管它仍然像往常一样在无监督的情况下训练),我们能够用启发式方法量化TraVeLGAN的性能:TraVeLGAN生成的输出与其他域中的真实图像之间的像素均方误差(MSE)。这可以被看作是图3c的第四行中的草图,其中蓝色和黑色的鞋完美地匹配草图的轮廓,但不是实际鞋碰巧是的红色和黑色。然而,即使作为近似值,它也提供了信息。表2显示了完整的结果,虽然vanilla循环一致网络的性能最好,但TraVeLGAN也相差不远,并且比其他网络更好考虑到TraV-eLGAN不具有其他模型的严格像素损失,并且该数据集的两个域非常相似,因此更灵活的TraVeL-GAN仅与周期一致性框架类似地执行也就不足为奇了这些分数提供了一个机会来衡量改变由连体网络学习的潜在空间的大小我们看到,我们根据经验选择的默认值1000略优于一个更小更低的值.该参数控制模型的表达能力,并且分数表明提供太小的空间可能会限制学习转换的复杂性不过,分数都非常相似,这表明它对这个选择相当稳健。定量结果由于这些数据集中的两个域非常相似,因此在每种情况下使用真实图像和生成图像之间的结构相似性(SSIM)来评估每个模型是合理的这些结果列于表1中。在那里,我们可以看到TraVeLGAN的性能与循环一致性模型相当。预计基线在这些情况下表现良好,因为这些是它们首先被设计为成功的标准应用程序;即,需要对原始图像进行很少更改的域此外,预计TraVeLGAN比强制逐像素周期一致性的模型改变图像稍微多一些的8989SSIM苹果梵高浮世绘眼镜帽子TraveLGAN0.3020.1830.2220.4990.420周期0.4240.2160.2520.4630.437循环+识别0.3050.3270.2600.6080.358循环+校正0.2510.0790.0720.2300.204循环+功能匹配0.1140.1170.1250.0860.209周期+潜伏期0.2450.2600.1440.4420.382表1:相似域数据集上的真实/生成SSIM。像素MSE草图鞋TraveLGAN0.0600.267TraVeLGAN(D潜伏=100)0.0690.370TraVeLGAN(D潜伏=2000)0.0640.274周期0.0470.148循环+校正0.4270.603循环+功能匹配0.0770.394周期+潜伏期0.0720.434表2:鞋到草图数据集上的每像素MSE。TraVeLGAN执行如此相似,定量地证明了当域相似时,TraVeLGAN可以保持图像的主要质量。3.2. Imagenet:多样的域以前的数据集考虑了彼此非常相似的域接下来,我们在两个域之间进行映射,这两个域不仅彼此非常不同,而且来自分类数据集,其中表征域的对象有时只是部分地在帧中,具有许多不同的可能外观,或者在它周围有大量的杂乱。在这个最困难的任务中,我们提出从Imagenet [10]数据集中任意选择两个类。这些图像的分辨率要高得多(所有图像都被重新缩放为128x128),这使得学习只需要局部图像补丁的传输( 如 样 式 / 纹 理 传 输 ) 比 整 个 图 像 解 决 方 案 ( 如TraVeLGAN的高级语义映射)更容易我们任意地选择类,因为我们寻求一个足够灵活的框架,以便在任何域之间进行翻译,即使这些类非常不同,并且是任意选择的(与为满足特定假设而设计的特定域相反这些对是:1. abacus和填字游戏(图2a和S2)2.火山和杰克-- O型灯(图2b和S5)3.时钟和沙漏(图2c和S4)4.巨嘴鸟和岩美人(图2D和S3)。非对称域学习在算盘和填字游戏的域之间进行映射展示了任意域映射的标准特性:一个域中的可变性的量和性质大于另一个域中的可变性的量和性质。在图4中,我们看到TraveLGAN通过将算盘的珠子变成填字游戏中的白色方块,并将算盘中的字符串变成黑色方块,来学习从算盘到填字游戏的语义映射。然而,在算盘中,珠子可以以任何方式对齐图5:(a)一个真实的填字游戏图像,人工操作以移动框架周围的白色正方形。(b)TraVeLGAN在训练过程中没有看到任何这些图像,它已经学会了域之间的语义映射,可以使用填字游戏方块适当地移动算盘珠子。图6:CycleGAN生成图像,使得像素空间中的成对L2距离被强烈保留。TraVeL-GAN生成的图像在像素空间中实际上是不相关的,但连体网络学习了一个潜在空间,其中保留了成对距离。形状,而在纵横字谜只有特定的网格是可行的。转动图4中的算盘(图中有大量的珠子,这将是一个非常困难的填字游戏!)要将一个填字游戏变成一个现实的填字游戏,TraveLGAN必须将一些珠子变成黑色方块,将其他珠子变成白色方块。循环一致性损失会对抗这种一对多映射,因为对于被迫也是该生成器的逆的另一生成器来说,很难学习逆的多对一函数。因此,它学会了一个精确的、刚性的珠子到白色方块和字符串到黑色方块的映射,而代价是制作一个逼真的交叉词(图4b)。尽管背景在语义上是图像的一个重要部分,但它必须在循环后恢复所有我们注意到,TraveLGAN自动放松了珠子与填字游戏方块的一对一关系,以创建逼真的交叉单词。另一方面,任何真正的纵横字谜配置都是看似合理的算盘配置。在下一节中,我们展示了TraVeLGAN也自动发现了这种映射可以在白色方块到珠子中一对一,并系统地保留了这一点。操作图像研究接下来,我们检查TraveLGAN学习有意义的语义的8990潜在空间中的真实图像之间的对应成对距离和潜在空间中的生成图像之间的对应成对2空间我们可以看到类似的相关性(r= 0)。72)。表3:每个Imagenet数据集上每个模型的FID评分。列标签对应于图2。鉴别器分数(一)(b)第(1)款(c)第(1)款(d)其他事项TraveLGAN0.0350.2060.0740.145周期0.0140.0080.0330.008循环+身份0.0110.0440.0400.064循环+校正0.0090.1910.0260.001循环+功能匹配0.0020.0290.0660.014周期+潜伏期0.0090.0690.0470.039表4:每个Imagenet数据集上每个模型的判别器得分。列标签对应于图2。域之间的tic映射。由于Imagenet类是如此杂乱和异构,并且缺乏两个非常相似的图像形式的重复我们在填字游戏领域中拍摄了一张真实的图片,并使用标准的照片编辑软件,创建了系统的相关图片。通过这些系统相关的图像,我们可以测试TraveLGAN的映射是否在图5中,我们从一个纵横字谜开始,通过编辑换句话说,TraVeLGAN同时学习神经网络到一个空间的映射,在该空间中距离可以被有意义地保留,同时使用该映射来指导它生成逼真的图像。定量结果最后,我们增加了定量的证据,定性的证据已经提出的TraV-eLGAN优于现有的模型时,域是非常不同的。虽然我们在前面的章节中使用了SSIM和逐像素MSE来评估成功,但这两种启发式方法都不适合这些数据集。这些映射的目标不是保持图像不变,而是尽可能地与原始图像相似,而是将图像完全因此,我们使用两种不同的度量标准来定量地评估这些Imagenet数据集上的模型。一般来说,量化GAN质量是一项艰巨的任务[5]。此外,这里我们特别感兴趣的是生成的图像与原始图像逐点配对或对应的程度。据我们所知,目前还没有任何方法可以对任意领域进行定量测量,因此我们在前面的章节中进行了定性评估。然而,除了那些对应方面的定性评估,我们至少量化生成的图像如何与其他图像相似。图S2。然后,系统地,我们移动一个白色的正方形周围的网格通过每一个九个位置。在每种情况下,TraveLGAN都会生成一个带有围绕网格适当移动的珠子的空格。值得注意的是,它甚至颜色的珠子,以适应与邻近的考虑到图5中的九个特定图像在训练中都没有看到,TraVeLGAN已经清楚地学习了映射的语义,而不是记住特定的点。成对距离保持[6]已经表明,在像素空间中近似保持图像之间的成对距离可以实现与周期一致性GAN相似的性能。 事实上,他们表明,周期一致的GAN生成的图像保持了图像之间的像素成对距离,具有极高的相关性。在巨嘴鸟到岩石美女数据集上,我们观察到相同的现象(r2= 0。图6中的82)。虽然这在某些情况下产生了合理的图像,但保持图像之间的像素距离不能产生逼真的巨嘴鸟或摇滚美女。TraVeLGAN成对距离在像素空间中几乎不相关(r2= 0. 第17段)。然而,当我们看成对距离时,我们理解了siamese网络在人口水平上,用启发式分数来衡量目标域,这些分数 是 在 某 些 假 设 下 设 计 的 。 首 先 ,Fre'chetInceptionDistance(FID分数)[12]是Inception分数的改进版本(其缺陷在[5]中得到了很好的阐述),它比较了预训练Inception网络层中的真实图像和生成图像(表3)。第二个是训练分数,它从零开始训练一个训练分数,独立于训练过程中使用的那个,试图区分真实的和生成的例子(表4)。TraVeLGAN在两个指标和所有数据集上的得分都优于任何基线模型4. 讨论近年来,无监督域映射已经被建立在循环一致性假设和框架之上的方法所主导。我们已经确定,一些混乱的,异构的,不对称的域不能成功地映射之间的生成器训练这种循环一致性的方法。进一步提高域映射模型的灵活性可能需要在没有循环一致性假设的情况下进行,正如我们在这里所做的那样。FID评分(一)(b)第(1)款(c)第(1)款(d)其他事项TraveLGAN1.0260.0320.6980.206周期1.3501.2811.0180.381循环+身份1.5350.9171.2971.067循环+校正1.5190.5270.7270.6388991引用[1] M. 阿巴迪山口Barham,J.Chen,Z.Chen,中国山核桃A.Davis,J.迪恩M. Devin,S.盖马瓦特湾Irving,M. Isard等人张量流:一个大规模机器学习系统。在OSDI,第16卷,第265-283页,2016中。17[2] A. Almahairi,S. Rajeswar,A.索尔多尼山口巴赫曼,以及A.考维尔增强的循环根:从非配对数据中学习多对多映射。arXiv预印本arXiv:1802.10151,2018。二、五[3] M. Amodio 和 S. 克 里 希 纳 斯 瓦 米 Magan : Aligningbiological manifold.arXiv 预 印 本 arXiv : 1803.00385 ,2018。二、五、十七[4] A. Anoosheh , E. 阿 古 斯 特 松 河 Timofte 和 L. 范 古 尔Combogan:图像域翻译的无限可扩展性arXiv预印本arXiv:1712.06909,2017。二、五[5] S. Barratt和R.夏尔马关于Inception评分的注释arXiv预印本arXiv:1801.01973,2018。8[6] S. Benaim和L.狼单侧无监督域映射。神经信息处理系统的进展,第752-762页,2017年三、八[7] K. Bousmalis,N.Silberman,D.Dohan,D.Erhan和D.克-伊什南。无监督像素级域适应与生成对抗网络。在IEEE计算机视觉和模式识别会议(CVPR),第1卷,第7页,2017年。3[8] 大规模celebfaces属性(celeba) 数据集。http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html。访问时间:2018-10-20。6[9] Y.崔,M。崔,M。金,J. - W.哈,S。金和周杰伦Stargan:用于多域图像到图像翻译的统一生成对抗网络。arXiv预印本,1711年,2017年。二、五[10] J. Deng,W.东河,巴西-地索赫尔湖J. Li,K. Li和L.飞飞。Imagenet:一个大规模的分层图像数据库。 在计算机视觉和模式识别,2009年。CVPR 2009。IEEE会议,第248-255页。Ieee,2009年。7[11] V. Dumoulin,I. 贝尔加齐,B. 普尔O. 马斯特罗彼得罗A. Lamb,M. Arjovsky和A.考维尔逆向学习推理。arXiv预印本arXiv:1606.00704,2016。一、二[12] F re′ chet起始距离(单位:pytorch)。网址:http://github.com/mseitzer/pytorch-fid 访 问 时间:2018-10-20。八、十七[13] L. A. Gatys,A.S. Ecker和M.贝丝使用卷积神经网络的图像风格在2016年IEEE计算机视觉和模式识别会议(CVPR)上,第2414-2423页。IEEE,2016. 第1、3条[14] Y. Goldberg 和 O. 利 维 。 word2vec 解 释 说 : 推 导 出Mikolov等人的“的负采样字嵌入方法。arXiv预印本arXiv:1402.3722,2014年。三、四[15] J. 霍夫曼 E. 罗夫利, J. 多纳休 T. Darrell和K. 萨恩科域不变图像表示的有效学习arXiv预印本arXiv:1301.3224,2013。1[16] J. Hoffman,E.Tzeng,T.帕克,J. -Y. Zhu、P.Isola,K.萨延科,A. A. Efros和T.达雷尔。Cycada:周期一致的对抗域适应。arXiv预印本arXiv:1711.03213,2017。28992[17] X. Huang和S.J. 贝隆吉具有自适应实例规范化的实时任意样式传输在ICCV,第1510-1519页,2017年。1[18] P. Isola,J.- Y. Zhu,T. Zhou和A. A.埃夫罗斯使用条件对抗网络的图像到图像翻译。arXiv预印本,2017年。1[19] J. Johnson,A. Alahi和L.飞飞实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议,第694-711页。施普林格,2016年。5[20] T.金,M。Cha,H.金,J. K. Lee和J. Kim。学习发现跨域 关 系 与 生 成 对 抗 网 络 。 arXiv 预 印 本 arXiv :1703.05192,2017。二、五、十七[21] D. P. Kingma和J. BA. Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。17[22] A. Krizhevsky和G.辛顿从微小的图像中学习多层特征。技术报告,Citeseer,2009年。17[23] C. Li,H.Liu,C.Chen,Y.普湖,加-地陈河,巴西-地Henao,以及L. 卡 琳 Alice : Towards understanding adversariallearning- ing for joint distribution matching. 神经信息处理系统的进展,第5495-5503页,2017年。2[24] T.林德瓦尔关于耦合方法的讲座。C.C. Corp.,2002年。1[25] M.- Y. Liu,T. Breuel和J.考茨无监督图像到图像翻译网络。神经信息处理系统,第700-708页,2017年。一、二、三、六[26] M.- Y. Liu和O.图泽尔耦合生成对抗网络。神经信息处理系统的进展,第469-477页,2016年。一、二[27] Y.卢,Y.- W. Tai和C.- K.唐用于属性引导的人脸图像生 成 的 条 件 cyclegan 。 arXiv 预 印 本 arXiv :1705.09966,2017。二、五[28] I. Melekhov,J.Kannala和E.拉图用于图像匹配的暹罗网络模式识别(ICPR),2016年第23届国际会议,第378IEEE,2016. 5[29] E.- J. Ong,S. Husain和M.鲍勃用于图像检索的深度向量 描 述 符 的 连 体 网 络 。 arXiv 预 印 本 arXiv :1702.00338,2017。5[30] O.龙内贝格山口Fischer和T.布洛克斯U-net:用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议,第234-241页。施普林格,2015年。6、17[31] A. Royer,K.Bousmalis,S.Gouws,F.伯奇岛莫雷西F. Cole和K.墨菲Xgan:用于多对多映射的无监督图像到图像转换。arXiv预印本arXiv:1711.05139,2017。二三五[32] P. Russo,F. M. Carlucci,T. Tommasi和B.卡普托从源到目标再返回:对称双向自适应GaN。arXiv预印本arXiv:1705.08824,2017。1[33] 伊根。https://github.com/junyanz/iGAN/tree/master/train_dcgan.2019-02-01. 6[34]C. 塞格迪 W. 刘先生, Y. 贾, P. Sermanet S.里德D.安格洛夫,D。Erhan,V. Vanhoucke,和A. 拉比诺维奇。8993更深的回旋。在IEEE计算机视觉和模式识别会议论文集,第1-9页,2015年。17[35] Y. Taigman、A. Polyak和L.狼无监督跨域图像生成。arXiv预印本arXiv:1611.02200,2016。1[36] T. Yao,Y.潘角,澳-地W.恩戈,H. Li和T.美.基于子空间学习的半监督域自适应视觉识别.在IEEE计算机视觉和模式识别会议论文集,第2142-2150页,2015年。1[37] Z. Yi,H.R. Zhang,P.Tan和M.龚Dualgan:用于图像到图像翻译的无监督双重学习在ICCV,第2868-2876页二、三[38] W. Zhang C.,中国古猿科Cao,S.陈,J.刘,和X。唐通过 图 像 成 分 分 析 进 行 风 格 IEEE Transactions onMultimedia,15(7):1594-1601,2013。1[39] J. - Y. Zhu,T.帕克山口Isola和A.A. 埃夫罗斯使用循环一致对抗网络的不成对arXiv预印本,2017年。二五六十七
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功