没有合适的资源?快使用搜索试试~ 我知道了~
1i=1单边无监督域映射傅欢1龚明明2,3王朝辉4KayhanBatmanghelich2张昆3陶大成11悉尼大学人工智能中心,计算机科学学院,FEIT,悉尼大学,达林顿,新南威尔士州2008年2匹兹堡大学生物医学信息学系3卡内基梅隆大学4Uni versite′ P-Est,LIGM(UMR 8049),CNRS,ENPC,ESIEEP aris,UPEM,Marne-la-Valle′ e,France{hufu6371@uni.,dacheng.tao@} sydney.edu.au{mig73,kayhan}@ pitt.educhaohui.wang u-pem.frkunz1@cmu.edu摘要无监督域映射旨在学习函数GXY,以便在没有配对示例的情况下将域X转换为Y 在没有配对数据的情况下,寻找最优GXY是一个不适定问题,因此需要适当的约束。寻求合理的解决方案。虽然一些重要的约束,如循环一致性和距离保持,成功地约束了解空间,但它们忽略了图像的特殊性质,即简单的几何变换不会改变图像基于这种特殊性质,我们开发了一个几何一致的生成对抗网络(Gc-GAN),它可以实现单侧无监督域映射。GcGAN以原始图像和通过预定义的几何变换变换的对应图像作为输入,并在新的域中生成两幅图像,再加上相应的几何一致性约束。几何一致性约束减少了可能解的空间,同时将正确解保留在搜索空间中。与 基 线 ( 单 独 的 GAN ) 和 最 先 进 的 方 法 ( 包 括CycleGAN [66]和DistanceGAN [5])的定量和定性比较证明了我们方法的有效性。1. 介绍域映射或图像到图像翻译,其目标是将图像从一个域翻译到另一个域,在过去的几年中得到了广泛的研究设X∈ X表示源域图像的随机变量,Y∈ Y表示目标域图像。根据我们是否有机会获得配对样本{(xi,yi)} ,域映射可以在超有监督或无监督的方式。虽然有几项工作已经成功地通过专注于跨域图像对提供的约束的监督域映射来产生高质量的翻译[46,26,59,58],但无监督域映射的进展相对缓慢。在无监督域映射中,目标是在给定从各个域中的边缘分布PX和PY中提取的样本的情况下对联合分布PXY进行由于这两个边际分布可以从无限多个可能的联合分布中推断出来,以保证单个输入x∈X和输出GXY(x)以有意义的方式配对,而没有附加的假设或约束。为了解决这个问题,最近的方法已经利用了循环一致性假设,即,映射GXY及其逆映射 GYX应该是双射[66,28,61]。具体地说,当输入一个例子x∈X时,进入网络GXY→GYX:X→Y→X,输出应该是x重构,对于y,反之亦然,即,GYX(GXY(x))<$x和GXY(GYX(y ))<$y 。此外,DistanceGAN [5]表明,保持域内图像之间的距离允许单侧非监督域映射。现有的约束忽略了图像的特殊性质,即简单的几何变换(没有形状变形的全局几何变换)不会改变图像的语义结构。在这里,语义结构是指区分不同对象/人员类别的信息,这些信息可以很容易地被人类感知,而不管诸如旋转之类的琐碎几何变换基于这个性质,我们开发了一个几何一致性约束,这有助于减少可能的解决方案的搜索空间,同时仍然保持考虑中的正确的解决方案集,并导致几何一致性生成对抗网络(GcGAN)。我们的几何一致性约束的动机是24272428XYXYXYXYi=1j=1输入Ground Truth GAN alone GAN alone(rot)GcGAN GcGAN(rot)图1:几何一致性。 原始输入图像由x表示,并且预定义函数f(·)是顺时针旋转90度(rot)。 GAN单独:G1(x)。 GAN单独(rot):f −1(G1(f(x)))。GcGAN:G2(x)。 GcGAN(rot):f −1(G2(f(x))。可以看出GAN单独产生几何上不一致的输出图像,指示学习的GXY和GXXY_x与正确的映射函数相差通过强制几何一致性,我们的方法导致更明智的域映射。如果X和Y分别是通过将f(·)应用于X和Y的例子而获得的域,则输入图像之间的给定几何变换f(·)应该由相关的变换器GXY和GX<$Y<$保持。在数学上,给定来自源域X的随机示例x和预定义的几何变换函数f(·),可以表示几何一致性y作为f(GXY(x))<$G<$$>(f(x))和f−1(G<$$>(f(x)<$文献的完整性[46,31,26,59,56,58,25,37,4,10]有监督的域映射。一个代表性的例子是条件GAN [26],它学习了判别器来区分(x,y)和(x,GXY(x))而不是y和GXY(x),其中(x,y)是跨域的有意义的对。此外,Wanget al.[59]表明,条件GANs可用于生成具有新特征匹配损失的高分辨率图像,以及多尺度生成器和分布式G(x),其中f−1XYXYcriminator architectures.虽然有重大的XY(·)是f(·)的逆函数。是-因为GXY和GXX Y不太可能落在在同一位置上,GXY和GX Y通过几何一致性约束相互协调,从而在各自的trans-n的局部区域中(见图1)。我们的几何一致性约束允许单侧无监督的域映射,即,GXY可以独立于GYX进行训练。本文以两个简单但有代表性的几何变换为例,垂直翻转(VF)和90度顺时针旋转(ROT),以说明几何形状的一致性。与基线(单独的GAN)和最先进的方法(包括CycleGAN [66]和Distance-GAN [5])的定量和定性比较证明了我们方法的有效性。2. 相关工作生成对抗网络。 生成对抗网络(GAN)[21,45,14,47,51,3]学习两个网络,即,生成器和鉴别器,以分阶段的零和游戏方式从输入生成图像。最近已经基于深度卷积GAN开发了许多任务,例如图像修复,风格转换和域自适应[7,62,46,48,31,60,9,52,23,24]。53、64、27、50、19、18、35、63]。支持GAN的关键组件是对抗性约束,它强制生成的图像与真实图像无法区分。域映射。最近的对抗域映射已经以监督或无监督的方式进行了研究监督域映射的进展,许多真实世界应用程序不能提供跨域的对齐图像因此,在缺乏训练对的情况下,已经提出了用于图像到图像翻译的不同约束和框架。在无监督域映射中,仅提供单个域中的未对齐不成对域映射有着悠久的历史,最近在对抗网络中取得了一些成功[40,66,5,39,42,38、6、11]。例如,Liu和Tuzel [40]引入了耦合GAN(CoGAN),通过强制执行权重共享约束来学习跨域表 示 。 随 后 , CycleGAN [66] , DiscoGAN [28] 和DualGAN[61]强制翻译器GXY和GYX应该是双射。因此,通过强制循环一致性来联合学习GXY和GYX从那时起,许多约束和约束被提出来改善循环一致性 [8、17、24、32、34、11、2、67、20、44、39、36、1]。最近,Be-naim和Wolf [5]报告称,保持域内样本之间的距离允许单侧非监督域映射。GcGAN也是一个单边框架,加上我们的几何一致性约束,并产生竞争力,甚至更好的翻译比双边CycleGAN在各种应用程序。3. 预赛设X和Y是两个具有不成对训练前的域,关于配对或未配对的输入。有一个瓦-样本{xi}N且{yj}M,其中xi和yj是dra wn2429/女/女我我我J我i=1j=1塞吉&G.E.F&=(J)P(i, j)P(J,J)=(i)分享jij参数&KiGEOFOJK&=-1(JK)循环一致性循环重建保留P3距离一致性保存=3为了几何一致性&我&*/1*/1&*/1&*/1&我JK&*/1*/1CycleGAN距离GANGcGAN图2:CycleGAN [66],DistanceGAN [5]和我们的GcGAN之间的差异说明。x和y分别是来自域X和Y的随机示例。 d(xi,xj)是图像xi和xj之间的距离。 f(·)是预定义的几何变换图像的函数,满足f −1(f(x))= f(f −1(x))= x。 G和GXY是生成器(或翻译器),从X到Y和从X到Y的域转换任务,其中X和Y是通过对所有图像应用f(·)而获得的两个域分别在X和YDY是域Y中的一个对抗性域。红色虚线表示关于循环一致性(x <$GY X(GXY(x)、距离一致性(x<$GY X(GXY(x)和我们的几何一致性(f(GXY(x))<$GX<$Y<$(f(x)的无监督约束。从边缘分布PX和PY,其中X和Y是与X和Y相关的两个随机变量,re-boundary。在本文中,我们利用风格转移没有不良的语义扭曲,有两个目标。第一、我们需要学习映射GXY,使得GXY(X)具有与Y相同的分布,即,PGXY(X)PY。第二,学习的映射函数只改变图像风格而不扭曲语义结构。虽然自CycleGAN的成功以来,许多作品已经为令人信服的映射建模了GXY和GYX之间的可逆性,但在这里,我们建议将几何一致性作为一个约束来强制执行,该约束允许单侧做,主映射设f(·)是预定义的几何变换。4.1. 无监督约束循环一致性约束。遵循循环一致性假设[28,66,61] , 通 过 翻 译 器 GXY<$GYX : X→Y→X 和GYX<$GXY:Y→X → Y,域X和Y中的示例x和y应该恢复原始图像,即,x<$GYX(GXY(x))和y<$GXY(GYX(y))。循环一致性通过需要GXY的双向重建过程和GYX被联合学习,如图2所示(周期- GAN)。循环一致性损失Lcyc(GXY,GYX,X,Y)的形式为:Lcyc=Ex<$PX [<$GYX(GXY(x))−x <$1]阵 我们可以得到两个额外的区域X和Y+EyPY[GXY] (GYX(一)(y))−y1]。其中通过将f(·)应用于X 和 Y 分 别 。 我 们 学 习 了一 个额 外 的transla-torGXY :X<$→Y<$,同时学习GXY:X→Y,并介绍了我们的基于几何一致性约束的在预定义的变换上,使得两个网络可以彼此共正则化。我们的框架要求GXY(x)和GX<$ Y<$(x<$)保持与x和x<$之间的几何变换相同的几何变换,即,f(GXY(x))<$GX<$ Y<$(x<$),其中x<$=f(x)。 将两个自适应判别式分别表示为关于域Y的DY和DY_n,以及关于域Y的DY_n,以及关于域Y的DY_n。距离限制。 距离背后的假设约束是两个例子xi和域X中的xj在映射到域Y之后应该被保留,即,d(xi,xj)=a·d(GXY(xi),GXY(xj))+b,其中d(·)是测量两个示例之间的距离的预定义函数,a和b是线性系数和偏见。在DistanceGAN [5]中,距离一致性损失Ldis(GXY,X,Y)是距离之间的绝对差异的例外:L dis=Exi,xj<$PX[|φ(xi,xj)−φ(xi,xj)|]的,14. 该方法φ(xi,xj)=X(xi−xj<$1−µX),(二)塞吉GEFJ&我GFE&&我JJGFE&JGEFJ&&J/FO/E/女GEF/女GEFJJJJJJJ我我J我JXYσ2430我们提出了我们的几何一致性约束和Gc-GAN开始审查的周期一致性约束,1n(xi,xj)Y(孟加拉国)XY(xi)−GXY(xj)<$1−µY),约束和距离约束。图2显示了这些约束之间的差异。其中,µX,µY(σX,σY)是所有可能的(xi,xj)对距离的平均值(标准偏差),σ2431XY域X和域Y内的(yi,yj),关于ively。4.2. 几何一致生成对抗网络对抗性约束。以GXY为例,对抗性损失Lgan(GXY,DY,X,Y)[21]强制GXY和DY在最小-最大博弈中同时优化对方,即,minGXY maxDYLgan(GXY,DY,X,Y).换句话说,DY旨在将真实示例{y}与翻译样本{GXY(x)}区分开。相比之下,GXY旨在愚弄DY,以便DY可以标记一个假例子y′=GXY(x)作为满足y′≠PY的样本。目标可以表示为:我在模特训练中。仔细调整λ可以为特定的翻译任务提供更好的结果。网络架构。我们的GcGAN的完整框架如图2所示。我们 的 实 验 设 置 , 网 络 架 构 和 学 习 策 略 遵 循 Cy-cleGAN。我们根据具体任务采用与CycleGAN具体地说,生成器是一个标准的编码器-解码器,其中编码器包含两个步幅为2的卷积层和几个残差块[22](相对于128×128/256×256的输入分辨率),解码器包含两个解卷积层,步长也为2。Lgan=EyPY[logDY(y)](三)该算法在PatchGAN之后的补丁级别区分图像[26,33]。像CycleGAN一样,我们也+Ex<$PX [log(1 − DY(GXY(x)]。在变换域X和Y中,我们使用adversarial lossLgan(G,D,X,Y )具有相同的在 我 们 所 有 的 实 验 中 使 用 身 份 映 射 损 失 [55]( SVHN→MNIST 除 外 ) , 包 括 我 们 的 基 线 ( 仅GAN)。对于其他细节,我们使用LeakyReLU作为非线性-形式为Lgan(GXYYXY,DY,X,Y)。判别器和实例归一化的有效性[57]to normalize规范化convolutional卷积feature特征map地图.几何一致性约束。如图2(GcGAN)中所示,给定预定义的几何变换函数f(·),我们将图像x∈X和x∈=f(x)馈送到转换器GXY和GX∈Y,相对于iv ely。 根据我们的几何一致性约束,输出y′= GXY(x)和y′=Gf(x)也应该满足y′f(y′),如x和x。考虑f(·)和逆几何置换函数f−1(·),我们的完全几何相容损失Lgeo(GXY,GX<$Y<$,X,Y)具有以下形式:学习和推理。我们使用亚当求解器[29],学习率为0。0002和系数(0.5,0.999),其中后者用于计算gra-1及其平方的移动平均值学习率在最初的100个epoch中是固定的,并且在接下来的100个epoch中线性衰减到零在CycleGAN之后,负对数像是-对于Lgan,用更稳定和有效的最小二乘损失[43]代替罩目标。从历史上产生的即时通讯中随机抽取样本,对数据进行更新Lgeo =ExPX[GXY] (x)−f−1(GXY (f(x)[1](四)年龄存储在大小为50的图像缓冲器[54]发电机+ExPX[<$GX<$ Y<$(f(x))−f(GXY(x))<$1]。并且交替地优化每个节点在推论中阶段,我们只将图像输入到学习生成器中这种几何一致性的损失可以被视为一种侦察,依赖于预定义的几何变换函数f(·)的结构损失。在本文中,我们仅以两种常见的几何变换,即垂直翻转(vf)和90°顺时针旋转(rot)为例,来证明我们的几何变换的有效性consistenc y constraint.请 注意,GXY和GXXY具有相同的架构并共享所有参数。目标明确通过将我们的几何一致性约束与标准对抗性约束相结合,可以针对可标记的单侧无监督域映射。我们的GcGANLGcGAN(GXY,GXY,D Y,DY,X,Y)的完整目标将是:LGcGAN= Lgan(GXY,DY,X,Y)GXY以获得平移图像。5. 实验我们将我们的GcGAN应用于广泛的应用,并与基线( 单 独 的 GAN ) 和 以 前 的 最 先 进 的 方 法 ( 包 括DistanceGAN和CycleGAN)进行定量和定性比较。我们还研究了不同的消融(基于rot)来分析我们的几何一致性约束由于对抗性网络并不总是稳定的,每个独立的实验都可能导致略微不同的分数。定量分析中的分数通过三个独立实验的平均值计算。5.1. 定量分析+Lgan(GX<$ Y<$,DY<$,X,Y)+λLgeo(GXY,GX<$ Y<$,X,Y),(五)实验结果表明,该几何一致性约束不仅可以部分过滤掉候选序列,其中λ(λ=20. 0)是权衡超参数,以加权L_gan的贡献,并且具有模式崩溃或语义扭曲的解决方案,从而产生更合理的翻译,但也兼容,2432单独输入地面实况GAN CycleGAN GcGAN输入Ground Truth GAN单独GcGAN输入Ground Truth GAN单独GcGAN图3:Cityscapes(解析图像)和Google地图(地图航拍)的定性比较。GAN单独遭受模式崩溃。GcGAN翻译的图像包含更多细节。GcGAN=GAN单独+几何一致性。与其他无监督约束(如循环约束[66]和距离保持[5])兼容。城市景观。Cityscapes [12]包含3975个图像标签对,其中2975个用于训练,500个用于验证(本文中的测试)。为了与CycleGAN进行公平的比较,翻译器在128×128英寸的分辨率下进行了培训。不结盟的方式我们评估我们的域映射器-ing FCN分数和场景解析度量遵循先前的工作[41,12,66]。具体来说,对于解析→图像,我们假设高质量的翻译图像应该像真实图像当把它输入到场景解析器时。因此,我们使用pix 2 pix[26]提供的预训练的FCN-8 [41]来预测 500个翻译图像的语义标签 的估计距离。然后,使用上述指标来评估我们在19个类别标签上的映射。解析分数如表1所示。我们的Gc-GAN比基线(单独的GAN)有很大的优势。我们将像素准确度、类别准确度和平均IoU的平均值作为分析的最终得分[65],即,得分=(像素acc+类别acc+平均IoU)/3。为了我-age→ parsing,GcGAN(32. 6%)收益率略高CycleGAN(32. 0%)。对于解析→图像,Gc- GAN(29. 0%的29。5%)获得令人信服的改善1。百分之三点一。8%超过距离GAN(27. 7%)。我们接下来进行消融研究以进一步讨论Gc-GAN。评分报告见表1。具体地说,GcGAN-rot-Seperate表明,GcGAN中使用的生成器GXY足以处理样式转换和然后将标注地图的大小调整为原始分辨率,边界(无形状变形)X→Y和X→ Y→Y。1024×2048,并与地面实况标签进行使用一些标准场景解析度量,准确度、类别准确度和平均IoU [41]。 用于图像→解析,由于假标签是RGB格式的,我们只需使用最近邻搜索策略将它们转换为类级标签特别是,我们有19个(类别标签)+1个(忽略标签)类别的城市景观,每个类别都有相应的颜色值(RGB)。对于翻译解析中的像素i,我们计算20个地面实况颜色值和像素I. 像素i的标签应该是具有小-GcGAN-Mix-{comb,rand}证明了坚持一个几何变换可以过滤掉大部分的candi,数据解具有模式崩溃或不期望的形状变形,但保留更多的模式不会浸出更多。此外,GcGAN-Mix-rand的性能略差于GcGAN-Mix-comb。其中一个可能的原因是,在随机情况下,Xrot→Yrot或Xvf→Yvf都是经过充分训练的,这将降低前面的效果。提到的共正则化机制。 对于GcGAN-rot+ 循 环 , 我 们 将 L cyc 的 权 衡 参 数 设 置 为 10 。 在CycleGAN上发布的0持续的改善是一个2433方法图像→解析解析→图像像素访问类累积平均IoU像素访问类累积平均IoU基准收益CoGAN [40]0.450.110.080.400.100.06BiGAN/ALI [15,16]0.410.130.070.190.060.02SimGAN [54]0.470.110.070.200.100.04CycleGAN(循环)[66]0.580.220.160.520.170.11DistanceGAN [5]---0.530.190.11GAN单独给药(基线)0.5140.1600.1040.4370.1610.098GcGAN-腐烂0.5740.2340.1700.5510.1970.129GcGAN-vf0.5760.2320.1710.5480.1960.127消融研究(耐用性和兼容性)LGcGANw/oLgeo(λ=0)0.4860.1630.1020.3960.1480.088LGcGANw/oLgan(X,Y)0.5490.1990.1390.5260.1840.111GcGAN-rot-分离0.5750.2330.1700.5450.1960.124GcGAN-Mix-comb0.5730.2290.1680.5450.1970.128GcGAN-Mix-rand0.5640.2170.1560.5470.1920.123GcGAN-rot+循环0.5870.2460.1820.5570.2010.132表1:城市景观的景观规划。 LGcGAN:等式1中的对象iv e。 五是要抓。GcGAN-rot-Separate:GXY和GXY不共享参数。GcGAN-Mix-comb:在每次迭代中使用vf和rot训练GcGAN。GcGAN-Mix-rand:在每次迭代中使用随机选择的vf和rot训练GcGAN。GcGAN-rot+ Cycle:具有循环一致性约束的GcGAN-rot方法类别访问(%)基准收益DistanceGAN(距离)[五]《中国日报》26.8CycleGAN(循环)[66]26.1自我距离[5]25.2GcGAN-腐烂32.5GcGAN-vf33.3消融研究(兼容性)循环+距离[五]《中国日报》18.0GcGAN-rot+ Dist.34.0GcGAN-rot+循环33.8GcGAN-rot+ Dist. +周期33.2表2:SVHN→ MNIST的定量评分可信的支持,我们的几何一致性约束是兼容的广泛使用的循环一致性约束。此外,当在L GcGAN中设置λ=0时,更好的翻译。SVHN→MNIST。我们将我们的方法应用于SVHN→MNIST翻译任务。翻译模型分别在SVHN和MNIST训练集中包含的73257和60000个分辨率为32×32的活泼地实验设置遵循DistanceGAN [5],包括Lcyc和Ldis的默认折衷参数。在这个翻译任务中,我们将我们的GcGAN与DistanceGAN和Cy- cleGAN进行了比较 为了获得定量的再-结果,我们将翻译的图像馈送到在MNIST训练分割上训练的预训练分类器中,如[5]中所做的那样。分类准确度报告见表2。GcGAN-rot和GcGAN-vf的性能 都 大 大 优 于 DistanceGAN 和 CycleGAN ( 约 6%-7%)。 从消融来看,将我们的几何一致性约束添加到当前的无监督域映射框架中,实现了相对于原始系统的不同程度的改进。 注意,距离保持GXY和GYX表现不佳。 其中一个可能的原因-儿子是,没有几何一致性约束,联合建模X→Y和X→Y→Y与共享的生成器GXY将降低性能,因为做,几何变换引起的主要变形当移除Lgan(GX<$Y<$,DY<$)时,获得的分数远高于基线(单独GAN),因为Y′可以部分地修正Y′ ,使得GXY能够处理地图-pingX→Y,则Y′可以约束映射X→Y。作为分析,当学习Lgan(GXY,DY)和Lgan(GXY,DY)与Lgeo时,共规则化有助于生成2434约束与循环一致性约束在此任务上不兼容,但我们的几何一致性约束可以改进这两个约束。谷歌地图。我们从谷歌地图中获得了2194对(地图,航拍)纽约市及其周边地区的图像[26],并将其分为训练集和测试集,分别为1096和1098对。我们训练地图sodily航拍照片使用训练的图像大小为256×256的翻译器通过忽略配对信息以无监督方式(未配对)设置。 对于航拍→地图,我们制作com-2435DistanceGAN [5] GcGAN图4:SVHN→ MNIST的定性比较。使用平均RMSE和像素精度(%)的CycleGAN型坯。给定一个像素i,值(ri,gi,bi)和预测的RGB值(r′,g′,b′),if分别为。我们发现,在没有参数共享的情况下训练GcGAN合成的,真实的。 我们使用2975个训练图像,从城市景观作为现实世界的场景,并随机选择,从SYNTHIA-CVPR 16 [49]中选择3060个图像作为合成图像,SYNTHIA-CVPR 16是一个虚拟城市场景基准。夏天慢慢地变成了冬天。本赛季使用的图像trans-任务由CycleGAN提供训练集夏季和冬季的尺寸分别为1273和854。摄影艺术绘画。我们将自然图像转化为具有不同艺术风格的艺术绘画,包括莫奈,塞尚梵高浮世绘 我们还执行GC-′ ′ ′我我我x xx(|ri−ri|、|gi−gi|、|bi−bi|)<δ,我们认为这是准确的预测。由于地图只包含有限的由于RGB值的数量不同,因此使用该策略计算像素精度是 合 理 的 (本文中δ1=5和δ2=10)。对于Map→Aerial photo,我们只在图3中显示了一些定性结果。方法RMSEacc(δ1)acc(δ2)基准收益CycleGAN [66]28.1541.863.7GAN单独给药(基线)33.2719.342.0GcGAN-腐烂28.3141.263.1GcGAN-vf28.5037.358.9消融研究(耐用性和兼容性)GcGAN-rot-分离30.2540.760.8GcGAN-Mix-comb27.9842.864.6GcGAN-rot+循环28.2140.663.5表3:航空照片→地图的定量评分。从表3中给出的评分来看,GcGAN产生了优于基线(单独GAN)的翻译特别地,GcGAN产生18。0%,21。9%的改善,当δ = 5时,相对于像素精度的基线。0,证明了我们的GcGAN包含更多细节。此外,与CycleGAN相比,GcGAN实现了竞争性得分。5.2. 定性评价定性结果见图3、图4和图5。我们的几何一致性约束改进了GAN单独的训练,并有助于在各种应用程序上生成更令人印象深刻的翻译。以下应用程序在图像大小为256×256的旋转几何变换。马→斑马。我们将GcGAN应用于广泛研究的对象变换应用任务,即,马→斑马。这些图像是从ImageNet [13]中随机抽样的。搜索关键字(即,野马和斑马)。马和斑马的训练图像数分别为939和1177,GAN的翻译任务是莫奈我们使用的照片和绘画(莫奈:1074年,塞尚:584,梵高:401、浮世绘:第1433章和我一起tographs:6853)由CycleGAN收集用于训练。白天慢慢地黑夜。我们从[30]捕获的91个网络摄像头序列中随机提取了4500个白天和夜晚6. 结论在本文中,我们提出了强制几何一致性作为无监督域映射的约束,这可以被看作是一个预定义的几何变换f(·)保持场景的几何。几何一致性约束使平移网络原始图像和变换后的图像彼此共正则化,这不仅为标准GAN遭受的模式崩溃问题提供了有效的补救措施,而且还减少了翻译中的语义失真。我们评估我们的模型,即。几何一致性生成对抗网络(GcGAN),在各种应用中的定性和实验结果表明,GcGAN实现了具有竞 争 力 的 翻 译 , 有 时 甚 至 比 包 括 DistanceGAN 和CycleGAN在内的最先进的方法更好最后,我们的几何一致性约束是兼容的其他研究良好的无监督约束。7. 确认这 项 研 究 得 到 了 澳 大 利 亚 研 究 委 员 会 项 目 FL-170100117、DP-180103424和IH- 180100002的支持。这 项 工 作 得 到 了 SAP SE 和 CNRS INS 2 I-JCJC-INVISANA的部分支持。这项工作得到了NIH奖号1 R01 HL 141813 - 01、NSF 1839332 Tripod+X和SAP SE的部分支持。我们感谢NVIDIA公司捐赠Titan X PascalGPU用于本研究的支持。我们也感谢匹兹堡超级计算基金会提供的计算资源,基金号为TG-ASC 170024。2436马→斑马莫奈→照片输入CycleGANGcGAN输入CycleGANGcGAN真实→合成合成→真实输入GAN单独GcGAN输入GAN单独GcGAN冬季→夏季夏季→冬季输入GAN单独GcGAN输入GAN单独GcGAN照片→艺术绘画摄影莫奈塞尚梵高浮世绘日→夜→天输入GcGAN输入GcGAN输入GcGAN输入GcGAN图5:不同应用程序的定性结果,包括Horse→ Zebra,Monet→ Photo,Synthetictodily Real,Summartodily Winter,Photo→Artist Painting和Daytodily Night。GcGAN具有生成逼真图像的潜力。放大以获得更好的视图。2437引用[1] Amjad Almahairi、Sai Rajeswar、Alessandro Sordoni、Philip Bachman和Aaron Courville。增强的循环根:从非配对数据学习多对多映射。ICML,2018。2[2] Asha Anoosheh、Eirikur Agustsson、Radu Timofte和LucVan Gool。Combogan:图像域转换的无限制可扩展性。在CVPRW,2018年。2[3] 马 丁 ·阿 乔 对 ky , 苏 米 特 ·钦 塔 拉 和 Le'onBottou 。Wasserstein gan arXiv预印本arXiv:1701.07875,2017。2[4] Samaneh Azadi , Matthew Fisher , Vladimir Kim ,Zhaowen Wang,Eli Shechtman,and Trevor Darrell.多内容甘为少数拍摄字体风格转移。在CVPR,2018年。2[5] Sagie Benaim和Lior Wolf。单侧无监督的域映射。在NIPS,2017年。一、二、三、五、六、七[6] Sagie Benaim和Lior Wolf。一次性无监督跨域翻译。NIPS,2018年。2[7] Konstantinos Bousmalis , George Trigeorgis , NathanSilber-man,Dilip Krishnan,and Dumitru Erhan.域分离网络。在NIPS,2016年。2[8] 张 惠 文 , 卢 静 万 , 余 菲 , 亚 当 · 芬 克 尔 - 斯 坦 .Pairedcyclegan:不对称的风格转移适用于应用和卸妆。在CVPR,2018年。2[9] 陈冬冬、卢远、廖静、余能海、华刚。立体神经风格转移。在CVPR,2018年。2[10] Qifeng Chen和Vladlen Koltun。用级联细化网络进行摄影图像合成。InICCV,2017. 2[11] Yunjey Choi,Minje Choi,Munyoung Kim,Jung-WooHa,Sunghun Kim,and Jaegul Choo. Stargan:用于多域图像到图像翻译的统一生成对抗网络。在CVPR,2018年。2[12] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。InCVPR),2016. 5[13] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,2009。7[14] Emily L Denton,Soumith Chintala,Rob Fergus,et al.深度生成图像模型使用?对抗网络的拉普拉斯金字塔。2015年,在NIPS中。2[15] Je f fDonahue,PhilippK raühenbuühl,和Tr ev或Darrell。对抗 性 特 征 学 习 。 arXiv 预 印 本 arXiv : 1605.09782 ,2016。6[16] Vincent Dumoulin 、 Ishmael Belghazi 、 Ben Poole 、Olivier Mastropietro 、 Alex Lamb 、 Martin Arjovsky 和Aaron Courville。逆向学习推理。arXiv预印本arXiv:1606.00704,2016。6[17] Aaron Gokaslan , Vivek Ramanujan , Daniel Ritchie ,Kwang In Kim和James Tompkin。改进无监督图像到图像翻译中的形状ECCV,2018年。22438[18] 龚明明,张昆,黄碧伟,克拉克·格雷-穆尔,陶大成,Kayhan Batmanghelich。因果生成域适应网络。arXiv预印本arXiv:1804.04333,2018。2[19] Mingming Gong , Kun Zhang , Tongliang Liu ,DachengTao,ClarkGlymou r,andBernhardScho¨ l kopf. 具有条件可转移组件的域自适应在ICML,第2839-2848页,2016中。2[20] Abel Gonzalez-Garcia、Joost van de Weijer和YoshuaBen- gio。用于跨域分离的图像到图像转换。NIPS,2018年。2[21] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS,2014。二、四[22] Kaiming He,Xiangyu Zhang,Shaoying Ren,andJian Sun. 用 于 图 像 识 别 的 深 度 残 差 学 习 。 在CVPR,2016年。4[23] Judy Hoffman 、 Eric Tzeng 、 Taesung Park 、 Jun-Yan Zhu 、 Phillip Isola 、 Kate Saenko 、 Alexei AEfros和Trevor Darrell。Cycada:周期一致的对抗性结构域适应。ICML,2018。2[24] Xun Huang ,Ming-Yu Liu ,Serge Belongie, andJan Kautz.多模态无监督图像到图像翻译。ECCV,2018年。2[25] 矶兼孝弘,大仓文雄,井出彩香,松下泰之,八木泰志.通过多视图图像到图像转换的概率植物建模。CVPR,2018年。2[26] Phillip Isola , Jun-Yan Zhu , Tinghui Zhou , andAlexei A Efros.使用条件对抗网络的图像到图像翻译。在CVPR,2017年。一二四五六[27] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。在ECCV,2016年。2[28] Taeksoo Kim、Moonsu Cha、Hyunsoo Kim、JungKwon Lee和Jiwon Kim。学习发现跨域关系与生成对抗网络。ICML,2017。一、二、三[29] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。4[30] Pierre-Yves Laffont , Zhile Ren , Xiaofeng Tao ,Chao Qian,and James Hays.瞬态属性为高层次的理解和编辑的户外场景。ACM TOG,33(4):149,2014。7[31] ChristianLedig,Lucas Theis,Ferenc Huszar,JoseCaballero , AndrewCunningham , AlejandroAcosta,Andrew Aitken,Alykhan Tejani,JohannesTotz,Z
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 最优条件下三次B样条小波边缘检测算子研究
- 深入解析:wav文件格式结构
- JIRA系统配置指南:代理与SSL设置
- 入门必备:电阻电容识别全解析
- U盘制作启动盘:详细教程解决无光驱装系统难题
- Eclipse快捷键大全:提升开发效率的必备秘籍
- C++ Primer Plus中文版:深入学习C++编程必备
- Eclipse常用快捷键汇总与操作指南
- JavaScript作用域解析与面向对象基础
- 软通动力Java笔试题解析
- 自定义标签配置与使用指南
- Android Intent深度解析:组件通信与广播机制
- 增强MyEclipse代码提示功能设置教程
- x86下VMware环境中Openwrt编译与LuCI集成指南
- S3C2440A嵌入式终端电源管理系统设计探讨
- Intel DTCP-IP技术在数字家庭中的内容保护
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功