没有合适的资源?快使用搜索试试~ 我知道了~
8012TransGaGa:几何感知的无监督图像到图像翻译Wayne Wu1 Kaidi Cao2 Cheng Li1 Chen Qian1 Chen ChangeLoy31 SenseTime Research2斯坦福大学3南洋理工大学{wuwenyan,chengli,qianchen}@sensetime.comkaidicao@cs.stanford.educcloy@ntu.edu.sg图1:我们提出了一个几何感知框架,用于无监督的图像到图像的翻译,它对域之间的任意形状变化具有鲁棒性。我们展示了近刚性和非刚性物体的结果。(左)从CAD模型渲染的奶牛和猎豹。(中)来自野外数据集的猫和人脸。(右)Flickr上的马和长颈鹿。摘要无监督图像到图像翻译旨在学习-1. 介绍我将是你的镜子。如果你我将是风,雨和日落。门上的灯表明你在家。在两个视觉域之间进行映射。然而,在这方面,学习跨越大的几何变化的平移总是以失败而告终。在这项工作中,我们提出了一种新的解开和翻译框架,以解决复杂的对象图像到图像的翻译任务。我们不是直接学习图像空间上的映射,而是将图像空间分解为外观空间和几何潜空间的笛卡尔积具体来说,我们首先引入几何先验损失和条件VAE损失,以鼓励网络学习独立但互补的表示。然后分别在外观和几何空间上构建平移。大量的实验表明,我们的方法优于其他国家的最先进的方法,特别是在具有挑战性的近刚性和非刚性物体的翻译任务的性能。此外,通过采用不同的范例作为应用参考,我们的方法还支持多模态翻译 。 项 目 页 面 : https://wywu.github 。io/projects/TGaGa/TGaGa.htmlLou Reed无监督图像到图像翻译的目的是在没有任何成对监督的情况下学习两个不同图像域之间的翻译。图像平移的概念已广泛应用于彩色化[47],超分辨率[22,43]和风格转移[9]。早期的作品展示了深层神经网络在传递局部纹理方面的有效性然而,研究人员很快就意识到它在更复杂的情况下的局限性,具有较大几何变化的两个域之间的平移[52,10]。为了处理更复杂的情况,人们必须在更高的语义层面上建立翻译。例如,基于对马的脖子、身体和腿的理解,我们可以想象长颈鹿有同样的姿势。然而,由于两个域之间的大的几何变化,人们很难通过替换局部纹理来实现这种平移8013X→YY→XX→Y在更高的语义级别上执行翻译是不平凡的。几何信息在这里起着关键的作用,但是通常在两个图像域之间存在显著的几何间隙,例如,猫对人脸马对长颈鹿两个域虽然含有相同的对应成分,语义相近,但空间分布却有很大的不同。在本文中,我们提出了一种新的几何感知框架的无监督图像到图像的翻译。我们不是直接在图像空间上进行平移,而是首先将图像映射到几何空间和表观空间的笛卡尔乘积中,然后在每个潜空间中进行平移。为了鼓励两个空间的解纠缠,我们提出了一个无监督的条件变分自动编码器框架,其中引入了Kullback-Leibler(KL)发散损失和跳过连接设计,以鼓励网络学习几何和外观的互补表示。然后根据两个域的瓶颈表示建立域间的转换。大量的实验表明,我们的框架在建立合成和真实世界的数据集上的对象之间的翻译的有效性。我们的方法在定性和定量实验中都取得了优于最先进方法的性能。我们总结这项工作的贡献如下:1)我们提出了一个新的框架,无监督的图像到图像的翻译。而不是直接在图像空间上进行平移,我们建立了两个域之间的映射,其解开潜在的外观几何空间。我们的框架扩展了CycleGAN在动物等更复杂对象上的能力。2)精细解纠缠的潜在空间自然赋予我们的模型以多样性和样本引导的生成能力,这是无监督图像到图像翻译中的一个挑战性和不适定的多模态问题。2. 相关工作图像到图像翻译。图像到图像转换的目标是学习从源图像域到目标图像域的映射。Pix2Pix [15]首次提出了基于条件GAN的图像到图像翻译的统一框架一些作品[41,40]将其扩展到处理高分辨率或视频合成。尽管已经显示出吸引人的结果,但是这些方法需要成对的数据进行训练。对于使用未配对训练数据的无监督图像到图像转换,Cycle- GAN [52],DiscoGAN [20],DualGAN [46]和UNIT [27]基于循环一致性的思想提出了一GAN- imorph [10]引入了一个具有扩张卷积的递归,以获得一个更具上下文感知的生成器。然而,在这方面,为多模态世代解决这个问题。[24][29][29][29][29]][29][29][29]]将图像的潜在空间转化为领域不变的内容空间和领域特定的风格空间,以获得多样化的输出。然而,一旦跨域结构变化变得很大,就违背了域不变内容空间的假设。尽管在风格转换任务中跨域共享内容的潜在空间是直观的,但是难以将不同域的复杂几何线索嵌入到一个共享分布中。所有现有的方法的性能显着下降,在翻译与大跨域几何变化。结构表征学习为了对视觉内容进行建模,已经提出了几种无监督技术,包括VAE [21],GAN [11]和ARN [32,39]。近年来,许多文献都关注于无监督地标发现[38,37,49,16,6]结构表征学习。由于界标是对物体结构的一种显式表示,它比其他表示方法更能捕捉物体的内在形状。受无监督地标发现的最新发展的启发,在这项工作中学习了地标的热图堆栈以用于显式结构表示。代表性的分离。解缠结对于控制结构和外观是重要的。存在许多关于面部和人物图像生成的研究[1,8,30,42]。尽管享受着这些方法需要用于监督学习的预定义注释。已经提出了几种无监督解纠缠的工作,例如,[5]和β-VAE[13]。然而,这些方法缺乏可解释性,并且每个学习因子的意义是不可控的。相反,我们的方法是能够获得一个可控的解纠缠的结构和appearance在一个完全无监督的方式。3. 方法给定两个图像域X和Y。我们工作的目标是学习一对映射ΦX→Y和ΦY→X,它们可以将输入x ∈ X转换为样本y = ΦX→Y(x),y∈Y,反之亦然。 这个问题公式是一个典型的-典型的不成对跨域图像翻译任务,其中最大的挑战在于需要几何变化的任务[52,10]。大多数现有框架试图通过两个神经网络来参数化这些映射对,例如,[12]或[31]。其中在复杂的情况下难以在这项研究中,我们假设每个域都可以分解为结构空间G·和外观空间A·的Cartesian。然后在每个空间上,我们在两者之间建立一个过渡-如果没有成对的训练数据,翻译问题就在-干线,即,几何TransformerΦg和Φg为由于存在无穷多个映射,几何空间和外观TransformerΦa和两个领域之间最近的研究试图一Y→X 外观空间。图2显示了框架-Φ8014X·X···图2:架构。我们的框架由四个主要组成部分:两个自动编码器(X/Y域)和两个变换器(几何/外观)。自动编码器:以X域为例。对于输入x,我们使用编码器E g来获得几何表示g x,这是一个与x具有相同分辨率的30通道点热图。我们把所有的gx通道投影到一起进行可视化。然后,再次嵌入g x以获得几何代码cx。同时,x也被ap嵌入损失和几何估计的先验损失,L解缠结=L CVAE + L先验。(一)受先前文献[21,36,8]的启发,我们将条件VAE损失实现为:L CVAE(π,θ,φ,ω)=−KL(qφ(c|x,g)||p(a)|x))+x−D(Ec(Eg(x)),Ea(x)),(2)其中第一项是两个参数高斯分布之间的KL发散损失,第二项是重建损失。在这里,我们用VGG-16网络的感知损失来代替它。 以监督的方式,LCVAE可以促进学习几何形状和外观的互补表示,如[8]所述然而,在我们的无监督场景中,不能保证编码器的任何分支在没有几何映射g的监督的情况下学习几何信息。接下来,我们将引入先验损失来约束几何估计量。3.2. 几何估计的先验损失与使用内容编码器来嵌入所有详细内容的现有文献相反[27,23],我们的几何估计器Eg尝试将纯几何结构信息作为地标热图的堆栈来进行编码。为了实现这一点,我们依赖于对象地标应该如何分布的先验知识来约束我们的结构估计器Eg和Eg的学习,如[49,16]所述。这些以前的工作X ypecumentencer E a得到外观代码ax。最后,将ax和cx连接在一起,生成a te x {\displaystyle a tex{\displaystyleatex},其中D x {\displaystyleDx} 。变 换 器 : 对 于 跨 域 变 换 , 分 别 执 行 几 何(g xParticleg y)和外观(a xParticleay)变换。已经表明,当给定适当的先验损失和学习结构时,这是可能的。我们现在介绍我们使用的先验损失集我们提出的方法。L优先级=Σi/=jexp(−||2||22σ2)+Var(g)(3)3.1.学习分解结构和风格编码器与以前采用编码器-解码器结构旨在使用一个卷积网络对所有信息进行编码的工作不同[52,50],我们的方法试图分别对几何结构和外观风格进行编码。为了实现这一点,我们在每个域中应用条件变分自编码器。条件VAE系统由无监督的几何估计器Eg(;π)、将热图结构嵌入到潜在空间C·中的几何编码器Ec(;θ)、将外观信息嵌 入 到 潜 在 空 间 C · 中 的外观编码器Ea(;φ)、将热图结构嵌入到潜在空间C·中的几何编码器Ec(; θ)和将外观信息嵌入到潜在空间C·中的外观空间A·,以及解码器D·(ω):C·×A·→X/Y,其将潜在空间映射回图像空间。去消灭-以无监督的方式纠缠两个表示,我们将损失公式化为条件VAE的组合第一种是分离损失。与[49]中描述的困难类似,我们发现使用一般随机初始化训练结构分支倾向于将所有结构点定位在图像中心的平均位置周围这可能导致优化器无法逃脱的局部最小值因此,我们引入分离损失以鼓励每个热图充分覆盖感兴趣的对象。这是通过Eq.中的第一部分实现的3,其中我们鼓励每对第i和第j热图共享不同的激活。σ在这里可以被看作是一个归一化因子第二项是集中损失,我们引入它来鼓励活动g的方差较小,以便它可以集中在单个位置。这对应于等式中的第二项3.第三章。几何先验是物体形状的一种显式表示,它对于实现物体外观和几何的精细分离至关重要。如图3、用ge-8015x→yXx→yX该方法以几何图作为条件输入,在保持一种特定输入的外观的同时,生成与几何图一致的不同形状的人脸这表明,通过估计对象的纯3.3. 外观Transformer通过解纠缠的外观几何空间,我们可以将图像翻译分解为两个独立的问题。在这一节中,我们首先考虑表观潜空间AX和AX上的变换Φ a。人们可以将这种潜在到潜在的转换问题作为CycleGAN [52]来解决,具有周期一致性损失和对抗性损失。然而,这并不保证与两个图像相关联的gx和映射外观Transformer ΦX→Y(gx)由于这两个约束只能导致两个分布之间的转换,这是任意的和多模态的。为此,我们引入跨域外观一致性损失来约束外观Transformer:图3:解纠缠表示。顶行示出了最左列中的面的对应几何热图。我们用结构外观交换结果的网格说明了明确解开的潜在空间。在每一列中,所生成的图像的形状被示出为与几何热图一致。在每一行中,所生成的图像的外观被示出为与最左边的图像一致。La=(x)−(D.ΦgΣ·Eg(x),Φa aconyx→y xx→y·Ex(x)),(四)3.4. 几何Transformer其中,λ是使用预处理计算的Gram矩阵[9,17]我们发现很难学会在非超级-训练的VGG-16 [35]网络,Φg· Eg(x)是几何体-直接查看学习的几何热图,因为CNN是try代码从X转换为Y,Φa· a(x)是a的值。通常不太适合捕捉几何信息。从X转换为Y的伪代码,并且Dy(,)表示到Y域的解码器。这种损失确保了与gx和转换外观ΦX→Y(gx)相关联的图像具有相似的外观。在我们的实验中,我们观察到没有外观约束的CycleGAN也可以收敛,但它在每次训练中都相同的设置。外观一致性约束了训练的稳定性,并提供了更可解释的结果。单模式和多模式转换:在我们的框架中,变换函数是在表观和几何潜空间中学习的。对于单模态平移,外观变换Φa被约束以保证变换的样本在图像域上具有相关联的外观。然而,如上所述,复杂的变换问题总是多模态的。在我们的方法中,通过将变换后的外观表示替换为目标外观空间A中的任何可行向量,我们可以实现多模态生成的结果例如,仅使用几何变换Φg,通过将不同的人脸作为参考,我们可以通过仅一个猫脸输入获得不同的结果。多模态能力是由域内的精细解纠缠表示带来的。定性结果见Sec. 四点二。相反,我们提取每个节点直接使用可微重新归一化算子[16]R.因此,在地标坐标空间中执行事实上的几何变换具体来说,对于每个地标虽然具有2D坐标的地标的维数低于图像表示,但我们仍然使用PCA来降低地标表示的维数。其背后的原因是,我们观察到结果对几何形状中的小误差比图像像素值中的小误差更敏感,因为坐标的微小误差可能导致严重的伪影(例如,折叠和锯齿形轮廓)。这表明几何变换有时比图像变换更难值得注意的是,我们已经尝试了几何Transformer的三种表示(即,几何热图、地标坐标和坐标的PCA嵌入)。这三种表征都可以用于我们实验中坐标的PCA嵌入在模型训练的稳定性和收敛性方面效果最好,而其他表示有时会在某些特定任务中失败。PCA约束几何结构,8016AdvAdvconCYCCYC图4:几何保持的比较。结果(a)合成数据集(牛参与猎豹和狮子参与犀牛)(b)现实世界的数据集(猫参与人脸和长颈鹿参与马)。从左至右:我们的输入,CycleGAN [52],UNIT [27],MUNIT [14]和DRIT[23]。图5:多模态生成的比较。(a)人类→猫脸(b)猫→狗脸。从上到下:[14][15][16][17][19][1输出的.它构造了一个几何形状的嵌入空间,其中每个主成分代表一个合理的维度。因此,嵌入空间中的任何样本都将保持基本的对象结构,这降低了模式崩溃的风险。为了将PCA界标表示与在几何空间、外观空间和像素空间重构中执行各种类型的循环一致性约束。我们的消融研究在Sec. 4.3证明了循环一致性约束对于平移中的姿态保持是重要的。对抗性损失。我们强加对抗性损失La,GAN,我们将所有Conv-ReLU块替换为FC-ReLUGAdv和Lpix,对应于几何形状,出现-发生器和鉴别器中的块虽然我们结合了与CariG-AN [4]中类似的Transformer结构,我们的工作不同之处在于,与CariGAN不同,CariGAN直接使用地标空间和像素空间。LSGAN用于更多稳定的训练和收敛。全损。总而言之,我们的方法的完整损失函数是:在图像像素级上执行循环,如第三点四Ltotal=LCVAE+Lprior+La一CYC这对于保姿生成来说更直接、更有力+Lg+Lpix+La+Lg+Lpix(五)任务。CYCCYCAdvAdvAdv3.5. 其他约束除了提出的几何先验损失和风格一致性损失之外,我们还利用循环一致性和对抗性损失函数来促进模型训练。周期一致性丢失。我们采用三种类型的循环-这些损失的更多细节将在...在补充材料中列出。4. 实验数据集。我们对四个数据集进行了广泛的比较和消融研究,这些数据集涵盖了合成数据集和真实数据集。稠度损失,即,LaGCYCLpix。 这三世界数据(一). 合成动物:我们公开使用L+L,L8017XXXX表1:人类感知研究。马→长颈鹿和人→猫脸任务的成对A/B测试。方法马→长颈鹿标记为更好的人→猫脸标记为更好的方法马→长颈鹿标记为更好的测试仪%人→猫脸标记为更好的测试仪%CycleGAN [52]15.0%百分之十五点四CycleGAN [52]11.9%百分之二十五点七UNIT [27]百分之十九点三百分之十八点九UNIT [27]百分之十六点五23.3%MUNIT [14]20.4%百分之十七点八MUNIT [14]百分之十九点二31.7%[23]第二十三话我们16.1%百分之五十百分之二十三点四百分之五十[23]第二十三话我们百分之二十三点六百分之五十百分之三十四点四百分之五十(a) “现实主义”的分数[54]第54话:一个人的幸福,一个人的幸福。(b) “几何一致性”得分几何热图gx(gy)、Ea(Ea)、Eg(Eg)和Dx(Dy)x y x y非刚性动物,即,猎豹,牛,狮子,犀牛,熊和狼对于每一个动物种群,一起训练了40个时期。然后,结构编码器被冻结,除了Eg和Eg之外的所有网络都被冻结,X y10 , 000 张 图 像 ( 9000 张 用 于 训 练 , 1000 张 用 于 测试),通过随机采样的参数获得不同的形状(二)、真实世界的动物:我们从Flickr上收集了5000张马和长颈鹿的图 片 ( 4500 张 用 于 测 试 , 500 张 用 于 测 试 ) 。(三)、 无约束面: 我们收集了三个典型的领域,即,人、狗和猫的脸。我们分别从YFCC 100M [18]、Stanford Dog [19]和CelebA [28]数据集中随机抽取了5000张图像(4500张用于测试,500请注意,每个数据集中的面都是完全不受约束的,而不是在[14]中的四个给定模式内。基线。我们将我们的方法与四种最相关的最先进的方法进行了比较:CycleGAN [52],UNIT [27],MUNIT[14]和DRIT [23],所有这些方法都可以使用未配对的训练数据执行图像到图像的转换。特别是,MUNIT[14]和DRIT [23]可以生成多模态结果。因此,我们在多模态生成任务中也与它们进行了比较。我们在新收集的数据集上训练了这四条基线,并使用它们的公共实现和默认设置。评估指标。为了定量比较,我们评估了生成图像的真实性和多样性在[41,45]之后,我们对几何一致性/现实主义评估进行了人类主观研究为了测量视觉质量,而不是一般的图像质量评估方法[44,25,26]或感知损失[50],采用Fre' chetIncep-tionDistance(FID)[2]。为了测量多样性,类似于[53,14],我们使用LPIPS度量[48]来计算图像之间的距离。实施详情。所有数据集的图像都被裁剪并调整为256×256。 以X域为例。我们采用的架构为我们的结构-来自Stack-Hourglass网络[31]的真实编码器E g,其对于地标定位任务[7,3]显示出令人印象深刻的结果。F或从gx到xx的映射(具有跳过连接的Ec和Dx外观编码器Ea采用与Ec相同的架构。我们使用一个简单的4层全连接网络,然后使用ReLU用于transformer_X_Participate_Y和判别器。对于像素级对抗损失,我们使用[27]提供的矩阵。我们通过两个主要步骤来训练模型第一,为了获得端到端训练了20个时期 我们训练所有的国防部-ELS使用Adam [21]优化器,初始lr= 0。0001且(β1,β2)=(0. 5,0。999)在八个NVIDIAV100 GPU上运行。有关培训和网络架构的更多详细信息,在补充材料中提供。4.1. 与最新技术定性比较。回想一下我们工作的动机:通过引入无监督的潜在几何表示,我们希望我们的框架具有更高的能力,可以在更复杂的对象之间进行翻译。在这里,我们执行视觉质量比较,以国家的最先进的方法在图。4.我们评估了两个近刚性(即,面)和非刚性(动物)物体。我们的方法能够实现优于所有基线的结果。尽管基线的结果可识别为在目标域中解决,但由于忽略几何线索,几何倾向于被破坏。对于接近刚性的对象,基线可能会产生扭曲的结果。对于非刚性对象,由于域间和域内形状变化较大,因此更具挑战性,基线总是获得缺失部分的结果。相比之下,我们的方法的翻译是更强大的大的形状变化和不受约束的外观在刚性和非刚性的情况下。对于多模态生成,我们将我们的方法与图中的MUNIT [14]和DRIT [23]进行比较。5.两种基线都可以获得不同的输出。然而,在某些不受约束的情况下,例如,轮廓面与太阳镜和大的人脸形状域之间的差异,基线的结果退化,遭受严重的伪影。可以观察到,我们的方法比其他方法获得更好的视觉质量。补充材料中展示了其他数据集的更多结果定量比较。我们使用主观和客观指标进行定量绩效评估。为了生成图像的真实性,我们要求vol-unteers进行主观成对A/B测试。遵循MUNIT [14]中的度量标准,我们工作的偏好得分表示一种方法(Cycl-GAN [52],UNIT [27],MUNIT [14],DRIT [23])的百分比,我们的方法。对于每次测试,parti-8018表2:定量结果。我们使用FID(越低越好)和多样性(越高越好)与LPIPS距离来评估生成图像的质量和多样性。真实数据CycleGAN [52]UNIT [27]MUNIT [14][23]第二十三话我们FID多样性FID多样性FID多样性FID多样性FID多样性FID多样性猫→人脸0.000.5457.92-98.39-40.910.4169.530.2032.250.39人脸→猫0.000.6544.23-35.26-23.240.5333.140.5221.880.56猫→狗0.000.66143.14-104.32-100.260.5967.010.5465.770.60狗→猫0.000.6575.75-66.84-27.600.5631.040.5923.230.58狗→人脸0.000.54105.09-103.35-37.840.4046.700.3231.060.41人脸→狗0.000.66149.61-91.38-73.980.6068.840.5752.200.67平均0.000.6295.96-83.26-50.640.5252.710.4637.730.54裤子可以投票给A/B/不确定。评估了两个指标1、真实性评价与真实数据的相似性,几何一致性评价与输入图像的几何一致性。参与者有10秒的时间来选择哪一个图像在两种不同方法生成的一对图像中具有更好的真实感或几何一致性。每个数据集的所有500张测试图像由不同的参与者进行100次比较。我们的方法获得了最高的偏好率。为了评估视觉质量和多样性,遵循[51],我们在测试集中使用100个输入图像,每个输入采样19个输出对。我们在ImageNet预训练的AlexNet特征空间中计算1,900对图像之间的平均LPIPS距离。FID是在实际数据和生成的结果之间计算的如表2所示,我们的方法在视觉质量和多样性方面都明显优于所有基线。特别是,即使MUNIT和DRIT在多样性方面获得了合理的性能,但它们在主观度量方面的得分很差,这表明这些方法在处理跨越大的几何间隙的翻译方面存在缺点。4.2. 表示解纠缠示例引导的图像翻译。在图6中,我们示出了几种典型的面部形状的示例引导的平移结果,例如,正面、侧面、闭眼和张嘴。从输入到输出,我们观察到几何特征忠实地保持。由于采用了纯几何表示的翻译模式,使得模型具有与外观无关的图像到图像的翻译能力此外,一旦几何形状被成功地翻译,该模型可以在目标域中的图像作为范例,以指导多模态生成。结果见Fig.图6示出了在两个方面的几何形状和外观的成功解缠。首先,无论前模板的形状如何,其几何形状都保持相同。作为一个具体的例子,如图所示。如图6(b)所示,即使样本有很大的变化,所生成的面部也保持轮廓。第二,即使对于细节纹理,也可以成功地将前样本的外观转移到生成的图像中,图中男人的胡子。6(a)和图中猫的蓝眼睛。第6(d)段。插值为了评估解纠缠的潜在空间是否密集,我们执行线性插值,图6:示例引导的生成。 以不同图像作为外观参考的条件生成在猫→人脸、人→狗脸、狗→猫脸任务上进行。图中的几何代码和外观代码。7.插值结果表明,图像的几何形状和外观都能随源到目标的潜空间平滑变化。值得注意的是,数据集对于每个样本只有一个几何形状和外观,并且只有离散特征由原始数据集中的独立个体光滑插值的结果表明,我们的模型已经成功地捕捉到了一个合理的覆盖流形。表3:消融研究。 “真vs假”的愚弄率。方法马→长颈鹿标记为真实的试验人→猫脸标记为真实的试验我们的,不带Trans.0.0%0.0%我们的无L周期百分之十四点二百分之十六点八Ours w/o KL百分之十点二百分之十五点四8019图7:插值。 猫和人脸数据集上的几何和外观潜在代码的线性插值结果。图8:定量消融研究。人类参与任务的可视化结果。4.3. 消融研究为了隔离我们方法的关键组件的有效性,我们对生成图像的质量进行了消融研究我们评估了我们方法的几个变体:1)我们的不含T:我们的方法没有外观和几何变换器。2)我们的w/o周期:我们的方法没有循环一致性损失项。3)Ours w/o KL:我们的方法没有KL损失项。4)我们的不含VGG:在我们的方法中用L1损失代替VGG损失。图 8 显 示 了 变 体 的 定 性 结 果 。 如 果 没 有Transformer,我们的方法无法生成合理的结果来跨越两个域之间的几何表示的大间隙。在不使用循环一致性损失的情况下,我们的方法仍能得到合理的结果.然而,与输入图像的不能保证,这表明循环一致性损失是姿势保持的关键组成部分在不使用KL损失的情况下,不能保持与参考图像的一致性。在没有VGG损失的情况下,我们获得了模糊的结果,这与[34,8]的观察结果一致。我们在表3中对人→猫脸和马→长颈鹿任务的知觉研究中量化了这些观察结果。通过我们的方法在这两个任务上获得的分数证明了它在生成逼真的再现方面的能力。结果。注意,在没有周期一致性损失的情况下,也可以用我们的方法实现可比较的感知分数,这表明这种损失对于姿态保持比生成的质量更重要。5. 结论提出了一种新的几何感知的解缠和翻译框架,用于图 像 到 图 像 的 翻 译 , 其 中 我 们 引 入 了 一 个 基 于CycleGAN系统的无监督几何潜在分支。具体地说,我们首先在几何空间和表观空间上对每个域进行分解,然后在每个潜空间上建立平移。大量的定性和定量实验表明,该方法对于复杂结构的对象之间的转换是有效的。此外,我们的模型还可以支持多模态翻译,并超越以前最先进的方法。未来的工作包括将此框架扩展到更不受约束的场景,例如ImageNet和YouTube视频中的图像谢谢。我们要感谢Kwan-Yee Lin和Jingtan Piao的深刻讨论和他们的出色支持。8020引用[1] 放大图片作者:GuhaBalakrishnan,AmyZhao,AdrianV.达尔卡,弗雷杜·杜兰德,约翰·古塔格。合成人类在看不见的姿势的图像。在CVPR,2018年。[2] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。2019年,在ICLR[3] Adrian Bulat和Georgios Tzimiropoulos超级粉丝:集成的面部标志定位和具有gans的任意姿势的真实世界低分辨率面部的超分辨率在CVPR,2018年。[4] 曹凯迪,廖景,陆远。漫画家:不成对的漫画翻译。2018年在Siggraph Asia[5] Xi Chen,Yan Duan,Rein Houthooft,John Schulman,Ilya Sutskever,and Pieter Abbeel. Infogan:通过信息最大化生成对抗网络进行可解释的表示学习。在NIPS,2016年。[6] Xipeng Chen , Kwan-Yee Lin , Wentao Liu , ChenQian,and Liang Lin.用于3d人体姿态估计的几何感知表示的弱监督发现在CVPR,2019年。[7] 肖 楚 , 杨 伟 , 欧 阳 万 里 , 马 成 , 李 伟 。 Yuille 和Xiaogang Wang.用于人类姿态估计的多上下文注意。在CVPR,2017年。[8] PatrickEsse r,EkaterinaSutte r,andBjoürnOmme r. 用于条件外观和形状生成的可变u-网在CVPR,2018年。[9] 利昂·A Gatys,Alexander S. Ecker,and Matthias Bethge.使用卷积神经网络进行纹理合成。2015年,在NIPS[10] Aaron Gokaslan , Vivek Ramanujan , Daniel Ritchie ,Kwang In Kim和James Tompkin。改进无监督图像到图像翻译中的形状ECCV,2018年。[11] Ian J. Goodfellow,Jean Pouget-Abadie,Mehdi Mirza,Bing Xu,David Warde-Farley,Sherjil Ozair,Aaron C.Courville和Yoshua Bengio。生成性对抗网。在NIPS,2014。[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[13] Irina Higgins 、 Loic Matthey 、 Arka Pal 、 ChristopherBurgess 、 Xavier Glorot 、 Matthew Botvinick 、 ShakirMohamed和Alexander Lerchner。beta-vae:使用受约束的变分框架学习基本视觉概念。在ICLR,2017。[14] 黄勋刘明宇Serge J.Belongie和Jan Kautz。多模态无监督图像到图像翻译。在ECCV,2018。[15] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在CVPR,2017年。[16] Tomas Jakab 、 Ankush Gupta 、 Hakan Bilen 和 AndreaVedaldi。 用 于 学 习 视 觉 对 象 结 构 的 条 件 图 像 生 成NeurIPS,2018。[17] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。在ECCV,2016年。[18] Sebastian Kalkowski , Christian Schulze , AndreasDengel,and Damian Borth. yfcc100m数据集的实时分析和可视化。在MM研讨会,2015年。[19] Aditya Khosla、Nityananda Jayadevaprakash、BangpengYao和Li Fei-Fei。一种新的用于细粒度图像分类的数据集。2011年CVPR研讨会[20] Taeksoo Kim、Moonsu Cha、Hyunsoo Kim、Jung KwonLee和Jiwon Kim。学习发现跨域关系与生成对抗网络。ICML,2017。[21] Diederik P. Kingma和Max Welling。自动编码变分贝叶斯。见ICLR,2014年。[22] Christian Ledig , Lucas Theis , Ferenc Huszar , JoseCaballero , Andrew Cunningham , Alejandro Acosta ,Andrew P.Aitken , Alykhan Tejani , Johannes Totz ,Zehan Wang,and Wenzhe Shi.使用生成对抗网络的照片逼真的单图像超分辨率。在CVPR,2017年。[23] 李欣英、曾鸿宇、黄佳斌、曼尼什·辛格和杨明轩。通过解 纠缠 的表 示进 行不 同的图 像到 图像 的翻 译在ECCV,2018。[24] 林建新,夏颖策,秦涛,陈志波,刘铁岩.有条件的图像到图像翻译。在CVPR,2018年。[25] Kwan-Yee Lin和Guangxiang Wang。幻觉-iqa:通过对抗学习进行无参考图像质量评估。在CVPR,2018年。[26] Kwan-Yee Lin和Guangxiang Wang。用于盲图像质量评估的自监督在BMVC,2018年。[27] Ming-Yu Liu,Thomas Breuel,and Jan Kautz.无监督图像到图像翻译网络。在NIPS,2017年。[28] Ziwei Liu , Ping Luo , Xiaogang Wang , and XiaoouTang.在野外深度学习人脸属性。在ICCV,2015年。[29] Liqian Ma , Xu Jia , Stamatios Georgoulis , TinneTuytelaars,and Luc Van Gool.示例引导的无监督图像到图像翻译。NeurIPS,2018。[30] Liqian Ma,Qianru Sun,Stamatios Georgoulis,Luc VanGool,Bernt Schiele,and Mario Fritz.解纠缠的个人图像生成。在CVPR,2018年。[31] Alejandro Newell,Kaiyu Yang,and Jia Deng.用于人体姿态估计的堆叠沙漏网络。在ECCV,2016年。[32] Aaron van den Oord 、 Nal Kalchbrenner 和 KorayKavukcuoglu。像素递归神经网络。2016年。[33] Olaf Ronneberger,Philipp Fischer,and Thomas Brox.U-网:用于生物医学图像分割的卷积网络在MICCAI,2015年。[34] MehdiS.M.Sajjadi , BernhardSchoélkopf ,andMichaelHirsch.Enhancenet:通过自动纹理合成实现单幅图像超分辨率。InICCV,2017.[35] Karen Simonyan和Andrew Zisserman用于大规模图像识别 的 非 常 深 的 卷 积 网 络 。 CoRR , abs/1409.1556 ,2014。[36] Kihyuk Sohn,Honglak Lee,and Xinchen Yan.使用深度条件生成模型学习结构化输出表示。2015年,在NIPS8021[37] James Thewlis Hakan Bilen Andrea Vedaldi通过稠密等变图像标记的对象帧的无监督学习。在NIPS,2017年。[38] James Thewlis Hakan Bilen Andrea Vedaldi通过分解空间嵌入的对象地标的非监督学习。InICCV,2017.[39] 亚伦·范登奥德,纳尔·卡尔切布伦纳,拉塞·埃斯佩霍尔特,科-雷·卡武库奥卢,奥里尔·文亚尔斯,和亚历克斯 · 格 雷 夫 斯 .条 件 图 像 生 成 与 pixelcnn 解 码 器 。 在NIPS,2016年。[40] Ting-Chun Wang,Ming-Yu Liu,Jun-Yan Zhu,GuilinLiu,Andrew Tao,Jan Kautz,and Bryan Catanzaro.视频到视频合成。NeurIPS,2018。[41] Ting-Chun Wang,Ming-Yu Liu,Jun-Yan Zhu,AndrewTao,Jan Kautz,and Bryan Catanzaro.用条件gans实现高分辨率图像在CVPR,2018年。[42] Wei Wang ,Xavier Alameda-Pineda , Dan Xu ,PascalFua,Elisa Ricci,and Nicu Sebe.每个微笑都是独一无二的:地标引导的多元微笑一代。在CVPR,2018年。[43] Xintao Wang,Ke Yu,Shixiang Wu,Jinjin Gu,YihaoLiu , Chao Dong , Yu Qiao , and Chen Change Loy.ESRGAN:增强的超分辨率生成对抗网络。在ECC
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功