没有合适的资源?快使用搜索试试~ 我知道了~
702UVCGAN:UNet Vision Transformer周期一致性GAN,用于不成对的图像到图像转换Dmitrii Torbunov,Yi Huang,Haiwang Yu,JinHuang,Shinjae Yoo,Meifeng Lin,Brett Viren,Yihui Ren Brookhaven National Laboratory,Upton,NY,USAdtorbunov,yhuang2,hyu,jhuang,sjyoo,mlin,bviren,yren@bnl.gov摘要不成对图像到图像的翻译在艺术、设计和科学模拟中有着广泛的应用。 一个早期的突破是CycleGAN,它强调通过生成对抗网络(GAN)与循环一致性约束相结合的两个未配对图像域之间的一对一映射,而最近的作品促进一对多映射以提高翻译图像的多样性。受科学模拟和一对一需求的激励,这项工作重新审视了经典的CycleGAN框架,并在不放松周期一致性约束的情况下提高了其性能,以超越更多的当代模型。 为了 实 现 这 一 点 , 我 们 为 发 生 器 配 备 了 VisionTransformer(ViT),并采用了必要的训练和正则化技术。与以前表现最好的模型相比,我们的模型表现更好,并保留了原始图像和translated图像之间的强相关性。伴随的消融研究表明,梯度惩罚和自我监督的预训练对改进至关重要为了促进可重复性和开放科学,源代码,超参数配置和预训练模型可在https://github.com/LS4GAN/uvcgan网站。1. 介绍深度生成模型,如生成对抗网络(GAN)[30,11,41],变分自动编码器(VAE)[44,45]、标准化流(NF)[26,43]和扩散模型(DM)[37,70,55]代表一类用于创建模拟目标数据域的真实和多样化数据实例的随着在图像处理,音频分析和文本生成中的应用,它们的成功和表现力吸引了自然科学的研究人员,包括宇宙学[54],高能物理学[25,2],材料设计[29]和药物设计[22,9]。大多数现有的工作对待深生成模型作为现有仿真软件的直接替代品现代仿真框架可以生成高保真度的数据,但数据是不完美的。生成的数据和实际数据之间广泛存在的系统不一致性我们希望利用深度生成模型的表现力来弥合模拟与现实之间的差距。我们框架的任务作为一个不成对的图像到图像的翻译问题,其中模拟结果可以被定义为一个域与实验数据作为其他。不成对是一个必要的约束,因为收集模拟和实验数据与精确的像素到像素映射是困难的(往往是不可能的)。除了提高仿真结果的质量之外,成功的生成模型可以反向运行,以将真实世界的数据转换到仿真域中。该反向任务可以被视为去噪步骤,有助于从实验观察结果中正确推断基础参数[20]。 实现逼真的科学模拟需要定义良好的科学数据集和专门设计的机器学习模型。这项工作将集中在后者开发新的模型不成对的图像到图像的翻译。CycleGAN[82]模型是第一个在没有配对的情况下在两个域之间转换图像的模型。它使用两个GAN,每个翻译方向一个。CycleGAN引入了周期一致性损失,其中图像在到另一个域并返回的一个周期之后看起来应该像它自己。这种周期一致性对于科学应用至关重要,因为科学在翻译过程中不能改变。 也就是说,在模拟结果和其实验对应物之间应该存在一对一的映射。 然而,为了促进更多样化的图像生成,许多最近的作品[80,56,61,79]放松了周期一致性约束。遵循重新访问和修改规范神经架构的相同目标[8],我们证明通过为CycleGAN配备视觉转换器(ViT)[28]来增强非局部模式学习,703采用先进的训练技术,如梯度惩罚和自我监督的预训练,得到的模型,命名为UVCGAN,可以在几个基准数据集上优于竞争模型。捐 款 .在 这 项 工 作 中 , 我 们 : 1 ) 将 ViT 合 并 到CycleGAN生成器中并采用先进的训练技术,2)证明其与其他更重的模型相比具有出色的图像转换性能,3)通过消融研究表明,单独的架构变化不足以与其他方法竞争,并且需要预训练和梯度惩罚,(4)从过去的文献中找出不匹配的评估结果,并规范评估程序,以确保公平的比较,并促进我们的基准测试结果的可重用性。2. 相关工作深度生成模型。深度生成模型创建真实的数据点(图像、分子、音频样本等)与数据集中呈现的数据相似。生成式决策模型不像传统的决策模型那样压缩表征维度,提取高层信息,而是扩大表征维度,进行信息外推有几种类型的深层生成模型。VAE[44,45,48,64]将数据点减少到概率潜在空间中,并从潜在分布的样本中重建它们。NF[26,43,14,31]利用变量公式的变化,并通过可逆和可微变换序列将样本从正态分布变换为数据分布。DM[37,70,55,66,69,76]是参数化的马尔可夫链,经过训练,通过连续步骤将噪声转换为数据(前向过程)。与此同时,GAN[30]将学习过程公式化为极小极大博弈,其中生成器试图通过创建真实数据点来欺骗神经网络,神经网络试图将生成的样本与真实样本区分开来。 GAN是最具表现力和灵活性的模型之一,可以生成高分辨率,多样化,风格特定的图像[11,41]。GAN训练技术。最初的GAN存在许多问题,例如模式崩溃和训练发散[52]。从那时起,已经做了很多工作来提高训练的稳定性和模型的多样性。Pro- GAN [40]介绍了两种稳定方法:渐进式训练和学习速率均衡。生成器的渐进式训练从低分辨率图像开始,并上升到高分辨率图像。 学习速率均衡方案旨在确保模型的所有 部 分 都 以 相 同 的 速 率 进 行 训 练 。 Wasser-steinGAN[34]建议,可以通过使用更好的损失函数来防止发电机和发电机之间的破坏性竞争,即,Wasserstein损失函数它的关键成分是梯度惩罚项,其防止鉴别器梯度的幅度从成长得太大。然而,后来重新检查了Wasserstein损失函数。值得注意的是,评估显示梯度惩罚项负责稳定训 练 , 而 不 是 Wasserstien 损 失 函 数 [71] 。 此 外 ,StyleGAN v2[41]依赖于零中心梯度惩罚项来实现高分辨率图像生成任务的最新结果。这些发现激发了这项工作,探索应用梯度惩罚项来提高GAN训练稳定性。用于计算机视觉的Transformer架构。卷积神经网络(CNN)架构是计算机视觉任务的一种流行选择。在自然语言处理(NLP)领域,注意力机制和transformer风格的架构在开放基准测试任务中已经超越了以前的模型,如隐马尔可夫模型和递归与CNN相比,变压器可以更有效地捕获自然界中常见的非局部特征。变压器在计算机视觉中的应用在[28]中首次亮相,而其他最近的工作表明CNN变压器混合可以实现更好的性能[77,35]。自我监督的预培训。自监督预训练通过在没有监督的原始数据中获得的人工任务这对于在小的标记数据集上训练具有大量参数的模型尤其重要,有许多创新的方法来创建这些人工的自我监督任务。计算机视觉中的例子包括图像修复[62],解决拼图[58],预测图像旋转[46],多任务学习[27],对比学习[15,16]和师生潜在自举[33,13]。NLP中常见的预训练方法包括自回归[63]和掩码填充[24]任务。在掩码填充任务中,句子的某些部分一旦模型经过预训练,就可以使用小得多的标记数据集针对多个下游任务进行微调。我们假设GAN训练也可以从自我监督的预训练中受益特别是,GAN训练被称为遭受相反,尽管输入样本不同,但仅重复生成一小组图像。观察者已经注意到,模式崩溃问题在开始GAN训练后仅发生几个时期[40]。这表明可以使用更好的初始化模型权重事实上,GAN的迁移学习,一种预训练形式,一直是提高GAN在小型训练数据集上性能的有效方法[75,57,78,74,32]。然而,科学数据,如宇宙学和高能物理学中的数据,与自然图像有很大的相似性因此,我们只选择在一个自-704周期一致性损失周期一致性损失发电机损耗GD监督修复任务,这在NLP和计算机视觉中都取得了成功。此外,它非常适合图像到图像的转换模型,其中模型用于非配对图像到图像翻译的GAN模型许多框架[38,47,56,80]已经开发用于不成对的图像到图像翻译。虽然大多数通常使用GAN进行翻译,但它们在如何保持 一 致 性 方 面 有 所 不 同 。 U-GAT-IT[42] 紧 密 遵 循CycleGAN,但依赖于更复杂的生成器和识别器网络以获得更好的其他模型放松了循环一致性约束。例如,ACL-GAN[80]通 过 引 入 所 谓 的 与 此 同 时 , Council-GAN[56]放弃了明确的consideration enforcement的想法虽然宽松或隐含的一致性约束提高了翻译多样性并获得了更好的评估分数,但此类模型不可避免地将随机性引入特征空间和输出。因此,它们不适合需要一对一映射的应用。与原有的Cycle-GAN相比,所有这些模型包含更多的参数,需要更多的计算资源和更长的训练时间。Zheng et. [81]还提出通过用自注意和卷积的混合块替换ResNet块来利用ViT进行图像转换。3. 方法3.1. CycleGAN类模型身份损失AGB→AA我一DAGA→BBfDBGB→AB一个cGB→ABiBCGA→BAFGB→AB身份损失图1. CycleGAN框架类似CycleGAN的模型[82,42]交错两个生成器对,用于不成对的图像到图像转换(图1)。用A和B表示两个图像域,一个类似CycleGAN的模型使用生成器GA→B来翻译从A到B的图像,以及发生器B→A,B到A。 不...criminatorA用于区分A中的图像和从B翻译的图像(在图1中表示为A f)以及从B、B和B f翻译的图像。鉴别器通过与区分真实图像和转换图像的失败相对应的反向传播损失(称为生成对抗损失或GAN损失)来更新:L圆盘,A=Ex<$B<$GAN(DA(GB→A(x)),0)+ExAGAN(DA(x),1),(1)L圆盘,B=Ex<$A<$GAN(DB(GA→B(x)),0)+ExBGAN(DB(x),1).(二)在这里,WASHGAN可以是任何分类损失函数(L2,交叉熵,Wasserstein[5]等),而0和1分别是转换(假)图像和真实图像的类标签。生成器通过来自三个源的反向传播损耗来更新:GAN损失、循环一致性损失和身份一致性损失。以GA→B为例:LGAN,A=Ex<$A<$GAN(DA(GA→B(x)),1),(3)Lcyc,A=Ex<$A<$reg(GB→A(GA→B(x)),x),(4)Lidt,A=Ex<$A <$reg(GB→A(x),x).(五)而且,Lgen,A→B=L GAN,A+λ cycL cyc,A+λ idtL idt,A,(6)L gen,B→A=L GAN,B+λ cyc L cyc,B + λ idt L idt,B.(七)在此,Rlreg可以是任何回归损失函数(L1或L2等),λcyc和λidt是组合系数。为了提高原始CycleGAN模型的性能,我们实现了三个主要变化。首先,我们modify发电机有一个混合架构的基础上UNet与ViT瓶颈(第3.2节)。第二,为了正则化CycleGAN损失,我们用梯度惩罚项来增加普通CycleGAN损失(第3.3节)。最后,我们不是从随705机初始化的网络权重进行训练,而是在图像修复任务中以自我监督的方式预训练生成器,以获得更好的起始状态(第3.4节)。3.2. UNet-ViT发生器UNet-ViT发生器由UNet[67]和瓶颈处的像素视觉Transformer(ViT)[28]组成(图2A)。UNet在每层提取的特征也经由跳过连接被传递到解码路径的对应层,而最底部的特征被传递到ViT。我们假设跳过连接在将高频特征传递给解码器方面是有效的,并且ViT提供了一种有效的手段来学习低频特征的成对关系。在UNet的编码路径上,预处理层将图像转换为维度为(w0,h0,f0)的张量。预处理的张量将具有其宽度706圆盘,B××000GPA. UNet-ViT发生器C. 基本块D. PEE. FFN图2. UVCGAN的示意图。A. UNet-ViT发生器; B.逐像素ViT; C.基本块; D.位置嵌入(PE);F. 前馈网络(FFN)。并且在每个下采样块处高度减半,而在最后三个下采样块处特征维度加倍来自具有维度(w,h,f)=(w /16,h /16,8f)的编码路径的输出形成输入,GP形式在[40]中引入,具有以下DA损失公式:(像素ViT瓶颈逐像素ViT(图2B)主要由一堆Transformer编码器块组成[24]。 构建L圆盘,A=L圆盘,A+λGPEγ2其中,L盘,A如等式中所定义(1)、LGP、(8)如下当输入到堆栈时,ViT首先沿着空间维度对编码图像进行编码以形成令牌序列。令牌序列的长度为w h,序列中的每个令牌都是长度为f的向量。然后,它将每个令牌与其维度为fp的二维傅立叶位置嵌入[4]连接起来(图2D),并将结果线性映射为维度为fv。为了提高Transformer的收敛性,我们采用了rezero正则化[6]方案,并引入了一个可训练的缩放参数α,该参数对剩余块的非平凡分支的幅度进行来自Transformer堆栈的输出被线性地投影回具有维度f,并且未展平为具有宽度w和h。在这项研究中,我们使用12变换编码器块,并设置f,fp,fv=384,fh=4fv,每个模块中的前馈网络(图2E)。3.3. 鉴别器损失与梯度惩罚(GP)在 这 项 研 究 中 , 我 们 使 用 最 小 二 乘 GAN(LSGAN)损失函数[50](即, EqGAN是L2误差),(1)─(7)以GP条款补充损失。GP [34]最初被引入用于Wasser-stein GAN(WGAN)损失,以确保1-Lipschitz约束[5]。然而,在我们的实验中,WGAN + GP产生了总体上更差的结果,这与[51,52]中的发现相呼应。在我们的例子中,零中心GP被证明对超参数的值非常敏感,并且没有提高训练稳定性。因此,我们选择一个更通用的同样的形式。在我们的实验中,这种以γ为中心的GP正则化提供了更稳定的训练,并且对超参数选择不太敏感。要查看GP对模型性能的影响,请参阅第5.3节和附录第1节中详述的消融研究。3.4. 通过修复进行预训练是为下游任务准备大型网络的有效方法[24,7],通常可以带来随机初始化的显着改进。在这项工作中,我们预先训练的UVCGAN生成器的图像修复任务。更确切地说,我们平铺图像与大小为32 - 32的非重叠补丁和掩模40%的补丁,通过将其像素值设置为零。生成器被训练为使用逐像素L1损失来预测原始未掩蔽图像。我们考虑两种预训练模式:1)在要执行后续图像转换的相同数据集上,以及2)在ImageNet [23]数据集上。在第5.3节中,我们对这两种预训练模式进行了消融研究,但未进行预训练。4. 实验4.1. 基准数据集为了测试UVCGAN的性能,我们已经完成了广泛的文献调查的基准数据集。 其中最受欢迎的是来自CelebA[49]和Flickr-Faces[59]的数据集,以及输入输出预处理后处理InstanceNormConv(k= 3,p=1)LeakyReLU×2正常化Linear(2,fp)正弦线性(fv,fh)GeLuLinear(fh,fv)⊕⊕B.逐像素视觉Transformer位置嵌入基本块下采样:Conv(k= 2,s=2)上采样:上采样比例为2,Conv(k= 3,p=1)⊕特征维数预处理 Conv(k= 3,p= 1)LeakyReLU将串联沿⊕后处理1×1-Conv逐像素ViTTransformer编码器块×12×α乙状可学习再调零参数编码解码变平⊕线性层规范多头自注意×α+层规范前馈网络×α+线性重塑707×××SYNTHIA/GTA-to-Cityscape [68,18,65],photo-to-painting [82],Selfie 2Anime [42]和动物面部数据集[17]。我们优先考虑Selfie2Anime数据集和来自CelebA数 据 集 的 另 外 两 个 数 据 集 : 性 别 交 换 ( 表 示 为GenderSwap ) 以 及 添 加 和 移 除 眼 镜 ( 标 记 为Eyeglasses),这些在最近的论文中已经使用。Selfie2Anime[42]是一个小数据集,每个域中有3.4K图像。GenderSwap和Eyeglasses任务都是分别基于性别和眼镜属性从CelebA[49]中GenderSwap包含约68K男性和95K女性用于培训,而Eyglasses包括11K带眼镜和152K不带眼镜。为了公平比较,我们不使用CelebA的验证数据集进行训练。相反,我们按照[56,80]的约定将其与测试数据集结合起来。Selfie2Anime包含尺寸为256×256的图像,可以直接使用。CelebA数据集包含大小为178×218的图像,我们将其调整大小并裁剪为256×256用于UVCGAN训练。4.2. UVCGAN培训程序训练前。UVCGAN生成器使用自监督图像修复进行预训练。要构建受损的图像,我们将大小为256 - 256的图像平铺成非重叠的32 - 32像素的补丁,并通过将其像素值归零来随机屏蔽40%的补丁。我们使用亚当优化器,余弦退火学习率调度器,和几个标准的数据增强,如小角度随机旋转,随机裁剪,随机翻转和颜色抖动。在预训练期间,我们不区分图像域,这意味着随后的翻译训练中的两个生成器具有相同的初始化。在这项工作中,我们在ImageNet上预训练一个生成器,在CelebA上预训练一个生成器,在Selfie2Anime数据集上预训练一个生成器。图像翻译培训。对于所有三个基准测试任务,我们训练UVCGAN模型进行100万次迭代,批量大小为1。我们使用Adam优化器,学习率保持恒定为0。0001,然后在第二半期间线性退火到零我们应用三种数据增强:随机剪切和随机水平翻转。在将图像随机裁剪为256×256之前,我们将它们从256×256至286×286为Selfie2Anime和178×218至CelebA的256×313超参数搜索。UVCGAN损失函数取决于四个超参数:λcyc、λGP、λidt和γ,等式(6)-(8)。如果使用同一性损失(λidt),则始终设置为λcyc/2,如[82]中所建议的。为了找到性能最佳的配置,我们运行一个小规模的超参数优化,网格上的网格化 我们的实验表明,所有三个基准测试任务的最佳性能是用LSGAN + GP实现的(λGP= 0.1,γ=100),并且具有在图像转换数据集本身上预先训练的生成器CelebA和Selfie2Anime的最佳λcyc分别为5和10超参数调谐的烧蚀研究见第5.3节。更多的训练细节也可以在开源存储库中找到[73]。4.3. 其他模特训练详情为了公平地代表其他模型首先,如果数据集的预训练模型存在,我们将直接使用它其次,在没有预训练模型的情况下,我们将使用配置文件(如果提供)从头开始训练模型,遵循原始论文中的描述,或使用类似任务的超参数配置。第三,我们将保持源代码“原样”,除非绝对有必要进行更改。此外,我们对某些平移方向缺乏超参数的模型进行了小规模超参数调整(附录二)。2)的情况。后处理和评价选择也会影响报告的性能(第5.2节)。ACL-GAN[1] 为 Gen- derSwap 数 据 集 提 供 配 置 文件。对于Eyeglasses和Selfie2Anime的配置文件,我们复制GenderSwap 的设置,除了四个关键参数λacl,λmask,δmin和δmax,我们根据论文[80,第8页,训练细节]进行修改。由于ACL-GAN不会联合训练两个生成器,因此我们为所有数据集的每个方向训练一个模型。Council-GAN[19]为所有数据集提供模型,但仅在一个方向上(自拍到动漫,男性到女性,重新移动眼镜)。GenderSwap和Selfie2Anime的预存模型输出大小为256的图像,而Eyeglasses的图像大小为128为了进行完整的比较,我们使用与现有超参数相同的超参数来训练缺失方向的模型,除了眼镜Cy- cleGAN[21]模型是用去故障设置(resnet 9 blocksgenerators和LSGAN losses,batch size1等)从头开始训练的。因为原始的CycleGAN使用正方形图像,我们为CelebA添加了一个预处理,在保持长宽比的同时将较短的边放大到256,然后是256 256随机裁剪。U-GAT-IT[72]为Selfie 2Anime提供了预训练模型,可直接使用。对于两个CelebA数据集,使用默认超参数训练模型。表1描述了使用NVIDIA RTX A6000 GPU在CelebA数据集上训练各种模型的时间(以小时为单位)。这些时间对应于使用批量大小1训练模型进行一百万次迭代。U-GAT-IT必须计算的项,以及生成器和鉴别器的大尺寸对于Council-GAN,时间源于训练一组生成器,每个生成器除了域鉴别器之外还有自己的识别器更多的细节可以在开源资源库中找到[3]708××表1. 训练时间。CycleGAN、U-GAT-IT和UVCGAN联合训练两个发生器。ACL-GAN和Council-GAN的生成器针对每个方向分别进行培训。所示时间用于两个方向的训练。算法时间(小时)联合培养#段落ACL-GAN理 事 会 -GANCycleGANU-GAT-ITUVCGAN∼86∼600∼40∼140∼60✓✓✓55米116米28米671M68米5. 结果5.1. 评估指标Fre'chetInceptionDistance(FID)[36]和KernelInceptionDistance(KID)[10]是用于评估图像到图像转换性能的两个最受认可的指标。较低的分数意味着翻译的图像与目标域中的图像更相似。如图所示在表2中,与现有模型相比,我们的模型在大多数图像到图像的翻译任务作为一个类似于CycleGAN的模型,我们的模型产生的转换图像与输入图像密切相关,例如头发颜色和面部方向(图3),这对于增强科学模拟至关重要。相反,我们观察到ACL-GAN和Council-GAN产生的翻译倾向于在完成翻译时不必要的特征(例如背景颜色或头发颜色和长度)上过于自由。我们还注意到,尽管U-GAT-IT在动画到自拍任务中获得了较低的分数,并且产生了更像人脸的翻译,但它们与输入的相关性较低,在补充材料中,提供了更多更大尺寸的样品。5.2. 模型评估和复制用于图像到图像转换的KID和FID难以再现。例如,在[56,80,42]中,相同任务模型设置的大多数FID和KID得分不同。我们假设这是由于:1)随着FID随着更多数据样本而减少,测试数据的大小不同[10] 2)测试前后处理的差异3)度量的不同制定(例如,U-GAT-IT中的KID [42])4)不同的FID和KID实现。因此,我们将评估标准化如下:1)使用FID和KID的完整测试数据集-对于KID子集大小,使用50用于Selfie2Anime,并且使用1000用于两个CelebA数据集; 2)调整非正方形CelebA图像的大小,并采取大小为256 256的中心裁剪,以保持正确的长宽比; 3)将所有KID和FID计算委托给torch-fidelity包[60]。ACL-GAN遵循非确定性类型的周期一致性,并且可以生成可变数量的trans-GAN。表2. FID和KID分数。越低越好。自拍到动漫动漫自拍ACL-GANFID KID(×100)九十九。33 .第三章。22 ±0。2691. 9 二、74 ±0。2692. 1二、72±0。29九十五82.74 ±0。3179岁。01 .一、35± 0。20男女FID KID(×100)9 .第九条。4058± 0。0610个。40的情况。74 ±0。08十五岁21 .一、29 ±0。11二十四岁12个。20 ±0。129 .第九条。6068 ±0。07摘下眼镜FID KID(×100)十六岁7 0的情况。70 ±0。06三十七23 .第三章。67 ±0。22二十四岁21 .一、87 ±0 . 01,P<0.05。1723岁31. 69 ±0。14十四岁40的情况。68 ± 0。10FID KID(×100)128. 63 .第三章。49 ±0。33126. 0二、57±0。32127 5二、52±0。34一百零八81 .一、48 ± 0。34122. 82. 33 ±0。38女性对男性FIDKID(×100)19. 11 .一、38 ±0。09二十四岁11 .一、79 ±0。10二十二岁21 .一、74 ±0。11十五岁5094 ±0。07十三岁90的情况。91 ± 0。08添 加 玻 璃FID KID ( ×100 )20。11 .一、35±0。1419号。51 .一、33 ±0。1319号。81 .一、36 ±0。1219号。0个1.08 ±0. 10十三岁60的情况。60 ± 0。08GAN理事会CycleGANU-GAT-ITUVCGANACL-GANGAN理事会CycleGANU-GAT-ITUVCGANACL-GANGAN理事会CycleGANU-GAT-ITUVCGAN输入的图像。然而,由于较大的样本大小可以提高FID分数[10],因此我们为每个输入生成一个翻译图像以进行公平比较。为了生成测试结果,ACL-GAN将CelebA中的图像调整为宽度256,并在不进行裁剪的情况下输出。对于FID和KID评估,我们从测试输出中截取中心256 256。Council-GAN将图像的大小调整为具有宽度256,除了移除眼镜之外,由于提供的预训练模型,该宽度为128。为了遵循使用预训练模型(如果可用)的原则,并在评估大小为256的图像时保持一致性,我们在测试期间将128调整为256,这可能是FID分数较大的原因。相反的方向,添加眼镜,从头开始使709用256的图像大小进行训练。其性能与其它型号相似CycleGAN在训练和测试中随机选取一个正方形作物然而,为了进行公平的比较,我们修改了源代码,使测试输出是中心作物。由于原始U-GAT-IT不能处理非正方形图像,我们修改了代码以缩放CelebA数据集的较短边2565.3. 消融研究表3总结了男性到女性和自拍到动漫的翻译性能,包括预训练、GP和身份丢失。首先,GP与身份丢失相结合第二,没有GP,身份的丧失会产生混合的结果。最后,在同一数据集上进行预训练可以提高性能,特别是在conjunc中。710×××输入ACL-GANGAN理事会CycleGANU-GAT-ITUVCGAN输入ACL-GANGAN理事会CycleGANU-GAT-ITUVCGAN自拍到动漫动漫自拍男女女性与男性摘下眼镜添加玻璃杯输入ACL-GANG A N 理事会CycleGANU-GAT-IT UVCGAN输入ACL-GANG A N 理事会CycleGANU-GAT-IT UVCGAN图3. 不成对的图像到图像翻译的示例。与GP和身份丢失的关系附录1包含所有数据集的完整消融研究结果。我们推测,GP是需要获得最佳性能与预先训练的网络,因为这些网络工程提供了一个很好的起点,图像translation任务。然而,在微调开始时,初始化器由随机值初始化,并向发生器提供无意义的信号。这种随机信号可能会使生成器偏离良好的起点,并破坏预训练的好处。5.4. 注意力的解释由于UVCGAN生成器使用Transformer瓶颈,因此可视化其注意力矩阵是有指导意义看看它们是否有助于生成器的可解释性。我们绘制(图4)由在UVCGAN生成器的瓶颈(图2B)中的12个Transformer编码器块中的每一个中的多头自注意(MSA)单元产生的注意权重注意力矩阵的(i,j)项指示当行i的总和为1时,令牌i对令牌j付出了多少注意力。当使用多头注意时,每个头产生注意矩阵。为了简单起见,我们对Transformer编码器堆栈中每个块的所有头部和目标指向的注意力权重进行给定大小为256 256的输入图像,这提供了维度为w h(16 16=256)的注意力向量。这样的向量的第j个条目指示令牌j平均接收多少注意力。因为记号代表重叠-711×输入块1块2块3块4块5块6块7块8块9块10块11块12翻译图4. 关注 由来自逐像素ViT中的12个Transformer编码器块的注意力权重生成的注意力热图。注意力热图展示了图像的不同位置受到的关注量。表3. 消融研究。预训练/数据集列指示生成器在哪个数据集上进行预训练(无表示无预训练;Same表示男性对女性的CelebA和自拍对动漫的Selfie 2Anime)。预训练男女自拍到动漫数据集GPIDTFIDKID(×100)FIDKID(×100)相同的ImageNet没有一✓✓✓✓✓✓9 .第九条。60的情况。68 ± 0。0779岁。081. 3八十91.一、35±0。201.一、66±0。211.一、78±0。2011个国家。011个国家。00的情况。85± 0。080的情况。85± 0。09相同的ImageNet没有一✓✓✓11个国家。111个国家。0十三岁40的情况。86± 0。080的情况。85± 0。081.一、11±0。0983岁984. 3一百一十五41.一、88±0。351.一、77±0。21六、85±0。59相同的ImageNet没有一✓✓✓十四岁2十四岁5十四岁41.一、22±0。101.一、23±0。101.一、26±0。1081. 586岁。881. 61.一、68±0。22二、21±0。251.一、75±0。25相同的ImageNet没有一12个。7十三岁4十八岁31.一、06± 0.091 .一、14 ±0。101 .一、63 ±0。1179岁。091. 281. 21.一、32±0。19二、63 ±0。231 .一、76 ±0。21ping原始图像中的补丁,我们如下生成热图:将特征向量整形为大小为16 16的正方形,将其放大16倍以匹配输入图像的维度,然后应用σ=16的高斯滤波器。通过将注意力热图覆盖在输入图像上,我们注意到每个块都在关注特定的面部部分,其中眼睛和嘴巴区域受到最多的关注。这与行为科学实验中关于统计眼睛注视的发现相呼应(例如,[12]),其中感兴趣的区域也往往在眼睛和嘴巴周围,这可能表明模型712最具信息性和相关性的区域。6. 结论这项工作引入了UVCGAN,以促进周期一致的,内容保持的图像翻译和有效地处理长期的空间依赖性,仍然是一个常见的问题,在科学领域的研究。结合自监督预训练和GP正则化,UVCGAN在各种图像翻译基准上优于竞争方法。消融研究表明GP和周期一致性损失与UVCGAN配合良好对注意力权重的额外检查表明,我们的模型专注于源图像的相关区域。为了进一步证明我们的模型在处理基准数据集之外的长距离模式方面的有效性,需要更多的开放科学数据集。潜在的负面社会影响。本工作中使用的所有数据都是公开的。训练我们的模型对环境的影响大于原始的CycleGAN,但与其他先进模型相比要小得多。虽然我们的图像到图像翻译工作的动机是弥合科学模拟和实验之间的差距,但作者意识到其在生成虚假内容方面的潜在用途[53]。值得庆幸的是,有反措施和检测工具[39]的开发,以打击这种滥用。为了促进这种缓解工作,我们提供了我们的代码和预训练模型。谢谢。布鲁克海文国家实验室的LDRD计划由DOE科学办公室根据合同DE-SC 0012704赞助713引用[1] GitHub:ACL-GAN。https://github.com/hyperplane-lab/acl- gan.[2] Yasir Alanazi,Nobuo Sato,Tianbo Liu,WallyMelnitchouk,Pawel Ambrozewicz,Florian Hauenstein,Michelle P. Kuchera,Evan Pritchard,MichaelRobertson,Ryan Strauss,Luisa Velasco,and YaohangLi.通过特征增强和变换的生成对抗网络(FAT-GAN)模拟电子-质子散射事件。周志华主编,《第三十届国际人工智能联合会议论文集》,IJCAI-21,第2126-2132页人工智能组织国际联席会议.[3] GitHub:UVCGAN-BenchmarkingAlgorithms.https://github.com/ls4gan/benchmarking的网站。[4] Ivan Anokhin、Kirill Demochkin、Taras Khakhulin、GlebSterkin、Victor Lempitsky和Denis Korzhenkov。具有条件独立像素合成的图像生成器。在IEEE/CVF计算机视觉和模式识别集,第14278[5] 马丁·阿乔对ky,苏米特·钦塔拉和Le'onBottou。Wasserstein生成对抗网络在机器学习国际会议上,第214-223页。PMLR,2017年。[6] Thomas Bachlechner,Bodhisattwa Prasad Majumder,Henry Mao,Gary Cottrell,and Julian McAuley. Rezero是你所需要的:大深度时收敛速度快。在人工智能的不确定性,第1352-1361页。PMLR,2021年。[7] 包航波,李东,魏福如。Beit:Bert图像转换器的预训练。arXiv预印本arXiv:2106.08254,2021。[8] Irwan Bello,William Fedus,Xianzhi Du,Ekin DogusCubuk,Aravind Srinivas,Tsung-Yi Lin,JonathonShlens,and Barret Zoph.重新审视报告:改进培训和扩展策略。神经信息处理系统进展,34:22614[9] Camille Bilodeau,Wengong Jin,Tommi Jaakkola,Regina Barzilay,and克拉维斯湾 詹森分子发现的遗传模型:最新进展和挑战。不适用:e1608。电子版:https://onlinelibrary.wiley.com/doi/pdf/10.1002/wcms.1608。[10] 我的儿子比尼奥斯基,丹尼卡J萨瑟兰,迈克尔阿贝尔,阿瑟 格雷顿。 揭秘mmd 甘斯 。arXiv预印 本arXiv:1801.01401,2018.[11] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练[12] 罗伯托·卡尔达拉和塞巴斯蒂安·米耶莱。IMAP:一种用于眼球运动数据统计注视映射的 NOVELBehaviorresearch methods,43(3):864[13] Mathi ldeCaron , HugoTouvron , IshanMisra , Herve'Je'gou ,Julien Mairal,Piotr Bojanowski,and Armand Joulin.自我监督视觉转换器中的新兴特性。IEEE/CVF计算机视觉国际会议论文集,第9650-9660页,2021年[14] 瑞奇·T Q. Chen,Jens Behrmann,David Duvenaud,andJ?rn-HenrikJacobsen. 残差流用于不可靠的生成建模。在第33届国际会议上,神经信息处理系统研讨会。Curran Associates Inc.[15] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offreyHinton.视觉表征对比学习的一个简单框架国际机器学习会议,第1597-1607页。PMLR。[16] Xinlei Chen,Kaiming He.探索简单的连体表示学习。在IEEE/CVF计算机视觉和模式识别会议论文集,第15750[17] Yunjey Choi,Youngjung Uh,Jaejun Yoo
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功