采用先进的训练技术,如梯度惩罚和自我监督的预训
练,得到的模型,命名为UVCGAN,可以在几个基准
数据集上优于竞争模型。
捐 款 . 在 这 项 工 作 中 , 我 们 : 1 ) 将 ViT 合 并 到
CycleGAN生成器中并采用先进的训练技术,2)证明
其与其他更重的模型相比具有出色的图像转换性能,
3)通过消融研究表明,单独的架构变化不足以与其他
方法竞争,并且需要预训练和梯度惩罚,(4)从过去
的文献中找出不匹配的评估结果,并规范评估程序,
以确保公平的比较,并促进我们的基准测试结果的可
重用性。
2.
相关工作
深度生成模型。深度生成模型创建真实的数据点(图
像、分子、音频样本等)与数据集中呈现的数据相
似。生成式决策模型不像传统的决策模型那样压缩表
征维度,提取高层信息,而是扩大表征维度,进行信
息外推有几种类型的深层生成模型。VAE[44,45,
48,64]将数据点减少到概率潜在空间中,并从潜在分
布的样本中重建它们。NF[26,43,14,31]利用变量
公式的变化,并通过可逆和可微变换序列将样本从正
态分布变换为数据分布。DM[37,70,55,66,69,
76]是参数化的马尔可夫链,经过训练,通过连续步骤
将噪声转换为数据(前向过程)。与此同时,GAN[30]
将学习过程公式化为极小极大博弈,其中生成器试图
通过创建真实数据点来欺骗神经网络,神经网络试图
将生成的样本与真实样本区分开来。 GAN是最具表现
力和灵活性的模型之一,可以生成高分辨率,多样
化,风格特定的图像[11,41]。
GAN训练技术。最初的GAN存在许多问题,例如模式
崩溃和训练发散[52]。从那时起,已经做了很多工作
来提高训练的稳定性和模型的多样性。Pro- GAN [40]
介绍了两种稳定方法:渐进式训练和学习速率均衡。
生成器的渐进式训练从低分辨率图像开始,并上升到
高分辨率图像。 学习速率均衡方案旨在确保模型的所
有 部 分 都 以 相 同 的 速 率 进 行 训 练 。 Wasser-stein
GAN[34]建议,可以通过使用更好的损失函数来防止
发电机和发电机之间的破坏性竞争,即,Wasserstein
损失函数它的关键成分是梯度惩罚项,其防止鉴别器
梯度的幅度从
成长得太大。然而,后来重新检查了Wasserstein损失
函数。值得注意的是,评估显示梯度惩罚项负责稳定
训 练 , 而 不 是 Wasserstien 损 失 函 数 [71] 。 此 外 ,
StyleGAN v2[41]依赖于零中心梯度惩罚项来实现高分
辨率图像生成任务的最新结果。这些发现激发了这项
工作,探索应用梯度惩罚项来提高GAN训练稳定性。
用于计算机视觉的Transformer架构。卷积神经网络
(CNN)架构是计算机视觉任务的一种流行选择。在
自然语言处理(NLP)领域,注意力机制和transformer
风格的架构在开放基准测试任务中已经超越了以前的
模型,如隐马尔可夫模型和递归与CNN相比,变压器
可以更有效地捕获自然界中常见的非局部特征。变压
器在计算机视觉中的应用在[28]中首次亮相,而其他
最近的工作表明CNN变压器混合可以实现更好的性能
[77,35]。
自我监督的预培训。自监督预训练通过在没有监督的
原始数据中获得的人工任务这对于在小的标记数据集
上训练具有大量参数的模型尤其重要,有许多创新的
方法来创建这些人工的自我监督任务。计算机视觉中
的例子包括图像修复[62],解决拼图[58],预测图像旋
转[46],多任务学习[27],对比学习[15,16]和师生潜
在自举[33,13]。NLP中常见的预训练方法包括自回归
[63]和掩码填充[24]任务。在掩码填充任务中,句子的
某些部分一旦模型经过预训练,就可以使用小得多的
标记数据集针对多个下游任务进行微调。
我们假设GAN训练也可以从自我监督的预训练中受
益特别是,GAN训练被称为遭受相反,尽管输入样本
不同,但仅重复生成一小组图像。观察者已经注意
到,模式崩溃问题在开始GAN训练后仅发生几个时期
[40]。 这 表明可以 使用更好 的 初 始 化模 型 权 重 事实
上,GAN的迁移学习,一种预训练形式,一直是提高
GAN在小型训练数据集上性能的有效方法[75,57,
78,74,32]。然而,科学数据,如宇宙学和高能物理
学中的数据,与自然图像有很大的相似性因此,我们
只选择在一个自-