没有合适的资源?快使用搜索试试~ 我知道了~
可逆GANs实现高质量图像转换
1→联系我们→→◦◦→→→→→→可逆GANs实现内存高效的图像到图像转换第谷足球会阿姆斯特丹大学tychovdo@gmail.comDaniel E.阿姆斯特丹沃勒尔大学d.e. uva.nl摘要Pix2pix [15]和CycleGAN [31]的损失极大地提高了图像到图像翻译任务结果的定性和定量视觉质量。我们扩展了这个框架,探索近似可逆architec- tures是非常适合这些损失。这些体系结构通过设计是近似可逆的,因此在训练甚至开始之前部分地满足循环一致性。此外,由于可逆体系结构在深度上具有恒定的内存复杂度,因此可以任意深度地构建这些模型。我们能够在Cityscapes和Maps数据集上以接近恒定的内存预算展示卓越的定量输出1. 介绍计算机视觉曾经被认为涵盖了许多不同的问题,例如超分辨率[11],着色[7],去噪和修复[29]或风格转移[12]。其中一些挑战与计算机图形学(例如,风格转移),而另一些则与科学中的数值问题更密切相关(例如,医学图像的超分辨率[28])。随着现代机器学习的新进展,这些任务中的许多任务已经统一在图像到图像翻译的术语下[15]。在数学上,给定两个图像域X和Y,任务是找到或学习映射F:X→Y,基于在配对的例子{(xi,yi)}或未配对的例子xi yj上。让溶液。这里,X可以表示低分辨率图像的空间,并且Y将表示高分辨率图像的对应空间。我们可以等价地学习一个映射G :是X.为了学习F和G,使用标准的监督学习技术似乎已经足够了,使用卷积神经网络(CNN)来学习F和G。为此,我们需要成对的训练数据和损失函数来衡量性能。在没有配对训练数据的情况下,我们可以利用F和G之间的相互关系。注意我们如何期望合成物GFId和FGId,其中Id是标识。这种性质被称为循环一致性[31]。然后,不成对的训练目标是在整个训练集中最小化关于F和G的f(G F(x),x)或f(F G(y),y)。请注意,在这两个表达式中,我们都不需要显式的对(xi,yi)。当然,在超分辨率中,完全等于单位是不可能的,因为上采样任务F是一对多,而下采样任务G是多对一。循环一致性技术的问题在于,虽然我们可以将我们认为合适的任何F和任何G插入模型中,但我们避免利用F和G是彼此的近似逆的事实在本文中,我们考虑通过设计将F和G构造为近似逆。这并不是周期一致性的替代品,而是它的附属品这样做的一个关键好处是,我们不需要有一个单独的XY和YX地图-ping,但只是一个单一的XY模型,我们可以反向运行以近似Y X。此外,请注意,通过示例性加权,XY和YX模型,我们可以看到在X Y方向上的训练也会训练相反的Y X方向,这不一定会发生在单独的模型中。最后,还有一个计算上的好处,即可逆网络非常节省内存[13];不需要存储中间激活来执行反向传播。因此,可逆网络可以任意深度构建,同时使用固定的内存预算-这是相关的,因为最近的工作表明,更广泛和更深的网络在图像生成任务中表现更好的趋势[4]。此外,这使得密集像素平移模型能够转移到内存密集型领域,例如3D(参见第5.3节,了解我们对密集MRI超分辨率的实验)。我们的研究结果表明,通过使用可逆网络作为配对或 非 配 对 图 像 到 图 像 翻 译 模 型 ( 如Pix2pix [15]或CycleGAN [31])的中心主力,我们不仅可以减少内存开 销 , 还 可 以 提 高 输 出 的 保 真 度 。 我 们 在 2D 的Cityscapes和Maps数据集以及3D场景的扩散张量图像MRI数据集上证明了这一点(见第5节)。47204721×→∼→→ǁ ◦ − ǁ2. 背景及相关工作在本节中,我们将回顾生成对抗网络(GAN),循环一致性和可逆/可逆网络背后的基础知识。2.1. 生成对抗网络(GANs)生成对抗网络(GAN)[14]在图像生成[4],图像插值[17]和图像重新编辑[26]等任务中取得了巨大的成功。它们由两个部分组成,生成器F:Z→Y映射范围-dom噪声z∈Z到图像y∈Y,D:Y→[0,1]将图像y∈Y映射到概率。给定一组训练图像{y1,y2,. },生成器产生“假”图像y = F(z),zp(z),其中p(z)是简单分布,例如标准高斯分布,并且算法试图预测图像来自真实图像分布的概率。对于训练,定义对抗性损失LGANLGAN(F,D)=EylogD(y)+Ezlog(1−D(F(z)(1)这种损失是使用极大极小机制训练的,在这种机制中,我们鼓励生成器欺骗鉴别器,同时也训练鉴别器猜测生成器是否创建了图像。在数学上,这个博弈[14]是F= arg min max LGAN(F,D).(二)这首先在Pix2pix模型中执行[15],该模型用于配对图像到图像的转换问题。Pix 2 pix用条件生成器F:X Z Y替换F,其中Z是随机噪声的域;尽管在实践中,我们通常忽略额外的噪声输入[31]。该模型结合了L1损失,其强制模型以监督的方式将图像映射到成对的翻译,并具有对抗性损失,其强制模型采用目标域的风格。损失F=arg min maxLcGAN(F,D)+λLL1(F)(4)F D哪里LL1(F)=Ex,y<$y−F(x)<$1(5)LcGAN(F,D)= Ex[log D(x)+log(1-D(F(x))]。(六)λ是一个可调的超参数,通常设置在10−100[15]。2.3.循环一致性CycleGAN模型被提出作为Pix2pix的替代方案,用于未配对的域[31]。 该模型使用两个生成器F和G用于两个域X和Y之间的相应映射(因此,F:X→Y,G:Y -X),以及两个鉴别器DX:X-[0,1]和DY:Y[0,1]训练以区分两个域中的真实图像和生成图像。 由于没有图像配对,在域之间,我们不能调用Pix 2 pix损失和在-F Dstead CycleGAN使用单独的周期一致性丢失,在测试时,丢弃训练器,生成器用于从与训练集相同的分布[2]中产生伪图像。生成器也可以以输入图像为条件。这种设置被称为条件GAN[24]。2.2. 图像到图像翻译在标准(成对)图像到图像转换问题[15]中,我们试图学习映射F:XY,其中X和Y是图像的对应空间。用卷积神经网络(CNN)对F进行建模是很自然的为了训练这个CNN,我们最小化损失函数1Σn惩罚训练集上的距离Lcycle(G,F,x)=<$G <$F(x)− x<$1和Lcycle(F,G,y)=F G(y)y1。这鼓励映射F和G是松散的彼此的逆。这允许模型在未配对的数据上进行训练。总损失为LcycleGAN=L cGAN(F,DY)+L cGAN(G,DX)+ExL循环(G,F,x)+EyL循环(F,G,y)。(七)考虑到F和G是彼此的松散逆,使用单独的模型来为每个模型建模似乎是浪费的。在本文中,我们将F和G建模为彼此的近似逆。为此,我们利用了可逆神经网络的新领域。L(F)=n i=1f(xi),yi)(3)2.4. 可逆神经网络其中,f是在预测F(xi)和目标yi之间的像素空间中定义的损失函数。依赖于像素级损失函数的传统图像到图像转换任务受到以下事实的阻碍:这些损失通常不考虑像素间相关性[30],例如,L1损失将每个像素视为独立的。相反,由于GAN不应用每个像素的损失,它们可以解释这些像素间的相关结构。GAN可以通过在标准像素级L1损失函数之上添加对抗损失来进行图像到图像的转换。4722近年来,一些研究在规范化基于流的方法的背景下提出了可逆神经网络(INN)已经证明,INN能够生成高质量的图像[19],在隐藏层[16]中没有信息丢失的情况下执行图像分类,并分析逆问题[1]。大多数关于INN的工作,包括这项研究,都严重依赖于NICE [9]中引入的转换,后来在RealNVP [10]中扩展。尽管INN拥有一些有趣的特性,但它们仍然相对未被开发。4723√X1X2(一)y1x1y2x2(b)第(1)款提升和投影通常,图像到图像的转换任务不是一对一的。因此,完全可逆的处理是不期望的,并且有时在尺寸失配的情况下是不可能的。此外,它-y2梨,高维,过完备表示,大多数现代网络所使用的网络都能带来更快的列车速度-图1.可逆残留层中残留块的向前(a)和向后(b)通过的图示。注意,函数NN1和NN2不需要是可逆的,因此该层非常灵活,并且实际上非常容易实现。加法耦合在我们的模型中,我们使用一种称为加法耦合的技术[9]获得了一个可逆的残留层[13]:首先,我们将输入x(通常在通道维度上)拆分为(x1,x2),然后使用任意复函数NN1和NN2(例如ReLU-MLP)以(左)的形式对其进行变换:y1=x1+NN1(x2)x1=y1−NN1(x2)(8)y2=x2+ NN2(y1)x2= y2− NN2(y1)。(九)在右边可以看到逆映射。图1显示了这些方程的示意图。存储效率有趣的是,可逆残留层是非常高效的存储器,因为中间活动不必存储来执行反向传播[13]。在向后传递期间,梯度计算所需的输入激活可以从输出激活(重新)计算,因为反函数是可访问的。这导致了恒定的空间复杂度(O(1)),在层深度(见表1)。3. 方法我们的目标是创建一个内存有效的图像到图像的翻译模型,这是近似可逆的设计。下面我们描述了如何创建近似可逆模型的方法的基本概述,该模型可以插入到现有的Pix2pix和CycleGAN框架中。我们将模型称为RevGAN。技术空间复杂性计算(激活)复杂性简单O(L)O(L)时间复杂度O(L)O(L)时间复杂度O(logL) O(logL)加性偶合[13]O(1)O(L)表1.空间和计算复杂性的比较复制自[13]。L表示残留层的数量通知加性耦合的空间复杂度如何为O(1)与时间复杂度为O(L)+NN1NN2+−NN1NN2−4724→→−1◦[25]更好的是全面的表现[4]。因此,我们将前向F:XY和后向G:Y X映射分成三个分量。对于每个域X和Y,我们将高维特征空间X和Y,尊重我vel y. 每个象空间与其对应的象空间之间存在独立的、不可变的映射例如,对于图像空间X, 我 们 有EncX:X→X和DecX:X→X。EncX将图像提升到更高的维度空间DecX将图像向下投影回低维图像空间。我们使用术语编码和解码来代替在 特 征 空 间 之 间 , 我 们 放 置 一 个 可 逆 核 C :X→Y→ ,所以全映射是F=DecYC EncX(10)G=Dec XC Enc Y。(十一)对于可逆核,我们使用基于加法耦合的可逆残差网络,如[13]所示。全映射F而G只有在EncX= DecX= Id且EncY = DecY= Id时才是真正的逆,这不可能是真的,因为图像空间的维数比特征空间低在-相反,这些单元通过端到端循环一致性损失被训练成近似可逆的对。由于编码器和解码器不一定是可逆的,它们可以由不可逆的操作组成,例如池化和跨步卷积。因为核心C和它的逆C−1都是可微函数(具有共享参数),所以两个函数都是可微函数。选择可以在前向传播过程中发生,并且同时被训练。事实上,训练C也将C-1,反之亦然。可逆核心基本上在X→Y和Y→X方向上重量平衡。既然我们使用了循环一致性损失,人们可能会问,为什么我们要费这么大的劲把可逆网络也包括进来呢?原因有二:首先,虽然图像到图像的翻译不是双射任务,但它接近于双射任务。图像x中的许多视觉信息应该在它的配对图像y中重现,并且对称地,图像y中的许多视觉信息应该出现在x中。因此,网络F和G至少应该被初始化,如果不是松散耦合为彼此的弱逆的话,这似乎是明智的。如果双射的约束太高,那么模型可以通过非双射来学习偏离双射。4725Y~X~×××→→DX DYEncXCDecY12月10日C−1EncY图2.我们的RevGAN模型示意图。在低维图像空间X和Y与它们对应的高维特征空间X和Y之间,我们放置非不可测的编码器和解码器网络工作Enc X、DecX、EncY和DecY。 特征空间X和Y具有相同的维数,并且在它们之间放置一个不可变的核网络C。我们还附加到每个图像空间,X和Y是特定于域的向量,用于对抗性损失的训练。可逆编码器和解码器。其次,在这些内存昂贵、密集、像素级回归任务中使用内存高效网络是一个有力的论据使用两个独立的可逆网络确实是F和G的可能性。这两种方法在深度上都具有恒定的内存复杂度。而不是有两个网络工程,我们可以进一步减少内存预算的一个粗略的因素约为2,利用松散的双射prop-任务的分解,共享X→Y和Y→X模型。配对RevGAN我们使用[15]中公式4的标准Pix2pix损失函数,在X→Y和Y→X方向上应用,训练我们的配对,可逆,图像到图像转换模型:LRevGAN配对=λ(LL1(F)+L L1(G))+LcGAN(F,DY)+LcGAN(G,DX)(12)我们还试验了条件GAN的额外输入噪声,但发现它没有帮助。对于未配对的RevGAN,我们调整CycleGAN模型的损失函数[31],通过用周期一致性损失替换L1损失,因此总目标是:LRevGAN未配对=LcGAN(F,DY)+L cGAN(G,DX)+ExL循环(G,F,x)+EyL循环(F,G,y)。(十三)4. 实施和数据集我们描述的模型是非常通用的,因此下面我们将更详细地解释如何实现我们的配对和非配对RevGAN模型的细节我们提出了可逆模型的2D和3D版本。4.1. 执行网络体系结构我们使用两种主要的体系结构。在二维问题上,我们对ResNet进行了[31]用一个可逆的核心来代替内卷。 芯由6或9个可逆的残余层组成,取决于晶片-我们使用6个可逆的残余层用于128的芯128(城市景观)数据和9个可逆的剩余层上的256 256(地图)数据。网络架构的更详细描述可在补充材料中找到。在3D中,我们使用基于[11]的SRCNN的架构(补充材料中有更多细节)。训练细节所有模型参数从平均值为0且标准偏差为0.02的高斯分布初始化。对于训练,我们使用Adam优化器[18],学习率为0.0002(β1=0)。5,β2=0。999)。对于2D模型,我们在前100个epoch中保持学习率固定3D模型以固定的学习率训练20个epoch。我们对未配对模型使用λ因子10,对配对模型使用λ因子1004.2. 数据集我们在两个2D数据集和一个3D数据集上运行测试。所有三个数据集都有成对的X和Y域图像,因此我们可以提取图像保真度的定量评估CityscapesCityscapes数据集[8]由具有高质量像素级注释的城市街道场景组成。出于比较的目的,我们使用与[31]中相同的2975个图像对进行训练,并使用验证集进行测试。所有图像都被下采样到128 128。为了评估,我们采用常用的语义seg-心理状态指标:每像素精度、每类精度和类交大于并。可以直接评估照片标签映射的输出。对于反向映射,标记照片,我们使用FCN分数[31],首先通过在相同分割任务上单独训练的FCN-8 s语义分割模型[21]传递我们生成的图像然后,我们测量YX4726×××××׆→→输入CycleGAN未配对RevGAN(我们的)Pix2pixPaired RevGAN(我们的)图3.测试CycleGAN和Pix2pix模型在Cityscapes数据集上的图像映射,与我们的可逆变体进行比较。TOP:照片→标签映射。BOTTOM:标签→照片映射。请注意如何在最大的改善是之间的循环- GAN和我们的不成对RevGAN变体;而Pix 2 pix和配对的RevGAN模型都具有相当的视觉保真度。更结果见补充材料。使用相同的分类度量获得分割掩模。这个(伪)度量背后的直觉是,如果由图像到图像转换模型生成的图像具有高质量,则分割模型应该表现良好Maps数据集包含1096张训练图像和一个同样大小的测试集,该测试集是由[15]从纽约市及其周围的Google地图中精心抓取的。该数据集中的图像被下采样到256256。我们用几种常用的方法来评估输出图像质量指标:平均绝对误差(MAE)、峰值信噪比(PSNR)和结构相似性指数(SSIM)。HCP Brains人类连接组项目数据集由15 128个128128个脑容量,其中7卷用于培训。每个体素的值是表示3× 3对称扩散张量(用于测量脑中的水扩散性)的6个自由分量的6D大脑分为高分辨率和低分辨率版本。低分辨率图像使用2个最近邻进行上采样,因此输入和输出大小相等。这是一个很好的尝试任务,因为3D中的超分辨率是一个内存密集型任务。 为了训练,我们将脑体积分成大小为24×24×24的块省略了具有小于1%脑物质的斑块,导致每体积平均112个斑块。我们评估全脑体积的根均方误差(RMSE)之间的体素包含脑物质的地面真相和上采样的体积。我们还计算了大脑内部的误差,该误差由全脑掩模内被5 × 5立方体包围的所有体素定义,以与先前的文献保持一致[28] [3]。5. 结果在本节中,我们评估了配对和非配对RevGAN模型的性能,包括定量和定性,以及Pix2pix和CycleGAN基线。此外,我们研究了我们的方法在内存效率和模型深度方面的可扩展性。为了便于比较,我们的目标是使用与相关文献中使用的相同的指标5.1. 定性评价我们在图4的Maps数据集和图3的Cityscapes我们挑选了数据集中的第一张图像,以避免“樱桃采摘”偏差。图像由具有相等参数计数的模型生成,在下一节的定量结果中用""符号表示模型宽度参数照片 标签标签 照片每像素加速每类acc.IOU类每像素acc.每类acc.IOU类CycleGAN(基线)†323.9百万0.600.270.190.420.150.10未配对RevGAN321.3米0.520.210.140.360.140.09未配对RevGAN†563.9百万0.660.250.180.650.240.17Pix2pix(基线)†323.9百万0.820.430.320.610.220.16配对RevGAN321.3米0.810.410.310.570.200.15配对RevGAN†563.9百万0.820.440.330.600.210.16表2. C输入Cityscapes照片上的分类分数→标签。城市景观标签上的右FCN分数→照片。TOP未配对模型。BOTTOM配对模型。粗体数字表示该部分中的最佳模型。请注意,在基线优于我们的模型的部分,值的差异非常小。参数匹配架构4727→→→→→→输入未配对的RevGAN(我们的)配对RevGAN(我们的)图4.在Maps数据集上测试集图像映射我们从这组图像中看到,基线(Pix2pix和CycleGAN)和可逆变体之间的转换图像质量没有明显下降所有模型都能够产生类似或更好的视觉质量的图像。在未配对模型中可以看到最大的改进(比较CycleGAN和Unpaired RevGAN)。两个配对的任务在视觉上都比未配对的任务更吸引人,这是直观的,因为配对的图像到图像的翻译比未配对的版本更容易解决。因此,我们得出结论,RevGAN模型在可观察的视觉质量方面似乎没有低于我们的不可逆基线补充材料中载有更广泛的模型产出5.2. 定量评价Cityscapes我们对我们的RevGAN模型在Cityscapes数据集上的性能进行了定量评估。为了确保公平性,基线使用原始论文中的代码实现。 对于我们的模型,我们提供了两个版本,一个低参数计数版本和一个参数匹配版本。在表2中,模型RMSE(内部)RMSE(总)配对w/oLGAN(3D-SRCNN)7.03±0.31 12.41 ± 0.57配对+2R w/oLGAN 7.02±0.32 12.41 ± 0.57配对+4 R w/oLGAN6.68 ± 0.3011.85± 0.56配对+8R w/oLGAN 18.43±1.03 21.40 ± 0.98配对(3D-Pix 2 pix)11.94±0.65 20.73 ± 1.05配对+2R 9.61±0.40 17.36 ± 0.76配对+4R 8.43±0.37 14.81 ± 0.61配对+8R7.82± 0.3513.76± 0.60未配对(3D-CycleGAN)17.23±0.73 26.94 ± 1.20未配对+2R11.05 ± 0.5117.76± 1.38未配对+4R 18.98±1.22 28.06 ± 1.44未配对+8R 18.96±0.85 27.94 ± 1.09表3.在HPC Brains测试集中的8个大脑上测量的RMSE评分的平均值和标准差。请注意,在每个实验中,最浅的模型并不是最高性能的。我们能够通过使用与浅模型相同的内存复杂度级别的更深模型来提高性能对照片标签映射的管理由中间列中的分段分数给出,而对标签照片的性能由右手列中的FCN分数在表2中,我们看到在低参数和参数匹配的RevGAN模型在每像素精度上优于CycleGAN基线。这与我们在上一节中的定性观察对于每个班级和班级的IOU,我们在标签照片上也超过了基线,在照片标签任务上也接近或略差。在配对任务中,我们看到结果更加混合,我们的表现大致类似于Pix2pix基线,再次匹配我们的定性观察。我们预先假设配对任务已经相当容易,因此基线性能已经饱和。因此,引入我们的模型将无助于提高视觉质量的产出。另一方面,未配对的任务更难,因此提供副设计、近似反转的照片标签和标签照片生成器提高了视觉质量。在配对任务中,主要的好处是记 忆 复 杂 度 ( 见 5.4 节 ) , 但 在 非 配 对 任 务 中 ,RevGAN保持了低记忆复杂度,同时普遍提高了数值性能。Maps数据集上的结果如表4所示,这表明RevGAN模型的 性 能 与 基 线 相 似 , 有 时 甚 至 更 好 。 同 样 , 与Cityscapes实验类似,我们发现最大的改进是在未配对的任务中发现的;而配对任务表现出相当的表现。5.3. 3D体积我们还评估了我们的RevGAN模型在3D超分辨率问题上的性能,使用HTC BrainsCycleGANPix2pix地面实况4728→→× ×××∼模型宽度参数地图卫星地图MAE PSNR SSIM MAE PSNR SSIM133.57±18.09 14.59± 0.96 0.31±0.05 142.56 ± 18.94135.48± 19.19 14.55± 1.24 0.26± 0.04133.12 ± 17.18配对RevGAN 32 1.7 M139.23± 12.76 14.73± 1.07 0.30± 0.05 129.80± 15.54 26.84±3.35 0.81 ± 0.05配对RevGAN<$58 5.6 M 140.74± 12.4514.91±1.13 0.31 ± 0.05128.55± 12.71 27.27±3.12 0.82 ± 0.05配对RevGAN 64 6.8 M 140.59± 13.64 14.85± 1.20 0.31± 0.06 133.09± 12.0927.37±3.06 0.82 ± 0.04表4.地图数据集上的图像质量请注意,在大多数实验中,RevGAN的性能都优于基线。†参数匹配结构数据库[28]作为基线,我们使用简单的SRCNN模型[11](参见架构细节的补充材料),其包括作为编码器的333卷积层,随后是作为解码器的111卷积层。对于这个问题,我们使用了PatchGAN的3D变体,也在[31]中使用。RevGAN模型通过在编码器和解码器之间插入可逆核心来扩展架构。如图5所示,我们使用具有额外可逆剩余层的模型获得了更高质量的结果。当然,更深入的模型产生更高质量的预测并不罕见然而,由于内存的限制,增加模型的大小通常是不可行的.在处理大型3D体积时,在GPU内存中拟合激活可能特别这项研究表明,我们可以通过在现有架构中添加可逆的剩余层来训练更深层次的神经图像到图像翻译模型,而不需要更多的内存来存储模型激活。有和没有对抗性损失我们在有和没有对抗性损失LGAN的配对模型上进行了实验。我们发现,没有这种损失的模型通常在像素距离方面表现更好,但是具有对抗性损失的的一种可能解释这种现象可能是,仅最小化像素距离(例如L1或L2)的模型对抗性损失迫使模型输出可以从这种不确定分布中采样的图像(从而引入逼真的噪声),通常会导致不那么模糊,视觉上更引人注目的渲染,但可能会有更高的像素误差。5.4. 反省内存使用在本实验中,我们评估了RevGAN模型在增加深度时的GPU内存消耗,并将其与CycleGAN基线进行比较。我们将两个模型的宽度固定在这样一个值,即模型参数在深度6处近似相等(均为3.9 M)。从表5中可以看出,在两种模型中,对于更深的网络,总内存使用量都有所增加。然而,与CycleGAN相比,RevGAN模型中存储激活的内存成本保持不变。6层 Cy- cleGAN 模 型 具 有 与 具 有 18-30 层 的 未 配 对RevGAN相同的总内存占用。请注意,对于卷积层,存储模型的内存成本在给定网络架构的情况下是固定的,而存储激活的内存因此,减少激活的存储器成本,配对未配对SRCNN+4R(我们的)RMSE(配对3D-RevGAN)SRCNN+2R(我们的)RMSE(未配对3D-RevGAN)RMSE图5.HCP脑测试集中第一个脑的矢状切片(顶部)和轴向切片(底部)上平均扩散率图的可视化从左至右:低分辨率输入、高分辨率地面实况、没有可逆层的配对模型(SRCNN-3D-Pix 2 pix)、具有可逆层的配对模型(Paired 3D-RevGAN)、没有可逆层的未配对模型(SRCNN-3D-CycleGAN)和具有可逆层的未配对模型(Unpaired 3D-RevGAN)。LR输入地面实况SRCNN(3D-RMSESRCNN(3D-CycleGAN†未配对RevGAN未配对RevGAN未配对RevGAN3232†58645.7百万1.7米5.6米6.8百万139.85 ±15.52134.63 ±14.2514.62 ±1.1614.54 ±1.090.31 ±0.050.30 ±0.06138.86 ±20.57148.98 ±16.8326.25±3.64 0.81 ±0.0626.23±3.89 0.81 ± 0.0625.47±4.27 0.80 ± 0.0823.66±2.80 0.67 ± 0.104729∼−深度CycleGAN未配对RevGAN表5.在地图数据集上,在单个Nvidia Tesla K40m GPU上以MiB 为 单 位 测 量 GPU 上 的 内 存 使 用 量 ( 越 低 越 好 ) 。CycleGAN和未配对的RevGAN都有类似数量的参数。当在较大的数据大小上训练模型时,选择变得特别重要(例如,更高的图像分辨率或增加的批量大小)。可扩展性可逆架构可以进行任意深度的训练,而不会增加存储激活所需的内存成本。我们在Cityscapes数据集上评估了更大的RevGAN模型的性能。如图6所示,随着深度的连续增加,RevGAN模型在Cityscapes任务上的性能也会增加。这种效应似乎一直持续到一定深度(1218)之后,我们发现性能再次略有下降。我们假设这种性能下降是由于更深模型的训练时间更长,由于时间预算问题,我们无法将其训练到完全收敛。请记住,我们试图使我们的网络架构和训练参数尽可能接近原始Pix2pix和CycleGAN模型中使用的网络。其他研究表明,具有更深可逆架构的训练模型可能非常有效[5]。我们把对交替可逆结构的探索留给未来的工作。6. 限制和讨论我们的结果表明,我们可以训练图像到图像的翻译模型,其深度内存需求接近恒定(见表5)。这使我们能够扩展到非常深入的架构。我们的消融研究还表明,增加深度可以导致更高的定量结果方面的各种语义分割指标。然而,这种按比例放大的能力以存储器换取时间,因此在实际情况下需要考虑权衡,在实际情况下,我们可能会关心在这种模型的开发阶段花费多长时间我们还根据经验证明,在可训练参数的约束预算下,我们能够在Cityscapes和Maps数据集上实现改进的性能我们认可两种机制来进行这一观察。由于问题的性质,我们的网络不是完全可逆的。因此,我们仍然需要使用循环一致性损失,这需要通过模型的两个前向传播通道和两个后向通道。避免使用循环一致性损失的可能方式是将编码器和解码器设计为分析上伪可逆的。事实上,我们做了实验,通过将(跨步)卷积公式化为Toeplitz矩阵向量乘积[23]。不幸的是,我们发现精确的伪可逆性在计算上太慢而无法运行。我们设置的另一个问题是,在训练期间需要两个鉴别器(每个域一个)。这些在测试时不使用,因此可以被认为是超级网络,需要大量的额外内存。也就是说,这是CycleGAN和Pix2pix模型的一般问题。7. 结论在本文中,我们提出了一个新的图像到图像的翻译模型,使用可逆的残留层。所提出的模型通过设计是近似可逆的,基本上在前向和后向方向上加权,因此从域X到域Y的训练同时训练从Y到X的映射。我们表现出同等的,alent或改进的性能,在图像质量方面,相比类似的不可逆的方法。此外,我们还证明了我们的模型具有更高的内存效率,因为不需要存储可逆剩余层的激活来执行反向传播。在未来的工作中,我们计划探索技术,以摆脱循环一致性损失,使网络是自动化的。(a)针对深度的每像素精度。(b) 内存使用与深度。cally循环一致的开始。图6. 在Cityscapes数据集上进行75个历元和内存使用后评估的宽度64 RevGAN的每像素精度比较。模型激活模型激活6434.3+752.0374.4+646.19482.3+949.0385.4+646.112530.3+1148.1398.5+646.118626.3+1543.9423.4+646.130818.7+2335.8626.3+646.14730引用[1] L. Ardizzone,J. Kruse,S. Wirkert,D. Rahner,E. W.佩莱格里尼河S. 克莱森湖 Maie r-Hein,C. Rothe r和U.柯西用可逆神经网络分析逆问题arXiv预印本arXiv:1808.04730,2018。[2] S. Arora和Y.张某甘斯真的学会了分配吗?实证研究。CoRR,abs/1706.08224,2017。[3] S. B.布伦贝格河坦诺岛Kokkinos和D. C.亚历山大。更深层次的图像质量转移:训练3d图像的低记忆神经网络。医学 图像计 算和计 算机辅 助干预 ,第 118-125页。Springer,2018.[4] A. Brock,J. Donahue,and K.西蒙尼扬用于高保真自然图 像 合 成 的 大 规 模 gan 训 练 。 arXiv 预 印 本 arXiv :1809.11096,2018。[5] B. 昌湖,澳-地Meng、E.哈伯湖Ruthotto,D.贝格特,E.霍瑟姆任意深度残差神经网络的可逆架构。arXiv预印本arXiv:1709.03698,2017。[6] T.陈湾,澳-地Xu,C. Zhang和C. Guestrin. 训练具有次线 性 内 存 开 销 的 深 度 网 络 。 arXiv 预 印 本 arXiv :1604.06174,2016。[7] Z.成角,澳-地Yang和B.盛深着色。在2015年IEEE计算机视觉国际会议,ICCV 2015,智利圣地亚哥,2015年12月7日至13日,第415-423页[8] M.科德茨,M。奥姆兰,S。拉莫斯,T.雷费尔德,M。恩茨韦勒R.贝南森,美国弗兰克,S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集。在IEEE计算机视觉和模式识别会议论文集,第3213-3223页[9] L. 丁,D. Krueger和Y. 本吉奥。 Nice:非线性独立成分估计. arXiv预印本arXiv:1410.8516,2014。[10] L. Dinh,J. Sohl-Dickstein,and S.本吉奥。用实数值vp估计密度。arXiv预印本arXiv:1605.08803,2016。[11] C.东角,澳-地C. Loy,K.他,还有X。唐 学习用于图像超分辨率的深度卷积网络。欧洲计算机视觉会议,第184-199页。Springer,2014.[12] L. A. Gatys,A. S. Ecker和M.贝丝使用卷积神经网络进行图像风格转换在2016年IEEE计算机视觉和模式识别会议上,CVPR 2016,拉斯维加斯,NV,美国,2016年6月27-30日,第2414- 2423页[13] A. N. Gomez,M.伦河,巴西-地Urtasun和R.B. 格罗斯可逆残差网络:不存储激活的反向传播。神经信息处理系统的进展,第2214-2224页,2017年[14] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利,S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在神经信息处理系统的进展,第2672-2680页[15] P. Isola,J.- Y. Zhu,T. Zhou和A. A.埃夫罗斯使用条件对抗网络的图像到图像翻译。arXiv预印本,2017年。[16] J. - H. Jacobsen,A. Smeulders和E.哦耶隆i-revnet:深度可逆网络。arXiv预印本arXiv:1802.07088,2018。[17] T. Karras,T. Aila,S. Laine和J.莱赫蒂宁为提高质量、稳 定 性 和 变 异 性 而 进 行 的 干 细 胞 CoRR ,abs/1710.10196,2017。[18] D. P. Kingma和J. BA. Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[19] D. P. Kingma和P.达里瓦尔 发光:生成具有可逆1x1卷积的流。arXiv预印本arXiv:1807.03039,2018。[20] D. P. Kingma,T. 萨利曼人,R. 约泽福维奇,X.陈先生,I. Sutskever和M.威林用逆自回归流改进变分神经信息处理系统进展,第4743-4751页,2016年[21] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议论文集,第3431-3440页[22] J. 马滕斯和我Sutskever 使用无hessian优化训练深度和递归在神经网络中:贸易技巧,第479-535页。Springer,2012.[23] M.马图森二维阵列的Svd伪逆反褶积。技术报告,宾夕法尼亚州立大学公园应用研究实验室,1985年。[24] M. Mirza 和 S. 奥 辛 德 罗 条 件 生 成 对 抗 网 。 CoRR ,abs/1411.1784,2014。[25] P. Ochs ,T. 迈因哈特湖Leal-Taix e′和M. 莫勒河举升层:分析与应用. 计算机视觉中- ECCV 2018 -第15届欧洲会议,德国慕尼黑,2018年9月8日至14日,会议记录,第一,第5368,2018年。[26] G. Perarnau,J. van de Weijer,B. Raducanu和J. M. A'l varez.用于图像编辑的不可见条件g ans。CoRR,abs/1611.06355,2016。[27] D. J. Rezende和S.穆罕默德具有正规化流的变分推理。arXiv预印本arXiv:1505.05770,2015。[28] R. Tanno,D. E. Worrall,A. Ghosh、E. Kaden,S. N.Sotiropoulos,A. Criminisi和D. C.亚历山大贝叶斯图像质量转移与cnns:探讨动态磁共振超解析度的不确定性。医学图像计算和计算机辅助干预国际会议,第611-619页。Springer,2017.[29] 谢杰湖,加-地Xu和E.尘使用深度神经网络进行图像去噪和修复。在神经信息处理系统的进展25:2012年第26届神经信息处理系统年会。2012年12月3日至6日在美国内华达州太浩湖举行的会议记录第350-358页[30]
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功