协作生成对抗网络（CollaGAN）用于缺失图像数据填补

65 浏览量更新于2023-10-19 收藏 2.81MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12487CollaGAN：用于缺失图像数据填补的Dongwook Lee1，Junyoung Kim1，Won-Jin Moon2，Jong Chul Ye11：韩国科学技术高级研究所，韩国大田{dongwook.lee，junyoung.kim，jong.ye}@ kaist.ac.kr2：建国大学医学中心，韩国mdmoonwj@kuh.ac.kr图1：使用（a）跨域模型，（b）StarGAN和（c）拟议的协作GAN（CollaGAN）的图像翻译任务。跨域模型需要大量的生成器来处理多类数据。StarGAN和CollaGAN分别使用具有一个输入和多个输入的单个生成器来合成目标域图像。摘要在许多需要多个输入以获得所需输出的应用中，如果任何输入数据丢失，则通常会引入大量偏差。虽然已经开发了许多技术来填补缺失数据，但由于自然图像的复杂性质，图像填补仍然是困难的。为了解决这个问题，在这里，我们提出了一个新的框架丢失的图像数据填补，称为协作生成对抗网络（CollaGAN）。CollaGAN将图像插补问题转换为多域图像到图像转换任务，以便单个生成器和并行网络可以使用剩余的干净数据集成功地估计缺失数据。我们证明CollaGAN在各种图像填充任务中，与现有的竞争方法相比，产生具有更高视觉质量的图像1. 介绍在许多图像处理和计算机视觉应用中，需要多组输入图像来生成期望的输出。例如，在脑磁共振成像（MRI）中，需要使用T1、T2或FLAIR（流体衰减反转恢复）对比度的MR图像来准确诊断和分割癌症边缘[6]。在从多视图相机图像生成3D体积[5]时，大多数算法需要预定义的视角集合。不幸的是，完整的输入12488由于获取成本和时间、数据集中的（系统）误差等，数据通常难以获得。例如，在使用磁共振图像编译（MAGiC，GE Healthcare）序列生成合成MR对比度时，经常报告合成T2-FLAIR对比度图像存在系统误差，导致错误诊断[30]。缺失数据也会导致大量偏倚，使数据处理和分析出错，降低统计效率[22]。不是在这种意外情况下再次采集所有数据集，这在临床环境中通常是不可行的，而是通常需要用替代值替换缺失数据。这个过程通常被称为估算。一旦所有缺失值均已插补，数据集可用作为完整数据集设计的标准技术的输入。有几种标准方法可以基于整个集合的建模假设来插补缺失数据，例如平均插补、回归插补、随机插补等[2，9]。遗憾的是，这些标准算法对于图像等高维数据具有局限性，因为图像填充需要高维图像数据流形的知识。类似的技术问题存在于图像到图像的翻译问题中，其目标是将给定图像的特定方面改变为另一个方面。诸如超分辨率、去噪、去模糊、风格转移、语义分割、深度预测等任务可以被视为将图像从一个域映射到另一个域中的对应图像[10，3，7，8]。这里，每个域具有不同的方面，诸如分辨率、面部表情、光的角度等，并且需要知道图像数据集的固有流形结构以在域之间转换。最近，由于生成对抗网络（GANs），这些任务得到了显着改进[11]。具体来说，CycleGAN[35]或Disco-GAN [18]已经成为在两个域之间传输图像的主要主力[17，21]。然而，这些方法在推广到多域图像传输时是无效的，因为N域图像传输需要N（N-1）个生成器（图1B）。1（a））。为了推广多域翻译的想法，Choi等人[4]提出了一个所谓的StarGAN，它可以通过单个生成器学习多个域之间的翻译映射（图11）。（b）款。最近提出了类似的多域传输网络[33]。这些基于GAN的图像传输技术与图像数据填补密切相关，因为图像传输可以被认为是通过对图像流形结构建模来估计丢失图像数据库的过程。然而，图像归责和图像翻译之间有着根本的区别。例如， Cy-cleGAN和StarGAN有兴趣将一个IM-年龄到另一个如图所示1（a）（b），而不考虑剩余的域数据集。然而，在图像插补问题中，缺失数据很少出现，目标是利用其他干净的数据集来估计缺失数据。因此，图像填充问题可以正确地描述为图1所示。1（c），其中一个生成器可以使用剩余的干净数据集估计缺失数据。由于缺失数据域并不难先验估计，因此应设计插补算法，使得一种算法可以通过利用其余域的数据来估计任何域中的缺失数据被称为协作生成对抗网络（CollaGAN）的图像填充技术与现有方法相比具有许多优点：• 可以从共享相同流形结构的多个输入数据集而不是从单个输入数据集输入.因此，使用CollaGAN估计缺失数据更准确。• CollaGAN仍然保留了类似于StarGAN的单生成器架构，与CycleGAN相比，它的内存效率更高。我们证明了所提出的算法显示出最好的per-perception之间的国家的最先进的算法，用于各种图像填充任务。2. 相关工作2.1. 生成对抗网络典型的GAN框架[11]由两个神经网络组成：生成器G和GAND。在训练过程中，神经网络试图找到区分真假样本的特征，而生成器则学习消除/合成神经网络用来判断真假的特征。因此，GANs可以生成更真实的样本，这些样本无法通过真实和虚假之间的差异来区分。GAN在各种计算机视觉任务中表现出显着的效果，例如图像生成，图像翻译等[16，21，18]。2.2. 图像到图像转换与原始GAN不同，条件GAN（Co- GAN）[26]通过添加一些信息标签作为生成器的附加参数来控制输出。在这里，生成器不是从未知的噪声分布中生成通用样本，而是学习生成具有特定条件或特征（例如与图像或更详细的标签相关联的标签）的假样本。条件GAN的成功应用是图像到图像的转换，例如pix2pix[17]用于配对数据，CycleGAN用于未配对数据[23，35]。12489图2：所提出方法的流程。D有两个分支：域分类D clsf和源分类D gan（真/假）。首先，Dclsf仅通过（1）从真实样本计算的损失（左）进行训练。然后，G使用输入图像的集合来重建目标域图像（中间）。对于循环一致性，生成的假图像与输入图像一起重新输入到G，G在原始域中产生多个重建输出。这里，Dclsf和Dgan分别通过仅来自（1）真实图像和（1）真实（2）假图像的损失来同时训练（右）。CycleGAN [35]和DiscoGAN [18]试图通过利用循环一致性损失来然而，这些框架-{x a}C={x b，x c，x d}，其中下标C表示互补集。该映射的形式描述如下：作品一次只能学习两个不同领域这些方法具有规模-xκ=G.Σ{xκ}C;κ（一）当处理多域时，由于每个域对需要单独的生成器对，并且需要总共N（N-1）个生成器来处理N个不同的域，因此存在能力限制。StarGAN [4]和Radial GAN [33]是使用单个生成器处理多个域的最新框架。例如，在StarGAN [4]中，来自输入图像和表示目标域的掩码向量的深度连接有助于将输入映射到目标域中的重建图像在这里，应该设计一个域分类器来扮演域分类的另一个角色具体地说，鉴别器不仅判定样本是真是假，而且判定样本的类别。3. 理论在这里，我们解释了我们的协作GAN框架来处理多个输入，以生成更真实，更可行的图像填充输出。与处理单输入和单输出的Star-GAN相比，使用所提出的方法处理来自多个域的多输入。3.1. 使用多个输入的图像填补为了便于解释，我们假设有四种类型（N=4）的域：a、b、c和d。为了使用单个生成器处理多个输入，我们训练生成器通过从其他类型的集合进行协作映射来合成target域xtaga中的输出图像其中，κ∈ {a，b，c，d}表示引导生成适当目标域的输出的目标域索引，κ。由于多输入单输出组合有N种组合，我们在训练过程中随机选择这些组合，以便生成器学习到多个目标域的各种映射。3.2. 网损多循环一致性损失所提出的方法的关键概念之一是多输入的循环一致性。由于输入是多个图像，因此应重新定义循环损失。假设来自整数生成器G的输出是xa。然后，我们可以生成N-1个新组合作为其他输入，发电机的逆流（图）。2中间）。对于前-例如，当N=4时，有三种多输入和单输出的组合，因此我们可以使用生成器的反向流来重建原始域的三个图像，如下所示：xb|a= G（{x∈a，xc，xd};b）x~c|a = G（{x∈a，xb，xd};c）xd|a= G（{x∈a，xb，xc};d）然后，相关的多周期一致性损失可以定义如下：Lmcc ， a=||xb−xb| 一 ||1 个以上 ||xc−xc| 一 ||1 个以上||xd−xd|一||112490中国社会科学基金会YYXgangan中国社会科学基金会中国社会科学基金会XX中国社会科学基金会哪里||1是l 1范数。||1isthel1-norm. 一般来说，对于forward生成器xκκ的c_c_consistenc_y损失可以写为：因此，关于G，以下损失应被最小化：Lmcc，κ=Σ||κ|第一章（二）||1(2)L假（G）=Ex| κ [−log（D中国社会科学基金会（κ;x）κ|κ））]（5）哪里κ′=/x′|κ= Gκ.{x}CΣ;κ′.（三）结构相似性指数损失结构相似性指数（SSIM）是衡量图像质量的最先进指标之一[32]。据报道，广泛用于图像恢复任务的l2损失SSIM是如前所述，鉴别器损失-tor有两个角色：一是对真实的来源进行分类或假的，另一个是分类域的类型，感知度量，它也是可微的，所以它可以反向传播[34]。像素p的SSIM定义为：是a，b，c或d类。因此，损失补偿-SSIM（p）=2µX µY+C1· 2σXY+C2（六）由两部分组成：对抗损失和域分类损失如图2，这可以通过使用一个dis.2+µ2+C12+σ2+C2criminator具有两条路径Dgan和Dclsf，除了最后一层之外，它们共享相同的神经网络权重。具体来说，对抗性损失是使生成的图像尽可能真实所必需的常规的GAN损失可能会导致学习过程中的梯度消失问题[24，1]。为了克服这样的问题并提高训练的鲁棒性，对抗性其中μX是X的平均值，σ2是X的方差，σ XX<$是X和X<$的协方差。有两个变量来稳定除法，例如C1=（k1L）2和C2=（k2L）2。L是像素强度的动态范围。k1和k2是常数，默认情况下k1=0。01且k2=0。03.由于SSIM定义在0和1之间，因此SSIM的损失函数可以写为：使用最小二乘GAN [24]的损失代替原始GAN损失。特别地，为了优化CXDgan，以下损失被最小化：LSSIM（X，Y）=−log12 |P|Σp∈P（X，Y）（1+SSIM（p））Ldsc（Dgan）=Ex[（Dgan（xκ）−1）2]+Exκ|κ[（Dgan（xκ|κ））2]，其中P表示像素位置集合，并且|P|它的心脏，而通过最小化以下损耗来优化发电机：nality SSIM损失作为附加倍数应用循环一致性损失如下：Lgen（G）=Exκ|κ[（Dgan（xκ|κ）−1）2]Lmcc−SSIM，κ=Σκ′/=κLSSIM.Σx κ′，xκ′|κ .（八）其中xκ|κ在（3）中定义。接下来，域分类损失由两部分组成我是真的，我是假的。它们是区域的交叉熵损失3.3. 掩码向量clsf从真实图像和伪图像中进行分类，重新分类。回想一下，训练G的目标是生成正确分类到目标域的图像因此，我们首先需要一个最好的分类器Dclsf，它应该只使用真实数据进行训练，以正确地指导生成器。协议-我们首先最小化损失Lreal来训练分类器D clsf ，则通过用固定的D clsf 训练G 来最小化Lfake，使得可以训练生成器以生成可以被正确分类的样本。具体地，为了优化Dclsf，下面的Lreal应相对于Dclsf最小化：µσκ12491中国社会科学基金会为了使用单个生成器，我们需要添加目标la-bel作为掩码向量的形式来指导生成器。掩码向量是一个二进制矩阵，它与输入图像具有相同的维数，可以很容易地连接。掩码向量具有N类通道维度，以将目标域表示为沿着通道维度的独热向量。这是最初在StarGAN [4]中引入的掩码向量的简化版本。4. 方法4.1. 数据集Lreal（Dclsf）=Ex[−log（Dclsf（κ;xκ））]（4）MR对比剂合成成像采用多动态多回波序列扫描280个脑轴位图像，其中Dclsf（κ;xκ）可以解释为将真实输入xκ正确分类为类别κ的概率。另一方面，应该训练生成器G以生成由Dclsf正确分类的假样本。10名受试者的FLAIR（液体衰减反转恢复）序列数据集中有四种类型的MR对比图像：T1-FLAIR（T1 F）、T2加权（T2 w）、T2-FLAIR（T2 F）和T2-FLAIR*（T2 F *）。的κ12492图3：MR对比度插补结果。生成的图像（右）由其他对比度输入（左）重建。黄色和绿色箭头指出了结果中值得注意的部分。对于CycleGAN和StarGAN，T2- FLAIR* 对比度用作T1-FLAIR/ T2加权/ T2-FLAIR对比度插补的输入，T1-FLAIR对比度用作T2-FLAIR* 对比度插补的输入。要归属的图像标记为问号。测试集的NMSE / SSIM平均值显示在每个结果上。前三次对比从磁共振图像编辑（ MAGiC ， GEHealthcare）获得，T2-FLAIR* 通过具有第三次对比（T2 F）的不同MR扫描参数的附加扫描获得。补充资料中提供了MR采集参数的详细信息CMU Multi-PIE对于照明转换任务，使用卡内基梅隆大学多姿态照明和表情面部数据库的子集[12]。第一阶段共有250名参与者，在以下五种照明条件下选择中性表情的正面：-90（右），-45，0（前），45度和90度（左）。图像被裁剪为240×240，其中面部居中，如图所示。4.第一章Radboud Faces Database（RaFD）[20]包含从67位参与者收集的8种不同的面部表情;中性、愤怒、轻蔑、厌恶、恐惧、快乐、悲伤和惊讶。此外，有三个不同的注视方向，因此受试者共划分了1，608个图像用于训练、验证和测试集。我们将图像裁剪为640×640，并将其调整为128×128。4.2. 网络实现所提出的方法由两个网络组成，发电机和发电机（图1）。2）的情况。达到最佳针对每个任务的性能，我们重新设计了生成器和拓扑结构，以适应每个任务的特性，而一般的网络结构是相似的。发电机生成器基于U-网[27]结构。U-net由编码器/解码器部分组成，编码器/解码器之间的每个部分通过收缩路径连接[27]。分别使用实例归一化[31]和我们还重新设计了网络的架构，以适应以下描述的每项任务。MR对比度平移有多种MR对比度，如T1加权对比度、T2加权对比度等。特定的MR对比扫描由MRI扫描参数（如重复时间（TR）、回波时间（TE）等）决定。MR对比图像的像素强度是基于组织的所谓MR参数的物理性质（诸如T1、T2、质子密度等）来决定的。MR参数是逐体素属性。这意味着对于卷积神经网络，逐像素处理与处理来自邻域和/或大FOV的信息一样重要。因此，生成器使用1x1和3x312493图4：（-90° C、-45° C、45° C和90° C）下的照明插补结果。插补图像（右）是从具有多个照明的输入（左）重建的。黄色箭头表示显著的部分。正面光照（0°）图像作为CycleGAN和StarGAN的输入要归属的图像标记为问号。测试集的NMSE / SSIM平均值显示在每个结果上。过滤器来处理多尺度特征信息。卷积的两个分支类似于初始网络[29]。照明转换对于照明转换任务，使用具有实例规范化的原始U网结构[31]而不是批量规范化。面部表情翻译对于面部表情翻译任务，输入是具有各种面部表情的多个面部图像。由于在面部表情之间存在主体的头部运动，因此图像不是严格按像素方式对齐的。如果我们使用原始的U-net进行面部表情图像到图像的任务，生成器表现出很差的性能，因为来自多个面部表情的信息在网络的早期阶段就混合在一起了。根据直觉，来自面部表情的特征应该在生成器的中间阶段混合，其中特征是从大FOV计算的，或者已经通过池化层进行了下采样。因此，生成器被重新设计为具有针对每八个面部表情的编码器的八个分支，并且它们在生成器的中间阶段处的编码过程之后被级联。解码器的结构类似于U-net的解码器部分，除了使用残差块[14]来添加更多的卷积层。有关发电机的更多详细信息，请参见补充材料。鉴别器鉴别器通常由一系列卷积层和Leaky-ReLU组成如图二、该路由器有两个输出标题：一个是用于真或假的分类报头，另一个是用于域的分类报头。PatchGAN [17，35]用于分类局部图像块是真实的还是假的。dropout[15，28]对于防止过拟合非常有效。例外的是，MR对比度平移的建模具有用于多尺度处理的分支具体的体系结构的详细信息可在补充材料中获得。4.3. 网络训练所有模型都使用Adam [19]进行了优化，学习率为0.00001，β1=0。9和β2=0。999如前所述，分类器的性能应该只与真实标签相关联，这意味着它应该只使用真实数据进行训练。因此，我们首先在真实图像上训练分类器，并在前10个epoch中使用相应的标签，然后同时训练生成器和分类器。使用单个NVIDIA GTX1080 GPU，MR对比度翻译任务、照明翻译和面部表情翻译任务分别需要大约六个小时、半天和一天的培训时间。对于照明转换任务，使用YCbCr颜色编码代替RGB颜色编码。YCbCr编码由Y-亮度和CbCr-颜色空间组成。有五种不同的照明图像。它们几乎共享CbCr编码，唯一的区别是Y亮度通道。因此，只有Y亮度通道是亲，12494图5：四个面部表情插补结果。生成的图像（右）是从具有多个面部表情（左）的输入重建的中性面部表情的图像被用作CycleGAN和StarGAN的输入。NMSE / SSIM的平均值显示在每个结果上。其余领域的结果见补充材料。然后将重建图像转换为RGB编码图像。我们使用RGB通道进行面部表情翻译任务，并且MR对比度数据集由单通道图像组成。5. 实验结果对于所有三个图像插补任务，每个数据集由子系统划分为训练集、验证集和测试集。因此，我们所有的实验都是在训练阶段使用看不见的图像进行的。我们将所提出的方法的性能与CycleGAN [35]和StarGAN [4]进行了比较，这是图像翻译任务的代表模型。5.1. MR对比度插补结果首先，我们在MR对比数据集上训练模型，以学习合成其他对比的任务。事实上，这是本研究的原始动机，受到临床需求的启发。数据集中有四种不同的MR对比度，发生器学习从一种对比度到另一种对比度的映射。如图3.该方法重建了四种不同的MR对比度，与目标非常相似，而StarGAN显示出较差的结果。对于定量评价，计算反射率和目标之间的归一化均方误差（NMSE）和SSIM通过与CycleGAN和StarGAN的重建结果进行比较，结果表明，该方法对4幅对比MR图像的重建误差最小。由于存在如此多的影响MR图像的像素强度的变量因此，在CycleGAN或StarGAN上，因为它们使用单个输入对比度。例如，考虑从图1中的T2 FLAIR* 输入重建T2加权图像。3.脑脊液（CSF）在T2加权图像中应该是明亮的，而在T2-FLAIR* 中应该是黑暗的（图中的黄色和绿色箭头）。（3）第三章。当StarGAN试图从T2FLAIR*生成 T2加权图像时，这应该是困难的，因为输入像素接近于零。Star-GAN以某种方式重建了灰质附近的CSF像素（图中的黄色箭头）。3）在邻近区域的帮助下，但较大的CSF面积（图中的绿色箭头）。3）由于邻域像素的帮助有限而无法重建。然而，所提出的方法利用输入的组合来精确地重建每个像素。5.2. 照明插补结果我们使用CMU Multi-PIE数据集训练CycleGAN，StarGAN和所提出的方法进行照明插补任务。给定五个不同的照明方向，CycleGAN和StarGAN的输入域固定为正面照明（0°）。如图4.所提出的方法清楚地产生自然光照，同时适当地保持面部图像的颜色、亮度平衡和纹理。与CycleGAN和StarGAN的结果相比，CollaGAN产生的自然光照具有最小误差（图中的NMSE/SSIM）。4）.CycleGAN和StarGAN还从正面照明输入生成四种不同的照明图像。然而，在Cy- cleGAN的结果中，我们可以看到红色通道的强调，图像整体看起来是红色的由此产生12495图6：CollaGAN图像插补结果的不完整和完整输入数据集的比较。对于收入-在完全输入的情况下，生成的图像（右）是从具有多个面部表情（左）的输入重建的，其中一个面部表情来自另一个人（红框）。要归属的图像标记为问号。图像看起来像一个图形模型或绘图，而不是一张照片。StarGAN生成的图像只是平滑地调整了照明的左右，但没有反映出面部结构等细节照明。在StarGAN的结果上观察到不自然的照明变化。在三种算法中，该方法显示了最自然的光照图像。虽然CycleGAN和StarGAN只是简单地调整了图像左右两侧的亮度，但鼻子、脸颊和下巴的形状所造成的阴影在所提出的方法中表现得很自然。4黄色箭头）。5.3. 面部表情填补使用RaFD中的八种面部表情来训练所提出的面部表情填补模型。CycleGAN和StarGAN的输入域被定义为八个不同面部表情中的中性表情。使用所提出的方法自然地重建了不同的面部表情，如图所示。 5.CollaGAN产生最自然的图像与最小的NMSE和最好的SSIM分数相比，循环GAN和StarGAN，你可以看到在图。五、与仅使用单一输入的StarGAN的结果相比，该方法利用了尽可能多的面部表情组合信息。如CycleGAN和StarGAN生成的结果所示（图1）。5），“sad”的生成结果与作为其输入的“neutral”的生成图像非常相似，而所提出的方法很好地表达了“sad”。在多周期一致性的帮助下，所提出的方法清楚地生成自然的面部表情，同时正确地保留身份。5.4. 不完全输入集为了研究所提出的方法的鲁棒性，我们展示了CollaGAN结果从不完整的输入集。如果有两个缺失的面部表情（例如，“快乐”和“中性”），并且一个人对重建丢失的图像感兴趣（例如，“快乐”），可以替换一个图像（例如，““中性”）作为CollaGAN的输入之一。如图6.用不完全输入数据集生成的图像与完全输入数据集生成的图像相比，结果相似。CollaGAN利用其他受试者“中性”）来估算缺失的面部表情（例如，6. 结论在本文中，我们提出了一种新的CollaGAN架构的缺失图像数据填补协同结合的信息，从可用的数据与一个单一的生成器和嵌入式系统的帮助。我们表明，所提出的方法产生更高的视觉质量的图像相比，现有的方法。因此，我们认为CollaGAN是一个很有前途的算法，在许多现实世界的应用中丢失的图像数据填补。谢谢。这项工作得到了韩国国家研究基金会（NRF-2016 R1 A2 B3008104）和韩国政府（MSIT）资助的信息通信技术促进研究所（IITP）资助的支持[2016-0-00562（R 0124 -16- 0002），情感智能技术推断人类情感并相应地进行对话]。12496引用[1] M. Arjovsky，S. Chintala和L.博图Wasserstein GANarXiv预印本arXiv：1701.07875，2017。[2] A. N. Baraldi和C. K.恩德斯现代缺失数据分析导论。学校心理学杂志，48（1）：5[3] T. 陈文 M. Cheng ， P. Tan ， A. Shamir 和 S.- M. 胡Sketch2photo ：互联网图像蒙太奇。在 ACMTransactions on Graphics（TOG），卷28（5），页124中。ACM，2009年。[4] Y.崔，M。崔，M。金，J. - W.哈，S。金和周杰伦StarGAN：用于多域图像到图像翻译的统一生成对抗网络arXiv预印本，1711年，2017年。[5] C. B. Choy，D. Xu，J. Gwak，K. Chen和S. Savarese 3D-R2 N2：用于单视图和多视图3D对象重建的统一方法。在欧洲计算机视觉会议上，第628-644页施普林格，2016年。[6] A. Drevelegas和N. Papanikolaou。脑肿瘤的成像模式。在脑肿瘤与组织学相关性的成像中，第13-33页。Springer，2011.[7] A. A. Efros和W. T.弗里曼。用于纹理合成和转移的图像绗缝。在第28届计算机图形和交互技术年会中，第341-346页。ACM，2001年。[8] D. Eigen和R.费格斯。预测深度，表面法线和语义标签与一个共同的多尺度卷积架构。在IEEE计算机视觉国际会议论文集，第2650-2658页[9] C. K.恩德斯应用缺失数据分析。Guilford Press，2010.[10] R. 费格斯湾辛格A.Hertzmann，S.T. Roweis和W.T.弗里曼。从单张照片中消除相机抖动。在ACM transactionson graphics（TOG），第25（3）卷，第787-794页中。ACM，2006年。[11] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在神经信息处理系统的进展，第2672-2680页[12] R.格罗斯岛Matthews，J. Cohn，T. Kanade和S.贝克多个PIE 。 Image and Vision Computing ， 28 （ 5 ）： 807-813，2010.[13] K.他，X。Zhang，S. Ren和J. Sun.深入研究整流器：在imagenet分类上超越人类水平的性能在Proceedings ofthe IEEE international conference on computer vision ，pages 1026[14] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 770[15] G. E. 辛顿，N.斯里瓦斯塔瓦A.克里热夫斯基岛Sutskever和R. R.萨拉赫季诺夫通过防止特征检测器的共适应来改进神经网络。arXiv预印本arXiv：1207.0580，2012。[16] X. Huang，Y.黄氏Y. Li，O. Poursaeed，J. E. Hopcroft和S.杰·伯朗吉。堆叠生成对抗网络。在CVPR，第2卷，第3页，2017年。[17] P. Isola，J.- Y. Zhu，T. Zhou和A. A.埃夫罗斯使用条件对抗网络的图像到图像翻译。arXiv预印本，2017年。[18] T.金，M。Cha，H.金，J. K. Lee和J. Kim。学习发现跨域关系与生成对抗网络。 arXiv 预印本 arXiv ：1703.05192，2017。[19] D. P. Kingma和J. BA. Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[20] O.兰纳河多奇湾Bijlstra，D. H. Wigboldus，S. T. Hawk和A.范·克尼彭伯格Radboud人脸数据库的表示和验证。认知与情感，24（8）：1377[21] C. 莱迪格湖Theis，F.Husza'r，J.Caballero，A.坎宁安A.阿科斯塔A. P. Aitken，A. Tejani，J. Totz，Z. wang等人使用生成对抗网络的照片级逼真的单幅图像超分辨率。在CVPR，第2卷（3），第4页，2017年。[22] R. J. Little和D.B. 鲁宾缺失数据的统计分析，第333卷。John Wiley Sons，2014.[23] M.- Y. Liu，T. Breuel和J.考茨无监督图像到图像翻译网络。神经信息处理系统，第700-708页，2017年[24] X.茅角，澳-地Li，H.谢河，巴西-地Y. Lau，Z. Wang和S.史莫利。最小二乘生成对抗网络。在Computer Vision（ICCV），2017 IEEE国际会议上，第2813-2821页。IEEE，2017年。[25] M.马蒂厄角Couprie和Y.乐存。超越均方误差的深度多尺度视频预测。 arXiv 预印本 arXiv ： 1511.05440 ，2015。[26] M. Mirza和S.奥辛德罗条件生成对抗网。arXiv预印本arXiv：1411.1784，2014。[27] O.龙内贝格山口Fischer和T.布洛克斯U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234-241页。施普林格，2015年。[28] N. Srivastava、G.Hinton，A.克里热夫斯基岛Sutskever和R.萨拉赫季诺夫Dropout：防止神经网络过拟合的简单方法。机器学习研究杂志，15（1）：1929[29] C. 塞格迪 W. 刘先生， Y. 贾， P. Sermanet S. 里德D.安格洛夫，D。Erhan，V. Vanhoucke，和A.拉比诺维奇。更深的回旋。在IEEE计算机视觉和模式识别会议论文集，第1-9页[30] L. N. Tanenbaum，A. J. Tsiouris，A. N.约翰逊，T。P.Naidich，M. C. DeLano，E. R. Melhem，P. 夸特曼，S. Parameswaran，A. Shankaranarayanan，M. Goyen等人用于临床神经成像的合成 MRI ：磁共振图像编辑（MAGiC）前瞻性、多中心、多阅片人试验的结果。美国神经放射学杂志，2017年。[31] D. Ulyanov，A.Vedaldi和V.Lempitsky 实例规范化：快速风格化缺少的成分。 arXiv 预印本 arXiv ：1607.08022，2016。[32] Z. Wang，中国山核桃A. C. Bovik，H. R. Sheikh和E.西蒙·切利。图像质量评估：从误差可见性到12497结构相似性IEEE图像处理学报，13（4）：600[33] J. Yoon、J. Jordon和M.范德沙尔。RadialGAN：利用多个数据集，使用生成对抗网络改进目标特定的预测模型。arXiv预印本arXiv：1802.06403，2018。[34] H. Zhao，O.加洛岛Frosio和J.考茨神经网络图像恢复的损失函数IEEE Transactions on Computational Imaging，3（1）：47[35] J. - Y. Zhu，T.帕克山口Isola和A.A. 埃夫罗斯使用循环一致对抗网络的不成对arXiv预印本，2017年。

下载后可阅读完整内容，剩余1页未读，立即下载